- 루씬에서의 '분석(analysis)'이라는 과정
- 필드에 지정된 텍스트를 색인 내부에서 사용하는 가장 기본적인 단위 텀으로 분리하는 작업
- 분리된 텀을 색인에 저장해두고, 검색할 때 지정한 질의와 텀을 비교해 어떤 문서가 질의에 해당하는지 판단
- 분석기는 여러 단계를 거쳐 텍스트에서 텀을 분리하며, 분석기에 따라 단어 분리, 불용어 제거, 소문자 변경 등의 작업을 거친다
- 이렇게 분리된 개별 결과물을 '토큰(token)'이라고 부르며, 이런 과정을 토큰화(tokenization) 작업이라고 한다
- 하나의 분석기로 여러가지 요구사항에 맞게끔 하기는 어렵기 때문에, 그에 맞는 분석기를 개발해야 한다
- 4.1 분석기 활용
- 4.2 분석기 내부 구조
- 4.3 루씬 내장 분석기
- 4.4 유사 발음 검색
- 4.5 유사어 검색
- 4.6 기본형 분석기
- 4.7 필드 유형별 처리
- 4.8 언어별 분석