Notice
Recent Posts
Recent Comments
Link
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | 6 | 7 |
8 | 9 | 10 | 11 | 12 | 13 | 14 |
15 | 16 | 17 | 18 | 19 | 20 | 21 |
22 | 23 | 24 | 25 | 26 | 27 | 28 |
29 | 30 |
Tags
- Spring Servlet이란
- 자바
- elasticSearch
- ElasticSearch NGram
- Servlet Container란
- Servlet Life Cycle
- ElasticSearch Shingle
- ElasticSearch EdgeNGram
- 계산기
- ElasticSearch 동의어 사전
- Spring Handler
- ContextLoaderListener란
- Spring Container란
- 안드로이드스튜디오
- spring 장점
- Bean Factory란
- 토큰필터
- Servlet과 Thread
- ElasticSearch 동의어 파일
- 안드로이드
- Dispathcher Servlet이란
- 인텔리제이
- Java
- H2
- ElasticSearch 토큰필터
- ApplicationContext란
- H2 DB
- Servlet 멀티 스레딩
- layout
- 동의어 파일
Archives
- Today
- Total
목록불용어 사전 파일관리 (1)
결국 무엇이든 해내는 사람

-- 기사나 포스팅 글에서는 의미없는 조사나 전치사 등이 많음 -- 영문에서도 마찬가지 the , a , an ,,, -- 이러한 단어들은 대부분 검색어로 쓰이지 않는데, 이런 단어를 한국어로는 [ 불용어 ]라고 한다 -- 불용어는 영어로 stopword 라고 한다. -- [ Stop ] 토큰 필터를 적용하면 불용어에 해당하는 텀들을 제거한다. -- "_english_" , "_german_" 같이 언어를 지정해서 해당 언어팩에 있는 불용어를 지정할 수도 있다. -- 한,중,일어 등은 별도의 형태소 분석기를 사용해야한다. -- 불용어 목록을 별도의 텍스트 파일로 저장하고 저장된 파일경로를 stopwords_path 항목의 값으로 지정하여 사용하는 것도 가능하다. -- 불용어 in,the,days로 지정 ..
두서없는 공부 노트/ElasticSearch
2021. 12. 14. 16:59