결국 무엇이든 해내는 사람

ElasticSearch - (캐릭터 필터)HTML Strip 란 [ 예제, 설명 ] 본문

두서없는 공부 노트/ElasticSearch

ElasticSearch - (캐릭터 필터)HTML Strip 란 [ 예제, 설명 ]

kkm8257 2021. 12. 14. 14:45
반응형
-- HTML로 된 텍스트 값의 경우 태그들을 제거하여 일반 텍스트로 만들 수 있다.
-- <> 로 된 태그 뿐만 아니라 &nbsp; 와 같은 html 문법 용어들도 해석한다
-- 옵션은 html_strip 으로 줄 수 있다.

POST _analyze
{
  "tokenizer": "keyword",
  "char_filter": [
    "html_strip"
  ],
  "text": "<p>I&apos;m so <b>happy</b>!</p>"
}

-- I'm so happy! 로 변경되었음

-- [ 주의 ]
-- 애널라이저는 최소 1개의 토크나이저를 필요로 하기 때문에 캐릭터 필터만 적용하면 오류가 발생한다.
-- 그러므로 위에서는 keyword 토크나이저를 사용












반응형
Comments