You signed in with another tab or window. Reload to refresh your session.You signed out in another tab or window. Reload to refresh your session.You switched accounts on another tab or window. Reload to refresh your session.Dismiss alert
핵심적인 단어, 키워드는 글 전체에서 여러 번 사용되는 경향이 있음. 핵심 키워드가 종종 미등재어나 신조어인 경우가 있는데, 이 때 글 내에서 여러 번 등장하는 키워드들이 형태소 분석 과정에서 서로 다 다른 조합으로 분해되는 경우가 많다. 이런 경우 빈도 정보를 통해 자주 반복되는 키워드를 미리 신조어 취급하여 분석하면 해당 키워드들에 대해 일관적인 결과를 얻을 수 있지 않을까?
예시: 알리오올리오가 핵심 단어인 글(총 3회 등장) 시작은 드라마 〈파스타〉였다. 많은 내 또래들이 이 드라마를 통해 ‘알리오올리오’에 입문했으리라. 드라마를 보던 당시, 나는 취업을 준비하던 백수였고 집에 올리브유와 마늘쯤은 있었다. 이름을 처음 접했던 페퍼론치노는 청양고추로 맛을 내면 될 일. 한번 따라 해 보자는 마음으로 알리오올리오를 가볍게 만들어 봤다. 역시나 맛이 없었다. 모든 재료들이 겉도는 밍밍한 맛과 이빨에 들러붙을 정도로 딱딱한 면의 식감에 고개가 갸우뚱. 제대로 된 알리오올리오는 얼마나 맛있길래
핵심적인 단어, 키워드는 글 전체에서 여러 번 사용되는 경향이 있음. 핵심 키워드가 종종 미등재어나 신조어인 경우가 있는데, 이 때 글 내에서 여러 번 등장하는 키워드들이 형태소 분석 과정에서 서로 다 다른 조합으로 분해되는 경우가 많다. 이런 경우 빈도 정보를 통해 자주 반복되는 키워드를 미리 신조어 취급하여 분석하면 해당 키워드들에 대해 일관적인 결과를 얻을 수 있지 않을까?
예시:
알리오올리오
가 핵심 단어인 글(총 3회 등장)시작은 드라마 〈파스타〉였다. 많은 내 또래들이 이 드라마를 통해 ‘알리오올리오’에 입문했으리라. 드라마를 보던 당시, 나는 취업을 준비하던 백수였고 집에 올리브유와 마늘쯤은 있었다. 이름을 처음 접했던 페퍼론치노는 청양고추로 맛을 내면 될 일. 한번 따라 해 보자는 마음으로 알리오올리오를 가볍게 만들어 봤다. 역시나 맛이 없었다. 모든 재료들이 겉도는 밍밍한 맛과 이빨에 들러붙을 정도로 딱딱한 면의 식감에 고개가 갸우뚱. 제대로 된 알리오올리오는 얼마나 맛있길래
이 글을 Kiwi v0.17.1에서 분석하면 다음과 같은 결과가 나온다.
전체 분석 결과
구체적으로 다음과 같은 조건을 사용하여 핵심 키워드인 미등재어를 추출할 수 있지 않을까?
이를 구현하기 위해서는 입력 텍스트 내의 모든 substring의 빈도를 조사해야하는데 이는 suffix-array 기반의 FM-index를 구축하면 빠르게 처리할 수 있다.
The text was updated successfully, but these errors were encountered: