Branching Entropy를 형태소 분석과 함께 신조어 탐색에 써볼 수 없을까 생각하며 테스트해본 레포지토리입니다. 나무위키 코퍼스를 기준으로 형태소 분절 후 Branching Entropy를 계산하였습니다.
설명 블로그 글: https://blog.ukjae.io/posts/pos-tagger-branching-entropy/
- nori-clone을 활용하여 약 200만 문장을 분절
- 분절된 형태소 기준으로 branching entropy를 계산
- entropy가 높은 순대로 csv로 덤프
특정 형태소가 포함되거나, 특정 형태소로 끝나는 경우는 분석 결과에서 제외했습니다.
./download.sh
python extract.py