Skip to content

부산대학교 2017년 졸업과제 - 어휘의미망(WordNet)을 이용한 Word-Embedding 성능 향상

Notifications You must be signed in to change notification settings

cultivo-hy/Sense-embedding

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

20 Commits
 
 
 
 
 
 
 
 
 
 
 
 
 
 

Repository files navigation

Sense-Embedding

딥 러닝 기반의 자연 언어 처리에서 가장 핵심이 되는 Word-Embedding의 성능을 향상 시키는 것을 목적으로 개발하였다.
자연 언어 처리에서 가장 많이 쓰는 word2vec을 기반으로 어휘의미망(WordNet)을 이용하여 동일한 의미의 단어들을
Synset으로 묶은 Sense라는 개념을 도입하여 성능을 향상시키고, 평가하는 프로그램을 제공한다.

Contents

설치방법

	git clone https://github.com/sukgiyeol/Sense-Embedding.git
	cd ./Sense-Embedding/src		
	make

구조도

구조도

사용법

corp2word
말뭉치를 Parsing하는 프로그램이다. 위 프로젝트의 경우, 부산대학교 인공지능연구실에서 제공받은 형태소 정보가 붙어 있는
말뭉치를 사용하였기 때문에 학습에 필요한 형태로 parsing하였다. 이때 학습 효율을 올리기 아래 조건을 적용하여 단어 형태 변형 및 특정 조건의 단어만 수집되도록 하였다.

	./corp2word <Corpus Folder> <Output File>
  • 단어의 품사 중 ‘명사’, ‘단위성의존명사’, ‘외국어’, ‘서수사’, ‘수관형사’, ‘형용사’, ‘부사’, ‘동사’, ‘동사화접미사’,
    ‘화폐단위’, ‘도량형단위’에 대한 단어만 추출한다.
  • ‘먹고’, ‘먹는’과 같이 모양이 변형된 동사에 대해 ‘먹다’와 같이 기본 형태로 변경한다. 두 단어 이상의 명사로 구성된
    복합명사는 기존 복합명사 뒤 괄호와 복합명사를 구성하고 있는 * 개별 명사들이 각각 ‘+’로 구분되어 추가된다.
    (ex. 목욕수건(목욕+수건) )
  • 서수사’ 또는 ‘수관형사’를 품사 태그로 가지는 단어 내부에 실수(實數)가 존재한다면 해당 실수(實數)는 ‘n’으로 치환한다.(ex. 10 -> n)
  • 기존 제공된 말뭉치의 개행뿐만 아니라 단어 온점(‘.’)에 대해서도 개행을 추가한다.

About

부산대학교 2017년 졸업과제 - 어휘의미망(WordNet)을 이용한 Word-Embedding 성능 향상

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published