<바른문장>은 어색한 한국어 문장을 자연스럽게 바꿔 주는 프로그램입니다.
GPT2를 사용한 버전이 배포되었습니다. gpt 브랜치에서 확인하실 수 있습니다.
- git clone을 통해 레포지토리를 클론하거나 Code > Download ZIP을 통해 프로젝트를 다운로드합니다.
- 체크포인트를 다운받은 후
korean_polisher
폴더 안에 압축을 풀어korean_polisher/checkpoints
폴더에 체크포인트 파일들을 넣습니다. - 밑의 의존성 문단에 있는 패키지를 설치합니다.
- 터미널에서
python run_server.py
를 입력하여 서버를 실행합니다. - chrome://extensions/에 들어가 개발자 모드를 켜고 ‘압축해제된 확장 프로그램을 로드합니다’를 누른 후 프로젝트의 디렉토리(
extension
)를 선택합니다.
- 위 절차를 모두 밟으셨다면 https://2runo.github.io/demo에서 성능을 테스트해보세요!
- 브라우저에서 글을 입력하는 도중, 확장 프로그램이 어색한 문장을 감지해 수정해 줍니다.
사용하는 파이썬 환경에 poetry 또는 requirements.txt를 통해 패키지를 설치해 주세요.
또한 크로미움 계열 브라우저에서만 정상작동합니다.
본 모델의 학습 방식은 비지도(unsupervised learning) 방식입니다. 즉, 지도학습 데이터는 필요하지 않으며 단순 말뭉치만 있으면 됩니다.
학습하는 구체적인 과정은 다음과 같습니다.
- 나무위키, 위키피디아 등에서 정형화된 말뭉치를 수집합니다.
- 문장을 어색하게 만드는 규칙을 작성합니다. (조사 바꾸기, 단어 섞기 등) [코드 참조]
- 규칙을 적용해 말뭉치 데이터를 어색하게 만들고 이를 복원하도록 트랜스포머(transformer) 모델을 학습합니다.
날짜 | 내용 |
---|---|
2020-10-18 | 최초 배포 |
2020-12-11 | 추가 학습 진행 (약 2000만 문장 추가 학습) |
2020-12-21 | 추가 학습 진행 (약 4000만 문장 추가 학습) |