Skip to content

Latest commit

 

History

History
36 lines (32 loc) · 1.4 KB

README.md

File metadata and controls

36 lines (32 loc) · 1.4 KB

Misspelled-Korean-Data-Generator

맞춤법이 틀린 한국어 데이터를 만드는 코드

Requirements

원래 requirements.txt로 한번에 설치하게 하려고 했는데, 패키지 중 py-hanspell자체 내에서 설치 오류가 발생하여 py-hanspell만 따로 설치 방법을 적습니다.
이후에 업데이트 되어서 코드가 정상적으로 잘 작동하면 requirements.txt에 추가하도록 하겠습니다.

  • py-hanspell 설치법
    git clone https://github.com/study-ai-data/py-hanspell
    cd py-hanspell
    python setup.py install
  • py-hanspell을 제외한 나머지 패키지 설치:
    pip install -r requirements.txt

Installation

python setup.py install             # install package

Getting Started

  1. 원본 파일을 ./data 폴더에 넣어주세요.
  2. ./misspell.py에서 53번 째 줄의 filename = "..."을 원하는 파일 이름으로 변경해주세요.
  3. 코드를 실행 시 문법오류가 있는 데이터가 ./data/tgt/ 폴더에 .txt 형태로 저장됩니다.
    python misspell.py

Note

자료의 부족으로 아직은 직접 데이터를 분석해서 데이터를 생성해야 합니다.
데이터 분석은 [docs/dev_guide]를 참고해주세요.