Skip to content

mC4のデータ加工を検討するためのレポジトリ

License

Notifications You must be signed in to change notification settings

hatakeyama-llm-team/Dataset_mC4

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

3 Commits
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 

Repository files navigation

日本語の事前学習コーパスの作成

このレポジトリは日本語の事前学習コーパスを作ることを目的としています.

※このスクリプトはGENIAC(松尾研究室)の活動で開発が進められています.

  • mc4をクリーニングし、機械学習で商用サイトなどをフィルタリングし、textを出力します
  • もとのサイズの20%くらいまでクリーニングできます(推定値)
  • 並列化に対応していないコードなので注意
  • 他のdatasetでも清掃可能です。
  • CommonCrawlからWARCファイルをダウンロード
  • 日本語のページを抜き出し、クリーニング、ゴミ記事の削除、jsonlを生成
  • までやるコードです

予定

  • 3/2 Streamlitを使い, アプリ上からコーパス構築を進められるツールの作成

  • 3/3 コードの並列化に対応

  • 3/5 大規模データ加工に秀でたAmazon EMRを使用し, 分散でデータの加工を実行するコードの追加

TODO

  • クリーニング精度
  • 記事の分割精度
  • ほか

About

mC4のデータ加工を検討するためのレポジトリ

Resources

License

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Languages