Skip to content

A curated list of resources of chinese corpora for NLP(Natural Language Processing)

Notifications You must be signed in to change notification settings

wangmuy/awesome-nlp-chinese-corpus

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

29 Commits
 
 
 
 

Repository files navigation

awesome-nlp-chinese-corpus

A curated list of resources of chinese corpora for NLP(Natural Language Processing)

中文自然语言处理语料 收集列表

Pull requests are welcome!

欢迎提交PR!

Contents 列表

综合内容

出处 语料大小 年代
upenn.edu 各种 各种
出处 语料大小 年代
conll.org 各种 各种
出处 语料大小 年代
wikimedia.org 各种 各种
出处 语料大小 年代
ics.uci.edu 221k 2015
出处 语料大小 年代
www.opensubtitles.org 各种 各种
出处 语料大小 年代
opendata.pku.edu.cn 各种 各种
出处 语料大小 年代
新加坡科技与设计大学 StatNLP 各种(英/中/印度) 2017
出处 语料大小 年代
清华大学自然语言处理实验室 740k 2005-2011
  • 任务1: Chinese Word Semantic Relation Classification
  • 任务2: 新闻头条分类
  • 任务3: 新闻头条摘要
  • 任务4: Emotional Conversation Generation
  • 任务5: 开放领域问答
  • 任务6: 社交网络用户画像
出处 语料大小 年代
新闻头条分类 NLPCC 2017 200k 2017
新闻头条摘要 NLPCC 2017 未考察 2017
  • 任务1: 情绪识别
  • 任务2: 语法纠错
  • 任务3: 自动文摘
  • 任务4: 任务型对话系统中的口语理解
  • 任务5: 多轮人机对话
  • 任务6: 知乎问题标注
  • 任务7: 开放领域问答
  • 任务8: 用户画像与推荐
出处 语料大小 年代
NLPCC 2018 各种 2018
出处 语料大小 年代
CCKS 2019 各种 2019
  • 任务1: 面向中文电子病历的命名实体识别
  • 任务2: 面向音乐领域的命令理解任务
  • 任务3: 微众银行智能客服问句匹配大赛
  • 任务4: 开放领域的中文问答任务
出处 语料大小 年代
CCKS 2018 各种 2018
出处 语料大小 年代
CCKS 2017 各种 2017
出处 语料大小 年代
用户画像 SMP2018, SMP-EUPT 28万 2018
中文人机对话 SMP2018, SMP-ECDT 极少 2018
文本溯源 SMP2018, SMP-ETST 极少 2018
出处 语料大小 年代
CSDN用户画像 SMP2017, CSDN 10万 2017
中文人机对话 SMP2017ECDT 极少 2017
出处 语料大小 年代
微博用户画像 SMP2016, 微博 4.6万 2016
出处 语料大小 年代
WSDM Cup 2019 400k 2018
出处 语料大小 年代
ymcui/cmrc2017 364k 2017
出处 语料大小 年代
ymcui/cmrc2018 18k 2018
出处 语料大小 年代
ymcui/cmrc2019 100k 2019
出处 语料大小 年代
yongfeng.me/dataset 6000万 2014
出处 语料大小 年代
yongfeng.me/dataset 360万 2014
出处 语料大小 年代
challenger.ai 1300万 2018
出处 语料大小 年代
challenger.ai 20万 2018
出处 语料大小 年代
challenger.ai 25万 2018
出处 语料大小 年代
sogou.com 免费小样本 2012
出处 语料大小 年代
bosonnlp.com 中小 2014-2015
出处 语料大小 年代
openkg.cn 各种 各种
出处 语料大小 年代
biendata.com 各种 各种
出处 语料大小 年代
biendata.com, 搜狐 百万级 2018
出处 语料大小 年代
biendata.com 未知 2019
出处 语料大小 年代
nlpir.org ~2万 2011
出处 语料大小 年代
baidu 950k 2017
出处 语料大小 年代
jhu.edu 19k 2015
出处 语料大小 年代
github.com/MarkWuNLP 1000k 2017
出处 语料大小 年代
52nlp.cn 39k 2010
出处 语料大小 年代
github.com/crownpku 各种 各种
出处 语料大小 年代
github.com/crownpku 各种
出处 语料大小 年代
github.com/fateleak 未知 2016
出处 语料大小 年代
github.com/nonamestreet 3G 未知
出处 语料大小 年代
blog.just4fun.site 各种 各种
出处 语料大小 年代
github.com/Samurais 2016
出处 语料大小 年代
github.com/Samurais 未知
出处 语料大小 年代
erhengzhong 未知 2010-2012
出处 语料大小 年代
chinese-poetry/chinese-poetry 5.5万首唐诗、26万首宋诗和2.1万首宋词 唐宋
出处 语料大小 年代
wainshine/Company-Names-Corpus 480万 2018
出处 语料大小 年代
ymcui/Chinese-Cloze-RC 87万 未知
出处 语料大小 年代
Determined22/zh-NER-TF 5万 1998
出处 语料大小 年代
brightmart/nlp_chinese_corpus 250万 2016
出处 语料大小 年代
brightmart/nlp_chinese_corpus 150万 2016
出处 语料大小 年代
brightmart/nlp_chinese_corpus 410万 2016
出处 语料大小 年代
GaoPeng97/transformer-xl-chinese 410万 2011
出处 语料大小 年代
DRCKnowledgeTeam/DRCD 3万 2018
出处 语料大小 年代
zhengcj1/ChID-Dataset 729k 2019
出处 语料大小 年代
kaggle.com/utmhikari 200万 2017
出处 语料大小 年代
kesci.com 未知 2019
出处 语料大小 年代
github.com/DongDongGe1 500 2019
出处 语料大小 年代
zhihu.com/people/sgai 6万 2019
出处 语料大小 年代
kesci.com 未知 2019
出处 语料大小 年代
github.com/fate233 38万 2018
出处 语料大小 年代
kesci.com 未知 2011-2016
出处 语料大小 年代
kaggle.com 19.1k 2019
出处 语料大小 年代
github.com/lancopku 未知 2018
出处 语料大小 年代
kesci.com 19W 2019
出处 语料大小 年代
kaggle.com 143k 2019
出处 语料大小 年代
kesci.com 未知 2019

Embedding 词嵌入

模型 语料大小 嵌入大小
word2vec/fasttext 各种 各种
模型 语料大小 嵌入大小
word2vec 50101 300
模型 语料大小 嵌入大小
fastText 简中332647 300
模型 语料大小 嵌入大小
BPE 各种 各种
模型 语料大小 嵌入大小
DSG 800多万 200

Pre-trained Language Models 预训练语言模型

模型 语料大小 特点
RoBERTa 近3亿个句子,100亿个中文字 6层/12层/24层

About

A curated list of resources of chinese corpora for NLP(Natural Language Processing)

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published