awesome-nlp-chinese-corpus
A curated list of resources of chinese corpora for NLP(Natural Language Processing)
中文自然语言处理语料 收集列表
出处 |
语料大小 |
年代 |
upenn.edu |
各种 |
各种 |
出处 |
语料大小 |
年代 |
conll.org |
各种 |
各种 |
出处 |
语料大小 |
年代 |
wikimedia.org |
各种 |
各种 |
出处 |
语料大小 |
年代 |
ics.uci.edu |
221k |
2015 |
出处 |
语料大小 |
年代 |
opendata.pku.edu.cn |
各种 |
各种 |
出处 |
语料大小 |
年代 |
新加坡科技与设计大学 StatNLP |
各种(英/中/印度) |
2017 |
出处 |
语料大小 |
年代 |
清华大学自然语言处理实验室 |
740k |
2005-2011 |
出处 |
语料大小 |
年代 |
新闻头条分类 NLPCC 2017 |
200k |
2017 |
新闻头条摘要 NLPCC 2017 |
未考察 |
2017 |
- NLPCC 2018
- 任务1: 情绪识别
- 任务2: 语法纠错
- 任务3: 自动文摘
- 任务4: 任务型对话系统中的口语理解
- 任务5: 多轮人机对话
- 任务6: 知乎问题标注
- 任务7: 开放领域问答
- 任务8: 用户画像与推荐
出处 |
语料大小 |
年代 |
NLPCC 2018 |
各种 |
2018 |
出处 |
语料大小 |
年代 |
CCKS 2018 |
各种 |
2018 |
出处 |
语料大小 |
年代 |
CCKS 2017 |
各种 |
2017 |
出处 |
语料大小 |
年代 |
用户画像 SMP2018, SMP-EUPT |
28万 |
2018 |
中文人机对话 SMP2018, SMP-ECDT |
极少 |
2018 |
文本溯源 SMP2018, SMP-ETST |
极少 |
2018 |
出处 |
语料大小 |
年代 |
CSDN用户画像 SMP2017, CSDN |
10万 |
2017 |
中文人机对话 SMP2017ECDT |
极少 |
2017 |
出处 |
语料大小 |
年代 |
微博用户画像 SMP2016, 微博 |
4.6万 |
2016 |
出处 |
语料大小 |
年代 |
WSDM Cup 2019 |
400k |
2018 |
出处 |
语料大小 |
年代 |
challenger.ai |
1300万 |
2018 |
出处 |
语料大小 |
年代 |
challenger.ai |
20万 |
2018 |
出处 |
语料大小 |
年代 |
challenger.ai |
25万 |
2018 |
出处 |
语料大小 |
年代 |
sogou.com |
免费小样本 |
2012 |
出处 |
语料大小 |
年代 |
bosonnlp.com |
中小 |
2014-2015 |
出处 |
语料大小 |
年代 |
openkg.cn |
各种 |
各种 |
出处 |
语料大小 |
年代 |
biendata.com |
各种 |
各种 |
出处 |
语料大小 |
年代 |
biendata.com, 搜狐 |
百万级 |
2018 |
出处 |
语料大小 |
年代 |
nlpir.org |
~2万 |
2011 |
出处 |
语料大小 |
年代 |
baidu |
950k |
2017 |
出处 |
语料大小 |
年代 |
jhu.edu |
19k |
2015 |
出处 |
语料大小 |
年代 |
github.com/MarkWuNLP |
1000k |
2017 |
出处 |
语料大小 |
年代 |
52nlp.cn |
39k |
2010 |
出处 |
语料大小 |
年代 |
github.com/crownpku |
各种 |
各种 |
出处 |
语料大小 |
年代 |
github.com/crownpku |
小 |
各种 |
出处 |
语料大小 |
年代 |
github.com/fateleak |
未知 |
2016 |
出处 |
语料大小 |
年代 |
github.com/nonamestreet |
3G |
未知 |
出处 |
语料大小 |
年代 |
blog.just4fun.site |
各种 |
各种 |
出处 |
语料大小 |
年代 |
github.com/Samurais |
小 |
2016 |
出处 |
语料大小 |
年代 |
github.com/Samurais |
小 |
未知 |
出处 |
语料大小 |
年代 |
erhengzhong |
未知 |
2010-2012 |
出处 |
语料大小 |
年代 |
chinese-poetry/chinese-poetry |
5.5万首唐诗、26万首宋诗和2.1万首宋词 |
唐宋 |
出处 |
语料大小 |
年代 |
wainshine/Company-Names-Corpus |
480万 |
2018 |
模型 |
语料大小 |
嵌入大小 |
word2vec/fasttext |
各种 |
各种 |
模型 |
语料大小 |
嵌入大小 |
word2vec |
50101 |
300 |
模型 |
语料大小 |
嵌入大小 |
fastText |
简中332647 |
300 |
模型 |
语料大小 |
嵌入大小 |
DSG |
800多万 |
200 |