Git Product home page Git Product logo

awesome-nlp-chinese-corpus's Introduction

awesome-nlp-chinese-corpus

A curated list of resources of chinese corpora for NLP(Natural Language Processing)

中文自然语言处理语料 收集列表

Contents 列表

综合内容

出处 语料大小 年代
upenn.edu 各种 各种
出处 语料大小 年代
conll.org 各种 各种
出处 语料大小 年代
wikimedia.org 各种 各种
出处 语料大小 年代
ics.uci.edu 221k 2015
出处 语料大小 年代
www.opensubtitles.org 各种 各种
出处 语料大小 年代
opendata.pku.edu.cn 各种 各种
出处 语料大小 年代
新加坡科技与设计大学 StatNLP 各种(英/中/印度) 2017
出处 语料大小 年代
清华大学自然语言处理实验室 740k 2005-2011
出处 语料大小 年代
新闻头条分类 NLPCC 2017 200k 2017
新闻头条摘要 NLPCC 2017 未考察 2017
  • NLPCC 2018
    • 任务1: 情绪识别
    • 任务2: 语法纠错
    • 任务3: 自动文摘
    • 任务4: 任务型对话系统中的口语理解
    • 任务5: 多轮人机对话
    • 任务6: 知乎问题标注
    • 任务7: 开放领域问答
    • 任务8: 用户画像与推荐
出处 语料大小 年代
NLPCC 2018 各种 2018
  • CCKS 2018 全国知识图谱与语义计算大会
    • 任务1: 面向中文电子病历的命名实体识别
    • 任务2: 面向音乐领域的命令理解任务
    • 任务3: 微众银行智能客服问句匹配大赛
    • 任务4: 开放领域的中文问答任务
出处 语料大小 年代
CCKS 2018 各种 2018
出处 语料大小 年代
CCKS 2017 各种 2017
出处 语料大小 年代
用户画像 SMP2018, SMP-EUPT 28万 2018
中文人机对话 SMP2018, SMP-ECDT 极少 2018
文本溯源 SMP2018, SMP-ETST 极少 2018
出处 语料大小 年代
CSDN用户画像 SMP2017, CSDN 10万 2017
中文人机对话 SMP2017ECDT 极少 2017
出处 语料大小 年代
微博用户画像 SMP2016, 微博 4.6万 2016
出处 语料大小 年代
WSDM Cup 2019 400k 2018
出处 语料大小 年代
challenger.ai 1300万 2018
出处 语料大小 年代
challenger.ai 20万 2018
出处 语料大小 年代
challenger.ai 25万 2018
出处 语料大小 年代
sogou.com 免费小样本 2012
出处 语料大小 年代
bosonnlp.com 中小 2014-2015
出处 语料大小 年代
openkg.cn 各种 各种
出处 语料大小 年代
biendata.com 各种 各种
出处 语料大小 年代
biendata.com, 搜狐 百万级 2018
出处 语料大小 年代
nlpir.org ~2万 2011
出处 语料大小 年代
baidu 950k 2017
出处 语料大小 年代
jhu.edu 19k 2015
出处 语料大小 年代
github.com/MarkWuNLP 1000k 2017
出处 语料大小 年代
52nlp.cn 39k 2010
出处 语料大小 年代
github.com/crownpku 各种 各种
出处 语料大小 年代
github.com/crownpku 各种
出处 语料大小 年代
github.com/fateleak 未知 2016
出处 语料大小 年代
github.com/nonamestreet 3G 未知
出处 语料大小 年代
blog.just4fun.site 各种 各种
出处 语料大小 年代
github.com/Samurais 2016
出处 语料大小 年代
github.com/Samurais 未知
出处 语料大小 年代
erhengzhong 未知 2010-2012
出处 语料大小 年代
chinese-poetry/chinese-poetry 5.5万首唐诗、26万首宋诗和2.1万首宋词 唐宋
出处 语料大小 年代
wainshine/Company-Names-Corpus 480万 2018

Embedding 词嵌入

模型 语料大小 嵌入大小
word2vec/fasttext 各种 各种
模型 语料大小 嵌入大小
word2vec 50101 300
模型 语料大小 嵌入大小
fastText 简中332647 300
模型 语料大小 嵌入大小
BPE 各种 各种
模型 语料大小 嵌入大小
DSG 800多万 200

Recommend Projects

  • React photo React

    A declarative, efficient, and flexible JavaScript library for building user interfaces.

  • Vue.js photo Vue.js

    🖖 Vue.js is a progressive, incrementally-adoptable JavaScript framework for building UI on the web.

  • Typescript photo Typescript

    TypeScript is a superset of JavaScript that compiles to clean JavaScript output.

  • TensorFlow photo TensorFlow

    An Open Source Machine Learning Framework for Everyone

  • Django photo Django

    The Web framework for perfectionists with deadlines.

  • D3 photo D3

    Bring data to life with SVG, Canvas and HTML. 📊📈🎉

Recommend Topics

  • javascript

    JavaScript (JS) is a lightweight interpreted programming language with first-class functions.

  • web

    Some thing interesting about web. New door for the world.

  • server

    A server is a program made to process requests and deliver data to clients.

  • Machine learning

    Machine learning is a way of modeling and interpreting data that allows a piece of software to respond intelligently.

  • Game

    Some thing interesting about game, make everyone happy.

Recommend Org

  • Facebook photo Facebook

    We are working to build community through open source technology. NB: members must have two-factor auth.

  • Microsoft photo Microsoft

    Open source projects and samples from Microsoft.

  • Google photo Google

    Google ❤️ Open Source for everyone.

  • D3 photo D3

    Data-Driven Documents codes.