Git Product home page Git Product logo

esbatmop / mnbvc Goto Github PK

View Code? Open in Web Editor NEW
3.0K 61.0 206.0 223 KB

MNBVC(Massive Never-ending BT Vast Chinese corpus)超大规模中文语料集。对标chatGPT训练的40T数据。MNBVC数据集不但包括主流文化,也包括各个小众文化甚至火星文的数据。MNBVC数据集包括新闻、作文、小说、书籍、杂志、论文、台词、帖子、wiki、古诗、歌词、商品介绍、笑话、糗事、聊天记录等一切形式的纯文本中文数据。

License: MIT License

chinese chinese-language chinese-nlp chinese-simplified corpus-data nlp nlp-machine-learning

mnbvc's Introduction

MNBVC(Massive Never-ending BT Vast Chinese corpus)超大规模中文语料集

请媒体朋友们不要报道我们,让我们有更长久的时间可以收集整理数据。我们最怕捧杀了,您让我们保持低调,就是对中文算法圈做了大的贡献!

响应符尧博士的号召,危机存亡之秋,为避免技术断代,为将几千年历史的中文之美传承给AI。

中文互联网上最古老最神秘(没有之一)的MOP里屋社区于2023.1.1庄重宣布:

在英明神武的猫扑管子带领下,决心发挥社区所长(哪都长),帮助开源社区长期更新一份最大的中文互联网语料集

MNBVC数据集不但包括主流文化,也包括各个小众文化甚至火星文的数据。MNBVC数据集包括新闻、作文、小说、书籍、杂志、论文、台词、帖子、wiki、古诗、歌词、商品介绍、笑话、糗事、聊天记录等一切形式的纯文本中文数据。数据均来源于互联网收集。

进度

目前总数据量31935GB,目标是达到chatGPT3.5的40T数据,目前进度79.83%。

数据说明

压缩包密码为253874

压缩包内中文语料均清洗为txt和json(包括jsonl)格式

压缩包根目录的links.txt里有每个子文件夹数据来源的url

每个子文件夹内有一张png格式的图片,是数据来源的网页截图

收录的数据将去掉大于等于8位的数字串进行脱敏

压缩包内数据只做了粗加工,例如html&xml转txt、csv&tsv转json等

索引和分类

我们没有能力对数据来源进行版权审核。虽然本数据集包括了数据来源信息,但为了长而持久的提供数据集的更新和下载,为了尽量避免版权争议,本数据集不提供压缩包内数据的索引和分类。并恳请大家克制住自己的分享欲,不要讨论压缩包的索引及所包含具体内容的信息。请大家更多的关注大数据量语料本身的应用,拜托大家低调的使用数据。

huggingface

清洗完成的分类数据将陆续放到:https://huggingface.co/datasets/liwu/MNBVC

一人行快,众人行远(摇人加速 发送邮件 [email protected]

各个小组长反映,数据清洗的苦力代码工作比较多,技术落地有点慢,希望有大量时间的同学来帮忙,会用python就行,有人手把手指导。请来帮忙的同学先阅读项目的三条红线

  • OCR转码小组(被GPT4逼成了包含文字-图片的多模态语料组,增加编制),目前5人,缺5人(需有CV、NLP算法背景,想用nlp辅助ocr转码,有业内此领域顶尖大佬带队指导)
  • 问答语料小组,目前3人,缺4人(目前全是写python代码对齐问答项并人肉检查的苦力活,后面想利用算法模型做自动对齐)
  • 语料增强小组,目前3人,缺2人(想利用nlp补全缺字的语料,并进行文本质量检测等)
  • 代码语料小组和平行语料小组还缺几个打杂(后面由组长来决定到底干嘛)
  • 待建古文研究小组(研究地方志等古籍的转码,语料很多,难度很大)
  • 待建测试组(请测试同学加入,帮助我们提升数据质量,希望本组同学可以研究用llm直接生成测试用例和测试代码)

即使没空帮助项目做开发,也可以通过参加 (语料元气弹) 项目,随手上传语料文档,来参与MNBVC语料集的建设。

中文大语料清洗工具

为处理大规模的中文语料,MNBVC项目组的同学在现有开源软件基础上做了优化,提供了更高效的版本:

代码仓库爬虫工具

现有各个开源代码语料集都有很严重的人为过滤现象,这让追赶chatGPT变得更为困难。为避免重复劳动,提供经过MNBVC大规模验证后的代码仓库爬虫代码。

多模态处理工具

各种清洗代码

其他小工具

语料集下载信息(每个压缩包都会随着清洗进度更新):

1.通过p2p微力同步全部压缩包并接收更新
建议关闭tcp穿透、关闭udp传输的微力设置。如不关闭,微力有可能堵塞路由器(同时也许传输速度更快)

微力密钥: B4MVPVJTK3DOOAOPVLJ3E7TA7RWW4J2ZEAXJRMRSRHSBPDB7OAFHUQ
微力直达链接

2.通过百度网盘下载:每个压缩包的百度网盘下载链接

其他

MNBVC项目建设了(Wiki系统),它诞生的初衷是MNBVC开源项目团队在中文语料库建设过程中积累了一些项目经验,希望通过wiki系统记录和分享,以帮助未来参与相关项目的开发者。 MNBVC-Wiki还托管发起MNBVC项目的里屋社区的百科全书内容。

Citation

Please cite the repo if you use the data or code in this repo.

@misc{mnbvc,
  author = {{MOP-LIWU Community} and {MNBVC Team}},
  title = {MNBVC: Massive Never-ending BT Vast Chinese corpus},
  year = {2023},
  publisher = {GitHub},
  journal = {GitHub repository},
  howpublished = {\url{https://github.com/esbatmop/MNBVC}},
}

mnbvc's People

Contributors

esbatmop avatar liwu253874 avatar tiphereth-a avatar

Stargazers

 avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar

Watchers

 avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar

mnbvc's Issues

huggingface百度网盘

请问一下,huggingface上面清洗的数据有没有国内的下载地址,例如百度网盘之类的?谢谢。

祝贺语料翻倍!

9月16日,总数据量14243GB,目前进度35.60%
几乎是上周的两倍了!
MNBVC加油!

数据清洗工具

请问下,是否打算开源数据清洗工具?比如低质量文本检测之类的。

数据量

请问下,目前的总数据量5400GB,是指收集到的数据量,还是指已处理的数据量呢?

huggingface将下载好的数据下载到本地,通过本地加载的方式报错。

image
Traceback (most recent call last):
File "F:\Data-King\multi_dialogue.py", line 2, in
dataset = load_from_disk("MNBVC")
File "D:\Anaconda3\envs\zyh\lib\site-packages\datasets\load.py", line 1907, in load_from_disk
f"Directory {dataset_path} is neither a Dataset directory nor a DatasetDict directory."
FileNotFoundError: Directory MNBVC is neither a Dataset directory nor a DatasetDict directory.

from datasets import load_dataset, load_from_disk
dataset = load_from_disk("MNBVC")

next(iter(dataset)) # get the first line

无法正常显示的字符编码

在抽样观察20230147/huggingface.20230147.1.网页/61.jsonl时,发现数组下标为12的json中含有无法正常显示的字符:
image
用jieba分词后显示为:
image
我使用chatGPT建议的以下代码正则匹配“无法正常显示的字符”:
def count_unprintable_characters(string):
pattern = r'[\x00-\x08\x0B\x0C\x0E-\x1F\x7F]'
matches = re.findall(pattern, string)
return len(matches)
发现在该jsonl的10万条json中,有超过1.1万条有这种情况。
请问这是正常的还是语料出错了?

数据清洗工具

请问下,是否打算开源数据清洗工具?比如低质量文本检测之类的。

wikipedia JSONDecodeError

hello,
我在使用Wikipedia数据时候,加载过程发现 下面这条数据会出现JSONDecodeError问题。

{"文件名": "cleaned/zhwiki-20230320/folder_1/201103.txt", "是否待查文件": false, "是否重复文件": false, "文件大小": 1990, "simhash": 9264344694624880832, "最长段落长度": 135, "段落数": 24, "去重段落数": 24, "低质量段落数": 0, "段落": [{"行号": 0, "是否重复": false, "是否跨文件重复": false, "md5": "ef40abc35283594e0f23fa41038b0092", "内容": "【马泰奥·佩西纳】"}, {"行号": 2, "是否重复": false, "是否跨文件重复": false, "md5": "0bc16acb389ac1af1ad69f21699c9d0f", "内容": "马泰奥·佩西纳(Matteo Pessina,),意大利足球运动员,司职中场,目前效力于意甲俱乐部蒙沙并担任队长,同时代表意大利国家足球队参加国际比赛。"}, {"行号": 4, "是否重复": false, "是否跨文件重复": false, "md5": "27f7f59fc61d36fdf870883ae5d711c8", "内容": "==俱乐部生涯=="}, {"行号": 5, "是否重复": false, "是否跨文件重复": false, "md5": "f265bd0a7d184

下面的文件会出现UnicodeDecodeError问题

gzip://25.jsonl::/MNBVC//wiki/20230197/25.jsonl.gz

网站上传文件的困难

  1. 现在只支持后缀为.txt,但是很多文本文件(cpp、py、tex)等不一定以txt结尾。重命名很麻烦。
  2. 建议加个文本框,复制粘贴即可上传语料。
  3. 似乎目前不支持同时上传多个文件。

解压需要密码?

您好,通过微力下载的文件解药需要密码?能否告知,谢谢!
image

威力里的数据跟抱脸里的数据是否一样?

我现在威力同步后的数据打开看很多数据很乱, 看起来就是没有清洗的,且目录跟抱脸的目录也不一致, 请问数据是一样的吗, 是一样的我就不重复下载了,感谢回复

洗稿工具垃圾网页识别

野生智能和机械进修
网页数据中,出现一些和常见名词不同的说法

野生智能是指由机械经由过程特地设想的算法去了解、阐发战进修数据,从而充任人类**蓝图的征象。
野生智能机械可以记着人类的举动形式并按照他们的爱好停止调解
实际上这段文字对应的应该是

人工智能是指机器通过专门设计的算法来理解、分析和学习数据,从而充当人类思维蓝图的现象。
人工智能机器能够记住人类的行为模式并根据他们的喜好进行调整。
研究发现出现这些说法,是自动替换文字的洗稿工具造成的。这些语料可以认为是机器产生的脏数据,且很难被识别出来。

请教一下,这种洗稿工具造成的垃圾网页,现在有什么工具或方法可以识别吗?

数据丰富度问题

看了百度网盘的数据,2023年3份以来的数据全是GitHub Code?对于号称要构造最大的中文开源数据集而言,这个代码占比也太大吧。

如何校验下载内容?

您好:

我注意到下载列表只提供了链接,没有提供类似md5的校验码,想请教一下我应该如何校验本地下载文件与网盘文件的一致性呢?

十分感谢!

一个小小的建议

看到你们说每个压缩包会不定期更新,能否在更新的同时在链接旁贴一个最近更新时间,最好再贴个压缩包的md5。这样方便下载过的人判断之前下载过的压缩包是否需要更新。

提一个观察到的数据问题

看了co_ann_report中的第一条数据,搜了PDF原文表格如下所示:
image
这个数据集中将其解析为:

{'
行号': 42,
'是否重复': False,
'是否跨文件重复': False,
'md5': '0951dff941fedbb0840cc8ed06201431',
'内容': '释义项 本公司、公司、西子洁能 西子电梯 金润香港 杭实集团 西子联合工程 杭锅工锅 杭锅通用 新世纪能源 公司股东大会 公司董事会 公司监事会 《公司法》 《证券法》 证监会 元'}
{'行号': 44,
'是否重复': False,
'是否跨文件重复': False,
'md5': 'eceb6556684d04276841458c5b0e0fa4',
'内容': '指 指 指 指 指 指 指 指 指 指 指 指 指 指 指 指'}
{'行号': 46,
'是否重复': False,
'是否跨文件重复': False,
'md5': 'd1b61f0b2372455bb78f92cc6bead1b3',
'内容': '释义内容 西子清洁能源装备制造股份有限公司 西子电梯集团有限公司 金润(香港)有限公司 杭州市实业投资集团有限公司 浙江西子联合工程有限公司 杭州杭锅工业锅炉有限公司 杭州杭锅通用设备有限公司 杭州新世纪能源环保工程股份有限公司 西子清洁能源装备制造股份有限公司股东大会 西子清洁能源装备制造股份有限公司董事会 西子清洁能源装备制造股份有限公司监事会 《中华人民共和国公司法》 《中华人民共和国证券法》 **证监会 人民币元 利用燃料或其他能源的热能,把水加热成为热水或蒸汽的机械设'}
{'行号': 48,
'是否重复': False,
'是否跨文件重复': False,
'md5': '946cf48e2b84642c1780c6c96f6435cf',
'内容': '锅炉'}

很难还原表格,还出现了一句话断掉的情况。
如果是按行组织,模型能学到的信息将会非常丰富。目前这个格式,效果就会差很多

压缩包版本记录?

rt, 最好能在这里或wiki上增加一个压缩包版本信息, 比如某时间增加了多少或修改了某某压缩包, 方便使用者查看更新
另一个思路是, 每个数据有版本号, 如果该数据要变化, 就后续发布patch文件, 在之前数据(压缩包)不变的情况下用户可以应用patch, 这样避免更新时需要重新下载的尴尬, 另外也知道变化了哪些内容, 用户可以自行取舍

中文互联网奇观+1000
非常感谢!

huggingface数据进度

请问下,我看7月19日已处理了5357GB的数据,那huggingface上目前上传了多少数据呢?

百度网盘链接打不开了

网盘链接点过去显示“啊哦,你所访问的页面不存在了。”,所有链接都是如此。应该是近期调整导致的。

Recommend Projects

  • React photo React

    A declarative, efficient, and flexible JavaScript library for building user interfaces.

  • Vue.js photo Vue.js

    🖖 Vue.js is a progressive, incrementally-adoptable JavaScript framework for building UI on the web.

  • Typescript photo Typescript

    TypeScript is a superset of JavaScript that compiles to clean JavaScript output.

  • TensorFlow photo TensorFlow

    An Open Source Machine Learning Framework for Everyone

  • Django photo Django

    The Web framework for perfectionists with deadlines.

  • D3 photo D3

    Bring data to life with SVG, Canvas and HTML. 📊📈🎉

Recommend Topics

  • javascript

    JavaScript (JS) is a lightweight interpreted programming language with first-class functions.

  • web

    Some thing interesting about web. New door for the world.

  • server

    A server is a program made to process requests and deliver data to clients.

  • Machine learning

    Machine learning is a way of modeling and interpreting data that allows a piece of software to respond intelligently.

  • Game

    Some thing interesting about game, make everyone happy.

Recommend Org

  • Facebook photo Facebook

    We are working to build community through open source technology. NB: members must have two-factor auth.

  • Microsoft photo Microsoft

    Open source projects and samples from Microsoft.

  • Google photo Google

    Google ❤️ Open Source for everyone.

  • D3 photo D3

    Data-Driven Documents codes.