esbatmop / mnbvc Goto Github PK

MNBVC(Massive Never-ending BT Vast Chinese corpus)超大规模中文语料集。对标chatGPT训练的40T数据。MNBVC数据集不但包括主流文化，也包括各个小众文化甚至火星文的数据。MNBVC数据集包括新闻、作文、小说、书籍、杂志、论文、台词、帖子、wiki、古诗、歌词、商品介绍、笑话、糗事、聊天记录等一切形式的纯文本中文数据。

License: MIT License

chinese chinese-language chinese-nlp chinese-simplified corpus-data nlp nlp-machine-learning

mnbvc's Introduction

MNBVC(Massive Never-ending BT Vast Chinese corpus)超大规模中文语料集

请媒体朋友们不要报道我们，让我们有更长久的时间可以收集整理数据。我们最怕捧杀了，您让我们保持低调，就是对中文算法圈做了大的贡献！

中文互联网上最古老最神秘(没有之一)的MOP里屋社区于2023.1.1庄重宣布:

在英明神武的猫扑管子带领下，决心发挥社区所长(哪都长)，帮助开源社区长期更新一份最大的中文互联网语料集

MNBVC语料集不但包括主流文化，也包括各个小众文化甚至火星文的数据。MNBVC数据集包括新闻、作文、小说、书籍、杂志、论文、台词、帖子、wiki、古诗、歌词、商品介绍、笑话、糗事、聊天记录等一切形式的纯文本中文数据。数据均来源于互联网收集。

进度

目前总数据量34582GB，目标是达到chatGPT3.5的40T数据，目前进度86.4%。

数据说明

压缩包密码为253874

压缩包内中文语料包括txt、json、jsonl和parquet（多模态专用）格式，最终会统一到jsonl和parquet格式。

压缩包根目录的links.txt里有每个子文件夹数据来源的url

每个子文件夹内有一张png格式的图片，是数据来源的网页截图

收录的数据将去掉大于等于8位的数字串进行脱敏

压缩包内数据只做了粗加工,例如html&xml转txt、csv&tsv转json等

索引和分类

我们没有能力对数据来源进行版权审核。虽然本数据集包括了数据来源信息，但为了长而持久的提供数据集的更新和下载，为了尽量避免版权争议，本数据集不提供压缩包内数据的索引和分类。并恳请大家克制住自己的分享欲，不要讨论压缩包的索引及所包含具体内容的信息。请大家更多的关注大数据量语料本身的应用，拜托大家低调的使用数据。

huggingface

清洗完成的分类数据将陆续放到：https://huggingface.co/datasets/liwu/MNBVC

一人行快，众人行远（摇人加速发送邮件 [email protected]）

各个小组长反映，数据清洗的苦力代码工作比较多，技术落地有点慢，希望有大量时间的同学来帮忙，会用python就行，有人手把手指导。请来帮忙的同学先阅读项目的三条红线。

OCR转码小组（被GPT4逼成了包含文字-图片的多模态语料组，增加编制），目前5人，缺5人（需有CV、NLP算法背景，想用nlp辅助ocr转码，有业内此领域顶尖大佬带队指导）
问答语料小组，目前3人，缺4人（目前全是写python代码对齐问答项并人肉检查的苦力活，后面想利用算法模型做自动对齐）
语料增强小组，目前3人，缺2人（想利用nlp补全缺字的语料，并进行文本质量检测等）
代码语料小组和平行语料小组还缺几个打杂（后面由组长来决定到底干嘛）
待建古文研究小组（研究地方志等古籍的转码，语料很多，难度很大）
待建测试组（请测试同学加入，帮助我们提升数据质量，希望本组同学可以研究用llm直接生成测试用例和测试代码）

即使没空帮助项目做开发，也可以通过参加 (语料元气弹) 项目，随手上传语料文档，来参与MNBVC语料集的建设。

中文大语料清洗工具

为处理大规模的中文语料，MNBVC项目组的同学在现有开源软件基础上做了优化，提供了更高效的版本:

更快速且准确的中文编码检测工具：charset_mnbvc
将txt批量转成jsonl并挑出段落重复度高的文件：deduplication_mnbvc
从多层目录中按关键词采样一定数量的文件并保留目录结构：scan_copy_files_mnbvc
将MNBVC语料格式统一的格式检查工具：DataCheck_MNBVC

代码仓库爬虫工具

现有各个开源代码语料集都有很严重的人为过滤现象，这让追赶chatGPT变得更为困难。为避免重复劳动，提供经过MNBVC大规模验证后的代码仓库爬虫代码。

爬取github代码仓库meta信息：publicRepos_mnbvc
爬取github代码仓库最新版本代码：github_downloader_mnbvc
爬取notabug代码仓库：notabug_download_mnbvc
将代码转为语料：githubcode_extractor_mnbvc
爬取commit记录：待提供

多模态处理工具

PDF元信息抽取工具：pdf_meta_data_mnbvc
PDF解析规则工具：mmdp_mnbvc
第一版的pdf转txt工具：pdf2txt_mnbvc
Arxiv文档解析工具：Arxiv_mllm_mnbvc

各种清洗代码

wikihow清洗代码：WikiHowQAExtractor-mnbvc
**外交部发言清洗代码：QA_with_reporters_from_the_Ministry_of_Foreign_Affair_mnbvc
各类数学题清洗代码：Math_mnbvc
stackexchange的清洗代码：stackexchange_mnbvc
平行语料的清洗代码：parallel_corpus_mnbvc
试卷的清洗代码：Exam-Question-Bank-Dataset-zh_mnbvc
裁判文书网的清洗代码：MNBVC-judgment
剧本杀的清洗代码：MNBVC-pdf-extract

其他小工具

从目录中指定文件后缀采样：scan_copy_files_mnbvc
chinarxiv的爬虫：chinaxivCrawler_mnbvc
从warc中提取文件：warc_extractor_mnbvc

语料集下载信息(每个压缩包都会随着清洗进度更新):

1.通过p2p微力同步全部压缩包并接收更新
建议关闭tcp穿透、关闭udp传输的微力设置。如不关闭，微力有可能堵塞路由器（同时也许传输速度更快）

微力密钥: B4MVPVJTK3DOOAOPVLJ3E7TA7RWW4J2ZEAXJRMRSRHSBPDB7OAFHUQ
微力直达链接

2.通过百度网盘下载：每个压缩包的百度网盘下载链接

Citation

Please cite the repo if you use the data or code in this repo.

@misc{mnbvc,
  author = {{MOP-LIWU Community} and {MNBVC Team}},
  title = {MNBVC: Massive Never-ending BT Vast Chinese corpus},
  year = {2023},
  publisher = {GitHub},
  journal = {GitHub repository},
  howpublished = {\url{https://github.com/esbatmop/MNBVC}},
}

mnbvc's People

Contributors

Stargazers

Watchers

Forkers

zzm88 ishine ericxsun flowspeech toyslife yufei2207 spook1024 whitefu dechunwang eta-7 awesome-cv guanfoxyier cyzlovedream billcamel zyz0000 syno8 rogerspy benzite xiongziqi hxmhxm zyzyzhou dumpmemory jadentan lishuanzhu reporter-law uloveqian2021 bollwarm zhiqiang-ma zimix0 hxxxxh fdys1983 kainever7 moyuwin haojiepan1 xwjim ygj781129 yuiosxiao mistchen jerroldlee itxingqing feixian15 lemon-simple dahe2023 dapeng2018 acechq haifengzeng zzhjim02 mecthew clockfly tianzhengg zhengwayne baoss lanhao-neo yjc980121 tianyabanbu fengyh3 gavin1332 jtudjwh ckmop eric-doug nlwu fengrk tonywang-sh pkafma-aon feifeibear songge25 nirvana6 flyegle sexysinglelady ox0400 wynmew xcc313 enockipp henryhesz iwanglei1 gzxl albertbj aracta foowaa zcy618 yqty cdj0311 goldlee artificialzeng hihaluemen kurisusnowdeng fuadam1982 gekowa alanshao-zy yuanhuachao froststarbook weifengchiu chaoswork xiaodanguoguo hangxue-lab psy-mas ouyangchucai weizaiff comingtoy zhongpei

mnbvc's Issues

hugging face上的jsonl.gz无法解压

我直接下载了hugging face上的jsonl.gz文件，然后尝试用gzip和gunzip进行解压，但是文件貌似有点问题

20230130.zip 貌似在百度网盘上被举报了

此链接分享内容可能因为涉及侵权、色情、反动、低俗等信息，无法访问！

https://pan.baidu.com/s/1rmKj0GNYsgrcgJzS2Z0B3A?pwd=b27c

网站上传文件的困难

现在只支持后缀为.txt，但是很多文本文件（cpp、py、tex）等不一定以txt结尾。重命名很麻烦。
建议加个文本框，复制粘贴即可上传语料。
似乎目前不支持同时上传多个文件。

洗稿工具垃圾网页识别

野生智能和机械进修
网页数据中，出现一些和常见名词不同的说法

野生智能是指由机械经由过程特地设想的算法去了解、阐发战进修数据，从而充任人类**蓝图的征象。
野生智能机械可以记着人类的举动形式并按照他们的爱好停止调解
实际上这段文字对应的应该是

人工智能是指机器通过专门设计的算法来理解、分析和学习数据，从而充当人类思维蓝图的现象。
人工智能机器能够记住人类的行为模式并根据他们的喜好进行调整。
研究发现出现这些说法，是自动替换文字的洗稿工具造成的。这些语料可以认为是机器产生的脏数据，且很难被识别出来。

请教一下，这种洗稿工具造成的垃圾网页，现在有什么工具或方法可以识别吗？

提一个观察到的数据问题

看了co_ann_report中的第一条数据，搜了PDF原文表格如下所示：

这个数据集中将其解析为：

{'
行号': 42,
'是否重复': False,
'是否跨文件重复': False,
'md5': '0951dff941fedbb0840cc8ed06201431',
'内容': '释义项本公司、公司、西子洁能西子电梯金润香港杭实集团西子联合工程杭锅工锅杭锅通用新世纪能源公司股东大会公司董事会公司监事会《公司法》《证券法》证监会元'}
{'行号': 44,
'是否重复': False,
'是否跨文件重复': False,
'md5': 'eceb6556684d04276841458c5b0e0fa4',
'内容': '指指指指指指指指指指指指指指指指'}
{'行号': 46,
'是否重复': False,
'是否跨文件重复': False,
'md5': 'd1b61f0b2372455bb78f92cc6bead1b3',
'内容': '释义内容西子清洁能源装备制造股份有限公司西子电梯集团有限公司金润（香港）有限公司杭州市实业投资集团有限公司浙江西子联合工程有限公司杭州杭锅工业锅炉有限公司杭州杭锅通用设备有限公司杭州新世纪能源环保工程股份有限公司西子清洁能源装备制造股份有限公司股东大会西子清洁能源装备制造股份有限公司董事会西子清洁能源装备制造股份有限公司监事会《中华人民共和国公司法》《中华人民共和国证券法》 **证监会人民币元利用燃料或其他能源的热能，把水加热成为热水或蒸汽的机械设'}
{'行号': 48,
'是否重复': False,
'是否跨文件重复': False,
'md5': '946cf48e2b84642c1780c6c96f6435cf',
'内容': '锅炉'}

很难还原表格，还出现了一句话断掉的情况。
如果是按行组织，模型能学到的信息将会非常丰富。目前这个格式，效果就会差很多

如何处理json文件，每个json文件格式不太一样？

首先，非常感谢这个项目
现在有个疑问， “如何处理json文件，每个json文件格式不太一样？”，或者我去哪里可以找到对应的json字段定义呢？

感谢！

我有大量算力，支持开源项目，请大家把数据尽量洗干净

大家好，我是 https://www.zhihu.com/question/570713548/answer/2845310510

记得n年前我也上里屋，哈哈。建议项目建个 Discord，可以在 Discord 找我：https://discord.gg/bDSBUMeFpc

huggingface被墙，是否考虑也往modelscope平台上传一份数据

如题

wikipedia JSONDecodeError

hello，
我在使用Wikipedia数据时候，加载过程发现下面这条数据会出现JSONDecodeError问题。

{"文件名": "cleaned/zhwiki-20230320/folder_1/201103.txt", "是否待查文件": false, "是否重复文件": false, "文件大小": 1990, "simhash": 9264344694624880832, "最长段落长度": 135, "段落数": 24, "去重段落数": 24, "低质量段落数": 0, "段落": [{"行号": 0, "是否重复": false, "是否跨文件重复": false, "md5": "ef40abc35283594e0f23fa41038b0092", "内容": "【马泰奥·佩西纳】"}, {"行号": 2, "是否重复": false, "是否跨文件重复": false, "md5": "0bc16acb389ac1af1ad69f21699c9d0f", "内容": "马泰奥·佩西纳（Matteo Pessina，），意大利足球运动员，司职中场，目前效力于意甲俱乐部蒙沙并担任队长，同时代表意大利国家足球队参加国际比赛。"}, {"行号": 4, "是否重复": false, "是否跨文件重复": false, "md5": "27f7f59fc61d36fdf870883ae5d711c8", "内容": "==俱乐部生涯=="}, {"行号": 5, "是否重复": false, "是否跨文件重复": false, "md5": "f265bd0a7d184

下面的文件会出现UnicodeDecodeError问题

gzip://25.jsonl::/MNBVC//wiki/20230197/25.jsonl.gz

huggingface将下载好的数据下载到本地，通过本地加载的方式报错。

Traceback (most recent call last):
File "F:\Data-King\multi_dialogue.py", line 2, in
dataset = load_from_disk("MNBVC")
File "D:\Anaconda3\envs\zyh\lib\site-packages\datasets\load.py", line 1907, in load_from_disk
f"Directory {dataset_path} is neither a Dataset directory nor a DatasetDict directory."
FileNotFoundError: Directory MNBVC is neither a Dataset directory nor a DatasetDict directory.

from datasets import load_dataset, load_from_disk
dataset = load_from_disk("MNBVC")

next(iter(dataset)) # get the first line

威力里的数据跟抱脸里的数据是否一样?

我现在威力同步后的数据打开看很多数据很乱, 看起来就是没有清洗的,且目录跟抱脸的目录也不一致, 请问数据是一样的吗, 是一样的我就不重复下载了,感谢回复

需要算力支持吗~

做了别人一直想做却一直没做的事情

huggingface上传的文件编码不统一

mnbvc/wiki/20230197/25.jsonl.gz 使用utf-8编码读取会报错

一人行快，众人行远

摇人的话，至少留个联系方式？

百度网盘提取码

请问百度网盘的提取码都是多少啊？我们实验室需要训练自己的大模型。
email：[email protected]

数据分发有考虑过使用S3进行存储和提供下载吗

考虑提供和commoncrawl一样的下载方式吗

请问MNBVC会跟Common Crawl有重叠部分吗

解压需要密码？

您好，通过微力下载的文件解药需要密码？能否告知，谢谢！

huggingface百度网盘

请问一下，huggingface上面清洗的数据有没有国内的下载地址，例如百度网盘之类的？谢谢。

huggingface 上的数据现在有多大，下载的话硬盘最少要多少

有人给个介绍吗，huggingface上没有看到数据大小，开个服务器需要知道弄多大硬盘

oscar语料的一些问题

记录在使用中发现的一些问题，部分语料没有清洗干净

压缩包版本记录?

rt, 最好能在这里或wiki上增加一个压缩包版本信息, 比如某时间增加了多少或修改了某某压缩包, 方便使用者查看更新
另一个思路是, 每个数据有版本号, 如果该数据要变化, 就后续发布patch文件, 在之前数据(压缩包)不变的情况下用户可以应用patch, 这样避免更新时需要重新下载的尴尬, 另外也知道变化了哪些内容, 用户可以自行取舍

中文互联网奇观+1000
非常感谢!

感谢分享！请问下载之后发现压缩包里面的文件都要密码，这个是什么呢？

如图

百度网盘链接打不开了

网盘链接点过去显示“啊哦，你所访问的页面不存在了。”，所有链接都是如此。应该是近期调整导致的。

大佬666666

大佬666666
能不能洗彻底点语料。

求种子文件链接，现在只有百度网盘

按照readme，种子链接应该3月1日才失效，但是现在只有百度网盘了，下载很慢。求更新链接~

祝贺语料翻倍！

9月16日，总数据量14243GB，目前进度35.60%
几乎是上周的两倍了！
MNBVC加油！

如何支持项目

本人非常全力支持开源项目，如何加入

如何校验下载内容？

您好：

我注意到下载列表只提供了链接，没有提供类似md5的校验码，想请教一下我应该如何校验本地下载文件与网盘文件的一致性呢？

十分感谢！

数据解压异常

20230827.zip 等多个文件解压异常

error: invalid zip file with overlapped components (possible zip bomb)
To unzip the file anyway, rerun the command with UNZIP_DISABLE_ZIPBOMB_DETECTION=TRUE environmnent variable

数据清洗工具

请问下，是否打算开源数据清洗工具？比如低质量文本检测之类的。

现在已经清洗好10G了吗

数据丰富度问题

看了百度网盘的数据，2023年3份以来的数据全是GitHub Code？对于号称要构造最大的中文开源数据集而言，这个代码占比也太大吧。

数据清洗工具

请问下，是否打算开源数据清洗工具？比如低质量文本检测之类的。

1月8号包里的百度网盘是1月9号的包

如题，盼复核。
感恩大佬们！

百度网盘下载的文件解压缩需要密码

解压缩百度网盘下载的文件需要密码，解压的时候，显示‘links.txt’受密码保护，请问这个密码是什么，为什么解压都需要密码呢

huggingface数据进度

请问下，我看7月19日已处理了5357GB的数据，那huggingface上目前上传了多少数据呢？

数据量

请问下，目前的总数据量5400GB，是指收集到的数据量，还是指已处理的数据量呢？

20230126.zip压缩包问题

这个压缩包不合适，无法解压，可以重新上传一下吗

huggingface数据集

hf上的分类数据集是微力或云盘的一个子集吗

无法正常显示的字符编码

在抽样观察20230147/huggingface.20230147.1.网页/61.jsonl时，发现数组下标为12的json中含有无法正常显示的字符：

用jieba分词后显示为：

我使用chatGPT建议的以下代码正则匹配“无法正常显示的字符”：
def count_unprintable_characters(string):
pattern = r'[\x00-\x08\x0B\x0C\x0E-\x1F\x7F]'
matches = re.findall(pattern, string)
return len(matches)
发现在该jsonl的10万条json中，有超过1.1万条有这种情况。
请问这是正常的还是语料出错了？