简体中文 | English
此脚本可以从opendatalab.com方便地下载SA-1B数据集。
优势:
- 连续下载无人自动化
- 方便多人分工,合作下载
pip install requests wget
- 将
sa_download.py
放在你想存放数据集文件的存放目录中,注意保证有足够的磁盘空间 - 在浏览器中打开OpenDataLab网站,并注册登录。
- 按F12打开开发者面板,点进“网络”(Network),在网页底部随意进行一次页面跳转查看请求头,复制其中的
cookie
项和user-agent
项到代码文件对应行。可以参照下图操作。 - 依照分工,确定自己所需要下载的页数(默认每页10行,与网页显示相同),并在代码中填入
START_PAGE_NO
和END_PAGE_NO
。页数起始索引为1,下载时包含起止页。 - 在存放目录中运行
python sa_download.py
。
感谢FacebookResearch公开的数据集,OpenDataLab上传的文件,以及ChatGPT在脚本方面提供的帮助。