本项目旨在减少收集各种数据集的时间成本,提供各种数据集的配置文件及其获取方式,数据集已开放在Titan_Xp_4的目录/root/commonfile/data
- 可在mmlab系列框架上使用
- 如果用其他框架,任然可以使用本项目的提供的方式获取数据集
目前已支持以下数据集:
分类
- imagenet
目标检测
- coco
- voc
- tct 30000
- tct
- tianchi tct
语义分割
- ade20k
- cityscapes
- pascal context
- ddr
- idrid
以mmdetection为例,介绍配置coco数据集的方式:
将coco_detection.py放到目录pathto/mmdetection/configs/_base_/datasets/下
pathto
├── data
├── mmdetection
│ ├── mmdet
│ ├── tools
│ ├── configs
│ │ ├── _base_
│ │ │ ├── datasets
从xp4上获取coco数据集
scp -P your_port -r [email protected]:/root/commonfile/data/coco pathto/data/
把your_port换成Titan_Xp_4账号对应的端口,pathto/data/换成第二步中新建的data文件夹目录。
除tct相关数据集外,其余数据集均可通过以下命令获取:
scp -P your_port -r [email protected]:/root/commonfile/data/dataset_floder pathto/data/
把your_port换成Titan_Xp_4账号对应的端口,pathto/data/换成第二步中新建的data文件夹目录,dataset_floder换成数据集的文件夹名,各个数据集对应的文件夹名如下:
数据集:对应的dataset_floder
- imagenet: imagenet
- coco: coco
- voc: voc0712
- tct 30000: TCT_30000
- ade20k: ade20k
- cityscapes:cityscapes
- pascal context:voc0712
- ddr:DDR
- idrid: IDRID
tct的小数据集tct 30000可以通过上一节提供的方式获取,完整的tct数据集获取方式如下:
scp -P your_port -r [email protected]:/root/commonfile/data/TCTAnnotatedData pathto/data/
scp -P 19230 -r [email protected]:/root/userfolder/tianchi/zipdata pathto/data/
天池数据集在rtx2080 03,@冯硕的个人账号中,密码请咨询冯硕。
提供的DDR和IDRiD数据集是做过数据增广后的数据集,包括旋转90°、180°、270°、水平翻转、垂直翻转,算上原图一共是6倍。
这两个数据集是自定义的数据集,如使用mmlab系列框架,需要注册数据集,流程如下:
将lesion_dataset.py和custom.py添加到目录mmsegmentation/mmseg/datasets
,并在该目录下的__init__.py文件中添加from .lesion_dataset import LesionDataset
, __all__
中添加'LesionDataset'.
imagenet数据集默认的是8卡、每卡32图,学习率=0.01。
使用不同的batchsize,学习率应该按照以下公式设置:
lr = 0.01 * [卡数] * [每卡图像] / (8*32).
例如用8卡、每卡64图,那么学习率应该设为0.01/2=0.005。
感谢@刘浩天提供的DDR和IDRiD数据集的注册文件
感谢@冯硕提供的阿里天池tct数据集和简化后的TCT_30000数据集