公开数据集&预训练模型

矩池云整理了常见的一些公开数据集和常用的预训练模型

矩池云整理了一些常见的公开数据集，如果您有推荐的公共数据集，可随时联系我们点击联系小助手。

如何使用

公共数据集和模型分布在机器中的/public和/dataset目录下，用户对这两个目录只有读权限，如果您想使用相关资源，需要先将资源复制到机器内其他目录，再使用。

注： /dataset目录主要存放比较大型的公开数据集，需要进行网盘扩容后才可在租用机器目录中显示。

在租用机器后，您可使用 cd {访问路径} 命令快速使用和访问。以 Keras 数据集为例，访问命令为： cd /public/keras_datasets

Cifar10 等 Keras 支持的数据集，可通过复制到 Keras 路径使用。

Shell
复制代码
# 若路径不存在则先创建
mkdir -p ~/.keras/datasets/
# 复制到目标路径
cp /public/keras_datasets/cifar-10-batches-py.tar.gz ~/.keras/datasets/

复制后可在 Python 中载入使用。

Python
复制代码
import keras
from keras.datasets import cifar10
(x_train, y_train), (x_test, y_test) = cifar10.load_data()

公开数据集

大型数据集

访问路径：/dataset

该目录主要存放比较大型的公开数据集，需要进行网盘扩容后才可在租用机器目录中显示。

名称	描述	数据文件/文件夹路径
ImageNet2012	ImageNet 大规模视觉识别挑战赛 2012 (ILSVRC2012)数据集。	/dataset/ImageNet2012
ImageNet2014	ImageNet 大规模视觉识别挑战赛 2014 (ILSVRC2014)数据集。	/dataset/ImageNet2014
ImageNet2015	ImageNet 大规模视觉识别挑战赛 2015 (ILSVRC2015)数据集。	/dataset/ImageNet2015
COCO 2017	2017年 COCO 竞赛的数据集，全称是Common Objects in Context，是微软团队提供的一个可以用来进行图像识别的数据集。COCO 2017数据集包括train(118287张)、val(5000张)、test(40670张)	/dataset/coco2017
Cityscapes	Cityscapes拥有5000张在城市环境中驾驶场景的图像（2975train，500 val,1525test）。它具有19个类别的密集像素标注（97％coverage），其中8个具有实例级分割。	/dataset/Cityscapes
VoxCeleb2	大型人声识别数据集，包含超过6000说话人共计超过百万的语音句子，适用于噪声和非约束场景下的声纹识别任务	/dataset/VoxCeleb2
AlphaFold	AlphaFold 蛋白质数据库，由 DeepMind 推出可用于预测蛋白质3D结构。	/dataset/alphafold
nuScenes	nuScenes数据集是 Motional 团队开发的公共大型自动驾驶数据集。	/dataset/nuScenes
OpenLane1.2	OpenLane是第一个真实世界的，也是迄今为止规模最大的3D车道数据集。	/dataset/OpenLane1.2
LaSOT	CVPR2019 提出的单目标跟踪数据集，包含 1550 个序列，超过 3.87 万帧的数据，完全手动标注的高精度数据集。包含85 个类别，每个类别包含 20 个（70 个类）或 10 个（15 个类）序列，平均视频长度约为 2，500 帧（即 83 秒），每个序列具备视觉和语言注释。	/dataset/LaSOT
iNaturalist 2018	大规模生物图像分类数据集，数据集中共有 8142 个物种，其中 437，513 张训练图像和 24，426 张验证图像。每个图像都有一个真实值标签。	/dataset/iNaturalist2018
SemanticKITTI	一个基于 KITTI Vision Benchmark 的大规模数据集，包括了里程计任务提供的所有序列。	/dataset/SemanticKITTI
LUNA16	LUng Nodule Analysis 2016 赛事数据集	/dataset/LUNA16
Genecorpus-30M	一个大规模的预训练语料库，其中包括来自广泛范围组织的约3000万个人类单细胞转录组数据，这些数据来自公开可用的数据集。	/dataset/Genecorpus-30M

Keras 预置数据集

访问路径：/public/keras_datasets

名称	描述	数据文件/文件夹路径
MNIST	经典的小型（28x28 像素）灰度手写数字数据集，共 10 类，用于灰度数据图像识别。训练集 60000 张，测试集 10000 张。	/public/keras_datasets/mnist.npz
CIFAR10	10 个类别，32x32 像素彩色图像，用于图像分类。训练集 50000 张，测试集 10000 张。	/public/keras_datasets/cifar-10-batches-py.tar.gz
CIFAR100	100 个类别，32x32 像素彩色图像，用于图像分类。训练集 50000 张，测试集 10000 张。	/public/keras_datasets/cifar-100-python.tar.gz
IMDB	电影影评情感分类，训练集 25000 条评论，正面评价标为 1，负面评价标为 0。测试集 25000 条评论。	/public/keras_datasets/imdb.npz
REUTERS	路透社新闻专线主题分类，11228条新闻专线，46个主题。	/public/keras_datasets/reuters.npz
FASHION MNIST	训练集 60000 张，大小28*28，共10类（0-9），测试集 10000 张图像。	/public/keras_datasets/fashion-mnist
BOSTON HOUSING	波斯顿房价回归数据集。	/public/keras_datasets/boston_housing.npz

Pytorch 数据集

访问路径：/public/torchvision_datasets

名称	描述	数据文件/文件夹路径
MNIST	经典的小型（28x28 像素）灰度手写数字数据集，共 10 类，用于灰度数据图像识别。训练集 60000 张，测试集 10000 张。	/public/torchvision_datasets/MNIST
FashionMNIST	训练集 60000 张，大小28*28，共10类（0-9），测试集 10000 张图像。	/public/torchvision_datasets/FashionMNIST
CIFAR10	10 个类别，32x32 像素彩色图像，用于图像分类。训练集 50000 张，测试集 10000 张。	/public/torchvision_datasets/cifar-10-batches-py

使用方法：torchvision.datasets 引用后，将数据集复制进 root 参数指定的目录。

TensorFlow 数据集

访问路径：/public/tensorflow_datasets/

名称	描述	数据文件/文件夹路径
MNIST	经典的小型（28x28 像素）灰度手写数字数据集，共 10 类，用于灰度数据图像识别。训练集 60000 张，测试集 10000 张。	/public/tensorflow_datasets/mnist
CIFAR10	数据集由6万张32*32的彩色图片组成，10 个类别，32x32 像素彩色图像，用于图像分类。训练集 50000 张，测试集 10000 张。	/public/tensorflow_datasets/cifar10
CIFAR100	100 个类别，32x32 像素彩色图像，用于图像分类。训练集 50000 张，测试集 10000 张。	/public/tensorflow_datasets/cifar100
IMDB REVIEWS	电影影评情感分类，训练集 25000 条评论，正面评价标为 1，负面评价标为 0。测试集 25000 条评论。	/public/tensorflow_datasets/imdb_reviews
TF FLOWERS	数据集为五种花朵数据集，分别为雏菊（daisy），郁金香（tulips），向日葵（sunflowers），玫瑰（roses），蒲公英（dandelion）。	/public/tensorflow_datasets/tf_flowers
FASHION MNIST	训练集 60000 张，大小28*28，共10类（0-9），测试集 10000 张图像。	/public/tensorflow_datasets/fashion_mnist
CATS VS DOGS	这个数据集是Kaggle大数据竞赛的一道赛题，利用给定的数据集，用算法实现猫和狗的识别。猫和狗的图片数量都是12500张且按顺序排序	/public/tensorflow_datasets/cats_vs_dogs

Image图像数据集

访问路径：/public/data/image

名称	描述	数据文件/文件夹路径
taskcv-2017-public	来自于VisDA2017竞赛，是一个针对领域自适应的、从仿真器到现实环境的数据集。包含训练、验证和测试三个领域共包含 12 类 28 万张图像，训练图像是同一物体在不同情况下生成的。	/public/data/image/taskcv-2017-public
3D_Segmentation	来自 EPFL CVLab 的电子显微镜下图像，可用于图像分割。	/public/data/image/3D_segmentation
VOC 2012	来自 PASCAL VOC 2012 数据集，此数据集可以用于图像分类、目标检测、图像分割。	/public/data/image/voc2012
COCO 2014	起源于微软的 Common Objects in Context，是一个大型的、丰富的物体检测、分割和标注数据集。	/public/data/image/COCO2014
ModelNet	ModelNet 数据集由普林斯顿视觉与机器人实验室于 2015 年发布，提供全面的物体 3D 模型。	/public/data/image/ModelNet
CASIA-WebFace	是一个大规模人脸数据集，主要用于身份鉴定和人脸识别，其包含 10,575 个主题和 494,414 张图像。	/public/data/image/CASIA-WebFace
Flickr8k	数据集包含8,000张图像，每张图像都与五个不同的标题配对，这些标题提供了对图片中物体和事件的内容描述。详细内容	/public/data/image/Flickr8k
DRIVE	用于视网膜病变研究的数据集，相关图像均来自于荷兰的糖尿病视网膜病变筛查计划，其被用于视网膜图像中的血管分割比较研究。	/public/data/image/DRIVE
DOTA	DOTA 数据集是用于航拍图像中的目标检测的大型图像数据集，包含 2806 张遥感图像，近 19 万个标注实例	/public/data/image/DOTA
Ai_Challenger_Caption	数据来自2017 AI Challenger，数据集对给定的每一张图片有五句话的中文描述。数据集包含30万张图片，150万句中文描述。训练集：210,000 张，验证集：30,000 张，测试集 A：30,000 张，测试集 B：30,000 张。	/public/data/image/Ai_Challenger_Caption_2017
KITTI 3D Object Detection	包含对实际交通场景进行数据采集获得的公开数据集，包含7481张训练图片以及7518张测试图片，一共有80256个标记物体。并且测试模式包含普通的视角以及鸟瞰视角。	/public/data/image/KITTI
20bn-jester-v1	该数据集由大量的人群工作者创建，它允许训练健壮的机器学习模型来识别人的手势。其中训练集为118562个视频，验证集为14787个视频，测试集为14743个视频，总共27类标签。	/public/data/image/20bn-jester-v1
AVA_dataset	一个美学质量评估的数据库，包括250000张照片。每一张照片，都有一系列的评分，以及语义级别的label，其中语义级别的label共60类，同时还有14类photographic style。	/public/data/image/AVA_dataset
CelebA	CelebA是CelebFaces Attribute的缩写，意即名人人脸属性数据集，其包含10,177个名人身份的202,599张人脸图片，每张图片都做好了特征标记，包含人脸bbox标注框、5个人脸特征点坐标以及40个属性标记，CelebA由香港中文大学开放提供，广泛用于人脸相关的计算机视觉训练任务，可用于人脸属性标识训练、人脸检测训练以及landmark标记等	/public/data/image/CelebA
CIFAR10	数据集由6万张32*32的彩色图片组成，10 个类别，32x32 像素彩色图像，用于图像分类。训练集 50000 张，测试集 10000 张。	/public/data/image/cifar10
Food-101	包含了101 种食品类别的图像数据集，共有101,000 张图像，平均每个类别拥有250张测试图像和750张训练图像。	/public/data/image/food-101.tar.gz
MedMNIST	上海交大发布的医学图像分析数据集。由18个类MNIST的生物医学图像数据集组成，包括12个2D数据集（共708069例，28x28）以及6个3D数据集（共10214例，28x28x28），涵盖大部分的医学图像数据模态、多样的数据规模和丰富的任务类型	/public/data/image/medmnist
mini-imagenet	由ImageNet提取的适用于小样本学习的数据集。miniImageNet包含100类共60000张彩色图片，其中每类有600个样本，每张图片的规格为84 × 84 。	/public/data/image/mini-imagenet
MNIST	经典的小型（28x28 像素）灰度手写数字数据集，共 10 类，用于灰度数据图像识别。训练集 60000 张，测试集 10000 张。	/public/data/image/mnist
GOT-10K	通用的目标追踪数据集，该数据集包含 10，000 多个真实世界移动对象的视频片段和超过 150 万个手动标记的边界框。涵盖了大多数560+类真实世界的运动对象和80+类运动模式。同时，该数据集提供了额外的标签，包括对象可见比率和运动类，作为处理特定挑战的额外监督。	/public/data/image/GOT-10K
3D_Lane_Synthetic	这是一个综合数据集，旨在促进 3D 车道检测方法的开发和评估。	/public/data/image/3D_Lane_Synthetic
CULane	CULane 是一个用于交通车道检测学术研究的大型挑战性数据集。	/public/data/image/CULane
GraspNet	GraspNet是一个持续丰富的通用物体抓取的开放项目。	/public/data/image/GraspNet
InterHand2.6M	从单个RGB图像中进行3D交互手部姿态估计的数据集（ECCV 2020）	/public/data/image/InterHand2.6M
LIDCdata	肺部图像数据库联盟 (LIDC) 和图像数据库资源倡议 (IDRI)：CT 扫描肺结节的完整参考数据库。	/public/data/image/LIDCdata
LUNA16-Mask	2016 年肺结节分析赛事相关数据集	/public/data/image/LUNA16-Mask
LUNA2016	2016 年肺结节分析赛事数据集	/public/data/image/LUNA2016
TT100K	清华-腾讯100K（官方训练和测试集），原始训练集包括6105张图像，原始测试集包括3071张图像。	/public/data/image/TT100K
Tusimple	车道线检测相关数据集	/public/data/image/Tusimple
WikiArt-Refined	WikiArt 包含 195 名不同艺术家的绘画作品。该数据集有 42129 张训练图像和 10628 张测试图像。	/public/data/image/WikiArt-Refined
AVisT	AVisT 提供专用的视觉对象跟踪数据集，涵盖与现实应用程序高度相关的各种不利场景。	/public/data/image/AVisT

NLP 自然语言处理数据集

访问路径：/public/data/nlp

名称	描述	数据文件/文件夹路径
UCI-spambase	经典的垃圾邮件分类数据集	/public/data/nlp/UCI-spambase
amazonreviews	来自亚马逊的商品评论	/public/data/nlp/amazonreviews
dbpedia	来自 Wikipedia 的文章分类	/public/data/nlp/dbpedia
dbpedia_14	基于DBpedia2014的14个不重叠的分类数据集，包含40,000训练样本和5,000测试样本。源自维基百科的语义词条	/public/data/nlp/dbpedia_14.zip
glue	通用语言理解评估基准，面向9项任务的数据集，参考gluebenchmark	/public/data/nlp/glue.zip
imdb-sentiments	电影影评情感分类，训练集 25000 条评论，正面评价标为 1，负面评价标为 0。测试集 25000 条评论。	/public/data/nlp/imdb-sentiments
newsgroup	用于文本分类、文本挖据和信息检索研究的国际标准数据集之一。数据集收集了大约20,000左右的新闻组文档，均匀分为20个不同主题的新闻组集合	/public/data/nlp/newsgroup.zip
nltk_data	NLTK，自然语言处理工具包的数据库，常用于NLP领域	/public/data/nlp/nltk_data
SQuAD	斯坦福问答数据集，一个阅读理解数据集	/public/data/nlp/squad.zip
super_glue	更新版的Glue数据集	/public/data/nlp/super_glue.zip
wikitext	英语词库数据是由Salesforce MetaMind策划的包含1亿个词汇的大型语言建模语料库。这些词汇都是从维基百科一些经典文章中提取得到	/public/data/nlp/wikitext.zip
yahooAnswers	数据集源于 Yahoo！Answers Comprehensive Questions and Answers 1.0 的 10个主要分类数据，每个类别分别包含 140000 个训练样本和 5000 个测试样本	/public/data/nlp/yahooAnswers.zip
yelp_review_full	这个数据集是Yelp业务、评论和用户数据的一个子集。包含大量的评论、业务、用户、提示和签到数据	/public/data/nlp/yelp_review_full.zip

Videos_and_Music 视频和音乐数据集

访问路径：/public/data/videos_and_music

名称	描述	数据文件/文件夹路径
beethoven	贝多芬交响曲，以 mid 格式存储	/public/data/videos_and_music/beethoven
youtube8m	来自Youtube的视频，公开总数据有1.53TB，源数据集包含 8,000,000万个YouTube视频链接，矩池云仅提供若干样例	/public/data/videos_and_music/youtube8m
OTB100	该数据集总共包含 100 个序列，每个序列都用边界框和 11 个挑战属性逐帧注释。OTB-2015 数据集包含 OTB 数据集的所有 100 个序列。	/public/data/videos_and_music/OTB100.zip
NfS	该数据集由100个视频(380K帧)组成的单目标追踪数据集，这些视频由现在普遍使用的更高帧率(240 FPS)的摄像机从真实世界场景中捕获。所有帧都使用轴对齐的边界框进行注释，所有序列都使用九个视觉属性手动标记 - 光照变化、尺度变化、遮挡、非刚性物体变形、快速运动、视点切换、出视野、背景干扰、低分辨率。	/public/data/videos_and_music/Nfs

Speech 音频数据集

访问路径：/public/data/speech/

名称	描述	数据文件/文件夹路径
VoxCeleb1	大型人声识别数据集，包含超过1251说话人共计超过十万的语音句子，适用于噪声和非约束场景下的声纹识别任务。	/public/data/speech/VoxCeleb1
Free-ST-Chinese-Mandarin-Corpus	中文普通话语音数据集，包含来自855个对话者的102600句话。	/public/data/speech/Free-ST-Chinese-Mandarin-Corpus
LibriSpeech	公开数据集中最常用的英文语料，其中包含了1000小时的16kHz有声书录音，并且经过切割和整理成每条10秒左右的、经过文本标注的音频文件，非常适合入门使用。	/public/data/speech/LibriSpeech
THCHS-30	THCHS30是由清华大学语音与语言技术中心发布的开源中文语音数据集。数据集包含了1万余条语音文件，大约40小时的中文语音数据，内容以文章诗句为主，全部为女声。THCHS-30是在安静的办公室环境下，通过单个碳粒麦克风录取，采样频率16kHz，采样大小16bits。	/public/data/speech/THCHS-30
TIMIT	TIMIT数据集的语音采样频率为16kHz，一共包含6300个句子，由来自美国八个主要方言地区的630个人每人说出给定的10个句子，所有的句子都在音素级别（phonelevel）上进行了手动分割，标记。70%的说话人是男性；大多数说话者是成年白人。	/public/data/speech/TIMIT

Kaggle 竞赛数据集

访问路径：/public/data/kaggle_competitions

名称	描述	数据文件/文件夹路径
dogs_vs_cats_redux	Kaggle大数据竞赛的猫狗大战数据集，有1738张图片可供训练。	/public/data/kaggle_competitions/dogs_vs_cats_redux
msdchallenge	Kaggle 上的挑战赛，提供了百万的歌曲数据集（million song dateset），以预测用户会听哪一首歌。	/public/data/kaggle_competitions/msdchallenge
netflix_price_data	数据来源于 Netflix，希望有参赛者能写出更优的推荐算法。	/public/data/kaggle_competitions/netflix_price_data
transaction_prediction	数据来源于 Santander，以预测哪个用户可能会再次购买。	/public/data/kaggle_competitions/transaction_prediction

天池竞赛数据集

访问路径：/public/data/天池/+数据文件名称

名称	描述	数据文件/文件夹名称
Traffic_Flow_KDD_CUP_2017	杭州市交通数据集	Traffic_Flow_KDD_CUP_2017
User-Behavior-Data-on-Taobao-App	淘宝 APP 用户行为数据集	User-Behavior-Data-on-Taobao-App
中文糖尿病标注数据集	中文糖尿病标注数据集	中文糖尿病标注数据集.zip

常用预训练模型

Keras 预训练模型

访问路径： /public/keras_pretrained_model

使用方法：您在运行代码时程序会自动下载需要的预训练模型，例如：

txt
复制代码
Downloading data from https://github.com/fchollet/deep-learning-models/releases/download/v0.1/vgg16_weights_tf_dim_ordering_tf_kernels.h5

只需在/public/keras_pretrained_model中找到此同名 h5 文件，复制进 ~/.keras/models/ 目录即可，例如要使用 Resnet50 模型：

shell
复制代码
# 若路径不存在则先创建
mkdir -p ~/.keras/models/
# 复制到目标路径
cp /public/keras_pretrained_model/resnet50_weights_tf_dim_ordering_tf_kernels.h5 ~/.keras/models

复制成功后即可在 Python 文件中即可调用该模型。

python
复制代码
from keras.applications.resnet50 import ResNet50
model = ResNet50(weights='imagenet')
model.summary()

若您使用的是 Resnet50 模型，可能会遇到以下报错：

txt
复制代码
A local file was found, but it seems to be incomplete or outdated because the auto file hash does not match the original value of 2cb95161c43110f7111970584f804107 so we will re-download the data.

这个报错是因为新版本的 Keras 预训练模型已经从 googleapis 上下载，而您仍在使用老版本的数据集。老版本的数据集存放于 keras_pretrained_model 的子目录 resnet50v0.1 ，这些数据集为 Github 仓库中 v0.1 版本对应的数据。建议您使用新版的数据集进行代替。

更多关于 Keras 预置模型的使用教程，可参见官方教程

模型文件/文件夹路径
/public/keras_pretrained_model/NASNet-large-no-top.h5
/public/keras_pretrained_model/NASNet-large.h5
/public/keras_pretrained_model/NASNet-mobile-no-top.h5
/public/keras_pretrained_model/NASNet-mobile.h5
/public/keras_pretrained_model/densenet121_weights_tf_dim_ordering_tf_kernels.h5
/public/keras_pretrained_model/densenet121_weights_tf_dim_ordering_tf_kernels_notop.h5
/public/keras_pretrained_model/densenet169_weights_tf_dim_ordering_tf_kernels.h5
/public/keras_pretrained_model/densenet169_weights_tf_dim_ordering_tf_kernels_notop.h5
/public/keras_pretrained_model/densenet201_weights_tf_dim_ordering_tf_kernels.h5
/public/keras_pretrained_model/densenet201_weights_tf_dim_ordering_tf_kernels_notop.h5
/public/keras_pretrained_model/inception_resnet_v2_weights_tf_dim_ordering_tf_kernels.h5
/public/keras_pretrained_model/inception_resnet_v2_weights_tf_dim_ordering_tf_kernels_notop.h5
/public/keras_pretrained_model/inception_v3_weights_tf_dim_ordering_tf_kernels.h5
/public/keras_pretrained_model/inception_v3_weights_tf_dim_ordering_tf_kernels_notop.h5
/public/keras_pretrained_model/inception_v3_weights_th_dim_ordering_th_kernels.h5
/public/keras_pretrained_model/inception_v3_weights_th_dim_ordering_th_kernels_notop.h5
/public/keras_pretrained_model/mobilenet_1_0_128_tf.h5
/public/keras_pretrained_model/mobilenet_1_0_128_tf_no_top.h5
/public/keras_pretrained_model/mobilenet_1_0_160_tf.h5
/public/keras_pretrained_model/mobilenet_1_0_192_tf.h5
/public/keras_pretrained_model/mobilenet_1_0_192_tf_no_top.h5
/public/keras_pretrained_model/mobilenet_1_0_224_tf.h5
/public/keras_pretrained_model/mobilenet_1_0_224_tf_no_top.h5
/public/keras_pretrained_model/mobilenet_2_5_128_tf.h5
/public/keras_pretrained_model/mobilenet_2_5_128_tf_no_top.h5
/public/keras_pretrained_model/mobilenet_2_5_160_tf.h5
/public/keras_pretrained_model/mobilenet_2_5_160_tf_no_top.h5
/public/keras_pretrained_model/mobilenet_5_0_128_tf.h5
/public/keras_pretrained_model/mobilenet_5_0_128_tf_no_top.h5
/public/keras_pretrained_model/mobilenet_5_0_160_tf.h5
/public/keras_pretrained_model/mobilenet_5_0_160_tf_no_top.h5
/public/keras_pretrained_model/mobilenet_5_0_192_tf.h5
/public/keras_pretrained_model/mobilenet_5_0_192_tf_no_top.h5
/public/keras_pretrained_model/mobilenet_5_0_224_tf.h5
/public/keras_pretrained_model/mobilenet_5_0_224_tf_no_top.h5
/public/keras_pretrained_model/mobilenet_7_5_128_tf_no_top.h5
/public/keras_pretrained_model/mobilenet_7_5_160_tf_no_top.h5
/public/keras_pretrained_model/mobilenet_7_5_192_tf.h5
/public/keras_pretrained_model/music_tagger_crnn_weights_tf_kernels_tf_dim_ordering.h5
/public/keras_pretrained_model/music_tagger_crnn_weights_tf_kernels_th_dim_ordering.h5
/public/keras_pretrained_model/resnet101_weights_tf_dim_ordering_tf_kernels.h5
/public/keras_pretrained_model/resnet101_weights_tf_dim_ordering_tf_kernels_notop.h5
/public/keras_pretrained_model/resnet101v2_weights_tf_dim_ordering_tf_kernels.h5
/public/keras_pretrained_model/resnet101v2_weights_tf_dim_ordering_tf_kernels_notop.h5
/public/keras_pretrained_model/resnet152_weights_tf_dim_ordering_tf_kernels.h5
/public/keras_pretrained_model/resnet152_weights_tf_dim_ordering_tf_kernels_notop.h5
/public/keras_pretrained_model/resnet152v2_weights_tf_dim_ordering_tf_kernels.h5
/public/keras_pretrained_model/resnet152v2_weights_tf_dim_ordering_tf_kernels_notop.h5
/public/keras_pretrained_model/resnet50_weights_tf_dim_ordering_tf_kernels.h5
/public/keras_pretrained_model/resnet50_weights_tf_dim_ordering_tf_kernels_notop.h5
/public/keras_pretrained_model/resnet50v0.1
/public/keras_pretrained_model/resnet50v0.1/resnet50_weights_tf_dim_ordering_tf_kernels.h5
/public/keras_pretrained_model/resnet50v0.1/resnet50_weights_tf_dim_ordering_tf_kernels_notop.h5
/public/keras_pretrained_model/resnet50v0.1/resnet50_weights_th_dim_ordering_th_kernels.h5
/public/keras_pretrained_model/resnet50v0.1/resnet50_weights_th_dim_ordering_th_kernels_notop.h5
/public/keras_pretrained_model/resnet50v2_weights_tf_dim_ordering_tf_kernels.h5
/public/keras_pretrained_model/resnet50v2_weights_tf_dim_ordering_tf_kernels_notop.h5
/public/keras_pretrained_model/resnext101_weights_tf_dim_ordering_tf_kernels.h5
/public/keras_pretrained_model/resnext101_weights_tf_dim_ordering_tf_kernels_notop.h5
/public/keras_pretrained_model/resnext50_weights_tf_dim_ordering_tf_kernels.h5
/public/keras_pretrained_model/resnext50_weights_tf_dim_ordering_tf_kernels_notop.h5
/public/keras_pretrained_model/vgg16_weights_tf_dim_ordering_tf_kernels.h5
/public/keras_pretrained_model/vgg16_weights_tf_dim_ordering_tf_kernels_notop.h5
/public/keras_pretrained_model/vgg16_weights_th_dim_ordering_th_kernels.h5
/public/keras_pretrained_model/vgg16_weights_th_dim_ordering_th_kernels_notop.h5
/public/keras_pretrained_model/vgg19_weights_tf_dim_ordering_tf_kernels.h5
/public/keras_pretrained_model/vgg19_weights_tf_dim_ordering_tf_kernels_notop.h5
/public/keras_pretrained_model/vgg19_weights_th_dim_ordering_th_kernels.h5
/public/keras_pretrained_model/vgg19_weights_th_dim_ordering_th_kernels_notop.h5
/public/keras_pretrained_model/xception_weights_tf_dim_ordering_tf_kernels.h5
/public/keras_pretrained_model/xception_weights_tf_dim_ordering_tf_kernels_notop.h5

Pytorch 预训练模型

访问路径：/public/pytorch_models 使用方法：先执行 mkdir -p ~/.cache/torch/hub/checkpoints/ 创建目录，然后将预训练模型复制进去。

例如需要使用 vgg16 模型，先确定模型具体名称（如：vgg16-397923af.pth），操作如下：

bash
复制代码
# 创建一个Pytorch 预训练模型默认存储路径
mkdir -p ~/.cache/torch/hub/checkpoints/
# 复制对应模型文件到默认路径
cp /public/pytorch_models/vgg/vgg16-397923af.pth ~/.cache/torch/hub/checkpoints/

名称	模型文件/文件夹路径
alexnet	/public/pytorch_models/alexnet
clip_models	/public/pytorch_models/clip_models
densenet	/public/pytorch_models/densenet
googlenet	/public/pytorch_models/googlenet
inception	/public/pytorch_models/inception
mnasnet	/public/pytorch_models/mnasnet
mobilenetv2	/public/pytorch_models/mobilenetv2
pytorch-pretrained-BERT	/public/pytorch_models/pytorch-pretrained-BERT
resnet	/public/pytorch_models/resnet
shufflenetv2	/public/pytorch_models/shufflenetv2
squeezenet	/public/pytorch_models/squeezenet
vgg	/public/pytorch_models/vgg

Pytorch image 预训练模型

访问路径：/public/pytorch-image-models

名称	模型文件/文件夹路径
v0.1-cadene	/public/pytorch-image-models/v0.1-cadene
v0.1-coat-weights	/public/pytorch-image-models/v0.1-coat-weights
v0.1-dnf-weights	/public/pytorch-image-models/v0.1-dnf-weights
v0.1-effv2-weights	/public/pytorch-image-models/v0.1-effv2-weights
v0.1-ger-weights	/public/pytorch-image-models/v0.1-ger-weights
v0.1-hrnet	/public/pytorch-image-models/v0.1-hrnet
v0.1-pit-weights	/public/pytorch-image-models/v0.1-pit-weights
v0.1-regnet	/public/pytorch-image-models/v0.1-regnet
v0.1-repvgg-weights	/public/pytorch-image-models/v0.1-repvgg-weights
v0.1-res2net	/public/pytorch-image-models/v0.1-res2net
v0.1-resnest	/public/pytorch-image-models/v0.1-resnest
v0.1-rexnet	/public/pytorch-image-models/v0.1-rexnet
v0.1-rs-weights	/public/pytorch-image-models/v0.1-rs-weights
v0.1-selecsls	/public/pytorch-image-models/v0.1-selecsls
v0.1-tresnet	/public/pytorch-image-models/v0.1-tresnet
v0.1-vitjx	/public/pytorch-image-models/v0.1-vitjx
v0.1-vt3p-weights	/public/pytorch-image-models/v0.1-vt3p-weights
v0.1-weights	/public/pytorch-image-models/v0.1-weights

TF Bert 模型

访问路径：/public/data/nlp

名称	描述	模型文件/文件夹路径
bert_models	bert模型集合	/public/data/nlp/bert_models
chinese_bert_models	chinese_bert模型集合	/public/data/nlp/chinese_bert_models

Huggingface 模型

访问路径：：/public/model/nlp

描述	模型文件/文件夹路径
huggingface bert模型，基于MLM和SOP方向训练的英语预训练Transformer模型。Base模型的第二版。	/public/model/nlp/albert-base-v2.zip
huggingface bert模型，基于MLM和SOP方向训练的英语预训练Transformer模型。Xxlarge模型的第二版。	/public/model/nlp/albert-xxlarge-v2.zip
huggingface bertcased模型，基于MLM和NSP方向训练的英语预训练Transformer模型。Bert基础模型。	/public/model/nlp/bert-base-cased.zip
huggingface bert中文基础预训练模型	/public/model/nlp/bert-base-chinese.zip
huggingface bertuncased模型，基于MLM和NSP方向训练的英语预训练Transformer模型。Bert基础模型。	/public/model/nlp/bert-base-uncased.zip
大型bert uncased模型	/public/model/nlp/bert-large-uncased.zip
基于全词mask的中文bert模型	/public/model/nlp/chinese-bert-wwm-ext.zip
基于180G数据训练的中文ELECTRA bert模型	/public/model/nlp/chinese-electra-180g-base-discriminator.zip
基于全词mask的中文bert模型	/public/model/nlp/chinese-roberta-wwm-ext.zip
OpenAI团队开发的CLIP模型	/public/model/nlp/clip-vit-base-patch32.zip
基于t5 small模型的迁移学习模型	/public/model/nlp/code_trans_t5_small_program_synthese_transfer_learning_finetune.zip
使用disentangled attention机制和enhanced mask decoder提升了BERT和RoBERTa	/public/model/nlp/deberta-v3-base.zip
使用disentangled attention机制和enhanced mask decoder提升了BERT和RoBERTa	/public/model/nlp/deberta-v3-large.zip
由cnn_dailymail数据集训练的distilbart模型	/public/model/nlp/distilbart-cnn-12-6.zip
基于SST-2调优的DistilBERT-base-uncased模型，在dev set上达到了91.3%准确率	/public/model/nlp/distilbert-base-uncased-finetuned-sst-2-english.zip
Distilled-GPT2模型	/public/model/nlp/distilgpt2.zip
中文GPT2模型	/public/model/nlp/gpt2-chinese-cluecorpussmall.zip
著名的OpenAI的GPT-2模型	/public/model/nlp/gpt2.zip
基于MLM方向训练的BERT模型	/public/model/nlp/roberta-base.zip
Text-To-Text Transfer Transformer (T5) base模型	/public/model/nlp/t5-base.zip
多语言版本的RoBERTa模型，基于2.5TB数据超过100种语言训练	/public/model/nlp/xlm-roberta-base.zip

其他资源

软件资源

名称	描述	数据文件/文件夹路径
Milvus	Milvus 是一款全球领先的开源向量数据库，赋能 AI 应用和向量相似度搜索，加速非结构化数据检索。	/public/database/milvus
MATLAB 2020a	MATLAB 2020a 安装包，点击查看安装教程	/public/matlab/Matlab98R2020a_Lin64.iso
MATLAB 2019b	MATLAB 2019b 安装包，点击查看安装教程	/public/matlab/R2019b_Linux.iso

CUDA 安装

访问目录：/public/cuda

矩池云提供了 CUDA 安装包，根据您自己想要安装的 CUDA 版本，安装命令如下

shell
复制代码
bash /public/cuda/cuda_11.2.2_460.32.03_linux.run --silent --toolkit --samples

安装包md5值数据如下，

安装包	md5
cuda_7.0.28_linux.run	312aede1c3d1d3425c8caa67bbb7a55e
cuda_7.5.18_linux.run	4b3bcecf0dfc35928a0898793cf3e4c6
cuda_8.0.61_375.26_linux.run	33e1bd980e91af4e55f3ef835c103f9b
cuda_9.0.176_384.81_linux.run	7a00187b2ce5c5e350e68882f42dd507
cuda_9.1.85_387.26_linux.run	67a5c3933109507df6b68f80650b4b4a
cuda_9.2.148_396.37_linux.run	8303cdf46904e6dea8d5d641b0b46f0d
cuda_10.0.130_410.48_linux.run	9375304c8dc8d42e7f9a9ae37e80b42b
cuda_10.1.243_418.87.00_linux.run	a71f703ed688eeca637dc27df714e854
cuda_10.2.89_440.33.01_linux.run	3d816c583759efa8567a92c1a2af90db
cuda_11.0.3_450.51.06_linux.run	70af4cebe30549b9995fb9c57d538214
cuda_11.1.1_455.32.00_linux.run	c24e2755e3868692051a38797ce01044
cuda_11.2.2_460.32.03_linux.run	955ae5d59531923d32a3bfe3f68a7dfe

入门指引

教程与案例

参考资料

联系我们

公开数据集&预训练模型

如何使用

公开数据集

大型数据集

Keras 预置数据集

Pytorch 数据集

TensorFlow 数据集

Image图像数据集

NLP 自然语言处理数据集

Videos_and_Music 视频和音乐数据集

Speech 音频数据集

Kaggle 竞赛数据集

天池竞赛数据集

常用预训练模型

Keras 预训练模型

Pytorch 预训练模型

Pytorch image 预训练模型

TF Bert 模型

Huggingface 模型

其他资源

软件资源

CUDA 安装

入门指引

教程与案例

参考资料

联系我们

公开数据集&预训练模型

如何使用

公开数据集

大型数据集

Keras 预置数据集

Pytorch 数据集

TensorFlow 数据集

Image图像数据集

NLP 自然语言处理数据集

Videos_and_Music 视频和音乐数据集

Speech 音频数据集

Kaggle 竞赛数据集

天池竞赛数据集

常用预训练模型

Keras 预训练模型

Pytorch 预训练模型

Pytorch image 预训练模型

TF Bert 模型

Huggingface 模型

其他资源

软件资源

CUDA 安装

Command Palette