公开数据集&预训练模型
矩池云整理了一些常见的公开数据集,如果您有推荐的公共数据集,可随时联系我们点击联系小助手。
如何使用
公共数据集和模型分布在机器中的/public和/dataset目录下,用户对这两个目录只有读权限,如果您想使用相关资源,需要先将资源复制到机器内其他目录,再使用。
注: /dataset目录主要存放比较大型的公开数据集,需要进行网盘扩容后才可在租用机器目录中显示。
在租用机器后,您可使用 cd {访问路径} 命令快速使用和访问。以 Keras 数据集为例,访问命令为: cd /public/keras_datasets
Cifar10 等 Keras 支持的数据集,可通过复制到 Keras 路径使用。
Shell复制代码# 若路径不存在则先创建 mkdir -p ~/.keras/datasets/ # 复制到目标路径 cp /public/keras_datasets/cifar-10-batches-py.tar.gz ~/.keras/datasets/
复制后可在 Python 中载入使用。
Python复制代码import keras from keras.datasets import cifar10 (x_train, y_train), (x_test, y_test) = cifar10.load_data()
公开数据集
大型数据集
访问路径:/dataset
该目录主要存放比较大型的公开数据集,需要进行网盘扩容后才可在租用机器目录中显示。
| 名称 | 描述 | 数据文件/文件夹路径 | 
|---|---|---|
| ImageNet2012 | ImageNet 大规模视觉识别挑战赛 2012 (ILSVRC2012)数据集。 | /dataset/ImageNet2012 | 
| ImageNet2014 | ImageNet 大规模视觉识别挑战赛 2014 (ILSVRC2014)数据集。 | /dataset/ImageNet2014 | 
| ImageNet2015 | ImageNet 大规模视觉识别挑战赛 2015 (ILSVRC2015)数据集。 | /dataset/ImageNet2015 | 
| COCO 2017 | 2017年 COCO 竞赛的数据集,全称是Common Objects in Context,是微软团队提供的一个可以用来进行图像识别的数据集。COCO 2017数据集包括train(118287张)、val(5000张)、test(40670张) | /dataset/coco2017 | 
| Cityscapes | Cityscapes拥有5000张在城市环境中驾驶场景的图像(2975train,500 val,1525test)。它具有19个类别的密集像素标注(97%coverage),其中8个具有实例级分割。 | /dataset/Cityscapes | 
| VoxCeleb2 | 大型人声识别数据集,包含超过6000说话人共计超过百万的语音句子,适用于噪声和非约束场景下的声纹识别任务 | /dataset/VoxCeleb2 | 
| AlphaFold | AlphaFold 蛋白质数据库,由 DeepMind 推出可用于预测蛋白质3D结构。 | /dataset/alphafold | 
| nuScenes | nuScenes数据集是 Motional 团队开发的公共大型自动驾驶数据集。 | /dataset/nuScenes | 
| OpenLane1.2 | OpenLane是第一个真实世界的,也是迄今为止规模最大的3D车道数据集。 | /dataset/OpenLane1.2 | 
| LaSOT | CVPR2019 提出的单目标跟踪数据集,包含 1550 个序列,超过 3.87 万帧的数据,完全手动标注的高精度数据集。包含85 个类别,每个类别包含 20 个(70 个类)或 10 个(15 个类)序列,平均视频长度约为 2,500 帧(即 83 秒),每个序列具备视觉和语言注释。 | /dataset/LaSOT | 
| iNaturalist 2018 | 大规模生物图像分类数据集,数据集中共有 8142 个物种,其中 437,513 张训练图像和 24,426 张验证图像。每个图像都有一个真实值标签。 | /dataset/iNaturalist2018 | 
| SemanticKITTI | 一个基于 KITTI Vision Benchmark 的大规模数据集,包括了里程计任务提供的所有序列。 | /dataset/SemanticKITTI | 
| LUNA16 | LUng Nodule Analysis 2016 赛事数据集 | /dataset/LUNA16 | 
| Genecorpus-30M | 一个大规模的预训练语料库,其中包括来自广泛范围组织的约3000万个人类单细胞转录组数据,这些数据来自公开可用的数据集。 | /dataset/Genecorpus-30M | 
Keras 预置数据集
访问路径:/public/keras_datasets
| 名称 | 描述 | 数据文件/文件夹路径 | 
|---|---|---|
| MNIST | 经典的小型(28x28 像素)灰度手写数字数据集,共 10 类,用于灰度数据图像识别。训练集 60000 张,测试集 10000 张。 | /public/keras_datasets/mnist.npz | 
| CIFAR10 | 10 个类别,32x32 像素彩色图像,用于图像分类。训练集 50000 张,测试集 10000 张。 | /public/keras_datasets/cifar-10-batches-py.tar.gz | 
| CIFAR100 | 100 个类别,32x32 像素彩色图像,用于图像分类。训练集 50000 张,测试集 10000 张。 | /public/keras_datasets/cifar-100-python.tar.gz | 
| IMDB | 电影影评情感分类,训练集 25000 条评论,正面评价标为 1,负面评价标为 0。测试集 25000 条评论。 | /public/keras_datasets/imdb.npz | 
| REUTERS | 路透社新闻专线主题分类,11228条新闻专线,46个主题。 | /public/keras_datasets/reuters.npz | 
| FASHION MNIST | 训练集 60000 张,大小28*28,共10类(0-9),测试集 10000 张图像。 | /public/keras_datasets/fashion-mnist | 
| BOSTON HOUSING | 波斯顿房价回归数据集。 | /public/keras_datasets/boston_housing.npz | 
Pytorch 数据集
访问路径:/public/torchvision_datasets
| 名称 | 描述 | 数据文件/文件夹路径 | 
|---|---|---|
| MNIST | 经典的小型(28x28 像素)灰度手写数字数据集,共 10 类,用于灰度数据图像识别。训练集 60000 张,测试集 10000 张。 | /public/torchvision_datasets/MNIST | 
| FashionMNIST | 训练集 60000 张,大小28*28,共10类(0-9),测试集 10000 张图像。 | /public/torchvision_datasets/FashionMNIST | 
| CIFAR10 | 10 个类别,32x32 像素彩色图像,用于图像分类。训练集 50000 张,测试集 10000 张。 | /public/torchvision_datasets/cifar-10-batches-py | 
使用方法:torchvision.datasets 引用后,将数据集复制进 root 参数指定的目录。
TensorFlow 数据集
访问路径:/public/tensorflow_datasets/
| 名称 | 描述 | 数据文件/文件夹路径 | 
|---|---|---|
| MNIST | 经典的小型(28x28 像素)灰度手写数字数据集,共 10 类,用于灰度数据图像识别。训练集 60000 张,测试集 10000 张。 | /public/tensorflow_datasets/mnist | 
| CIFAR10 | 数据集由6万张32*32的彩色图片组成,10 个类别,32x32 像素彩色图像,用于图像分类。训练集 50000 张,测试集 10000 张。 | /public/tensorflow_datasets/cifar10 | 
| CIFAR100 | 100 个类别,32x32 像素彩色图像,用于图像分类。训练集 50000 张,测试集 10000 张。 | /public/tensorflow_datasets/cifar100 | 
| IMDB REVIEWS | 电影影评情感分类,训练集 25000 条评论,正面评价标为 1,负面评价标为 0。测试集 25000 条评论。 | /public/tensorflow_datasets/imdb_reviews | 
| TF FLOWERS | 数据集为五种花朵数据集,分别为雏菊(daisy),郁金香(tulips),向日葵(sunflowers),玫瑰(roses),蒲公英(dandelion)。 | /public/tensorflow_datasets/tf_flowers | 
| FASHION MNIST | 训练集 60000 张,大小28*28,共10类(0-9),测试集 10000 张图像。 | /public/tensorflow_datasets/fashion_mnist | 
| CATS VS DOGS | 这个数据集是Kaggle大数据竞赛的一道赛题,利用给定的数据集,用算法实现猫和狗的识别。猫和狗的图片数量都是12500张且按顺序排序 | /public/tensorflow_datasets/cats_vs_dogs | 
Image图像数据集
访问路径:/public/data/image
| 名称 | 描述 | 数据文件/文件夹路径 | 
|---|---|---|
| taskcv-2017-public | 来自于VisDA2017竞赛,是一个针对领域自适应的、从仿真器到现实环境的数据集。包含训练、验证和测试三个领域共包含 12 类 28 万张图像,训练图像是同一物体在不同情况下生成的。 | /public/data/image/taskcv-2017-public | 
| 3D_Segmentation | 来自 EPFL CVLab 的电子显微镜下图像,可用于图像分割。 | /public/data/image/3D_segmentation | 
| VOC 2012 | 来自 PASCAL VOC 2012 数据集,此数据集可以用于图像分类、目标检测、图像分割。 | /public/data/image/voc2012 | 
| COCO 2014 | 起源于微软的 Common Objects in Context,是一个大型的、丰富的物体检测、分割和标注数据集。 | /public/data/image/COCO2014 | 
| ModelNet | ModelNet 数据集由普林斯顿视觉与机器人实验室于 2015 年发布,提供全面的物体 3D 模型。 | /public/data/image/ModelNet | 
| CASIA-WebFace | 是一个大规模人脸数据集,主要用于身份鉴定和人脸识别,其包含 10,575 个主题和 494,414 张图像。 | /public/data/image/CASIA-WebFace | 
| Flickr8k | 数据集包含8,000张图像,每张图像都与五个不同的标题配对,这些标题提供了对图片中物体和事件的内容描述。详细内容 | /public/data/image/Flickr8k | 
| DRIVE | 用于视网膜病变研究的数据集,相关图像均来自于荷兰的糖尿病视网膜病变筛查计划,其被用于视网膜图像中的血管分割比较研究。 | /public/data/image/DRIVE | 
| DOTA | DOTA 数据集是用于航拍图像中的目标检测的大型图像数据集,包含 2806 张遥感图像,近 19 万个标注实例 | /public/data/image/DOTA | 
| Ai_Challenger_Caption | 数据来自2017 AI Challenger,数据集对给定的每一张图片有五句话的中文描述。数据集包含30万张图片,150万句中文描述。训练集:210,000 张,验证集:30,000 张,测试集 A:30,000 张,测试集 B:30,000 张。 | /public/data/image/Ai_Challenger_Caption_2017 | 
| KITTI 3D Object Detection | 包含对实际交通场景进行数据采集获得的公开数据集,包含7481张训练图片以及7518张测试图片,一共有80256个标记物体。并且测试模式包含普通的视角以及鸟瞰视角。 | /public/data/image/KITTI | 
| 20bn-jester-v1 | 该数据集由大量的人群工作者创建,它允许训练健壮的机器学习模型来识别人的手势。其中训练集为118562个视频,验证集为14787个视频,测试集为14743个视频,总共27类标签。 | /public/data/image/20bn-jester-v1 | 
| AVA_dataset | 一个美学质量评估的数据库,包括250000张照片。每一张照片,都有一系列的评分,以及语义级别的label,其中语义级别的label共60类,同时还有14类photographic style。 | /public/data/image/AVA_dataset | 
| CelebA | CelebA是CelebFaces Attribute的缩写,意即名人人脸属性数据集,其包含10,177个名人身份的202,599张人脸图片,每张图片都做好了特征标记,包含人脸bbox标注框、5个人脸特征点坐标以及40个属性标记,CelebA由香港中文大学开放提供,广泛用于人脸相关的计算机视觉训练任务,可用于人脸属性标识训练、人脸检测训练以及landmark标记等 | /public/data/image/CelebA | 
| CIFAR10 | 数据集由6万张32*32的彩色图片组成,10 个类别,32x32 像素彩色图像,用于图像分类。训练集 50000 张,测试集 10000 张。 | /public/data/image/cifar10 | 
| Food-101 | 包含了101 种食品类别的图像数据集,共有101,000 张图像,平均每个类别拥有250张测试图像和750张训练图像。 | /public/data/image/food-101.tar.gz | 
| MedMNIST | 上海交大发布的医学图像分析数据集。由18个类MNIST的生物医学图像数据集组成,包括12个2D数据集(共708069例,28x28)以及6个3D数据集(共10214例,28x28x28),涵盖大部分的医学图像数据模态、多样的数据规模和丰富的任务类型 | /public/data/image/medmnist | 
| mini-imagenet | 由ImageNet提取的适用于小样本学习的数据集。miniImageNet包含100类共60000张彩色图片,其中每类有600个样本,每张图片的规格为84 × 84 。 | /public/data/image/mini-imagenet | 
| MNIST | 经典的小型(28x28 像素)灰度手写数字数据集,共 10 类,用于灰度数据图像识别。训练集 60000 张,测试集 10000 张。 | /public/data/image/mnist | 
| GOT-10K | 通用的目标追踪数据集,该数据集包含 10,000 多个真实世界移动对象的视频片段和超过 150 万个手动标记的边界框。涵盖了大多数560+类真实世界的运动对象和80+类运动模式。同时,该数据集提供了额外的标签,包括对象可见比率和运动类,作为处理特定挑战的额外监督。 | /public/data/image/GOT-10K | 
| 3D_Lane_Synthetic | 这是一个综合数据集,旨在促进 3D 车道检测方法的开发和评估。 | /public/data/image/3D_Lane_Synthetic | 
| CULane | CULane 是一个用于交通车道检测学术研究的大型挑战性数据集。 | /public/data/image/CULane | 
| GraspNet | GraspNet是一个持续丰富的通用物体抓取的开放项目。 | /public/data/image/GraspNet | 
| InterHand2.6M | 从单个RGB图像中进行3D交互手部姿态估计的数据集(ECCV 2020) | /public/data/image/InterHand2.6M | 
| LIDCdata | 肺部图像数据库联盟 (LIDC) 和图像数据库资源倡议 (IDRI):CT 扫描肺结节的完整参考数据库。 | /public/data/image/LIDCdata | 
| LUNA16-Mask | 2016 年肺结节分析赛事相关数据集 | /public/data/image/LUNA16-Mask | 
| LUNA2016 | 2016 年肺结节分析赛事数据集 | /public/data/image/LUNA2016 | 
| TT100K | 清华-腾讯100K(官方训练和测试集),原始训练集包括6105张图像,原始测试集包括3071张图像。 | /public/data/image/TT100K | 
| Tusimple | 车道线检测相关数据集 | /public/data/image/Tusimple | 
| WikiArt-Refined | WikiArt 包含 195 名不同艺术家的绘画作品。该数据集有 42129 张训练图像和 10628 张测试图像。 | /public/data/image/WikiArt-Refined | 
| AVisT | AVisT 提供专用的视觉对象跟踪数据集,涵盖与现实应用程序高度相关的各种不利场景。 | /public/data/image/AVisT | 
NLP 自然语言处理数据集
访问路径:/public/data/nlp
| 名称 | 描述 | 数据文件/文件夹路径 | 
|---|---|---|
| UCI-spambase | 经典的垃圾邮件分类数据集 | /public/data/nlp/UCI-spambase | 
| amazonreviews | 来自亚马逊的商品评论 | /public/data/nlp/amazonreviews | 
| dbpedia | 来自 Wikipedia 的文章分类 | /public/data/nlp/dbpedia | 
| dbpedia_14 | 基于DBpedia2014的14个不重叠的分类数据集,包含40,000训练样本和5,000测试样本。源自维基百科的语义词条 | /public/data/nlp/dbpedia_14.zip | 
| glue | 通用语言理解评估基准,面向9项任务的数据集,参考gluebenchmark | /public/data/nlp/glue.zip | 
| imdb-sentiments | 电影影评情感分类,训练集 25000 条评论,正面评价标为 1,负面评价标为 0。测试集 25000 条评论。 | /public/data/nlp/imdb-sentiments | 
| newsgroup | 用于文本分类、文本挖据和信息检索研究的国际标准数据集之一。数据集收集了大约20,000左右的新闻组文档,均匀分为20个不同主题的新闻组集合 | /public/data/nlp/newsgroup.zip | 
| nltk_data | NLTK,自然语言处理工具包的数据库,常用于NLP领域 | /public/data/nlp/nltk_data | 
| SQuAD | 斯坦福问答数据集,一个阅读理解数据集 | /public/data/nlp/squad.zip | 
| super_glue | 更新版的Glue数据集 | /public/data/nlp/super_glue.zip | 
| wikitext | 英语词库数据是由Salesforce MetaMind策划的包含1亿个词汇的大型语言建模语料库。这些词汇都是从维基百科一些经典文章中提取得到 | /public/data/nlp/wikitext.zip | 
| yahooAnswers | 数据集源于 Yahoo!Answers Comprehensive Questions and Answers 1.0 的 10个主要分类数据,每个类别分别包含 140000 个训练样本和 5000 个测试样本 | /public/data/nlp/yahooAnswers.zip | 
| yelp_review_full | 这个数据集是Yelp业务、评论和用户数据的一个子集。包含大量的评论、业务、用户、提示和签到数据 | /public/data/nlp/yelp_review_full.zip | 
Videos_and_Music 视频和音乐数据集
访问路径:/public/data/videos_and_music
| 名称 | 描述 | 数据文件/文件夹路径 | 
|---|---|---|
| beethoven | 贝多芬交响曲,以 mid 格式存储 | /public/data/videos_and_music/beethoven | 
| youtube8m | 来自Youtube的视频,公开总数据有1.53TB,源数据集包含 8,000,000万个YouTube视频链接,矩池云仅提供若干样例 | /public/data/videos_and_music/youtube8m | 
| OTB100 | 该数据集总共包含 100 个序列,每个序列都用边界框和 11 个挑战属性逐帧注释。OTB-2015 数据集包含 OTB 数据集的所有 100 个序列。 | /public/data/videos_and_music/OTB100.zip | 
| NfS | 该数据集由100个视频(380K帧)组成的单目标追踪数据集,这些视频由现在普遍使用的更高帧率(240 FPS)的摄像机从真实世界场景中捕获。 所有帧都使用轴对齐的边界框进行注释,所有序列都使用九个视觉属性手动标记 - 光照变化、尺度变化、遮挡、非刚性物体变形、快速运动、视点切换、出视野、背景干扰、低分辨率。 | /public/data/videos_and_music/Nfs | 
Speech 音频数据集
访问路径:/public/data/speech/
| 名称 | 描述 | 数据文件/文件夹路径 | 
|---|---|---|
| VoxCeleb1 | 大型人声识别数据集,包含超过1251说话人共计超过十万的语音句子,适用于噪声和非约束场景下的声纹识别任务。 | /public/data/speech/VoxCeleb1 | 
| Free-ST-Chinese-Mandarin-Corpus | 中文普通话语音数据集,包含来自855个对话者的102600句话。 | /public/data/speech/Free-ST-Chinese-Mandarin-Corpus | 
| LibriSpeech | 公开数据集中最常用的英文语料,其中包含了1000小时的16kHz有声书录音,并且经过切割和整理成每条10秒左右的、经过文本标注的音频文件,非常适合入门使用。 | /public/data/speech/LibriSpeech | 
| THCHS-30 | THCHS30是由清华大学语音与语言技术中心发布的开源中文语音数据集。数据集包含了1万余条语音文件,大约40小时的中文语音数据,内容以文章诗句为主,全部为女声。THCHS-30是在安静的办公室环境下,通过单个碳粒麦克风录取,采样频率16kHz,采样大小16bits。 | /public/data/speech/THCHS-30 | 
| TIMIT | TIMIT数据集的语音采样频率为16kHz,一共包含6300个句子,由来自美国八个主要方言地区的630个人每人说出给定的10个句子,所有的句子都在音素级别(phonelevel)上进行了手动分割,标记。70%的说话人是男性;大多数说话者是成年白人。 | /public/data/speech/TIMIT | 
Kaggle 竞赛数据集
访问路径:/public/data/kaggle_competitions
| 名称 | 描述 | 数据文件/文件夹路径 | 
|---|---|---|
| dogs_vs_cats_redux | Kaggle大数据竞赛的猫狗大战数据集,有1738张图片可供训练。 | /public/data/kaggle_competitions/dogs_vs_cats_redux | 
| msdchallenge | Kaggle 上的挑战赛,提供了百万的歌曲数据集(million song dateset),以预测用户会听哪一首歌。 | /public/data/kaggle_competitions/msdchallenge | 
| netflix_price_data | 数据来源于 Netflix,希望有参赛者能写出更优的推荐算法。 | /public/data/kaggle_competitions/netflix_price_data | 
| transaction_prediction | 数据来源于 Santander,以预测哪个用户可能会再次购买。 | /public/data/kaggle_competitions/transaction_prediction | 
天池竞赛数据集
访问路径:/public/data/天池/+数据文件名称
| 名称 | 描述 | 数据文件/文件夹名称 | 
|---|---|---|
| Traffic_Flow_KDD_CUP_2017 | 杭州市交通数据集 | Traffic_Flow_KDD_CUP_2017 | 
| User-Behavior-Data-on-Taobao-App | 淘宝 APP 用户行为数据集 | User-Behavior-Data-on-Taobao-App | 
| 中文糖尿病标注数据集 | 中文糖尿病标注数据集 | 中文糖尿病标注数据集.zip | 
常用预训练模型
Keras 预训练模型
访问路径: /public/keras_pretrained_model
使用方法:您在运行代码时程序会自动下载需要的预训练模型,例如:
txt复制代码Downloading data from https://github.com/fchollet/deep-learning-models/releases/download/v0.1/vgg16_weights_tf_dim_ordering_tf_kernels.h5
只需在/public/keras_pretrained_model中找到此同名 h5 文件,复制进 ~/.keras/models/ 目录即可,例如要使用 Resnet50 模型:
shell复制代码# 若路径不存在则先创建 mkdir -p ~/.keras/models/ # 复制到目标路径 cp /public/keras_pretrained_model/resnet50_weights_tf_dim_ordering_tf_kernels.h5 ~/.keras/models
复制成功后即可在 Python 文件中即可调用该模型。
python复制代码from keras.applications.resnet50 import ResNet50 model = ResNet50(weights='imagenet') model.summary()
若您使用的是 Resnet50 模型,可能会遇到以下报错:
txt复制代码A local file was found, but it seems to be incomplete or outdated because the auto file hash does not match the original value of 2cb95161c43110f7111970584f804107 so we will re-download the data.
这个报错是因为新版本的 Keras 预训练模型已经从 googleapis 上下载,而您仍在使用老版本的数据集。老版本的数据集存放于 keras_pretrained_model 的子目录 resnet50v0.1 ,这些数据集为 Github 仓库中 v0.1 版本对应的数据。建议您使用新版的数据集进行代替。
更多关于 Keras 预置模型的使用教程,可参见官方教程
| 模型文件/文件夹路径 | 
|---|
| /public/keras_pretrained_model/NASNet-large-no-top.h5 | 
| /public/keras_pretrained_model/NASNet-large.h5 | 
| /public/keras_pretrained_model/NASNet-mobile-no-top.h5 | 
| /public/keras_pretrained_model/NASNet-mobile.h5 | 
| /public/keras_pretrained_model/densenet121_weights_tf_dim_ordering_tf_kernels.h5 | 
| /public/keras_pretrained_model/densenet121_weights_tf_dim_ordering_tf_kernels_notop.h5 | 
| /public/keras_pretrained_model/densenet169_weights_tf_dim_ordering_tf_kernels.h5 | 
| /public/keras_pretrained_model/densenet169_weights_tf_dim_ordering_tf_kernels_notop.h5 | 
| /public/keras_pretrained_model/densenet201_weights_tf_dim_ordering_tf_kernels.h5 | 
| /public/keras_pretrained_model/densenet201_weights_tf_dim_ordering_tf_kernels_notop.h5 | 
| /public/keras_pretrained_model/inception_resnet_v2_weights_tf_dim_ordering_tf_kernels.h5 | 
| /public/keras_pretrained_model/inception_resnet_v2_weights_tf_dim_ordering_tf_kernels_notop.h5 | 
| /public/keras_pretrained_model/inception_v3_weights_tf_dim_ordering_tf_kernels.h5 | 
| /public/keras_pretrained_model/inception_v3_weights_tf_dim_ordering_tf_kernels_notop.h5 | 
| /public/keras_pretrained_model/inception_v3_weights_th_dim_ordering_th_kernels.h5 | 
| /public/keras_pretrained_model/inception_v3_weights_th_dim_ordering_th_kernels_notop.h5 | 
| /public/keras_pretrained_model/mobilenet_1_0_128_tf.h5 | 
| /public/keras_pretrained_model/mobilenet_1_0_128_tf_no_top.h5 | 
| /public/keras_pretrained_model/mobilenet_1_0_160_tf.h5 | 
| /public/keras_pretrained_model/mobilenet_1_0_192_tf.h5 | 
| /public/keras_pretrained_model/mobilenet_1_0_192_tf_no_top.h5 | 
| /public/keras_pretrained_model/mobilenet_1_0_224_tf.h5 | 
| /public/keras_pretrained_model/mobilenet_1_0_224_tf_no_top.h5 | 
| /public/keras_pretrained_model/mobilenet_2_5_128_tf.h5 | 
| /public/keras_pretrained_model/mobilenet_2_5_128_tf_no_top.h5 | 
| /public/keras_pretrained_model/mobilenet_2_5_160_tf.h5 | 
| /public/keras_pretrained_model/mobilenet_2_5_160_tf_no_top.h5 | 
| /public/keras_pretrained_model/mobilenet_5_0_128_tf.h5 | 
| /public/keras_pretrained_model/mobilenet_5_0_128_tf_no_top.h5 | 
| /public/keras_pretrained_model/mobilenet_5_0_160_tf.h5 | 
| /public/keras_pretrained_model/mobilenet_5_0_160_tf_no_top.h5 | 
| /public/keras_pretrained_model/mobilenet_5_0_192_tf.h5 | 
| /public/keras_pretrained_model/mobilenet_5_0_192_tf_no_top.h5 | 
| /public/keras_pretrained_model/mobilenet_5_0_224_tf.h5 | 
| /public/keras_pretrained_model/mobilenet_5_0_224_tf_no_top.h5 | 
| /public/keras_pretrained_model/mobilenet_7_5_128_tf_no_top.h5 | 
| /public/keras_pretrained_model/mobilenet_7_5_160_tf_no_top.h5 | 
| /public/keras_pretrained_model/mobilenet_7_5_192_tf.h5 | 
| /public/keras_pretrained_model/music_tagger_crnn_weights_tf_kernels_tf_dim_ordering.h5 | 
| /public/keras_pretrained_model/music_tagger_crnn_weights_tf_kernels_th_dim_ordering.h5 | 
| /public/keras_pretrained_model/resnet101_weights_tf_dim_ordering_tf_kernels.h5 | 
| /public/keras_pretrained_model/resnet101_weights_tf_dim_ordering_tf_kernels_notop.h5 | 
| /public/keras_pretrained_model/resnet101v2_weights_tf_dim_ordering_tf_kernels.h5 | 
| /public/keras_pretrained_model/resnet101v2_weights_tf_dim_ordering_tf_kernels_notop.h5 | 
| /public/keras_pretrained_model/resnet152_weights_tf_dim_ordering_tf_kernels.h5 | 
| /public/keras_pretrained_model/resnet152_weights_tf_dim_ordering_tf_kernels_notop.h5 | 
| /public/keras_pretrained_model/resnet152v2_weights_tf_dim_ordering_tf_kernels.h5 | 
| /public/keras_pretrained_model/resnet152v2_weights_tf_dim_ordering_tf_kernels_notop.h5 | 
| /public/keras_pretrained_model/resnet50_weights_tf_dim_ordering_tf_kernels.h5 | 
| /public/keras_pretrained_model/resnet50_weights_tf_dim_ordering_tf_kernels_notop.h5 | 
| /public/keras_pretrained_model/resnet50v0.1 | 
| /public/keras_pretrained_model/resnet50v0.1/resnet50_weights_tf_dim_ordering_tf_kernels.h5 | 
| /public/keras_pretrained_model/resnet50v0.1/resnet50_weights_tf_dim_ordering_tf_kernels_notop.h5 | 
| /public/keras_pretrained_model/resnet50v0.1/resnet50_weights_th_dim_ordering_th_kernels.h5 | 
| /public/keras_pretrained_model/resnet50v0.1/resnet50_weights_th_dim_ordering_th_kernels_notop.h5 | 
| /public/keras_pretrained_model/resnet50v2_weights_tf_dim_ordering_tf_kernels.h5 | 
| /public/keras_pretrained_model/resnet50v2_weights_tf_dim_ordering_tf_kernels_notop.h5 | 
| /public/keras_pretrained_model/resnext101_weights_tf_dim_ordering_tf_kernels.h5 | 
| /public/keras_pretrained_model/resnext101_weights_tf_dim_ordering_tf_kernels_notop.h5 | 
| /public/keras_pretrained_model/resnext50_weights_tf_dim_ordering_tf_kernels.h5 | 
| /public/keras_pretrained_model/resnext50_weights_tf_dim_ordering_tf_kernels_notop.h5 | 
| /public/keras_pretrained_model/vgg16_weights_tf_dim_ordering_tf_kernels.h5 | 
| /public/keras_pretrained_model/vgg16_weights_tf_dim_ordering_tf_kernels_notop.h5 | 
| /public/keras_pretrained_model/vgg16_weights_th_dim_ordering_th_kernels.h5 | 
| /public/keras_pretrained_model/vgg16_weights_th_dim_ordering_th_kernels_notop.h5 | 
| /public/keras_pretrained_model/vgg19_weights_tf_dim_ordering_tf_kernels.h5 | 
| /public/keras_pretrained_model/vgg19_weights_tf_dim_ordering_tf_kernels_notop.h5 | 
| /public/keras_pretrained_model/vgg19_weights_th_dim_ordering_th_kernels.h5 | 
| /public/keras_pretrained_model/vgg19_weights_th_dim_ordering_th_kernels_notop.h5 | 
| /public/keras_pretrained_model/xception_weights_tf_dim_ordering_tf_kernels.h5 | 
| /public/keras_pretrained_model/xception_weights_tf_dim_ordering_tf_kernels_notop.h5 | 
Pytorch 预训练模型
访问路径:/public/pytorch_models
使用方法:先执行 mkdir -p ~/.cache/torch/hub/checkpoints/ 创建目录,然后将预训练模型复制进去。
例如需要使用 vgg16 模型,先确定模型具体名称(如:vgg16-397923af.pth),操作如下:
bash复制代码# 创建一个Pytorch 预训练模型默认存储路径 mkdir -p ~/.cache/torch/hub/checkpoints/ # 复制对应模型文件到默认路径 cp /public/pytorch_models/vgg/vgg16-397923af.pth ~/.cache/torch/hub/checkpoints/
| 名称 | 模型文件/文件夹路径 | 
|---|---|
| alexnet | /public/pytorch_models/alexnet | 
| clip_models | /public/pytorch_models/clip_models | 
| densenet | /public/pytorch_models/densenet | 
| googlenet | /public/pytorch_models/googlenet | 
| inception | /public/pytorch_models/inception | 
| mnasnet | /public/pytorch_models/mnasnet | 
| mobilenetv2 | /public/pytorch_models/mobilenetv2 | 
| pytorch-pretrained-BERT | /public/pytorch_models/pytorch-pretrained-BERT | 
| resnet | /public/pytorch_models/resnet | 
| shufflenetv2 | /public/pytorch_models/shufflenetv2 | 
| squeezenet | /public/pytorch_models/squeezenet | 
| vgg | /public/pytorch_models/vgg | 
Pytorch image 预训练模型
访问路径:/public/pytorch-image-models
| 名称 | 模型文件/文件夹路径 | 
|---|---|
| v0.1-cadene | /public/pytorch-image-models/v0.1-cadene | 
| v0.1-coat-weights | /public/pytorch-image-models/v0.1-coat-weights | 
| v0.1-dnf-weights | /public/pytorch-image-models/v0.1-dnf-weights | 
| v0.1-effv2-weights | /public/pytorch-image-models/v0.1-effv2-weights | 
| v0.1-ger-weights | /public/pytorch-image-models/v0.1-ger-weights | 
| v0.1-hrnet | /public/pytorch-image-models/v0.1-hrnet | 
| v0.1-pit-weights | /public/pytorch-image-models/v0.1-pit-weights | 
| v0.1-regnet | /public/pytorch-image-models/v0.1-regnet | 
| v0.1-repvgg-weights | /public/pytorch-image-models/v0.1-repvgg-weights | 
| v0.1-res2net | /public/pytorch-image-models/v0.1-res2net | 
| v0.1-resnest | /public/pytorch-image-models/v0.1-resnest | 
| v0.1-rexnet | /public/pytorch-image-models/v0.1-rexnet | 
| v0.1-rs-weights | /public/pytorch-image-models/v0.1-rs-weights | 
| v0.1-selecsls | /public/pytorch-image-models/v0.1-selecsls | 
| v0.1-tresnet | /public/pytorch-image-models/v0.1-tresnet | 
| v0.1-vitjx | /public/pytorch-image-models/v0.1-vitjx | 
| v0.1-vt3p-weights | /public/pytorch-image-models/v0.1-vt3p-weights | 
| v0.1-weights | /public/pytorch-image-models/v0.1-weights | 
TF Bert 模型
访问路径:/public/data/nlp
| 名称 | 描述 | 模型文件/文件夹路径 | 
|---|---|---|
| bert_models | bert模型集合 | /public/data/nlp/bert_models | 
| chinese_bert_models | chinese_bert模型集合 | /public/data/nlp/chinese_bert_models | 
Huggingface 模型
访问路径::/public/model/nlp
| 描述 | 模型文件/文件夹路径 | 
|---|---|
| huggingface bert模型,基于MLM和SOP方向训练的英语预训练Transformer模型。Base模型的第二版。 | /public/model/nlp/albert-base-v2.zip | 
| huggingface bert模型,基于MLM和SOP方向训练的英语预训练Transformer模型。Xxlarge模型的第二版。 | /public/model/nlp/albert-xxlarge-v2.zip | 
| huggingface bertcased模型,基于MLM和NSP方向训练的英语预训练Transformer模型。Bert基础模型。 | /public/model/nlp/bert-base-cased.zip | 
| huggingface bert中文基础预训练模型 | /public/model/nlp/bert-base-chinese.zip | 
| huggingface bertuncased模型,基于MLM和NSP方向训练的英语预训练Transformer模型。Bert基础模型。 | /public/model/nlp/bert-base-uncased.zip | 
| 大型bert uncased模型 | /public/model/nlp/bert-large-uncased.zip | 
| 基于全词mask的中文bert模型 | /public/model/nlp/chinese-bert-wwm-ext.zip | 
| 基于180G数据训练的中文ELECTRA bert模型 | /public/model/nlp/chinese-electra-180g-base-discriminator.zip | 
| 基于全词mask的中文bert模型 | /public/model/nlp/chinese-roberta-wwm-ext.zip | 
| OpenAI团队开发的CLIP模型 | /public/model/nlp/clip-vit-base-patch32.zip | 
| 基于t5 small模型的迁移学习模型 | /public/model/nlp/code_trans_t5_small_program_synthese_transfer_learning_finetune.zip | 
| 使用disentangled attention机制和enhanced mask decoder提升了BERT和RoBERTa | /public/model/nlp/deberta-v3-base.zip | 
| 使用disentangled attention机制和enhanced mask decoder提升了BERT和RoBERTa | /public/model/nlp/deberta-v3-large.zip | 
| 由cnn_dailymail数据集训练的distilbart模型 | /public/model/nlp/distilbart-cnn-12-6.zip | 
| 基于SST-2调优的DistilBERT-base-uncased模型,在dev set上达到了91.3%准确率 | /public/model/nlp/distilbert-base-uncased-finetuned-sst-2-english.zip | 
| Distilled-GPT2模型 | /public/model/nlp/distilgpt2.zip | 
| 中文GPT2模型 | /public/model/nlp/gpt2-chinese-cluecorpussmall.zip | 
| 著名的OpenAI的GPT-2模型 | /public/model/nlp/gpt2.zip | 
| 基于MLM方向训练的BERT模型 | /public/model/nlp/roberta-base.zip | 
| Text-To-Text Transfer Transformer (T5) base模型 | /public/model/nlp/t5-base.zip | 
| 多语言版本的RoBERTa模型,基于2.5TB数据超过100种语言训练 | /public/model/nlp/xlm-roberta-base.zip | 
其他资源
软件资源
| 名称 | 描述 | 数据文件/文件夹路径 | 
|---|---|---|
| Milvus | Milvus 是一款全球领先的开源向量数据库,赋能 AI 应用和向量相似度搜索,加速非结构化数据检索。 | /public/database/milvus | 
| MATLAB 2020a | MATLAB 2020a 安装包,点击查看安装教程 | /public/matlab/Matlab98R2020a_Lin64.iso | 
| MATLAB 2019b | MATLAB 2019b 安装包,点击查看安装教程 | /public/matlab/R2019b_Linux.iso | 
CUDA 安装
访问目录:/public/cuda
矩池云提供了 CUDA 安装包,根据您自己想要安装的 CUDA 版本,安装命令如下
shell复制代码bash /public/cuda/cuda_11.2.2_460.32.03_linux.run --silent --toolkit --samples
安装包md5值数据如下,
| 安装包 | md5 | 
|---|---|
| cuda_7.0.28_linux.run | 312aede1c3d1d3425c8caa67bbb7a55e | 
| cuda_7.5.18_linux.run | 4b3bcecf0dfc35928a0898793cf3e4c6 | 
| cuda_8.0.61_375.26_linux.run | 33e1bd980e91af4e55f3ef835c103f9b | 
| cuda_9.0.176_384.81_linux.run | 7a00187b2ce5c5e350e68882f42dd507 | 
| cuda_9.1.85_387.26_linux.run | 67a5c3933109507df6b68f80650b4b4a | 
| cuda_9.2.148_396.37_linux.run | 8303cdf46904e6dea8d5d641b0b46f0d | 
| cuda_10.0.130_410.48_linux.run | 9375304c8dc8d42e7f9a9ae37e80b42b | 
| cuda_10.1.243_418.87.00_linux.run | a71f703ed688eeca637dc27df714e854 | 
| cuda_10.2.89_440.33.01_linux.run | 3d816c583759efa8567a92c1a2af90db | 
| cuda_11.0.3_450.51.06_linux.run | 70af4cebe30549b9995fb9c57d538214 | 
| cuda_11.1.1_455.32.00_linux.run | c24e2755e3868692051a38797ce01044 | 
| cuda_11.2.2_460.32.03_linux.run | 955ae5d59531923d32a3bfe3f68a7dfe |