机器学习中的各类数据集 郝伟 2021/04/22
[TOC]
1. 简介
- 机器学习数据集大全 https://blog.csdn.net/kwame211/article/details/81285242
- 各领域机器学习数据集汇总(附下载地址) https://blog.csdn.net/junruitian/article/details/102673128 文本/评价/问答/自然语言数据集 (20万)英文笑话数据集【TaivoPungas】 https://github.com/taivop/joke-dataset 机器学习保险行业问答开放数据集【HainWang】 https://github.com/shuzi/insuranceQA 保险行业问答(QA)数据集【Minwei Feng】 https://github.com/shuzi/insuranceQA Stanford NLP发布新的多轮、跨域、任务导向对话数据集【Mihail Eric】 https://github.com/keunwoochoi/YouTube-music-video-5M 实体/名词语义关系标记数据集【David S. Batista】 https://github.com/davidsbatista/Annotated-Semantic-Relationships-Datasets NLVR:自然语言基础数据集(对象分组、数量、比较及空间关系推理) http://lic.nlp.cornell.edu/nlvr/ 2.8万文章/10万问题大规模(英语考试)阅读理解数据集 https://github.com/qizhex/RACE_AR_baselines 错误拼写数据集 http://www.dcs.bbk.ac.uk/~ROGER/corpora.html 文本简化数据集 http://www.cs.pomona.edu/~dkauchak/simplification/ 英语词/句/语义框架框架标注数据集FrameNet https://framenet.icsi.berkeley.edu/fndrupal/ (又一个)自然语言处理(NLP)数据集列表【Nicolas Iderhoff】 https://github.com/niderhoff/nlp-datasets 跨语种/多样式/多粒度文本相似性检测数据集 https://github.com/FerreroJeremy/Cross-Language-Dataset Quora数据集:400000行潜在重复问题 http://qim.ec.quoracdn.net/quora_duplicate_questions.tsv 文本分类数据集 http://disi.unitn.it/moschitti/corpora.htm Frames:Maluuba对话数据集 https://datasets.maluuba.com/Frames/dl 跨域(Amazon商品评论)情感数据集 http://www.cs.jhu.edu/~mdredze/datasets/sentiment/ 语义网机器学习系统评价/基准数据集集合 http://dws.informatik.uni-mannheim.de/en/research/a-collection-of-benchmark-datasets-for-ml