- 机器学习基础
- ML - 首页
- ML - 简介
- ML - 快速入门
- ML - 基本概念
- ML - 生态系统
- ML - Python库
- ML - 应用
- ML - 生命周期
- ML - 所需技能
- ML - 实现
- ML - 挑战与常见问题
- ML - 限制
- ML - 真实案例
- ML - 数据结构
- ML - 数学基础
- ML - 人工智能
- ML - 神经网络
- ML - 深度学习
- ML - 获取数据集
- ML - 分类数据
- ML - 数据加载
- ML - 数据理解
- ML - 数据准备
- ML - 模型
- ML - 监督学习
- ML - 无监督学习
- ML - 半监督学习
- ML - 强化学习
- ML - 监督学习与无监督学习
- 机器学习数据可视化
- ML - 数据可视化
- ML - 直方图
- ML - 密度图
- ML - 箱线图
- ML - 相关矩阵图
- ML - 散点矩阵图
- 机器学习统计学
- ML - 统计学
- ML - 均值、中位数、众数
- ML - 标准差
- ML - 百分位数
- ML - 数据分布
- ML - 偏度和峰度
- ML - 偏差和方差
- ML - 假设
- 机器学习中的回归分析
- ML - 回归分析
- ML - 线性回归
- ML - 简单线性回归
- ML - 多元线性回归
- ML - 多项式回归
- 机器学习中的分类算法
- ML - 分类算法
- ML - 逻辑回归
- ML - K近邻算法 (KNN)
- ML - 朴素贝叶斯算法
- ML - 决策树算法
- ML - 支持向量机
- ML - 随机森林
- ML - 混淆矩阵
- ML - 随机梯度下降
- 机器学习中的聚类算法
- ML - 聚类算法
- ML - 基于质心的聚类
- ML - K均值聚类
- ML - K中心点聚类
- ML - 均值漂移聚类
- ML - 层次聚类
- ML - 基于密度的聚类
- ML - DBSCAN聚类
- ML - OPTICS聚类
- ML - HDBSCAN聚类
- ML - BIRCH聚类
- ML - 亲和传播
- ML - 基于分布的聚类
- ML - 凝聚层次聚类
- 机器学习中的降维
- ML - 降维
- ML - 特征选择
- ML - 特征提取
- ML - 向后剔除法
- ML - 向前特征构造
- ML - 高相关性筛选
- ML - 低方差筛选
- ML - 缺失值比例
- ML - 主成分分析
- 强化学习
- ML - 强化学习算法
- ML - 利用与探索
- ML - Q学习
- ML - REINFORCE算法
- ML - SARSA强化学习
- ML - 演员-评论家方法
- 深度强化学习
- ML - 深度强化学习
- 量子机器学习
- ML - 量子机器学习
- ML - 使用Python的量子机器学习
- 机器学习杂项
- ML - 性能指标
- ML - 自动工作流程
- ML - 提升模型性能
- ML - 梯度提升
- ML - 自举汇聚 (Bagging)
- ML - 交叉验证
- ML - AUC-ROC曲线
- ML - 网格搜索
- ML - 数据缩放
- ML - 训练和测试
- ML - 关联规则
- ML - Apriori算法
- ML - 高斯判别分析
- ML - 成本函数
- ML - 贝叶斯定理
- ML - 精度和召回率
- ML - 对抗性
- ML - 堆叠
- ML - 轮次
- ML - 感知器
- ML - 正则化
- ML - 过拟合
- ML - P值
- ML - 熵
- ML - MLOps
- ML - 数据泄露
- ML - 机器学习的盈利模式
- ML - 数据类型
- 机器学习 - 资源
- ML - 快速指南
- ML - 速查表
- ML - 面试题
- ML - 有用资源
- ML - 讨论
机器学习 - 获取数据集
机器学习模型的好坏取决于其训练数据。因此,获取高质量且相关的 数据集是机器学习过程中至关重要的一步。有很多开源存储库,例如Kaggle,您可以从中下载数据集。您甚至可以购买数据、抓取网站或独立收集数据。让我们看看机器学习数据集的不同来源以及如何获取它们。
什么是数据集?
数据集是以结构化和组织化方式收集的数据集合。它通常用于简化分析、存储或处理、机器学习模型训练等任务。数据集可以存储在多种格式中,例如CSV、JSON、zip文件、Excel等。
数据集类型
数据集通常根据其包含的信息进行分类。一些常见的数据集类型包括
- 表格数据集:它们是类似于表格的、组织成行和列的结构化数据集合。
- 时间序列数据集:这些数据包含一段时间内的数据,例如股票价格分析、气候信息等等。
- 图像数据集:这些数据包含图像,用于计算机视觉任务,例如图像分类、目标检测和图像分割。
- 文本数据集:这些数据包含文本信息,例如数字、字符和字母。它们用于自然语言处理 (NLP) 技术,例如情感分析和文本分类。
获取机器学习数据集
在为机器学习问题开发解决方案时,获取数据集是一个非常重要的步骤。数据是训练机器学习模型的关键需求。收集到的数据的质量、数量和多样性将极大地影响机器学习模型的性能。
获取机器学习数据集的方法或来源多种多样。其中一些列在下面:
- 开源数据集
- 数据抓取
- 数据购买
- 数据收集
让我们详细讨论上述每种机器学习数据集来源:
流行的开源/公共数据集
您可以使用许多公开可用的开源数据集进行机器学习。一些流行的公共数据集来源包括Kaggle、UCI机器学习资源库、Google数据集搜索和AWS公共数据集。这些数据集通常用于研究,并向公众开放。
一些最受欢迎的来源,其中提供了结构化和有价值的数据:
- Kaggle数据集
- AWS数据集
- Google数据集搜索引擎
- UCI机器学习资源库
- 微软数据集
- Scikit-learn数据集
- HuggingFace数据集中心
- 政府数据集
Kaggle数据集
Kaggle是一个流行的在线数据科学和机器学习社区。它拥有超过23,000个公共数据集。它是获取数据集最受欢迎的平台,因为它允许用户轻松搜索、下载和发布数据。它提供高质量的预处理数据集,几乎适合所有基于用户需求的机器学习模型。
Kaggle还提供带有算法和各种预训练模型的笔记本。
AWS数据集
您可以搜索、下载和共享AWS开放数据注册表中公开可用的数据集。虽然它们是通过AWS访问的,但这些数据集由政府组织、企业和研究人员维护和更新。
Google数据集搜索引擎
Google数据集搜索是Google开发的一个工具,允许用户搜索来自网络上不同来源的数据集。它是一个专门为数据集设计的搜索引擎。
UCI机器学习资源库
UCI机器学习资源库是由加州大学欧文分校开发的,专门用于机器学习的数据集资源库。它涵盖了来自广泛领域的数百个数据集。您可以找到与时间序列、分类、回归或推荐系统相关的数据集。
微软数据集
微软于1918年推出的微软研究院开放数据,提供云端的数据存储库。
Scikit-learn数据集
Scikit-learn是一个流行的Python库,它提供了一些数据集,例如Iris数据集、波士顿房价数据集等,用于试错。这些数据集是开放的,可用于学习和试验机器学习模型。
使用Scikit-learn数据集的语法:
from sklearn.datasets import load_iris iris = load_iris()
在上面的代码片段中,我们将iris数据集加载到我们的Python脚本中。
HuggingFace数据集中心
HuggingFace数据集中心提供主要的公共数据集,例如图像数据集、音频数据集、文本数据集等。您可以使用以下命令安装“datasets”来访问这些数据集:
pip install datasets
您可以使用以下简单的语法获取任何要在程序中使用的数据集:
from datasets import load_dataset ds = load_dataset(dataset_name)
例如,您可以使用以下命令加载iris数据集:
from datasets import load_dataset ds = load_dataset("scikit-learn/iris")
政府数据集
每个国家都有一个来源,政府相关数据可供公众使用,这些数据来自各个部门。这些来源的目标是提高政府的透明度,并将其用于富有成效的研究工作。
以下是一些政府数据集链接:
数据抓取
数据抓取涉及从网站或其他来源自动提取数据。这可能是获取未作为预打包数据集提供的数据的一种有用方法。但是,务必确保以道德和合法的方式抓取数据,并且数据来源可靠且准确。
数据购买
在某些情况下,可能需要购买机器学习数据集。许多公司销售针对特定行业或用例量身定制的预打包数据集。在购买数据集之前,务必评估其质量及其与机器学习项目的相关性。
数据收集
数据收集涉及手动从各种来源收集数据。这可能非常耗时,需要仔细规划以确保数据准确且与您的机器学习项目相关。这可能涉及调查、访谈或其他形式的数据收集。
获取高质量数据集的策略
确定数据集来源后,务必确保数据质量良好且与您的机器学习项目相关。以下是获取高质量数据集的一些策略:
确定您要解决的问题
在获取数据集之前,务必确定您要使用机器学习解决的问题。这将帮助您确定所需的数据类型以及在哪里获取它。
确定数据集的大小
数据集的大小取决于您尝试解决问题的复杂性。通常情况下,数据越多,机器学习模型的性能越好。但是,务必确保数据集不会过大,并且不包含无关或重复的数据。
确保数据相关且准确
务必确保数据与您尝试解决的问题相关且准确。请确保数据来自可靠的来源,并且已得到验证。
数据预处理
数据预处理包括清洗、规范化和转换数据,以准备用于机器学习。此步骤至关重要,可确保机器学习模型能够有效地理解和使用数据。