机器学习: 基本概念

Posted on 2024-08-04 Edited on 2025-12-31 In ML/DL Word count in article: 1.4k Reading time ≈ 5 mins.

机器学习基础

数据集(或样本集)是样本的集合，样本是特征的集合
通常，可以用设计矩阵来表示数据集，在本系列笔记中，约定样本是由若干特征值构成的列向量，而每一行对应不同样本在同一个特征上的值
根据用处的不同，数据集可以分为训练集、验证集、测试集
- 训练集：用于训练模型的数据集
- 验证集：用于初步评估模型的泛化能力，不直接调整模型参数，但可帮助开发者调整超参数
  
  每过一个训练周期，进行一次对验证集的计算
  
  当然，模型可以对训练集过拟合，肯定也有对验证集过拟合的情况
- 测试集：模型定型后，用于检查它的最终泛化能力，必须保证计算过程不进行任何对模型的调整
  
  测试集必须是大量的、能反映真实环境复杂性的样本集
  
  在模型任何参数不变、输入的样本集也不变的情况下，结果理应是一样的，是可以完全复现的
数据生成过程(Data Generating Process，DGP)：指数据从其来源到被收集、存储的整个过程
数据集的假设：尽管上述训练集、验证集、测试集的用处不同，但通常遵循一些假设能使算法效果更好
- 每个数据集中的不同样本是相互独立的
- 不同数据集是同分布的，即采样来自相同的分布，这个潜在的分布被称为数据生成分布(通常不能被精确表示)

训练模型的目标：调整模型的参数以及超参数，使其泛化误差最小
数据准备：
- 数据收集
- 数据清洗：处理缺失、损坏、重复数据
- 特征化：将数据整合为样本集，每条样本包括选定的特征
- 数据划分：将数据集划分为训练集、验证集、测试集
设计模型：
- 选择使用的模型，包括设定模型某层类型、模型层数等
- 根据不同的任务选择合适的损失函数
- 选择合适的优化算法
反复地训练模型、验证并调整超参数