绪论

机器学习导论¶

以数据为经验的载体，利用经验数据不断提高性能的计算机系统/程序/方法

Info

学习过程就是得到输入到输出的预测模型

机器学习技术的根本目标是泛化能力

由于未来不可知，一般依靠历史数据来逼近模型的泛化能力

这一理论基于 I.D.D. 假设：历史和未来来自相同分布

!!! info I.D.D. 独立同分布(independent and identically distributed，I.D.D.):

指随机过程中，任何时刻的取值都为随机变量，如果这些随机变量服从同一分布，并且互相独立，那么这些随机变量是独立同分布。

最理想的机器学习是学习到概念（人类可学习、可理解的）

现实中很困难，很多时候采用的是黑盒模型

西瓜数据集 =300x150

对于上述数据集，若学习的目标是“好瓜”，则可将假设空间表示为：

\[ {\text{好瓜}} \leftrightarrow (\text{色泽} = ?) \land (\text{根蒂} = ?) \land (\text{敲声} = ?) \]

当“色泽”“根蒂”“敲声”分别有3、2、2种可能取值，则该假设空间的规模大小为 \(4 \times 3 \times 3 + 1 = 37\)

Note

在计算假设空间规模时，需要考虑与该特征无关的情况

因此上式中的4、3、3均由特征的可能取值数加1得到，最终的加1则来自于与所有特征都无关的情况

假设空间示意

学习的过程是对假设空间中的错误假设进行删除，由于假设空间很大，训练集有限，因此可能存在多个假设与训练集一致，即版本空间（与训练集一致的假设集合）

版本空间示意

机器学习算法在学习过程中对某种类型假设的偏好，任何一个有效的机器学习算法必有其归纳偏好

例如：算法可能喜欢"尽可能特殊"的模型，也可能喜欢"尽可能一般"的模型

模型归纳偏好示意

No Free Lunch (没有免费的午餐) 定理

一个算法\(\mathfrak{L}_a\)如果在某些问题上比另一个算法\(\mathfrak{L}_b\)好，必然存在另一些问题\(\mathfrak{L}_b\)比\(\mathfrak{L}_a\)好

在实际使用中，我们可能只注意问题的某些情况，因此，脱离具体问题，谈哪些算法更好毫无意义