给定由 d 个属性描述的示例 ,其中 是 在第 i 个属性上的取值,线形模型试图学得一个通过属性的线形组合来进行预测的函数:
可写为向量形式:
其中学习的对象为 和
对于给定的数据集 ,其中 , (表示数据集中有 m 组数据,每组数据中包含 d 个属性)线性回归试图学得一个线性模型以尽可能准确地预测实值输出标记(即 )
即输入属性只有一个,上述定义的数据集可表示为:,其中 ,线性回归试图学得:
若离散属性值之间存在“序“的关系,可通过连续化将其转化为连续值,如“高度”取值中的“高”“中”和“低”,可转化为
若属性值之间不存在“序”关系,则将 个属性值转化为 维向量,如”瓜类“中的“西瓜”“南瓜”“黄瓜”可转化为
我们使用均方误差来衡量预测值 和实际值 的差异,并通过最小二乘法实现均方误差最小化来求解线性模型参数 和
相关信息
均方误差对应欧几里得距离,因此线性回归中的最小二乘法就是试图找到一条直线,使所有样本到直线上的欧氏距离之和最小
最小二乘参数估计
求解 最小化的过程,称为线性回归模型的最小二乘“参数估计”
将 分别对 和 求偏导,并令其等于 0,可求得最小二乘参数的闭式解:
最终可得: