【机器学习】(3)拟合度与最大似然估计
在大致了解了机器学习的算法分类(监督式、非监督式以及增强学习)和梯度算法后,今天我们来了解下拟合度和最大似然估计的相关问题。
一、最小二乘法的拟合度
监督式学习中一类典型的应用就是回归问题,基本的就是线性回归,即用一条直线去逼近训练集合。最小二乘法就是根据已有的训练集样本来确定拟合度最好的函数 曲线。但是由于选择一个什么样的曲线是人工决定的,而不同的曲线又具有不同的性质,从而导致不同函数模型使用最小二乘法的拟合度是不同的。以一个m个样本 的房屋价格和大小数据M为例,我们可以选择线性回归(用一条直线模拟),也可以选择使用一个三次曲线来模拟(存在上下峰值),但是最好的拟合或许是一个二 次曲线(抛物线)。对于一个本身分布近似抛物线的训练集来说,线性拟合明显是"欠拟合"的,而三次曲线则是"过拟合"的,效果都不如抛物线要来的好。所以 说,即便是监督式学习的回归问题,也存在一个拟合度的把握,而这非常依赖于研究人员自身的经验。这类函数模型确定后运用最小二乘法拟合的方法称作参数学 习,其要点是在训练学习前已经有了关于函数模型的一个判断(参数的个数是确定的);但是还有一类情况,训练集很复杂,我们很难直接假设一个模型,因此参数 的个数也许是随着样本集动态变化的,这类问题称作非参数学习。我们的方法是采用局部加权回归。
二、局部加权回归
对于线性回归问题LR来说,对于给定的假设函数H(X,θ),我们的目标是找到θ使得(H(X,θ)-Y)的平方最小,其实也就是要求针对已知训练集M来说H(X,θ)与样本的偏差最小,最后返回θ。
对于局部加权回归LWR来说,找到θ使得的值最小,其中的权值的意义在于,当我们测试一个新的样本值的时候,距离测试属性最近的一些样本训练集将发挥作用,权重较大,而距离该位置较远的样本值的影响则较小。因此局部加权回归的做法就是每次只使用新的数值位置附近的训练样本来进行拟合,每次计算都需要针对所有的训练集进行拟合。
三、最大似然概率
上述算法可以用最大似然概率进行推导,由于涉及较多的数学公式,这里不再证明。借着这个机会来复习下最大似然概率的知识。最大似然概率可以用来解决非参数模型的回归。其主要的思想就是,将含参数的概率函数H(X,θ)看作是θ的函数,当X已知的时候,就意味着从全体样本中随机抽出了m个样本,假设它们都是独立的,那么我从一个样本集中随机抽出这m个样本的概率应该是它们的概率乘积P(θ);若存在一个这样的函数假设模型,则这个模型中的参数θ应当使得P的值最大,即重新抽出这m个样本的可能最大。然后用这个似然估计去代替真实的θ。
这里讲的未免过于简单,详细的内容可以参考CSDN博友的文章:最大似然估计总结