"); //-->
前言
线性回归是比较简单的机器学习算法,很多书籍介绍的第一种机器学习算法就是线性回归算法,笔者查阅的中文书籍都是给出线性回归的表达式,然后告诉你怎么求参数最优化,可能部分同学会忽视一些问题,至少笔者忽视了。因此,本文重点介绍了平常容易忽视的三类问题,(1)线性回归的理论依据是什么(2)过拟合意味着什么(3)模型优化的方向。
目录
1、线性回归的理论依据是什么
2、过拟合意味着什么
3、模型优化的方向
4、总结
线性回归的理论依据
泰勒公式
若函数f(x)在包含x0的某个闭区间[a,b]上具有n阶导数,且在开区间(a,b)上具有(n+1)阶导数,则对闭区间[a,b]上任意一点x,成立下式:
结论:对于区间[a,b]上任意一点,函数值都可以用两个向量内积的表达式近似,其中
是基函数(basis function),
是相应的系数。
高阶表达式表示两者值的误差(请回想您学过的线性回归表达式)。
傅里叶级数
周期函数f(x)可以用向量内积近似,表示基函数,
表示相应的系数,
表示误差。
线性回归
由泰勒公式和傅里叶级数可知,当基函数的数量足够多时,向量内积无限接近于函数值。线性回归的向量内积表达式如下:
过拟合问题
过拟合定义
构建模型的训练误差很小或为0,测试误差很大,这一现象称为过拟合。
高斯噪声数据模型
我们采集的样本数据其实包含了噪声,假设该噪声的高斯噪声模型,均值为0,方差为。
若样本数据的标记为y1,理论标记为y,噪声为η,则有:
y1 = y + η,(其中,η是高斯分布的抽样)
上节的线性回归表达式的方差表示的意义是噪声高斯分布的随机抽样,书本的线性回归表达式把方差
也包含进去了。
过拟合原因
数学术语:当基函数的个数足够大时,线性回归表达式的方程恒相等。
如下图:
机器学习术语:模型太过复杂以致于把无关紧要的噪声也学进去了。
当线性回归的系数向量间差异比较大时,则大概率设计的模型处于过拟合了。用数学角度去考虑,若某个系数很大,对于相差很近的x值,结果会有较大的差异,这是较明显的过拟合现象。
过拟合的解决办法是降低复杂度,后期会有相应的公众号文章,请继续关注。
模型的优化方向
模型的不同主要是体现在参数个数,参数大小以及正则化参数λ,优化模型的方法是调节上面三个参数(但不仅限于此,如核函数),目的是找到最优模型。
总结
本文通过泰勒公式和傅里叶级数的例子说明线性回归的合理性,线性回归表达式包含了方差项,该方差是高斯噪声模型的随机采样,若训练数据在线性回归的表达式恒相等,那么就要考虑过拟合问题了,回归系数间差异比较大也是判断过拟合的一种方式。模型优化的方法有很多种,比较常见的方法是调节参数个数,参数大小以及正则化参数λ。
专栏文章内容及配图由作者撰写发布,仅供工程师学习之用,如有侵权或者其他违规问题,请联系本站处理。 联系我们
相关推荐
继上次海联达Ai-ap100拆机之电源改造
前Qwen负责人林俊旸创业,目标融资规模为数亿美元
WTC-AI型太阳能热水器电路图
国家“算力网”:像用水用电一样用AI
重新构想AI电源:塑造AI加速的未来(第三部分)
基于Microchip MCU的AI/ML培训教程3
基于Microchip MCU的AI/ML培训教程2
思科凭借通用商用芯片与光模块赢得 AI 领域客户
基于Microchip MCU的AI/ML培训教程1
瑞萨电子AI单元解决方案成功提高GE医疗(日本)日野工厂的生产力
人工智能是如何帮助阻止造假者的?
基于VisitionX制造智能眼镜
尼吉康的事业介绍
万家乐JSYZ5-AI燃气热水器电路图
AI/HPC新世代 COUPE光互连扮要角
联发科加速AI在地化应用布局
iCAN-4017 AI功能模块
存储器转型AI战略资源 台厂受惠
WTC-AI太阳能热水器电路图
海联达(Aigale)Ai-HD1 无线全高清套件拆解
PowiGaN for AI Data Centers: Unmatched Power Density and Reliability
EEPW2018年6月刊(5G)
电子元件培训教材
CSR8670CSR8675智能语音Alexa蓝牙方案开发
EEPW2018年3月刊(工业物联网)
被动元件新周期:AI时代高端化、服务器化重构MLCC产业格局
研华科技与Axelera AI深化战略合作 加速推动基于Europa平台的边缘AI创新
AI聊天机器人能像医生一样推理吗?
基于Ai-WB2-12F与Rd-04的雷达检测系统
释说芯语16:硬科技:构建企业未来之路(附PPT)