ML(机器学习):轻松理解回归观念
1 简单的回归观念
当今主流的AI 是机器学习(ML)。这种AI 的主要能力之一就是:从复杂的数据里探索潜在的规律。基本的概率和回归分析观念,就是AI/ 机器学习探索规律的基础技术。例如,有一群二维的数据点,有一条最具有代表性的直线:X*W+B=Y。在统计学上,这条线通称为:回归(Regression) 线。其中,X[ ] 和Y[ ] 值是已知的,而W 和B 是未知的,如图1。
图1
所谓“回归分析”就是找寻最棒的W 和B 值。就得到这条线了。从上图的Excel 画面里,按下“寻找规律”按钮,就会进行回归分析,找出最适合的W和B 值,并输出如图2。
图2
刚才的回归分析已经找出最棒的W 和B 值了,也就是找到最具代表性的回归曲线了。于是就绘出图形如图3。
图3
这一条线就是X*1.3+3.3=Y 线性方程式的图形表示。接下来,就拿图3 里的“test data”来进行预测(Predict)。现在,请按下“Predict”,就拿新数据X 来预测出对应的E(Y/X) 值,如图4。
图4
这两笔资料,就会对映到这回归线上的两个点,如图5。
这就意味着, 我们已知X 值为:1.5, 经由X*1.3+3.3=Y 线性方程式来计算出Y 值为:5.25。这就是一种预测的方法。
图5
2 逻辑回归
一样使用线性回归:X*W+B=Y。将得出的Y 值,经由Sigmoid() 函数,可以计算出条件概率P(Y/X) 值。这是机器学习的二元分类的标准做法。例如,有7 瓶水,其摄氏温度分别是:[-5,-2,-1,2,3,4,6]。此时人们常常将之区分为两个类别:水与冰。就把这X 值和P(Y/X) 值,呈现于Excel 上,如图6。
图6
其数据的意义是:依据人们日常生活中的经验,第1 瓶温度是-5℃,有95% 的概率是属于“冰”类。再如最后一瓶的温度是6℃,有95% 的概率是属于“水”类。现在,可以按下“寻找规律”,就进行回归分析,找出最棒的W 和B 值,如图7。
图7
就得到了线性方程式:X*0.689393699-0.071644135=Y。于是就绘出图形如图8。
图8
这条直线就是AI 机器学习里,常常听到的:分类线。只要经有Sigmoid() 函数进行转换,就成为S 型的回归曲线了。接着,按下“Sigmoid 图”,就由Sigmoid()激活函数转换,将直线转换成为曲线,并绘出图形如图9。
图9
因为Sigmoid() 函数能从线性公式计算出来Y 值转换成为P(Y/X) 概率值。因此,这条曲线成为上述(Excel里) 数据的最佳代表曲线( 即回归线)。这时候,就把7个瓶子区分为两类了,如图10。
图10
于是您就可以了解了,AI/ 机器学习就是,通过这样来一堆数据进行分门别类,简称为:分类(Classification)。刚才的回归分析已经找出最棒的W 和B 值了,然后经由Sigmoid() 转换,而找到最具代表性的回归曲线。接下来,就能给予新的数据X,如图11。
图11
现在,按下“Predict”,就会通过这条回归曲线而计算( 预测) 出相对应的P(Y/X) 条件概率值。如图12。
图12
其中,先计算:X*W+B=Y,得到了Y 值。再将Y值经由sigmoid() 函数计算出P(Y/X) 值。并且绘出图形,如图13。
图13
以上说明了,我们先提供7 笔训练数据(Training Data),按下“寻找规律”来进行训练( 即回归分析),找出最棒的W 和B 值。然后,拿5 笔新数据来(Test Data) 来进行分类,果然完美地分类了。
现在,可以按下“绘图P(Y= 兔/X)”,就会把各P(Y/X) 条件概率值绘出于一条数值线( 即一维空间),如图14。
图14
以上的X 只含有一个特征值。下一期里,将会说明多个特征值的例子。
(注:本文来源于科技期刊《电子产品世界》2021年第2期,欢迎您写论文时引用,并注明出处。)
评论