专栏中心

EEPW首页 > 专栏 > 独家 | 在数据科学中需要多少数学技能?

独家 | 在数据科学中需要多少数学技能?

发布人:数据派THU 时间:2020-09-19 来源:工程师 发布文章

尽管已经有许多出色的计算工具可供数据科学家执行其工作,数学技能在数据科学和机器学习中仍然是必不可少的,因为这些工具通常仅仅会像是“黑匣子”,而如果没有理论基础,您将无法回答核心的分析性问题。

I.引言

如果您渴望成为数据科学家,那么您无疑会想到以下问题:

·  我几乎没有数学背景,可以成为一个数据科学家吗?

·  数据科学中的哪些基本数学技能很重要?

有许多好的软件包可用于构建预测模型或数据可视化。一些最常见的用于描述性和预测性分析的软件包包括:

·  Ggplot2

·  Matplotlib

·  Seaborn

·  Scikit-learn

·  Caret

·  TensorFlow

·  PyTorch

·  Keras

借助这些软件包,任何人都可以构建模型或进行数据可视化。但是,扎实的数学背景知识对于模型微调(fine-tuning)以生成具有最佳性能的可靠模型至关重要。建立模型是一回事,但解释模型并得出可用于数据驱动决策的有意义的结论,是另一回事。重要的是,在使用这些软件包之前,您必须了解每个软件包的数学基础,这样才能避免将这些软件包仅仅用作“黑匣子”工具。

II.案例:建立多元回归模型

假设我们现在将要建立一个多元回归模型。在此之前,我们需要问自己以下问题:

·  我的数据集有多大?

·  我的特征变量和目标变量是什么?

·  哪些预测特征与目标变量最相关?

·  哪些特征很重要?

·  我应该进行特征缩放吗?

·  我的数据集应如何划分为训练集和测试集?

·  什么是主成分分析(PCA)?

·  我应该使用PCA删除冗余特征吗?

·  如何评估我的模型?我应该使用R2_score,平均平方误差(MSE)还是平均绝对误差(MAE)?

·  如何提高模型的预测能力?

·  我应该使用正则化回归模型吗?

·  哪些是回归系数?

·  哪些是截距?

·  我应该使用非参数回归模型,例如K近邻回归还是支持向量回归(SVR)?

·  我的模型中有哪些超参数,如何对其进行微调以获得性能最佳的模型?

没有良好的数学背景,您将无法解决上面提出的问题。最重要的是,在数据科学和机器学习中,数学技能与编程技能同等重要。因此,想成为数据科学家,您必须花时间研究数据科学和机器学习的理论和数学基础。您能否构建可应用于实际问题的可靠且有效的模型,取决于您的数学技能。要了解如何在构建机器学习回归模型中应用数学技能,可参阅机器学习过程教程。

教程

https://medium.com/swlh/machine-learning-process-tutorial-222327f53efb

现在,让我们讨论数据科学和机器学习所需的一些基本数学技能。

数据科学和机器学习的基本数学技能

1、 统计学和概率论

统计学和概率论可以用于特征的可视化、数据预处理、特征变换、数据填补、降维、特征工程、模型评估等环节。以下是您需要熟悉的主题:

·  均值,中位数,众数,标准差/方差,相关系数,协方差矩阵;

·  概率分布(二项分布、泊松分布、正态分布),p值,贝叶斯定理(精度、召回率、阳性预测值、阴性预测值、混淆矩阵、ROC曲线);

·  中心极限定理,R2_score,MSE(均方误差),A / B测试,蒙特卡洛模拟…

2、 多变量微积分

大多数机器学习模型都是使用具有多个特征或预测变量的数据集构建的。因此,熟悉多变量演算对于建立机器学习模型非常重要。以下是您需要熟悉的主题:

·  多变量函数;

·  导数和梯度;

·  阶跃函数,Sigmoid函数,Logit函数,ReLU函数(整流线性单位函数,Rectified Linear Unit);

·  成本函数;

·  函数绘图;

·  函数的最小值和最大值…

3、 线性代数

线性代数是机器学习中最重要的数学技能。当数据集被表示为矩阵,线性代数则可用于数据预处理、数据转换、降维和模型评估。以下是您需要熟悉的主题:

·  向量;

·  向量的范数;

·  矩阵,转置矩阵,矩阵的逆,矩阵的行列式,矩阵的迹;

·  点积,特征值,特征向量…

4、 优化方法

大多数机器学习算法通过最小化目标函数来执行预测建模,因而机器学习必须应用于测试数据的权重才能获得预测标签。以下是您需要熟悉的主题:

·  成本函数/目标函数;

·  似然函数;

·  损失函数;

·  梯度下降算法及其变体(例如,随机梯度下降算法)…

IV.结论

总而言之,我们讨论了数据科学和机器学习所需的基本数学和理论技能,已经有许多免费在线课程教授这些必要的数学技能。想成为数据科学家,请务必牢记,理论基础对于构建高效且可靠的模型至关重要。因此,您应该投入足够的时间来研究每种机器学习算法背后的数学理论。


参考资料

Linear Regression Basics for Absolute Beginners.

Mathematics of Principal Component Analysis with R Code Implementation.

Machine Learning Process Tutorial.

Original. Reposted with permission.

专栏文章内容及配图由作者撰写发布,仅供工程师学习之用,如有侵权或者其他违规问题,请联系本站处理。 联系我们

关键词:

相关推荐

电源技术与电子变压器

电源大全

利用D类放大器1L调制技术缩小汽车音响系统设计尺寸

中小AI芯片企业感谢DeepSeek R1:给了我们机会和订单

智能计算 2025-02-08

《嵌入式系统设计》12-系统级设计方法(计算机设计到系统资源安排)

视频 2010-02-02

曾经大书特书,马斯克为何最近不提特斯拉超算Dojo了

《嵌入式系统设计》10-常见嵌入式硬件(典型的ARM系统到Boot ROM的制作)

视频 2010-02-02

推进ECU板对板连接,提升自动驾驶水平

电源的应用与测试

电源设计软件

电源技术应用资料

OpenAI前高管创立的AI公司据称洽谈融资 估值或达200亿美元

智能计算 2025-02-08

一颗电容引发的血案

应用工程师

e11en 2005-04-14

《嵌入式系统设计》14-软硬件协同设计技术(软硬件协同设计内容到划分)及软硬件系统划分技术(开始到系统划分)

视频 2010-02-02

《嵌入式系统设计》11-常见嵌入式硬件(其他硬件到结束)及系统级设计方法(开始到计算机设计)

视频 2010-02-02

《嵌入式系统设计》13-软硬件协同设计(开始到典型的协同设计流程)

视频 2010-02-02

英伟达加速研发 GB300 NVL72:每机柜总 DrMOS 成本降低约 35-40%

泰克2025新年展望:深化数智化赋能,加速本土产业升级

DeepSeek引爆 AI,国产 GPU 集体撑腰

智能计算 2025-02-08

小鹏 MONA M03 Max 版今年二季度交付,售价 15.58 万元

更多 培训课堂
更多 焦点
更多 视频

技术专区