随机过程在数据科学和深度学习中有哪些应用？

作者：雷锋字幕组时间：2019-08-20 来源：雷锋网

加入技术交流群
- 扫码加入
  和技术大咖面对面交流
  海量资料库查询

编者按：机器学习的主要应用之一是对随机过程建模。

“The only simple truth is that there is nothing simple in this complex universe. Everything relates. Everything connects”— Johnny Rich, The Human Script

本文引用地址：https://www.eepw.com.cn/article/201908/403911.htm

介绍

机器学习的主要应用之一是对随机过程建模。机器学习中一些随机过程的例子如下:

●泊松过程：用于处理等待时间以及队列。

●随机漫步和布朗运动过程：用于交易算法。

●马尔可夫决策过程：常用于计算生物学和强化学习。

●高斯过程：用于回归和优化问题（如，超参数调优和自动机器学习）。

●自回归和移动平均过程：用于时间序列分析(如,ARIMA模型)。

在本文中，我将简要地向你介绍这些随机过程。

历史背景

随机过程是我们日常生活的一部分。随机过程之所以如此特殊，是因为随机过程依赖于模型的初始条件。在上个世纪，许多数学家，如庞加莱，洛伦兹和图灵都被这个话题所吸引。

如今，这种行为被称为确定性混沌，它与真正的随机性有着截然不同的范围界限。

由于爱德华·诺顿·洛伦兹的贡献，混沌系统的研究在1963年取得了突破性进展。当时，洛伦兹正在研究如何改进天气预报。洛伦兹在他的分析中注意到，即使是大气中的微小扰动也能引起气候变化。

洛伦兹用来描述这种状态的一个著名的短语是：

“A butterfly flapping its wings in Brazil can produce a tornado in Texas”
（在巴西，一只蝴蝶扇动翅膀就能在德克萨斯州制造龙卷风）
— Edward Norton Lorenz
（爱德华·诺顿·洛伦兹）

这就是为什么今天的混沌理论有时被称为“蝴蝶效应”。

分形学

一个简单的混沌系统的例子是分形（如图所示）。分形是在不同尺度上不断重复的一种模式。由于分形的缩放方式，分形不同于其他类型的几何图形。

分形是递归驱动系统，能够捕获混沌行为。在现实生活中，分形的例子有:树、河、云、贝壳等。

图1：MC. Escher，Smaller and Smaller^[1]

在艺术领域有很多自相似的图形。毫无疑问， MC. Escher是最著名的艺术家之一，他的作品灵感来自数学。事实上，在他的画中反复出现各种不可能的物体，如彭罗斯三角形和莫比乌斯带。在"Smaller and Smaller"中，他也反复使用了自相似性（图1）。除了蜥蜴的外环，画中的内部图案也是自相似性的。每重复一次，它就包含一个有一半尺度的复制图案。

确定性和随机性过程

有两种主要的随机过程：确定性和随机性。

在确定性过程中，如果我们知道一系列事件的初始条件（起始点），我们就可以预测该序列的下一步。相反，在随机过程中，如果我们知道初始条件，我们不能完全确定接下来的步骤是什么。这是因为这个过程可能会以许多不同的方式演化。

在确定性过程中，所有后续步骤的概率都为1。另一方面，随机性随机过程的情况则不然。

任何完全随机的东西对我们都没有任何用处，除非我们能识别出其中的模式。在随机过程中，每个单独的事件都是随机的，尽管可以识别出连接这些事件的隐藏模式。这样，我们的随机过程就被揭开了神秘的面纱，我们就能够对未来的事件做出准确的预测。

为了用统计学的术语来描述随机过程，我们可以给出以下定义：

●观测值：一次试验的结果。

●总体：所有可能的观测值，可以记为一个试验。

●样本：从独立试验中收集的一组结果。

例如，抛一枚均匀硬币是一个随机过程，但由于大数定律，我们知道，如果进行大量的试验，我们将得到大约相同数量的正面和反面。

大数定律指出：