新闻中心

EEPW首页 > 智能计算 > 设计应用 > 学贯中西(10):从RL领会如何与不确定性共舞

学贯中西(10):从RL领会如何与不确定性共舞

作者:高焕堂(铭传大学、长庚大学教授,台北)时间:2022-08-11来源:电子产品世界收藏

1 前言

本文引用地址:http://www.eepw.com.cn/article/202208/437253.htm

在上一期里,我们说明了当人类的慢想 ( 创意 ) 与 的快思 ( 直觉 ) 互相平衡时,最能展现协同创造力。有了 经验直觉来协助去芜存菁,人类更敢超越经验去进行大跨度的联想和探索。

这样的协同组织体系,非常适合与高度不确定的外在环境 (Environment) 互动,并从外在环境获取最大的回报。这是自然界生物 ( 有机体系 ) 的天赋学习本质,非常接近于 强化学习 (Reinforcement Learning,简称 ) 机制。例如,AlphaGo Zero 增添了 ,就具有更强大的探索能力,能够在极大的围棋上打败人类的顶尖高手,如图 1。

1660207784352891.png

图1

本文就藉由 来说明上述的协同创新力,如何表现于不确性环境里的决策,也进一步阐述其探索全局最优解 (Global optimum) 的思维过程。

2 认识强化学习

强化学习 (RL) 是机器学习 (ML) 的一种模型,它是来自于近似动态规划 (approximate dynamic programming, ADP) 的算法。它的主要特点是:能在探索 ( 在未知的 领域 ) 和利用 ( 现有知识 ) 之间找到平衡。

探索 (Exploration) 就是:尝试以前从未做过的事情,以求获得更高的报酬。而利用 (Exploitation) 就是:做当前所知能产生最大回报的事情。

例如,假设您的住家周边有十个餐馆,而您只去过八家餐馆吃饭,而有两家还没去消费过。基于过去的经验,您了解这八家餐馆中的哪一家的是最实惠又好吃的。如果有一天,您的好朋友来访,您想请他去最棒的餐馆吃饭。那么,您会如何选择出最棒的餐馆呢?

此时,方案一是:利用。就是利用您既有的知识经验,从您经历过的八家餐馆中挑选出一家最棒的餐馆。另外,方案二是:探索。就是您选择没去过的两家 ( 即第九家或第十家 ),一起去品尝新的滋味。

如果您采取方案一:带他去八家中最棒的餐馆吃饭。那么如果第九家或第十家比这八家都更棒,就失去最好的了。反之,如果采取方案二:带他去第九家或第十家餐馆。那么如果这两家并不如前八家好吃,就得不偿失了。

这是有趣的情境,就是通称的 < 探索 - 利用 > 困境 (Exploration-Exploitation dilemma),我们该如何与他共舞,来做最具智慧的抉择呢?此时,强化学习将让“探索”和“利用”两者取得最佳的平衡。

3 “局部最优”与“全局最优”

“利用”就是:做当前所知能产生最大报酬的事情。例如,刚才提到的,从您经历过的八家餐馆中挑选出一家最棒的餐馆。这样的缺点是,常常受限于 ( 现有知识 ),只能获得区域性最优 (Local optima) 方案。传统上,人类的学习偏重于“利用”所学的知识,去发挥所长,追求很有把握、很可能 (Probable) 的方案,并从中挑选一个最高报酬的解,如图 2。

1660207888693280.png

图2

“探索”就是:尝试、探索以前从未做过的事情,以求获得可能的更高报酬。例如,刚才提到的,选择没去过的两家 ( 即第九家或第十家 ) 餐馆,可能比前八家更美味、好吃。然而,生物有机体系还有一种本能,去探索一些不太确定 (Improbable)的方案,然后挑选具有更高报酬的解,如图 3。

1660207929703069.png

图3

AI 强化学习很接近这种生物学习的本质,在探索未知领域和利用现有知识,两者之间找到了最佳平衡,来获得全局最优 (Global optima) 方案,如图 4。

1660207997430538.png

图4

目前,人类已经把这种“探索 - 利用”最佳平衡的技巧(算法)教给了 AI 机 器,让 AlphaGo Zero 超越了人类的围棋顶尖高手。如果人类也能从 AI 强化学习得到启示,强化探索能力,则人人能探索更多可能 (Possibility),得到更多机会 (Opportunity)。

4 面对(Uncertainty)

不确定性的环境中,蕴含者各种可能性 (Possibility),也将给探索者带来许多机会 (Opportunity)。就如同西方的谚语:“When you focus on problems, you get problems. When you focus on possibilities, you have more opportunities.” ( 当你专注于问题时,会引来更多问题。当你专注于可能性时,你会有更多的机会。)

于是,我们就来关注可能性和机会。其中,“可能性”包括了:1) 很可能(Probable) ;2) 不太确定(Improbable)。其中,“不太确定”又包括:2a) 可能 (Possible);2b) 很不可能 (Impossible)。如图 5 所示。

1660208067118860.png

图5

对于所面对的不确定性环境中,所带来的可能性和机会,进行分门别类之后,就来采取“剪枝”策略、进行“去芜存菁”的动作,也就是:把不可能的部分删除掉,如图 6。

1660208144625316.png

图6

这里的“去芜存菁”动作,可以大幅将低风险。因为懂得避风险,才敢大胆探索。AlphaGo 也擅用“去芜存菁”策略,来缩小探索“空间”,提高探索效果。例如,AlphaGo 的目标就是将获胜机率最大化放在第一位,它的奏效策略是搜索途径来实现最低风险下的获胜机会。AlphaGo 常常会倾向为了取胜而放弃更多赢子数,其目的是为了降低不能取胜的风险,以便提高胜率。即使是很小的差距仍会纳入谨慎考虑。例如,当 AlphaGo 面对 “赢 3 子,90% 胜率”和“赢 1/4 子,95% 胜率”两种情况时,它会倾向选择后者,力求降低风险。

去芜存菁之后,留下的部分,俗称为:甜心区 (Sweet spot),如图 7。

1660208427621218.png

图7

孙子兵法上也强调:不打没把握的仗。股市名家巴菲特也强调:不赔钱原则。都是说明面对不确定时,重视降低风险,来提高勝率。

5 与不确定性共舞(Living with uncertainty)

兹拿一个童话寓言故事,来综合前面所述的内涵。有一只小狮子肚子饿了,走到附近的草原上,依据成功经验和熟练的技技巧 ( 战术 ) 奋力去追小兔,填饱肚子。一日复一日,它发现捕获的兔子日渐减少 ( 可能兔子变敏感了 ),有些困惑 ( 心生不确定性 ),回到家就问妈妈。狮子妈妈就教这小狮子,妈妈说:“你肚子饿了,就眼睛闭着,睡大觉,不要乱跑。”

小狮子满脑困惑,不确定感急速上升,非常不安。但母命难违,只好勉强为之,果然耳朵变灵敏了,清晰听见兔子声音愈来愈近,然后猛然奔出一抓,轻易捕获,饱食一餐,继续睡大觉。君不见,身为野兽之王的雄狮母狮,常常看似想睡觉的表情。

然而,小狮子关注于肚子饿 (focus on problems), 却引来更多问题 (more problems),如追累了,走不动,引来生命危险等。而狮子妈妈则教小狮子不要围绕问题,勇于抛掉无用的战术,力求与不确定性共舞。因而发现更多机会 (more opportunities),如兔子自动送上门来。

(注:本文转载自《电子产品世界》杂志2022年8月期)



关键词: 202208 AI RL 不确定性

评论


相关推荐

技术专区

关闭