這三個博弈論新趨勢,正深刻影響深度強化學習

作者 | Jesus Rodriguez

編譯 | 亞爾曼?佩皮

校對 | 叢末 & Camel

編輯 | 唐里

博弈論在現代人工智能(AI)解決方案中正扮演著至關重要的角色,深度強化學習(DRL)正是積極擁抱博弈論的頭等公民。

從單智能體程序到復雜的多智能體深度強化學習環境,博弈論原理貫穿了 AI 程序的整個生命周期。 而反過來,DRL 的快速演化也重新激發了人們對博弈論研究的關注。

目前,大多數 DRL 模型事實上還停留在傳統的博弈論層面,例如納什均衡或零和游戲等。但隨著DRL的發展,傳統博弈論方法已經逐漸呈現出不足之處,而同時則有一些新的博弈論方法被納入到人工智能的程序當中。

因此,對于我們來說,若想進一步優化深度強化學習的模型,考慮融入新的博弈論方法,是值得考量的一個方向。

以下三個,正是在深刻影響 DRL 的「新」博弈論方法,或許用到你的模型中會大大改觀模型的性能。

一、平均場博弈(Mean Field Games)

在博弈論家族中,平均場博弈(MFG)還是一個相對較新的領域。

平均場博弈論誕生于 2006 年,這一理論是由兩個團隊獨立提出的,一個是蒙特利爾的 Minyi Huang、Roland Malhame 和 Peter Gaines,另一個是巴黎的 Jean-Michel Lasry和菲爾茲獎獲得者 Pierre-Louis Lions。

從概念上講,平均場博弈論是一套方法和技術的組合,它被用來研究由「理性博弈方」組成的大群體下的差異化博弈。 這些智能體不僅對自身所處的狀態(如財富、資金)有偏好,還關注其他智能體在整個樣本分布中所處的位置。 平均場博弈理論正是針對這些系統對廣義納什均衡進行了研究。

平均場博弈的經典案例是,如何訓練魚群朝相同方向游,或者以協作方式游。

這個現象很難用理論解釋,但它的本質事實上是,魚會根據最靠近的魚群的行為做出反映。 再具體點兒,每條魚并不在乎其他單個魚的行為,而是關注附近作為一個整體、統一移動的魚群做出的行為。

如果我們用數學方程表述這個原理,一方面可以用 Hamilton-Jacobi-Bellman 方程來描述魚對周邊魚群的反應,另一方面則可以用 Fokker-Planck-Kolmogoroy 方程來表示決定整個魚群行動的所有魚的行為集合。

平均場博弈理論就是這兩個等式的組合。

從深度強化學習的角度來說,在研究大范圍環境中 大量智能體的表現方面,平均場博弈論扮演著重要的角色。

實驗和理論已經證實,在“接近無限多智能體、并假設采用不精確的概率模型進行操作”的環境中,已有的 DRL的方法并不具備現實可用性。

而 MFG 卻是模擬這類 DRL 環境的一個有意思的方法,非常值得嘗試。

一家叫做Prowler 的創業公司最近就在針對平均場博弈論(MFG)在大型多智能體(DRL)環境中的表現開展研究工作。

二、隨機博弈(Stochastic games)

隨機博弈可追溯到 20 世紀 50 年代,它由諾貝爾經濟學獎獲得者 Lloyd Shapley 提出。

理論上隨機博弈的規則是,讓有限多個博弈者在有限個狀態空間中進行博弈,每個博弈者在每個狀態空間都從有限個行為中選出一個行為,這些行為的組合結果會決定博弈者所獲得的獎勵,并得出下一個狀態空間的概率分布。

隨機博弈的經典案例是哲學家的晚餐問題: n+1 位哲學家(n 大于等于 1)圍坐在一個圓桌周圍,圓桌中間放了一碗米飯。 每兩位鄰座的哲學家之間會放一支筷子以供這兩位取用。 因為桌子是圓形的,筷子的數量與哲學家的數量一樣多。 為了從碗中取到東西吃,哲學家需要同時從兩邊各取一支筷子組成一雙,因此,在一位哲學家吃東西時,他的兩位鄰座就無法同時進食。 哲學家的生活簡單到只需要吃和思考,而為了存活下來,哲學家需要不斷地思考和吃東西。 這場博弈的任務就是設計出一個可以讓所有的哲學家都活下來的制度。

DRL 已經開始應用隨機博弈理論解決多玩家游戲問題。 在許多多玩家游戲中,AI 智能體戰隊需要評估如何通過與其他智能體協作和競爭以最大化正向結果。

這一問題一般被稱作探索-利用困境。 在 DRL 智能體中構建隨機博弈動態機制,可以有效地平衡 DRL 智能體在探索能力和利用能力方面的發展。 DeepMind 在訓練 AI 掌握 Quake III 游戲的工作中,就融合了一些隨機博弈論中的概念。

三、進化博弈(Evolutionary Games)

進化博弈理論(EGT)是從達爾文進化論中得到的啟發。

EGT 的起源可以追溯到 1973 年,當時 John Maynard Smith 和 George R.Price兩人采用「策略」分析將演化競爭形式化,并建立數學標準,從而來預測不同競爭策略所產生的結果。

從概念上來說,EGT 是博弈論在進化場景中的應用。 在這種博弈中,一群智能體通過重復選擇的進化過程,與多樣化的策略進行持續交互,從而創建出一個穩定的解決方案。

它背后的思路是, 許多行為都涉及到群體中多個智能體間的交互,而其中某一個智能體是否獲得成功,取決于它采取的策略與其他智能體的策略如何交互。

經典博弈論將關注點放在靜態策略上,即參與者采取的策略不會隨著時間改變,而進化博弈與經典博弈論不同,它關注策略如何隨著時間演化,以及哪個動態策略是進化進程中最成功的那一個。

EGT 的經典案例是鷹鴿博弈(Howk Dove Game),它模擬了鷹與鴿之間對可共享資源的競爭。 博弈中的每個競爭者都遵循以下兩種策略之中的一種:

  • 鷹:本能的強勢,充滿侵略性,除非身負重傷,否則絕不退卻。

  • 鴿:面對強勢進攻會立即逃跑。

如果假設:

1)兩個同樣強勢進攻的鷹進行搏斗,兩者之間必然會發生沖突,且兩者都很有可能受傷;

2)沖突的代價是每人都受到一定程度的損傷,用常量 C 表示這個損失;

3)如果鷹與鴿相遇,鴿會立刻逃跑,而鷹則會占有資源;

4)兩只鴿相遇,則他們將公平地分享資源。 鷹鴿博弈的對應收益可以用以下矩陣總結:

EGT 看上去似乎是特地為 DRL 環境而設計的。

在多智能體的 DRL 環境中,智能體在彼此交互的過程中會周期性地調整自己的策略。 而 EGT 正是一種可以高效模擬這些交互的方法。 最近,OpenAI 就展示了經過這種動態訓練的智能體在玩捉迷藏游戲時的表現(https://openai.com/blog/emergent-tool-use/)。

via https://towardsdatascience.com/new-game-theory-innovations-that-are-influencing-reinforcement-learning-24779f7e82b1

點擊“ 閱讀 原文 ”查看  AI 領域博弈論入門

我來評幾句
登錄后評論

已發表評論數()

相關站點

+訂閱
熱門文章
贵州11选5走势图软件 nba比分网吧 奇仙幻旅游戏能赚钱吗 北单比分投注规则 电脑可以做点什么赚钱的软件叫什么 贷款买房升值了如何卖出赚钱 旅行社销售怎么赚钱 球探篮球比分即时足球比分 运哈商务能赚钱吗 云南快乐十分 仙境传说ro挂机什么赚钱 登录送18元的赚钱软件 江苏7位数 千库网可以赚钱 上海哈灵百搭麻将群 广东时时彩 贴假条赚钱