牛津通識讀本:Game Theory
《博弈論:非常簡短的介紹》旨在以易於理解的方式,向讀者介紹博弈論這門學科的核心概念、理論基礎及其在各領域的應用,同時也探討了相關的悖論和誤解。
1. 博弈論的本質與應用範圍
- 論點: 博弈論是研究理性決策者在互動情境下行為的學科,廣泛應用於經濟、政治、生物、社會等領域,而非僅限於棋盤遊戲。
- 解釋: 文件一開始就指出,博弈論遠不止於紙上談兵的遊戲,而是對現實生活中各種互動的抽象。無論是開車變換車道、線上競標、勞資談判,甚至是國際關係中的衝突與合作,都可以視為一種「博弈」。核心在於,博弈論處理的是當個體(理性決策者)的結果不僅取決於自己的行動,也取決於其他個體的行動時,他們將如何選擇。文件強調博弈論的有效性仰賴於「理性」假設,雖然這限制了它對完全非理性行為的預測能力,但在市場競爭、演化過程等領域,即使個體並非主動理性思考,博由論仍能因市場淘汰或自然選擇等機制而展現預測力。書中透過電信頻譜拍賣等實際成功案例,反駁了對博弈論實用性的質疑。
2. 理性、偏好與效用
- 論點: 博弈論中的「理性」被定義為內部一致性,偏好通過「顯示性偏好」理論來理解,並用數值化的「效用」來衡量,包括對風險的態度。
- 解釋: 文件區分了日常語境和博弈論語境下的「理性」。博弈論不評判偏好的內容(例如,偏好宇宙毀滅勝過手指劃傷),只關注偏好是否一致。理性僅僅是避免內部不一致的工具。為了分析,博弈論需要量化偏好,這通過「效用」來實現。文件特別提到了馮·諾依曼(Von Neumann)通過測量個體在不同風險彩票中的選擇,來確定其對結果的數值化效用(基數效用),這也捕捉了個體對風險的態度(風險中性、風險厭惡)。這種效用衡量方式允許將不同結果放在同一標尺上比較,並計算預期效用,為理性玩家最大化預期效用奠定基礎。儘管效用歷史上與功利主義相關,但現代博弈論的效用概念並不必然等同於快樂或痛苦,而是從選擇行為中反推的數值表示。
3. 納許均衡:博弈論的核心解概念
- 論點: 納許均衡(Nash Equilibrium)是博弈論中最基本的解概念,描述了所有參與者同時選擇對其他參與者策略而言的最佳回應策略的狀態。它可以被視為理性預期的穩定點,也是演化過程可能收斂的結果。
-
解釋: 文件在介紹了完全對抗的零和博弈(如猜硬幣)和純粹協調的博弈(如開車)後,引入了包含混合動機的博弈(如懦夫賽局和性別大戰)。納許均衡的定義是:如果每個玩家的策略都是對其對手策略的最佳回應,則該策略組合構成納許均衡。文件提供了兩種主要的解釋:
- 理性解釋: 如果存在一本「大書」給出理性玩家在任何博弈中的推薦策略,那麼這些推薦策略必須構成一個納許均衡,否則至少有一位玩家會發現偏離建議能獲得更好的結果。納許均衡提供了一個自我證成的預期體系,打破了無限回歸的「愛麗絲認為鮑勃認為愛麗絲認為…」鏈條。
- 演化解釋: 即使玩家並非完全理性,通過試錯或模仿等演化過程,其行為也往往會趨向於納許均衡。在自然選擇或市場競爭中,能帶來更高回報的策略會更頻繁地被複製,這個過程只有在所有現存策略都是最佳反應時才會停止,而這正是納許均衡的定義。文件舉例說明了簡單的反應動力學如何趨向納許均衡。
4. 機會、混合策略與演化動力學
- 論點: 在某些博弈(特別是零和博弈和具有特定結構的博弈)中,理性玩家可能需要隨機化自己的行動,即採用混合策略,以使對手無法預測並因此對其策略選擇感到無差異。演化過程也能解釋混合策略或策略組合的出現。
- 解釋: 文件解釋了為何在猜硬幣這類遊戲中,純策略(總是選正面或反面)無法形成納許均衡。解決方案是引入混合策略,即以一定概率選擇不同的純策略。納許證明了所有有限博弈都存在至少一個納許均衡(可能在混合策略中)。在混合納許均衡中,玩家隨機化是因為對手選擇了使他們對不同純策略無差異的混合策略。這種想法導致了一些看似悖論的結果(如好撒瑪利亞人賽局中的旁觀者效應)。文件展示了簡單的演化動力學模型(如最佳反應動力學和複製者動力學)如何解釋玩家如何通過學習或選擇過程趨向混合納許均衡,或導致不同均衡之間的轉換,甚至非均衡的循環行為。
5. 時間結構、資訊與子賽局完美
- 論點: 考慮博弈的時間順序和玩家在做決策時擁有的資訊是分析的關鍵。完美資訊博弈(玩家總知道之前所有行動)可以通過逆向歸納法求解,引出子賽局完美納許均衡的概念。不完美資訊博弈(玩家對之前某些行動未知)需要引入資訊集,而資訊不完備(玩家對對手類型/偏好未知)則需借助哈薩尼的方法轉化為不完美資訊博弈。
-
解釋: 文件從完美資訊博弈(如國際象棋,雖然複雜但原理上可逆向歸納)和不完美資訊博弈(如撲克)入手。遊戲的「擴展形式」用樹狀結構表示行動順序、決策點和資訊。逆向歸納法是完美資訊博弈的解法,從遊戲的最後一步向前推理,確定每個階段理性玩家的最佳選擇。這導向了子賽局完美納許均衡,要求在遊戲的任何子賽局中,玩家的策略都構成納許均衡。這要求玩家的策略在「反事實」情況下(即未實際發生的子賽局)也是理性的,解決了某些納許均衡依賴不可信威脅的問題(如綁架賽局)。然而,在更長的遊戲中(如連鎖店悖論),對理性在反事實情境下是否維持的質疑可能挑戰子賽局完美的適用性。
對於不完美資訊(玩家不知道其他玩家的同時行動或過去的某些行動,用資訊集表示),分析變得複雜。對於資訊不完備(玩家不知道其他玩家的類型,即他們的偏好、信念等),哈薩尼(Harsanyi)的方法是引入一個假想的「機會」玩家,根據玩家類型的概率分佈為玩家分配類型,將不完備資訊博弈轉化為不完美資訊博弈進行分析。這解釋了在信息不對稱下的策略選擇,並揭示了信息本身可能具有複雜的價值,有時甚至「無知是福」。信號發送(例如昂貴的信號)是處理不完備資訊的一種方式。
6. 慣例、社會困境與協力
- 論點: 慣例(Conventions)是社會中協調行為的納許均衡,它們解決了多重均衡的協調問題(如開車靠左/靠右)。然而,並非所有慣例都是有效率的,有些慣例可能導致「社會困境」,即個體理性導致集體非理性的結果。
-
解釋: 文件指出,許多社會規則和行為模式都是協調賽局的慣例,其存在是為了讓社會成員能夠有效互動,即使這些慣例本身可能是任意的(如大衛·休謨對所有權、金錢和語言的論述)。湯姆·謝林(Tom Schelling)的「焦點」概念解釋了在缺乏明確規則時人們如何自發協調。謝林的棋盤模擬(Schelling’s Solitaire)展示了即使個體沒有歧視偏好,僅僅基於鄰里構成的微小偏好,也可能導致隔離等低效率慣例的出現。
「社會困境」是指這樣一種情況:每個個體追求自身利益的最大化,但這導致所有個體的結果都比他們採取某種集體行動時要差(如囚犯困境、公地悲劇)。文件反駁了將這種個體理性行為導致的集體非理性結果視為個體本身「不理性」的觀點,認為這混淆了個體目標與集體目標。康德的範疇命令或「如果每個人都這樣做會怎樣」的論證,在社會困境中無法改變個體的理性激勵。理解社會困境需要分析遊戲的均衡結構,而不是訴諸道德說教或假定個體會為了集體利益犧牲自身。
7. 重複互動與互惠行為
- 論點: 在玩家可能無限期重複互動的博弈中,互惠行為(Reciprocity)可以作為支持合作的納許均衡策略,懲罰機制是維持這種合作的關鍵。
- 解釋: 文件認為,現實生活中的許多互動並非一次性博弈,而是重複進行的。雖然有限次重複博弈的逆向歸納法預測非合作結果(如重複囚犯困境),但無限次重複博弈(或以一定概率持續)則允許合作作為均衡出現。著名的「民間定理」(Folk Theorem)指出,在重複次數足夠多且玩家足夠有耐心時,只要收益分配高於玩家通過單方面行動所能確保的最低收益(迷你最大收益),任何對所有玩家都比非合作結果更好的收益組合,都可以作為某個納許均衡的結果來維持。這類均衡通常通過「條件策略」來維持,即玩家在對手合作時合作,對手背叛時懲罰。GRIM策略(一旦背叛就永遠懲罰)是一個例子。雖然GRIM過於嚴苛,但懲罰(或撤回合作)是維持互惠合作的必要組成部分。這解釋了信任(Trust)的演化和維持,如安特衛普鑽石市場的例子。儘管鮑勃·阿克塞爾羅德(Bob Axelrod)對「以牙還牙」(Tit-for-tat)策略的推崇過度,但重複博弈的框架確實提供了理解人類和動物互惠行為(如吸血蝙蝠)的遊戲論基礎。許多社會概念(如名譽、權威、義務、情緒)都可以被視為在重複互動中維持均衡的「湧現現象」。
8. 演化博弈論與生物學應用
- 論點: 博弈論在演化生物學中具有核心地位,它將行為策略的適應度視為在互動遊戲中的結果,自然選擇偏好適應度更高的策略,導致群體構成趨向於演化穩定策略(ESS)或納許均衡。
-
解釋: 文件強調了演化博弈論與社會博弈論的共通之處:都是關於互動和選擇。在生物學中,「選擇」的單位通常是基因或由基因編碼的行為特徵,它們是「複製者」。具有更高適應度(通過遊戲互動獲得)的複製者在後代中的比例會增加。演化穩定策略(ESS)是納許均衡的一個精煉概念,它描述了能夠抵抗新突變(不同策略)入侵的群體狀態。複製者動力學模擬了群體中不同策略頻率隨時間的變化,通常會趨向ESS。文件舉例說明了如何用博弈論分析動物行為,如鷹鴿賽局(Hawk-Dove Game)解釋攻擊性策略的演化,以及雞賽局(Chicken)解釋兩種不同策略(如藍鰓太陽魚的不同繁殖策略)如何在同一環境中並存。
文件還深入探討了親緣選擇(Kin Selection),解釋了為何動物會為親屬犧牲,核心是漢密爾頓法則(Hamilton’s Rule):行為的適應度要考慮其對自身和親屬後代數量的影響,並根據親緣關係度加權。這解釋了社會性昆蟲(如膜翅目昆蟲)中不育工蜂/蟻的演化,特別是結合膜翅目的單倍雙倍性別決定系統和由此產生的特殊親緣關係度。文件認為,演化博弈論是理解生物複雜社會行為的有力工具,儘管像群體選擇這樣的誤解依然存在。
9. 合作博弈論、議價與聯盟形成
- 論點: 合作博弈論繞過了「為何」合作的問題,假設玩家能形成具有約束力的聯盟並分配集體收益。它提供了分析聯盟結構和收益分配的工具,而「納許綱領」(Nash Program)則試圖用非合作博弈論來論證這些合作結果。
-
解釋: 文件區分了非合作博弈論(聚焦個體策略和均衡)與合作博弈論(聚焦聯盟形成和收益分配,假設聯盟具備約束力)。合作博弈論不解釋合作的維持機制,而是提供描述和預測合作結果的抽象概念。納許綱領是試圖為合作博弈論的解概念(如納許議價解、核心、夏普利值)提供非合作基礎的研究方向,即將聯盟形成和議價過程本身建模為非合作博弈來分析。
納許議價解(Nash Bargaining Solution)是解決兩人議價問題的經典方法,它通過一系列公理(如帕累托效率、對稱性、獨立於不相關選項、獨立於線性效用轉換)導出一個唯一的解,通常在風險中性時為對半分配,風險厭惡時則受風險厭惡程度影響。魯賓斯坦(Rubinstein)的交替出價模型提供了納許議價解的非合作基礎,證明在玩家足夠有耐心時,交替出價博弈的唯一子賽局完美均衡結果趨近於納許議價解(受玩家貼現率影響)。
在多個玩家的合作博弈中,核心(Core)概念識別無法被任何子聯盟通過自身力量改進的收益分配。然而,核心可能為空(如三人分美元博弈)。夏普利值(Shapley Value)是另一種分配方法,它衡量每個玩家對所有可能聯盟的平均邊際貢獻。這些合作概念為理解聯盟形成和收益分配提供了框架,但其適用性和精確性在複雜情況下仍是研究的挑戰。
10. 悖論與誤解
- 論點: 許多被視為博弈論悖論的例子,實際上是源於對博弈論基本概念或對所分析遊戲結構的誤解。
-
解釋: 文件用幾個經典悖論來說明正確應用博弈論的重要性,以及人們在面對違反直覺的結論時容易陷入的思維誤區。
- 囚犯困境的悖論: 文件再次強調,囚犯困境的「悖論」在於個體理性導致集體非理性結果,而非個體理性本身的失效。康德的範疇命令、雙胞胎謬誤、浪費選票神話等試圖證明在囚犯困境中合作是理性的論點都被駁斥,因為它們通常改變了遊戲的基本假設(如獨立選擇)。
- 透明傾向謬誤(Transparent Disposition Fallacy): 這個謬誤假設玩家能可信地承諾採取某種行為傾向(如透明地承諾在囚犯困境中互惠),並以此證明合作的理性。文件認為這是一種對博弈結構的改變(玩的是「承諾遊戲」而非原始遊戲),且「可信地承諾」本身在現實中極難實現。
- 紐康姆悖論(Newcomb’s Paradox): 這個悖論通過設定一個全知且預測玩家行動的實體,製造了玩家似乎可以通過選擇被支配策略來獲得更好結果的假象。文件指出,這個悖論包含內在矛盾(如設定玩家在對手已知其行動後仍有多個選擇),並非一個有效的博弈論問題。
- 突擊測驗悖論(Surprise Test Paradox): 這個悖論通過逆向歸納法推導出老師無法給予突擊測驗的結論,但老師最終確實進行了突擊測驗。文件認為問題出在對遊戲的錯誤建模或包含了不一致的前提(例如,學生假設老師必須給出測驗,同時假設測驗必須是個驚喜,而這兩個條件在邏輯上可能不相容)。
- 蒙提霍爾問題(Monty Hall Problem): 這個看似悖論的機率問題(在猜三個門一個有獎後,主持人打開一個空門,是否應換門)被用來說明通過清晰界定博弈的結構(誰知道什麼,什麼時候知道),可以輕鬆得出正確的機率結論,反駁了直覺判斷。
總而言之,這份文件通過介紹博弈論的核心概念(理性、效用、納許均衡、混合策略、資訊、時間結構)、重要理論(逆向歸納、子賽局完美、民間定理、哈薩尼方法、演化穩定性、議價理論、合作博弈概念)及其在不同領域的應用,展示了博弈論作為分析互動和策略行為的強大框架,並警示讀者在應用時要謹慎對待基本假設和潛在的邏輯陷阱。
comments
comments for this post are closed