進化對策論研究論文
時間:2022-11-13 10:03:00
導語:進化對策論研究論文一文來源于網友上傳,不代表本站觀點,若需要原創文章可咨詢客服老師,歡迎參考。
對于經濟學家而言,非合作對策論又稱非合作博弈論,是用來分析和研究經濟問題的極有價值的工具,因為它提供了建立經濟行為人策略相互作用的分析語言,而且它還能導致人們直觀的洞察力由簡單內容轉向更復雜的內容上來。當然,相當多的觀點是憑借納什均衡概念的運用而得到的。這種深受人們喜歡的博弈理論思想日益增長促使人們對另一種事實不斷增長的認識和思索,均衡分析在什么時候以及為什么是合適的?對這個問題的解答不是一個簡單而容易回答的。可惜的是,博弈論的理論和分析方法還沒有提出對納什均衡概念之外的可供選擇的內容。
然而,直到最近10多年來,在均衡選擇方面才取得進展,這些進展提出當存在多個均衡時,應該怎樣去做。
一、納什均衡
納什,在1950年就已經對納什均衡給出兩種解釋。第一種是群體作用的解釋。此種解釋假設,在博弈中存在對每個參與者又稱局中人(player)起作用的參與者群體。參與者不斷地積累各種純策略中的令人注意的經驗信息,如果此博弈穩定下來,那么這種均衡必是納什均衡。然而。Shapley在1964年證明,如果博弈沒有穩定下來,那么必然存在一種策略選擇的有限循環。第二種解釋的觀點是把均衡看成一個“自動實施協議”或者是理性的預測。如果基于理性的預測是唯一的,那么博弈均衡確實得以存在,這時倘若均衡是眾所周知的,它必是納什均衡。納什本人對此做了闡述,這是“一種十分強的理性化和理想化的解釋”。這對闡述均衡而言是有效的,解決均衡選擇問題是一個基本的問題。因此,對于經濟學家的研究目的而言,與均衡選擇相關的問題是必須加以分析和深入探討。
對納什均衡的第三種解釋,是由MaynardSmith和Price在1973年首次提出的,它源于生物學領域的研究。在這種解釋中完全不存在有意識的選擇:參與者預先選取某一種策略,而且更為成功的策略生存下來;如果種群(population在生物學上稱為種群,在經濟學中我們將其稱為群體更好)達到一種穩定狀態,那么所有策略必是等價的,因此,這種狀態必是納什均衡。這種生物學上的方法,其優點是它不僅具體指出穩定的結果,而且它還靠可能達成的一些結果來給出一種顯示性的過程。
當然,經濟學家清楚地意識到將涉及到的生物學領域中的思想和方法應用到經濟學領域中的疑問和困難,比如,像生物學中的“復制方程”擴展到經濟學領域中的內容和意義是什么,至今還在探索中。
二、進化思想在經濟學中應用的回顧
對經濟學給出進化的解釋不是一種新的手法。實際上,進化解釋在社會科學中是先于達爾文(Darwin)而出現。例如,亞當·斯密(AdamSmith)曾說:“帶來許多利益的勞動分工,原本不是人類智能的結果,雖然人類智能預見到勞動分工產生普遍富裕,并想利用它來實現普遍富裕。盡管在人類本能里沒有意識到這樣廣泛效用中的一種互通有無、物物交換,以及相互之間交易的傾向,此傾向很緩慢并且漸進產生結果,但是勞動分工是必須的?!?/p>
進化思想也能夠在馬爾薩斯(Malthus)、馬歇爾(Marshall),熊彼特(Schumpeter)和哈耶克(Hayek)所寫的著作中找到。關于進化經濟學,這是一個單獨的學科領域,經常與熊彼特的工作相聯系。Robson在2001年系統地給出了經濟行為的生物學方面的基本解釋。
進化經濟學與進化對策論至今是完全相互獨立地發展起來的。在經濟學的理論研究中,理性人的偏好通常是固定的。然而,對于理性人的偏好變化或者進化選擇,經濟學家對此也進行了研究,特別是利他主義的生存價值以及風險態度等。然而,我們這里的進化對策論是將偏好作為固定的和已知的。
關于市場生存進化方面的研究和探討,開始于Winter在1964年的文章“經濟的‘自然選擇’與廠商理論”,接下來Winter在1971年發表了“滿足、選擇與改革殘余物”,Nelson和Winter在1982年出版的著作《經濟變遷的演化理論》(有中文版),是這一領域中出現的最為重要的文獻。最近由Blume和Easley(1992,1995,1996),Dutta(1992)Dutt和Radner(1993),Radner(1995),Bega—redondo以及Boldeke和Samuelson(1997)等學者在此領域進行探索和研究。雖然這個論題與進化對策論緊密相聯系,但是,目前這兩種文獻在方法論上相距甚遠。
三、進化對策論的基本原理與結論
最近10多年里,不像對策論的傳統分析方法那樣——考慮有限理性的經濟行為人以及在嚴格的認知局限之下必須學習執行策略,這樣的對策論理論及其應用有了迅速的發展。這方面的大量研究工作是在稱為進化對策論所提供的框架下進行的。正如此學科標題所表示的,這一新學科的原理借用生物學中的進化模型所具有的與眾不同的一些特征。然而,此學科本身也發展了一些新的方法和技術,特別地適合于有限理性基本假設下對社會和經濟體制方面的分析。進化對策論在10多年里以快速的步伐取得長足的發展。
進化對策淪為人們提供一種具有廣泛適用性的工具。其潛在的應用領域從進化生物學延伸到一般的社會科學,特別是經濟學中。進化理論在經濟學中有著悠久的歷史傳統。直到最近,這種方法在非合作對策論框架中才得到應用。
進化對策論是研究策略行為的穩健性,它是針對有限理性行為人所組成的大群體中多次博弈背景下的進化力量而言的。這種新的組成部分在經濟理論里導致一種新的預測方法,并且為其他社會科學開辟一條嶄新的研究途徑。
進化對策論的基本內容:
(一)進化穩定策略概念。進化對策論理論中,一個關鍵概念是進化穩定策略(ESS),這一概念的提出歸功于MaynardSmith和Price在1973年的“動物沖突的邏輯”一文。此種策略在特定的意義上對進化壓力而言是穩健的:群體執行該種策略對執行任何其他策略而言是非入侵的。假定一對個體是重復隨機地來自于大的群體,去參與一個對稱并有限的兩人博弈,還假定所有的個體在博弈中起初都執行某一個純的或混合的策略x是進化穩定的,那么對于每一個變異策略y,都存在一個正的“入侵障礙”,使得執行變異策略y的個體群體所獲得的支付低于此障礙,從而x贏得的預期支付比執行的y所得要高。下面的不等式對于充分小的ε>0成立,即:
u[x,(1-ε)x+εy]>u[y,(1-ε)x+εy]…………(1)
其中左邊的表達式記為對于策略x而言,當執行相對應策略的個體進入之后,混合群體情況的混合策略(1-ε)x+εy時的預期支付,而右邊的表達式記為對于策略y而言,其所對應的情況的預期支付。
實際上,由上述定義知道,進化穩定性十分有用的特性是一個策略x是進化穩定的當且僅當(1)它是對自身的最佳反應;(2)它是對所有其他最佳反應的反應,當這些策略對其自身的反應比較時。為了弄清楚(1)是必要的,只需充分觀察即知,否則會存在一個對x而言的最佳反應y。在一個充分小的種群中,表現出的這個“變異”策略幾乎總會遇到策略x,從而會贏得比x水平高的收益。同樣,(2)是必需的,因為否則的話一定會存在一個對x而言的可供選擇的最佳反應y,它會贏得與x遇到x的時候或者至少x遇到y時候的收益相同,從而y的平均水平會贏得比混合種群要高一些的收益。注意到,進化穩定性準則沒有解釋種群是如何達到這種策略的。然而,一旦達到這種策略,則這樣的策略對進化壓力來說是穩健的。同時,人們發現,進化穩定性沒有處理種群中具有兩個或更多“變異”同時出現的情況。因而,它隱含地把變異當成稀少事件,以致于種群有時間在另一個變異出現之前響應這種狀況。
雖然,進化穩定性準則是一個生物學上的概念,但是它為各種各樣的人類行為提供一種有關的穩健性準則。這樣,進化穩定性要求人類群體中企圖采用可選擇的策略的任何一個小團體不比已經采用“固有”策略的那些個體所構成的團體收益好。相反,采用固有策略的那些個體所構成的團體缺乏激勵來改變他們的策略。但是,那些采用可選策略的小團體卻受激勵而具有轉變固有策略的行為。在這種社會背景下,進化穩定策略被人們看成是傳統習慣或者已經確立起來的行為規則。比如,社會風氣、企業管理模式等都可以看為是某種人類群體的規則,而極個別的人群社會行為、習氣的變化就會被認為是“變異”。當然,在這種背景下,如果那些極少數的人群或企業的收益比不變異的人群或企業高時,那么這些變異分子會生存得更好!反之,則被淘汰掉。
可惜的是,許多博弈沒有進化穩定策略。于是,研究人員探討各種比進化穩定性稍弱一些的形式,以及集值形式的進化穩定性概念等。此外,ESS概念不能推廣到n人對策的情況上。在本質上,ESS要求強的納什均衡來實施,也就是每一個策略對于策略組而言應是唯一的最佳反應。
(二)復制動力學。復制動力學是選擇過程的顯性模型,它說明種群是如何分配博弈中有聯系的不同純策略隨時間而演化的。復制動力學的數學公式是由Taylor和Jonker于1978年在“進化穩定策略和對策動力學”一文中提出的。他們認為由隨機配對的個體所構成的一個大種群執行有限對策的兩人博弈,猶如進化穩定性的設置一樣。然而,此處的個體僅僅采用純策略。種群狀態是指在純策略上的一個分布x。這種狀態在數學上與博弈中的混合策略是等價的。
如果博弈中的收益表示成生物學上的適合性,也就是后代的數目,同時每一個后代繼續其父母的策略,因此,采用純策略i的個體數目(在大的種群中)將以某一比率指數增長,而此等于對純策略i的預期收益u(ei,x),當執行著表示種群中當前策略分布的混合策略x時,采用任何純策略i的種群分布的增長率等于此策略的收益與種群中平均收益的差。后者,等同于混合策略x當與其自身博弈時的預期收益u(x,x)。這是一個單種群的對稱兩人博弈的復制動力學。
Xi=[u(ei,x)-u(x,x)]xi………………(2)
注意到,對當前種群狀態x的最佳反應具有最高的增長率。第二最佳反應具有第二高的增長率,如此等等。然而,雖然更成功的純策略比欠成功的純策略增長得快,但是種群中的平均收益不必隨時間而增長。產生這一原因的可能性是,如果一個個體由采用最佳策略的個體所代替,那么遇見這個新個體的成員會得到比較低的收益。例如,這正是囚徒困境博弈的情況。如果最初幾乎所有個體采用“合作”,那么個體中將逐漸地轉向“抵賴”,從而平均收益將下降。然而,如果博弈在兩個人總是獲得相等的收益意義上是一個雙對稱的,那么自然選擇的基本規律將成立:種群中收益隨時間而增長,即使沒有必要成為全局最大的。例如,這就是合作博弈的情況,其中所有個體逐漸地轉向到執行同一個純策略上。復制動力學能夠推廣到n人博弈的情況上,這可以看成是來自于n種群、中的個體隨機地以n類型配對,其中每一個參與者的地位狀況正如納什所給出的群體行為解釋的那樣。目前,存在兩種形式的n種群復制動力學,其中一個是由Taylor在1979年提出的,另一個是由MaynardSmith在1982年給出的。
(三)學習模型與選擇動力學
人們把學習模型分成三種類型,即基于信念的學習、強化學習以及模仿學習。最近的一些研究表明,復制動力學是由后面兩類的某種模型所促成的。
1.強化學習模型
心理學上的有關個體學習文獻的中心模型是所謂的強化模型,這是由Bush和Mosteller在1951年提出的。然而,它的思想可以追溯到Thorndikede的“導致過去好的選擇在將來最有可能重復”。當然,人們注意到這里的選擇隱含地作為概率上的一種說法。
Bush和Mosteller的強化學習模型及其他的推廣形式,已經在一系列的人類主觀執行博弈中得到運用??上В@些模型的通常數學性質,人們還知道得很少。然而,Borgers和Sarin在1997年發表的“通過強化和復制動力學的學習”文章把Cross的Bush—Mosteller學習模型的形式與Taylor的兩種群復制動力學進行了理論上的對比研究。雖然這種學習過程在離散時間背景中是隨機的、演化的,而復制動力學在連續時間背景中是確定的、演化的。他們證明,在適當地構造連續時間的界限下,他們的學習過程在有限時間區間內可通過復制動力學來*近。
更確切地講,他們研究在多次博弈回合中(n=l,2,…),在一個固定的兩人參與者采用混合策略對中有限兩人博弈的情況。每一個參與者憑借由其所運用的純策略來記錄概率如下。如果參與者1(同樣的考察參與者2)在博弈的n次回合中運用純策略k,并且獲得一個正的收益Vk(n),這里Vk(n)作為隨機變量,它依賴于參與者2所做出的隨機選擇,那么參與者1對于運用這個策略的未來概率將越增加,其收益也就越高。參與者2以同樣的方法記錄其選擇概率向量Y。所有收益均假設處于單位開區間上,不過,這里的收益不能解釋成N—M(馮·諾依曼和摩根斯藤)效用。因此,一旦所用策略的概率是遞增的,那么所有選擇均是強化的。
從任何一個初始概率向量X(0)=x0和Y(0)=Y0開始,方程(3)定義出博弈的混合策略空間中的一個馬爾可夫鏈{X(n),Y(n)}∞n=1。其中參數δ>0表示博弈的兩次回合之間的時間:t=nδ是n次博弈回合中的“真實”時間。Borgers和Sarin得到這一過程的連續時間界限,通過設n→∞和δ→0以便有δn=t,在任何有限的“真實”時間上來估計價值。因此,博弈在越來越短的時間區間上執行,同時概率以相稱的較小數值得以適應。他們證明,在這個界限內,此過程以狀態(x(t),y(t))的形式出現在單位區間概率上,其中如果復制動力學的初始狀態在時間0處以(x0,y0)開始,那么復制動力學會在時間t達到。在這個意義上,復制動力學在有限時間區間上近似于強化動力學(3)。
然而,這兩類模型的漸進性質卻十分不同。例如,為了在直觀上理解這點,假設參與者1的收益既是恒定獨立于他的策略選擇又獨立于參與者2的策略選擇。設參與者1在強化動力學中的初始狀態指派概率等于參與者1的所有可獲得純策略的概率。同樣的,設復制動力學的初始狀態指派種群的各部分采用策略的概率等于所有可獲得純策略的概率。顯然,復制動力學的解是一個常量:所有種群的各部分分得的收益永遠相等。然而,強化動力學的實現會容易隨時間而收斂到參與者1可獲得的任何一個純策略上。由于在博弈的第一個回合中選用策略的概率將高于在下一次博弈回合中所選用的策略概率,所以強化動力學的性質更有可能把參與者1“鎖定”到他的任何一個純策略上。Borgers和Sarin證明,任何有限兩人博弈的強化動力學以概率1收斂到一個純策略組合上,而不像復制動力學那樣。
2.模仿學習模型
博弈論學者Gale,Binmore和Samuelon在1995年提出一個所有個體參與者都采用純策略的大群體,但是有限博弈的社會學習的簡單模型。每一個參與者在博弈中都贏得一個渴望水平的收益。在離散時間0,δ,2δ,…上,任意從群體中抽取個體δ部分,把其當前收益與他們的渴望水平收益相比較,其中δ>0是很小的數。如果個體實現的收益低于其生存水平收益,那么該個體就會隨機地模仿已抽取的個體,在相同的參與者群體中,所有其他個體都具有相同的概率被抽取。由此可見,如果渴望水平收益具有均勻分布(某一個區間上包含所有可能的收益值),那么模仿的概率對于個體的當前策略而言,在預期收益上是線性遞減的。對于很小的δ,他們證明這個過程可以由有限時間區間上的復制動力學來*近。
人們把個體策略的適應過程作為連續時間中的一個隨機過程。假設在有限群體中每一個個體時常得到一個沖動,使其改變純策略。如果這些沖動是依照i.i.d.的Poisson分布,那么同時發生的概率是零,而且總的過程也是一個Poisson過程。此外,總過程的密度剛好是各個過程密度的和。如果群體是很大的,那么人們利用預期值給出的確定流來近似這個總過程。
Bjornestedt和Weibull在1996年研究了一系列這種模型,其中改變的個體在其博弈的群體中模仿其他的個體,并證明許多正收益的選擇動力學可以被人們推導出來,包括復制動力學的三種形式。特別,如果個體改變比率對其策略而言預期收益是線性遞減的,那么每一個純策略Poisson過程的密度是與其個體總數大小成比例,同時比例因素將是其預期收益遞減的。如果每一個改變的個體選擇其未來的策略是通過在其博弈中隨機地模仿抽取的個體,那么其作為結果的流*近也是一個復制動力學。
Schlag在1997年分析當個體經常以參與者的同樣地位去模仿其他參與者個體時,個體應該選擇什么樣的模仿規則的問題,然而參與者的同樣地位卻受制于信息和記憶的約束。他發現,如果個體想要學習規則是在所有平穩環境中收益遞增,那么此個體應該滿足:(1)當改變策略時,總是通過模仿來進行;(2)永遠不向收益實現比其所擁有收益低的那些個體模仿;(3)向收益實現比其擁有收益高的那些個體模仿。
這種模型被各種各樣不同的環境所發展。在有限兩人博弈中,Schlag假設在隨機地來自于兩個相等大小的有限群體的個體之間兩兩配對,每一個有其自己的地位。個體總是執行純策略。在每一個收益實現之后,每一個個體都要隨機地與其他個體所處的群體進行抽樣調查,并且比較兩種收益的實現。行為規則是一種函數關系,即把收益實現和所用策略對應到博弈中個體地位上可獲得的純策略集合上的分布,為的是采用新的策略。換句話說,允許使用個體的唯一資料是這種收益實現和純策略對。特別,從較早的博弈回合中實現收益被忽略。此外,假設個體在所有博弈中運用相同的行為規則,具有相同數目的純策略可選擇;也就是,個體不需要知曉他們執行什么樣的博弈,他們知道所使用的純策略數目就足夠了。
在任何這樣的博弈中,導致預期收益弱遞增的以及在對手種群中對于任何固定策略分布的行為規則,稱為改進。本文中的重要結果是對于所有這樣規則的刻畫。改進規則的一個特征是他們是模仿的:個體堅持其初始的策略或者采用抽樣的個體策略;但是不會轉向第三個的策略。
行為規則稱為是占優的改進規則,如果在某一個博弈中不存在改進規則產生比較高的預期收益改進比例,而且在對手種群中的某一個策略分布上。Schlag證明,某一個行為規則為占優的改進規則,其具有上面給出的性質(1)(2)(3)。這個比例模仿規則是其自己的一個改進規則,而且可以證明它確有一些其他吸引人的性質。Schlag證明,Taylor兩種群復制動力學的離散時間形式可以*近在任何給定有限時間范圍內導出的一個隨機過程,只要種群充分的大就行。
(四)進化對策論中的一些結論
本文集中探討關于有限n人博弈的顯性動力學種群模型方向的介紹,其中個體執行純策略。首先探討確定性選擇動力學,然后介紹隨機進化模型,其中把隨機變異過程與確定性選擇過程或者隨機選擇過程結合起來。
研究確定性動力學項目性質的一種直接方法是選取一個初始的種群狀態,并且稍后可以計算。然后,人們應該記住讓初始的所有純策略在種群中出現,由于初始的已亡策略將在選擇過程中仍保持已亡的狀態。這種解的軌跡稱為內部的。解的軌跡隨時間流逝而安定下來,就稱為收斂的。反之,則稱為發散的。
如果種群狀態是收斂的,那么什么是長時期限制狀態的本質呢?可以證明,在任何一種弱的正收益選擇動力學中,沿著任何收斂的內部軌跡,限制狀態必將構建納什均衡,研究人員發現,種群執行某種納什均衡或者在漸進意義上的納什均衡。Nachbar在1990年第一個證明出單種群復制動力學的這個結果。事實上,如果選擇過程遇見弱的正收益的相對溫和的條件,且如果匯總的行為隨時間而安定下來,那么在長時期種群狀態中的個體就好像他們預期一個特殊的納什均衡對此執行著一個最佳反應,這點頗像是納什所聲稱的“群體解釋”。
如果對于弱的正收益選擇動力學的內部解隨時間而收斂,那么我們看到幸存下來的策略在作為結果的混合策略組合的最佳反應的意義上是理性的。此處的問題是,如果解的軌跡不收斂,那么會發生什么情況嗎?當長時期中沒有均衡達成時,我們產生的問題是,執行是否為理性的。
非合作博弈論中基本的理性假設是參與者不采用作為嚴格的劣(strictlydominated)純策略。這個假設要求不知道其他參與者的偏好或者行為。一個更嚴格的理性一--附有知識的---假設是參與者不采用作為迭代的嚴格的劣策略。除了回避嚴格的劣的策略之外,這個假定要求所有參與者相互知道彼此的收益,而這些就是他們知道等等,一直到共同知識的某一個有限水平上使得迭代剔除嚴格劣的純策略的過程停止。
因此,進化對策論中的基本問題是進化選擇過程是否剔除掉所有的嚴格劣策略或者所有的迭代的嚴格劣純策略。如果所有迭代的嚴格劣策略消失,那么這提供了在策略上相互作用的參與者行為假設的一種進化證明,就好像此假設是參與者他們作為理性人的共同知識。
Akin在1980年證明,在任何有限對稱兩人博弈中所有嚴格劣的純策略沿著關于單種群復制動力學的任何一個內部解的軌跡都能消失。Samuelson和Zhang在1992年把這一結論推廣到某一個兩種群選擇動力學的正收益子集合中的迭代的嚴格劣純策略上。他們將這種情況稱為聚集單調的(aggregatemonotonic)。
對長時期進化狀態分析的輔助方法是研究種群狀態的穩定性,也就是考察種群對于很小的擾動是如何反應的。Bomze教授在1986年曾證明,如果種群狀態在單種群復制動力學中是弱的動態穩定的,那么此狀態就是對自己的最佳反應,這里的狀態被認為是采用混合策略的。經常運用的穩定性準則是李雅普諾夫穩定性,即狀態x是李雅普諾夫穩定的,如果x的鄰域B包含x的鄰域A,使得在A中開始的解將永遠保留在B中。不是李雅普諾夫穩定的狀態稱為不穩定的。因此,不僅進化穩定性的靜態穩定性準則,而且復制動力學中的動態穩定性都蘊涵著納什均衡的實施。這個結果能夠推廣到任何有限n人博弈中的任何弱的正收益選擇動力學上??傊?,對進化壓力而言,以各種不同方式系統闡述的穩定性都需要納什均衡來實施。然而,不是所有的納什均衡在這個方面都是穩定的,因此,這些進化穩定性準則是納什均衡概念的精煉。
另外,研究者在考察動力學進化穩定性時,把隨機因素并入到進化過程的建模當中。特別,變異過程被認為是內在隨機的一種情況。隨機振動可以憑借穩定性分析方法來解釋確定性選擇動力學;一個穩定的種群狀態對于種群的孤立的很小擾動而言是穩健的。然而,這種穩定分析幾乎說不出一系列的小振動或者同時發生的小振動累計之后促成的大振動的穩健性。這樣的一系列或者同時發生的連續不斷的振動會使種群狀態離開選擇過程的吸引域。雖然這種大量涌現的小振動不可能是統計意義上的獨立而稀少變異的事件,但這一可能性在基本方法上卻改變了動力學進化過程的性質。代替歷史依賴性(依賴于初始種群狀態),此過程會成為遍歷的(ergodic),也就是具有一種漸進分布,其中漸進分布是歷史獨立的(對于所有的初始種群狀態都是相同的)。從而,導致人們現今研究的一個專題——隨機動力學穩定性。這種研究路線的先驅者是Foster和Young(1990),隨后是Fudenberg和Harris(1992),Young(1993)等等。注意到,進化穩定性準則沒有解釋種群是如何達到這種策略的。然而,一旦達到這種策略,則這樣的策略對進化壓力來說是穩健的。同時,人們發現,進化穩定性沒有處理種群中具有兩個或更多“變異”同時出現的情況。因而,它隱含地把變異當成稀少事件,以致于種群有時間在另一個變異出現之前響應這種狀況。
雖然,進化穩定性準則是一個生物學上的概念,但是它為各種各樣的人類行為提供一種有關的穩健性準則。這樣,進化穩定性要求人類群體中企圖采用可選擇的策略的任何一個小團體不比已經采用“固有”策略的那些個體所構成的團體收益好。相反,采用固有策略的那些個體所構成的團體缺乏激勵來改變他們的策略。但是,那些采用可選策略的小團體卻受激勵而具有轉變固有策略的行為。在這種社會背景下,進化穩定策略被人們看成是傳統習慣或者已經確立起來的行為規則。比如,社會風氣、企業管理模式等都可以看為是某種人類群體的規則,而極個別的人群社會行為、習氣的變化就會被認為是“變異”。當然,在這種背景下,如果那些極少數的人群或企業的收益比不變異的人群或企業高時,那么這些變異分子會生存得更好!反之,則被淘汰掉。
可惜的是,許多博弈沒有進化穩定策略。于是,研究人員探討各種比進化穩定性稍弱一些的形式,以及集值形式的進化穩定性概念等。此外,ESS概念不能推廣到n人對策的情況上。在本質上,ESS要求強的納什均衡來實施,也就是每一個策略對于策略組而言應是唯一的最佳反應。
(二)復制動力學。復制動力學是選擇過程的顯性模型,它說明種群是如何分配博弈中有聯系的不同純策略隨時間而演化的。復制動力學的數學公式是由Taylor和Jonker于1978年在“進化穩定策略和對策動力學”一文中提出的。他們認為由隨機配對的個體所構成的一個大種群執行有限對策的兩人博弈,猶如進化穩定性的設置一樣。然而,此處的個體僅僅采用純策略。種群狀態是指在純策略上的一個分布x。這種狀態在數學上與博弈中的混合策略是等價的。
如果博弈中的收益表示成生物學上的適合性,也就是后代的數目,同時每一個后代繼續其父母的策略,因此,采用純策略i的個體數目(在大的種群中)將以某一比率指數增長,而此等于對純策略i的預期收益u(ei,x),當執行著表示種群中當前策略分布的混合策略x時,采用任何純策略i的種群分布的增長率等于此策略的收益與種群中平均收益的差。后者,等同于混合策略x當與其自身博弈時的預期收益u(x,x)。這是一個單種群的對稱兩人博弈的復制動力學。
Xi=[u(ei,x)-u(x,x)]xi………………(2)
注意到,對當前種群狀態x的最佳反應具有最高的增長率。第二最佳反應具有第二高的增長率,如此等等。然而,雖然更成功的純策略比欠成功的純策略增長得快,但是種群中的平均收益不必隨時間而增長。產生這一原因的可能性是,如果一個個體由采用最佳策略的個體所代替,那么遇見這個新個體的成員會得到比較低的收益。例如,這正是囚徒困境博弈的情況。如果最初幾乎所有個體采用“合作”,那么個體中將逐漸地轉向“抵賴”,從而平均收益將下降。然而,如果博弈在兩個人總是獲得相等的收益意義上是一個雙對稱的,那么自然選擇的基本規律將成立:種群中收益隨時間而增長,即使沒有必要成為全局最大的。例如,這就是合作博弈的情況,其中所有個體逐漸地轉向到執行同一個純策略上。復制動力學能夠推廣到n人博弈的情況上,這可以看成是來自于n種群、中的個體隨機地以n類型配對,其中每一個參與者的地位狀況正如納什所給出的群體行為解釋的那樣。目前,存在兩種形式的n種群復制動力學,其中一個是由Taylor在1979年提出的,另一個是由MaynardSmith在1982年給出的。
(三)學習模型與選擇動力學
人們把學習模型分成三種類型,即基于信念的學習、強化學習以及模仿學習。最近的一些研究表明,復制動力學是由后面兩類的某種模型所促成的。
1.強化學習模型
心理學上的有關個體學習文獻的中心模型是所謂的強化模型,這是由Bush和Mosteller在1951年提出的。然而,它的思想可以追溯到Thorndikede的“導致過去好的選擇在將來最有可能重復”。當然,人們注意到這里的選擇隱含地作為概率上的一種說法。
Bush和Mosteller的強化學習模型及其他的推廣形式,已經在一系列的人類主觀執行博弈中得到運用??上?,這些模型的通常數學性質,人們還知道得很少。然而,Borgers和Sarin在1997年發表的“通過強化和復制動力學的學習”文章把Cross的Bush—Mosteller學習模型的形式與Taylor的兩種群復制動力學進行了理論上的對比研究。雖然這種學習過程在離散時間背景中是隨機的、演化的,而復制動力學在連續時間背景中是確定的、演化的。他們證明,在適當地構造連續時間的界限下,他們的學習過程在有限時間區間內可通過復制動力學來*近。
更確切地講,他們研究在多次博弈回合中(n=l,2,…),在一個固定的兩人參與者采用混合策略對中有限兩人博弈的情況。每一個參與者憑借由其所運用的純策略來記錄概率如下。如果參與者1(同樣的考察參與者2)在博弈的n次回合中運用純策略k,并且獲得一個正的收益Vk(n),這里Vk(n)作為隨機變量,它依賴于參與者2所做出的隨機選擇,那么參與者1對于運用這個策略的未來概率將越增加,其收益也就越高。參與者2以同樣的方法記錄其選擇概率向量Y。所有收益均假設處于單位開區間上,不過,這里的收益不能解釋成N—M(馮·諾依曼和摩根斯藤)效用。因此,一旦所用策略的概率是遞增的,那么所有選擇均是強化的。
從任何一個初始概率向量X(0)=x0和Y(0)=Y0開始,方程(3)定義出博弈的混合策略空間中的一個馬爾可夫鏈{X(n),Y(n)}∞n=1。其中參數δ>0表示博弈的兩次回合之間的時間:t=nδ是n次博弈回合中的“真實”時間。Borgers和Sarin得到這一過程的連續時間界限,通過設n→∞和δ→0以便有δn=t,在任何有限的“真實”時間上來估計價值。因此,博弈在越來越短的時間區間上執行,同時概率以相稱的較小數值得以適應。他們證明,在這個界限內,此過程以狀態(x(t),y(t))的形式出現在單位區間概率上,其中如果復制動力學的初始狀態在時間0處以(x0,y0)開始,那么復制動力學會在時間t達到。在這個意義上,復制動力學在有限時間區間上近似于強化動力學(3)。
然而,這兩類模型的漸進性質卻十分不同。例如,為了在直觀上理解這點,假設參與者1的收益既是恒定獨立于他的策略選擇又獨立于參與者2的策略選擇。設參與者1在強化動力學中的初始狀態指派概率等于參與者1的所有可獲得純策略的概率。同樣的,設復制動力學的初始狀態指派種群的各部分采用策略的概率等于所有可獲得純策略的概率。顯然,復制動力學的解是一個常量:所有種群的各部分分得的收益永遠相等。然而,強化動力學的實現會容易隨時間而收斂到參與者1可獲得的任何一個純策略上。由于在博弈的第一個回合中選用策略的概率將高于在下一次博弈回合中所選用的策略概率,所以強化動力學的性質更有可能把參與者1“鎖定”到他的任何一個純策略上。Borgers和Sarin證明,任何有限兩人博弈的強化動力學以概率1收斂到一個純策略組合上,而不像復制動力學那樣。
2.模仿學習模型
博弈論學者Gale,Binmore和Samuelon在1995年提出一個所有個體參與者都采用純策略的大群體,但是有限博弈的社會學習的簡單模型。每一個參與者在博弈中都贏得一個渴望水平的收益。在離散時間0,δ,2δ,…上,任意從群體中抽取個體δ部分,把其當前收益與他們的渴望水平收益相比較,其中δ>0是很小的數。如果個體實現的收益低于其生存水平收益,那么該個體就會隨機地模仿已抽取的個體,在相同的參與者群體中,所有其他個體都具有相同的概率被抽取。由此可見,如果渴望水平收益具有均勻分布(某一個區間上包含所有可能的收益值),那么模仿的概率對于個體的當前策略而言,在預期收益上是線性遞減的。對于很小的δ,他們證明這個過程可以由有限時間區間上的復制動力學來*近。
人們把個體策略的適應過程作為連續時間中的一個隨機過程。假設在有限群體中每一個個體時常得到一個沖動,使其改變純策略。如果這些沖動是依照i.i.d.的Poisson分布,那么同時發生的概率是零,而且總的過程也是一個Poisson過程。此外,總過程的密度剛好是各個過程密度的和。如果群體是很大的,那么人們利用預期值給出的確定流來近似這個總過程。
Bjornestedt和Weibull在1996年研究了一系列這種模型,其中改變的個體在其博弈的群體中模仿其他的個體,并證明許多正收益的選擇動力學可以被人們推導出來,包括復制動力學的三種形式。特別,如果個體改變比率對其策略而言預期收益是線性遞減的,那么每一個純策略Poisson過程的密度是與其個體總數大小成比例,同時比例因素將是其預期收益遞減的。如果每一個改變的個體選擇其未來的策略是通過在其博弈中隨機地模仿抽取的個體,那么其作為結果的流*近也是一個復制動力學。
Schlag在1997年分析當個體經常以參與者的同樣地位去模仿其他參與者個體時,個體應該選擇什么樣的模仿規則的問題,然而參與者的同樣地位卻受制于信息和記憶的約束。他發現,如果個體想要學習規則是在所有平穩環境中收益遞增,那么此個體應該滿足:(1)當改變策略時,總是通過模仿來進行;(2)永遠不向收益實現比其所擁有收益低的那些個體模仿;(3)向收益實現比其擁有收益高的那些個體模仿。
這種模型被各種各樣不同的環境所發展。在有限兩人博弈中,Schlag假設在隨機地來自于兩個相等大小的有限群體的個體之間兩兩配對,每一個有其自己的地位。個體總是執行純策略。在每一個收益實現之后,每一個個體都要隨機地與其他個體所處的群體進行抽樣調查,并且比較兩種收益的實現。行為規則是一種函數關系,即把收益實現和所用策略對應到博弈中個體地位上可獲得的純策略集合上的分布,為的是采用新的策略。換句話說,允許使用個體的唯一資料是這種收益實現和純策略對。特別,從較早的博弈回合中實現收益被忽略。此外,假設個體在所有博弈中運用相同的行為規則,具有相同數目的純策略可選擇;也就是,個體不需要知曉他們執行什么樣的博弈,他們知道所使用的純策略數目就足夠了。
在任何這樣的博弈中,導致預期收益弱遞增的以及在對手種群中對于任何固定策略分布的行為規則,稱為改進。本文中的重要結果是對于所有這樣規則的刻畫。改進規則的一個特征是他們是模仿的:個體堅持其初始的策略或者采用抽樣的個體策略;但是不會轉向第三個的策略。
行為規則稱為是占優的改進規則,如果在某一個博弈中不存在改進規則產生比較高的預期收益改進比例,而且在對手種群中的某一個策略分布上。Schlag證明,某一個行為規則為占優的改進規則,其具有上面給出的性質(1)(2)(3)。這個比例模仿規則是其自己的一個改進規則,而且可以證明它確有一些其他吸引人的性質。Schlag證明,Taylor兩種群復制動力學的離散時間形式可以*近在任何給定有限時間范圍內導出的一個隨機過程,只要種群充分的大就行。
(四)進化對策論中的一些結論
本文集中探討關于有限n人博弈的顯性動力學種群模型方向的介紹,其中個體執行純策略。首先探討確定性選擇動力學,然后介紹隨機進化模型,其中把隨機變異過程與確定性選擇過程或者隨機選擇過程結合起來。
研究確定性動力學項目性質的一種直接方法是選取一個初始的種群狀態,并且稍后可以計算。然后,人們應該記住讓初始的所有純策略在種群中出現,由于初始的已亡策略將在選擇過程中仍保持已亡的狀態。這種解的軌跡稱為內部的。解的軌跡隨時間流逝而安定下來,就稱為收斂的。反之,則稱為發散的。
如果種群狀態是收斂的,那么什么是長時期限制狀態的本質呢?可以證明,在任何一種弱的正收益選擇動力學中,沿著任何收斂的內部軌跡,限制狀態必將構建納什均衡,研究人員發現,種群執行某種納什均衡或者在漸進意義上的納什均衡。Nachbar在1990年第一個證明出單種群復制動力學的這個結果。事實上,如果選擇過程遇見弱的正收益的相對溫和的條件,且如果匯總的行為隨時間而安定下來,那么在長時期種群狀態中的個體就好像他們預期一個特殊的納什均衡對此執行著一個最佳反應,這點頗像是納什所聲稱的“群體解釋”。
如果對于弱的正收益選擇動力學的內部解隨時間而收斂,那么我們看到幸存下來的策略在作為結果的混合策略組合的最佳反應的意義上是理性的。此處的問題是,如果解的軌跡不收斂,那么會發生什么情況嗎?當長時期中沒有均衡達成時,我們產生的問題是,執行是否為理性的。
非合作博弈論中基本的理性假設是參與者不采用作為嚴格的劣(strictlydominated)純策略。這個假設要求不知道其他參與者的偏好或者行為。一個更嚴格的理性一--附有知識的---假設是參與者不采用作為迭代的嚴格的劣策略。除了回避嚴格的劣的策略之外,這個假定要求所有參與者相互知道彼此的收益,而這些就是他們知道等等,一直到共同知識的某一個有限水平上使得迭代剔除嚴格劣的純策略的過程停止。
因此,進化對策論中的基本問題是進化選擇過程是否剔除掉所有的嚴格劣策略或者所有的迭代的嚴格劣純策略。如果所有迭代的嚴格劣策略消失,那么這提供了在策略上相互作用的參與者行為假設的一種進化證明,就好像此假設是參與者他們作為理性人的共同知識。
Akin在1980年證明,在任何有限對稱兩人博弈中所有嚴格劣的純策略沿著關于單種群復制動力學的任何一個內部解的軌跡都能消失。Samuelson和Zhang在1992年把這一結論推廣到某一個兩種群選擇動力學的正收益子集合中的迭代的嚴格劣純策略上。他們將這種情況稱為聚集單調的(aggregatemonotonic)。
對長時期進化狀態分析的輔助方法是研究種群狀態的穩定性,也就是考察種群對于很小的擾動是如何反應的。Bomze教授在1986年曾證明,如果種群狀態在單種群復制動力學中是弱的動態穩定的,那么此狀態就是對自己的最佳反應,這里的狀態被認為是采用混合策略的。經常運用的穩定性準則是李雅普諾夫穩定性,即狀態x是李雅普諾夫穩定的,如果x的鄰域B包含x的鄰域A,使得在A中開始的解將永遠保留在B中。不是李雅普諾夫穩定的狀態稱為不穩定的。因此,不僅進化穩定性的靜態穩定性準則,而且復制動力學中的動態穩定性都蘊涵著納什均衡的實施。這個結果能夠推廣到任何有限n人博弈中的任何弱的正收益選擇動力學上??傊?,對進化壓力而言,以各種不同方式系統闡述的穩定性都需要納什均衡來實施。然而,不是所有的納什均衡在這個方面都是穩定的,因此,這些進化穩定性準則是納什均衡概念的精煉。
另外,研究者在考察動力學進化穩定性時,把隨機因素并入到進化過程的建模當中。特別,變異過程被認為是內在隨機的一種情況。隨機振動可以憑借穩定性分析方法來解釋確定性選擇動力學;一個穩定的種群狀態對于種群的孤立的很小擾動而言是穩健的。然而,這種穩定分析幾乎說不出一系列的小振動或者同時發生的小振動累計之后促成的大振動的穩健性。這樣的一系列或者同時發生的連續不斷的振動會使種群狀態離開選擇過程的吸引域。雖然這種大量涌現的小振動不可能是統計意義上的獨立而稀少變異的事件,但這一可能性在基本方法上卻改變了動力學進化過程的性質。代替歷史依賴性(依賴于初始種群狀態),此過程會成為遍歷的(ergodic),也就是具有一種漸進分布,其中漸進分布是歷史獨立的(對于所有的初始種群狀態都是相同的)。從而,導致人們現今研究的一個專題——隨機動力學穩定性。這種研究路線的先驅者是Foster和Young(1990),隨后是Fudenberg和Harris(1992),Young(1993)等等。四、進化對策論在經濟學中的應用
進化對策論的產生、發展在本質上就是起因于對策論中關于理性行為人的假設與經濟應用中行為人“試驗——失誤”(即試錯法)學習過程相偏離的事實而引發的。從上述的闡述中,我們可以看到,進化對策論在經濟學里的應用前景是十分廣闊的和吸引人的。
最近,Routledge探討了金融市場上個體行為人是如何通過適應性或者進化學習來發現內生變化并運用這種內生關系的一種學習模型。他通過對來自于模仿過程和經驗過程來對個體的投資行為建模,而不是運用傳統上的顯性最優化方法放松關于知識和理性的假設。Routledge運用Grossman和Stiglitz的1980年發表的經濟模型的形式。Grossman和Stiglitz(GS)模型提供了考察適應學習過程的一種良好的框架,因為它是獲得內生信息的標準模型,這點已經被后來的其他許多關于學習方面的模型都是基于GS而提出的事實所證明。
如果假設交易者能夠觀察到他們自己的適應度和其他行為人的行為,那么模仿是如何發生的許多特殊細節就顯得不重要了。Routledge的研究結果表明:首先,作為單調選擇動力學的適應學習會促成GS均衡;其次,由單凋適應學習驅使的模仿的穩健性可從隨機實驗中來獲得噪聲(noise)來研究。他發現,適應學習是缺少穩健性的。特別,他運用Binmore和Samuelson(1999)的技術來對模仿和經驗建模。為了使帶有漂移(drift)的適應學習產生GS理性預期均衡,必要的條件是在風險資產供給中的噪聲與學習過程中的經驗水平有很大的關系。
五、問題與前景
我們注意到,進化過程并不總是導致最優性、均衡或者社會有效性。通過目前已取得的一些成果,我們認為下面的一些方向或許是值得學者進一步探討與研究的:
(1)引進機構,分析市場選擇機制。
(2)探討博弈中學習規則的進化穩定性。結果,這就會導致擁有適度認知能力的個體的模型。
(3)進一步探討擴展形式博弈中的進化過程。
(4)對*近理論方面的進一步探討。我們需要更多地了解確定性模型和隨機性模型之間的聯系與關系。
(5)探索、研究結構化的穩健預測。顯然,某種博弈的子結構,諸如在最佳反應和弱最佳反應的條件下所促成的純策略集合,是進化過程的穩健吸引子(robustattractor)等。
本文概括地闡述了進化對策論中的理論內容和一些模型,特別是博弈中有關學習模型的新近發展。通過上面的分析,我們發現,進化對策論的發展動力來自于與其他社會學科的交叉融合,吸收其他社會科學中的有益知識。為了把有關的選擇過程、學習過程以及變異過程的類別變窄,我們需要更多地知曉個體、團體、組織、廠商以及整個社會是如何隨時間而適應和學習的。這里的部分內容正是實驗對策論中所要探討的,同時這也是我們應向其他社會科學學習的領域。
參考文獻:
1.王忠玉:《1994年度諾貝爾經濟學獎與對策論》,載《科學(ScientificAmerican中文版)》,1996(7),3—5頁。
2.王忠玉:《金融市場從眾行為的數理模型》,載《中國管理科學》,2000(2),50~55頁。
3.Binmore,K.,1990.EssaysontheFoundationsofGameTheory,BasilBlackwell.
4.Binmore,K.,Samuelson,L.andVaughan,R.,1995.MusicalChairs:ModellingNoisyEvolution.GameandEconomicBehavior11,1--35.
5.Binmore,K.andSamuelson,L.,1999.EvolutionaryDriftandEquilibriumSelection.ReviewofEconomicStudies,66,363--393.
6.Blume,L.andEasleyD,1992.EvolutionandMarketBehavior.JournalofEconomicTheory58,9-45.
7.BlumeL.andEasley,D.,1990.EvolutionandLearninginCompetitiveMarkets,inKirman,A.andSalmon,M.(eds.),LearningandRationalityinEconomics,Blackwell(Oxford).
8.Bomze,1.andPotscher,B.,1989.GameTheoreticalFoundationsofEvolutionaryStability.SpringerVerlag(Berlin).
9.Bomze,I.andWeibull,J.,1996.DoesNeutralStabilityImplyLyapunovStability.9Gameand
EconomicBehavior11,173--192.
10.Bryan,R.Routledge,1999.AdaptiveLearninginFinancialMarkets.TheReviewofFinancial
Studies12,1165--1202.
11.Canning,D.,1990.LearningandSocialEquilibriuminLargePopulations,in
Kirman,A.andSalmon,M.(eds.),LearningandRationalityinEconomics,Blackwell(Oxford).
12.Cressman,R.,1992.TheStabilityConceptofEvolutionaryGameTheory,SpringerVerlag(Berlin).
13.VanDammeE.,1987.StabilityandPerfectionofNashEquilibria,SpringerVerlag(Berlin).
14.Dekel,E.andScotchmer,S.,1992.ontheEvolutionofOptimalBehavior.Journalof
EaonomicTheory57,392--406.
15.Fudenberg,D.andLevine,D.,1993.Steady-stateLearningandNashEquilibrium,Econometrica61,523-574.
16.Fudenberg,D.andLevine,D.,1997.TheTheoryofLearninginGames.MITPress.
17.Haesanyi,J.andSelten,R.,1988.AGeneralTheoryofEquilibriumSelectioninGame,MITPress.
18.Kandori,M.,Mailath,G.andRob,R.,1993.Learning,Mutation,andLong-runEquilibriainGame,Econometrica61,29--56.
19.Nelson,R.andWinter,S.1982.AnEvolutionaryTheoryofEconomicChange.HarvardUniversityPress(CambridgeMA).
20.Robson,J.A.2001.TheBiologicalBasisofEconomicBehavior.JournalofEconomicLiterature,Vol.ⅩⅩⅩⅨ(March2001),11--33.
21.Samuelson,L.andZhang,J.,1992.EvolutionaryStabilityinAsymmetricGames.JournalofEconomicTheory,57,363--391.
22.Weibull,J.,1995.EvolutionaryGameTheory.MITPress.
23.Vega--Redondo,F.,1995.Expectations,DriftandVolatilityinEvolutionaryGames.GamesandEconomicBehavior11,391-412.
- 上一篇:煤焦領域反腐敗工作會上的講話
- 下一篇:煤礦經濟活動上半年分析會議上的講話