博弈学习理论及企业组织治理研究
来源:岁月联盟
时间:2010-06-25
关键词:博弈学习理论;有限理性;复制者动态;组织治理
Abstract:The theory of learning in games has become the frontier in economic research in recent years. With three learning modes,it studies such hot topics as system transformation,action analysis and economic development. The theory of learning in games provides a new angle for the research of enterprise organizational governance. Therefore,it is reasonable and inevitable that it be used in studying the problem of enterprise governance. It is also of great theoretical value in widening the scope of the science of economic management.
Key words:the theory of learning in games;bounded rationality;duplicator dynamics;organizational governance
2005年,美国经济学家托马斯·C·谢林因其在分析现实中合作与冲突现象这一领域所作的贡献而荣获诺贝尔奖。事实上,谢林是第一位明确阐述许多微观决策是如何演变为可观测的宏观行为模式的经济学家,其重要思想为博弈学习理论的奠定了坚实的基础[1]。自20世纪90年代以来,在Binmore、Fudenberg、Young等一批经济学家的直接推动下,博弈学习理论获得了迅速发展并成为当今经济学最富有挑战性的研究领域之一。本文将对这一理论及其研究动态进行综述。
一、经济理论存在的局限性
博弈学习理论是在对已有经济理论的质疑和困惑中发展起来的,这些经济理论在方法论和认识论等方面存在一定的局限性。
1.主流微观经济理论
新古典学派和新古典综合派着重于静态以及比较静态分析,研究均衡状态的制度如何运行以及是否具有效率。其基本理论基于完全市场竞争假说,即对于市场中任何企业而言,价格是给定的,企业不能影响市场价格,每个企业都在给定市场价格的基础上做出其最优决策,企业之间的决策也互不相关。
由于主流微观经济理论的基本研究范式是分析个体最优化决策下的供求均衡,因而对微观经济主体采用了“理性经济人”假说,其基本内涵包括两个方面:一是“自利性”,即追求自身利益是驱策经济人行为的根本动机;二是“理性行为”,即经济人以追求最大利润作为其行为的唯一目标,以最优化决策的所有信息来指导自己的行动。通常,企业被假定是同质的,都以利润最大化为目标,这显然是对现实情况的理想假设和高度抽象。
2.经典博弈论与信息经济学
过去的20多年间,博弈论和信息经济学的广泛应用丰富了微观经济学的内容。然而,经典博弈论和信息经济学分析框架基于完全理性假设,要求参与人始终以自身利益最大为目标,具有在各种环境中追求自身利益最大化的判断和决策能力,具备博弈规则及收益函数等“理性共同知识”,强调均衡是参与者分析和反省的结果,在复杂且多层次的交互推理中,参与人不会犯错误,不会怀疑对方的理性、能力和信任,这些前提和假设往往脱离现实经济活动的环境。
近年来,实验经济学的一些研究成果已经证实人们在寻求一个博弈的均衡时常常使用试错的方式来达到其目的。现实经济活动中,人类在缺乏完全理性的前提下具有实现纳什均衡的可能性。此外,从研究对象来说,博弈论主要针对少数参与人(通常是两个),缺乏对现实世界大量存在的群体行为的研究。
3.交易费用理论
交易费用理论以交易为基本分析单位,以机会主义行为假设为前提,即人具有随机应变、投机取巧、为自己谋取更大利益的行为倾向。Williamson认为,“人在追求自身利益时会采用非常微妙和隐蔽的手段,会耍弄狡猾的伎俩”[2],如说谎、欺骗、偷窃和毁约等。交易费用理论强调组织运行中的问题只能靠治理结构“事后”解决,这种将企业的自发行为设定为不惜采取欺骗手段追求自身利益最大化以及新古典式的对交易费用节约的理性的观点失之偏颇。迈克·迪屈奇也指出,交易费用理论的根本缺陷在于它是在一个静态的分析框架中考虑问题,不能充分说明一个动态背景下企业的演变[3]。
二、博弈学习理论的发展动态
1.基本概念
Maynard和Price最早提出了演化稳定策略的基本概念并应用于生物种群进化的研究。Maynard Simth指出:演化稳定策略是这样一个策略,如果群体中所有成员都采取这种策略,那么在选择的影响下,将没有突变策略能侵犯这个群体[4]。这一概念反映了系统局部的演化动态性质。在此基础上,演化均衡概念以及非对称情形下的演化稳定策略概念相继发展了起来。由于经典演化博弈一般考虑确定性系统,假定了选择动态满足收益单调性,“突变”考察的是一次性事件。而经济学家认为,如果我们相信变异是真实的而且是会重复发生的现象,那么把它们包含在模型中似乎更合适,理论上的缺陷促使经济学家将研究重点转向随机系统。Foster和Young在动态系统中考虑了随机因素并提出随机演化稳定概念,将演化稳定策略拓展到随机动态系统中[5]。这些概念的提出使博弈学习理论的研究基础不断完善。
2.重要模型
博弈学习理论的发展始终强调模型化的方法。目前,大多数博弈学习模型建立在Young、Selten、Fudenberg和Harris、Kandori,Mailath和Rob、Binmore和Samuelson、Gale和Rosenthal等研究基础之上。值得指出的是,Foster和Young开拓性地将随机项引入标准复制者动态,研究了基于复制者动态的持续性随机系统,从而将突变这种现实中重复发生的现象包含在模型中,有助于研究外部随机冲击效应[6]。Fudenberg和Harris则另辟蹊径,将随机项加入控制绝对群体数量的方程,建立相应的群体份额的演化模型并解决了在2×2博弈中的长期行为问题[7]。Kandori、Mailath和Rob考察了单一同类群体进行对称的2×2博弈模型,得出了当变异率很小时,随机过程最终选择风险占优的纳什均衡的结论[8]。Fudenberg和Levine的系统性工作为研究离散系统及多种群多策略系统奠定了理论基础[9]。
3.研究热点
目前,博弈学习理论的研究主要集中在以下几个方面:
①制度变迁。用博弈学习理论研究制度变迁,就是通过分析制度——结构的发展变化过程来说明制度何以到达这里,它又将走向何方。在这方面,Schelling最早阐述了个体的微观行为与社会群体的总体行为之间是如何建立起联系的[10]。Schotter则发现一个正式的制度创生是一个Markov式的扩散过程,均衡则是这个过程的收敛状态[11]。随后,Greif、Aoki从不同的角度通过建立博弈学习模型来研究制度和惯例。需要强调的是,应用博弈学习理论研究制度变迁与以Commons、Hayek和North为代表的制度经济学家的研究在分析方法上具有一定的差异。
②行为分析。经济学家应用博弈学习理论来分析经济行为的产生过程,从而使微观层次上的行为与宏观动态过程有机地联系在一起,揭示的是一种“涌现”的机制。例如,Sethi和Somanathan、Friedman和Fung、Vega-Redondo、Bester和Güth分别将博弈学习理论应用于公共资源利用、组织模式选择、企业定价行为以及个体利他行为的稳定性等方面。此外,对于群体中经济代理人的动态随机决策问题,尤其是有限理性假设下异质性代理人的博弈学习行为的研究也频繁出现在Econometrica等一流经济学期刊上。
③经济演化。Nelson和Winter提出了“搜寻”、“创新”和“选择环境”等概念,应用“模仿”和“学习”机制以阐述创新的形成(这些概念及机制和博弈学习理论的观点相一致),并用惯例表示技术和行为战略,从而成为经济增长演化模型的基石[12]。在此基础上,博弈学习模型被演化经济学家们嵌入宏观和微观演化模型中,从而清晰地揭示了经济演化过程中的多样性、不确定性和路径依赖性[13]。
④社会交往。近年来国际上一个非常明显的学术动向是,一些谙熟博弈学习分析工具以及实验经济学分析工具的经济学家和社会学家从文化、互惠合作、利他和利己行为的产生及其在社会交往中的作用等相关领域进行了引人注目的探索。其中,许多发表在American Economic Review、Nature等国际一流学术期刊之上,如Fehr和G?chter近年来所作的研究,等等。这些跨人类学、经济学和社会学诸学科的交叉性领域,应当引起我们足够的关注。
三、博弈学习理论的研究方法和主要特点
1.研究方法
博弈学习理论以有限理性为基础,强调现实中个体并不是行为最优者,均衡是并非完全理性的参与人随着时间的推移寻求最优化这一过程的长期结果。典型的博弈学习模型包括参与人集合,各群体个人之间进行重复博弈。在博弈的任何时点上选择不同策略的个体在群体中都有一个概率分布与其对应,如果参与人(群体)知道这种状态且能够采取最大化行为,那么他们将选择一个最大化自己期望支付的最优反应策略。否则,他们会根据自己的信息对群体状态进行推断并据此做出决策。由于选择压力及参与人对成功行为的模仿,当期的成功行为在下期将会被更多的个体采用。 博弈学习理论主要包括三类常用的学习模型:虚拟行动、部分最优反应动态和复制者动态。在虚拟行动中,参与人仅观察到他们自己匹配的结果,并且对行动的频率做出最优反应,该模型较多地应用于非对称群体。在部分最优反应动态中,群体中固定部分的参与人,每一阶段都将他们当前的行动转换为对前一阶段总体统计结果的最优反应,代理人被假定具有最优反应所需的全部信息。在复制者动态中,使用每一种策略的参与人在群体中所占的比例以与该策略当前的支付成比例的速率增长,所以相对于前一时期总体统计结果而言具有最大效用的策略增长得最快,而具有最小效用的策略下降得最快,通常在考虑大群体和随机匹配的环境时应用这种动态。
2.主要特点
总的来说,博弈学习理论审视并修正了新古典学关于完全理性、利润最大化和静态均衡等假设,克服了其机械和还原的观念,对微观经济个体采用有限理性假说,重视经济问题中的随机因素和筛选机制,在调整过程和时间问题上,强调描述尘埃是如何落定的而不仅仅是尘埃落定之后的世界。对于现实经济问题,博弈学习理论采用试验、模仿等基本概念,以惯例搜寻和选择机制作为其研究的基础。
①在方法论上,博弈学习理论将群体行为的调整过程视为一个动态系统,运用实验模拟技术以及各种算法理论不仅使得每个个体的行为及其与群体之间的关系得到了单独的刻画,而且可以把从个体行为到群体行为的形成机制以及其中涉及到的各种因素都纳入到模型中。这样,宏观模型的微观基础更为明晰,能够真实地反映行为主体的多样性和复杂性。
②在认识论上,博弈学习理论认为经济主体对经济的认识是在演化过程中得到丰富和的。主体的行为规则不断被予以修正和改进,成功的策略被模仿,进而产生出一般的“规则”作为行为主体的行动标准,在这些一般的“规则”下,行为主体获得“满意”的收益。这是对完全理性假说的摒弃,与现实情况更为相符。
③在时间问题上,博弈学习理论重视均衡的过程研究,认为时间是不可逆的,行为主体状态的演化以及均衡的达到与初始的时间状态密切相关,每个行为主体以过去的经验为基础并根据对未来的预测来调整当前的策略,调整的过程较长,这与大多经济理论将时间看作对称或可逆的观点大相径庭。
④在选择机制上,博弈学习理论认为,经济系统在内部结构调整和外部环境变化的交互中随着时间的推移而不断演化变迁,均衡的精炼通过参与人的动态选择及调整过程来实现,且均衡具有路径依赖性。在该理论中,选择和适应性学习两种机制同时发生作用。选择的过程一般由复制者动态机制实现,即纯策略的增长率与适应度(纯策略所获得的支付与群体的平均支付之差)成正比。
四、基于博弈学习理论的组织治理演化研究
当前,企业的竞争环境日趋激烈。构建完善的治理结构并选择有效的组织模式,成为我国企业面临的一个重大的现实经济问题。企业组织治理实质上是规范企业各方的责、权、利关系的一系列制度安排,是企业中最重要的制度构架,它直接关系着企业的经济活力和经济绩效。综观企业组织治理研究方面的,大多围绕国有企业的改制,对产权理论及制度变迁方面进行定性分析和实证研究,应用博弈学习理论来探讨企业组织治理的研究尚不多见,较少对演化机制和规律进行,缺乏时间维度方面的探索。也正是这个原因,已有的理论很难对企业组织结构治理及组织模式选择等现实社会经济现象给出合理的解释。因此,寻求对惯例和制度从理论程式到模型化、定量化的研究成为了一项刻不容缓的任务。
企业组织治理作为一种组织惯例,是由微观经济个体的积累性经验通过长期发展而出现的。任何特定的组织结构都存在理性设计的因素,也存在因个人和企业的“有限理性”而出现的惯例因素。企业组织模式总是伴随着结构惰性和变动环境的冲突而发展,企业家力图尝试新的组织模式,并努力模仿最有竞争力的组织模式[14]。例如,20世纪日本的“看板”制度在某种意义上模仿了美国的库存积压方法,而后这种制度被作为经验传回美国时,又被演变成“精益生产方法”。美国硅谷模式的演变源自企业边干边学以及“创业投资”策略和“信息包裹”策略的内在互补性。近年来德国的银行主导型治理不断吸收英、美等国的经验,呈现出了多样化基础上的趋同。这些惯例或制度的多样化无一不是企业学习、模仿和试验的结果。
我国企业组织治理的沿革起于放权让利,其间经历了多种形式的改造,这个过程为我们阐释组织治理的演变提供了实例。它说明企业决策遵循着“试探、学习、适应、成长”的行为逻辑,在不断试验中对外部世界的冲击做出反应。由于企业组织治理是包含微观个体之间的模仿、学习和试验的动态过程,从这个意义来看,以博弈学习理论为基础研究此问题具有天然的合理性和内在的必然性。
就研究问题和技术路线而言,从我国企业所处的经济环境出发,围绕企业生产者、经营者和资本所有者等利益相关者探讨企业组织治理问题,探讨企业与供应商、银行、顾客等利益相关者之间的互动机制。在此基础上,根据企业所面临的国内、国际竞争环境建立博弈学习模型,研究企业如何通过学习和适应来选择其组织模式。通过分析国内企业群体和国外企业群体的贸易关系,分析长期均衡的存在性,揭示演化过程是否会出现“路径依赖”或“锁定”现象,并由此探讨企业的战略调整以及政府的宏观调控措施。
这些研究具有以下几方面的意义:
首先,应用博弈学习理论来研究企业组织治理方面的问题,尤其是应用演化稳定状态、演化均衡等基本概念来分析和预测经济现象,并提出相关的管理建议,这是一个不同于已有研究成果的全新的理论视角。
其次,通过建立具有明晰微观基础的博弈学习模型,揭示企业行为的长期调整过程和内在机理,从而为新制度经济学关于企业内部组织结构治理及组织模式选择提供定量研究方法,为企业的长期发展以及政府的宏观调控提供理论依据。
此外,将有限理性引入激励问题,比传统的最优契约理论更具说服力,它有助于拓宽博弈学习理论的研究领域,同时也促进不同经济理论分支之间的交叉。
五、结语
本文通过分析经济理论存在的若干局限性以及综述近年来博弈学习理论的研究动态,着重从方法论、认识论、时间的不可逆性、均衡概念及选择机制等方面讨论了博弈学习理论的主要特点,说明了博弈学习理论根植于新思维方式的认识论和方法论,从新的角度反映了经济行为人的互动关系,提供的经济现象的解释比已有的经济理论更深刻、更贴近实际、更有说服力。同时,也为我们研究企业组织治理问题提供了全新的视角和坚实的基础。
从比较的观点来看,企业组织治理是企业组织域控制利益相关者相机行动决策的自我实施规则,是由许多个体的微观决策演变而成的宏观行为模式。因此,对个体行为和群体行为的相互关系加以刻画并对企业组织治理的演化趋势进行预测的研究极为必要。以博弈学习理论作为分析工具来研究企业组织治理问题,对于拓宽经济学和管理的研究领域具有重要的理论价值。同时,通过探索适合国情的企业组织治理的演化规律和机制,对于提高企业组织绩效、加强政府的宏观调控具有重要的实践意义。
文献:
[1]托马斯·C·谢林.微观动机与宏观行为[M].谢静,译.北京:中国人民大学出版,2005:96-98.
[2]WILLIAMSON O E.The economic institutions of capitalism[M].New York:Free Press,1985:125-128.
[3]迈克·迪屈奇.交易成本经济学:关于公司的新的经济意义[M].王铁生,译.北京:经济科学出版社,1999:92-94.
[4]MAYNARD S J.Evolution and the theory of games[M].Cambridge:Cambridge University Press,1982:63-65.
[5]FOSTER D,YOUNG H P.Stochastic evolutionary game dynamics[J].Theoretical Population Biology,1990,38:219-232.
[6]YOUNG H P.The evolution of conventions[J].Econometrica,1993,61:57-84.
[7]FUDENBERG D,HARRIS C.Evolutionary dynamics with aggregate shocks[J].Journal of Economic Theory,1992,57:420-441.
[8]KANDORI M,MAILATH G,ROB R.Learning,mutation and long run equilibria in games[J].Ecomometrica,1993,61:21-56.
[9]FUDENBERG D,LEVINE D K.The theory of learning in games[M].Cambridge,MA:MIT Press,1998:1-4.
[10]SCHELLING T C.The strategy of conflict[M].Cambridge,MA:Harvard University Press,1960:115-118.
[11]SCHOTTER A.The economic theory of social institution[M].Cambridge:Cambridge University Press,1981:225-226.
[12]NELSON R R,WINTER S G.An evolutionary theory of economic change[M].Cambridge,MA:Harvard University Press,1982:62-65.
[13]盛昭瀚,蒋德鹏.演化经济学[M].上海:上海三联书店,2002:167-168.
[14]青木昌彦.比较制度分析[M].周黎安,译.上海:上海远东出版社,2001:133-135.
下一篇:构建以企业为主导的产学研合作模式