介绍笔记
耶鲁公开课系列,博弈论,全24集

这门课程是系统介绍有关博弈论和战略思想。比如支配思想、落后的感应、纳什均衡、进化稳定性、承诺,信誉,信息不对称,逆向选择等。并在课堂上提供了各种游戏以及经济、政治,电影和其他方面的案例来讨论。
简介:

[第1集] 导论-五个入门结论
[第2集] 学会换位思考
[第3集] 迭代剔除和中位选民定理
[第4集] 足球比赛与商业合作之最佳对策
[第5集] 纳什均衡之坏风气与银行挤兑
[第6集] 纳什均衡之约会游戏与古诺模型
[第7集] 纳什均衡伯川德模型与选民投票
[第8集] 立场选择种族隔离与策略随机化
[第9集] 混合策略及其在网球比赛中的应用
[第10集] 混合战略棒球,约会和支付您的税
[第11集] 合作,突变,与平衡
[第12集] 社会公约,侵略,和周期
[第13集] 道德风险,奖励和饥饿的狮子
[第14集] 承诺,间谍,和先行者优势
[第15集] 国际象棋,战略和可信的威胁
[第16集] 声誉和决斗
[第17集] 最后通牒和讨价还价
[第18集] 信息集和子博弈完美
[第19集] 招商引资和战略投资
[第20集] 战争的消耗
[第21集] 合作与结局
[第22集] 作弊,惩罚和外包
[第23集] 沉默,信令和苦难教育
[第24集] 拍卖和获奖者的诅咒

一、
1、 理性人:指代这一类人,他们只关心自己的利益。

2、 如果选择 a 的结果严格优于 b,那么就说 a 相对于 b 来说是一个严格优势策略。结论: 不要选择严格略施策略。

3、 理性人的理性选择造成了次优的结果

4、 举例:囚徒困境、宿舍卫生打扫问题、企业打价格战等

5、 协和谬误 收益很重要, “如欲得之,必先知之”

6、 要学会换位思考,站在别人的立场上看别人会怎么做,在考虑自己受益的同时,要注 意别人会怎么选择

二、

  1. 打渔问题、全球气候变暖与碳排放问题
  2. 博弈的要素:参与人、策略集合、收益
  3. 如果策略 a 严格劣于策略 b,那么不管他人怎么选择,b 总是更好的选择
  4. 军队的入侵与防卫问题
  5. 所有人都从 1 到 100 中选个数字,最接近所有人选的数字的均值的 2/3 者为胜,这个数 字是多少呢?作为理性人,每个人都会选择 67(100*2/3)以下的数,进一步假设你的 对手也是理性的,你会选择 45(100*4/9)以下的数……依据哲学观点,如果大家都是 理性程度相当的,那么最后数字将为 1,然而结果却是 9,这说明博弈的复杂性
  6. 共同知识与相互知识的区别

三、
1、 利用迭代剔除法领悟中间选民问题

2、 迭代剔除法就是严格下策反复消去法,不断地把劣势策略剔除出去,最后只剩下相对 优势的策略

3、 中间选民问题就是,在两党制中,政党表述施政纲领要吸引位于中间位置的选民,他 们认为在选举中处于中间标度可以吸引左右两边的选民,并以此获得胜利。

4、 中间选民问题理论成立的条件是有两个参与人;政治立场能使选民相信。

5、 由此延伸出来的还有加油站选址问题,两家加油站不是在不同的路口选址,而是在不 确定哪个位置较佳的时候会选在同一处,这也是“中间选民定理”的凸显

6、 在迭代剔除法不能运用时,比如说该博弈中博弈方 1 和 2 均没有严格下策,可以用二维坐标系画出选择策略之后的收益分布

四、
1、 罚点球: 一个经过模型简化的点球模型:罚球者可以选择左路,中路,右路 3 种路线去踢点球,门 将可以选择向左扑救或者向右扑救(门将没有傻站着不动的 option) 。罚球者的收益很容易 理解出来,其结论是,无论什么时候,罚球者向中路踢都不是一个最优的选择。 (当门将向 左扑的概率大于 50%时,球员向右踢比较好;反正同理) 。将其推广:

2、 不要选择一个在任何“信念”(belief)下都不是最优策略的策略。

3、 这里的信念(原文是 belief)并不是指门将会向左扑或者向右扑,而是指概率。我的理 解是对中庸之道的批判。所以本例中,虽然罚球者的 3 种策略里没有劣势策略,不过还是可 以用以上原则剔除掉一个策略。

4、 上述模型忽略的 2 个地方,
①一名惯用右脚的球员, 他向左踢和向右踢的准确率是不同的 (踢过球的童鞋们都有这 种体会,右脚球员从左侧进攻射门的舒适度比从右侧射门要好很多) 。
②门将可以选择在中路(TO BE CONTINUED)

五、

  1. 纳什均衡(简称 NE)定义
  2. 学习 NE 的动机:不为当时做出的决定后悔,因为已经采取了最佳策略。
  3. 任何参与人都严格不会改变策略,改变策略严格不会使参与人获得增益。
  4. 其他参与人不改变行为的前提下,自己改变行为并没有任何好处。
  5. 严格劣势永远不是最佳策略,最佳策略才可以出现 NE。
  6. 博弈会朝着趋向于一个均衡的方向自然发展,结果不断趋向一个 NE
  7. 较劣的不投资均衡相当于较优的 NE 处于帕累托劣势
  8. 协调之所以能达成在于他不同于囚徒困境,它没有去说服人们采取一个严格劣势策略。

六、
1、举一个例子“一起看电影” ,它的博弈学名叫“性别大战” ,属于协调博弈,但是不同的 参与人偏爱不同

2、 古诺的双寡头模型,讲的是同一个市场中只有两家公司互相竞争,该博弈介于完全竞 争和垄断的两种极端情况之中,所以使得该博弈变得很有趣,在该博弈中参与人是:两 家公司,策略是:生产同质商品的产量,q1、q2 表示策略,生产成本;c*q,边际成本 实常数 c,市场价格:p=a-b*(q1+q2) ,可以画出需求曲线,收益:u1=p*q1-c*q1, 垄断产量: (a-c)/2b 完全竞争产出: (a-c)/b 古诺产出: (a-c)/3b

3、 它与合伙人博弈及投资博弈都不同,它不是策略互补博弈,而是策略替代博弈,就是我 的策略实施的越多,你的策略就实施的越少

4、 有没有使市场利润达到最大化的双方的产量?当第一家公司产量为垄断产量时或第二 家公司产量为垄断产量时,市场利润达到最大化

5、 当两家公司得产量为(a-c)/3b 时,此时整个行业的总产出为 2*(a-c)/3b,而完全竞 争产量为(a-c)/b, ,垄断产量为 a-c)/2b,所以古诺产出介于两者之间。

七、
1、 介绍了伯川德模型,该博弈中参与人:生产相同的产品的两个公司,成本是固定的边际 成本,生产 1 个单位产品消耗成本 c 策略:定价,该例中用 p1 代表公司 1 的价格, 用 p2 代表公司 2 的价格,注意此处不同于前面课程用 s 来表示参与人的策略,

2、 家庭作业,介绍了线性城市模型,一个路贯穿城市,两个公司分别坐落在 0、1 点, 消 费者 y 到公司 1 的距离为 y,到公司 2 的距离为 1-y,假设每个消费者买且只买一个 产品。消费者会选择对他而言总成本最小的

《耶鲁大学公开课:博弈论.Game.Theory.2009》全24集

3、 候选人选民模型,首先做出一些假设,假设选民在线上平均分布,候选人数目不固定, 候选人不能选择他们的政治立场, 每个选民都是一个潜在的候选人, 且选民会将选票投 给离他最近的候选人。在该博弈中 参与人:选民 策略:是否参选(选民将选票给与 最近的候选人,得票最多者当选,平局掷硬币) 收益:获胜赢得奖励 B,参选付出成 本 C,且 B>2C; 若选民不参选获胜者的立场距离该选民越远,则该选民将承受越重的负面效应,若 该选民在线上 X 点, 获胜者在 Y 点, 则承担? X ?Y的成本, 两点间距离的负向效应,也就是对方当选后给未参选的选民造成郁闷程度。

八、
1、 原有左派 1 人和右派 1 人两派系,原本各占一半优势,如果左派又出现一个候选人, 则 左派将失去优势,右派获胜反之,右派出现新的候选人,亦可同理分析;

2、 原有极左、极右两人进行较量各占一半优势时,如果新进候选人持中立态度,则他/她 有可能会成为获胜者;

3、 如果两个候选人极左、极右,则会出现新的候选人;

4、 种族隔离: 大个子、矮个子选择居所问题:至少有三个纳什均衡存在,

①是大个子住甲城,矮个子 住乙城,
②是大个子住乙城,矮个子住甲城,
③混居且甲乙两成各占一半人口。

其中①②为 稳定均横,③为弱均衡;还有可能会出现一个均衡,那就是所有人选择了甲城/乙城,后被 重新随机分配,这样的结果会趋于混居。

5、 一些看似不起眼的博弈规则可能是很重要的条件,有可能在短时间内说明问题,尤其在 建模过程中不可忽视之

6、 不可轻易的根据可观察的东西来武断的下定义,比如说不能因为看到种族隔离,就认为 人们喜欢种族隔离,它的存在可能与个人的偏好无关

7、石头剪刀布游戏没有纯策略纳什均衡,在玩家双方均以 (1/3,1/3,1/3)的混合策略选择时,才会出现唯一的纳什均衡

九、
1、 混合策略的收益就是每个纯策略预期收益的加权平均值, 该加权平均值一定位于混合策 略所包含的纯策略预期收益之间

2、 如果一个混合策略是你的最优策略,那么该策略中的所有纯策略本身也都是最佳策略

3、 一个混合策略(P1* ,P2* , …… Pn*) ,是一个混合策略 NE,当且仅当对任意 参与人 i ,在面对 P-i* 时他的混合策略 Pi* ,是该参与人的 BR

4、混合策略在网球比赛中的应用:
①本博弈不存在纯策略纳什均衡
②如果 V 的混合策略均衡是纳什均衡,则策略 L 与 R 的预期收益相等,类似的,如果 S 的混合策略均衡是纳什均衡,则策略 l 与 r 的预期收益相等
③混合策略纳什均衡 NE:V(0.7,0.3)S(0.6,0.4)
④如果 S 防左的概率大于 0.6,那么 V 的 BR 是把球打向右侧 如果 S 防左的概率小于 0.6,那么 V 的 BR 是把球打向左侧

十、
1、 我们只需考虑改选纯策略是否严格有利即可,如果不存在改选纯策略的严格有利改变, 那么也就不存在改选混合策略的严格有利改变

2、 不存在改变纯策略的严格有利改变,则任何一个纯策略的收益都与混合策略 的收益相等

3、 例子
①apple picking 摘苹果
②Yale Rep and see play 耶鲁剧院去看戏
③性别大战
④税收问题 纳税人的收益:对均衡纳税意愿有影响,决定着纳税人的混合策略是 审计员的收益, 不改变审计员的收益, 当然也就不会改变纳税人的均衡混合策略。

十一、
1、 进化论 (Evolution) 博弈论对生物学的重大影响,尤其在动物行为学中 把基因看成策略,把遗传适应性当做收益,好的策略使种群不断壮大,即有适合基因的 个体会繁衍,带有不适合基因的个体会灭绝。 将动物的行为(策略)看做是天生,而不是自由选择 简化模型,专注于种内竞争,通过双人对称博弈来进行研究,很大的种群,采取的策略 与生俱来,对其进行随机配对。即采取相对成功策略的个体数量会增长,相反则会减少。 不 存在基因的重新分配。

结论:
① 自然选择的进化结果是很糟的
② 如果一个策略是严格劣势策略,那么它就不是 ES

2、 一个经济学案例: 假设市场中存在这样的公司, 这些公司并不关心什么策略能最大化利润, 什么策略能尽 可能降低成本,它们可能毫无科学根据地选择策略,在竞争激励的市场环境下,只有那些成 本较低但利润颇丰适应环境的公司才能得以生存下来。 公司倒闭和基因灭绝道理是类似的。

十二、

1、判定 ES 的方法:
第一检验,对称 NE (a,a) 第二检验,是否是严格 NE? (a,a)不是严格 NE 第三检验,a 在偏移时的收益

2、 社会传统的进化(靠左行车还是靠右行车) 可以有多种进化稳定的社会传统存在;社会没有绝对的高效率,习惯没有必要一样好

3、 自然界中混合均衡的两个解释 ① 基因本身是随机的 ② 稳定混合也意味着在 ES 中,以这种比例稳定存在

4、 鹰—鸽之争

十三、
1、 帽子里的钱

2、 顺序博弈
参与人 2 在作出决定之前知道参与人 1 的决策,且参与人 1 知道这种情况。 ………… 关键问题是作出预测,沿着树形图向下看,站在后行动参与人的立场上思考,看下级 参与人会有什么动机,找到他们的 BR,再根据树形图倒回来。即向树的分枝看,然后在回 到树的主干上来

3、 逆向归纳法

4、 希望得到一个更好的结果,某种动机却阻止我们达成更好的结局,称之为道德风险。 典型的道德风险:选择限制项目的规模,或者说贷款额度,通过降低规模来降低被骗 的风险。

5、 承诺 (commitment)减少可选策略而改变其他人的行为,改变不了其他人的行为则 毫无意义。

十四、
1、 介绍了斯塔克伯格模型, 探寻是先下手为强, 还是等其他决策者决策后再决策更有优势, 然后采用逆向归纳法来解决,得出结论,在斯塔克伯格模型下,厂家 1 不需要知道厂家 2 的产量也能有理由超过古诺产量继续生产, ,因为这可以迫使对手减产,对厂家 1 是有 利的, 并且通过分析可以得出厂家 1 的利润将会高于古诺模型中的利润(双方取到纳 什均衡解) ,而厂家 2 的利润将会低于古诺模型下取得的利润,还知道总生产量会上升, (视频中通过纯数学方法证明了上面所讨论的结论) 。

2、 举了 nbc 和梅铎两家报纸公司建设厂房的例子,假设梅铎雇了间谍去 nbc,并且 nbc 也 知道有间谍,则 nbc 会选择建设一个很大的报纸厂房,说明有时获得更多的信息并不有 利于决策,但是生活中也有很多后行者得利的例子,比如玩“石头,剪子,布”游戏时, 大家都想在后面出手,除非你想输,在比如买家具,我可以让邻居先买,看他用的情况 然后我在决定买不买,等等

3、 斯塔克伯格模型是一个先行者占优势的例子,完了“nim”的游戏,有两堆石头,有两 个玩家,他们轮流去掉两堆石头里的石头,谁得到最后一个石头谁就获胜,这是一个既 有先行优势,也有后行优势的博弈。 (如果两个玩家都会玩这个游戏时,永远不要在两 堆石头相等时获得选择权,如果你先选,就让两堆石头相等) 。

十五、
1、 策梅洛定理(Zermelo theorem) 两个参与人,完全信息博弈,博弈有限节数 三个结果参与人 1 win; loss ; tie 参与人 1 有赢策略,不论参与人 2 如何应对 参与人 1 有平局策略,不论参与人 2 如何应对 参与人 2 有赢策略,不论参与人 1 如何应对 可以用数学归纳法证明之

2、 举例:Marienbad 石子阵列, N 行 M 列,可供选择的策略,被选中的点,其右、上的所有石子被拿走。 参与人交替进行选择,拿到最后一个字的人输,根据策梅洛定理,无论 N、M 等于多少, 此博弈都有解。

3、 所谓完全信息博弈就是在任意一个节点上或者说每个节点上被轮中的参与者,都知道自 己处在整个博弈的哪个节点的博弈。这也暗示着,参与者知道如何到达该节点。

十六、
1、 一个例子:Ent 公司可以选择是否进入 Inc 公司的行业,Inc 可以选择是否发动对 Ent 的反击。结论:不要相信声称会反击的人一定会反击;声称反击的人做到恐吓对手是 建立在不可信的威胁之上的。

2、 对于上个例子,加入一些条件,一个公司,处于垄断地位,垄断了十个不同的市场, 假如它们有顺序性,垄断者会对第一个尝试进入者发起攻击,从而威慑后面观望者, 对于最后一个市场垄断者不会发起进攻,因为没有建立威慑的动机了。因为不可能去 阻止第十个尝试进入者,所以第九个尝试进入者就成了最后一个,逆向归纳所有人都 该进入市场。

结论:
①即使有 1%的概率垄断者是疯狂的,他就可以用疯狂的名义吓退进入者;
②即使在十个市场都处于垄断地位,人们也会进入并与之竞争,连锁店博弈。

3、 例子:决斗(投海绵)

有时等待是一种好策略

十七、
1、 参与人 1,参与人 2 参与人 1 向参与人 2 给出一个分享 1 美元的条件, 参与人 1 获得 s, 参与人 2 获得 s-1, 记作(s ,s-1)。参与人 2 有两个选择,接受则按( s,s-1)分配,拒绝( 0 , 0 )

结论:即使在非常简单的游戏中,使用逆向归纳的时候也必须小心。在现实世界当中, 人 们除了明显的收益还会关心其他东西。

2、 两期议价博弈模型中,由于资金具有时间价值,所以在博弈中有一个折损δ存在

3、 通过三期议价博弈得出以下结论:
(1)轮流提议的议价过程,在特殊条件下,会得到平均分配,这需要满足三个条件
① 可能会出现无穷次议价
② δ 1 可视为无折损
③有相同的折损原因 δ1=δ2(分析在折损率不同的情况下的结果)

(2)快速给出的提议被接受,没有议价环节

十八、
1、 定义:
① 完全信息博弈:书上所有的信息集合均只有一个节点的博弈,否则则是不完全信息 博弈
②纯策略:参与人 i 的纯策略是一个完全的行动计划,它告诉参与人 i 在他的每一个信 息集合一定要如何行动。

2、 子博弈: 子博弈是博弈的一部分,它满足以下三个条件。
① 子博弈必须从单个节点开始
② 它包含该节点的所有后代节点
③ 它不能破坏任何信息集合

3、 如果(s1*,s2*, ……sm*)能在任何一个字博弈中达到纳什均衡,那么它就是一个子博 弈完美均衡;要成为一个子博弈完美均衡,它本身就是一个纳什均衡。

十九、
1、 策略:它告诉每个参与人在不同信息集合下应该如何行动,即使有些博弈中信息集合无 法获得,策略仍然为参与人在当前状况下提供指示。

2、 介绍人博弈:大卫倾向加迪斯的《冷战》 妮娜倾向斯宾塞的《中国》

3、 一个投资案例,运用会计学(考虑折算、成本等)计算的结果与经济学(考略边际收益 等于边际成本)计算的结果类似,然而运用博弈论得出的结果却与之相反。 原因分析:会计师的答案,他们忽略了因为成本的降低,厂家会调整自己的产量;经济学 答案的局限在于仅仅考虑了自身产量的变化。 博弈论告诉我们每一个参与人的策略要依赖于 其他参与人的策略。

二十、
1、 决斗博弈 两个参与人,每个阶段每个参与人可以选择攻击(Fight)或者退出(Quit) ,同时给出 选择,直到一方退出后立即结束。如果对手退出,我方得到奖励 1;如果双方都选择攻 击,那么每人付出代价-0.75;如果双方都选择退出,那么每人获得 0.

2、 结论:在消耗战为背景的博弈中,在理性参与人中有个一个均衡,更进一步说是一个 合理的常识,即每个人都很理性,也知道其他人也是理性的,但却存在这样一个平衡, 使人们不仅选择攻击而且一直攻击下去,在每个阶段他们有可能选择攻击。

3、 注意:本博弈分析中用到的方法是分析子博弈的收益,进行不断地回溯分析。

二十一、
1、 主要讲重复互动(介绍了它的概念) ,重新讨论了囚徒困境,它的得益矩阵为 合作 合作 背叛 2,2 3,-1 背叛 -1,3 0,0,考虑 2 阶段博弈,采用逆推归纳法,可以知道在第二阶段双方都会选择背叛,回到 第一阶段,得益矩阵变为 合作 合作 背叛 2+0,2+0 3+0,-1+0 背叛 -1+0,3+0 0+0,0+0

因为没有一个将来的奖励,所以在第一阶段也会选择背叛。通过这个例子强调重复互 动博弈的重点在于明确的未来会为现在的行动提供激励。并且提供了一种判别能否持 续合作的方法,即当背叛的收益 ? 奖励的收益—惩罚的收益时,合作能持续下去。

2、 结论:如果一个重复的阶段博弈,有不止一个 NE,可以通过预测不同策略造成的结果 来未下一次行动提供激励,激励可视为奖励或者惩罚。

3、 介绍了恐怖和扳机策略, 该博弈的特点是无法确定博弈何时结束, 没有明确的最后阶段, 那么参与人便无法确定在什么时候背叛来赢得最后阶段的更高收益。 并且用 1 中提到的 方法检验持续合作是否是纳什均衡。

二十二、
1、 权衡良好行为带来的前景,和不良行为招致的损失,从而抑制我们作弊的念头。 现在作弊的利益 ? 今后合作的利益承诺—今后欺骗的代价 需要承诺和威胁都真实可信。今天的威胁不可信,因为明天仍然会遵循 NE,那么今天 的合作就没了基础,保持威胁真实可信的方法是关注 SPE——特点每一个子博弈中都 有 NE,利用这个特点来寻找合作机会。

2、 一个一般化的结论:如果一段持续关系能为今日的好行为提供激励,那它有助于让这段 关系有个持续下去的高概率。

3、 委托—代理关系的条件约束:今天背叛的诱惑 ? 继续关系值(继续雇佣)—终止关系值 (解雇)得出结论:为了在这些持续关系中获得良好行为,必须要在明天提供一定的报 酬。如果你放到明天的砝码,或者说,如果明天继续下去的概率比较低,那么这个报酬 就要比较高。

二十三、
1、 回顾了古诺模型,介绍了信息披露的过程,即如果我的产品价格低时,我应该向其他公 司公布我的价格,如果我的价格适中,我也应该选择向其他公司公布价格,不然的话, 他们就会认为我的产品价格是最高的,此时,产品价格最高的公司也就会自然暴露了。 它揭示了一个结论:缺乏信息传达途径或者说企业不想公布一些信息,这些现象本身也 在传达着信息。

2、 介绍了传递信号有成本的模型,优秀雇员(G)绩效 50,大约有 10%的人是优秀雇员, 差劲雇员(B) ,绩效 30,大约有 90%的人是差劲雇员,企业支付给优秀员工薪水—50; 差劲雇员—30, 对于无法评价的一般员工支付 32 ( 50*10% ? 30*90% ) , 找出了均衡, 并且得出判断优秀员工与差劲员工需要取得 MBA 时间至少为 2 年,通过这个例子说 明,一个成功的信号要能区别开不同的人需要成本的差距足够大, (一个好的信号不一 定与很高的成本有关) 。

3、上述模型的缺陷:

(1)模型中没有学习的概念,通过学习没有提高雇员的生产力
(2)教育失去了社会用途,仅仅成为了区别优秀与差劲的工具
(3)教育加剧了不平等

二十四、
1、 拍卖,介绍了公共价值(V)和私人价值( Vi )的概念,如油井就属于公共价值,蛋 糕(纯消耗品)属于私人价值,现实生活中大多数是介于公共价值和私人价值之间。

2、 通过竞拍罐子中硬币的游戏,介绍了赢家的诅咒,即最后胜出的人出价远高于物品的 真实价值,并且视频中还讲述了为什么会存在赢家诅咒,及如何避免赢家诅咒,主讲人 说为了避免做出获胜就后悔的决定,在公共价值拍卖的场合中,大家应该这样出价即当 作自己赢了去出价,出的价格低于自己的估计价值。

3、 介绍了四种拍卖方式:

(1)首价密封的拍卖机制
(2)第二价格密封的拍卖机制(赢家支付第二高的出价) ,也叫维克瑞拍卖
(3)公开增价拍卖
(4)公开降价拍卖,也叫荷兰式拍卖。 并说明从策略的角度看,第四种拍卖方式与第一种拍卖方式是一样的。

 

资源下载(不限速下载说明)

下载价格:0 学习币

您需要先后,才能下载

小提示:
1、资料仅供学习爱好者学习交流之用,若喜欢,请支持正版。
2、发现资源失效,请文末留言告知,站长将立马修复,谢谢!
3、如有问题,请联系站长(微信公众号:xuexi-1234567;邮箱:admin@xuexi1234567.com)。

分类: 知识课程
标签:, ,
扫一扫,领取红包
鼓励站长继续更新内容吧!

留言区

发表评论