论囚徒困境和纳什均衡

今天给各位分享论囚徒困境和纳什均衡的知识，其中也会对论囚徒困境和纳什均衡进行解释，如果能碰巧解决你现在面临的问题，别忘了关注本站，现在开始吧！

本文导读目录：

　　社会：个体之间有互动行为&相互依赖的群体　　羊群效应：大家做什么，我就跟着做什么，不管对错和原因　　协调问题：两人迎面走来，谁左谁右？（核心：人们如何预测他人的行为）　　合作问题：囚徒困境（核心：个体理性和集体理性的折衷）　　等边际原理：如果每一种资源都存在着边际收益递减，那么最优的资源配置策略应该满足：最后一单位资源无论用在哪一种用途上，都会产生相同的收益。【资源在每一种用途上的边际贡献相等】　　理性人：有一个明确的偏好+在给定约束条件下，这个人总是追求自我偏好最大化。　　输赢的不对称：当人们面临风险决策时，他们更在乎的是成功与失败，赢和输，财富的变化，而不是最终的财富状态；（比如说，100元损失导致的效用的减少远远大于100收益导致的效用的增加）——>人们是损失规避型的(loss aversion)； 1.3.1 帕累托效率标准：　　帕累托效率：一种社会状态，与该状态相比，不存在任何一种可选择的状态，使得至少一个人的状态更好，同时没有任意一个人的状态变差　　帕累托改进：改变一种状态，使得没有任何一个人的处境变坏，但是至少有一个人的处境变好了　　**从非帕累托最优点到帕累托最优点不一定是帕累托改进　　1.3.2 卡尔多-希克斯标准　　总量最大化　　不管对方使用什么样的战略，只要参与人使用这一战略，都可以给自己带来最大的收益。　　理性人做决策的时候，不需要假定对方是理性的。　　占优战略均衡：由占优战略组成的战略组合。　　尽管合作能让双方更好，但双方仍然不会合作　　怎么比较好地去记一个方框里面哪个是甲的收益哪个是乙的收益呢？我们画一条线，斜线上方的就是表格“上方”的乙的收益；斜线左边的就是表格“左边”的甲的收益。　　两个假设：　　R>T>P>S 　　T+T>R+S 　　只要满足这两个条件，一定是个人理性选择不满足集体理性选择。　　在这两个假设下，集体理性肯定是选择（合作，合作），这样总体的利益最高。　　但是个人理性观点下呢？　　以甲为例，当乙合作的时候，我们看下图蓝框框住的部分。如果甲合作，那么甲收益为T；甲不合作，甲的收益为R，又R>T，所以乙合作的时候，甲会不合作；同理，乙不合作的时候，甲也不合作（P＞S）。所以无论乙怎么选择，甲都不合作。　　乙同理，不论甲怎么选择，乙的占优策略都是不合作 2.2.1 囚徒困境的解决方法　　设立奖惩机制，适当地减少R，增大S 　　如果需要二者合作，那么T+aT≥R+aS，S+aR≥P+aP 　　我们先考虑小猪：　　如果大猪做，那么小猪不做；如果大猪不做，那么小猪也不做——>小猪的占优策略是不做　　我们考虑大猪：　　如果小猪做，那么大猪不做；如果小猪不做，那么大猪做——>大猪没有占优策略。　　但如果大猪事先知道小猪是理性的，那么大猪就会知道小猪不做，所以对于大猪来说，只剩下一半的博弈矩阵，那么大猪选择做就可以了。　　所以最后的均衡状态是（做，不做）　　纳什均衡：所有参与人的最优战略的组合，给定这一组合中其他参与人的选择，没有任何人有积极性改变自己的选择。　　混合战略纳什均衡：均衡结果是参与人以某一概率随机选择行动。　　纯战略纳什均衡：参与人确定的选择某一个特定的战略【退化混合战略纳什均衡】。　　假如一开始是（偷懒，偷懒）　　->如果老板偷懒，那么工人不偷懒　　->如果工人不偷懒，那么老板不偷懒　　->如果老板不偷懒，那么工人偷懒　　->如果工人偷懒，那么老板偷懒　　这样又循环回去了，也就是说，这里没有纯战略的纳什均衡。　　假如老板认为员工偷懒的概率是P，不偷懒的概率是1-P。　　从老板的角度，自己不偷懒的期望收益是-2*P+2*(1-P)=2-4P，偷懒的期望收益是1*P+-1*（1-P)=2P-1 　　从员工的角度，自己不希望老板猜到自己偷懒还是不偷懒：　　2-4P=2P-1 -> P=1/2 　　这时，员工1/2的概率偷懒，1/2的概率不偷懒　　假如老板以Q的概率偷懒，1-Q的概率不偷懒　　从员工的角度，自己偷懒的期望收益是-1*Q+3*（1-Q)=3-4Q 　　自己不偷懒的期望收益是2*Q+2&（1-Q）=2 　　还是两者应该相等　　所以Q=1/4 　　也就是老板以1/4的概率偷懒，3/4的概率不偷懒　　所以，这个博弈的纳什均衡是，员工1/2的概率偷懒，1/2的概率不偷懒;老板1/4的概率偷懒，3/4的概率不偷懒。　　每一个有限博弈至少存在一个纳什均衡（纯战略或混合战略）；　　• 如果一个博弈存在两个纯战略纳什均衡，那么，一定存在第三个混合战略纳什均衡。如果有偶数个纯纳什均衡，那么必然至少存在一个混合纳什均衡）　　•参与人：4000位司机　　•策略选择：“走上面”和“走下面” 　　回报：行驶时间（越小越好）　　均衡：上下路上各2000 辆车；　　对每辆车而言，对应回报为65 　　•此时，若某人要改变，则他的行驶时间 2001/100 + 45 > 65，因此没人会改变　　此时的均衡反而是4000人都走A-C-D-B 　　决定在CD路段安排一个临时收费站，收费20元。假设人们认为花1元钱省≥1分钟的时间是值得的　　那么此时的均衡是 x/100+20+x/100=x/100+45 　　所以x=2500 　　也即AC、DB段2500，AD、CB段1500，CD段1000的。上面建立高速公路反而导致效率降低就是一个布雷斯悖论在微观个体总是追求自身利益最大化的假设下，如果不注意结构，仅仅是投入资源不但可能解决不了问题，还可能使情况更糟　　这两个概念都是博弈论中的概念，那什么是博弈论呢，博弈论是研究竞争现象的一种理论方法。既然是理论方法就会有许多假设的前提，但在现实情况下，这些前提很可能不会同时存在。所以所有理论方法，只是有助于你分析并理解现实世界，它只是一种方法，或者是一种思维工具而已，切不可生搬硬套。博弈论在经济学、生物学、物理学、社会学、政治学中都有应用，所以博弈论是一种十分有用的分析框架。　　先介绍一下囚徒困境，然后在囚徒困境中找到纳什均衡的局面，最后进行一下总结。　　1.囚徒困境　　1.1两个犯罪嫌疑人都被抓了起来，并且这两个人都是理性、自利的，并且不能相互交流。都被告知如下规则。乙沉默（合作）乙认罪（背叛）甲沉默（合作）二人同服刑半年甲服刑10年；乙即时获释甲认罪（背叛）甲即时获释；乙服刑10年二人同服刑5年　　在这种情况下，两个人会做什么选择？答案是两个人都会选择背叛对方。分析如下：　　甲想：　　如果乙沉默，我背叛的话，就会立即获释。　　如果乙背叛，我沉默的话，就会判刑十年。　　所以甲会选择背叛。同理乙也会选择背叛。最终两人都会服刑5年。　　其实有一个最优解就是：甲乙都选择沉默。这就是“困境”所在：个人的最优解，并不是全局的最优解。　　1.2知道次数的囚徒困境。比如限制十次　　经过上次的教训，甲知道了沉默是全局的最优解，但是最后一次，甲背叛，乙沉默的话，甲会立马获释。　　所以前九次甲都会选择沉默，已获得对方的信任，最后一次会选择背叛。同理乙也会这么想。当双方都知道对方在最后一局选择背叛，那么会有人在第九局选择背叛，依次类推。第一局双方都会选择背叛。　　1.3不知道次数的囚徒困境　　经过多次博弈，背叛会受到惩罚，双方趋向于选择合作。　　2.纳什均衡　　在博弈中会存在一个均衡，任何一方都不愿改变策略，因为这种状况下改变策略会不利于自己。囚徒困境下的纳什均衡是：双方都背叛。　　可以用排除法找到答案，如果两人都沉默的话，只要任何一方背叛，会立马获释。这种双方都沉默的局面并不稳定。如果一方沉默，另一方背叛的话。没有人傻到自己沉默，所以这种情况也是不稳定的。　　3.总结　　3.1局部最优解不是全局最优解。　　3.2个人的理性选择，会造成全局的非理性。　　3.3纳什均衡不是全局最优解。　　3.4人类一般都会选择背叛对方。但是法规的出现，是人类从背叛走向合作的转折点。　　自私与报复是人的本性

论囚徒困境和纳什均衡的介绍就聊到这里吧，感谢你花时间阅读本站内容，更多关于论囚徒困境和纳什均衡、论囚徒困境和纳什均衡的信息别忘了在本站进行查找喔。

未经允许不得转载！ 作者:谁是谁的谁，转载或复制请以超链接形式并注明出处。

原文地址：http://www.bbwdc.cn/post/18370.html发布于：2026-02-22

论囚徒困境和纳什均衡

调剂｜ 2023年青岛理工大学硕士研究生预调剂公告

读《失去的一天》有感

语文伴我成长

许昌市人民政府关于印发许昌市深化财税体制改革实施方案的通知

论囚徒困境和纳什均衡

调剂 ｜ 2023年青岛理工大学硕士研究生预调剂公告

读《失去的一天》有感

语文伴我成长

许昌市人民政府关于印发许昌市深化财税体制改革实施方案的通知

调剂｜ 2023年青岛理工大学硕士研究生预调剂公告