楼主: handsome8848
4063 19

[学科前沿] 华山论剑--理论 vs 现实 [推广有奖]

  • 0关注
  • 17粉丝

已卖:1650份资源

副教授

47%

还不是VIP/贵宾

-

TA的文库  其他...

博弈论官方文库

威望
1
论坛币
56585 个
通用积分
18.7663
学术水平
72 点
热心指数
108 点
信用等级
83 点
经验
25958 点
帖子
525
精华
2
在线时间
433 小时
注册时间
2009-5-10
最后登录
2023-2-9

楼主
handsome8848 在职认证  发表于 2013-7-12 11:25:50 |AI写论文

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币
前两天宣布了“每周一题”活动,获得了大家的大力支持。特别感谢 whe58 同学作为第一个投稿的朋友,提供了一个非常有意思的题目。然而,最有意思的不是在于题目本身,而是在于我们对答案(温馨提醒:投稿的同学请准备好参考答案,或者自己给出的答案噢)上的不合,随后产生了50余条短信息(温馨提醒2:投稿请发消息联系我噢)的交流与争辩。
在此,我把这题提前公布出来(就不作为“每周一题”了),作为一个讨论贴,欢迎大家跟贴讨论。


亲,运转起你的大脑,勇敢的说出你的solution吧!





下面是题目:
——————————————————————————————————————————————————————————
甲与乙在0~100元中同时喊价一个数(补充1:为简化问题,可限定为整数),设甲的叫价为X,乙的叫价为Y。


若X>Y,则甲得100元,乙得0元;
反之,若X<Y,则乙得100元,甲得0元;
若X=Y,甲、乙各得0元。


每次叫价,甲、乙都必须付出自己喊的钱数X和Y。试求甲、乙二人的收益函数;你认为他们各自的最优策略是什么?为什么?


补充2:大家可以关注以下两个问题:
1. 理论上的最优策略是?预计的结果是?
2. 如果让您来玩这个游戏,那么您的选择是?




__________________________________________________
1. 欢迎大家踊跃跟贴、争论,精彩回复将会得到奖励
2. whe58快来领“稿费”啦!
3. “每周一题”第1期将于本周日上午10点准时开启,期待您的踊跃参与!
4. 有优秀idea、有趣的问题的同学,欢迎
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

关键词:华山论剑 Solution solutio Soluti 温馨提醒 参考答案 solution 华山论剑 短信息 朋友

回帖推荐

whe58 发表于15楼  查看完整内容

A与B关于此题目的对话 A: 甲与乙在0~100元中同时喊价一个数,设甲的叫价为X,乙的叫价为Y。若X>Y,则甲得100元,乙得0元;反之,若XY,乙希望的是Y>X,但是不可能同时满足这个条件,而2人都是理性的,所以只有当X=Y时达到均衡,且双方叫价为0收益最大,否则收益一定为负。 又如:甲出价为X,乙出价为Y。 假定甲给定一个X,那么乙选择的Y落在0到X的范围内的概率是X/101,落在X到100的范围内的概率为(101-X)/101。 X>Y时,则甲 ...
已有 1 人评分经验 收起 理由
zl89 + 20 根据规定进行奖励

总评分: 经验 + 20   查看全部评分

沙发
徐顺利 学生认证  发表于 2013-7-12 22:48:48
答案是不是都是0】对甲来说,喊X的期望是(100-X)*P(X>Y)-X*P(X<=Y)=-X/101
期望值最大的是X=0
已有 2 人评分经验 论坛币 学术水平 热心指数 收起 理由
zl89 + 20 我很赞同
handsome8848 + 3 + 1 + 2 鼓励积极发帖讨论

总评分: 经验 + 20  论坛币 + 3  学术水平 + 1  热心指数 + 2   查看全部评分

藤椅
徐顺利 学生认证  发表于 2013-7-13 12:09:53
这是不让回复的节奏吗?

板凳
handsome8848 在职认证  发表于 2013-7-13 19:18:14
徐顺利 发表于 2013-7-12 22:48
答案是不是都是0】对甲来说,喊X的期望是(100-X)*P(X>Y)-X*P(X
期望的式子前半部分对,最后的等号过不来。
为何假定Y是均匀分布?

报纸
徐顺利 学生认证  发表于 2013-7-17 20:58:52
handsome8848 发表于 2013-7-13 19:18
期望的式子前半部分对,最后的等号过不来。
为何假定Y是均匀分布?
还有一个想法,今天刚想到的。先列出甲乙分别取0到100的收益矩阵。然后设甲出k元时的概率为P(k),设乙出m元时的概率为q(m),按混合策略博弈能求出p(k)=q(k)=0其中k为1到100.所以p(0)=q(0)=1,所以甲乙都出0.这个对不对?

地板
whe58 在职认证  发表于 2013-7-18 08:56:52
徐顺利 发表于 2013-7-17 20:58
还有一个想法,今天刚想到的。先列出甲乙分别取0到100的收益矩阵。然后设甲出k元时的概率为P(k),设乙出m元 ...
看不懂。
已有 2 人评分论坛币 学术水平 热心指数 信用等级 收起 理由
happy_287422301 + 2 懂你了,呵呵
handsome8848 + 50 + 3 + 3 + 3 多谢提供有趣的题目~鼓掌鼓励

总评分: 论坛币 + 50  学术水平 + 3  热心指数 + 5  信用等级 + 3   查看全部评分

教书匠

7
handsome8848 在职认证  发表于 2013-7-18 14:25:11
徐顺利 发表于 2013-7-17 20:58
还有一个想法,今天刚想到的。先列出甲乙分别取0到100的收益矩阵。然后设甲出k元时的概率为P(k),设乙出m元 ...
按混合策略博弈能求出p(k)=q(k)=0。
能详细说说怎么求的么?

8
徐顺利 学生认证  发表于 2013-7-18 18:25:48
handsome8848 发表于 2013-7-18 14:25
按混合策略博弈能求出p(k)=q(k)=0。
能详细说说怎么求的么?
列出收益矩阵,然后让乙出0到100的101个期望收益相等
再让甲出0到100时的101个期望相等
就求出来了
已有 1 人评分论坛币 学术水平 热心指数 收起 理由
handsome8848 + 2 + 1 + 1 观点有启发

总评分: 论坛币 + 2  学术水平 + 1  热心指数 + 1   查看全部评分

9
handsome8848 在职认证  发表于 2013-7-18 19:33:43
徐顺利 发表于 2013-7-18 18:25
列出收益矩阵,然后让乙出0到100的101个期望收益相等
再让甲出0到100时的101个期望相等
就求出来了
思路是对的,这就是算mixed strategy equilibrium的方法。
但是,计算应该是出错了。
给定另一个人一定选0 (p(0)=0),这时对于另一个人来说,0-100这101个选择的payoff显然不等。

10
whe58 在职认证  发表于 2013-7-20 09:54:43
A与B关于此题目的对话

A: 甲与乙在0~100元中同时喊价一个数,设甲的叫价为X,乙的叫价为Y。若X>Y,则甲得100元,乙得0元;反之,若X<Y,则乙得100元,甲得0元;若X=Y,甲、乙各得0元。
    每次叫价,甲、乙都必须付出自己喊的钱数X和Y。试求甲、乙二人的收益函数;你认为他们各自的最优策略是什么?为什么?

B: 容我想想。第一感觉是这题比较像书上的题目,可能不太容易第一眼抓住人的眼球。题目很有趣,但是问题比较专业~我再仔细思考一下~thanks anyway

A: 可以把“试求甲、乙二人的收益函数”去掉。

B: 你有这题的答案么?刚思考了下,这题的问法应该是问Nash Equilibrium才对的吧,最优策略如果对方选100,那么自己选0,否则自己选大于对方一点点的数~问best response的话感觉没有问equilibrium有意思诶~
其实这种题目我更倾向于来一场实战~让大家亲身参与进来~另外,题目稍有歧义,喊出的是否限定为整数是需要指出的。
    这个题如果纯粹提问的话(例如作为每周一题),可能难度过大,根据本版的回复质量,我感觉能答上来的人、甚至沾边的人都不多诶~可以考虑作为难度题,如果前面几期大家表现挺好,可以在后面的时候放出,你看如何?

A: 一切由领导决定!
喊出的是否限定为整数?——为简单起见,可以限定为整数。
其实,这就是一个逻辑题,无需穷举。
观察甲、乙二人的收益函数,就能大致看出答案了。
请您先写出二人的收益函数,答案就大致在其中了。

B: 征稿要求:
2. 带有比较成熟的参考答案,或者相关reference。
投稿请自带答案噢~

A: 设R1表甲收益,R2表乙收益,X,Y∈[0,100]
收益函数为:
R1=100-X,X>Y
R1=-X,X≤Y
R2=100-Y,X<Y
R2=-Y,X≥Y
分析收益函数可见,仅当X=Y时才能达成均衡,且当X=Y=0时收益最高,所以他们的最优策略是都喊0元。
解释可有多种,结果只有一个。
如:因为甲、乙都想得到最大的收益,甲希望的是X>Y,乙希望的是Y>X,但是不可能同时满足这个条件,而2人都是理性的,所以只有当X=Y时达到均衡,且双方叫价为0收益最大,否则收益一定为负。
又如:甲出价为X,乙出价为Y。
假定甲给定一个X,那么乙选择的Y落在0到X的范围内的概率是X/101,落在X到100的范围内的概率为(101-X)/101。
X>Y时,则甲的收益为100-X。该收益发生的概率为X/101;X=<Y时,则甲的收益为-X。该收益发生的概率为(101-X)/101。
那么甲的收益期望值为P=(100-X)*X/101+(-X)*(101-X)/101=-X/101。
同理可得,乙的总效用函数P=-Y/101。减函数,所以应该出0。
再如:……

B: 这题是没有纯策略均衡的。如果X=Y=0,为什么我不出X=1呢?那样我的payoff就是100-1了。所以这题可以写best response,但是没有纯策略均衡的。
所以这题在我看来就像是石头剪子布,最终会到达一个循环。
1.当x,y都没有到100的时候,每个人总会想着超过另一个人的bid。
2.当有人超到了100的时候,另一个人发现无法超过了,这时候出0就是best response.
3.当出100的人发现另一个人出0了,他的best response又成了出一个比0大一点的数。
然后又循环到1了。
这也说明了为什么没有纯策略的均衡了,没有一个stable的状态以及策略。

A: 这是一个静态博弈,每人只有一次出价机会。如果说有循环,那也是出价前在各自头脑中循环。虽然不存在纳什均衡,却有稳定的逻辑结果——0,这是风险使然。

B: 敢问逻辑结果是什么概念?不存在Nash Equilibrium, 那么这个逻辑结果对应的是什么概念?还没有见到哪个概念可以对应这个逻辑结果的。
所谓的best response, 也是对手strategy的一个function,best response的不动点就是solution (pure Nash),而这个game是没有这样的不动点的。所以0 0 似乎没有什么特殊含义,和1 1以及任何结果一样,都是off equilibrium的strategy
“分析收益函数可见,仅当X=Y时才能达成均衡” 这句怎么解释?为什么x=y的时候达到均衡,什么是均衡?
这句貌似逻辑上说不过去

A: x=y是双方唯一都能接受的。其他结果只是一厢情愿,也就无法达到均衡。

B: x=y不是双方都能接受的噢。哪里的分析可以得出“双方都能接受”x=y?接受的意思是什么?
若x=y=50,那么对于x,往下我可以取0,这样我的payoff是0而不是-50,往上我可以取51这样我的payoff是49而不是-50.不管怎么样,x=y=50都不是可以“接受”的。
类似,即使x=y=0,那么x为何不取1而取0,从而获得99的payoff呢?

A: 我没有说(0,0)是纳什均衡,前面已经说“虽然不存在纳什均衡,却有稳定的结果——选0,这是风险使然”。

B: 噢,我们出题的意图看的还是theory,而不是看的behaviour。您所谓的,稳定的结果,风险使然,有没有对应的理论支持呢?
当然,现实game和理论的结果可能会有出入,但是0,0也只能说代表了一部分人的选择,不同risk attitude的人的选择是不一样的。如果研究behavior上什么是对的,这就是说不清的事情了。您觉得选0最保险,有些人还觉得选1如果输了也只损失1块,而赢了能赢100呢~
您所谓的0,0是“风险使然”,是不是基于minimax strategy?从这个角度上看,0,0可以作为Minimax strategy。但是我同样不赞同behaviorly,人们都会play 0,0。因为没有证据表明,所有的人都prefer一个“一定是0”的strategy,与一个“有可能得100 payoff”的strategy(比如play1)。选0,相当于加了risk averse,并且程度很厉害的这样的假设。

A: 所以我说这是一个逻辑问题。我们都是理性人,您能想到的我也都能想到。这是讨论问题的前提。如果您觉得选1如果输了也只损失1块,而赢了能赢100,那别人也同样会有此想法,甚至会选择2,所以您别想赢。别假设您比别人聪明。

B: 这不是谁聪明的问题,可以认为是不同risk attitude的人的选择不同。
选0确实风险最低,但是也意味着没有任何获得正收益的可能性。
您是如何得出,您能想到的我也能想到,所以我们就都要选0了呢?因为风险最低?
那我们play game的目标,也并不是风险最低吧。。。看一个strategy是不是optimal,看的是payoff,而不是risk吧。
我同意这样的观点:选0是最保守的方法,对于risk averse的人来说是optimal strategy,或者说,这是一个Minimax strategy。
但是,1.这不是一个NE(这点你也同意) 2.我们没有理由说明,人们会这样behave。因为还没什么理论保证人们都是玩minimax的吧~您说,如果我们玩一局,可能我会选0.但是这也只是代表了一种人,您同意么?

A: 设R1表甲收益,R2表乙收益,X,Y∈[0,100]
收益函数为:
R1=100-X,X>Y
R1=-X,X≤Y
R2=100-Y,X<Y
R2=-Y,X≥Y
这个收益函数您是否有异议?如果没有,那么当X=Y=0时各自的收益最高,所以他们的最优策略是都喊0元,没有问题吧?
因为我们都是理性的,所以您能想到的我也能想到,所以我们就都要选0。

B: payoff function没有异议。x=y=0时为何各自收益最高,请解释given y=0, x=0的收益对于甲来说不是最高的。同理,对于x=0, y=0对于乙来说收益也不是最高的。
那么,收益最高指的是?
您所说的思路我能部分理解,处于safe或者您说的风险考虑,0,0看起来好像是个诱人的选择。但是,那也是基于minimax思想的。而所谓的最优策略,或者对结果的prediction,一般都是直接基于payoff function的,而不是基于payoff function的min。

A: R1=100-X,X>Y——X=0,R1最大
R1=-X,X≤Y——X=0,R1最大
R2=100-Y,X<Y——Y=0,R2最大
R2=-Y,X≥Y——Y=0,R2最大
只有这些情况了吧?

B: 对于1和3,Y=0和X=0时,不等号都不可能成立。。。
这也就是我说的,选0的时候放弃了赢的可能性。永远不可能出现100-X的payoff
对于2和4,既然要输,那当然选0最合适了。但是1和3的时候,选0不可能赢的。。。

A: 的确如此,当X≠Y时,答案是X→0或Y→0。

B: 是的,但是不可能是x=0或者Y=0

A: 对于这个题目,您现在可以给出答案了吗?
别告诉我无解循环啊。

B: 就是循环啊。就像是石头剪刀布,这样循环下去的结果就是没有pure strategy NE
因为所有的结果都有deviate的动机,所以只能让自己unpredictable。如果研究这个题目的mix strategy NE (根据定理应该是存在的),将会更加有意思和难度~当然,只考虑pure的话,结果就是not exist

A: 那我们再看看这个解释有什么问题:
甲出价为X,乙出价为Y。
假定甲给定一个X,那么乙选择的Y落在0到X的范围内的概率是X/101,落在X到100的范围内的概率为(101-X)/101。
X>Y时,则甲的收益为100-X。该收益发生的概率为X/101;X<=Y时,则甲的收益为-X。该收益发生的概率为(101-X)/101。
那么甲的收益期望值为P=(100-X)*X/101+(-X)*(101-X)/101=-X/101。
同理可得,乙的总效用函数P=-Y/101。为减函数,所以应该出0。

B: 这是belief的问题。问题出在,Y落在0到X的不是uniform的distribution。因为这不是Y的策略。
如果举一个更极端的例子,我作为X就认定了Y一定会选0,那么此时1就是最好的策略。同理,如果我认定Y一定选1,那么2就是最好的策略。成为equilibrium的条件式,belief要是correct的!也就是说,x对y的belief和y实际采取的(mixed)的策略,必须要是一致的。
并不是任意一个belief justify了我的选择,那么我就能安心的选这个结果了~所以还是要“两厢情愿”。
我的belief(或者说我计算我期望效用的概率)要和你的实际策略相符。你的belief也和我的策略相符。
同时在这种情况下,我和你的strategy的payoff还都是最大的,这样才能构成一个均衡

A: 是啊,概率可能不是均匀分布的。
这种说法有问题吗?——因为甲、乙都想得到最大的收益,甲希望的是X>Y,乙希望的是Y>X,但是不可能同时满足这个条件,而2人都是理性的,所以只有当X=Y时达到均衡,且双方叫价为0收益最大,否则收益一定为负。

B: “所以”的依据是?X=Y不是均衡,never是。不能说我想比你高,你想比我高,那么我俩一样高就是最好的结果啊~因为这个问题很残酷,我比你高或者你比我高,至少有一个人得100,而我们相同得结果会是0.
理性,是得不到x=y得结果的。所谓的理性,大概指的是效用最大化。一般我们考虑的是理性+信息(common knowledge)。这两个前提条件都得不出x=y的结果的啦~

A: 您说:“就是循环啊。就像是石头剪刀布,这样循环下去的结果就是没有pure strategy NE”,问题是您只有一次选择机会,如何循环?
(0,0)的确不满足纳什均衡的定义,但当您只有一次出价机会时,您会在[0,100]中做何选择?为什么?

B: 循环的意思可以理解为双方无法达到共识,没有一个稳定的状态。
NE只是理论上的solution concept,但是实际上人们未必会表现出play NE。就像物理学告诉我们推一下,这个东西就应该一直直线运动下去,但是事实上很难/不可能发生。
如果要讨论solution concept的话(或者说理性人“应该”)如何选择的话,那就会使用mixed strategy了,就像石头剪刀布里面,1/3 1/3 1/3的概率。这里构造mixed strategy我还没有细想,但是毋庸置疑,均衡状态就是mixed的。
至于人们“会”如何play,这是behaviour上面的东西,也是研究的难点。game theory只是告诉我们,理论上的optimal,或者说should play.
behavior上更像是 will play
如果您还是想问我会如何选择,我会给以下几个选择:
如果我心情好,想表现得最优,那么我会根据理论上得mixed来play(但是实行上仍然有难度)
如果我十分保守,害怕亏钱(特别是给定一定的ndowment),那么我可能会选0.
或者,我就是喜欢3这个数字,那么我选择出3.
真正要预测人的行为很难得,只能说,理论上说,最Optimal的选择(基于期望效用)就是mixed strategy(第一种)。其他的选择也是可能的。
可以理解为,"理论"告诉我们要天天学习,不要玩游戏,不要xxx。但是"实际上",有人会这么做,但是有人完全不这么做,有人部分这么做~

A: 您所说的混合策略纳什均衡是怎样的呢?纳什说纯策略均衡不一定有,但混合策略均衡总是存在的。
至于您说的明知学习重要,却不肯放弃玩耍,那是理性不足的表现。博弈论的研究前提是所有局中人都是理性的。非理性的行为,要放到行为博弈中去讨论了。这是两个不同的体系。
您说:"我就是喜欢3这个数字,那么我选择出3."请问这是一个理性人的行为吗?
您的意见对我有启发,谢谢您!只是还觉得不过瘾,仍然没有从根本上扭转我对(0,0)的偏好。我之所以提供这个题目来讨论,就是因为(0,0)不符合纳什均衡的定义,却被理性人选择,具有稳定性,也许博弈论无法解释,而要用风险理论或其他什么理论来解释。我一直不能理直气壮地、完美地解释它。

B: 可以这样认为:理性人假设是maximize他自己的utility的。那么我们传统的utility都是期望效用、期望收益,这也是nash equilibrium所采取、关注的payoff。0,0是另一个概念(minimax),在这种情况下,其实关注的是自己收益的最小值。如果自己是理性的+关注的utility是收益的最小值(而不是收益本身),那么0,0就是理论预计的答案了。
混合策略容我想想。
混合策略在离散情况下并不复杂。不知道您熟不熟悉混合策略的解法(比如一个2x2,或者3x3的game)。如果熟悉的话,那就好办了:把他们的strategy列成101X101的矩阵,每个格子里填上对应的payoff。
比如第一行0,0 0,99 0,98 .... 0,0
第二行 99,0 -1,-1 -1,98, ... -1,0
一直写满整个101X101的矩阵,然后想当于转换成100个未知数,100个方程的方程组,就可以解出每个策略的p_i了。这也是解一般Mixed strategy的方法。如果您乐意自己动手,可以编程算一下。如果只是要结果,我也可以offer一个程序
连续情况,可以参考all pay auction的equilibrium,其中v_a v_b都是100.

A: 混合策略的思想我可以接受(此前我们讨论的是纯策略),编程我恐怕难以胜任,请您把程序发给我:whe58@sina.com,我抽空算算。您的程序不会是Gambit.exe吧?此程序我有https://bbs.pinggu.org/thread-2126359-1-1.html

B: 不是啊。我的意思是随便写个程序啊。。。你那有什么语言?matlab或者R都可以写一个

A: 那我还是用Gambit.exe吧。这可是一个有101个元素的概率集合啊!而且两人的混合策略完全一样。
我一直考虑纯策略,是您提醒了我可以考虑混合策略。但混合策略在现实中操作性将大打折扣。

B: 是的。我已经说过啦,这个game不存在纯策略均衡,只有混合策略的。所以对现实的prediction效果不好,尤其是1 shot game。
已有 1 人评分经验 收起 理由
happy_287422301 + 100 精彩帖子

总评分: 经验 + 100   查看全部评分

教书匠

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
jg-xs1
拉您进交流群
GMT+8, 2025-12-30 06:31