如果重复博弈次数有限,且单阶段博弈中有多个NE,则在第一阶段中,参与人A会采取帕累托最优但非NE的行动来作为“触发策略”试探参与人B,如果参与人B采取合作策略,则参与人A在第二阶段会用收益最高的NE来奖励这种合作行为,反之则用收益最低的NE来惩罚参与人B。
问题是:
1.这里的单阶段博弈是否是参与双方同时行动呢?比如,如果在第一阶段,参与人A先行动,选择了帕累托最优的行动,但B在观察到这种选择后采取不合作,那么A就有理由在第二阶段惩罚B。然而,如果第一阶段两人同时行动,B事先不知道A的选择而没有选择相应的导致帕累托最优的行动,然而在下一次行动中他也有可能会吸取上一次的教训,那A是否有可能再给他一次机会呢?
2.如果在第一阶段的选择中两人达成了合作,即选择了帕累托最优的行动,那么他们为什么不继续合作下去,而是要在下面的博弈中选择NE的战略,而不选择那个非NE的帕累托最优战略呢?