楼主: huangfeiteng
347 1

[学习笔记] 算法之美 笔记 [推广有奖]

  • 1关注
  • 3粉丝

已卖:4份资源

学科带头人

59%

还不是VIP/贵宾

-

威望
0
论坛币
7366 个
通用积分
177.2255
学术水平
13 点
热心指数
7 点
信用等级
10 点
经验
50353 点
帖子
1348
精华
0
在线时间
504 小时
注册时间
2016-7-24
最后登录
2025-1-15

楼主
huangfeiteng 学生认证  发表于 2019-8-6 19:11:20 |AI写论文

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币

第二章 探索与利用explore and exploit

我们所做的决定会给我们提供信息,这些信息对未来的决策有所帮助。

一个经典trade-off:独臂老虎机问题,要最新的还是最好的?

比如,选择在哪家餐厅吃饭?去经常去的餐厅,还是尝试一家新的?探索可能找到更好的选择,但探索阶段收益比较低。

赢留输变策略:这次满意就下次还选它,一次不舒服后就换一家,;

基廷斯指数:根据一个老虎机已知的成功和失败的次数得出下次成功的概率f(w,l),考虑未来收益的递减时,偶然的发现价值更大。有远见的人则偏好稳定已知的情况。

遗憾最少化框架:把自己想象成80岁,回望一生,要把遗憾之事的数量降到最低

应用的例子:设计捐款网页时,设计红色按钮和绿色按钮的两个版本,随机投放给不同的用户,观察哪个群体的捐款比例更高。如果有显著差异,可以逐步推广捐款比例高的设计。自适应性试验:如果一个方案成功了,在样本池中加大这类样本,提高其被抽到的概率。

剩余时间较多时,则优先多探索新的

现实中的另一个风险:航空公司,餐厅这些需要被重复选择的环境的服务水平并不像老虎机一样是一成不变的。

人生:童年是探索阶段,虽然收益低,但是有父母帮助;老年是享受阶段,选择前几十年中探索出的最佳方式并坚持。

个人思考:

决策还要看个人对于风险的偏好。成功失败数分别为1-1和5-5的两台机器,风险回避者选择后者;

经常在一个环境也有熟练度的收益:在比较熟的路上跑步不易受伤,在经常去的餐厅吃饭可以办会员卡享受折扣。


二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝


已有 1 人评分论坛币 收起 理由
经管之家编辑部 + 50 精彩帖子

总评分: 论坛币 + 50   查看全部评分

论文辅导事宜可加微信详谈,huang_fei_teng,申请时请加备注

沙发
经管之家编辑部 在职认证  发表于 2019-8-6 21:05:57
学习笔记奖!

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
扫码
拉您进交流群
GMT+8, 2026-2-7 11:52