- 阅读权限
- 255
- 威望
- 0 级
- 论坛币
- 5143 个
- 通用积分
- 7.8889
- 学术水平
- 0 点
- 热心指数
- 3 点
- 信用等级
- 0 点
- 经验
- 7801 点
- 帖子
- 217
- 精华
- 0
- 在线时间
- 417 小时
- 注册时间
- 2007-8-29
- 最后登录
- 2024-4-11
讲师
还不是VIP/贵宾
- 威望
- 0 级
- 论坛币
- 5143 个
- 通用积分
- 7.8889
- 学术水平
- 0 点
- 热心指数
- 3 点
- 信用等级
- 0 点
- 经验
- 7801 点
- 帖子
- 217
- 精华
- 0
- 在线时间
- 417 小时
- 注册时间
- 2007-8-29
- 最后登录
- 2024-4-11
|
500论坛币
目的:在数据集1中填补value值,value根据数据集2规则来填充
要点:3个关键变量:1.gender;2.age在age_min和age_max范围内(数据集2中age_min和age_max缺失则代表适用于所有age);3.time在time_min和time_max范围内(数据集2中time_max缺失则代表无限制)。
忽略name名(注意:同一name在不同cen中,value是不一样的),仅是举例。
数据集1,如下结构(gender实际取值仅有1和2):
cen | name | no | time | age | gender | value | 01 | 啊啊 | 1 | 2017/12/13 | 60 | 1 | . | 08 | 阿布 | 8 | 2018/12/13 | 48 | 2 | . | 08 | 阿布 | 9 | 2018/12/14 | 67 | 2 | . | 04 | 不得不 | 100 | 2019/1/15 | 34 | 1 | . |
数据集2,如下结构(gender=0时代表该value数值适用于gender=1及gender=2)
cen | name | time_min | time_max | age_min | age_max | gender | value | 01 | 啊啊 | 2017/12/11 | | | | 0 | 0.77 | 03 | 啊啊 | 2018/4/18 | | | | 0 | 0.77 | 03 | 阿布 | 2018/4/18 | | | | 2 | 5 | 04 | 阿布 | 2018/5/28 | | | | 2 | 5.3 | 04 | 阿布 | 2018/5/28 | | | | 2 | 8.3 | 05 | 阿布 | 2018/7/4 | | | | 2 | 3.809999 | 07 | 阿布 | 2015/9/1 | | | | 2 | 5.0 | 08 | 阿布 | 2018/7/3 | | 0 | 49 | 2 | 3 | 08 | 阿布 | 2018/7/3 | | 50 | 150 | 2 | 6 | 07 | 表达 | 2015/9/1 | | | | 0 | 1 | 08 | 表达 | 2018/7/3 | | | | 0 | <1 | 01 | 不得不 | 2017/12/11 | | | | 0 | 55.0 | 02 | 不得不 | 2018/3/8 | | | | 0 | 55.0 | 03 | 不得不 | 2018/4/18 | | | | 0 | 55 | 04 | 不得不 | 2018/5/28 | 2019/1/13 | | 0 | 48 | 04 | 不得不 | 2019/1/14 | | | | 0 | 55 |
|
|