楼主: 18174715760
1657 2

[问答] 求教关于数据清理的问题 [推广有奖]

  • 0关注
  • 0粉丝

本科生

25%

还不是VIP/贵宾

-

威望
0
论坛币
7 个
通用积分
0.8141
学术水平
0 点
热心指数
0 点
信用等级
0 点
经验
3171 点
帖子
51
精华
0
在线时间
89 小时
注册时间
2022-3-8
最后登录
2025-4-25

楼主
18174715760 发表于 2022-5-12 12:20:11 |AI写论文

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币
求教呀~~~

图1 是在线酒店的功能属性的一些变量, 为了跟图2的每年的收益、入住率等变量cbind在一起,我需要先将图1转化成按年分的形式(现在是一个酒店id号只对应一个观测值)。我的计划是按照host_since来分,host_since<=2019为2019年的,host_since<=2020为2020年的, host_since<=2021为2021年的,分好之后再跟图2 的数据集根据id和year两个变量,合并在一起,这可以怎么操作呢?



截图20220512120550.png
截图20220512120616.png



二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

关键词:数据清理 Since host bind HOS

回帖推荐

llb_321 发表于2楼  查看完整内容

考虑: 1、您的三个划分标准,有重叠; 2、需要分组吧,比如用host_id; 3、划分年度后,需要统计哪个变量作为年度数据。 明确后: 1、变量host_since可能需要转为POSIXct时间格式,即可计算; 2、可以考虑cut()函数,也可以用group_by()函数分组; 3、分组、统计,可以参考之前的代码; 4、统计后,可以用left_join()函数,与另一个数据集建立连接。 具体可以参考:《R数据科学》中文版第3章、第9章。

沙发
llb_321 在职认证  发表于 2022-5-12 14:05:34
考虑:
1、您的三个划分标准,有重叠;
2、需要分组吧,比如用host_id;
3、划分年度后,需要统计哪个变量作为年度数据。
明确后:
1、变量host_since可能需要转为POSIXct时间格式,即可计算;
2、可以考虑cut()函数,也可以用group_by()函数分组;
3、分组、统计,可以参考之前的代码;
4、统计后,可以用left_join()函数,与另一个数据集建立连接。
具体可以参考:《R数据科学》中文版第3章、第9章。
已有 2 人评分论坛币 收起 理由
jiangbeilu + 10 精彩帖子
cheetahfly + 10 热心帮助其他会员

总评分: 论坛币 + 20   查看全部评分

藤椅
18174715760 发表于 2022-5-12 14:56:12
llb_321 发表于 2022-5-12 14:05
考虑:
1、您的三个划分标准,有重叠;
2、需要分组吧,比如用host_id;
谢谢呀,我大概清楚这个思路了,我找这本书来看看

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
加好友,备注cda
拉您进交流群
GMT+8, 2025-12-31 20:35