搜索
人大经济论坛 附件下载

附件下载

所在主题:
文件名:  Sample Data.pdf
资料下载链接地址: https://bbs.pinggu.org/a-6316296.html
附件大小:
27.46 KB   举报本内容
楼主最近遇到一个数据处理和整合问题,具体请看附件里的 数据表和说明。
简单来说呢,就是附件里的左边表格是原始样本数据。 右边的表格是要实现的结果表格。

我们把原始数据叫做 dataset_1 那么想要的数据叫做 final_output。

首先是把这些人的ID 选出符合条件的。条件是每个ID的第一个start date 必须是在 2020年1月1日以后发生的就是疫情开始后的才算数。如果有的ID 的第一个 start date 是2019年10月发生的,那么不论他是否有2020年以后发生的start date,他所有的数据都该被剔除。

还有就是service count 就是服务统计。 想要实现的结果表格就是统计符合条件的人的服务的。 比如ID 009 的第一个start date 是4/9/2020 那么他就符合条件。 如果他后来又有三个服务日期分别发生在 9/2/2020, 11/5/2020, 和5/11/2021 那么就应该这样统筹到结果表格里。

比如Month 1 意味着 Day 1-30 也就是 4/9/2020 - 5/8/2020 期内发生的任何服务都算在Month 1的里面。

那么9/2/2020 是发生在 9/9/2020 - 10/8/2020 之间,那么这该算作 Month 6里面因为是在 Day 151-180 期内发生的。

但是 11/5/2020 是发生在 11/9/2020 - 12/8/2020 之间, 这个算做 Month 8 里面。我想要的表格里不关心Month 8 所以这个服务虽然是符合条件的,但是不必统计到结果表格里。

还有5/11/2021 是发生在 一年以后也就是 Month 12+ 那么这个只要是超过Day 365 的都算作一起,归纳到 Month 12+ 里即可。

金币不够,可以再加。 请把代码发到评论里。 谢谢支持。



    熟悉论坛请点击新手指南
下载说明
1、论坛支持迅雷和网际快车等p2p多线程软件下载,请在上面选择下载通道单击右健下载即可。
2、论坛会定期自动批量更新下载地址,所以请不要浪费时间盗链论坛资源,盗链地址会很快失效。
3、本站为非盈利性质的学术交流网站,鼓励和保护原创作品,拒绝未经版权人许可的上传行为。本站如接到版权人发出的合格侵权通知,将积极的采取必要措施;同时,本站也将在技术手段和能力范围内,履行版权保护的注意义务。
(如有侵权,欢迎举报)
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

GMT+8, 2025-12-29 06:34