| 所在主题: | |
| 文件名: Sample Data.pdf | |
| 资料下载链接地址: https://bbs.pinggu.org/a-6316296.html | |
| 附件大小: | |
|
楼主最近遇到一个数据处理和整合问题,具体请看附件里的 数据表和说明。
简单来说呢,就是附件里的左边表格是原始样本数据。 右边的表格是要实现的结果表格。 我们把原始数据叫做 dataset_1 那么想要的数据叫做 final_output。 首先是把这些人的ID 选出符合条件的。条件是每个ID的第一个start date 必须是在 2020年1月1日以后发生的就是疫情开始后的才算数。如果有的ID 的第一个 start date 是2019年10月发生的,那么不论他是否有2020年以后发生的start date,他所有的数据都该被剔除。 还有就是service count 就是服务统计。 想要实现的结果表格就是统计符合条件的人的服务的。 比如ID 009 的第一个start date 是4/9/2020 那么他就符合条件。 如果他后来又有三个服务日期分别发生在 9/2/2020, 11/5/2020, 和5/11/2021 那么就应该这样统筹到结果表格里。 比如Month 1 意味着 Day 1-30 也就是 4/9/2020 - 5/8/2020 期内发生的任何服务都算在Month 1的里面。 那么9/2/2020 是发生在 9/9/2020 - 10/8/2020 之间,那么这该算作 Month 6里面因为是在 Day 151-180 期内发生的。 但是 11/5/2020 是发生在 11/9/2020 - 12/8/2020 之间, 这个算做 Month 8 里面。我想要的表格里不关心Month 8 所以这个服务虽然是符合条件的,但是不必统计到结果表格里。 还有5/11/2021 是发生在 一年以后也就是 Month 12+ 那么这个只要是超过Day 365 的都算作一起,归纳到 Month 12+ 里即可。 金币不够,可以再加。 请把代码发到评论里。 谢谢支持。 |
|
熟悉论坛请点击新手指南
|
|
| 下载说明 | |
|
1、论坛支持迅雷和网际快车等p2p多线程软件下载,请在上面选择下载通道单击右健下载即可。 2、论坛会定期自动批量更新下载地址,所以请不要浪费时间盗链论坛资源,盗链地址会很快失效。 3、本站为非盈利性质的学术交流网站,鼓励和保护原创作品,拒绝未经版权人许可的上传行为。本站如接到版权人发出的合格侵权通知,将积极的采取必要措施;同时,本站也将在技术手段和能力范围内,履行版权保护的注意义务。 (如有侵权,欢迎举报) |
|
京ICP备16021002号-2 京B2-20170662号
京公网安备 11010802022788号
论坛法律顾问:王进律师
知识产权保护声明
免责及隐私声明