签到
- 苹果/安卓/wp
- 苹果/安卓/wp
客户端
0.0

0.00

人大经济论坛 › 论坛 › 计量经济学与统计论坛五区 › 计量经济学与统计软件 › Stata专版 › 求助！请问如何只删除连在一起的数据？

CDA数据分析研究院

商业数据分析与大数据领航教育品牌



经管云课堂

经管/金融/财会/社科/名师公开课



学术培训

Stata 空间计量 SSCI Python

贵宾：通行论坛特权+数据库权限
+案例库+下载特权 VIP：论坛特权+更多下载次数
+ccerdata数据库+更高阅读权限+……

提升主题| 本版置顶| 关闭主题| 变更主题颜色| 抢沙发| 顶贴| 显身卡| 道具中心

楼主: 虾滑真好吃

362 3

[数据管理求助] 求助！请问如何只删除连在一起的数据？ [推广有奖]

0关注
0粉丝

大专生

25%

还不是VIP/贵宾

-

0%

威望: 0 级
论坛币: 0 个
通用积分: 0
学术水平: 0 点
热心指数: 0 点
信用等级: 0 点
经验: 465 点
帖子: 10
精华: 0
在线时间: 75 小时
注册时间: 2020-3-11
最后登录: 2023-8-3

楼主

虾滑真好吃 发表于 2022-1-24 21:31:40 |只看作者 |坛友微信交流群|倒序 |AI写论文

是否 +2 论坛币

k人参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群

赵安豆老师微信：zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币！

+2 论坛币

大家好，有个数据处理的问题请问大家，具体如下：
前提：我已经按照user_id和request_time进行排序，为某一个user的数据
目前需求：想要把request_time挨在一起的重复出现的sku_id删除只保留一个（比如sku：a864c609d0，在倒数第五行和倒数第四行挨着出现，我只想留下一个，但同时，他也在最后一行和第五航出现，这两个数据是我想保留的）
我已经尝试过duplicates drop user_id sku_id，但是该命令下没有考虑时间时间顺序，比如sku_id为864c609d0的数据，一共出现了3次，用duplicates drop就会只留下一个，因此想请教大家有没有其他方法可以解决？

* Example generated by -dataex-. To install: ssc install dataex
clear
input str10(sku_id user_id) str19 request_time double(click_date click_time)
"e99eb7d131" "ffff831061" "2018-03-03 21:36:17" 21246 1835732177000
"43cdf174ae" "ffff831061" "2018-03-03 21:36:33" 21246 1835732193000
"9a128ffc54" "ffff831061" "2018-03-03 21:37:03" 21246 1835732223000
"246e6ef6fe" "ffff831061" "2018-03-03 21:40:05" 21246 1835732405000
"a864c609d0" "ffff831061" "2018-03-03 21:47:53" 21246 1835732873000
"b65c3ea916" "ffff831061" "2018-03-03 21:49:33" 21246 1835732973000
"d1f9cee99b" "ffff831061" "2018-03-14 14:22:56" 21257 1836656576000
"9ac31152dd" "ffff831061" "2018-03-14 14:25:02" 21257 1836656702000
"d1f9cee99b" "ffff831061" "2018-03-22 06:22:27" 21265 1837318947000
"43cdf174ae" "ffff831061" "2018-03-28 07:05:27" 21271 1837839927000
"e99eb7d131" "ffff831061" "2018-03-28 07:05:32" 21271 1837839932000
"fa43f4c1a1" "ffff831061" "2018-03-28 07:05:45" 21271 1837839945000
"a864c609d0" "ffff831061" "2018-03-28 07:06:06" 21271 1837839966000
"a864c609d0" "ffff831061" "2018-03-28 07:06:09" 21271 1837839969000
"a98e4e1eff" "ffff831061" "2018-03-28 07:06:28" 21271 1837839988000
"9a128ffc54" "ffff831061" "2018-03-28 07:06:32" 21271 1837839992000
"a864c609d0" "ffff831061" "2018-03-28 07:06:52" 21271 1837840012000
end
format %td click_date
format %tc click_time

复制代码

二维码

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

分享0 收藏0 回帖

关键词：在一起 duplicates duplicate generated generate

相关帖子

回复

使用道具举报

沙发

在职认证

发表于 2022-1-25 09:27:48 |只看作者 |坛友微信交流群

是这样吗？

bys user_id (request_time): gen d = _n
bys sku_id (d): gen d1 = (d==d[_n-1]+1)
drop if d1 == 1

复制代码

回复

使用道具举报

藤椅

DΘstinyじò 发表于 2022-1-25 13:26:33 |只看作者 |坛友微信交流群

尝试以下代码：

bys user_id sku_id click_date (request_time): drop if _N>1 & _n<_N

复制代码

代码将同一user_id 下同一sku_id 同一天出现多次request_time的数据视为连续重复，保留下最后一次的数据。
关键需要界定时间间隔，多长时间间隔的视为连续重复需要删除，同一天，同一个小时，还是同一分钟。间隔确定后然后按需要修改。

回复

使用道具举报

板凳

虾滑真好吃 发表于 2022-1-25 18:58:59 |只看作者 |坛友微信交流群

DΘstinyじò 发表于 2022-1-25 13:26
尝试以下代码：

代码将同一user_id 下同一sku_id 同一天出现多次request_time的数据视为连续重复，保 ...

谢谢您！这个方法可行，非常感谢！

回复

使用道具举报

发帖

本版微信群

加好友,备注jltj
拉您入交流群

如有投资本站、合作意向或投放广告，请联系：13661292478（刘老师）

联系客服

邮箱：service@pinggu.org 投诉或不良信息处理：（010-68466864）

京ICP备16021002-2号京B2-20170662号京公网安备 11010802022788号论坛法律顾问：王进律师知识产权保护声明免责及隐私声明