1289 9

[实际应用] 数据清洗的一个问题 [推广有奖]

  • 0关注
  • 1粉丝

本科生

0%

还不是VIP/贵宾

-

威望
0
论坛币
259 个
通用积分
0
学术水平
0 点
热心指数
0 点
信用等级
0 点
经验
499 点
帖子
19
精华
0
在线时间
109 小时
注册时间
2016-3-10
最后登录
2020-11-18

66论坛币
问题描述: 数据集给出了CCTV-1的节目播放时间的数据,但是实际上,有的播放时间显示的电视节目名称是错误的,如何把错误的节目名称修正为真正的“该时段播放的电视节目名称”。
我自己的方法:把数据中CCTV-1所有时段的电视节目名称与播放时间都找出来,然后一一对应去修改。
缺点:比较繁琐,而且不准确(PS:因为找时间段的时候不知道怎么精确得出数据,都靠眼睛看图_捂脸)
附件:ch1
忘记设置悬赏了,不好意思,再发一遍

关键词:节目名称 电视节目 一一对应 问题描述 时间段

回帖推荐

jgchen1966 发表于7楼  查看完整内容

问题似没有说清楚: IDnumber是如何产生的??有意义吗? when 是节目开始时间,还是结束时间?? duration,又是何单位,节目持续的秒数? 除节目名有错外,when 不会错?? 比如,新闻联播 都知19:00:00 准时开播,没意外,19:30:00 结束,但数集中,没有一个如此的!!

Whig 发表于4楼  查看完整内容

按照播出时间进行分组行不行?相同时间段内,且出现次数最多的应该就是正确的节目吧。
沙发
jalonso 发表于 2018-11-19 11:14:45 |只看作者 |坛友微信交流群
有的播放时间显示的电视节目名称是错误的,如何把错误的节目名称修正为真正的“该时段播放的电视节目名称”
按照您的描述,首先是需要知道什么是正确的标签,因为没有正确的标签也没法判断是吧。假设你有了正确的标签,例如:“21:40:02,CCTV-1,阳光路上” 那么你就可以做一个判断:在21:40产生的“showname”是不是=“阳光路上”,如果不是,替换成“阳光路上”,提供一个解决思路,不知道这样可不可以
已有 1 人评分论坛币 收起 理由
cheetahfly + 10 热心帮助其他会员

总评分: 论坛币 + 10   查看全部评分

使用道具

藤椅
谁肯惠双鱼8 发表于 2018-11-20 20:12:23 |只看作者 |坛友微信交流群
jalonso 发表于 2018-11-19 11:14
按照您的描述,首先是需要知道什么是正确的标签,因为没有正确的标签也没法判断是吧。假设你有了正确的标 ...
我现在就是这么做的,但是做起来比较麻烦,我有177个频道的数据。如果都这样做,感觉有点复杂啊。有没有什么简单易操作的办法?最好能自动处理的。

使用道具

板凳
Whig 在职认证  发表于 2018-11-20 21:23:04 |只看作者 |坛友微信交流群
按照播出时间进行分组行不行?相同时间段内,且出现次数最多的应该就是正确的节目吧。
已有 1 人评分论坛币 收起 理由
cheetahfly + 10 热心帮助其他会员

总评分: 论坛币 + 10   查看全部评分

使用道具

报纸
Whig 在职认证  发表于 2018-11-20 21:24:10 |只看作者 |坛友微信交流群
按照播放时间进行分组行不行?同一组内且次数最多的应该是正确的吧

使用道具

地板
Whig 在职认证  发表于 2018-11-20 21:25:15 |只看作者 |坛友微信交流群
谁肯惠双鱼8 发表于 2018-11-20 20:12
我现在就是这么做的,但是做起来比较麻烦,我有177个频道的数据。如果都这样做,感觉有点复杂啊。有没有什 ...
按照时间进行分组

使用道具

7
jgchen1966 发表于 2018-11-20 22:50:35 |只看作者 |坛友微信交流群
问题似没有说清楚:
  IDnumber是如何产生的??有意义吗?
  when 是节目开始时间,还是结束时间??
  duration,又是何单位,节目持续的秒数?
    除节目名有错外,when 不会错?? 比如,新闻联播  都知19:00:00 准时开播,没意外,19:30:00 结束,但数集中,没有一个如此的!!

使用道具

8
谁肯惠双鱼8 发表于 2018-11-21 09:03:37 |只看作者 |坛友微信交流群
Whig 发表于 2018-11-20 21:23
按照播出时间进行分组行不行?相同时间段内,且出现次数最多的应该就是正确的节目吧。
我现在处理的过程是:按照一天24小时分组——基本可以判断出每个时间段的电视节目,然后也可以得出每个节目最早开始时间和最晚结束时间。虽然有的节目横跨了两个组,不过还是能分辨出来。
问题就是:操作起来特别麻烦。我要是把这个练习数据全修改完,估计得一个月

使用道具

9
谁肯惠双鱼8 发表于 2018-11-21 09:10:41 |只看作者 |坛友微信交流群
jgchen1966 发表于 2018-11-20 22:50
问题似没有说清楚:
  IDnumber是如何产生的??有意义吗?
  when 是节目开始时间,还是结束时间??
老实说,这个数据其实原来连分组名称都没有。别人给我的练习数据。名称都是自己起的以便区分
IDnumber是用户id
when是用户开始看电视的时间(如果刚好播放某电视节目,就是其开始看的时间,所以没有一个数据是准时开播的)
duration是从开始看某个节目到换台的持续时间
原则上认为when没有错误,不过我也检验了其连续性以及剔除了不符合24小时规则的数据。

使用道具

10
jgchen1966 发表于 2018-11-21 09:42:09 |只看作者 |坛友微信交流群
谁肯惠双鱼8 发表于 2018-11-21 09:10
老实说,这个数据其实原来连分组名称都没有。别人给我的练习数据。名称都是自己起的以便区分
IDnumber是 ...
此问题的数集信息不足,难以自动程序化。。
既使按时间分组段,但CCTV-1每天在相同时间段,也不一定播放相同节目,
如工作日,20:00后一般播放电视剧,但周未就播放娱乐节目,但数集中没有日期
要想自动,必须去图书馆,找同时间电视台的节目单。。。
已有 1 人评分学术水平 收起 理由
jiangbeilu + 1 精彩帖子

总评分: 学术水平 + 1   查看全部评分

使用道具

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
加好友,备注cda
拉您进交流群

京ICP备16021002-2号 京B2-20170662号 京公网安备 11010802022788号 论坛法律顾问:王进律师 知识产权保护声明   免责及隐私声明

GMT+8, 2024-5-18 06:35