楼主: away44
4428 9

[问答] 求助,按关键字匹配问题 [推广有奖]

  • 0关注
  • 0粉丝

高中生

2%

还不是VIP/贵宾

-

威望
0
论坛币
0 个
通用积分
0
学术水平
0 点
热心指数
0 点
信用等级
0 点
经验
62 点
帖子
6
精华
0
在线时间
34 小时
注册时间
2013-8-20
最后登录
2016-7-22

楼主
away44 发表于 2016-3-16 14:55:04 |AI写论文

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币
现在有两个数据框,第一个数据框中有一个变量代表节目名,例如:

X1
西游记第19集
2015女足世界杯小组赛
北方剧场:XXXX
.....

第二个数据框有两列,第一列为关键字,第二列为标签,例如:
V1                  V2
西游记            电视剧
北方剧场         电视剧
女足                体育
.......

现在想做的是如下:如果X1的某节目名中包含V1中的某关键字,那么就为之分配相应的标签(V2)。 整理后:

X1                                           X2
西游记第19集                           电视剧
2015女足世界杯小组赛              体育
北方剧场:XXXX                       电视剧

貌似是很简单的一个问题,但用for和grepl写成的循环执行效率低下(关键字数据框大概9w行左右),请大神不吝赐教,
有没有什么高效的解决办法或package?谢谢!
   








二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

关键词:关键字 package 女足世界杯 解决办法 Pack 女足世界杯 西游记 电视剧 关键字 小组赛

沙发
jiangbeilu 学生认证  发表于 2016-3-16 16:03:36
可以先分个类,这个类别肯定不是很多的。问题也可以不用循环的。
以下代码中的sapply后,你再把row.names换一个就可以了
  1. tvlist <- c(paste("西游记第",1:50,"集",sep=""),paste("北方剧场:",letters[1:26],sep=""),
  2. paste("中国女足2015A",1:100,sep=""),"我们不好")

  3. tick <-
  4. function(x){
  5.     if(grepl("西游记|北方剧场",x)){
  6.     return("电视剧")
  7.     } else if(grepl("女足",x)) {
  8.       return("体育")
  9.     } else {return(NA)}
  10.     }
  11. cbind(tvlist,sapply(tvlist,tick))
复制代码
已有 2 人评分经验 学术水平 热心指数 信用等级 收起 理由
李会超 + 100 精彩帖子
away44 + 1 + 1 + 1 精彩帖子

总评分: 经验 + 100  学术水平 + 1  热心指数 + 1  信用等级 + 1   查看全部评分

藤椅
away44 发表于 2016-3-16 17:01:46
jiangbeilu 发表于 2016-3-16 16:03
可以先分个类,这个类别肯定不是很多的。问题也可以不用循环的。
以下代码中的sapply后,你再把row.names换 ...
谢谢,不过就是关键字很多所以才求助的。。8w个

板凳
jiangbeilu 学生认证  发表于 2016-3-16 17:14:15
天啊,电视剧,体育,这种东西,能有8万多啊?这也太开玩笑了吧?
你把相同的归到一类写完就行了。

报纸
away44 发表于 2016-3-16 17:28:32
jiangbeilu 发表于 2016-3-16 17:14
天啊,电视剧,体育,这种东西,能有8万多啊?这也太开玩笑了吧?
你把相同的归到一类写完就行了。
不是,我是说8w关键字(V1),就算相同的写一类,grep里的括号也要撑爆了;标签的确没那么多,也就七八百吧;电视剧体育什么的只是举例子,现实的标签分的特别细。。。所以才效率低下。。。

地板
jiangbeilu 学生认证  发表于 2016-3-16 18:18:18
关键词可以用变量存储的。
分类变量如果有七八百,那么分类的意义也就不明显了。
技术上完全可以实现,因为我们不是专门搞程序的,并不需要十分追求算法效率,能解决问题是我们的首要目的。
只要有关键词对应标签,grep里的东西可以用变量替代的。

7
away44 发表于 2016-3-16 18:41:47
jiangbeilu 发表于 2016-3-16 18:18
关键词可以用变量存储的。
分类变量如果有七八百,那么分类的意义也就不明显了。
技术上完全可以实现,因 ...
七八百的原因是一级标签下面还有二级标签,比如电视剧-都市,情感,喜剧,等等,要按这个方式组合起来,可能还远不止七八百。分类的目的未必是建模,给节目标上标签的意义更为重要。不管怎么说谢谢了~统计人与cs相比,编程能力的确不是强项,不过现实中是很难拿到规整又合心意的数据的,我觉得自己是时候补些编程知识了

8
jiangbeilu 学生认证  发表于 2016-3-16 19:28:09
away44 发表于 2016-3-16 18:41
七八百的原因是一级标签下面还有二级标签,比如电视剧-都市,情感,喜剧,等等,要按这个方式组合起来,可 ...
这个也不全是编程知识,要优化算法,其实是和数学相关的。
做好分类,解决问题的思路清晰,编程只是用来解放人脑计算的工具。

9
李会超 发表于 2016-3-17 10:48:51
> x<-c('李张','王少')
> y<-c('王','李')
> z<-2:3
> a<-data.frame(x)
> b<-data.frame(y,z)
library(sqldf)
sqldf('select a.*,b.* from a,b')
然后再对x,y列进行grepl判断
已有 1 人评分论坛币 学术水平 热心指数 收起 理由
jiangbeilu + 20 + 2 + 2 精彩帖子

总评分: 论坛币 + 20  学术水平 + 2  热心指数 + 2   查看全部评分

10
Stockard 发表于 2016-3-22 21:51:25
away44 发表于 2016-3-16 18:41
七八百的原因是一级标签下面还有二级标签,比如电视剧-都市,情感,喜剧,等等,要按这个方式组合起来,可 ...
我给楼主一个快一点的思路。
去python用pandas,然后用apply方法调用函数,函数写成循环。然后再看看str.contains的用法或者re包
python内部优化做得好,里面有700个循环小case,效率应该比R高很多。
这是一种比较暴力的思路,供参考。
如果你的关键词没有规律,可以这样做。——————
说下这样提议的原因。我曾经也写过那么orz的循环。
大概是10W+的原数据 vs 1400左右的关键词,十五分钟搞掂。
循环效率太低,如果不包括循环,百万级的数据也几秒钟匹配出来。
R毕竟专长是统计,楼主自己计算下需要多少时间,trade off一下。因为我不知道在处理字符上R的效率如何。

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
加好友,备注cda
拉您进交流群
GMT+8, 2026-1-2 08:18