求助，按关键字匹配问题

0关注
0粉丝

高中生

2%

还不是VIP/贵宾

-

0%

威望: 0 级
论坛币: 0 个
通用积分: 0
学术水平: 0 点
热心指数: 0 点
信用等级: 0 点
经验: 62 点
帖子: 6
精华: 0
在线时间: 34 小时
注册时间: 2013-8-20
最后登录: 2016-7-22

楼主

away44 发表于 2016-3-16 14:55:04 |AI写论文

是否 +2 论坛币

k人参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群

赵安豆老师微信：zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

立即领取

感谢您参与论坛问题回答

经管之家送您两个论坛币！

+2 论坛币

现在有两个数据框，第一个数据框中有一个变量代表节目名，例如：

X1
西游记第19集
2015女足世界杯小组赛
北方剧场：XXXX
.....

第二个数据框有两列，第一列为关键字，第二列为标签，例如：
V1                V2
西游记          电视剧
北方剧场       电视剧
女足             体育
.......

现在想做的是如下：如果X1的某节目名中包含V1中的某关键字，那么就为之分配相应的标签（V2)。整理后：

X1                                        X2
西游记第19集                         电视剧
2015女足世界杯小组赛             体育
北方剧场：XXXX                      电视剧

貌似是很简单的一个问题，但用for和grepl写成的循环执行效率低下（关键字数据框大概9w行左右），请大神不吝赐教，
有没有什么高效的解决办法或package？谢谢！

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

分享0 收藏1 回帖

关键词：关键字 package 女足世界杯解决办法 Pack 女足世界杯西游记电视剧关键字小组赛

相关帖子

沙发

jiangbeilu

发表于 2016-3-16 16:03:36

可以先分个类，这个类别肯定不是很多的。问题也可以不用循环的。
以下代码中的sapply后，你再把row.names换一个就可以了

tvlist <- c(paste("西游记第",1:50,"集",sep=""),paste("北方剧场：",letters[1:26],sep=""),
paste("中国女足2015A",1:100,sep=""),"我们不好")
tick <-
function(x){
if(grepl("西游记|北方剧场",x)){
return("电视剧")
} else if(grepl("女足",x)) {
return("体育")
} else {return(NA)}
}
cbind(tvlist,sapply(tvlist,tick))

复制代码

已有 2 人评分	经验	学术水平	热心指数	信用等级	收起理由
李会超	+ 100				精彩帖子
away44		+ 1	+ 1	+ 1	精彩帖子

总评分: 经验 + 100 学术水平 + 1 热心指数 + 1 信用等级 + 1 查看全部评分

藤椅

away44 发表于 2016-3-16 17:01:46

jiangbeilu 发表于 2016-3-16 16:03
可以先分个类，这个类别肯定不是很多的。问题也可以不用循环的。
以下代码中的sapply后，你再把row.names换 ...

谢谢，不过就是关键字很多所以才求助的。。8w个

板凳

jiangbeilu

发表于 2016-3-16 17:14:15

天啊，电视剧，体育，这种东西，能有8万多啊？这也太开玩笑了吧？
你把相同的归到一类写完就行了。

报纸

away44 发表于 2016-3-16 17:28:32

jiangbeilu 发表于 2016-3-16 17:14
天啊，电视剧，体育，这种东西，能有8万多啊？这也太开玩笑了吧？
你把相同的归到一类写完就行了。

不是，我是说8w关键字（V1），就算相同的写一类，grep里的括号也要撑爆了；标签的确没那么多，也就七八百吧；电视剧体育什么的只是举例子，现实的标签分的特别细。。。所以才效率低下。。。

地板

jiangbeilu

发表于 2016-3-16 18:18:18

关键词可以用变量存储的。
分类变量如果有七八百，那么分类的意义也就不明显了。
技术上完全可以实现，因为我们不是专门搞程序的，并不需要十分追求算法效率，能解决问题是我们的首要目的。
只要有关键词对应标签，grep里的东西可以用变量替代的。

7楼

away44 发表于 2016-3-16 18:41:47

jiangbeilu 发表于 2016-3-16 18:18
关键词可以用变量存储的。
分类变量如果有七八百，那么分类的意义也就不明显了。
技术上完全可以实现，因 ...

七八百的原因是一级标签下面还有二级标签，比如电视剧-都市，情感，喜剧，等等，要按这个方式组合起来，可能还远不止七八百。分类的目的未必是建模，给节目标上标签的意义更为重要。不管怎么说谢谢了~统计人与cs相比，编程能力的确不是强项，不过现实中是很难拿到规整又合心意的数据的，我觉得自己是时候补些编程知识了

8楼

jiangbeilu

发表于 2016-3-16 19:28:09

away44 发表于 2016-3-16 18:41
七八百的原因是一级标签下面还有二级标签，比如电视剧-都市，情感，喜剧，等等，要按这个方式组合起来，可 ...

这个也不全是编程知识，要优化算法，其实是和数学相关的。
做好分类，解决问题的思路清晰，编程只是用来解放人脑计算的工具。

9楼

李会超 发表于 2016-3-17 10:48:51

> x<-c('李张','王少')
> y<-c('王','李')
> z<-2:3
> a<-data.frame(x)
> b<-data.frame(y,z)
library(sqldf)
sqldf('select a.*,b.* from a,b')
然后再对x,y列进行grepl判断

已有 1 人评分	论坛币	学术水平	热心指数	收起理由
jiangbeilu	+ 20	+ 2	+ 2	精彩帖子

总评分: 论坛币 + 20 学术水平 + 2 热心指数 + 2 查看全部评分

10楼

Stockard 发表于 2016-3-22 21:51:25

away44 发表于 2016-3-16 18:41
七八百的原因是一级标签下面还有二级标签，比如电视剧-都市，情感，喜剧，等等，要按这个方式组合起来，可 ...

我给楼主一个快一点的思路。
去python用pandas，然后用apply方法调用函数，函数写成循环。然后再看看str.contains的用法或者re包
python内部优化做得好，里面有700个循环小case，效率应该比R高很多。
这是一种比较暴力的思路，供参考。
如果你的关键词没有规律，可以这样做。——————
说下这样提议的原因。我曾经也写过那么orz的循环。
大概是10W＋的原数据 vs 1400左右的关键词，十五分钟搞掂。
循环效率太低，如果不包括循环，百万级的数据也几秒钟匹配出来。
R毕竟专长是统计，楼主自己计算下需要多少时间，trade off一下。因为我不知道在处理字符上R的效率如何。

[问答] 求助，按关键字匹配问题 [推广有奖]

经管之家送您一份

经管之家联合CDA

感谢您参与论坛问题回答

扫码加我拉你入群

相关帖子

浏览过的帖子

浏览过的版块

初级热心勋章

中级热心勋章

初级信用勋章

初级学术勋章

中级信用勋章

高级热心勋章

本版微信群

[问答] 求助，按关键字匹配问题 [推广有奖]

经管之家送您一份

经管之家联合CDA

感谢您参与论坛问题回答

扫码加我 拉你入群

相关帖子

浏览过的帖子

浏览过的版块

初级热心勋章

中级热心勋章

初级信用勋章

初级学术勋章

中级信用勋章

高级热心勋章

本版微信群

扫码加我拉你入群