楼主: howewill
1170 1

[问答] 字段的智能分段 [推广有奖]

  • 0关注
  • 0粉丝

已卖:1份资源

小学生

78%

还不是VIP/贵宾

-

威望
0
论坛币
62 个
通用积分
0
学术水平
0 点
热心指数
0 点
信用等级
0 点
经验
635 点
帖子
6
精华
0
在线时间
12 小时
注册时间
2017-9-18
最后登录
2019-6-26

楼主
howewill 在职认证  发表于 2017-9-22 16:20:29 |AI写论文

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币
本人刚尝试R软件的网络爬虫,用的的rvest包,遇到一个问题,希望能有大神帮助。
在IT桔子网站(https://www.itjuzi.com/investevents)爬了融资信息,包括“时间”、“公司”、“轮次”、“融资额”、“投资方”。
其中投资方列里,会有几个投资公司一起投,但是直接把几家公司名字合并成一个了: 微信截图_20170922160514.png
源代码是这样的: 2.png
这是爬虫代码:investor <- web%>%html_nodes("div.investorset")%>%html_text()
爬出来结果是这样: 3.png


问题是,可以将这些公司名字分开吗?
ps. 我有想过:1、有没有这样一个函数,常用风险投资公司的名字作为字段库,用该函数将这些公司进行智能分段
                     2、或者,是不是有办法在爬的时候直接将他们分开,用“,”或者用什么其他符号也可以,这样就方便将他们分段了

我的想法不知道行不行,有会的大神,请教我!!!请教我!!
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

关键词:R语言处理过程 字符段 分段 爬虫 rvest

沙发
howewill 在职认证  发表于 2017-9-22 16:26:47
第一次发帖,排版不好。好像额修改不了,希望大家,多多包涵!

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
加好友,备注cda
拉您进交流群
GMT+8, 2026-1-21 02:09