楼主: zppn123
1847 7

[问答] R抓取网页网格数据咨询 [推广有奖]

  • 1关注
  • 0粉丝

本科生

32%

还不是VIP/贵宾

-

威望
0
论坛币
1 个
通用积分
0
学术水平
0 点
热心指数
1 点
信用等级
0 点
经验
396 点
帖子
40
精华
0
在线时间
118 小时
注册时间
2012-9-25
最后登录
2017-1-27

楼主
zppn123 发表于 2015-9-14 08:53:33 |AI写论文

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币
用R中readHTMLTable函数抓取网页网格数据,抓取的中文老是出现乱码,求指点
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

关键词:数据咨询 Table ABLE HTML READ 中文 网页

回帖推荐

wangluan 发表于3楼  查看完整内容

一般都是因为字符集的问题,你可以试一下,然后再看看 df2[,1]

沙发
zppn123 发表于 2015-9-14 08:54:40
library(XML);
u1<-"http://money.finance.sina.com.cn/corp/go.php/vFD_FinancialGuideLine/stockid/000002/ctrl/2010/displaytype/4.phtml";
df2<-readHTMLTable(u1,header = FALSE,stringsAsFactors=FALSE)[[20]];
大家可以试下

藤椅
wangluan 发表于 2015-9-14 09:42:05
一般都是因为字符集的问题,你可以试一下,然后再看看
df2[,1] <- iconv(df2[,1],"UTF-8","gbk")

板凳
zppn123 发表于 2015-9-14 10:05:33
wangluan 发表于 2015-9-14 09:42
一般都是因为字符集的问题,你可以试一下,然后再看看
df2[,1]
可以了,很感谢,你这样设置是把中文的设置为UTF-8还是gbk了?中文在R中哪种编码不出现乱码?

报纸
zppn123 发表于 2015-9-14 11:40:11
wangluan 发表于 2015-9-14 09:42
一般都是因为字符集的问题,你可以试一下,然后再看看
df2[,1]
????还在吗

地板
万人往LVR 在职认证  发表于 2015-9-14 22:26:39
zppn123 发表于 2015-9-14 10:05
可以了,很感谢,你这样设置是把中文的设置为UTF-8还是gbk了?中文在R中哪种编码不出现乱码?
取决于网页用的哪种编码
通过鼠标右键--网页源代码,查看源代码,在开头几行看到gb2312,所以用gbk可以

7
zppn123 发表于 2015-9-15 08:37:21
万人往LVR 发表于 2015-9-14 22:26
取决于网页用的哪种编码
通过鼠标右键--网页源代码,查看源代码,在开头几行看到gb2312,所以用gbk可以
看到是gb2312,说明该网页是gbk,那抓进R里面为什么还要转为gbk呢?

8
万人往LVR 在职认证  发表于 2015-9-15 10:27:56
zppn123 发表于 2015-9-15 08:37
看到是gb2312,说明该网页是gbk,那抓进R里面为什么还要转为gbk呢?
我不用R做爬虫,不会这个包。应该不是转为gbk,是从gbk解码。

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
加好友,备注cda
拉您进交流群
GMT+8, 2026-1-2 23:32