楼主: 雨茗jg
1505 3

[统计软件] R Error in doc_parse_raw input conversion failed due to input error [推广有奖]

  • 0关注
  • 0粉丝

初中生

9%

还不是VIP/贵宾

-

威望
0
论坛币
22 个
通用积分
1.0000
学术水平
0 点
热心指数
0 点
信用等级
0 点
经验
176 点
帖子
5
精华
0
在线时间
12 小时
注册时间
2019-5-16
最后登录
2019-9-11

相似文件 换一批

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币
求助!用R写这个代码的时候遇到了error:
代码:

link<-read_html("https://scholar.google.com/scholar?hl=zh-CN&as_sdt=0%2C5&q=Challenges+in+the+Design+and+Interpretation+of+Noninferiority+Trials&btnG=")


error提示:
Error in doc_parse_raw(x, encoding = encoding, base_url = base_url, as_html = as_html,  :
  input conversion failed due to input error, bytes 0x3C 0x2F 0x74 0x69 [6003]

屏幕快照 2019-07-05 下午5.57.54.png

补充:
我在浏览器中直接复制粘贴网址(即https://scholar.google.com/schol ... ty+Trials&btnG=)是可以正确打开的,网址应该没有问题
那这个error该如何解决?


万分感谢!!
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝


沙发
雨茗jg 发表于 2019-7-5 18:28:39 |只看作者 |坛友微信交流群
还有一个问题
抓取网页“https://www.nejm.org/search?date=custom&toYear=2017&q=2017+AND+%222017%22+AND+2017&fromYear=2017&toMonth=12&fromMonth=1&isAdvancedSearch=true#qs=%3Fdate%3Dcustom%26toYear%3D2017%26requestType%3Dajax%26toMonth%3D12%26isAdvancedSearch%3Dtrue%26q%3D2017%2BAND%2B%25222017%2522%2BAND%2B2017%26fromYear%3D2017%26fromMonth%3D1%26viewClass%3D%26page%3D5%26manualFilterParam%3DcontentAge_delimiter_contentAge_firstDelimiter” (这是第五页)上的内容的时候,总是只能抓取到第一页的内容

(就是每页有20篇论文 但是不管用哪页的网址都只能抓取到第一页的内容 标红数字5就是表示第5页)
比如:
  1. try<-read_html("https://www.nejm.org/search?date=custom&toYear=2017&q=2017+AND+%222017%22+AND+2017&fromYear=2017&toMonth=12&fromMonth=1&isAdvancedSearch=true#qs=%3Fdate%3Dcustom%26toYear%3D2017%26requestType%3Dajax%26toMonth%3D12%26isAdvancedSearch%3Dtrue%26q%3D2017%2BAND%2B%25222017%2522%2BAND%2B2017%26fromYear%3D2017%26fromMonth%3D1%26viewClass%3D%26page%3D4%26manualFilterParam%3DcontentAge_delimiter_contentAge_delimiter_contentAge_delimiter_contentAge_firstDelimiter")
复制代码
  1. trys<-html_nodes(try,'a.js__sliLearn.m-result__link')%>%html_attrs
复制代码




  1. try<-read_html("https://www.nejm.org/search?date=custom&toYear=2017&q=2017+AND+%222017%22+AND+2017&fromYear=2017&toMonth=12&fromMonth=1&isAdvancedSearch=true#qs=%3Fdate%3Dcustom%26toYear%3D2017%26requestType%3Dajax%26toMonth%3D12%26isAdvancedSearch%3Dtrue%26q%3D2017%2BAND%2B%25222017%2522%2BAND%2B2017%26fromYear%3D2017%26fromMonth%3D1%26viewClass%3D%26page%3D5%26manualFilterParam%3DcontentAge_delimiter_contentAge_delimiter_contentAge_firstDelimiter")
复制代码
  1. trys<-html_nodes(try,'a.js__sliLearn.m-result__link')%>%html_attrs
复制代码


应该分别抓取到第5页、第4页的某些数据,但真正抓取到的都是第1页的数据

求问为什么 肿么办
感谢!

使用道具

藤椅
雨茗jg 发表于 2019-7-7 15:20:35 |只看作者 |坛友微信交流群
两个问题我解决了 以防有人遇到一样的问题 我写一下我的解决方法
问题一:google scholar
将网址中“看不懂”的地方都去掉 就可以read_html了 比如我给的例子应该变成
  1. link<-read_html("https://scholar.google.com/scholar?q=Challenges+in+the+Design+and+Interpretation+of+Noninferiority+Trials)
复制代码


问题二:抓取后面几页的数据
每页抓取“后一页”这个按钮的超链接 然后用那个超链接 read_html后一页 然后抓取所需数据

使用道具

板凳
yvyvyvyuan 发表于 2019-7-26 20:44:02 |只看作者 |坛友微信交流群
雨茗jg 发表于 2019-7-7 15:20
两个问题我解决了 以防有人遇到一样的问题 我写一下我的解决方法
问题一:google scholar
将网址中“看不 ...
???楼主说的“看不懂的”是什么意思?看到%这些就删吗?

使用道具

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
加JingGuanBbs
拉您进交流群

京ICP备16021002-2号 京B2-20170662号 京公网安备 11010802022788号 论坛法律顾问:王进律师 知识产权保护声明   免责及隐私声明

GMT+8, 2024-11-9 14:26