楼主: wqf_cufe
12133 41

[有偿编程] 求助用R进行融资融券数据的网页抓取 [推广有奖]

11
wqf_cufe 发表于 2015-1-8 07:35:39
daishen 发表于 2015-1-8 06:20
网站的问题,编辑后还是那样
能否麻烦您再帮我看看我更新的第三个网站的一个抓取,很简单,就一个数据。谢谢

12
daishen 发表于 2015-1-8 10:29:18
两个错误:
1、ticker <- "sh600031"
2、日期那个规则表达式是这样的 str_extract(dat[i,1],"\\d{4}-\\d{2}-\\d{2}"))

13
wqf_cufe 发表于 2015-1-8 10:33:46
dataorz 发表于 2015-1-8 09:41
网页1前5页

require(RCurl)
我这里报错了,我修改的code如下:
  1. require(RCurl)
  2. require(rjson)
  3. library(stringr)   # for str_pad
  4. require(ggplot2)

  5. ticker1 <- "2"
  6. ticker2 <- "000898"
  7. code <- "&code="

  8. web0 <- paste(ticker1,code,sep="")
  9. web1 <- paste(web0,ticker2,sep="")
  10. web2 <- "http://datainterface.eastmoney.com/EM_DataCenter/JS.aspx?type=FD&sty=MTE&mkt="
  11. web3 <- paste(web2,web1,sep="")

  12. cURL <- paste(web3,1:5,sep="")


  13. fdjson <- getURL(cURL)
  14. fdjson1 <- substr(fdjson,2,nchar(fdjson)-1)
  15. fdlist <- sapply(fdjson1,fromJSON)
  16. fdlist <- strsplit(fdlist,",")
  17. fdm <- matrix(unlist(fdlist),ncol=13,byrow=T)
  18. rzrq <- data.frame(fdm1$X5,fdm1$X10,fdm1$X11,fdm1$X13)
复制代码

14
wqf_cufe 发表于 2015-1-8 10:39:34
daishen 发表于 2015-1-8 10:29
两个错误:
1、ticker
恩,好了,但是成交量和成交额改成dat[,6] = sapply(1:nrow(dat),function(i) str_extract(dat[i,6],"\\d{4}-\\d{2}-\\d{2}"))
dat[,7] = sapply(1:nrow(dat),function(i) str_extract(dat[i,7],"\\d{4}-\\d{2}-\\d{2}"))
就显示NA,咋办?

15
dataorz 发表于 2015-1-8 10:55:52
网页 2
u = "http://app.finance.ifeng.com/hq/stock_daily.php?code=sh600030"
url = htmlParse(u, encoding="utf-8")
tbls = readHTMLTable(u)
tbls

16
wqf_cufe 发表于 2015-1-8 11:03:58
dataorz 发表于 2015-1-8 10:55
网页 2
u = "http://app.finance.ifeng.com/hq/stock_daily.php?code=sh600030"
url = htmlParse(u, enco ...
网页3呢?谢谢!!!

17
wqf_cufe 发表于 2015-1-8 11:15:23
dataorz 发表于 2015-1-8 10:55
网页 2
u = "http://app.finance.ifeng.com/hq/stock_daily.php?code=sh600030"
url = htmlParse(u, enco ...
您这里面的成交额后面的乱码怎么去掉呢?

18
daishen 发表于 2015-1-8 11:34:06
wqf_cufe 发表于 2015-1-8 10:39
恩,好了,但是成交量和成交额改成dat[,6] = sapply(1:nrow(dat),function(i) str_extract(dat,"\\d{4}-\ ...
只需该日期就行了,成交量和成交额是对的,不用改。

19
dataorz 发表于 2015-1-8 13:40:23
网页3
require(XML)
u <- "http://stockdata.stock.hexun.com/600030.shtml"
url <-htmlParse(u)
xmlValue(getNodeSet(url,"//td[@class='tb2_new']")[[10]])

20
wqf_cufe 发表于 2015-1-8 14:13:24
daishen 发表于 2015-1-8 11:34
只需该日期就行了,成交量和成交额是对的,不用改。
成交量和成交额后面都是乱码,怎么办?

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
加好友,备注cda
拉您进交流群
GMT+8, 2025-12-30 10:30