楼主: wanyanwayne
2261 0

[问答] R语言爬虫翻页问题 [推广有奖]

  • 0关注
  • 0粉丝

等待验证会员

小学生

42%

还不是VIP/贵宾

-

威望
0
论坛币
0 个
通用积分
0
学术水平
0 点
热心指数
0 点
信用等级
0 点
经验
46 点
帖子
4
精华
0
在线时间
6 小时
注册时间
2016-7-25
最后登录
2018-1-25

楼主
wanyanwayne 发表于 2017-5-3 17:42:31 |AI写论文

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币
之前从网上爬了几个网站的数据,现在遇到一些问题,
导致不好翻页,类似于:
<a href='#' onclick='javascript:go(maxPage);return false;'>
求解!

网站翻页部分的源代码如下:


        <div class="pages"><p><table><tr><td nowrap><a href='/gskb/index.shtml'>首页</a>&nbsp;<a href='#' onclick='javascript:if(!isIndex){go(curPage-1)};return false;'>上一页</a>&nbsp;<a href='#' onclick='javascript:go(curPage+1);return false;'>下一页</a>&nbsp;<a href='#' onclick='javascript:go(maxPage);return false;'>末页</a>&nbsp;
<span id="pagingIndex"></span>&nbsp;&nbsp;转到&nbsp;<input name="pagenav" id="pagenav" type="text" size="2">&nbsp;页 <a href="#">Go</a>
<script language="JavaScript">
        var indexUrl = '/gskb/index.shtml';
        var docUrl = document.location.href;
        var maxPage = 1270;
        var curPage = 1;
        var isIndex = false;
        var showPages = 100;
        var end = docUrl.lastIndexOf("/");
        if(end > 0){
                var realDocUrl = docUrl.substring(end);
                var lastToken = realDocUrl.lastIndexOf("_");
                var lastSuffix = realDocUrl.lastIndexOf(".shtml");
                if( (realDocUrl)!= indexUrl && lastToken>0 && lastSuffix >0 && lastSuffix > lastToken ){
                        curPage = realDocUrl.substring(lastToken+1,lastSuffix);
                        curPage = maxPage-curPage+1;
                }else{
                        isIndex = true;
                }
        }
        if(isNaN(curPage)){
                curPage = 1;
        }
        var index = "<span><b>"+curPage+"/"+(maxPage>showPages?showPages:maxPage)+"</b></span>";
        document.getElementById("pagingIndex").innerHTML=index;
        function go(page){
                try{
                var baseUrl = '/gskb/index';
                //var page = document.getElementById("pagenav").value;
                var url = '';
                        if (page >0&&page <=showPages){
                                page = maxPage - page+1;
                                if(page <= 0 || page == maxPage ){
                                        url = indexUrl;;                       
                                }else{
                                        url = baseUrl+'_'+page+'.shtml';                       
                                }
                                document.location.href=url;
                                return true;
                        }else if(page == maxPage){
                                if(maxPage > showPages){
                                        url = baseUrl+'_'+(maxPage-showPages+1)+'.shtml';                       
                                }else{
                                        url = baseUrl+'_1.shtml';                       
                                }
                                document.location.href=url;
                                return true;
                        }else{
                                return false;
                        }
                        }catch(e){
                                alert("Sorry:"+e);
                        }
                return false;
        }
</script>
</td></tr></table></p></div>


二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

关键词:R语言 substring Document Location function 爬虫

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
加好友,备注cda
拉您进交流群
GMT+8, 2026-1-25 12:09