楼主: chenjieren
40303 468

[原创博文] 完整程序教你怎样利用SAS抓取网页内容   [推广有奖]

  • 0关注
  • 12粉丝

副教授

22%

还不是VIP/贵宾

-

威望
0
论坛币
241 个
通用积分
1.1761
学术水平
13 点
热心指数
20 点
信用等级
7 点
经验
1330 点
帖子
62
精华
0
在线时间
1350 小时
注册时间
2007-7-21
最后登录
2013-8-14

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币
背景:
搜索引擎对网站的收录,会影响到网站SEO,而目前没找到什么好的工具来统计被收录的情况,也不会其他程序来写爬出,将就着用sas来写(实在大材小用了)。

提取的主要字段:
-URL---页面Title---收录更新时间---排列顺序---URL分类-

下面是代码(后面一部分可直接忽略):

*========================================================================
百度收录情况统计:
1.根据百度搜索结果源代码,提取其中搜索结果;
2.再统计相关页面的收录情况,及新增和删除页面情况;
3.再以文本文件形式发邮件。

-创建时间---创建人--------------
2011-08-25  ****

-更新时间---更新人---说明-----
2011-09-14  ****    页面类型处理上使用正则表达式函数处理
2011-09-28  ****    解决头一天未提取收录,比较新增和丢弃的页面比较日期至最近一次提取的数据

-说明---
本程序用于提取百度对网站的收录情况统计,为SEO提供参考,如果网站主要页面(如产品页)未被收录,
需要寻找原因(例如页面相似度太高)以改进。

========================================================================;

options mprint mlogic symbolgen;
%let basicn=100;

%macro _shoulu(website=,dslib=,dsout=);
%*--------------------------------
宏变量:website 格式yoursite.com,百度查询参数为"site:yoursite.com"
       dsout   格式&dslib..yoursite_yymmdd,yymmdd为每次抓取百度搜索结果的日期
说明: pn,rn为百度查询参数,与SAS宏变量无关
*--------------------------------;
filename baidu url "http://www.mysas.net";

%*抓取收录的总数量,用于控制读取的页面数;
data _null_;
    infile baidu length=len lrecl=5000;
    input _t1 $varying5000. len;
    if substr(_t1,1,13)='<p id="page">';
    total=compress(scan(scan(_t1,-3,">"),-2,"<"),"找到相关结果个约,");
    call symput("total",total);
run;
%put total number searched=&total;
%let n=%eval(&total/&basicn+1);
%put n=&n;

%*利用循环读取百度查询结果的下一页;
%do i=1 %to &n;
%if &i=1 %then %let pnum=0;
%else %let pnum=%eval(%eval(&i-1)*&basicn);
%put pn=&pnum;
%*每次查询结果设为100(参数rn=100);
filename baidu url "http://www.mysas.net";
......

剩余源程序如下:

本帖隐藏的内容

http://www.mysas.net/sns/index.php?app=blog&mod=Index&act=show&id=1875&mid=43





二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

关键词:filename compress website varying options 网页

已有 1 人评分论坛币 学术水平 热心指数 信用等级 收起 理由
Tigflanker + 5 + 4 + 3 + 2 观点有启发

总评分: 论坛币 + 5  学术水平 + 4  热心指数 + 3  信用等级 + 2   查看全部评分

本帖被以下文库推荐

沙发
雨也哭了 发表于 2011-10-30 09:47:34 |只看作者 |坛友微信交流群
好帖子!顶一个先!

使用道具

匿名网友
藤椅
匿名网友  发表于 2011-10-30 13:36:57 |坛友微信交流群

使用道具

板凳
cricke 发表于 2011-10-30 16:25:17 |只看作者 |坛友微信交流群
看看

使用道具

报纸
numman 发表于 2011-10-30 17:36:16 |只看作者 |坛友微信交流群
楼主敢换个名字吧。 还好您补了出处。。

使用道具

地板
可~乐 发表于 2011-10-30 20:47:30 |只看作者 |坛友微信交流群
学习ing

使用道具

7
Bridgenc 发表于 2011-10-30 22:06:19 |只看作者 |坛友微信交流群
take a look

使用道具

8
Bridgenc 发表于 2011-10-30 22:09:18 |只看作者 |坛友微信交流群
That is a good one

使用道具

9
denver 发表于 2011-10-30 23:11:32 |只看作者 |坛友微信交流群
最近从网页上抓数据的程序逐渐多起来了哈,不错
Denver大家一起读Paper系列索引贴:
https://bbs.pinggu.org/thread-1430892-1-1.html

使用道具

10
jiangpinggu 发表于 2011-10-30 23:15:37 |只看作者 |坛友微信交流群
谢谢

使用道具

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
加好友,备注cda
拉您进交流群

京ICP备16021002-2号 京B2-20170662号 京公网安备 11010802022788号 论坛法律顾问:王进律师 知识产权保护声明   免责及隐私声明

GMT+8, 2024-5-5 11:15