楼主: zlslizacn
2601 3

[问答] 求助!在网页上搜索字符串,怎么做?大牛们帮帮忙,小妹不胜感激! [推广有奖]

  • 0关注
  • 0粉丝

高中生

12%

还不是VIP/贵宾

-

威望
0
论坛币
0 个
通用积分
0
学术水平
0 点
热心指数
0 点
信用等级
0 点
经验
219 点
帖子
24
精华
0
在线时间
23 小时
注册时间
2008-2-14
最后登录
2014-8-17

楼主
zlslizacn 发表于 2011-9-30 23:52:33 |AI写论文

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币
sas刚刚入门,导师就交代了这么个任务,现在有公司名,人名(一个公司多个人),网址,年限,导师让我用sas搜索一下和这些人名match的关键词(多数是职位),因为搜索的网站大概有4万多,所以手动完成几乎是不能的。导师希望我周一给他一个结果。我现在找到一个macro可以做网页的搜索( web crawling), 对于关键词的搜索我觉得要用到index, 但是怎么样才能让人名和职位match呢?大家给我一些思路吧!万分感激!这个是我要搜索的网页基本模式。

http://www.sec.gov/Archives/edgar/data/51143/0000912057-97-009197.txt

如果哪位大虾愿意帮忙提供思路,可以直接回复,或者qq联系!   47663535

真的是万分感谢!
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

关键词:不胜感激 字符串 怎么做 Archive Match 搜索 网页 不胜感激 字符串

本帖被以下文库推荐

沙发
YueweiLiu 发表于 2011-10-1 09:16:28
说的不是很具体,没办法具体帮你,给你一个我之前写过的小例子,是读取网页上手机相关内容的:
  1. filename readweb url %nrstr("http://detail.zol.com.cn/cell_phone_index/subcate57_list_s528_1.html") lrecl=60000;

  2. data tmp;
  3.         infile readweb lrecl=60000 dlm="><";
  4.         retain flag 0;
  5.         length title1 $ 20;
  6.         if flag=0 then do;
  7.                 title="手机名称";
  8.                 input @'id="proName_' @'>' content :$50. @@;
  9.                 flag=1;
  10.                 num+1;
  11.                 if title="手机名称" then title1="name";
  12.                 output;
  13.         end;
  14.         input @'<dd class="tit_new">' title :$50. @;
  15.         if title="上市日期" then do;
  16.                 flag=0;
  17.         end;
  18.         input @'<dd class="con_new">' content :$50. @@;
  19.         if scan(content,1,"=")="a href" then input content :$50. @@;
  20.         if title="所属系列" then title1="series";
  21.         if title="操作系统" then title1="os";
  22.         if title="手机类型" then title1="type";
  23.         if title="网络模式" then title1="net";
  24.         if title="主屏尺寸" then title1="screen_size";
  25.         if title="主屏色彩" then title1="screen_color";
  26.         if title="触摸屏:" then title1="screen_type";
  27.         if title="摄像头像" then title1="camera";
  28.         if title="蓝牙功能" then title1="bluetooth";
  29.         if title="上市日期" then title1="date";
  30.         output;
  31.         drop flag;
  32. run;

  33. proc transpose data=tmp out=want(drop=_name_);
  34.         var content;
  35.         by num;
  36.         id title1;
  37. run;
复制代码

藤椅
YueweiLiu 发表于 2011-10-1 09:17:53
那个网页貌似已经有所改动,现在无法正常读取了,当时没有问题的。不过思路大概就是这样,供楼主参考。

板凳
ryuuzt 发表于 2011-10-3 09:47:13
以前看到过有人用R做的搜索网页的程序。时间久了,找不到了。你到R论坛问问看看。

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
加好友,备注cda
拉您进交流群
GMT+8, 2026-1-5 01:44