请选择 进入手机版 | 继续访问电脑版
楼主: shiyuhan14
3809 8

[学习分享] 分享MATLAB爬虫 [推广有奖]

  • 0关注
  • 9粉丝

博士生

49%

还不是VIP/贵宾

-

威望
0
论坛币
2532 个
通用积分
10.0748
学术水平
33 点
热心指数
38 点
信用等级
24 点
经验
14639 点
帖子
306
精华
0
在线时间
241 小时
注册时间
2015-12-2
最后登录
2021-8-29

shiyuhan14 发表于 2017-1-17 13:59:30 |显示全部楼层 |坛友微信交流群
相似文件 换一批

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币
准备寒假自学MATLAB爬虫,建一个帖子分享自己找到的程序和心得

附:[url=]函数regexp用法[/url]
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

关键词:MATLAB matla atlab Atl Lab 程序

MATLAB爬虫1.zip

958 Bytes

需要: 100 个论坛币  [购买]

不要下载这个,我不知道怎么删

本附件包括:

  • DataRetrieval.m

DataRetrieval.zip

2.04 KB

需要: 1 个论坛币  [购买]

本附件包括:

  • DataRetrieval1.m
  • DataRetrieval2.m

函数regexp.pdf

890.14 KB

需要: 1 个论坛币  [购买]

函数用法

已有 1 人评分经验 论坛币 学术水平 热心指数 收起 理由
lixuewei3 + 60 + 24 + 1 + 1 对论坛有贡献

总评分: 经验 + 60  论坛币 + 24  学术水平 + 1  热心指数 + 1   查看全部评分

shiyuhan14 发表于 2017-1-17 14:08:56 |显示全部楼层 |坛友微信交流群
warning off
关闭MATLAB的警告提醒

使用道具

shiyuhan14 发表于 2017-1-17 14:33:06 |显示全部楼层 |坛友微信交流群


函数urlread: Download URL content to character vector. Urlread is not recommended. Use webread or webwrite instead.   (webread和webwrite是MATLAB的新增功能)
str = urlread(URL)
str = urlread(URL, Name, Value)
URL:网页地址,NAME:get或是post,Value:要向网页传递的参数。

一般中文网页的网页编码是'GBK',调用语法是:
S=urlread('http://sina.com.cn','get','','GBK')

example1:
fullURL = ['http://www.mathworks.com/matlabcentral/fileexchange', '?term=urlread'];
str = urlread(fullURL);
urlread从指定的URL读取并将HTML内容下载到字符向量str。
example2:
Download Web Content Related to Term
URL = 'http://www.mathworks.com/matlabcentral/fileexchange';
str = urlread(URL,'Get',{'term','urlread'});
urlread从http://www.mathworks.com/matlabcentral/fileexchange/?term=urlread中读取,并将HTML内容下载到字符向量str。
example3:
fullURL = ['http://www.mathworks.com/matlabcentral/fileexchange', '?term=urlread'];
str = urlread(fullURL,'Timeout',5);



使用道具

shiyuhan14 发表于 2017-1-17 17:37:31 |显示全部楼层 |坛友微信交流群
函数fprintf:fprintf('Juhi = %d',17);

uses the decimal notation format (%d) to display the variable 17.


使用道具

shiyuhan14 发表于 2017-1-17 21:13:33 |显示全部楼层 |坛友微信交流群
函数regex:- 匹配正则表达式(区分大小写)[out1,...,outN] = regexp(str,expression,outkey1,...,outkeyN)


查找以c开头、 以t,结尾,包含它们之间的一个或多个元音的单词。

str = 'bat cat can car coat court CUT ct CAT-scan';

expression = 'c[aeiou]+t';
startIndex = regexp(str,expression)
startIndex =     5    17

正则表达式'c[aeiou]+t'指定这种模式︰

  • c必须是第一个字符。


  • c后面必须有一个括号, [aeiou]字符.


  • 括号内的模式必须出现一个或更多的时间,如+运算符。


  • t必须是最后一个字符,不置于括号内的模式和t之间的字符.


在startIndex值指示匹配正则表达式的每个单词的第一个字符的索引。匹配单词cat在索引 5,及coat开始索引 17 处。因为他们是大写不匹配的话,CUT和CAT。





使用道具

lixuewei3 发表于 2017-1-19 09:44:20 |显示全部楼层 |坛友微信交流群
寒假跟你学,期待后续

使用道具

kerrydu 发表于 2017-1-19 09:45:06 |显示全部楼层 |坛友微信交流群
THANKS FOR SHARING

使用道具

shiyuhan14 发表于 2017-1-24 20:51:11 |显示全部楼层 |坛友微信交流群
忙完了美赛,明天可以继续看了

使用道具

xiaonaoleizi 发表于 2017-2-24 20:17:31 |显示全部楼层 |坛友微信交流群
向楼主学习,虽然不知道怎么用

使用道具

ydc129 发表于 2017-2-25 00:07:37 |显示全部楼层 |坛友微信交流群
谢谢分享

使用道具

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
加好友,备注cda
拉您进交流群

京ICP备16021002-2号 京B2-20170662号 京公网安备 11010802022788号 论坛法律顾问:王进律师 知识产权保护声明   免责及隐私声明

GMT+8, 2024-4-17 00:33