1062 0

[数据挖掘工具] 【工具】雅虎开源解析HTML页面数据的Web爬取工具Anthelion [推广有奖]

  • 0关注
  • 66粉丝

教授

55%

还不是VIP/贵宾

-

威望
1
论坛币
13016 个
通用积分
68.7878
学术水平
26 点
热心指数
25 点
信用等级
15 点
经验
8650 点
帖子
615
精华
0
在线时间
170 小时
注册时间
2016-12-6
最后登录
2017-4-8

楼主
数据分析闯天下 在职认证  发表于 2017-1-1 17:42:29 |AI写论文

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币
数据分析师最常用的工具应该是R和python了。今天再跟大家介绍一种不错的工具。

Yahoo 宣布开源解析 HTML 页面结构数据的 Web 爬取工具 Anthelion。

  Web 爬行工具是 Yahoo 很重要的核心,甚至超过了其他应用: Yahoo Mail, Yahoo Finance, Yahoo Messenger, Flickr 和 Tumblr。

  上一年在上海的一次会议中,Yahoo 也详细提到了 Anthelion:“Anthelion 最初专注于语义数据,使用标记语言嵌入到 HTML 页面,比如 Microdata,Microformat 或者 RDFa。”这次会议还提到了爬取技术是如何实现的,为什么能提供更高数量的特定搜索查询相关的结果。

  Microdata 和 RDFa 是结构数据关于不同主题的语法格式,兼容 schema.org 词汇(一个 Google,Yahoo 和 Bing 搜索引擎都在研究的项目) a project that the Google, Yahoo, and Bing search engines all work on.

  Anthelion 的代码现在以 Apache 开源授权协议托管到 GitHub:https://github.com/yahoo/anthelion,包含 Apache Nutch 完整源代码。

  Anthelion 可以根据设定目标爬取特定页面,比如,包括标记描述影片和至少两个不同属性(比如电影标题和演员)。

二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

关键词:HTML lion Nth The htm 数据分析 数据分析工具 R语言 python

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
加好友,备注cda
拉您进交流群
GMT+8, 2026-1-13 06:51