楼主: 时光永痕
2918 0

[数据挖掘新闻] 自动从网站提取数据到 Excel [推广有奖]

  • 0关注
  • 14粉丝

svip3

学术权威

12%

(VIP/贵宾)八级

11%

威望
0
论坛币
26 个
通用积分
57.2238
学术水平
4 点
热心指数
4 点
信用等级
4 点
经验
34180 点
帖子
2732
精华
0
在线时间
321 小时
注册时间
2020-7-21
最后登录
2024-8-1

楼主
时光永痕 学生认证  发表于 2022-4-18 11:47:19 |AI写论文

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币
要从网站中提取数据,您可以利用 Octoparse 等数据提取工具。这些工具可以自动从网站中提取数据并将其保存为多种格式,例如 Excel、JSON、CSV、HTML,或通过 API保存到您自己的数据库中。提取数千行数据只需要几分钟,最好的部分是这个过程不需要编码。

以谷歌搜索为例。假设我们对与“冰沙”相关的信息感兴趣,并且想要从搜索结果中提取所有标题、描述和网页 URL。要从 Google 搜索中提取数据,您可以使用 网络抓取模板。模板是预先格式化的爬虫,无需任何配置即可使用。有超过 50 个模板供您选择。您将看到所有模板,从亚马逊和 eBay 等电子商务网站到 Facebook、Twitter 和 Instagram 等社交媒体渠道。Octoparse 也提供自定义模板。

方法一:任务模板模式一键提取
第 1 步:选择网页抓取模板
要使用这些模板,您需要在计算机上安装 Octoparse。选择“任务模板”模式。导航到“搜索引擎”类别下的 Google 搜索网页抓取模板。

第 2 步:阅读模板说明
打开模板。检查说明和示例输出,以确保此模板将为您提供所需的数据。您可以将光标悬停在数据字段上,以查看将提取网站上的哪些元素。

查看参数以更好地了解您需要输入的内容。参数在不同的模板中会有所不同,因为它们可能需要不同的搜索词才能继续。它可以是一个 URL、一个关键字、一个 URL/关键字列表、您要抓取的页面数等等。在这种情况下,我们需要输入搜索词“smoothie”。

第 3 步:使用模板并开始提取
继续点击“使用模板”,然后输入“冰沙”并点击“保存并运行”。如果是一次性项目,您只需在本地计算机上运行爬虫即可。然而,如果您正在处理一个正在进行的项目,您可以在 Octoparse 云平台上安排提取。提取完成后,您可以将其导出为多种格式,如 Excel、CSV 和 txt。

我们刚刚介绍了如何使用网页抓取模板从 Google 搜索中提取网页数据。您还可以使用“高级模式”在点击中构建自己的爬虫。它可能需要一些配置,但在数据提取方面非常灵活。

方法#2:使用高级模式自定义提取
第一步:输入目标网址 构建爬虫
如果您尝试 大规模提取数据,您可以在框中输入多达 10,000 个 URL 的列表。在这种情况下,由于我们只抓取一个网站,我们只需将目标 URL 粘贴到框中,然后单击“保存 URL”继续。

第 2 步:构建分页循环
将浏览器切换到Firefox 45。现在Octoparse已经成功在内置浏览器中加载了网页。然后,我们需要通过单击“下一页”页面按钮并在“操作提示”面板上选择“循环单击下一页”来构建分页。您将看到我们刚刚在工作流区域中构建的分页循环。

第 3 步:提取数据并开始提取
现在我们可以提取数据了。单击搜索结果的标题,然后单击“全选”。选择所有标题后,它们将以绿色突出显示。单击“提取所选元素的文本”以提取所有标题。让我们暂停一下,看看工作流程。我们只是在分页循环中构建了一个提取循环。整个提取过程是这样的:机器人会先打开网页,将第一页的标题逐个提取,然后进入下一页重复提取,直到提取停止或完成。

您可以按照相同的方法提取描述。最后,要提取 URL,请单击“A”标签并选择“提取所选链接的 URL”。描述和URL出现在右上角后,说明我们已经提取成功了。现在我们可以编辑字段名称,保存抓取任务,然后开始提取。

除了谷歌,数据提取工具还可以从许多其他网站提取数据,并且在各行各业广泛使用。例如,公司可以提取黄页、Yelp 和谷歌地图来生成销售线索。

编辑推荐
1、2022年300个以上最佳免费数据科学课程
2、大厂数据分析面试指南!来自亚马逊、谷歌、微软、头条、美团的面试问题!
3、机器学习模型方法总结
4、历史最全机器学习/深度学习/人工智能专业术语表中英对照表
5、机器学习如何应用于商业场景?三个真实的商业项目
6、数据工作者的自我修养 | 哪些技能是必不可少的?
7、《汗牛充栋:数据分析书籍分享》CDA网校新课上线
8、文本挖掘常用的107个语料库
9、一图读懂“东数西算”工程
10、零基础转行数据分析,看这篇文章就够了

DA内容精选


二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

关键词:EXCEL exce xcel cel FACEBOOK

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
加好友,备注cda
拉您进交流群
GMT+8, 2026-2-5 14:23