面向初学者的Web爬虫-使用Node JS进行Web爬虫!
Web上的信息收集是Web抓取,也称为Web数据提取和Web收集。对于想要在任何领域开展业务或项目的初创公司和自由职业者来说,如今的数据就像氧气。假设您想在电子商务网站上找到产品的价格。这很容易找到,但是现在让我们说您必须对多个电子商务网站中的数千种产品进行此练习。手动执行;根本不是一个好选择。
了解工具
JavaScript是一种流行的编程语言,它可以在任何Web浏览器中运行。
Node JS是一个解释器,并通过一些特定的有用库为JavaScript提供了环境。
简而言之,Node JS就库而言为JavaScript添加了一些功能,使其更强大。
Web抓取节点js
实际操作
让我们通过一个示例来了解使用Node JS进行Web抓取。假设您要分析电子商务网站上某些产品的价格波动。现在,您必须列出所有可能的原因,并与每种产品进行交叉检查。同样,当您要抓取数据时,则必须列出父HTML标记并检查相应的子HTML标记以通过重复此活动来提取数据。
Web爬网所需的步骤
创建package.json文件
安装并调用所需的库
选择抓取所需的网站和数据
设置URL并检查响应代码
检查并找到正确的HTML标签
在我们的代码中包含HTML标记
交叉检查爬网数据
我正在使用Visual Studio运行此任务。
第1步-创建package.json文件
要创建 package.json文件,我需要运行npm init并在下面的屏幕截图中根据需要提供一些详细信息。
Web抓取节点js创建package.json
第2步-安装并调用所需的库
需要运行以下代码来安装这些库。
安装库
一旦正确 安装了库, 您将看到这些消息正在显示。
Web抓取节点js软件包安装后的日志
调用所需的库:
呼叫图书馆
第3步-选择抓取所需的网站和数据。
我选择了该网站“ https://www.bullion-rates.com/gold/INR/2007-1-history.htm ”,并希望抓取黄金价格数据以及日期。
Web抓取节点js我们要抓取的数据
第4步-设置URL并检查响应代码
Node JS代码看起来像这样,以传递URL并检查响应代码。
Web抓取节点js传递URL和获取响应代码
第5步-检查并找到正确的HTML标签
找到存在数据的正确HTML标记非常容易。
查看HTML标签;右键单击并选择检查选项。
检查HTML标签
选择适当的HTML标签:-
如果您注意到 我们的表中 有 三列,那么我们表行的HTML标记将为“ HeaderRow”,并且所有列名均带有标记“ th”(表头)。
对于每个表行(“ tr”),我们的数据都位于“ DataRow” HTML标记中
现在,我需要将所有HTML标记保留在“ HeaderRow ”下,并需要找到所有“ th ”个HTML标记,最后遍历“ DataRow ” HTML标记以获取其中的所有数据。
第6步-在我们的代码中包含HTML标签
包含HTML标记后,我们的代码将是:-
程式码片段
步骤7-交叉检查已爬取的数据
打印数据,因此代码如下:-
我们的搜集数据
如果您进入更详细的HTML标记级别并对其进行相应的迭代,则将获得更精确的数据。
这就是有关网页抓取以及如何获取稀有质量数据(如黄金)的全部内容。
结论
我试图以一种精确的方式来解释使用Node JS进行Web爬网。希望对您有帮助。
题库