用Java来开发一个Web数据抽取工具_计算机专业论文-经管之家官网!

人大经济论坛-经管之家 收藏本站
您当前的位置> 论文>>

计算机专业论文

>>

用Java来开发一个Web数据抽取工具_计算机专业论文

用Java来开发一个Web数据抽取工具_计算机专业论文

发布:经管之家 | 分类:计算机专业论文

关于本站

人大经济论坛-经管之家:分享大学、考研、论文、会计、留学、数据、经济学、金融学、管理学、统计学、博弈论、统计年鉴、行业分析包括等相关资源。
经管之家是国内活跃的在线教育咨询平台!

经管之家新媒体交易平台

提供"微信号、微博、抖音、快手、头条、小红书、百家号、企鹅号、UC号、一点资讯"等虚拟账号交易,真正实现买卖双方的共赢。【请点击这里访问】

提供微信号、微博、抖音、快手、头条、小红书、百家号、企鹅号、UC号、一点资讯等虚拟账号交易,真正实现买卖双方的共赢。【请点击这里访问】

计算机专业论文范文摘要本课题是介绍如何用Java来开发一个Web数据抽取工具。主要内容就是实现Spider(发现、搜集网页信息需要有高性能的“网络蜘蛛”程序去自动地在互联网中搜索信息),解析HTML(Web中的信息都是建 ...
坛友互助群


扫码加入各岗位、行业、专业交流群


计算机专业论文范文

摘要

本课题是介绍如何用Java来开发一个Web数据抽取工具。主要内容就是实现Spider(发现、搜集网页信息需要有高性能的“网络蜘蛛”程序去自动地在互联网中搜索信息),解析HTML(Web中的信息都是建立在HTML协议之上的,所以网络机器人在检索网页时的第一个问题就是如何解析HTML),提高程序性能(利用Java的多线程技术在Internet中拥有海量的Web页面中开发出高效的Spider程序)。Eclipse开发工具采用Spider核心技术遍历URL下载整个Web站点。我通过设计和调用各种Java类实现了上述技术的要求。本设计程序本质是一个Web Spider。与其它下载工具相比较它的主要优势是能够自动填充form(如:自动登录)和使用cookies来处理session。它还有灵活的下载规则(如:通过网页的URL,大小,MIME类型等)来限制下载。经过程序运行测试,效果良好。
关键词: 数据抽取,Java类,Web Spider,Java多线程

Abstract

This topic is an introduction how to develop a Web data sample tool based on the Java.The main contents is to carry out Spider(find, collect web page's information need to have "Web spider" of high performance to search the information of itself in the Internet), analyze HTML(the informations in the Web all build up in the HTML, so the first problem for web robot is how to analyze HTML when crawling web page) and raise program function.(make use of the Java multi-threading technique to develop efficiently of Spider program in the Internet which have a number of Web pages) To adopt the core technique of Spider in the Eclipse to crawl the URL ,then download the whole Web site.I carry out the above-mentioned technical request with design and use various of Java class.The essence of this program is a Web Spider.The main advantage downloaded tool with other to compare it is it can automatically to fill form(such as:Automatically register)with usage cookies to handle session.It still has vivid download rule(such as:Pass the URL, size of web page, MIME type etc.)to limit a download.y the effect is good by a test.
Keyword: the data sample,Java class,Web Spider,the Java multi-threading

目录

摘要I
AbstractII
第一章 绪论1
1.1 背景1
1.2 设计目的及实现方法1
1.3 国内外的现状1
第二章 相关技术综述和技术背景3
2.1 开发工具Eclipse3
2.1.1 Eclipse简介3
2.1.2 Eclipse工作台3
2.1.3 在Eclipse中开发Java程序4
2.1.4 在Eclipse中调试Java程序4
2.2 核心技术——Spider4
2.2.1 工作原理4
2.2.2 搜索策略4
2.2.3 搜索策略的趋势5
2.3 Spider设计6
2.3.1 Spider采集6
2.3.2 Socket连接的实现7
2.3.3 Spider程序结构7
2.3.4 Spider构架9
2.4 Spider中采用提高程序性能的技术9
第三章 总体设计11
3.1 设计原则11
3.2 功能目标设计11
3.3 设计描述11
3.4 设计的实现12
3.4.1 Java类的建立12
3.4.2 Java类的调用和修改14
3.5 说明19
3.5.1 主窗口19
3.5.2 功能窗口20
第四章 运行与测试24
第五章 总结28
致谢28
参考文献29

扫码或添加微信号:坛友素质互助


「经管之家」APP:经管人学习、答疑、交友,就上经管之家!
免流量费下载资料----在经管之家app可以下载论坛上的所有资源,并且不额外收取下载高峰期的论坛币。
涵盖所有经管领域的优秀内容----覆盖经济、管理、金融投资、计量统计、数据分析、国贸、财会等专业的学习宝库,各类资料应有尽有。
来自五湖四海的经管达人----已经有上千万的经管人来到这里,你可以找到任何学科方向、有共同话题的朋友。
经管之家(原人大经济论坛),跨越高校的围墙,带你走进经管知识的新世界。
扫描下方二维码下载并注册APP
本文关键词:

人气文章

1.凡人大经济论坛-经管之家转载的文章,均出自其它媒体或其他官网介绍,目的在于传递更多的信息,并不代表本站赞同其观点和其真实性负责;
2.转载的文章仅代表原创作者观点,与本站无关。其原创性以及文中陈述文字和内容未经本站证实,本站对该文以及其中全部或者部分内容、文字的真实性、完整性、及时性,不作出任何保证或承若;
3.如本站转载稿涉及版权等问题,请作者及时联系本站,我们会及时处理。
经管之家 人大经济论坛 大学 专业 手机版