课题内容
- 项目目标与意义: 本项目旨在收集和分析旅游平台上的景点数据,了解用户对旅游景点的评价和偏好,为旅游平台提供优化建议。通过大数据处理和分析技术,对旅游景点数据进行清洗、整合和挖掘,并利用机器学习算法对旅游景点名称进行分类和评论数据的推荐。最终将处理和分析后的景点数据做成一个具备增删改查功能的旅游推荐系统,帮助用户选择感兴趣的景点。
- 技术体系: 项目将使用Java、Python作为开发语言,MySQL作为关系数据库,MapReduce作为数据分析和处理工具,PyCharm作为数据采集、推荐算法、数据可视化开发工具,Tomcat作为Java Web的运行工具。
- 项目流程:
- 从携程旅行网站、攻略.景点旅游网站上爬取旅游景点数据;
- 安装并配置JDK、Hadoop等开发环境;
- 在MySQL数据库中设计并创建数据库、表和视图,用于存储景点信息、旅游景点评价数据及分析结果;
- 使用IntelliJ IDEA开发MapReduce程序,对存储在Hadoop中的旅游景点数据进行处理和分析,提取有价值的数据;
- 使用机器学习算法对景点评论进行分词处理并统计出现的权重,对景点名称进行分类;
- 使用IntelliJ IDEA配置Tomcat,利用Tomcat运行容器对处理和分析后的旅游景点数据实现一个推荐系统,具备增删改查的功能;
- 使用PyEcharts、Matplotlib、BI等数据可视化工具,使可视化分析结果以直观的方式展示。
课题任务要求
- 软件和环境配置: 本项目所涉及的系统及软件包括:Linux、MySQL、Hadoop、IntelliJ IDEA、PyCharm、Tomcat等,采用Java语言编写MapReduce程序和推荐系统设计的程序,使用Python进行数据爬取、推荐算法实现和数据可视化。相关软件的版本大致如下:
- VMware Workstation 16
- CentOS 7
- MySQL:8.0
- Hadoop:3.1.3
- IntelliJ IDEA 2022.3.3
- PyCharm 2020.2.1
- Tomcat 8.5.31
- 获取旅游数据的途径: 获取旅游数据的途径很多,如携程旅行、猫途鹰、穷游网等。数据源容易获得,编写Python代码可以方便地爬取数据。
- 搭建Hadoop平台: 使用集群搭建Hadoop平台,在MySQL中创建适用于旅游景点数据的数据库、表格和视图,并对爬取的数据进行清洗,确保数据的准确性和完整性。
- MapReduce程序开发: 使用MapReduce开发数据分析程序,从数据集中抽取、清洗、转换和加载数据,并生成有价值的旅游景点数据。
- 系统设计: 利用Tomcat运行容器编写Java Web程序,实现前后端交互的旅游推荐系统,具备对处理和分析后的旅游景点数据进行增删改查的功能。
- 数据的可视化: 使用可视化工具进行数据可视化工作,可以使用图表、图像等元素。通过折线图、柱状图等形式展示数据。
- 质量控制: 所有开发和分析的工作都应形成文档说明,并实现可重复的过程和结果。所有过程和结果都要进行问题检查,以确保高质量和高安全。
- 论文撰写: 撰写完整的项目报告,内容包括项目的设计、实现、测试和结果分析,要求详细记录每一步的操作过程及思考和分析。
主要参考文献
- 张名扬, 王子俊, 罗兴稳, 等. 基于协同过滤算法的旅游景点可视化分析系统的设计与实现[J]. 长江信息通信, 2024, 37(07): 21-23. DOI: 10.20153/j.issn.2096-9759.2024.07.007.
- 徐锟, 赵永智, 王涛, 等. 基于深度学习的旅游景点推荐模型研究[J]. 滁州学院学报, 2024, 26(02): 47-53+95.
- 许向荣. 基于改进遗传算法与多源异构数据的旅游推荐算法研究[D]. 西安理工大学, 2023. DOI: 10.27398/d.cnki.gxalu.2023.001863.
- 张楚怡. 文旅融合视角下旅游景点信息的语义网络构建及展示研究[D]. 华中师范大学, 2023. DOI: 10.27159/d.cnki.ghzsu.2023.002193. 孙玮梓.
- 占贻畅. 旅游景点客流量预测与个性化推荐算法研究[D]. 长春工业大学, 2023. DOI: 10.27805/d.cnki.gccgy.2023.000583.
- 班航, 王忠群. 基于情境聚类扩展用户画像的旅游景点推荐方法[J]. 安庆师范大学学报(自然科学版), 2023, 29(02): 75-79+86. DOI: 10.13757/j.cnki.cn34-1328/n.2023.02.013.
- 王芸. 面向旅游景点评论的方面级情感分析研究[D]. 西南交通大学, 2023. DOI: 10.27414/d.cnki.gxnju.2023.001537.
[34] 马腾腾, 朱庆华, 曹菡, 等. 基于Hadoop的旅游景点推荐算法实现与应用[J]. 计算机技术与发展, 2016, 26(03): 47-52.
[35] 侯新华, 文益民. 基于协同过滤的旅游景点推荐研究[J]. 计算技术与自动化, 2012, 31(04): 116-119.
[36] 令狐红英, 姜季春. 改进贝叶斯算法在旅游景点推荐中的应用[J]. 贵州师范学院学报, 2012, 28(03): 22-26.DOI:10.13391/j.cnki.issn.1674-7798.2012.03.010.
[37] Qin J . 基于大数据的旅游景点规划与开发影响因素分析[J]. 应用数学与非线性科学, 2024, 9(1):
[38] Wu J B , Chunxiao L , Hong X , 等. 利用集成深度学习方法预测旅游景点的日常需求[J]. 旅行研究杂志, 2022, 61(8): 1719-1737.
[39] Rong Z , Feilong W , Weimin Z . 利用数据驱动的方法推断多个旅游景点之间的互动以进行小时需求预测[J]. 国际旅游研究杂志, 2022, 24(5): 701-713.
[40] Zhewei L , Anqi W , Karin W , 等. 基于位置的社会网络数据对文化旅游景点的分类:以香港中环为例[J]. 旅游管理, 2022, 90
| 序号 | 设计(论文)工作内容 | 时间(起止周数) |
|---|---|---|
| 1 | 选题 | 第7学期第5周 至 第6周 |
| 2 | 完成任务书与开题报告 | 第7学期第7周 至 第9周 |
| 3 | 参照任务书进度完成毕业设计 | 第7学期第9周 至 第14周 |
| 4 | 完成撰写毕业论文初稿 | 第7学期第15周 至 第17周 |
| 5 | 毕业论文修改,毕业论文定稿 | 第8学期第2周 至 第4周 |
| 6 | 准备毕业答辩 | 第8学期第5周 至 第6周 |


雷达卡


京公网安备 11010802022788号







