河北东方学院本科毕业论文(设计)中期检查报告
题目:基于Spark的新闻头条推荐系统设计
学院:人工智能学院
专业:数据科学与大数据技术
班级:大数据技术21-2
学生姓名:
学号:215150302041
指导教师:闫建薇(副教授)
完成时间:2024年12月28日
一、工作任务的进展情况
(一)已完成的工作内容
1. 用户管理模块实现
通过Flask框架结合MySQL数据库,完成了用户注册与登录功能的开发。在注册过程中,系统依据输入信息创建新的用户记录,并自动分配默认角色。登录时则验证用户名与密码的有效性,并根据用户所属角色赋予相应操作权限。
权限机制方面,将用户划分为普通用户和管理员两类。普通用户仅可访问有限资源,例如查看销售数据;而管理员具备更高权限,如管理账户、修改销售信息等。系统通过判断用户角色来控制其可操作范围,确保资源访问的安全性与合理性。
2. 数据查看与检索功能
实现了对空调销售数据的浏览及条件查询功能。用户可在前端界面设置查询参数,包括时间区间、销售区域、产品型号等,系统接收请求后,在数据库中执行匹配查询并返回结果。
该功能依托Flask的路由与视图函数进行请求处理,并使用Jinja2模板引擎动态渲染查询输出,提升了前后端交互效率与展示效果。
3. 数据预处理与特征提取
采用Pandas库对原始空调销售数据进行了系统性的清洗与预处理,识别并处理了缺失值和异常数据,运用填充、删除或插值等方式提升数据完整性与准确性。
同时,从数据集中提取出与销售趋势相关的关键特征,如销售数量、销售额、销售时间等,为后续建模分析提供了高质量的数据支持。
二、当前工作中的问题及应对策略
1. K-Means聚类效果优化
初期应用K-Means算法进行销售数据聚类时,发现聚类边界模糊、类别间存在重叠现象,影响了分类的准确度与实用性。
为此,调整了聚类中心的数量,经过多次实验确定最优簇数。同时改进初始中心点选择方式,引入K-Means++初始化方法,有效提升了聚类结果的清晰度与稳定性,增强了后续预测模型的数据基础。
2. 可视化模块响应性能提升
在初步实现数据可视化功能阶段,数据加载与处理流程耗时较长,导致前端页面响应延迟,用户体验不佳。
针对此问题,优化了后台数据读取与计算逻辑,减少冗余传输与重复运算。同时引入异步加载机制与分页显示技术,使用户能够快速获取关键分析结果,显著改善了界面响应速度与整体流畅性。
三、后续工作计划安排
(一)尚未完成的主要任务
1. 预测模型的深化与优化
计划进一步拓展K-Means算法的应用场景,融合更多维度的特征变量,并尝试构建更复杂的机器学习模型,以提高空调销售趋势预测的精度。
此外,将评估时间序列分析及其他预测算法(如随机森林、LSTM等)的适用性,探索更具优势的预测方案,力求实现更高的预测可靠性。
2. 可视化分析模块建设
拟基于Echarts技术栈开发多样化的数据可视化组件,涵盖销售趋势折线图、区域分布饼图、销量对比柱状图等多种图表形式,直观呈现销售数据的变化规律与空间分布特征。
同时注重增强图表的交互能力与个性化配置选项,满足不同用户的分析需求,提升系统的可用性与灵活性。
3. 后台管理功能完善
将搭建完整的后台管理系统,支持管理员对用户信息、销售数据等核心内容进行增删改查操作。主要功能模块包括用户管理、销售管理、权限控制等。
在安全性方面,加强数据传输加密、访问权限校验等措施,保障系统操作的合规性与可追溯性,全面提升系统的安全防护水平与运行稳定性。
学生签名:
日期:2024年1月5
指导教师意见:
该生在前期工作中较好地完成了用户管理、数据处理与基本分析模块的搭建,系统架构清晰,代码实现规范。但在聚类分析与可视化性能方面仍存在一定优化空间,建议进一步细化特征工程,提升模型解释力。下一步应重点推进预测算法对比实验与Echarts动态渲染的集成,注意保持前后端数据接口的一致性。同时需加强文档撰写进度,确保论文结构完整、逻辑严密。建议每周提交一次进展报告,定期沟通关键技术难点。
指导教师签名:
2024年1月6日
系/教研室意见:
论文选题符合专业方向,研究内容具有实际应用价值。中期进展总体良好,已完成部分功能模块开发,技术路线合理。后续应继续加快系统集成与测试工作,确保按时完成全部设计任务。同意按计划推进。
负责人签名:
2024年1月8日


雷达卡


京公网安备 11010802022788号







