楼主: yusb
1325 0

[经管数据集] MovieLens数据集全集52个文件推荐算法机器学习人工智能数据挖掘 [推广有奖]

已卖:21330份资源
好评率:99%
商家信誉:一般

巨擘

0%

还不是VIP/贵宾

-

威望
1
论坛币
40750 个
通用积分
2590.7171
学术水平
20 点
热心指数
31 点
信用等级
7 点
经验
9843 点
帖子
20636
精华
0
在线时间
11942 小时
注册时间
2020-12-8
最后登录
2026-3-6

楼主
yusb 在职认证  发表于 2022-8-12 20:23:17 |AI写论文

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币
MovieLens数据集全集52个文件推荐算法机器学习人工智能数据挖掘


MovieLens数据集全集52个文件的网盘链接.docx (68.73 KB, 需要: RMB 59 元)
数据文件目录如下:500多MB的数据文件压缩包,几千万条数据
Movie.png

1、数据集简介MovieLens数据集包含多个用户对多部电影的评级数据,也包括电影元数据信息和用户属性信息。
这个数据集经常用来做推荐系统,机器学习算法的测试数据集。尤其在推荐系统领域,很多著名论文都是基于这个数据集的。(PS: 它是某次具有历史意义的推荐系统竞赛所用的数据集)。


总内容500多M 是做推荐算法的不二之选,一定需要的数据集


MovieLens是一个2,000万收视率的数据集,涉及138 000多名用户的27 000部电影。
该数据集是常用的推荐系统数据集,主要包括用户观看电影的相关信息。具体包括用户信息,电影信息,用户观看电影时的评分和时间等信息。




2、数据介绍
1m的数据解压后,可以看到四个主要的csv文件,分别是links.csv,movies.csv,ratings.csv,tags.csv。links介绍了该数据集中的movieId和imdb、tmdb中电影的对应关系。tags是用户的打标签数据。本文的介绍主要基于ratings.csv 和 movies.csv
ratings数据
文件里面的内容包含了每一个用户对于每一部电影的评分。数据格式如下:
userId, movieId, rating, timestamp
userId: 每个用户的id
movieId: 每部电影的id
rating: 用户评分,是5星制,按半颗星的规模递增(0.5 stars - 5 stars)
timestamp: 自1970年1月1日零点后到用户提交评价的时间的秒数
数据排序的顺序按照userId,movieId排列的。


movies数据
文件里包含了一部电影的id和标题,以及该电影的类别。数据格式如下:
movieId, title, genres
movieId:每部电影的id
title:电影的标题
genres:电影的类别(详细分类见readme.txt)





MovieLens推荐模型。 最先进的模型使用:RMSE为0.80的RMSE为0.81的自动。从出发,我们使用针对分类变量的实体嵌入来构建深度学习模型,该模型可实现与最新模型相当的RMSE为0.81 。 神经网络是在具有TensorFlow后端的Keras中实现的。 该代码在“ movienet.py”文件中,而培训在培训笔记本中。实体嵌入的一大优点是,在训练过程中,我们可以计算电影和用户的嵌入空间。 因此,我们有不同的方法将电影推荐给用户:我们评估网络并推荐收视率最高的电影。 但是,RMSE为0.81时,每个预测的平均误差为0.8星。对于电影,我们查看嵌入空间中最近的邻居。 在这种情况下,我们使用带有的KNN索引。


二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

关键词:Movie 推荐算法 数据挖掘 人工智能 机器学习

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
扫码
拉您进交流群
GMT+8, 2026-3-6 19:02