数据独特性
- 高时间分辨率与完整月度覆盖:本数据集提供每小时级别的页面浏览数据,且完整覆盖2024年1月整个自然月。这种细粒度的时间序列使得分析者能够追踪日内关注度变化、识别流量峰值的确切时间点(如特定新闻发布后的小时级反应),并进行精确的周期(如日周期、周周期)分析。相较于仅提供日度或月度聚合数据的公开数据集,本数据在时间维度上的分辨率具有显著优势,为微观行为研究和实时趋势捕捉提供了可能。
- 聚焦热门页面,数据价值密度高:数据经过严格筛选,每日文件仅收录至少被浏览10次的页面,日均数据量高达500-600万条。这意味着每条记录都代表着当月受到显著公众关注的主题、人物或事件。对于研究特定时期的社会热点、流行文化趋势、重大新闻事件的全球传播与影响,本数据集提供了经过预筛选的高价值、高信噪比的分析对象,能有效提升研究效率与分析深度。
- 跨语言/地域维度的标准化结构:数据通过 domain_code 字段清晰标识了页面的所属维基百科子项目。这种标准化的结构允许研究者便捷地进行跨语言、跨文化比较研究,例如分析同一国际事件在不同语言用户群体中关注度的时空差异,或探究特定文化主题在其主要语言社区内的活跃度。
该数据以其小时级的高时间分辨率、对热门页面的聚焦、以及标准化的跨语言结构,为学术界和产业界提供了一个独特而强大的分析工具。无论是用于揭示公众注意力的微观动态,还是服务于网络基础设施的智能优化,亦或是支撑前沿的跨文化数字研究,该数据集都能提供坚实、精细的数据基础,赋能用户从海量网络行为中挖掘出深刻的洞察与价值。
1.字段展示
2.样本展示


雷达卡



京公网安备 11010802022788号







