|
(c) 由于IP活动数据库提供日期戳、IP、活动观测值,但IP地理位置数据库提供给定版本的IP范围、lon、LAT观测值,因此加入两个数据库需要在分布式硬件上使用非平凡的数据处理技术。(d) 加入后,240亿地理定位IP活动,观测结果。(e) 最后,使用从卫星观测数据中获得的1600多个城市边界对基础观测值进行空间聚合,并以15分钟为间隔进行时间聚合,最终生成7500万行的数据集。图2:互联网在100个国家的差异。Thickmain曲线显示了在理想化的18年经验中,从1%饱和开始,所有100个国家的平均场物流差异模型。平均饱和度估计为每人3个IP。红色竖线显示了平均场线的交叉点,99%饱和度,发生在16.1年的经验之后。细线给出了标准化的单个国家拟合曲线,作为与平均场线的变化,示例经验曲线(彩色线)与基础月度数据(彩色标记)一起显示。对于所有国家,都提供了一个x-o fff集,以正确地将差异经验纳入2006-2012年研究观察窗口。每条曲线均已标准化,以便初始拟合线在1%饱和度时截取y轴。图3:根据互联网活动估计全球睡眠时间。机器学习应用于81个人口超过500000的美国城市的年均每日IP活动数据,其中分层美国时间使用调查睡眠时间和醒来时间数据可用。
|