楼主: 可人4
355 19

[量化金融] 互联网作为定量社会科学平台:来自 [推广有奖]

11
nandehutu2022 在职认证  发表于 2022-6-13 22:19:44
(c) 由于IP活动数据库提供日期戳、IP、活动观测值,但IP地理位置数据库提供给定版本的IP范围、lon、LAT观测值,因此加入两个数据库需要在分布式硬件上使用非平凡的数据处理技术。(d) 加入后,240亿地理定位IP活动,观测结果。(e) 最后,使用从卫星观测数据中获得的1600多个城市边界对基础观测值进行空间聚合,并以15分钟为间隔进行时间聚合,最终生成7500万行的数据集。图2:互联网在100个国家的差异。Thickmain曲线显示了在理想化的18年经验中,从1%饱和开始,所有100个国家的平均场物流差异模型。平均饱和度估计为每人3个IP。红色竖线显示了平均场线的交叉点,99%饱和度,发生在16.1年的经验之后。细线给出了标准化的单个国家拟合曲线,作为与平均场线的变化,示例经验曲线(彩色线)与基础月度数据(彩色标记)一起显示。对于所有国家,都提供了一个x-o fff集,以正确地将差异经验纳入2006-2012年研究观察窗口。每条曲线均已标准化,以便初始拟合线在1%饱和度时截取y轴。图3:根据互联网活动估计全球睡眠时间。机器学习应用于81个人口超过500000的美国城市的年均每日IP活动数据,其中分层美国时间使用调查睡眠时间和醒来时间数据可用。

12
何人来此 在职认证  发表于 2022-6-13 22:19:48
然后,将交叉验证模型(平均误差:11m)应用于2006-2012年间全球645个城市的日间iPadivity数据,以估算睡眠时间(觉醒和睡眠时间的差异)。2012年估计睡眠时间热图显示了几个地区(左面板)。密度比较基于所有年份(右面板)。(a) 北美(左)所有美国和墨西哥的分布图表明,美国城市居民的睡眠比墨西哥居民少1.15亿小时。(b) 欧洲城市(左)与英格兰南部(详图)一起显示。与北美相比,欧洲居民平均多睡2500万左右。(c) 东亚的比较显示,日本人的睡眠时间比韩国邻居少1小时40米以上。报告的所有双向比较在p<1×10时均具有显著性-10级(双尾)。(d) 联合国区域分类估计睡眠时间的变化表明全球发达地区的睡眠文化可能趋同。图4:次国家层面的互联网接入和经济成果。(a) 人均GDP versusIP仅涉及2006-2012年间经合组织确定的411个次国家地区(即美国各州或欧洲NUTS2)的人均占比(n=2832;线性趋势,R=0.61)。(b) 人均NIP地址与各经济部门之间关系的平均估计系数(条形图)。误差条显示了7 ISIC修订版中系数值95%上下限置信区间的估计值。4个扇区(每个扇区n的范围,1041-1422,总计n=7979)。一项相关的“大数据”社会科学研究一项规模较小但数量迅速增长的研究表明,被动收集“大数据”对于追求社会数据科学是有用的。

13
能者818 在职认证  发表于 2022-6-13 22:19:51
与目前的工作一样,这些研究利用了数据的被动性——无论是对手机元数据的分析【34、4、37】、“应用程序”活动日志【16、13、2】、还是夜间卫星图像【28、8、20】。在每项研究中,数据都不是专门为社会数据科学目的收集的,而是作为特定服务提供的副产品产生的,并创造性地应用于长期(有时是完全新颖的)社会科学研究问题。这些论文共同展示了“大数据”世界中科学见解的多样性和丰富性。在这些涉及手机元数据的贡献中,如[34、4、37]中所使用的,基础数据目前只能通过与商业手机提供商的专门协议获得。由于手机公司的区域重点,此类来源通常在空间上受到限制。类似地,这种性质的数据集也有时间限制,因为相关公司更愿意一次只发布其数据的有限时间段。同样,文献[16、13、2]中报告的基于软件的(“app”)数据分别涉及谷歌搜索、推特和Facebook,为研究新型实时健康监测、时间使用和政治极化提供了迷人的机会。考虑到互联网用户对其中一些应用程序的高度参与,通过开放数据策略,人们可能能够复制我们在这里报告的工作。然而,在来源的商业性质之外,这些数据存在固有的妥协。例如,这些数据受到至少两种样本选择偏差的影响。首先,即使是最流行的“应用程序”,也不太可能在应用程序的用户基础和互联网用户基础之间存在一对一的映射。

14
nandehutu2022 在职认证  发表于 2022-6-13 22:19:54
其次,由于应用程序总是为特定用例而设计的,因此应用程序的活动数据必然会限制在所讨论的应用程序中的用户感知文件中。卫星图像为社会科学领域的大数据提供了第三种方法【28、8、20、22】。这里的数据本质上是全球性的,但在时间粒度上有限,典型的观测是每年读取地球表面1平方公里的夜间光度。最后,我们提到了[3,40]最近的工作,他们利用互联网“活动”来获得有趣的见解,了解国家以下各级IP分配中明显的种族偏见。这里,就像上面提到的手机研究一样,数据来自与商业互联网服务提供商(ISP)的合作关系,因此显示出类似的用户限制和时间限制。在这种情况下,ISP在2004年至2010年的每一年都提供了两个连续16天的客户互联网活动部分。通过使用MaxMind GeoIP2City IP位置数据库,将数据在空间上聚合到人种学区域(GeoEPR【41】),根据提供商自己的估计,该数据库包含一些重大错误,尤其是在发展中国家。然而,识别出唯一活跃的IP块,并用于评估其空间分配中的偏差水平。因此,我们将本研究中使用的节点对节点在线/在线扫描数据视为对定量社会数据科学进展中其他被动数据源的补充。虽然在线/在线活动跟踪不受上述用户或时间样本选择偏差的影响,但通过IP扫描获得的数据的维度只是手机通话元数据或应用程序会话历史中单个“观察”中可用数据的一小部分。

15
何人来此 在职认证  发表于 2022-6-13 22:19:59
然而,正如本研究中报告的应用范围所示,低维度并不能阻止利用前所未有的IP扫描数据范围和粒度进行科学查询。看见http://maxmind.com/en/geoip2-city-database-accuracy.例如,MaxMind报告称,澳大利亚城市的IPlocations中只有14%在其数据集中得到了“正确解析”。这项工作中的一个块是/24级别的,这意味着可以识别标准IPv4IP地址的倒数第二个整数。例如,192.172.3。xxx。此外,值得注意的是,在线/在线扫描数据具有一个独特的、更进一步的、特殊的系统特征:凭借高效的专有技术,任何在线人员都可以收集数据,无需ZF机构、私人公司或任何中介来收集在线/在线IP数据。因此,只要互联网保持其“民主基础”,我们就认为这里使用的那种在线数据基本上是“开放的”。A、 1数据源互联网活动数据由南加州大学(USC)PREDICT internetsecurity数据库提供,而IP地理位置信息由高度准确的商业来源提供。具体而言,我们利用USC PREDICT的IP活动全面普查所有2IP地址,以及1%的子样本扫描,以11分钟的间隔对IP集群进行重复在线/在线观察【19】。这里,发送最基本的节点到节点查询(“ping”),询问目标IP ifit当前处于联机状态,返回成功指示器和返回时间。如果IP地址不在线,或由于防火墙或其他禁止而无法访问,则最新的路由器或主机将作出响应。

16
能者818 在职认证  发表于 2022-6-13 22:20:02
我们的方法在122个国家的1647个城市边界,每隔15分钟,将这些扫描汇总为7500万行在线/在线信息。值得注意的是,我们的数据涵盖了互联网全球扩张的一个关键阶段,2006-2012年间,用户基数从大约16%翻了一番,达到了35%以上[26]。下面将讨论与特定科学应用相关的进一步空间和时间聚合方法。B第1部分:测量互联网的差异本节使用的数据是按照数据描述符中描述的相同程序创建的,尽管在时间识别窗口中存在差异。在一个月的观察中,确定了分配给某个位置的唯一IP地址的计数,而不是15分钟的间隔。Amonth被用作时间窗口,以捕获IP空间的动态,并解释该期间扫描频率的差异。我们尝试了不同的地理和时间窗口聚合,直到出现一致的模式。图5显示了2006-2012年间每个城市的月度空间利用率(唯一IP地址计数)。为便于比较,对同一国家内的城市进行了线着色分组。这种新兴的图案与时尚中使用的amissoni配色方案有相似之处。不包括没有扫描活动或与其他月份相比比例扫描较少的月份。B、 1 missoni Bias的修正为了持续估计互联网随时间的增长,必须对IP扫描的随机定时以及IP空间的一般动态进行修正。首先,我们筛选出所有在所有月份没有一致衡量标准的城市。从视觉上看,我们每月至少减少500个IP地址,剩下829个城市。

17
可人4 在职认证  发表于 2022-6-13 22:20:05
这一阈值有助于丢弃个别城市的IP跟踪,这些跟踪遵循的模式不稳定,与大多数城市的趋势不一致。其次,我们每月总结所有剩余城市的allunique IP地址,并呈现线性趋势,如图6所示。图7显示了这种回归的残余值。残差没有显示模式或趋势的迹象,当假设线性趋势时,这些模式或趋势将从数据中删除。第三,对于每个月,我们计算ageneric比例因子,它会将每个月的值移动到线性趋势线上。最后,以Carna僵尸网络进行的互联网调查为例,http://internetcensus2012.bitbucket.org/paper.html.Figure5:IP空间月利用率和城市我们将通用月度比例因子应用于每个城市的月度观测,因此,去除missonibias。图8给出了该程序的结果。经过处理后,保留了576个城市,这些城市拥有一致的知识产权活动测量值和人口数据,并根据这些数据构建了每月人均知识产权测量值。最后,在本报告中,我们通过各城市的平均值来汇总国家层面的数据。我们总共有122个国家的75个月平均人均IP、IP C观测(2006年1月至2012年12月,不包括抽样月份),其中包括1个(不同)到70个(如美国)城市。B、 2城市互联网扩散过程的估计我们使用标准的逻辑函数来估计扩散过程。经济学中的差异过程通常以百分比表示,就像杂交玉米一样【18】。我们使用人口(PopulationBy city)得出每个已确定城市边界的人均知识产权的可比指标。2000年和2010年的人口数据可用于未来修订的城市边界。我们使用所有城市的人口数据,其中城市定义没有改变。

18
大多数88 在职认证  发表于 2022-6-13 22:20:08
之前单独的城市,后来被定义为单独的城市区或被分割的城市除外。全球576个城市仍然保持着对知识产权和人口数据的一致测量。我们对2006年至2012年间的人口统计学数据进行了线性插值和外推。较发达国家的城市比例较高,如美国(70)或俄罗斯联邦(42),而其他国家只有一个城市,如津巴布韦或越南。我们按月平均每个国家的人均知识产权值,以得出城市人均知识产权的统一衡量标准。估计的模型是逻辑增长曲线Ip ct=K1+e-α(t-β) (1)这是一个具有随机期望最大值的非线性混合效应模型。我们非常感谢纽约大学斯特恩城市化项目的Solly Angel教授及其团队与我们分享其新城市化地图集的预发布人口数据。0 5 10 15 20 25 30 35 40 45 50 55 60 65 70 75 80 85个月(自2006年1月起)60m20m40m80m100m120m140m160m180m200m220m240m260m280msum唯一IP地址图6:截至2006年1月的所有唯一IP地址之和-80M-60M-40M-20m20m40m60m剩余图7:线性趋势的残差图,用于校正missoni biasFigure 8:city和monthalgorithm调整的IP空间。IP ctis给定月份的人均IP,K为渐近极限,α为梯度,β为中点。假设互联网的全球差异化过程发生在每个国家对整个曲线的不同阶段作出贡献的情况下,并且通过假设每个国家对一般差异化过程作出贡献,我们可以估计平均曲线和特定国家的轨迹。我们估计了一般过程的列出参数,并考虑到每个国家的交叉依赖随机效应集。

19
可人4 在职认证  发表于 2022-6-13 22:20:11
我们使用了许多模拟来实现0.0143的RMSE。B、 3结果和国家排名一般渐近极限估计为0.32,约代表平均三人的每户一个IP地址。我们将差异持续时间定义为从1%到99%的范围,因为即使互联网普及率很低,例如某个城市的公共图书馆中可能存在的互联网普及率,也已经代表了信息冲击。据估计,国际大都市地区的平均差异为16.1年,增长率为0.047。我们从饱和类别开始对人均IP水平进行分类,饱和类别对应2012年的人均IP值高于人均0.32 IP的总体平均值,然后通过将该水平依次减半(高、中、低)来创建后续类别阈值。表1根据2012年的城市化普及率与2006年的水平对所有国家进行了排名。对于每一个国家,我们为其特定增长动态提供了相当于饱和1%或99%的估计协合极限、增长率和相应年份。图9、10、11、12、13、14、15、16、17和18描绘了与联合国各地区主要文章中图2相同的观察结果。国家排名代表了不同的技术发展成果,以及大规模政府投资或政府缺席的结果。IP空间的利用率或经济性消费取决于用于连接互联网的底层物理技术。2006年至2012年期间,互联网连接的主要技术途径是通过固定线路连接。根据未过滤的原始位置数据,移动IP地址在2008年底占0.1%,2012年底占5%。

20
能者818 在职认证  发表于 2022-6-13 22:20:14
在饱和程度最高的小组中,德国领先于韩国,但与韩国相比,该小组中的最后一个小组,德国预计将达到渐近极限。在使用Matlab函数nlme fitsa进行估计时,我们使用α的逆作为参数变换,以获得与β相似的尺度,以帮助模拟收敛。2013年,韩国在2021之前一直处于人均知识产权增长的轨道上。值得注意的是,马其顿自2006年以来上升了43位,2012年排名第8,很可能通过2007年启动的美国国际开发署(USAID)项目(“马其顿连接”)在互联网基础设施方面进行大规模投资的结果。同样,排名第三的爱沙尼亚也有着广为人知的数字故事,是一个积极采用IT的国家,拥有来自爱沙尼亚开发人员的高性能软件产品,如Skype,是一个最受欢迎的副产品。

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
jg-xs1
拉您进交流群
GMT+8, 2025-12-22 06:25