楼主: 何人来此
754 19

[量化金融] 互联网作为定量社会科学平台:来自 [推广有奖]

  • 0关注
  • 4粉丝

会员

学术权威

78%

还不是VIP/贵宾

-

威望
10
论坛币
10 个
通用积分
62.7954
学术水平
1 点
热心指数
6 点
信用等级
0 点
经验
24656 点
帖子
4149
精华
0
在线时间
0 小时
注册时间
2022-2-24
最后登录
2022-4-15

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币
英文标题:
《The Internet as Quantitative Social Science Platform: Insights from a
  Trillion Observations》
---
作者:
Klaus Ackermann, Simon D Angus, Paul A Raschky
---
最新提交年份:
2017
---
英文摘要:
  With the large-scale penetration of the internet, for the first time, humanity has become linked by a single, open, communications platform. Harnessing this fact, we report insights arising from a unified internet activity and location dataset of an unparalleled scope and accuracy drawn from over a trillion (1.5$\\times 10^{12}$) observations of end-user internet connections, with temporal resolution of just 15min over 2006-2012. We first apply this dataset to the expansion of the internet itself over 1,647 urban agglomerations globally. We find that unique IP per capita counts reach saturation at approximately one IP per three people, and take, on average, 16.1 years to achieve; eclipsing the estimated 100- and 60- year saturation times for steam-power and electrification respectively. Next, we use intra-diurnal internet activity features to up-scale traditional over-night sleep observations, producing the first global estimate of over-night sleep duration in 645 cities over 7 years. We find statistically significant variation between continental, national and regional sleep durations including some evidence of global sleep duration convergence. Finally, we estimate the relationship between internet concentration and economic outcomes in 411 OECD regions and find that the internet\'s expansion is associated with negative or positive productivity gains, depending strongly on sectoral considerations. To our knowledge, our study is the first of its kind to use online/offline activity of the entire internet to infer social science insights, demonstrating the unparalleled potential of the internet as a social data-science platform.
---
中文摘要:
随着互联网的大规模渗透,人类第一次被一个单一、开放的通信平台联系起来。利用这一事实,我们报告了一个统一的互联网活动和位置数据集所产生的见解,该数据集的范围和准确性无与伦比,来自于对最终用户互联网连接的一万多亿次(1.5美元乘以10 ^{12}美元)的观察,在2006-2012年间,时间分辨率仅为15分钟。我们首先将此数据集应用于互联网本身在全球1647个城市群的扩展。我们发现,独特的人均IP数达到饱和,大约每三个人有一个IP,平均需要16.1年才能实现;使蒸汽发电和电气化的估计100年和60年饱和时间相形见绌。接下来,我们使用日间互联网活动特征来放大传统的夜间睡眠观察,得出了7年来645个城市夜间睡眠持续时间的第一个全球估计值。我们发现大陆、国家和地区的睡眠时间之间存在统计上的显著差异,包括一些全球睡眠时间趋同的证据。最后,我们估计了411个经合组织地区互联网集中度与经济成果之间的关系,并发现互联网的扩张与生产率的负增长或正增长相关,这在很大程度上取决于部门因素。据我们所知,我们的研究是首次利用整个互联网的在线/离线活动来推断社会科学见解,展示了互联网作为社会数据科学平台的无与伦比的潜力。
---
分类信息:

一级分类:Quantitative Finance        数量金融学
二级分类:Economics        经济学
分类描述:q-fin.EC is an alias for econ.GN. Economics, including micro and macro economics, international economics, theory of the firm, labor economics, and other economic topics outside finance
q-fin.ec是econ.gn的别名。经济学,包括微观和宏观经济学、国际经济学、企业理论、劳动经济学和其他金融以外的经济专题
--
一级分类:Computer Science        计算机科学
二级分类:Computers and Society        计算机与社会
分类描述:Covers impact of computers on society, computer ethics, information technology and public policy, legal aspects of computing, computers and education. Roughly includes material in ACM Subject Classes K.0, K.2, K.3, K.4, K.5, and K.7.
涵盖计算机对社会的影响、计算机伦理、信息技术和公共政策、计算机的法律方面、计算机和教育。大致包括ACM学科类K.0、K.2、K.3、K.4、K.5和K.7中的材料。
--
一级分类:Computer Science        计算机科学
二级分类:Social and Information Networks        社会和信息网络
分类描述:Covers the design, analysis, and modeling of social and information networks, including their applications for on-line information access, communication, and interaction, and their roles as datasets in the exploration of questions in these and other domains, including connections to the social and biological sciences. Analysis and modeling of such networks includes topics in ACM Subject classes F.2, G.2, G.3, H.2, and I.2; applications in computing include topics in H.3, H.4, and H.5; and applications at the interface of computing and other disciplines include topics in J.1--J.7. Papers on computer communication systems and network protocols (e.g. TCP/IP) are generally a closer fit to the Networking and Internet Architecture (cs.NI) category.
涵盖社会和信息网络的设计、分析和建模,包括它们在联机信息访问、通信和交互方面的应用,以及它们作为数据集在这些领域和其他领域的问题探索中的作用,包括与社会和生物科学的联系。这类网络的分析和建模包括ACM学科类F.2、G.2、G.3、H.2和I.2的主题;计算应用包括H.3、H.4和H.5中的主题;计算和其他学科接口的应用程序包括J.1-J.7中的主题。关于计算机通信系统和网络协议(例如TCP/IP)的论文通常更适合网络和因特网体系结构(CS.NI)类别。
--
一级分类:Physics        物理学
二级分类:Physics and Society        物理学与社会
分类描述:Structure, dynamics and collective behavior of societies and groups (human or otherwise). Quantitative analysis of social networks and other complex networks. Physics and engineering of infrastructure and systems of broad societal impact (e.g., energy grids, transportation networks).
社会和团体(人类或其他)的结构、动态和集体行为。社会网络和其他复杂网络的定量分析。具有广泛社会影响的基础设施和系统(如能源网、运输网络)的物理和工程。
--
一级分类:Statistics        统计学
二级分类:Machine Learning        机器学习
分类描述:Covers machine learning papers (supervised, unsupervised, semi-supervised learning, graphical models, reinforcement learning, bandits, high dimensional inference, etc.) with a statistical or theoretical grounding
覆盖机器学习论文(监督,无监督,半监督学习,图形模型,强化学习,强盗,高维推理等)与统计或理论基础
--

---
PDF下载:
-->
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

关键词:社会科学 互联网 Applications Quantitative observations

沙发
kedemingshi 在职认证  发表于 2022-6-8 15:31:04 |只看作者 |坛友微信交流群
互联网作为定量社会科学平台:来自万亿次观测的见解克劳斯·阿克曼*Simon D Angus+Paul A Raschky+2017年1月23日摘要随着互联网的大规模渗透,人类第一次被一个单一、开放的通信平台联系起来。利用这一事实,我们报告了从2006-2012年对终端用户互联网连接进行的超过一万亿(1.5×10)次观测得出的范围和准确性无与伦比的auni fied互联网活动和位置数据集得出的见解,时间分辨率仅为15分钟。我们首先将此数据集应用于互联网本身在全球1647个城市群的扩展[1]。我们发现,独特的人均IP数达到饱和,大约每三个人一个IP,平均需要16.1年才能实现;分别超过蒸汽动力和电力的估计100年和60年饱和时间【29】。接下来,我们使用日间互联网活动特征来放大传统的夜间睡眠观察,得出了645个城市7年来夜间睡眠持续时间的第一个全球估计值【36】。我们发现大陆、国家和地区的睡眠时间之间存在显著的统计学差异,包括全球睡眠时间趋同的一些证据。最后,我们估计了411个经合组织地区互联网集中度与经济成果之间的关系,并发现互联网的扩张与生产率的负增长或正增长相关,这在很大程度上取决于部门因素。

使用道具

藤椅
大多数88 在职认证  发表于 2022-6-8 15:31:07 |只看作者 |坛友微信交流群
据我们所知,我们的研究是首次利用整个互联网的在线活动来推断社会科学见解,展示了互联网作为社会数据科学平台的无与伦比的潜力。关键词:大数据;技术差异;时间生物学;经济增长概述:IP、互联网协议;GPT,通用技术*美国芝加哥大学数据科学与公共政策中心;澳大利亚莫纳什大学经济系+澳大利亚莫纳什大学经济系简介以任何标准衡量,互联网——连接无数路由器、服务器和设备的光纤电缆的物理网络——是人类最杰出的发明,影响着包括医疗保健、政治活动在内的全方位人类行为,时间使用决策【30】,甚至是最重要的人际关系【31】。据估计,到2016年,将有35亿个人(47.1%)在线,或近10亿户家庭(52.3%),共同访问185000 Gbit/s(约101亿页/s)的全球带宽,是2008年可用带宽的十倍[26]。考虑到千年之交全世界只有不到5%的人口在线,这些数字就更加引人注目了【27】。然而,对于社会科学家来说,这些数据表明了一种不同的奇迹——在非人道的历史上,世界上有一半的人口现在与单一的通用技术(GPT)相连,这是第一次。内罗毕一家网吧里的台式电脑、墨尔本一部支持数据的手机、京都一列动车无线网络上的iPad——每个都在一个网络上分配了一个互联网协议(IP)地址。

使用道具

板凳
何人来此 在职认证  发表于 2022-6-8 15:31:10 |只看作者 |坛友微信交流群
此外,由于互联网的彻底民主基础,每台设备都可以立即以微不足道的成本被动地查询对方的“在线”或“在线”状态(即不以任何方式干扰目标设备)。因此,互联网的全球影响力及其被动信息技术有力地将互联网作为社会数据科学平台与传统的数据收集方法区分开来。然而,在全球范围内生成internet查询数据所涉及的技术挑战是巨大的。要彻底探测互联网协议版本4(IPv4)寻址系统下的每个公共、分配的IP地址(即大约一半可能的4.3×10地址),可能需要24到70天[19],尽管代表性的活动扫描可以在几分钟内完成[35]。此外,随着时间的推移,IP地址块没有稳定的地理位置,因此,任何空间分析都必须能够从额外的、历史的IP/地理位置扫描中恢复某个时间点给定的活动或非活动IP地址的位置【25】。这些特征为希望分析全球互联网活动的社会科学家制造了巨大障碍,导致互联网订阅或互联网基础设施数据库被用作通用代理。在本报告中,我们展示了我们的团队成功加入了2006-2012年期间获得的超过万亿(1.5×10)个IP活动(“o-fregine”/“online”)观测数据,从而对人类行为产生的见解,这是一个高度准确、商用的IP地理定位库(图1)。

使用道具

报纸
可人4 在职认证  发表于 2022-6-8 15:31:13 |只看作者 |坛友微信交流群
我们的方法产生了一个范围和粒度无与伦比的重新定义的数据集:在122个国家的1600多个城市边界[1](城市)上,有7500万行在线/在线观测跨时空段,时间仅为15分钟。为了证明这些数据的科学潜力,我们首先对互联网本身的增长动态进行了正式描述,然后根据白天的互联网活动对全球人类睡眠时间进行了估计,最后探索了国家以下互联网普及率与经济成果之间的关系。据我们所知,每个应用程序都是同类应用程序中的第一个。二、差异技术的差异,包括之前的GPT【6,29】,是经济学文献持续关注的焦点【17,11,33】。之前的相关研究使用了各种不同的互联网渗透代理作为其快照或年度详细信息,每个代理都有一个或多个折衷之处,例如数据质量问题(在ITU调查的情况下【10,3】),或实际的互联网使用识别复杂性(在基于块或基于路由器的分配的情况下【32,40】)。相比之下,由于我们在定义明确的城市边界(城市)内每隔15分钟观察一次实际的最终用户IP连接,并由迄今为止使用的高精度地理位置数据库识别,因此我们能够每月提供对互联网扩展演变的首次准确估计。重要的是,考虑到我们系列的时间粒度和全球范围,我们能够确认互联网的分化确实遵循一个S形或逻辑形的过程(图2),模拟了文献中其他技术的分化研究,从混合玉米到蒸汽机、电气化和个人电脑。

使用道具

地板
kedemingshi 在职认证  发表于 2022-6-8 15:31:16 |只看作者 |坛友微信交流群
因此,我们将全球1647个城市的IP percapita、IP c的时间动态估计为一个逻辑过程IP ct=K1+e-α(t-β) ,其中K、α和β分别是渐近极限、梯度和中点参数。我们使用随机期望最大化算法(见S1)将该过程估计为非线性混合效应模型。通过这样做,该算法能够从所有国家的经验中学习,将每个国家视为广义或平均差异过程的偏差(在时间和梯度上)。我们发现,互联网的一般分化过程的渐近极限为每人0.32个IP,相当于一个三口之家的互联网“饱和”水平,平均约为一个IP地址。此外,我们估计,一个国家内扩散过程达到饱和的平均时间仅为16.1年(1%-99%),分别超过了蒸汽动力和电力可比GPT估计的100年和60年饱和时间【29】。我们的方法还可以详细阐述各个国家互联网普及的经验(见表A,S1)。我们的估计显示,虽然一些国家已经经历了互联网渗透饱和,但其他国家在几十年内不会达到这一点。III SleepNext,我们展示了在7年的时间内,利用IP活动的日内变化来估计645个城市的睡眠时间、醒来时间和夜间总睡眠时间。最近,互联网对清醒的人类行为以及睡眠时间和质量的影响已经成为人们关注的焦点【9,30】,实验室证据现在证实了最近电子技术对人类时间生物学的影响【7】。不出所料,著名作家一直呼吁采取“广泛的数据收集策略”,以“改变我们对睡眠的理解”[36]。

使用道具

7
nandehutu2022 在职认证  发表于 2022-6-8 15:31:19 |只看作者 |坛友微信交流群
虽然睡眠科学家已经看到了互联网作为时间生物学数据平台的潜力,但到目前为止,他们已经通过传统的、自我报告的时间使用调查方法(尽管是大规模的)设想了这一潜力。我们对这个问题的处理方式不同。我们的方法从一个简单的直觉开始,即从一台支持互联网的设备在一天开始时在线切换到在线,或者相反,在一天结束时在线切换到在线,与一个人结束或开始睡眠的时刻相关。这种联系不一定是精确的,相反,一种系统性的领先或滞后关系承载着所需的信息。利用这一假设,我们首先将地理定位的IP活动数据集转换为每个城市的日内活动轨迹。接下来,我们应用一种新的机器学习(ML)程序,在全球范围内扩大美国时间使用调查(ATUS)中包含的81个美国城市的高度详细的时间使用调查数据,这些城市的人口常年超过500000,这与我们的互联网活动数据集一致(见第2节,S1)。通过n倍交叉验证,我们的方法获得了11分钟的平均误差。因此,我们的方法将细粒度互联网活动数据转换为全球范围的被动地球生物学监测平台。我们发现,不同地区的睡眠预测在统计学上存在显著差异,这暗示了一种潜在的文化解释(图3)。一般来说,与周边卫星城市相比,大城市的睡眠时间往往更长。此外,对非常规尺度下的估计睡眠时间进行比较表明,睡眠时间趋同现象可能正在发挥作用:虽然北美在研究窗口期间基本上保持不变,但欧洲的睡眠时间减少了,而东亚的睡眠时间增加了,从而减少了睡眠时间的区域差异。

使用道具

8
nandehutu2022 在职认证  发表于 2022-6-8 15:31:23 |只看作者 |坛友微信交流群
我们的方法仅使用ATUS数据集中关于睡眠的单一类别,然而,有100多个二级活动类别可用,强调了IP活动跨多个研究领域扩展的潜力。四、收入和生产率最后,我们表明,知识产权活动数据可以用来预测当地经济活动以及部门生产率的差异。该应用程序表明,以更聚合的形式,高粒度的IPactivity数据可用于预测非常复杂的人类行为和交互的结果。我们的方法涉及到一小部分但不断增长的文献,这些文献使用其他被动收集的数据来衡量地方经济活动【20、8、28、4】,以及最近的一项研究,该研究使用了次国家层面的综合IP分配估计来研究数字种族偏袒【40】。我们使用了2006-2012年411个中等收入和高收入国家大区域的数据。这些地区由经合组织定义,通常对应于第一个国家以下级别(即美国各州或欧盟NUTS2地区)。简单比较不同地区之间的经济活动和互联网渗透率,可能会被同时推动经济和互联网活动的许多其他因素(即技术发展、文化、地理等)所混淆。相反,我们采用固定效应估计器,利用数据的时间序列特征,比较该地区经济和互联网活动随时间的变化。我们衡量经济产出的指标是某一年的区域人均国内生产总值(GDP),衡量部门生产率的指标是某一年的每个劳动者的总增加值(GVA),衡量互联网活动的指标是某一年的区域人均IP。

使用道具

9
能者818 在职认证  发表于 2022-6-8 15:31:27 |只看作者 |坛友微信交流群
在我们的估计方法中,我们考虑了一个地区的经济发展和生产率的时不变差异、一个国家和年份中所有地区共同存在的冲击以及地区特定的线性趋势。我们发现GDP pc和IP pc之间存在正相关关系(图4(a))。不考虑地区特定、国家年份特定差异和地区特定趋势的简单相关系数为0.38(见表E,S1)。一旦我们将这些其他协变量包括在内,系数将下降到0.08,这表明IP pc增长10%与区域层面GDP pc增长0.8%相关。然而,如图4(b)所示,互联网活动的增加并没有对一个区域内的所有经济部门产生一致的积极影响。从广义上讲,我们发现,通过外包(如出版、新闻、电影制作、行政支持、教育)可以应对数字竞争的服务行业,已经受到了当地知识产权集中度不断提高的影响,虽然地理位置受限的行业因互联网高度集中而蓬勃发展,这可能是由于消费者搜索成本降低和/或物流和流程效率提高(例如批发、零售、房地产、维修、美容、采矿、运输、住宿)(见表F、S1)。重要的是,分别对区域GDP和部门GVA的估计影响仅为相关性,不允许进行因果解释。V结论据我们所知,本研究是首次将整个互联网上超过万亿次的在线/在线活动观察应用于人类行为的研究。数据的高空间和时间粒度,再加上其收集的被动方式,使得IP数据非常适合分析人类行为和社会互动的广泛领域。

使用道具

10
大多数88 在职认证  发表于 2022-6-8 15:31:30 |只看作者 |坛友微信交流群
因此,我们的工作不仅扩展了定量社会数据科学的数据和方法学空间,而且首次让我们看到了全球互联网活动的潜力,从而深刻改变了这一领域的研究方式。致谢我们感谢John Heidemann和南加州大学预测项目小组提供IP活动数据和技术支持。我们感谢纽约大学斯特恩分校的Shlomo(Solly)Angel提供了城市化地图集中的人口数据。这项工作部分得到了auDAFoundation grant的支持,“一个新的、高空间分辨率的澳大利亚互联网使用数据集”(2013)。作者贡献所有作者构思和设计了这项研究。KA执行了majorcluster加入和空间聚合程序。所有作者都分析了数据,编制了图表,并编写了附录信息。SA和PR写了这篇论文。所有作者都对这篇论文进行了编辑和评论。图1:构建地理位置的Internet协议(IP)活动数据集。(a) 为internet上的每个用户分配一个唯一的ID,称为IP地址,这是一个由0到255(例如123.45.67.8)范围内的4个整数组成的序列。通过定期扫描每个IP地址来填充IP活动数据库。当用户拥有通向Internet的开放路径时,当扫描发送ICMP探测时,它将作为联机响应。来自IP的任何非响应(例如,用户调制解调器已关闭或处于睡眠状态,或有电话)将在IP活动数据库中注册为o fregine。任何在扫描时无法联机的IP地址(即IP从路由表中丢失)都会自动丢弃。(b) IP的地理位置(lon、lat)可以通过从多个远程位置重复扫描来确定。由于IP不是静态分配给用户的,因此每隔几周更新一次IP地理位置,以形成IP地理位置历史数据库。

使用道具

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
加JingGuanBbs
拉您进交流群

京ICP备16021002-2号 京B2-20170662号 京公网安备 11010802022788号 论坛法律顾问:王进律师 知识产权保护声明   免责及隐私声明

GMT+8, 2024-11-6 00:22