楼主: 能者818
1183 42

[量化金融] 利用人工智能重新获取规范#我改变了吗 [推广有奖]

11
nandehutu2022 在职认证  发表于 2022-6-14 05:57:35
这两组被二次抽样,只包括没有与metoo标签相关联的ahashtag的tweet,并删除缺失的日期。评估Metoo运动影响的最终样本量为120万条推特。该名单来自瑞典统计局(Statistics Sweden,2016a,b)。它包含所有瑞典住所使用的名字以及女性和男性姓名持有人的人数。5模型说明本节介绍了LSTM神经网络模型,因为它优于其他模型,如附录A所示。附录使用神经网络文献中使用的术语更详细地介绍了模型规格和选择。5.1机器学习概念概述。神经网络是通用函数逼近器(Hornik,1991):理论上,它们可以逼近任何函数形式,因此算法可以找到任何模型。结果基于网络搜索的广泛限制,在计算上是不可行的,并且在实践中,分析员创建了网络选择最佳功能的边界。通常,网络用于高维数据,并设计为包含许多其他类型的机器学习算法。一般而言,请参见Steinert Threlkeld(2018,第83-84页),了解关于推特用户上不存在的常见背景变量的讨论。由于下载问题,附录表B1中显示的第一年22个日期和第二年44个日期的数据部分缺失。然而,将神经网络称为模型的惯例似乎已经确立,因此我在本文中引用了神经网络SAS模型。预印本-2019年3月5日YD=[Y,X]目标,成本函数):E=-P(易建联,Fc(Xi,A,Ohm, B) )(1)其中p()是模型的性能度量,作为从属变量和候选模型fc(Xi,a,Ohm, B) PFc(),即。

12
kedemingshi 在职认证  发表于 2022-6-14 05:57:38
网络可以有不同的设计。我引入了一个候选模型Fc()的概念,以便能够将机器学习与更标准的统计方法进行比较。之所以称之为候选模型,是因为该规范还包括正则化,Ohm, 惩罚过度拟合(过度训练/通过训练网络获得的模型模型)的各种特征。通过将原始数据分为两部分来学习所获得模型的功能形式:用于模型选择的验证集和用于估计模型参数的训练集。通过在验证集上选择公式(1)中误差最小的超参数选择一个不适合的模型,即具有良好泛化性能的模型。根据绘制的训练误差项估计模型参数B,未用于估计其参数的数据评估候选模型。在大多数StandardStatistics中,没有训练验证集分割,数据分析员提出了一个候选模型fc()。相同数据的残差近似于误差项。在概念层面上,在大多数标准统计中,分析员更多地参与到寻找一个好模型的算法过程中(尤其是如果分析员在新数据上测试另一个提出的模型),而在机器学习中,自动化算法执行更多的任务。前面提到的培训和验证集。一般的机器学习方法和神经网络专用的“黑箱”方法。“黑箱”的存在是因为网络设计用于处理高维问题,因此分析员很难解释学习模型的参数。

13
kedemingshi 在职认证  发表于 2022-6-14 05:57:41
神经网络往往被用来解决预测任务;它们与模型层面的推理一致。5.2模型规格LSTM神经网络模型规格如下:P=Xn=1Yilog Fc(Xi,A,Ohm, B) +(1- Yi)日志(1- Fc(Xi,A,Ohm, B) )其中,如果他或她写在空白处,则为二进制指示符。绩效衡量指标为交叉entropyPFc(Xi,A,Ohm, B) 是一个大型参数化模型,它将搜索大量可能的函数形式来学习:Fc(Xi,a,Ohm, Bi)=fo(MXm=1bomfh(hm,t=t)+ch)fo(z)=σ(z)fh(z)=z如果z>10如果z<1P=引脚=1(Yi- Fc(Xi,A,Ohm, B) )Fc(Xi,A,Ohm, B) =XTib+aPkk=1 | bk |使用L1范数收缩大系数(第二部分)。相当于最小化验证数据集上的性能度量。预印本-2019年3月5日设计网络中的正则化通过超参数输入隐藏节点数(M),它决定BomHm,t=教学hm,t=t-过程由以下参数指定:hm,t=tanh(cm,t)σ(xt,iBu1m+hm,t-1Bu2m+cum)cm,t=cm,t-1σ(xt,iBf1m+hm,t-1Bf2m+cfm)+tanh(xt、iBc1m+hm、t-1Bc2m+ccm)σ(xt,iBp1m+hm,t-1Bp2m+cpm)模型是一个大参数模型,将在训练过程中减少。网络中的输入是字向量。单词向量的使用如今在自然语言中很常见,xt,i=dt,ibrviable encoded vectors,dt,i,表示第i条推文中的第t条单词,通过Brmatrix减少为单词向量xt,i。每个单词向量是表示一个单词的k维向量,每个单词向量元素是Brmatrix中“查找”的参数。5.3单词向量向量可能会提高模型的性能。下面是对模型第一部分中执行的降维的直观解释,从dummyvariable编码向量到word向量。单词通常被认为是虚拟变量,但它可能不是一个好的表示。

14
可人4 在职认证  发表于 2022-6-14 05:57:45
让我们以牛、女人和公牛为例。公式化为三个虚拟变量意味着它们彼此正交,如图1左侧所示。这显然不是编码的情况。单词可以被编码到许多不同的向量空间中,对于它是否为Mikolov等人(2013)开发的单词到单词向量提供编码,没有任何固有的真理。这样的词向量有很好的性质,因为它是好的。它是否是一个好的表示,取决于所获得的模型在测试集上的预测能力。接下来:第二个超参数是训练时间,因为误差函数是通过在每一轮(随机梯度下降)使用随机选择的观察值更新候选模型来进行数值优化的。第三个超参数是每个更新中存在的OM:s的百分比,这与计算效率模型平均技术(辍学)有关。含义。预印本-2019年3月5日图1:相关论文中的虚拟变量表示(左)和词向量表示(右)示例,Bolukbasi et al.(2016)以不需要的方式将某些词分类为性别,并显示了词向量中不需要的性别维度,以便在不同的下游应用中使用。Bolukbasi等人(2016年)从词向量中预先定义了不需要的性别词。5.4词语掩蔽a模型将使用男孩-女孩和安娜-埃里克等词语来预测推特是关于男性还是女性的。有人可能会反驳。例如,在蒙面数据中,活跃词boygirl取代了原始词boy和girl。

15
何人来此 在职认证  发表于 2022-6-14 05:57:48
两者主模型的掩码版本使用的单词比未掩码版本少3%。用于掩蔽的单词分为三组;从神经网络或朴素贝叶斯模型中的高预测词列表中提取成对的男女单词、名人的姓氏(男孩-女孩)。我根据预先训练好的单词向量(男孩的-女孩的,男孩的-女孩的),用单词各自的邻居扩展了列表。我认为一些预测性很强的词是不可能映射出来的,比如巫婆和火绒人,而且这些词是不会被掩盖的。名称。有关列表,请参见在线附录中的“用于屏蔽的单词”表。6模型结果性能模型为单层神经网络LSTM模型。该表将其与朴素贝叶斯模型、性能指标、ROC AUC分数一起列出。ROC AUC得分为0.5意味着该模型没有预测能力:该模型无法区分文本中的性别。得分为1意味着该模型具有完美的预测能力:该模型如需更多详细信息,请参见附录A。A预印本-2019年3月5日,如mumdad替换性别词,如mum和dad。表4中的ROC AUC得分检查显示,未屏蔽和屏蔽版本的ROC AUC得分分别为0.039和0.026。神经网络模型允许使用顺序信息,即一个词在另一个词之前,结果表明,这在预测他/她变量时非常有用。朴素贝叶斯模型只使用与组合在一起的单词的相对频率。该表还显示,正如预期的那样,模型的屏蔽版本的分数会下降。

16
kedemingshi 在职认证  发表于 2022-6-14 05:57:51
该神经网络模型的任务版本ROC AUC得分为0.76,表明性别确实仍然可以分离。无掩码神经网络朴素贝叶斯神经网络朴素贝叶斯ROC AUC 0.8496 0.8107 0.7629 0.7372非平衡采样精度0.8242 0.8058 0.7748 0.7522灵敏度0.4020 0 0.4015 0.2133 0.3708特定性0.9656 0.9412 0.9629 0.8799平衡采样精度0.7529 0.7224 0.6850 0.6619灵敏度0.7976 0.7308 0.7459 0.6777特定性0.7091 0.7142 0.625 5 0.6464注:ROC AUC:a与阈值无关的性能度量值范围为0.5(modelover total tweets。敏感性:正确预测she tweets total she tweets。特异性:正确预测he tweets total he tweets。表4:测试集的模型评估表4进一步说明了通过测量准确性、敏感性和特异性得出的主要结果。准确性是多少敏感性是模型分类在she tweets total上正确的she tweets。Speci fi city是他在推特上发布的模型分类相对于他发布的推特总数正确的数量。非平衡样本小组表明,神经网络模型的屏蔽版本的准确率为77%,而朴素贝叶斯模型的准确率为75,分类正确率为96%。掩蔽神经网络模型主要使用对he类进行分类的简单化,这是由于在决定优化精度时存在不平衡类。他发推的数量大约是她发推的三倍,通过优化准确性,该模型考虑到任何推特的最佳猜测是它属于he类。阶级不平衡的程度很大,在100条推特中,74.6条包含he,25.4条包含she。阶级失衡似乎并不是瑞典推特所特有的。

17
大多数88 在职认证  发表于 2022-6-14 05:57:54
she类从维基百科的23%到瑞典热门博客的43%不等。类似程度的阶级不平衡阶级不平衡并不是性别规范的反映,根据我的定义,它是一组软边界,定义了一个变量,同时考虑到推特的大部分是关于男性的。阶级失衡本身就是一个优化的结果,评估了我的事件。瑞典推特并不是因为女性被被动提及;在这两个班级中加入“他”(honom)和“她”(henne)这两个词只会使她的班级增加0.7个百分点。大多数推特用户都是男性,而不是谈论其他男性,因为随机推特用户成为男性的可能性为56-58%(ISS,2016)。预印本-2019年3月5日尽管选择了优化精度,但这并不是说明在任何一类中最大化模型预测能力的选择的一个方便的观点。平衡样本是通过随机丢弃测试集中多余的he-tweet,直到存在相等数量的he-and-she-tweet来创建的。该模型为训练值,具体为概率分布。ROC AUC得分是首选的绩效指标,因为它与选择的任何阈值无关。在前一节中,选择了阈值来优化精度,但阈值可以通过许多不同的方式选择。balance sample-面板显示阈值优化62%的结果。换言之,当推特上关于女性的内容与男性的内容一样多时,该模型预测,她在推特上的正确率为75%。中值预测概率对单词进行排序,我称之为单词颜色(WC),因为每个单词都会根据其所属推文的预测“着色”。

18
nandehutu2022 在职认证  发表于 2022-6-14 05:57:57
WC越高,推特ClassifiedWeets中使用的单词就越频繁,预计属于she类。表5显示,在预测为男性的推特中,可以找到与体育相关的词语。在推特上可以找到与个人关系相关的词语,这些词语被预测为关于女性的,尽管这些词语是伪装的。13 14表5:蒙面模特英国瑞典队预测概率分布的常用词0.01合同kontrakt0.02联合队0.03比赛对手0.03球员spelare0.04俱乐部klubb0.05赛季s"asongen0.06进球mal0.07比赛0.08比赛0.09打spela0.10 boll bollen0.11球队落后0.13打spelade0.14足球Fotboll继续下页机制网络。然而,一个生成网络仍然会选择它所发现的东西的例子,例如一条推特上包含单词he的“mean”句子。注意力机制只能说明网络如何预测个人推特。因此,目前我不作这种延伸。伪装成女士(tanter),女士(tant)和邻居女士(granntanter)是(见用于蒙面的单词表。表明体育与个人关系的模式仍然存在。预印本-2019年3月5日表5-续上页WC English Swedish0.15罚则straff0.16战地计划0.18 ready klar0.18 play spelar0.18 missar0.20 em em0.21 europe 0.23 the Chances 0.23 Better s"amre0.25 president president 0.25<familyname> <familyname>0.27 short kort0.27 leave l"amnar0.27 last f"orra0.28 score po"ang0.30 bad dalig0.32 minst0.32 last senaste0.34 manage lyckas0.34在f"ore0.35对阵mot0.37之前仍有kvara0.35变差0.39好的bra0.40操fan0.40在0.43像ju0.43来的kommer0.44在i0.44有0.44。

19
大多数88 在职认证  发表于 2022-6-14 05:58:00
.0.45<用户>0.46,0.47、0.48、0.50、0.51、0.520、0.53、0.54、0.55、0.57、0.57、0.58、0.59、0.59、0.59、0.59、0.59、0.61、0.62、0.62、0.63、0.63、0.630、0.64、0.66、0.66、0.66、0.66 66《达赫特森》(TheDaughtheson)0.66我的min0.67《兄弟姐妹》(brothersister)0.69《兄弟姐妹》(Sondaugher)><dotterson>0.71 friend<v"aninnav"an>0.72<mum\'sdad>0.72<GrandfatherGrander>0.74 Farfarmator>0.75<mumdad>0.76 fi继续下一页A预印本-3月5日,2019年表5–续上页WC English Swedish0.77<thewomenthemen>kvinnornam"annen>0.77<GrandfatherGrander>0.78粉红色玫瑰0.80按年化妆0.81指甲Naglar 0.82 hagen hagen 0.82饼干Kakan 0.82 pippi0.86 noora noora 0.87书本0.87撒切尔夫人0.88强奸valdtagen0.90 zara zara0.90礼服kl"anning0.91孕妇0.92veil sl"oja0.94 the lady tanten0.94<hishers><hanshennes>1.00 lift lyft1.00 credit 1.00 free 1.00 casino casino1.00 code注:WC接近零的最“男性”单词位于表格顶部,aWC接近一的最“女性”单词位于表格底部。该表是按以下方式生成的:每个单词的预测概率中值是根据每条推文的预测概率计算出来的,称为单词颜色(WC)。所有单词的WC分为20组,每个分位数显示5个最频繁的单词。该表在测试集上生成,并通过掩蔽神经网络模型进行评估。瑞典语的翻译是由作者完成的。7#我是否改变了瑞典的性别规范?7.1瑞典的#梅托运动梅托运动始于美国,并迅速传播到瑞典。

20
可人4 在职认证  发表于 2022-6-14 05:58:03
2017年10月17日上午,人们开始在社交媒体上分享和阅读metoo帖子:#metoo。让人们意识到问题的严重性。在瑞典举办首次活动后的几周内,瑞典不同经济部门的女性聚集在一起,我选择以总推文数为分母来呈现Metoo运动,因为活动本身与10月17日的数字上升相关,相当于包含Metoo标签的所有标签推文的4%。预印本——2019年3月5日至2018年4月,平均0.028%的推特包含标签。注:“metoo标签”系列包括标签的外观。此外,“metoo标签+单词”系列还包括单词metoo的外观,不带#前缀。阴影区域表示缺少日期。图2:Metoo事件导致人们改变了对女性的性别规范,从而改变了他们在文本中的表达方式。事件发生后的讨论普遍涉及到性别问题。这种辩论可能会导致人们希望有一个较少的性别陈规定型环境,但也可能会变得更加性别陈规定型。不同年龄的人对梅托事件的体验可能存在差异。年轻一代是传统媒体,如电视新闻广播和报纸。如果没有社交媒体,theMetoo事件的影响更可能是媒体人物被指控性骚扰。较年轻的人群更有可能对梅托事件有强烈的体验。本文捕捉了瑞典推特用户的规范和影响。根据ISS(2016)的一项调查,瑞典18%的互联网用户使用推特,8%的用户发布推特。

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
扫码
拉您进交流群
GMT+8, 2026-1-27 02:15