楼主: 能者818
951 24

[量化金融] 利用对抗性方法检测潜在空间中的会计异常 [推广有奖]

11
可人4 在职认证  发表于 2022-6-24 13:16:40
因此,违规类型还揭示了调查分录的异常类别,如下所述:模式差异(MD):显示异常属性值(全局异常)的日记账分录会导致与施加的多模态先验值的差异增大,例如,在本工作中,各向异性高斯(u,I),其中u∈ Rmde在τ模式u={u…uτ}的AAE训练中,条目将通过正则化“推”到先验的高概率密度区域。为了能够区分所施加的先验和所学习的聚合后验,AAE旨在将大多数条目保持在先验的高密度区域(模式)内。相反,与罕见或异常日记账分录相对应的表示将倾向于将er从外加模式中分离出来,置于先验低密度区域。我们利用这一特性,得到了一个条目的子模式differencedaszi及其最近的模式μτ。形式上,我们导出了用dτθ表示的模散度*(zi;u)=最小τ∥zi公司- uτ∥最优模型参数θ下*. 最后,我们计算归一化模式发散量MD,表示为:MDτθ*(xi)=Dτθ*(zi;u)- Dτθ*,心τθ*,最大值- Dτθ*,min,(3),其中dminandmax表示由Dθ给出的预期模式发散的最小值和最大值*和最近模τ。重建错误(RE)lous属性值共现(局部异常)往往会导致重建错误增加[]。这是由AAE体系结构的压缩能力造成的。Anomalouseach entryxian及其重建^xias the squared dierencedenoted byEτθ*(xi;^xi)=k'Ikj=1(xij-^xij)在最优模型参数θ下*.

12
mingdashike22 在职认证  发表于 2022-6-24 13:16:44
最后,我们计算归一化重建误差RE,如:REτθ所示*(xi;^xi)=Eτθ*(xi;^xi)- Eτθ*,矿山τθ*,最大值- Eτθ*,min,(4),其中EminandeMax表示由Eθ给出的原始重建误差的最小值和最大值*和最近模τ。异常得分(AS):量化agiven日记账分录的两个特征,我们可以合理地得出以下结论:(1)该分录是否正常;(2)如果它是由“常规”业务活动审计场景创建的,我们建议根据每个日记账分录的标准化重建错误Reregulated and normalizedmode Difference MD对其进行得分:ASτ(xi;^xi)=α×REτθ*(xi;^xi)+(1- α)×MDτθ*(xi),(5)对于每个单独的日记账条目xind最优模型参数θ*和最近模τ。我们引入α作为平衡这两个特性的因子。4实验设置。基于两组日记账分录数据集,我们评估了该评分的异常检测性能。4.1数据集和数据准备通常,SAP ERP系统主要在两个数据库表中记录日记账分录及其相应属性:(1)“会计凭证标题”表(技术上为“BKPF”)是“BKPF”和“BSEG”表中最具区别性的日记账分录属性的子集。在我们的实验中,我们使用了两个日记条目数据集:areal world和一个称为数据集a和KDD ADF’19的合成数据集,2019年8月5日,阿拉斯加州安克雷奇市Schreyer和Saarov等人。图4:数据集B的AAE潜在空间分布示例(具有渐进式网络训练):由τ=高斯(左)的混合物组成的强制先验分布p(z),100个训练时段后的学习聚合后验分布θ(z | x)(中),2000个训练时段后的学习聚合后验分布θ(z | x)(右)。下面的数据集B。

13
mingdashike22 在职认证  发表于 2022-6-24 13:16:47
数据集A是SAP ERP实例的摘录,包含单个规模年。数据集B是[]中显示的合成数据集的摘录。记录的大多数属性包括过帐日期、帐户、过帐类型和货币。我们对分类日记账分录属性进行预处理,以获得每个日记账分录的二进制(“一个热”编码)表示。为了对实验进行详细分析和定量评估,我们注入了一小部分合成的全局ANDV。日常常规条目。注入的全球异常由原始数据中不明显的属性值组成,而正常情况下,(2)合成局部异常或(3)非合成规则输入。以下描述性统计数据总结了这两个数据集:o数据集A:共包含307457个日记账分录行项目,包括六个分类属性和两个数字属性。编码导致总共401个encodedxi∈ R、 已将合成异常日记账分录注入数据集中。这些条目包括55(0.016%)个全球异常和40(0.015%)个局部异常数据集B:共包含533009个日记账分录行项目,由六个类别属性和两个数字属性组成。编码结果共有618个编码的dixi∈ R、 根据严格的数据隐私规定,数据提取过程的所有日记条目属性。为了确保数据的完整性,日记账分录以。g。

14
能者818 在职认证  发表于 2022-6-24 13:16:50
SAP“RFBILA00”报告。原始数据集可通过Kaggle预测建模和分析竞赛平台公开获取,并可通过以下链接获得:https://www.kaggle.com/ntnu-testimon/paysim1..alies局部异常30例(0.005%)。图3说明了在和审计期间主要调查的属性的示例性分布,即“账户密钥”属性值,以及“记账密钥”(技术上为“BSCHL”)数据集B.4.2并行对抗式自动编码器培训。编码器网络Qθ使用漏Rectied LinearUnit(LReLU)激活函数[]除最后一个“瓶装”外,PθdД网络在所有层中使用LReLU,但使用Sigmoid激活函数的输出层除外。表1描述了编码器和解码器网络在间隔η内的架构(architec)[34]∈[-05,-02],鉴别器网络的学习率通过区间η∈ [-07,-03]. 最终,我们使用以下恒定学习速率来学习每个数据集的稳定模型:o数据集a:η=-4对于编码器和解码器网络,η=10-5用于鉴别器网络;和,o数据集B:η=-3对于编码器和解码器网络,η=10-5用于鉴别器网络。我们使用小批量SGD对AAE进行最多10000次培训,并在重建损失收敛时应用提前停止。

15
何人来此 在职认证  发表于 2022-6-24 13:16:53
根据[],我们将LReLUs的比例因子设置为α=。4并将AAE参数初始化为使用对抗式自动编码器神经网络KDD-ADF’19检测潜在空间中的会计异常,2019年8月5日,阿拉斯加州安克雷奇,表1:每层神经元l 在组成AAE架构的不同网络中【31】:编码器qθ、解码器pθ和鉴别器dД神经网络。Net数据集l = 1 2 3 4 5 6 7 8qθ(z | x)A 256 128 64 32 16 8 4 2pθ(^x | z)A 2 4 8 16 32 64 128 256dД(z)A 128 64 32 16qθ(z | x)B 256 64 16 4 2-pθ(^x | z)B 2 4 16 64 256-dД(z)B 256 64 16 4 1-在重建和正则化阶段。我们使用β=。β=.优化网络参数。在重建阶段,我们使用组合损失函数Lθ来优化编码器Qθpθ(1)分类属性值encodingsxicat的交叉熵重建误差LCEθ,例如编码数值属性值encodingsxicon的编码通用账本eθ,例如编码的记账量,形式上表示为:Lθ(xi;^xi)=γLCEθ(xicat;^xicat)+(1- γ)LMS Eθ(xicon;^xicon)(6)是γ平衡两种损失的参数。在这项初始工作中,当优化鉴别器dν的参数时,我们γ=我们根据方程2计算对抗损失。由τ多元各向同性高斯n(u,I)的混合物组成的先验分布p(z),其中u∈ R、 因此,在对τ进行采样时,τ是我们评估的超参数∈ {,,}τ=在100和2000个训练周期后。5实验结果在本节中,我们rst通过强加的先验分布来评估日记账分录的语义划分。然后,我们检查每个语义分区检测到的异常。语义划分:对日记账分录进行划分并评估会计规范每个模式学习的c语义。

16
可人4 在职认证  发表于 2022-6-24 13:16:57
图5显示了数据集A的划分结果,其中τ=5高斯(关于改变τ和数据集B的结果,请参见附录X)。可以看到,对日记账分录会计规范的审查c每个模式和数据集捕获的语义:o数据集A:每个分区的条目显示出很高的语义相似性,而每个分区对应一个genentries过账,(2)传出的客户发票,以及(3)物料移动数据集B:同样,每个分区的条目显示出高度的语义相似性,并对应于以下一般会计流程(1)国外和国内发票过账,(2)货物采购,(3)人工付款。施加τ时的实验结果∈ 每个数据集的潜在空间上的{,,}高斯分布在这项工作的附录中。结果表明,AAE能够学习一组给定日记账分录的语义划分,从而分离出一组给定待审计会计数据上生成的分录。

17
大多数88 在职认证  发表于 2022-6-24 13:17:00
此外,它允许客观地获得具有代表性和可解释性的数据样本,从而降低审计抽样风险。表2:平均异常得分,根据期刊条目等级和α=。通过施加一个由τ=(,and)高斯混合构成的先验分布,并将theAAE训练5000(10000和15000)个时期(方差源自不同的参数初始化种子)。类别数据AS,τ=5 AS,τ=10 AS,τ=15全局A 0.295±0.233 0.448±0.207 0.532±0.244局部A 0.248±0.276 0.275±0.143 0.446±0.202常规A 0.045±0.076 0.053±0.085 0.110±0.034全局B 0.508±0.249 0.442±0.245 0.437±0.241局部B 0.357±0.260±0.164±0.148 0.273±0.228常规B 0.046±0.061 0.070±0.041 0.028±0.029正常检测:此外,我们分析了所提出的异常评分的异常检测能力。表2描述Sasτ∈ {,,}在两个数据集中。图5示例性地显示了为每个内部条目和相应分区τ的数据集A(数据集B的结果见附录)获得的异常分数,以及分数重建误差的分布α和α)提高了检测数据集中局部会计异常的能力。我们还定性评估了异常注入评估数据集的特征。

18
mingdashike22 在职认证  发表于 2022-6-24 13:17:03
因此,我们在模式常规条目的上下文中解释每个模式τ检测到的异常:o全局异常显示与很少观察到的属性值和会计“异常”的语义相似性较低,例如异常采购订单金额或高折旧、年末以及减值过账2019年8月5日,阿拉斯加州施雷耶安克雷奇(Anchorage,Alaska Schreyer and Sa)KDD ADF’19的局部异常显示出高度语义相似性arov等人。图5:在对5000个时代的AAE进行训练并施加τ=高斯(左)的混合后,学习了数据集A中包含的日记条目的AAE潜在空间表示,α=。在每个日记账条目和对应的模式uτ(中心)中,异常得分分布(粗体线denes中值、上限和下限ne的。和分布的分位数)通过渐进式网络培训获得的每个日记条目类(右)。图6:在数据集A上对5000个时期的AAE进行训练后,通过应用不同的RE与MD平衡因子α获得的异常得分(关于改变τ和数据集B的结果,请参见附录),并施加τ=高斯的混合。可以观察到,降低α可以提高对全球异常的检测(左)。相反,增加α会提高局部异常的检测能力(右)。切换部门、过帐的tem用户显示通用总账账户组合。综上所述,这些结果使我们得出结论,建议的异常评分可以用作高度自适应的异常评估财务会计数据。此外,它还提供了模式规则日志条目语义的上下文。

19
大多数88 在职认证  发表于 2022-6-24 13:17:07
审计师对检测到的异常情况的初步反馈不仅从会计角度支持其相关性。6 SUMMARYnetworks可以接受培训,学习真实ERP系统中记录的日记账分录的语义有意义的表示。Wealso也提供了初步证据,证明这种表述提供了积极的过程。我们认为,所提出的方法使审计师或法务会计师能够以可解释的方式对日记账分录进行抽样,以进行详细审计,从而降低“抽样风险”。此外,我们还提出了一个结合和条目的学习表示和重构错误的级别异常得分。我们证明,SCORINGS可以解释为一种高度自适应和无监督的异常评估,用于检测全球和会计异常。我们计划对日记账分录的潜在空间分离进行更详细的调查。鉴于各组织每年记录的日记账分录数量巨大,自动语义解列可提高待审核分录的透明度,并可为审核人员节省大量时间。2019年8月5日,阿拉斯加州安克雷奇,使用对抗式自动编码神经网络KDD-ADF’19检测潜在空间中的会计异常感谢Deutschereview统计部门的成员并致辞。本作品中表达的观点仅为作者的观点,不一定是ect德国联邦银行或普华永道国际有限公司及其网络的观点rms。参考文献【1】ACFE。2018年,《向各国报告职业欺诈和虐待》,2018年全球欺诈研究。Certi协会教育欺诈审查员(ACFE)。https://s3-us-west-2.amazonaws.com/acfepublic/2018-report-to-the-nations.pdf[2] AICPA。2002年,在财务报表审计中考虑舞弊问题。

20
kedemingshi 在职认证  发表于 2022-6-24 13:17:10
美国认证协会教育公共会计师协会(AICPA)。1719–1770页。https://www.aicpa.org/Research/Standards/AuditAttest/DownloadableDocuments/AU-00316.pdf[3] Farzaneh A.Amani和Adam M.Fadlalla。2017年,《数据挖掘在会计中的应用:文献回顾和组织框架》。《国际会计信息系统杂志》24(2017),32–58。[4] 银鱼。2012年。使用自组织映射审核日记账分录。第十八届美洲信息系统会议记录。西雅图,华盛顿,1-10。[5] 银鱼。2013年,使用极值理论审计日记账分录。[6] Martin Arjovsky、Soumith Chintala和Leon Bottou。2017年,Wasserstein gan。arXiv预印本arXiv:1701.07875(2017)。[7] 斯蒂芬·贝、克里希纳·库马拉斯瓦米、马库斯·安德勒、罗希特·库马尔、大卫·姆施泰尔、阿尔马登大道和圣何塞。2006年,大规模异常检测。IEEE,75–86。[8] 弗兰克·本福德。反常数定律。《美国哲学学会会刊》78,4(1938),551-572。[9] LOF:识别基于密度的局部异常值。2000年AcmSigmod数据管理国际会议记录。1–12.[10] Raghavendra Chalapathy和Sanjay Chawla。2019年,针对异常检测的深度学习:一项调查。arXiv预印本arXiv:1901.03407(2019)。[11] Choi Hyunson和Jang Eric。2018年。用于稳健异常检测的生成集成。arXiv预印本arXiv:1810.01392(2018)。[12] R.S.Debreceny和G.L.Gray。2010年,《fraudSystems数据挖掘日记账条目》11,3(2010),157–181。[13] Ugo Fiore、Alfredo De Santis、Francesca Perla、Paolo Zanetti和Francescoe信用卡欺诈检测的客观性。信息科学(2017)。[14] 泽维尔·格罗洛和约舒亚·本吉奥。2010年,了解di培养深度前馈神经网络。

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
jg-xs1
拉您进交流群
GMT+8, 2026-1-8 10:32