楼主: mingdashike22
865 13

[量化金融] 比特币反洗钱:图卷积实验 [推广有奖]

  • 0关注
  • 3粉丝

会员

学术权威

78%

还不是VIP/贵宾

-

威望
10
论坛币
10 个
通用积分
74.0616
学术水平
0 点
热心指数
0 点
信用等级
0 点
经验
24862 点
帖子
4109
精华
0
在线时间
1 小时
注册时间
2022-2-24
最后登录
2022-4-15

楼主
mingdashike22 在职认证  发表于 2022-6-25 06:57:12 |AI写论文

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币
英文标题:
《Anti-Money Laundering in Bitcoin: Experimenting with Graph Convolutional
  Networks for Financial Forensics》
---
作者:
Mark Weber, Giacomo Domeniconi, Jie Chen, Daniel Karl I. Weidele,
  Claudio Bellei, Tom Robinson, Charles E. Leiserson
---
最新提交年份:
2019
---
英文摘要:
  Anti-money laundering (AML) regulations play a critical role in safeguarding financial systems, but bear high costs for institutions and drive financial exclusion for those on the socioeconomic and international margins. The advent of cryptocurrency has introduced an intriguing paradox: pseudonymity allows criminals to hide in plain sight, but open data gives more power to investigators and enables the crowdsourcing of forensic analysis. Meanwhile advances in learning algorithms show great promise for the AML toolkit. In this workshop tutorial, we motivate the opportunity to reconcile the cause of safety with that of financial inclusion. We contribute the Elliptic Data Set, a time series graph of over 200K Bitcoin transactions (nodes), 234K directed payment flows (edges), and 166 node features, including ones based on non-public data; to our knowledge, this is the largest labelled transaction data set publicly available in any cryptocurrency. We share results from a binary classification task predicting illicit transactions using variations of Logistic Regression (LR), Random Forest (RF), Multilayer Perceptrons (MLP), and Graph Convolutional Networks (GCN), with GCN being of special interest as an emergent new method for capturing relational information. The results show the superiority of Random Forest (RF), but also invite algorithmic work to combine the respective powers of RF and graph methods. Lastly, we consider visualization for analysis and explainability, which is difficult given the size and dynamism of real-world transaction graphs, and we offer a simple prototype capable of navigating the graph and observing model performance on illicit activity over time. With this tutorial and data set, we hope to a) invite feedback in support of our ongoing inquiry, and b) inspire others to work on this societally important challenge.
---
中文摘要:
反洗钱(AML)法规在保障金融体系方面发挥着关键作用,但为机构带来了高昂的成本,并推动了社会经济和国际边缘群体的金融排斥。加密货币的出现带来了一个有趣的悖论:假名可以让罪犯隐藏在显而易见的地方,但开放数据为调查人员提供了更多的权力,并支持法医分析的众包。同时,学习算法的进步显示了AML工具包的巨大潜力。在本研讨会教程中,我们将利用这个机会来协调安全原因与金融包容性的原因。我们提供了椭圆数据集,这是一个时间序列图,包含超过20万个比特币交易(节点)、234K个定向支付流(边缘)和166个节点特征,包括基于非公开数据的特征;据我们所知,这是任何加密货币中公开的最大标记交易数据集。我们分享了使用逻辑回归(LR)、随机森林(RF)、多层感知器(MLP)和图卷积网络(GCN)预测非法交易的二元分类任务的结果,其中GCN是一种新兴的获取关系信息的新方法。结果显示了随机森林(RF)的优越性,但也要求算法工作将RF和图形方法各自的功能结合起来。最后,我们考虑可视化以进行分析和解释,鉴于真实世界交易图的大小和动态性,这很难实现,我们提供了一个简单的原型,能够导航图并观察模型在非法活动方面的性能。通过本教程和数据集,我们希望a)邀请反馈以支持我们正在进行的调查,b)鼓励其他人应对这一重要的社会挑战。
---
分类信息:

一级分类:Computer Science        计算机科学
二级分类:Social and Information Networks        社会和信息网络
分类描述:Covers the design, analysis, and modeling of social and information networks, including their applications for on-line information access, communication, and interaction, and their roles as datasets in the exploration of questions in these and other domains, including connections to the social and biological sciences. Analysis and modeling of such networks includes topics in ACM Subject classes F.2, G.2, G.3, H.2, and I.2; applications in computing include topics in H.3, H.4, and H.5; and applications at the interface of computing and other disciplines include topics in J.1--J.7. Papers on computer communication systems and network protocols (e.g. TCP/IP) are generally a closer fit to the Networking and Internet Architecture (cs.NI) category.
涵盖社会和信息网络的设计、分析和建模,包括它们在联机信息访问、通信和交互方面的应用,以及它们作为数据集在这些领域和其他领域的问题探索中的作用,包括与社会和生物科学的联系。这类网络的分析和建模包括ACM学科类F.2、G.2、G.3、H.2和I.2的主题;计算应用包括H.3、H.4和H.5中的主题;计算和其他学科接口的应用程序包括J.1-J.7中的主题。关于计算机通信系统和网络协议(例如TCP/IP)的论文通常更适合网络和因特网体系结构(CS.NI)类别。
--
一级分类:Computer Science        计算机科学
二级分类:Computers and Society        计算机与社会
分类描述:Covers impact of computers on society, computer ethics, information technology and public policy, legal aspects of computing, computers and education. Roughly includes material in ACM Subject Classes K.0, K.2, K.3, K.4, K.5, and K.7.
涵盖计算机对社会的影响、计算机伦理、信息技术和公共政策、计算机的法律方面、计算机和教育。大致包括ACM学科类K.0、K.2、K.3、K.4、K.5和K.7中的材料。
--
一级分类:Computer Science        计算机科学
二级分类:Machine Learning        机器学习
分类描述:Papers on all aspects of machine learning research (supervised, unsupervised, reinforcement learning, bandit problems, and so on) including also robustness, explanation, fairness, and methodology. cs.LG is also an appropriate primary category for applications of machine learning methods.
关于机器学习研究的所有方面的论文(有监督的,无监督的,强化学习,强盗问题,等等),包括健壮性,解释性,公平性和方法论。对于机器学习方法的应用,CS.LG也是一个合适的主要类别。
--
一级分类:Quantitative Finance        数量金融学
二级分类:General Finance        一般财务
分类描述:Development of general quantitative methodologies with applications in finance
通用定量方法的发展及其在金融中的应用
--

---
PDF下载:
--> Anti-Money_Laundering_in_Bitcoin:_Experimenting_with_Graph_Convolutional_Network.pdf (7.14 MB)
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

关键词:比特币 反洗钱 Applications Transactions Quantitative

沙发
kedemingshi 在职认证  发表于 2022-6-25 06:57:19
比特币反洗钱:金融取证GraphConvolutional网络试验马克·韦伯*MIT-IBM Watson AILabmrweber@mit.eduGiacomo多梅尼科尼*IBM ResearchGiacomo。Domeniconi1@ibm.comJieChenMIT IBM Watson AILabchenjie@us.ibm.comDanielKarl I.Weideleimb Research AIdaniel。karl@ibm.comClaudio BelleiEllipticclaudio@elliptic.coTom RobinsonElliptictom@elliptic.coCharlesE.LeisersonMITCSAILcel@mit.eduABSTRACTsafeguarding 金融系统,但承担着高昂的机构和驱动成本对社会经济领域的人进行金融排斥,并隐藏在显而易见的地方,但开放数据为研究者提供了更大的力量学习算法方面的优势显示了AMLtoolkit的巨大潜力。在本研讨会教程中,我们将激励opportunity toBitcoin transactions(nodes),234K定向支付ows(边缘),以任何加密货币公开提供。我们共享abinary classi的结果阳离子任务使用Logistic回归(LR)、随机森林(RF)、多层预测非法交易,GCN是一种新兴的获取关系信息的新方法。结果显示了随机森林(RF)的优越性,但也要求算法将RF和图方法各自的能力结合起来。最后,我们考虑可视化以进行分析和解释,即di随着时间的推移,邪教在非法活动方面提供了模型性能。通过这项我们正在进行的调查,以及b)鼓励其他人应对这一社会上非常重要的挑战。*两位作者对这项研究的贡献不相上下。课堂使用是免费的,前提是不为专业人士制作或分发副本或commercial advantage,且副本上附有本通知和首页。必须尊重ACMM以外的其他人拥有的本作品组件的版权。允许信用提取。

藤椅
nandehutu2022 在职认证  发表于 2022-6-25 06:57:22
要以其他方式复制或重新发布、在服务器上发布或重新分发到列表,需要事先指定c许可和/或afee。从请求权限permissions@acm.org.KDD\'19金融异常检测研讨会,2019年8月,美国AK安克雷奇(c)2019计算机械协会。CCS概念o安全和隐私→ 数据库活动监控;o计算方法学→ 机器学习o应用计算→ 网络取证。关键词FRENSICS、加密货币、反洗钱、可视化ACM参考格式:马克·韦伯、贾科莫·多梅尼科尼、陈杰、丹尼尔·卡尔·魏德尔、克劳迪奥·金融取证。《ACM会议记录》(KDD’19金融异常检测工作室)。ACM,美国纽约州纽约市,7页。1走向金融包容性“贫穷代价高昂。”这是advocatesfor的共同信条金融包容性。这说明,边缘人群的参与相对成本较高。银行账户)在一定程度上是增量和难民的意外后果[]。大约有17亿成年人没有银行,对违规行为处以罚款——“低价值”客户联合国可持续发展目标第10.7号目标到2030年将减少到3%。[12]然而,反洗钱法规不能被简单地视为过度人性化的交易CKK和恐怖组织引发了激烈的humanKDD’19金融异常检测研讨会,2019年8月,安克雷奇,AK,USA Weber和Domeniconi,et al.爱沙尼亚,该研讨会为丹麦银行和德意志银行等机构提供了约2000亿美元的资金,损失达数十亿美元【23】。洗钱不是一种没有受害者的犯罪,目前的传统方法金融系统在阻止它方面做得很差。

板凳
nandehutu2022 在职认证  发表于 2022-6-25 06:57:25
在不减少数据分析所面临的这一复杂挑战的情况下,我们提出了一个问题:有了正确的工具和开放的数据,我们能否帮助协调安全需求与金融包容性?1.1加密货币世界中的反洗钱比特币[]引入的加密货币的出现引发了支付技术和企业兴趣的爆发,其重点是实现低成本、点对点的现金汇款,并支持金融包容性。与这些企业家一起成长的还有一个学术界和政策倡导者社区,支持加密货币的最新监管考虑。比特币的坏名声打消了这种兴奋。许多犯罪分子利用比特币的假名进行勒索软件攻击,并经营黑市以交换非法商品和服务,从而隐藏在公众视线之外。2019年5月,1970年的金融犯罪执法网络(FinSecretary Act(BSA))适用于加密货币,或其他金融恐怖主义nance和其他金融犯罪。这些评估是产品或服务ered。评估必须告知客户关系管理层,包括实施与风险相称的控制措施;换言之,MSB必须确保其客户能够确定其代表机构的风险水平。”合规和政策界争论不休的话题。在实践中,最具挑战性的一个方面是客观地执行要求,不仅要了解客户,还要了解客户的客户。在传统的碎片化数据生态系统中nance,这方面的法规遵从性通常是执行的。完整的图形交易网络数据是公开的,尽管是假名和未标记的形式。法国情报公司已经开始提供针对加密货币领域的反洗钱解决方案。

报纸
kedemingshi 在职认证  发表于 2022-6-25 06:57:28
虽然比特币的假名对罪犯来说是一个优势,但数据的公开性是调查人员的一个关键优势。2具有手工制作功能的椭圆数据设置。作为对ResearchandAML社区的贡献,椭圆同意公开共享此数据集。据我们所知,它是以任何加密货币公开的世界上最大的标签交易数据集。2.1图形构造属于合法类别(交易所、钱包提供商、矿工、比特币数据),图形的构造和标记应确保节点货币(BTC)从一个交易转移到下一个交易。如果发起交易的实体(即,控制与特定输入地址相关联的私钥的实体)被视为合法(而非非法c)属于合法的公开信息。2.1.1节点和边缘。有203769个节点交易和234355个定向边缘支付ows。对于透视图,截至撰写本文时,使用438M个节点和1.1B个边。在EllipticData集合中,百分之二(4545)被标记为class1(非法)。21个其他功能。2.1.2特点。每个节点都有相关的166个特征。这个rst 94功能表示有关交易的本地信息,包括时间步长、输入/输出数量、交易费用、输出量和聚合图形,例如与输入/输出关联的平均BTC接收(花费)事务。其余72条交易信息从中心节点向后/向前跳一跳-给出最大、最小、标准偏差和信息数据(输入/输出数量、交易费用等)。由多个实体控制。比特币KDD’19反洗钱金融异常检测研讨会,2019年8月,安克雷奇,AK,USA图1:(顶部)非法vs。

地板
kedemingshi 在职认证  发表于 2022-6-25 06:57:31
di的合法节点数据集中的不同时间步长。(底部)节点数与时间步长。2.1.3时间信息。时间戳与每个节点相关联,表示事务启动时的估计时间由比特币网络进行rmed。有49个不同的时间步,出现在区块链上,在不到三个小时的时间内,将一个特定的节点划分为c时间步长有关联的时间戳,被认为是时间上的瞬时“快照”。从1000到8000个节点的数量)。参见图1.2.2特征构建注释合法与非法标签过程由签署交易的实体的启发式通知。另一方面,将由多个地址控制的资金合并到一个单一地址中,这意味着对于大量用户请求避免匿名保护措施的实体可能是合法的(例如交易所)。解决群集技术。此外,在构建比特币交易功能方面存在两大挑战。这个rst植根于比特币区块链的大小,总计200GB的压缩数据和大约400GB的访问整个区块链,以便观察特征计算的完整历史。第二个挑战来自于异构邻居的底层图形结构问题,通过简单地构造邻居事务局部特征的统计聚集(最小值、最大值等)来解决。一般来说,此解决方案是最优的,因为它具有铁路超高信息丢失。我们将在接下来的图形深度学习方法讨论中解决这个问题,这可能更好地解释局部图拓扑。3任务和方法在较高的层面上,反洗钱分析是一项异常检测挑战,超过90%的比率会抑制这种ort。

7
何人来此 在职认证  发表于 2022-6-25 06:57:34
我们希望减少虚假回归和随机森林是AML的基准方法之一[21]。在此数据上是交易筛选,用于评估与加密货币钱包之间的给定交易相关的风险。Speci公司从理论上讲,每一笔未标记的比特币交易都是经典的edillicit或licit。KDD’19金融异常检测研讨会,2019年8月,安克雷奇,AK,美国韦伯和多梅尼科尼等人。3.1基准方法验证了前面描述的特征,基准机器学习二进制分类阳离子。这些技术包括Logistic回归mlp,每个输入神经元接受一个数据特征,输出为asoftmax,每个类有一个概率向量。Logistic回归和随机林在AML中很受欢迎,尤其是在相互不确定的情况下,因为它们各自的优点,随机林具有准确性,Logistic回归具有解释性。然而,这些方法不利用任何图形信息。在椭圆数据集中,局部特征被增强为一组72个特征,其中包含有关即时neighperformance的信息。而这种方法显示了二进制分类中的图结构载体阳离子问题,这可以用于直接相邻网络以外的纯基于特征的方法。3.2实际应用的图卷积网络(GCN),以及卷积网络(GCN)实现了铁路超高跨越。GCN由多谱卷积组成。Set asG=(N,E),其中是节点事务集,是表示BTC的ow。GCN的第1层将邻接矩阵X和节点嵌入矩阵H(l)W(l)嵌入矩阵H(l+1)作为输出。从数学上讲,我们写下eh(l+1)=σ(bAH(l)W(l)),(1),其中ba是de的归一化ned as:bA=eD-eAeD公司-,eA=A+I,eD=diag~OjeAi j!,σ特征;i、 e.,H(0)=X。

8
能者818 在职认证  发表于 2022-6-25 06:57:37
让我们来看看图卷积的beLlayers。其中H(L)由预测概率组成。层,除了前面与Bain相乘。这个矩阵矩阵是由拉普拉斯的线性泛函得到的。另一方面,也可以解释di的相邻W(l)的变换嵌入的Baasan聚合乘法不同层l。通常使用的两层GCN可以整齐地书写为asH(2)=softmax(bA·ReLU(bAXW(0))·W(1))。“跳过”变体nd实际上很有用,在中间嵌入h(1)=ReLU(bAXW(0))和输入节点特征X之间插入一个跳过连接,从而得到架构eh(2)=softmax(bA·ReLU(bAXW(0))·W(1)+XeW(1)),其中ew(1)是跳过连接的权重矩阵。我们称之为W(0)W(1)等价于Logistic回归。因此,跳过GCN应至少与逻辑回归一样强大。3.3时间建模统计。可以合理地假设,存在着某种驱动系统演化的动力,尽管这种动力是隐藏的。如果预测模型的设计能够捕捉到它可以进入的地平线,那么它将更加有用。扩展GCN的时间模型是EvolveGCN[],然后通过递归神经网络(RNN)连接该模型以获取系统动力学。因此,未来的GCN模型抓住了动态。在EvolveGCN中,GCN权重被集体视为当前时间步的信息。图形信息可能以多种方式实例化;在EvolveGCN中,它由中top-k的嵌入表示图中的连续节点。4实验我们给出了在椭圆数据集上获得的实验结果。

9
能者818 在职认证  发表于 2022-6-25 06:57:40
我们对训练和测试数据进行了70:30的时间分割,归纳设置。我们rst测试标准classi合法/非法的阳离子模型(使用scikit learn Python包[]中的默认参数)、max功能)和多层感知器(在Pytork中实现)。0.001.我们通过使用所有166个特征(参考asAF)以及仅本地特征(即rst 94(参考LF)。结果总结在表1的顶部。我们利用了数据的图形结构。我们在2019年8月于美国AK州安克雷奇举行的比特币KDD’19金融异常检测研讨会上,使用Adam optimizer对GCNmodel进行了1000个时代的培训。图2:测试时间跨度内的非法结果。表1:非法分类阳离子结果。表的顶部显示了没有利用图形信息的结果,对于每个模型,都显示了带有di的结果erent输入:af表示所有特征,LF表示局部特征,即rst 94,N E指由GCN计算的节点嵌入。表格底部显示了GCN的结果。非法微量VGMethod精确召回fLogistic RegrA F0.404 0.593 0.481 0.931 Logistic RegrA F+N E0.537 0.528 0.533 0.945 Logistic RegrA 0.348 0.668 0.457 0.920 Logistic RegrA F+N E0.518 0.571 0.543 0.945 Randomforesta F0.956 0.670 0.788 0.977 Randomforesta F+N E0.971 0.675 0.796 0.978 Randomforestlf0.803 0.611 0.694 0.966RandomForestLF+N E0.878 0.668 0.759 0.973MLPA F0.694 0.617 0.6530.962MLPA F+N E0.780 0.617 0.689 0.967MLPLF0.637 0.662 0.649 0.958mlpf+N E0.6819 0.5782 0.6258 0.986GCN 0.812 0.512 0.628 0.961Skip-GCN 0.812 0.623 0.705 0.966超参数调整,我们将节点嵌入的大小设置为100。平衡(见图1)。对于反洗钱,更重要的是次要类别(即非法类别)。

10
nandehutu2022 在职认证  发表于 2022-6-25 06:57:43
因此,我们使用加权交叉熵损失来训练GCN模型,以提供对合法样本更高的重要性。在超参数优化之后,我们选择了0。/。合法和非法类别的比率。表1显示了非法类别在精确度、召回率和FScore方面的测试结果。为了保证完整性,我们还展示了微平均Fscore。请注意,与不可知图信息相比,GCN和变体Skip GCN的性能优于Logistic。另一方面,在这种情况下,输入特性已经提供了相当多的信息。仅使用这些特性,Random Forest就可以获得最佳核心。输入特性的表示能力也会重新通过跳过GCN超过GCN的增益计算。表1中的另一个细节来自GCN与原始特征X的比较。结果表明,对于全特征(AF+NE)和局部特征(LF+NE),增强的特征集提高了模型的精度。表2比较了非显著优于GCN的预测性能,尽管该数据集的改善并不显著。进一步研究的一个途径是使用替代形式的系统输入来驱动经常性的更新inside GRU。表2:GCN v.s.EvolveGCNGCN EvolveGCNPrecis。召回FPrecis。召回FIllicit 0.812 0.623 0.705 0.850 0.624 0.720microVG 0.966 0.966 0.968 0.968 0.968黑市关闭。AML的一个重要考虑因素是预测模型的稳健性,即在数据的时间跨度内发生的黑市紧急关闭,在关闭后表现不佳。

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
扫码
拉您进交流群
GMT+8, 2026-2-16 06:41