楼主: 何人来此
1321 10

[量化金融] 使用改进信用卡欺诈交易的检测 [推广有奖]

  • 0关注
  • 4粉丝

会员

学术权威

78%

还不是VIP/贵宾

-

威望
10
论坛币
10 个
通用积分
64.8012
学术水平
1 点
热心指数
6 点
信用等级
0 点
经验
24593 点
帖子
4128
精华
0
在线时间
0 小时
注册时间
2022-2-24
最后登录
2022-4-15

楼主
何人来此 在职认证  发表于 2022-6-24 07:53:09 |AI写论文

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币
英文标题:
《Improving Detection of Credit Card Fraudulent Transactions using
  Generative Adversarial Networks》
---
作者:
Hung Ba
---
最新提交年份:
2019
---
英文摘要:
  In this study, we employ Generative Adversarial Networks as an oversampling method to generate artificial data to assist with the classification of credit card fraudulent transactions. GANs is a generative model based on the idea of game theory, in which a generator G and a discriminator D are trying to outsmart each other. The objective of the generator is to confuse the discriminator. The objective of the discriminator is to distinguish the instances coming from the generator and the instances coming from the original dataset. By training GANs on a set of credit card fraudulent transactions, we are able to improve the discriminatory power of classifiers. The experiment results show that the Wasserstein-GAN is more stable in training and produce more realistic fraudulent transactions than the other GANs. On the other hand, the conditional version of GANs in which labels are set by k-means clustering does not necessarily improve the non-conditional versions of GANs.
---
中文摘要:
在这项研究中,我们采用生成性对抗网络作为过采样方法来生成人工数据,以帮助对信用卡欺诈交易进行分类。GANs是一个基于博弈论思想的生成模型,其中生成器G和鉴别器D试图智胜对方。生成器的目的是混淆鉴别器。鉴别器的目标是区分来自生成器的实例和来自原始数据集的实例。通过对机构进行一系列信用卡欺诈交易的培训,我们能够提高分类器的识别能力。实验结果表明,与其他机构相比,Wasserstein机构在训练中更稳定,产生更真实的欺诈交易。另一方面,通过k-means聚类设置标签的条件版本的GANs不一定会改进非条件版本的GANs。
---
分类信息:

一级分类:Computer Science        计算机科学
二级分类:Machine Learning        机器学习
分类描述:Papers on all aspects of machine learning research (supervised, unsupervised, reinforcement learning, bandit problems, and so on) including also robustness, explanation, fairness, and methodology. cs.LG is also an appropriate primary category for applications of machine learning methods.
关于机器学习研究的所有方面的论文(有监督的,无监督的,强化学习,强盗问题,等等),包括健壮性,解释性,公平性和方法论。对于机器学习方法的应用,CS.LG也是一个合适的主要类别。
--
一级分类:Quantitative Finance        数量金融学
二级分类:Risk Management        风险管理
分类描述:Measurement and management of financial risks in trading, banking, insurance, corporate and other applications
衡量和管理贸易、银行、保险、企业和其他应用中的金融风险
--

---
PDF下载:
--> Improving_Detection_of_Credit_Card_Fraudulent_Transactions_using_Generative_Adve.pdf (621.29 KB)
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

关键词:信用卡欺诈 信用卡 Transactions Applications Quantitative

沙发
可人4 在职认证  发表于 2022-6-24 07:53:14
利用生成性对抗网络改进信用卡欺诈交易的检测Sung Baa,英国爱丁堡大学日本商学院知识科学基础学院,英国爱丁堡大学日本商学院,文章历史汇编,2019年7月9日,我们采用生成性对抗网络作为过采样方法来生成人工数据,以帮助对信用卡欺诈交易进行分类。GANs是一种基于博弈论思想的生成模型,其中生成器G和鉴别器D试图相互超越。生成器的目的是混淆鉴别器。鉴别器的目标是区分来自Generator的实例和来自原始数据集的实例。通过对机构进行一系列信用卡欺诈交易的培训,我们能够提高分类人员的识别能力。实验结果表明,Wasserstein-GAN比其他GAN在训练中更稳定,产生更真实的欺诈交易。另一方面,通过k均值聚类对标签进行设置的条件版本的GANs不一定会改进非条件版本的GANs。关键词生成性对抗网络;学习不平衡;信用卡,欺诈交易1。简介信用卡在现代社会中被用作一种重要的支付方式,在信用卡的大量使用中,越来越多的欺诈交易产生。

藤椅
大多数88 在职认证  发表于 2022-6-24 07:53:17
欺诈交易不仅影响到银行和商户,也影响到终端用户,因为即使他们得到报销,他们最终也可能为更高的信用卡服务费用支付更多的费用。在这项研究中,我们采用生成性对抗网络(GANs,Goodfello et al.(2014))作为过采样方法,生成人工数据,以帮助对信用卡欺诈交易进行分类。GANs是一个基于博弈论思想的生成模型,其中生成器G和鉴别器D试图相互配合。生成器的目的是混淆鉴别器。鉴别器的目的是区分来自联系洪巴作者的实例。电子邮件:挂起。nguyen@ed.ac.ukgenerator以及来自原始数据集的实例。通过对一组欺诈交易的机构进行培训,然后生成虚假欺诈交易来平衡数据集,我们比较了不同的过采样方法在信用卡欺诈检测中的作用。2、有关类别分布、信贷发放流程和欺诈检测的文献综述是产生最高程度不平衡类别的来源。不平衡数据集(IDS)几乎有属于大多数类好应用程序的观测值,而另一个属于少数类坏应用程序的观测值。为了处理不平衡的数据集,对少数类进行随机过采样和对多数类进行随机欠采样是两种常见的采样方法。然而,过度采样很容易陷入过度拟合,因为欠采样可能会丢弃有用的数据,从而导致信息丢失,He和Garcia(2009)。作为随机上采样的一种改进,综合少数超采样技术(SMOTE)Chawlaet al。

板凳
kedemingshi 在职认证  发表于 2022-6-24 07:53:20
(2002)综合了少数群体的艺术数据,而不是复制。随机过采样示例(ROSE)Menardi和Torelli(2014)通过允许生成观察数据的一些克隆,而不产生联系,概括了带替换的过采样标准技术(罕见示例)。应用GANs创建艺术样本以平衡分类问题中的类别的最新工作是Douzas和Bacao(2018),使用逻辑回归、支持向量机、最近邻法,在71个具有不同不平衡比率、特性数量和子聚类结构的数据集上评估了cGANperformance,并与多重过采样方法进行了比较,决策树和梯度推进机作为分类器。结果表明,与其他方法相比,cGAN在各种分类器、评估指标和结构复杂的数据集方面表现更好。如果给定足够的容量和训练时间,对性能改善的解释与cGAN恢复训练数据分布的能力有关。3、方法学在本节中,我们提供了过采样背景,然后总结了theGAN、cGAN、WGAN和WCGAN框架,紧跟着inGoodfellow et al.(2014)、Gauthier(2014)、Arjovsky et al.(2017)和Gulrajani et al.(2017)的符号。3.0.1. 过采样将使用流行的过采样方法,包括随机过采样(ROS)、SMOTE、andADASYN Haixiang等人(2017)。ROS通过随机复制少数样本来平衡数据。SMOTE选择K个最近邻,连接它们并形成合成样本。

报纸
可人4 在职认证  发表于 2022-6-24 07:53:23
ADASYN通过自适应地改变不同小样本的权重来补偿偏态分布,使用密度分布作为标准,自动确定每个小样本必须生成的合成样本数量。3.0.2. GAN和CGANThe生成模型G,定义为G:Z→ 其中Z是噪声空间,X是数据空间,旨在捕捉真实的数据分布。鉴别器,定义为D:X→ [0,1]估计样本来自真实数据分布而非G生成的数据空间的概率。这两个模型都可以是多层感知器,在两人极小极大博弈中与值函数进行竞争:minGmaxDV(D,G)=Ex~pdata[对数(x)]+Ez~pz(z)[对数(1- D(G(z)))](3.1)值x和z分别从实际数据分布和噪声分布中采样。通过随机梯度下降(SGD),GAN训练过程可以是D的k步和G的一个优化步骤。为了防止梯度消失,G的优化过程不是最小化生成的样本被检测为伪样本的概率,而是将重点放在生成尽可能真实的噪声样本z,以混淆D(非饱和GANs)。JG(G)=Ez~pz(z)log(D(G(z)))(3.2)cGAN通过从实际数据中添加额外的空间Y来扩展GAN框架,如下所示:G:z×Y→ X和D:X×Y→ [0,1]和3.0.2更改为:minGmaxDV(D,G)=ED+例如,其中:ED=Ex,y~pdata(x,y)[对数(x,y)]。andEG=Ez~pz(z),y~p(y)[日志(1- D(g(z,y,y))]。cGAN的训练过程与GAN几乎相似。通过输入一小批m个训练示例(xi,yi)mi=1和m个噪声随机样本zimi=1,D和G的梯度更新的逻辑成本函数如下:JD=-2米mXi=1日志(xi,yi)+mXi=1日志1.- D(G(字,意),意). (3.3)JG=-mmXi=1logD(G(zi,yi),yi)。(3.4)3.1. WGAN和WCGANArovsky等人。

地板
kedemingshi 在职认证  发表于 2022-6-24 07:53:27
al.,2017,使用地球移动器(EM)距离来了解真实数据的概率分布。他们建议Wasserstein-GAN(WGAN)最小化EM距离,WGAN表明它可以解决GAN的训练问题,这需要仔细设计网络结构,并平衡D和G的训练。具体而言,训练WGAN的损失函数为:JD=mmXi=1fw(xi)-mXi=1fw(G(zi))。(3.5)JG=-mmXi=1fw(G(zi))。(3.6)式中,f是1-Lipschitz连续函数,由w参数化,“鉴别器”模型需要学习。我们可以在作者的原始论文中找到详细的数学主张。3.2. 实验设置我们使用Pozzolo等人(2015)的信用卡交易数据,其中包括在线交易的asubset,由31个编码特征组成。在284807笔交易中,我们有492笔欺诈。数据集高度不平衡,正类(欺诈)仅占0.172%。采用随机搜索来调整GANs框架的超参数,并在10个foldnested交叉验证(cv)下报告结果。数据包括31个特征:“时间”、“数量”、“类别”和28个额外的匿名特征。类功能是指示交易是否欺诈的标签,0和1分别表示正常和欺诈交易。所有数据都是数字和连续的(标签除外)。数据集具有命名值。为了快速实现分类算法,我们使用XGBoost(Chen and Guestrin,2016),最大深度等于4,曲线下面积作为评估矩阵。在这项研究中,我们使用GAN作为过采样方法,通过使用经过训练的收敛生成器创建人工欺诈样本,来增加少数类的数量。

7
大多数88 在职认证  发表于 2022-6-24 07:53:30
所有四个GANs模型均基于完整欺诈样本进行培训,通过手动调查生成器和鉴别器的损失来确定停止标准。我们使用10倍交叉验证来检查生成的欺诈交易的质量。让Tnkand Tfkbe分别为fold k的正常交易和欺诈交易的数量。实验过程可以总结如下:对于k的折叠次数do:1。将数据分离到训练集:DTK和测试集:Tk:2。对于训练迭代次数do:o生成人工样本G(z)。o使用真实样本和G(z)的D列oG列组合模型(D(G(z))。o记录分类G(z)和真实样本的XGB预测性能找到XGB性能最低的迭代i。3、找到XGB性能最低的迭代i。4、生成Tig f岩溶数据,使Tfk+Tig f k=Tnk。5、在扩充训练数据{DTk)上训练和测试XGB∪ Tg f k}和T estk。3.2.1. 性能测量为了比较七种抽样方法,我们在平衡数据上训练了一个分类器,即逻辑回归(LR),并在一个单独的测试集上检验其性能,该测试集包括ROC曲线下面积(AUC)、PR曲线下面积(AUPRC)、召回率、精确度和F1分数。我们关注分类预测能力,因为对正常交易进行错误分类导致的交易停滞也会威胁到商户或金融机构的客户关系。结果所有四个GANs模型都在80%的欺诈样本上进行了训练,停止标准是通过调查生成器和鉴别器的损失来确定的,我们使用它们来生成人工欺诈数据。表1显示了通过随机搜索找到的四个GANs框架的超参数,应该注意的是,我们只搜索学习率、退出率和三层感知机中的注释数。

8
mingdashike22 在职认证  发表于 2022-6-24 07:53:33
网络架构由三层组成,并使用64个样本的小批量、Adam optimizer和Leaky Relu激活函数(α=0.2)进行训练。学习辍学#NodeRate 0.029 0.5 85CGAN 0.036 0.4 46WGAN 0.011 0.5 63WCGAN 0.022 0.22 5表1:超参数图1显示了第一个时期D和G的损失。虽然我们观察到在1000次迭代后,WGAN变体的损失是稳定的,但香草GAN(GAN和CGAN)实际上并没有转化。因此,我们使用极端梯度提升机(XGB)进一步检查生成数据的质量。我们停止培训GANs的步骤是使XGB在区分真假、生成欺诈交易方面的准确性最低的步骤。从我们的测试中可以看出,我们最好的体系结构是WGAN/WCGAN,在3000或5000的培训迭代中,如图2所示。在后一步中,WGAN/WCGAN在检测欺诈和生成的数据时达到了86%的XG提升精度(理想情况下,精度为50%)。我们使用所有四种体系结构来生成新的欺诈数据。图1:生成性对抗网络的丧失图2:XGB损失为了检查生成的数据如何帮助检测欺诈信用卡交易,我们使用了高达80%的非欺诈数据和欺诈数据。此培训集中添加了不同数量的真实或生成的欺诈数据,最多占欺诈数据的80%。对于测试集,我们使用其他20%的非欺诈案例和欺诈案例。通过添加来自未经训练的GANs和最佳训练GANs的生成数据来测试生成的数据是否优于随机噪声。图3:额外数据与样本外绩效图4显示了七种平衡方法的所有ROC曲线,并将其与无采样设置进行比较。

9
可人4 在职认证  发表于 2022-6-24 07:53:36
由于信用卡交易以正常交易为主,我们将关注ROC曲线的最左侧,其中ROSand ADASYN优于其他人。LR分类的cv性能如表2所示,采用了五种指标低于均衡的平衡方法。粗体值代表最佳值。第一行是LR预测,没有抽样,最后一列中的排名是五个指标的平均排名。在AUC,ROS排名第一,WCGAN紧随其后。而在AUPRC,Vanilla图4:ROC曲线AUC AUPRC召回精度F1得分Rankonne 0.933 0.745 0.581 0.908 0.680 3.8ROS 0.949 0.750 0.882 0.067 0.123 3.2SMOTE 0.944 0.750 0.876 0.062 0.113 4.4ADASYN 0.941 0.730 0.901 0.018 0.035 5 5 5.2GAN 0.940 0 0 0 0 0.637 0.777 0.501 5.6CGAN 0.901 0.631 0.564 0.643 0.444 6.4WGAN 0.942 0.723 0.803 0.500 0.583 4.2WCGAN 0.948 0.717 0.642 0.852 0.710 3.2表2:包括无抽样设置在内的分级性能平衡方法优于所有四种GANsframeworks。然而,就欺诈检测的质量和数量而言,GANsframeworks在查全率和查准率方面产生了更多的平衡值,从而获得了更好的F1分数。结论o简单GANs框架在加强信用卡交易欺诈检测方面的潜在应用。oGANs能够在分歧最小化可能会预测他们会失败的情况下学习分布,Fedus等人(2017)。o与其他机构相比,Wasserstein GAN在培训方面更为稳定,产生了更为现实的欺诈交易通过k-means聚类设置标签的条件版本的GANs不一定会改进非条件版本。致谢这项研究得到了JAIST O OFF校园研究基金和博士研究人员第238003号基金的支持。

10
mingdashike22 在职认证  发表于 2022-6-24 07:53:39
我们感谢Gary Bolton教授在2019年3月于英国爱丁堡举行的博弈论会议上发表本文早期版本时的评论。所有错误都保留我们自己的错误。参考Sarjovsky,M.,Chintala,S.,和Bottou,L.(2017)。Wasserstein GAN。arXiv:1701.07875[cs,stat]。arXiv:1701.07875。Chawla,N.V.,Bowyer,K.W.,Hall,L.O.,和Kegelmeyer,W.P.(2002)。SMOTE:综合少数过采样技术。《艺术情报研究杂志》,16:321–357。Chen,T.和Guestrin,C.(2016)。XGBoost:一个可扩展的树提升系统。第22届ACM SIGKDD知识发现和数据挖掘国际会议(KDD’16)第785–794页,美国加利福尼亚州旧金山。ACM出版社。Douzas,G.和Bacao,F.(2018年)。使用条件生成对抗网络为不平衡学习生成有效数据。专家系统与应用,91:464–471。Fedus,W.、Rosca,M.、Lakshminarayanan,B.、Dai,A.M.、Mohamed,S.和Goodfello,I.(2017)。通向平衡的途径很多:政府不需要在每一步都减少分歧。arXiv:1710.08446[cs,统计]。arXiv:1710.08446。Gauthier,J.(2014)。用于卷积人脸生成的条件生成对抗网。斯坦福CS231N课程项目:用于视觉识别的卷积神经网络,冬季学期。古德费勒,I.、普吉·阿巴迪,J.、米尔扎,M.、徐,B.、沃德·法利,D.、奥扎尔,S.、库尔维尔,A.和本吉奥,Y.(2014)。生成性对抗网络。在Ghahramani,Z.,Welling,M.,Cortes,C.,Lawrence,N.D.,和Weinberger,K.Q.,编辑,《神经信息处理系统的进展》27,第2672-2680页。Curran Associates,Inc.Gulrajani,I.、Ahmed,F.、Arjovsky,M.、Dumoulin,V.和Courville,A.(2017年)。改进了Wasserstein GANs的训练。arXiv:1704.00028[cs,stat]。

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
jg-xs1
拉您进交流群
GMT+8, 2025-12-21 09:06