楼主: 能者818
354 14

[量化金融] 视觉设计在图像分类中的作用 [推广有奖]

  • 0关注
  • 6粉丝

会员

学术权威

78%

还不是VIP/贵宾

-

威望
10
论坛币
10 个
通用积分
39.5040
学术水平
0 点
热心指数
1 点
信用等级
0 点
经验
24699 点
帖子
4115
精华
0
在线时间
1 小时
注册时间
2022-2-24
最后登录
2024-12-24

楼主
能者818 在职认证  发表于 2022-6-24 10:28:32 |AI写论文

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币
英文标题:
《The Effect of Visual Design in Image Classification》
---
作者:
Naftali Cohen, Tucker Balch, and Manuela Veloso
---
最新提交年份:
2019
---
英文摘要:
  Financial companies continuously analyze the state of the markets to rethink and adjust their investment strategies. While the analysis is done on the digital form of data, decisions are often made based on graphical representations in white papers or presentation slides. In this study, we examine whether binary decisions are better to be decided based on the numeric or the visual representation of the same data. Using two data sets, a matrix of numerical data with spatial dependencies and financial data describing the state of the S&P index, we compare the results of supervised classification based on the original numerical representation and the visual transformation of the same data. We show that, for these data sets, the visual transformation results in higher predictability skill compared to the original form of the data. We suggest thinking of the visual representation of numeric data, effectively, as a combination of dimensional reduction and feature engineering techniques. In particular, if the visual layout encapsulates the full complexity of the data. In this view, thoughtful visual design can guard against overfitting, or introduce new features -- all of which benefit the learning process, and effectively lead to better recognition of meaningful patterns.
---
中文摘要:
金融公司不断分析市场状况,以重新思考和调整其投资策略。虽然分析是在数字形式的数据上进行的,但决策通常是基于白皮书或演示幻灯片中的图形表示作出的。在这项研究中,我们检验了基于相同数据的数字或视觉表示的二进制决策是否更好。使用两个数据集,一个具有空间相关性的数值数据矩阵和描述标准普尔指数状态的金融数据,我们比较了基于原始数值表示和相同数据的视觉转换的监督分类结果。我们表明,对于这些数据集,与原始形式的数据相比,视觉转换会产生更高的可预测性技能。我们建议将数字数据的可视化表示有效地作为降维和特征工程技术的组合。特别是,如果可视化布局封装了数据的全部复杂性。从这个角度来看,经过深思熟虑的视觉设计可以防止过度搭配,或引入新的功能——所有这些都有利于学习过程,并有效地导致更好地识别有意义的模式。
---
分类信息:

一级分类:Computer Science        计算机科学
二级分类:Computer Vision and Pattern Recognition        计算机视觉与模式识别
分类描述:Covers image processing, computer vision, pattern recognition, and scene understanding. Roughly includes material in ACM Subject Classes I.2.10, I.4, and I.5.
涵盖图像处理、计算机视觉、模式识别和场景理解。大致包括ACM课程I.2.10、I.4和I.5中的材料。
--
一级分类:Computer Science        计算机科学
二级分类:Human-Computer Interaction        人机交互
分类描述:Covers human factors, user interfaces, and collaborative computing. Roughly includes material in ACM Subject Classes H.1.2 and all of H.5, except for H.5.1, which is more likely to have Multimedia as the primary subject area.
包括人为因素、用户界面和协作计算。大致包括ACM学科课程H.1.2和所有H.5中的材料,除了H.5.1,它更有可能以多媒体作为主要学科领域。
--
一级分类:Quantitative Finance        数量金融学
二级分类:Computational Finance        计算金融学
分类描述:Computational methods, including Monte Carlo, PDE, lattice and other numerical methods with applications to financial modeling
计算方法,包括蒙特卡罗,偏微分方程,格子和其他数值方法,并应用于金融建模
--
一级分类:Quantitative Finance        数量金融学
二级分类:Trading and Market Microstructure        交易与市场微观结构
分类描述:Market microstructure, liquidity, exchange and auction design, automated trading, agent-based modeling and market-making
市场微观结构,流动性,交易和拍卖设计,自动化交易,基于代理的建模和做市
--

---
PDF下载:
--> The_Effect_of_Visual_Design_in_Image_Classification.pdf (615.35 KB)
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

关键词:视觉设计 Presentation Quantitative Applications Presentatio

沙发
大多数88 在职认证  发表于 2022-6-24 10:28:39
视觉设计在图像分类中的作用Naftali CohenAI Research,J.P.MorganNew York,NY 10179naftali。cohen@jpmorgan.comTuckerBalchAI Research,J.P.MorganNew York,NY 10179tucker。balch@jpmorgan.comManuela维洛索*AI Research,J.P.MorganNew York,NY 10179manuela。veloso@jpmorgan.comAbstractadjust他们的投资策略(例如,[,,])。虽然分析是在数字形式的数据上进行的,但决策通常是基于白皮书或演示幻灯片中的图形表示。在这项研究中,我们检验了基于相同数据的数字或视觉表示来决定二进制决策是否更好。使用两个数据集,一个具有空间相关性的数值数据矩阵和描述标准普尔指数状态的财务数据,我们比较了基于原始数值表示和相同数据视觉转换的监督分类结果。我们表明,对于这些数据集,与原始形式的数据相比,视觉转换可以产生更高的可预测性技能。我们建议将数字数据的可视化表示有效地考虑为降维和特征工程技术的组合(例如[])。特别是,如果可视化布局封装了数据的全部复杂性。

藤椅
可人4 在职认证  发表于 2022-6-24 10:28:42
从这个角度来看,深思熟虑的视觉设计可以保证过度匹配,或引入新功能,所有这些都有利于学习过程,并有效地导致更好地识别有意义的模式。1简介来自各个行业的商业公司根据数据的可视化表示进行日常决策。例如,金融公司可能需要报告其收益,重新评估其投资总是在观察总结数据的图像后进行的,最常见的形式是幻灯片或白皮书中的图表(与J.P.Morgan的金融专家Nikolaos Panigirtzoglou进行个人交流)。数据可视化被视为数据预处理(例如,[,,])中的一个重要步骤。当给专业数据工程师提供新的数据进行分析时,他/她总是先将数据可视化,以了解其分布情况,然后再执行特定的分析策略(例如[,])。在本研究中,我们旨在比较传统的使用原始数据分析数据的方法与可视化本身的方法。也就是说,我们检查weformat时相同分析的结果。*休假:卡内基梅隆大学机器学习系再版。正在审查中。arXiv:1907.09567v2【cs.CV】2019年8月20日使用原始数据(例如,[,])的优势在于,数据以其客观形式保存,不重复,并且不偏向分析师的视角或特定用例。

板凳
mingdashike22 在职认证  发表于 2022-6-24 10:28:45
然而,对于许多数据集来说,考虑周到的视觉设计的主观视角可能有助于提取特征之间更多的非线性或相互关系。表明如果数据中的隐藏模式具有空间依赖性,则J.P.Morgan更倾向于视觉表示,我们将表明,他们首选的视觉表示数据的方式比相应的表格形式具有更高的可预测性。之前的工作已经显示了输入数据转换的价值。例如,在分类问题中,通常会增加训练数据(即,调整大小、旋转、放大/缩小、模糊等),以提高训练模型对看不见数据的弹性,并避免过度拟合(例如,[,,])。在数值建模中,将数据转换到傅里叶空间以更好地捕获分类也是常见的,另一方面,通常使用小波局部转换数据,并根据变换空间中的相关变化模式比较各种序列(例如[])。这项工作很新颖,因为我们采用了一种直接的方法来比较相同分析的结果,该分析应用于数字年和各种图形年(例如,[,])中的各种输入数据,这激发了我们将数字问题转化为图形对应问题的方法。本文的结构如下:在第2节中,我们描述了数据和方法,而在第3节中,我们展示并讨论了结果,最后,我们在第4.2节数据和方法中总结了研究。在本研究中,我们分析了两个不同的数据集,合成数据,来自《周报》的真实数据表明,仔细的表格数字信息视觉设计可以引入对学习至关重要的特征关系。第一个数据包括288个有效和无效的5x5幻方样本,包括数字矩阵形式和图像形式。

报纸
大多数88 在职认证  发表于 2022-6-24 10:28:48
幻方由数字的平方数组组成,该数组由不同的正整数1、2、…、。。。,任意水平、垂直或主对角线上的数字之和总是相同的数字[]。对于具有从1到25不等唯一整数的5x5幻方,该幻方常数为65。然而,144个唯一正方形中的每一个都有25个平移、旋转和反射,从而产生有效和无效正方形的分层数据。图1a显示了avalid 5x5幻方的示例。2、第二个数据包括市场健康数据,该数据总结了标准普尔500指数[]的每周状态,基于五个关键指标:价值、头寸反转、流动、(全球)经济动量和股价动量(均按相应的Z值进行缩放)。动量指标考虑了2个月的可变性,而FLOWS总结了4周的零售活动。另一方面,值是一个长期指标,该数据集包括669行,具有五个特征。市场健康数据。顶部面板显示了相同数据的填充蜘蛛图,这是18 12 19 2514 20 21 3 723 2 9 15 1610 11 18 22 417 24 5 13a)5x5幻方c)无效幻方的视觉表示b)有效幻方的视觉表示平面5x53x3 2x2平面5x53x3 2x2图1:5x5幻方的数字和视觉表示。价值0.61头寸反转0.58流量0.26经济动量0.59股价动量0.76c)视觉表示b)数字表示a)市场健康地图图2:市场健康数据示例。彩色图像的。数据隐含地取决于时间,因为一些指标描述了标准普尔指数的势头,因此也考虑了前一周的数值。流量和流动性出版物可以(部分)在线查找。

地板
nandehutu2022 在职认证  发表于 2022-6-24 10:28:52
对冲基金公司、资产管理公司和个人投资者阅读该杂志最多。对于此数据集,我们将比较两个标签生成规则:o未来:此标签规则基于标准普尔500指数的未来值。规则很简单;考虑到下周标普500指数的价值,你可以决定本周是买入还是卖出该指数。如果标普指数在下周上涨,youhttps://markets.jpmorgan.com/research/email/jtkhabbm/GPS-1329637-0.pdfwould现在就想买,所以我们把这张图片贴上“买”的标签。另一方面,如果标普500指数在接下来的一周下跌,我们会将图像标记为卖出建议:此标签生成规则基于逻辑树型规则。如果五个特征中至少有三个特征高于0.5,我们将图像标记为“购买”,否则将标记为“asSell”。表明其“健康”状况的市场。3结果和讨论在本节中,我们将比较Magic square数据和财务报告图像的监督分类预测结果。两个数据集的大小大致相同,可以从数据中删除。样本,每个样本有25个从1到25不等的唯一整数(见图1a)。因此,输入数据具有区分两类的模式:逻辑回归、高斯朴素贝叶斯、线性线性支持向量机、径向基函数支持向量机、深层神经网络、决策树、随机林、外随机林、Ada Boost、Bagging、梯度Boosting和卷积神经网络。这些模型的时间调整参数。目标是比较只更改输入空间表示的模型的聚合性能。

7
nandehutu2022 在职认证  发表于 2022-6-24 10:28:55
为了评估模型的性能,我们使用10倍交叉验证技术对一个硬投票分类器进行了拆分和评估。这使得我们不仅可以推断投票类别的平均预测,还可以推断预测的不确定性。数字表示的幻方数据的投票分类结果见下图。3、准确度得分的平均可预测性约为0.71。请注意,通过将分类应用于5x5幻方(288x25输入数据)日期的格式版本,我们基本上将每个单元格视为一个独立的特征,并要求分类人员将25维数据分为两个不同的组。虽然这不是本文的中心,但值得注意的是,性能最好的算法是二次判别分析,其准确度得分平均约为0.95(未显示)。这是一个突出的分离特性,如表1所示(我们将在后面的文本中进一步讨论这一点)。无论如何,在这项研究中,我们更感兴趣的是VotingClassifier的可变性,它聚集了分类过程中的各个方面。第二种补充方法是分析数据,首先对其进行解码、可视化,然后将可视化转换回数字形式。虽然这听起来像是一个浪费的过程,但我们现在将允许聚合隐藏在数据中的空间信息。这个过程也会对数据产生一些随机噪声,有助于避免过度拟合。我们通过规范化数字数据(有效地,将每个数字除以25)开始这个过程,这不是必需的,但对于我们的实验来说,应该高于10,见图3)。然后,我们使用Lanczos滤波器对每个图像进行降采样,使其分辨率从2x2到10x10不等。我们正在使用Lanczos,抗锯齿滤波,因为它可以提供平滑、高质量的下采样图像[]。

8
能者818 在职认证  发表于 2022-6-24 10:28:58
使用向下采样技术,我们又创建了九个数据集,输入大小为288x2、288x3、。。。,288x10。也就是说,我们使用Scikit Learn及其默认参数设置将输入数据的数字表示更改为相应的插值,但使用32x32x32结构的深度神经网络和使用Keras的卷积神经网络(CNN)除外,卷积神经网络(CNN)使用三层32 3x3过滤器,并激活ReLU,层间的最大池为2x2。最后一层包含50次迭代的16个样本的Sigmodbatch大小图3:分辨率对magic squares数据集分类精度的影响。各种分辨率栅格。当然,请注意,在这个特定示例中,原始数字数据和5x5数据的编码信息几乎相同(见图1b和1c),但由于Lanczos滤波器的平滑插值性质,除了forminor细微差别之外。在构建了输入数据的这九种新表示形式之后,我们像以前一样使用了精确的程序,并检查了投票分类的结果。图3显示了此过程的结果。在该图中,可以看到投票分类准确度是数据分辨率表示的函数,从左侧的低分辨率到右侧的高分辨率不等。有趣的是,低分辨率输入数据的得分最高,约为0.9。此外,对于高于5x5的分辨率,精度几乎稳定。正如预期的那样,“数字”和5x5分辨率表示的准确性在统计上没有显著差异。1c。很容易观察到,图1c中的低分辨率无效方形数据显示至少一对几乎没有颜色对比度的相邻单元(参见白色箭头)。表1进一步解释了分辨率数据。

9
mingdashike22 在职认证  发表于 2022-6-24 10:29:03
很容易注意到,两个数据集每个单元格的平均值相同,但无效幻方中的可变性要大三倍,导致一些单元格的值接近。表1基本上表明,考虑到每个细胞的可变性的模型可以很容易地在类别之间分离,至少平均而言。有效幻方(0,0)(0,1)(0,0)0.50±0.01 0.57±0.01(1,0)0.60±0.01 0.47±0.01无效幻方(0,0)(0,1)(0,0)0.50±0.03 0.56±0.04(1,0)0.59±0.03 0.48±0.03表1:作为网格位置函数的低分辨率2x2幻方的平均值和一个标准偏差。通过将分类任务转化为视觉问题,我们实现了两件事:首先,将数字数据投影到二维像素空间,这是一个降维过程。这对于幻方数据来说是最自然的,因为这是我们人类最自然的观察幻方的方式(即在屏幕上)。第二个问题是,当我们对像素化数据进行减采样时,我们通过沿单元格和跨单元格求和来有效地实现空间化,本质上是合并来自遥远地区的信息。对合成数据的分析表明,在空间表示很重要的情况下,它会分析市场健康数据。市场健康数据很吸引人,因为它是相互影响的数字数据。这一点如图2a所示,在一个例子中,它揭示了价值和股价动量之间的“诱导”关系。并验证不同的分类,包括硬投票聚合器。为了集中讨论,我们将数字形式与一种视觉表示进行比较,即28x28网格。对于此数据集,请参阅“数据和方法”部分。图4的下一行显示了x轴上多个分类器的准确度得分。

10
kedemingshi 在职认证  发表于 2022-6-24 10:29:07
可以看出,当使用“未来”值标记样本时,所有分类人员在视觉和数字表示方面都没有技能。从这一点上,我们可以说,《周报》可以推断出下周将发生的任何重大事件[,]。平均来说都不是。当然,这并不奇怪,因为我们预计市场的行为将接近布朗运动,这是非常显著的。图4:x轴上不同分类的准确度得分。当我们根据“推荐”规则(树状算法)标记数据时,这种预测失败实际上是使用一周移动窗口的时间序列预测,我们解决了监督分类问题。现在,图4显示,视觉和数字表示几乎对所有分类都能得到高精度分数。最重要的是,它表明,值得注意的是,三个分类器在数字数据上表现更好。前两个是Naiveindependence[]。我们怀疑,在这两种情况下,数字表格表示占主导地位,因为视觉表示(如图2所示)引入了各种特征相关性(即近似变量之间的黑色像素),因此假设特征独立但数据点具有特征相关性的分类器表现较差。还值得注意的是,Ada Boostalgorithm在数值数据上表现最好。我们怀疑这是因为一种基于树的算法规则,它基于逻辑if条件,因此比具有更多特征且噪音更大的视觉效果更好(28x28比25)。4结论在本文中,我们使用原始表格和visualdata比较了监督分类预测。我们发现,数据的视觉表示有时可以从视觉表示的特定空间设计中推断出有意义的特征。

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
jg-xs1
拉您进交流群
GMT+8, 2025-12-21 03:09