楼主: 能者818
834 21

[量化金融] 管理大规模处理财务数据的复杂性 [推广有奖]

  • 0关注
  • 6粉丝

会员

学术权威

78%

还不是VIP/贵宾

-

威望
10
论坛币
10 个
通用积分
39.6240
学术水平
0 点
热心指数
1 点
信用等级
0 点
经验
24699 点
帖子
4115
精华
0
在线时间
1 小时
注册时间
2022-2-24
最后登录
2024-12-24

楼主
能者818 在职认证  发表于 2022-6-25 07:18:46 |AI写论文

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币
英文标题:
《Managing the Complexity of Processing Financial Data at Scale -- an
  Experience Report》
---
作者:
Sebastian Frischbier, Mario Paic, Alexander Echler, Christian Roth
---
最新提交年份:
2019
---
英文摘要:
  Financial markets are extremely data-driven and regulated. Participants rely on notifications about significant events and background information that meet their requirements regarding timeliness, accuracy, and completeness. As one of Europe\'s leading providers of financial data and regulatory solutions vwd processes a daily average of 18 billion notifications from 500+ data sources for 30 million symbols. Our large-scale geo-distributed systems handle daily peak rates of 1+ million notifications/sec. In this paper we give practical insights about the different types of complexity we face regarding the data we process, the systems we operate, and the regulatory constraints we must comply with. We describe the volume, variety, velocity, and veracity of the data we process, the infrastructure we operate, and the architecture we apply. We illustrate the load patterns created by trading and how the markets\' attention to the Brexit vote and similar events stressed our systems.
---
中文摘要:
金融市场是高度数据驱动和监管的。参与者依赖于有关重大事件的通知和背景信息,以满足他们在及时性、准确性和完整性方面的要求。作为欧洲领先的金融数据和监管解决方案提供商之一,大众汽车每天平均处理来自500多个数据源的180亿条通知,涉及3000万个符号。我们的大型地理分布系统每天处理100多万条通知/秒的峰值速率。在本文中,我们就我们处理的数据、我们操作的系统以及我们必须遵守的监管约束所面临的不同类型的复杂性提供了实际见解。我们描述了我们处理的数据的数量、种类、速度和准确性、我们操作的基础设施以及我们应用的体系结构。我们举例说明了交易产生的负荷模式,以及市场对脱欧投票和类似事件的关注如何给我们的系统带来压力。
---
分类信息:

一级分类:Computer Science        计算机科学
二级分类:Databases        数据库
分类描述:Covers database management, datamining, and data processing. Roughly includes material in ACM Subject Classes E.2, E.5, H.0, H.2, and J.1.
涵盖数据库管理、数据挖掘和数据处理。大致包括ACM学科类E.2、E.5、H.0、H.2和J.1中的材料。
--
一级分类:Computer Science        计算机科学
二级分类:Distributed, Parallel, and Cluster Computing        分布式、并行和集群计算
分类描述:Covers fault-tolerance, distributed algorithms, stabilility, parallel computation, and cluster computing. Roughly includes material in ACM Subject Classes C.1.2, C.1.4, C.2.4, D.1.3, D.4.5, D.4.7, E.1.
包括容错、分布式算法、稳定性、并行计算和集群计算。大致包括ACM学科类C.1.2、C.1.4、C.2.4、D.1.3、D.4.5、D.4.7、E.1中的材料。
--
一级分类:Quantitative Finance        数量金融学
二级分类:General Finance        一般财务
分类描述:Development of general quantitative methodologies with applications in finance
通用定量方法的发展及其在金融中的应用
--

---
PDF下载:
--> Managing_the_Complexity_of_Processing_Financial_Data_at_Scale_--_an_Experience_Report.pdf (410.75 KB)
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

关键词:财务数据 复杂性 大规模 Quantitative Participants

沙发
能者818 在职认证  发表于 2022-6-25 07:18:51
管理大规模处理财务数据的复杂性-经验报告?Sebastian Frischbier、Mario Paic、Alexander Echler和Christian Rothvwd:Vereinigte Wirtschaftsdienste GmbH,法兰克福a.M.,德国文摘。金融市场是高度数据驱动和监管的。参与者依赖于有关重大事件的通知和背景信息,以满足他们在及时性、准确性和完整性方面的要求。作为欧洲领先的金融数据和监管解决方案提供商之一,大众汽车每天平均处理来自500多个数据源的180亿条通知,处理3000万个符号。我们的大型分布式系统每天处理100多万条通知/秒的峰值速率。在本文中,我们就我们处理的数据、操作的系统以及我们必须遵守的监管约束所面临的不同类型的复杂性提供了实际见解。我们描述了我们处理的数据的数量、种类、速度和准确性,我们操作的基础设施,以及我们应用的体系结构。Weill举例说明了交易产生的负荷模式,以及市场对脱欧投票和类似事件的关注如何给我们的系统带来压力。1简介决定金融市场投资的方法有很多:直觉、心理学、利用社交媒体、遵循分析人士和影响者的建议,或对趋势和相关性进行定量分析。虽然前一种方法听起来更有趣,因为它们带有一定的谜团,但金融数据的定量分析是市场参与者常用的工具。

藤椅
mingdashike22 在职认证  发表于 2022-6-25 07:18:54
因此,获得可靠、准确、新鲜和完整的金融市场信息对参与者至关重要。一般公众通常更熟悉通过公共网站、teletext、电视或日报财务页面上的日终汇总提供的延迟市场数据。然而,对于专业用户来说,可以使用更加多样化的数据驱动解决方案来支持他们的决策。这些解决方案提供了具有高信息密度的有针对性的见解。例如,投资组合管理系统可以根据实时数据不断检查具有单个投资策略的投资组合,以提供重新部署资本的建议(并在批准后直接管理后续订单)或市场数据终端,使专家能够将实时市场数据洞察与历史和参考数据结合起来进行深入分析。?预印提交的版本。修订版将由Springer在第10届复杂系统设计与管理会议(CSD&M\'19)上发布。2 Frischbier等人。推动这些解决方案的原始数据是由各种来源(如交易所、金融机构、资本管理和投资公司以及评级机构)提供的连续结构化和非结构化数据流。财务数据供应商和解决方案提供商(如vwd)在以不同的信息质量(QoI)级别向订阅者提供最终的精简信息之前,会收集、清除和丰富这些数据。大众汽车是欧洲领先的数据驱动金融解决方案提供商之一。我们直接连接到大多数源,以便自己处理数据。我们成立于1949年,是一家通讯社,我们的产品及其供应链如今完全数字化。

板凳
kedemingshi 在职认证  发表于 2022-6-25 07:18:57
我们提供各种解决方案,从市场数据密集型产品到以云计算软件即服务(SaaS)形式提供的咨询和监管解决方案,帮助我们的客户在遵守法规的同时专注于其核心业务。我们的客户包括私人和公共金融机构、投资和投资组合经理、印刷和电视新闻媒体以及公众。作为一个集团,大众汽车在六个国家的14个地点为其客户提供服务。虽然我们的一些子公司直接向最终用户提供解决方案,但我们的大多数客户都是金融市场的中间人。3000万用户每天直接或间接依赖我们的信息来形成对金融市场的看法。在本文中,我们对金融数据大规模处理的复杂性给出了切实可行的见解,以适应高度监管和竞争的行业。我们举例说明了我们处理的数据的数量、种类、速度和准确性、我们运营的历史上不断增长的异构IT应用程序环境以及我们作为金融解决方案提供商必须遵守的主要监管约束所带来的十大挑战。特别是,我们以英国脱欧投票和特朗普对克林顿(2016)的最终投票为例,展示了规则模式和市场对单一关键事件的关注如何反映金融数据流的需求和供给。以秒为单位。2我们通过描述财务数据的多样性(第2.1节)和大众汽车公司处理的数据流(第2.2节)、IT合规水平上的重大挑战(第2.3节)和我们运营的IT系统的异构性(第2.4节),确定了挑战C1-C10。以秒为单位。3我们概述了vwd如何解决由此产生的复杂性:我们描述了我们运营的基础设施和我们应用的架构模式(第。

报纸
kedemingshi 在职认证  发表于 2022-6-25 07:19:00
3.1),以及我们为软件开发、创新管理和合规性所采取的组织措施(第3.2节)。我们总结了我们在Sec的贡献。4.2大规模处理金融数据的复杂性作为金融业的国际解决方案提供商,我们确实必须面对几个挑战——主要来自我们处理的金融数据源、我们必须遵守的监管约束以及我们运营的历史上不断增长的异构IT系统。因此,我们首先简要介绍与本文范围相关的财务数据方面。预印本:处理规模为32.1的财务数据的复杂性背景:财务数据反馈总括术语财务数据表示各种非结构化和结构化数据,关于金融工具及其发行人的信息密度差异很大。金融工具(简称:工具)的例子有证券/股票、基金、期货、货币或指数。请注意,大多数但并非所有工具都通过交易所或其他平台进行交易——以柜台(OTC)证券为例。非结构化和半结构化的财务数据范围从一般新闻和公司信息到上市公司(如合并、收购)的特定绩效相关决策通知,这些信息必须立即以特别消息的形式发布。结构化财务数据作为不同级别的市场数据提供,并量化某一工具的价值和前景。Inits最纯粹、最细粒度的表格市场(tick)数据承载特定交易所或交易平台上特定工具实例(也称为符号)在给定时间点的当前交易价值信息。用于表示此值的最常见属性是bid、ask、bid size、ask size、timestamp。

地板
能者818 在职认证  发表于 2022-6-25 07:19:03
市场数据还可以包含具有高信息密度的聚合(如加权平均数)或关键绩效指标(KPI),这些信息基于使用历史数据和参考数据(元数据)的复杂推理,量化给定环境下(如利差、beta)工具的风险/绩效。处理财务数据时,最重要的复杂性驱动因素是其信息的价值、信息的供应方式以及信息的表示方式。信息的质量和价值。市场数据的QoI可以通过粒度、正确性、完整性、及时性、订单和可用性等客观指标进行量化。对于数据提供商,QoI属性是成本驱动因素,其成本与所需的QoI水平成比例关联。在consumerside上,具有特定QoI属性的市场数据的信息价值(VoI)取决于每个消费者打算使用这些信息的目的【6】。因此,当数据提供者为大量消费者提供数据时,它具有高度的主观性,并且会造成复杂性。资源调配。市场数据以基于订阅的方式作为流或批量加载提供。典型的数据来源是各种交易所,也包括国家银行等金融机构。数据作为feed提供,其中feed是特定数据源和/或细分市场的事件类型的连续流。Afeed可以由一个交易所/发行人提供,也可以由一个中间财务数据供应商提供,该供应商将来自多个提供商的提要捆绑在一起。如果提供的数据在时间线或粒度上没有任何人为退化,则提要表示为完整。相比之下,如果某个因素延迟了通知的交付,而只有某些通知是根据隐藏式提要中的优先级转发的,则提要会延迟。

7
何人来此 在职认证  发表于 2022-6-25 07:19:06
因此,聚合提要以较低的粒度提供数据,其中最突出的例子是日内或日终聚合。此处的完整性指每个通知中可用的房地产数量,但也指流中通知的完整性。4 Frischbier等人。订阅是基于数据源(如feed、exchange)和质量维度(如粒度(如刻度、平均)、及时性(如实时、延迟、日内、日终)和完整性(如完全、限制)进行的。大型饲料通常被分成不同的渠道,提供不同的市场细分;始终假定顺序。提供财务数据馈送的主要方式仍然是通过使用多播的直接专线,我们注意到,data Source7现在增加了多播的使用。一些提要也可以通过公共互联网获得。在大多数情况下,它们必须沿着交易所、细分市场或仪器组分成不同的单一馈送,以补偿公共互联网连接的较低带宽和较高延迟。代表性。交易所、市场、交易平台和交易报告实体使用inISO10383标准化的全球市场识别码(MIC)进行识别。金融工具与字母数字标识符相关联。对于股票/证券,这可以是一个与交易所相关的缩写,称为(股票代码)符号,也可以是一个国际标识符,如ISO6166中标准化的国际证券识别号(ISIN)。然而,不同的数据源可能会使用这些标识符的变化或由于合并导致的标识符转换时间,以便根据上下文使用不同的符号表示相同的仪器实例。例如,AppleInc的库存。

8
nandehutu2022 在职认证  发表于 2022-6-25 07:19:09
在纳斯达克被称为AAPL,在法兰克福被称为APC,与ISIN US0378331005关联,是唯一的标识符;有关该股票的更多场外数据可通过AAPL获得。OQ(路透社)或AAPL:美国(彭博社)。因此,必须在运行时映射和规范化数据。2.2挑战在大众汽车金融处理财务数据为了简单起见,我们按照大数据的四个维度(体积、多样性、速度和准确性)组织了对源自大众汽车金融处理的财务数据的具体挑战(C1-C4)的描述。(C1)体积:总体积增加,但全天变化。多年来,我们的ticker工厂处理的原饲料数据总量显著增加。特别是在2003年至2008年期间,我们观察到指数从递增到递减的增长:平均每日通知数(不包括新闻和特别消息等非结构化数据)从1.67亿(2003年)增加到9.37亿(2006年),2008年增加到8.33亿(83亿)。一种解释是,自2004年以来,交易所的期货交易减少,电子交易占了上风。如今,我们平均每天处理约180亿条通知,每秒处理70万条(峰值超过100万条事件/秒)。所有通知和参考数据都存储为历史价格,因此我们可以提供过去几十年的数据。https://www.nasdaq.com/symbol/aaplhttp://en.boerse-法兰克福。de/库存/苹果-sharehttps://www.reuters.com/finance/stocks/overview/AAPL.OQhttps://www.bloomberg.com/quote/AAPL:USPreprint:在全球和地方层面上,以5Tra ffic规模处理财务数据的复杂性在一整天中都存在巨大差异。就全球层面而言,交易量因时区而异,但在整个本地交易日和每家交易所也有所不同。在图中。

9
能者818 在职认证  发表于 2022-6-25 07:19:12
1我们显示了伦敦交易所(英国,蓝色)、Syndey交易所(澳大利亚,橙色)、东京交易所(JPN,紫色)、纳斯达克交易所(美国,绿色)和B¨orseFrankfurt交易所(德国,黑色)在两天内收到的选定订阅的通知率。数据点在10分钟的窗口内平均,以平滑绘图并突出显示循环模式:某个交易所交易生成的数据类似于书包,在交易所开放时间前后活动最多;当地午餐时间附近活动较少。请注意东京明确的1小时午休时间(紫色)。我们选择这些交易所是因为它们在地理区域上具有相当的代表性,在feed中具有可比的数量级。请注意,这些数字仅代表实际交易所的有限细分市场,MeasuredFeed可能提供不同的产品和工具类型。德国法兰克福时间(GMT+1)每秒收到的通知(平均10分钟)0 1000 2000 3000 400000:00 09:00 15:30 22:00 09:00 15:30 22:00 NASDAQFRANKFURTSYDneytokyolondonfig。1、从不同交易所收到的选定负荷。处理能力必须考虑到在24小时内发生巨大变化的综合峰值速率。除了预期的峰值之外,已宣布和未宣布的单一事件是一个单独的挑战。在脱欧投票(2016年6月23日)前后,美国消费和发布的金融数据总量增长了50%。虽然我们的系统确实可以扩展以应对这种开销,但我们订阅的一些系统却不能。

10
大多数88 在职认证  发表于 2022-6-25 07:19:15
在2016年美国总统选举特朗普vs.克林顿(2016年11月8日)的最终投票中,我们连续几天处理了更高的数量。6 Frischbier等人(C2)多样性:来源、格式、协议、类型、属性、通知大小。我们收到各种形式的通知,包括约120家证券交易所、35家期货和大宗商品交易所、180家OTC出资人和500多家资本管理和投资公司。数据以自定义二进制或XML格式接收和提供,通过REST(JSON)或各种文件格式的批量上传。vwd的核心处理系统处理有关3000万个符号和300万个ISIN的市场数据,以及参考数据和非结构化数据以及新闻和特别消息。在一个典型的日子里,收到的所有通知中有98%是滴答声,其次是参考数据(0.16%)和新闻(0.001%)。这些通知的大小(w/onews)在20字节到250字节之间变化,平均约为100字节。平均通知量也随时间而变化:随着开放通知的到来,它们在上午会变大,通常会重置每日统计字段,如日高/日低或总数量/营业额。晚上报价较少,更常见的通知类型较多,如统计或静态数据。(C3)速度:数据馈送和批量数据的及时性问题。金融数据的速度主要是关于feed的低延迟处理和批量数据的timeboxedbatch处理。我们为传入提要的低延迟处理定义的内部基准是,在我们的股票报价机工厂内,每个通知的端到端延迟为40毫秒。除了处理提要和导出复杂指标外,我们还丰富了客户提供的大量数据,如内部评级、投资组合或场景数据,这些数据在我们运行复杂模拟后反馈到他们的系统中。

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
扫码
拉您进交流群
GMT+8, 2026-2-2 05:00