楼主: 大多数88
664 19

[量化金融] 存储容量的随机估计风险 [推广有奖]

  • 0关注
  • 3粉丝

会员

学术权威

67%

还不是VIP/贵宾

-

威望
10
论坛币
10 个
通用积分
70.8397
学术水平
0 点
热心指数
4 点
信用等级
0 点
经验
23294 点
帖子
3809
精华
0
在线时间
0 小时
注册时间
2022-2-24
最后登录
2022-4-15

楼主
大多数88 在职认证  发表于 2022-6-11 12:37:31 |AI写论文

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币
英文标题:
《Stochastic Estimated Risk for Storage Capacity》
---
作者:
Revathi Anil Kumar and Mark Chamness
---
最新提交年份:
2018
---
英文摘要:
  Managing data storage growth is of crucial importance to businesses. Poor practices can lead to large data and financial losses. Access to storage information along with timely action, or capacity forecasting, are essential to avoid these losses. In addition, ensuring high accuracy of capacity forecast estimates along with ease of interpretability plays an important role for any customer facing tool. In this paper, we introduce Stochastic Estimated Risk (SER), a tool developed at Nutanix that has been in production. SER shifts the focus from forecasting a single estimate for date of attaining full capacity to predicting the risk associated with running out of storage capacity. Using a Brownian motion with drift model, SER estimates the probability that a system will run out of capacity within a specific time frame. Our results showed that a probabilistic approach is more accurate and credible, for systems with non-linear patterns, compared to a regression or ensemble forecasting models.
---
中文摘要:
管理数据存储增长对企业至关重要。不良做法可能导致大量数据和财务损失。访问存储信息以及及时的行动或容量预测对于避免这些损失至关重要。此外,对于任何面向客户的工具,确保容量预测估计的高准确性以及易解释性都起着重要作用。本文介绍了Nutanix开发的已投入生产的随机估计风险(SER)工具。SER将重点从预测达到满容量日期的单一估计转移到预测与存储容量耗尽相关的风险。SER使用带漂移的布朗运动模型估计系统在特定时间范围内耗尽容量的概率。我们的结果表明,与回归或集合预测模型相比,对于具有非线性模式的系统,概率方法更准确和可靠。
---
分类信息:

一级分类:Quantitative Finance        数量金融学
二级分类:General Finance        一般财务
分类描述:Development of general quantitative methodologies with applications in finance
通用定量方法的发展及其在金融中的应用
--
一级分类:Statistics        统计学
二级分类:Applications        应用程序
分类描述:Biology, Education, Epidemiology, Engineering, Environmental Sciences, Medical, Physical Sciences, Quality Control, Social Sciences
生物学,教育学,流行病学,工程学,环境科学,医学,物理科学,质量控制,社会科学
--

---
PDF下载:
--> Stochastic_Estimated_Risk_for_Storage_Capacity.pdf (348.06 KB)
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

关键词:Quantitative Applications epidemiology Forecasting Application

沙发
可人4 在职认证  发表于 2022-6-11 12:37:35
存储容量的随机估计风险评估Anil KumarData ScientistNutanixSan Jose,Californiarevathi。anilkumar@nutanix.comMarkChamnessDirector,数据科学Nutanixsan Jose,Californiamark。chamness@nutanix.comAbstract-管理数据存储增长对企业至关重要。不良做法可能导致大量数据和财务损失。访问存储信息以及timelyaction或容量预测对于避免这些损失至关重要。此外,对于任何面向客户的工具来说,确保容量预测估算的高精度和易解释性都起着重要作用。在本文中,我们介绍了随机估计风险(SER),这是Nutanix开发的一种已投入生产的工具。SER将重点从预测达到满容量日期的单一估计转移到预测与存储容量耗尽相关的风险。SER使用带漂移的布朗运动模型估计系统在特定时间范围内耗尽容量的概率。我们的结果表明,与回归或集合预测模型相比,对于具有非线性模式的系统,概率方法更准确可靠。指数项概率、风险、预测、布朗运动、存储。简介随着数据利用率的不断提高,企业采用高效的存储做法至关重要。一种反应式方法,即系统管理员在系统达到最大容量后采取行动,无论是在财务上还是在运营上,这都是一项代价高昂的工作。随着机器学习和预测建模的出现,我们可以使用这些方法来实现更主动的存储容量管理方法。通过Chamness回归[1]和Symantecs预言家[2]等方法,对存储容量进行预测建模。

藤椅
mingdashike22 在职认证  发表于 2022-6-11 12:37:39
这两种方法都对这一领域做出了重大贡献,并依赖于经常显示线性产能利用轨迹的数据集。在Nutanixx,我们观察到一系列趋势,包括线性、非线性、连续和不连续的存储增长模式。目前尚不清楚是什么导致了工作负载行为的这些变化。潜在的潜在原因可能是系统和人类行为变化的组合。最初,我们依赖一个简单的线性增长假设来构建一个模型,预测系统何时会耗尽容量。客户支持和客户利用此估计预测来推动与管理存储容量相关的决策。该模型不适合非线性工作负载,这为开发一种全新的方法提供了动力。我们的目标是进行一项实验,以识别一组预测模型中的错误。我们开始实验时假设三个模型的误差是相同的。比较的三个模型是分段线性回归模型、集成模型和朴素模型。naivemodel假设容量与上次观察到的值保持不变。对于要考虑的模型,它必须与原始模型的性能一样好。然而,对总误差的分析表明,朴素模型的性能优于这两种模型。一个可能的原因可能是与存储利用率相关的不确定性行为。系统和行为变化(即删除数据)的组合可能导致系统没有可预测的模式。现有模型的目标是预测达到满负荷的时间。与系统工作负载软化相关的不确定性会导致较差的估计。提供forecastis的目的是帮助系统管理员避免与达到满容量相关的损失。

板凳
大多数88 在职认证  发表于 2022-6-11 12:37:41
根据统计风险分析重新定义这个问题,结果可以重新定义为可能性。统计风险评估模型通常用于估计事件发生的概率。通过提供故障概率,而不是点预测,我们可以帮助系统管理员降低与全容量相关的风险。这也有助于适应风险规避偏好。例如,开发系统可能承受50%的故障概率,而生产系统可能只承受10%的故障概率。考虑到存储容量的随机性和降低风险的目的,我们考虑了其他行业如何解决类似问题。在金融服务业中,几何布朗运动被用来发展Black-Scholes模型,以定价看跌期权和看涨期权。采用类似的方法,我们引入了随机估计风险(SER),这是一种概率模型,从估计容量耗尽的日期转变为估计故障概率。对于特定的时间间隔,SER估计系统可能耗尽容量的概率。SER使用基于漂移布朗运动的随机过程来提供概率估计,本文概述如下。第二节总结了该领域的最新工作。第三节比较了两种预测方法与原始模型:分段回归和预测模型集成。第四节概述了新模型SER及其在风险预测中的应用。第五节讨论了SER和线性回归模型之间的视觉比较,第四节讨论了布朗运动模型的精度估计,第七节回顾了使用SER优化业务决策。二、

报纸
何人来此 在职认证  发表于 2022-6-11 12:37:44
弗里德曼(Friedman)[3]推广的多元自适应回归样条(MarSpline)的相关工作,将输入空间划分为多个区域,并基于区域建立最佳拟合回归模型。Chamness回归是EMC开发的一种预测工作负载的方法,是MarSpline的扩展。该模型预测系统预计将耗尽容量的日期。Chamness论文利用分段线性回归方法选择历史数据的最佳子集进行预测。通过在系统中假设线性趋势而生成的点估计对于非线性趋势的系统来说是不准确的。与存储系统相关的不确定性通常需要使用模型,以避免在预测值和感兴趣的结果之间强加任何特定的关系。赛门铁克开发了占卜师,这是一种使用插入式模型的模型,并为达到最大容量提供了置信区间[2]。使用备份大小和重复数据消除率构建模型,而不是使用数据容量观测值。本文概述了三种模型ARIMA、随机模型和ARIMA与随机技术相结合的合并模型。论文认识到,系统表现出不同的容量利用率工作负载。系统大致分为三组:线性、趋势和分层。预测模型应用于这三组。然而,无论是哪一组,潜在增长都假定在所有组中是线性的。由于这些模型没有考虑非线性工作负载,它们将导致较低的估计值。在Nutanix,我们注意到容量的趋势非常不可预测。这可能是由于客户活动造成的,例如删除数据、迁移VM或更改利用模式。在本文中,我们首先通过比较行业中使用的模型和活动模型来量化现有线性方法的有效性。

地板
可人4 在职认证  发表于 2022-6-11 12:37:47
这些结果有助于验证重新定义问题的必要性。系统管理员的目标之一是减少与容量耗尽相关的风险,通过使用提供概率估计的方法,可以估计与存储利用率相关的风险。布朗运动是不确定因素预测中常用的方法之一。罗伯特·布朗(RobertBrown)首次观察到的布朗运动被用来描述碰撞导致的粒子随机运动。当所研究的事件或对象具有高度的随机性时,使用布朗运动方法出现了一种共同的趋势。一些应用包括但不限于利用布朗运动对高度复杂的医学图像进行分类[4],一种基于布朗运动的概率模型,该模型模拟了反复地震源的破裂时间[5]。金融业中的应用与本文所采用的方法有着更密切的关系。奥斯伯恩斯(Osbornes)发表了一篇关于股票市场布朗运动的论文,建立了股票市场与粒子运动之间的对应关系,并指出用于研究后者的统计方法可以用于前者【6】。更普遍的是,用于价格看跌期权和看涨期权的布莱克-斯科尔斯模型假设了几何布朗运动[7]。图1:。将容量利用率建模为一个随机过程,其中红点线表示100%容量,假设存储增长遵循一个连续的马尔可夫过程。容量转换包括各种状态,如添加更多存储、删除数据、移动数据和达到最大容量。

7
大多数88 在职认证  发表于 2022-6-11 12:37:50
将其建模为马尔可夫过程,并确定在一定时间段内与存储相关的位置和方差,我们使用带漂移的布朗运动模型来估计系统在一定时间段内达到满容量的可能性。这个过程类似于各种命中时间问题,其中目标是估计一个对象是否在一个时间帧内达到最大值。数学上,设X(z)为布朗运动过程,表示所有z的存储利用率≥ 0.X(z)将是在时间T(z)观察到的存储增长。给定此布朗过程,时间t之前的过程的最大值,漂移系数u和方差σ,可定义为:M(t)=max0≤p≤tX(p)(1)为了估计与容量耗尽或在给定时间范围内达到最大容量相关的风险,我们在数学上将风险建模为时间t,M(t)的容量最大值大于或等于y的概率,即总容量和使用容量之间的差。图1显示了这一点,其中y是最近使用的容量和总容量之间的差异。Ross【8】使用以下公式定义概率:P(M(t)≥ y) =e2yu/σΦ(y+utσ√t) +Φ(y- utσ√t) (2)我们重新定义了问题,并使用了一种不假设线性趋势的方法。此外,该方法II估计在给定时间间隔内达到最大容量的可能性,无论最大容量是在开始还是接近结束时达到。三、 实验A部分。模型描述本节我们概述了实验方法并讨论了实验结果。该实验将用于预测集群何时被估计为耗尽容量的方法与一个简单的模型进行了比较。

8
何人来此 在职认证  发表于 2022-6-11 12:37:54
在讨论这些方法之前,我们先描述这三个模型以及每个模型的假设/条件。1) 分段线性回归模型:我们模拟了基于分段线性回归的Chamness回归[1]模型。为了降低与拟合线性回归模型相关的错误率,选择了最能代表最近存储利用率变化的最佳子集,并且模型适合该子集。为了确定最佳fitsubset,该模型使用R,定义为回归平方和除以总平方和。根据论文[1],模型中引入了以下附加条件:oR阈值-阈值设置为Rof 70%,低于此值的Ar值表明数据集的拟合度较差o正斜率-模型检查正相关性。具有零斜率或负斜率的模型不能用于预测利用率o充分的观察-根据查姆内斯论文[1]15天被确定为充分的信息,以确定模式或预测存储2)模型集合:接下来,我们看了一组模型,使用锦标赛为每个存储工作负载和历史时间范围选择最佳模型。四个模型的组合-黄土时间序列的季节分解(STL)、线性回归、Theta预测和ARIMA。然后进行交叉验证程序,计算每种方法的误差,并选择前两种模型。根据结果,前两个模型的预测是根据误差率计算的权重进行组合的。3) 朴素模型:朴素模型计算最后一天的存储量,并预测未来7天的容量相同。这被认为是一个具有鞅性质的随机过程。存储值Xt的随机过程:t=0,1。。。

9
nandehutu2022 在职认证  发表于 2022-6-11 12:37:57
对于不同的时间点t,如果t=0,1,…,则被视为鞅E[| Xt |]<∞o E[Xt+1 | X,…,Xt]=XnB。方法描述数据集包括Nutanix客户对存储利用率的观察。当客户启用Pulse时,我们就能够监控和预测他们的存储利用率。我们将这些模型应用于那些被积极利用的系统。对于这类系统,我们收集了充分的利用观察数据来衡量和比较准确性。我们的分析仅限于容量利用率超过10%且在过去10天内方差大于0.01%的系统。我们使用由1000个系统组成的随机数据样本进行了限制性实验。为了确定分段线性回归或拟合模型是否优于朴素模型,我们设计了一个实验来测试每种方法与朴素方法的均值差异。假设naive方法是预测容量的最简单方法,我们确定分段线性回归或集成方法是否优于naive方法。为了测试这一点,我们对样本数据运行了三个模型。对于每个模型,我们通过预测最近7天数据的测试集的能力来进行交叉验证。我们计算了测试集的平均绝对百分比误差(MAPE)。根据modeldescription部分中提到的条件,每个模型可能不会为每个集群计算错误。我们对三个模型都进行了预测的系统进行了假设检验,这三个模型占数据集的70%。我们建立了2个韦尔奇t检验,对于任何给定的方法m,m∈ (1,2),即。

10
kedemingshi 在职认证  发表于 2022-6-11 12:38:00
1表示分段线性回归和2预测集合,我们采用平均图e,并将零假设定义为:H:unaiv'e- um=0,备选假设为:Ha:unaiv'e- um6=0方法unaiv'eump值95%CIPiecewise线性回归0.028 0.035 0.03-0.034,0.018集成模型0.028 0.029 0.49-0.031,0.022假设测试的表I结果表1描述了从分析中获得的结果。对于分段线性回归,朴素模型的平均MAPEO为2%,而分段线性回归模型的平均误差为3%,这表明朴素模型在预测集群预计将耗尽容量时更为准确,平均值差异具有统计学意义。朴素模型的错误率略低于整体模型的错误率,但平均值的差异在统计学上并不显著。我们对同一个实验进行了100次迭代,每次随机抽取1000个样本。我们观察到在不同实验中计算的平均误差有很大的方差。虽然朴素模型的平均性能更好,但较大的方差进一步加强了我们对存储趋势不确定性的关注,并提出了一个问题,即常用的预测模型是否可以应用于存储系统。四、 使用带漂移的布朗运动随机估计风险。假设布朗运动具有最简单形式的漂移,布朗运动被认为是一个极小的随机游动。我们实现了一个带漂移的布朗运动模型来估计在特定时间段内与容量耗尽相关的风险。

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
jg-xs1
拉您进交流群
GMT+8, 2026-1-1 07:21