楼主: 大多数88
665 19

[量化金融] 存储容量的随机估计风险 [推广有奖]

11
nandehutu2022 在职认证  发表于 2022-6-11 12:38:03
正如Karlin和Taylor所描述的那样,带漂移的布朗运动被认为是一个随机过程XT:t>0,具有以下性质:o每个增量X(t+s)-对于每对不相交的时间间隔【t,t】,【t,t】,例如t<t,X(s)通常以平均值ut和方差σto分布≤ t<t,增量X(t)- X(t)和X(t)- X(t)是具有正态分布和平均ut方差σt的独立随机变量,对于不相交的时间间隔也是如此,其中n是任意正整数oX(0)=0,X(t)在t=0B时是连续的。将布朗运动推广到容量利用率将存储增长建模为带漂移的布朗过程,我们可以估计在给定时间段内达到满容量的概率。时间间隔t内过程的最大值在方程1中定义为:M(t)=max0≤u≤tX(u)为了确定在给定时间间隔内具有漂移模型的布朗运动的最大值大于y的概率,我们使用Ross【8】在概率模型介绍中提供的公式。对于任何给定的布朗运动过程,我们都可以使用以下方程计算其可能性:P(M(t)≥ y) =e2yu/σΦ(y+utσ√t) +Φ(y- utσ√t) (3)其中逆累积分布函数为:P(Z>x)=Φ(x)=1- Φ(x)(4)将此应用于存储利用率,我们感兴趣的是估计系统在时间段t内(例如在我们的示例中为30天)耗尽容量的可能性。最大值M(t)是指系统在时间段t内获得的总容量。对于时间段0≤ z≤ t、 z表示customerstorage patterns上可用的最新数据点。我们有兴趣利用z点之前的时间序列数据,来确定在时间段t内满容量的可能性。

12
大多数88 在职认证  发表于 2022-6-11 12:38:06
X(z)的特征是时间z的容量,它遵循布朗运动过程。X(z)和M(t)之间的差值减小的速率将决定系统在t时间内耗尽容量的可能性。设y=M(t)- X(z),则系统总容量M(xt)大于或等于行驶距离y的概率等于公式(3)。正如Karlin和Taylor[9]所述,每个容量增量或X(z)都被视为服从正态分布,平均值为ut,方差为σt。风险估计值从方程4所示的正态分布Φ中获得。C.参数估计-漂移和方差为了估计漂移和方差,u和σ,我们利用漂移模型的布朗运动性质,该模型表示增量X(t+s)- X(s)通常以平均ut和方差σt分布。对于每个存储系统,我们确定增量变化,即X(z)- X(z- 1).基于向量系统的性质,i∈ [0,…,n]包含存储、漂移和方差,可使用定义为:Di=X(zi)的差值计算- X(zi-t) (5)u=tXDi(6)σ=tP(Di- D) n个- 1(7)之后,我们使用Welchst检验测试正态性。在显著p值估计小于0.05的情况下,我们利用漂移模型确定了布朗运动的性质。如果数据符合规定的特性,我们继续使用6和7中提到的方程计算漂移和方差。五、 视觉比较nnutanix系统通常表现出独特的存储趋势,线性回归或集合模型对此类系统的预测效果不佳。

13
mingdashike22 在职认证  发表于 2022-6-11 12:38:09
在本节中,我们将提供此类系统的示例,并展示布朗运动模型如何适应此类变化,同时仍然为存储利用率提供可靠的风险估计。我们首先看一看容量利用率方差非常低(小于0.05)的系统。利用前一节中提到的方法计算系统的方差。图2显示了一个在120多天内变化非常小的系统。我们使用分段线性回归模型,该模型选择最佳子集,并在系统预计达到100%容量时进行预测(红色虚线)。基于系统趋势,分段线性回归模型使用具有逐渐负斜率的最佳拟合线。在这种情况下,系统在未来的任何时候都不会耗尽容量。图3显示了应用于同一系统的带有漂移模型的布朗运动。每条垂直线描述了未来30、60和90天内与产能耗尽相关的风险。虽然在30天时失效概率非常接近于零,但这一概率逐渐增加。考虑到漂移和方差是参数,该模型适应存储模式中的趋势,并将漂移和方差合并。图2:。低方差聚类上的分段线性回归,其中红色点线表示100%的容量。3、低方差集群上的布朗运动模型,其中红色虚线表示100%的容量。下一步,我们考虑一个方差较高的系统。图4和图5显示了一个被归类为高利用率系统的系统,因为其在过去100天内的容量利用率超过了容量的50%。图4显示了一个分段线性回归模型,其中最佳拟合线延伸至全容量。预计该系统将在未来50天内达到100%。我们将带有漂移模型的布朗运动应用于图5所示的相同数据。

14
kedemingshi 在职认证  发表于 2022-6-11 12:38:12
结果表明,在未来30天内,系统容量耗尽的风险为88%。六、 测量精度我们测量了布朗运动模型相对于现有模型(如分段回归模型)的性能。每个模型的目标都是优化决策规则(decisionrule),该规则用于准确识别客户是否面临容量不足的风险。业务结果是决定是否给面临容量不足风险的客户打电话。我们将我们的模型结果转化为伯努利结果,这样,每个客户都有FIG。4、高方差聚类上的分段线性回归,其中红点线表示100%的能力fig。5、高方差聚类上的布朗运动模型,其中红点线表示100%容量a数量d(x)∈ [0,1]表示风险,其中d(x)=1表示客户有风险,d(x)=0表示客户没有风险。该数据集由一个受限的系统样本组成,这些系统至少有60天的数据,用于培训和测试目的。以及容量利用率在50%-70%之间的系统。我们注意到,容量利用率超过50%的系统在30天内最容易受到容量变化的影响,这是获取模型准确性所必需的。为了测量精度,我们寻找模型检测容量微小变化的能力。我们希望确保有足够多的系统在超过60天的时间内在存储中发生变化。基于此以及增加数据集的大小,我们看到在30天内容量增加了2%。

15
能者818 在职认证  发表于 2022-6-11 12:38:15
因此,容量增加2%的系统被归类为风险系统,容量没有增加2%的系统被归类为无风险系统。我们将数据分为训练和测试两部分,最近30天用于测试,剩余时间用于训练模型。每个模型都遵循以下一组规则:vA.带漂移的布朗运动o数据包括60多天的存储容量向量o通过训练集,我们使用方程3计算系统在未来30天内增加2%的概率o对于用于估计风险的方法,通常为计算的概率p(x)设置阈值t。当p(x)>t时,关于d(x)=1的决定o在我们的情况下,预计在未来30天内将面临风险的系统,即增加2%,将与d(x)=1确定。用真阳性率和假阳性率确定最佳阈值t。t=60%时,与真阴性率相比,真阳性率更高从测试集来看,我们希望在30天的时间内,丧失工作能力至少增加2%。如果系统的容量至少增加了2%,则该系统的d(x)=1。B、 分段线性回归o数据表包括两列,存储容量和日期(培训集的最后日期和每个日期之间的差值)o分段线性回归模型在培训集上运行,存储容量作为预测值。根据系数,我们计算了容量增加2%之前的天数。让训练集最后一天的容量等于Cn,则用于计算剩余天数(Dr)的公式如下:Dr=从Cnβ日起增加2%o 对于预计在30天内丧失工作能力增加2%的系统,剩余天数应等于或小于30天,即。

16
何人来此 在职认证  发表于 2022-6-11 12:38:18
如果Dr≤ 30,d(x)=1o最后,与布朗运动模型类似,我们确定一个系统在30天内是否实际出现2%的丧失能力增加。通过执行A和B中提到的步骤,我们获得了每个模型的一对向量-实际与测试结果。利用这些向量,我们计算了真阳性、假阳性、真阴性、假阴性、精度和准确度估计。以700多个系统为样本,我们对所有集群进行了上述分析,并获得了以下结果布朗运动模型提供了所有700多个系统的估计值,其中分段线性回归模型提供了526个系统的估计值。表2提供了布朗运动模型700多个聚类的混淆矩阵。表3和表4考察了525个布朗运动模型和分段线性回归之间常见的系统。预测的布朗运动:0预测:1实际:0 TN=271 FP=213实际:1 FN=56 FP=219表II布朗运动结果预测的布朗运动:0预测:1实际:0 TN=185 FP=152实际:1 FN=42 FP=147表III布朗运动结果-526个系统o考虑到这两种方法中常见的系统,布朗运动模型的精度为63%,PLR的精度也为63%。虽然两个系统的准确度估计值相同,但布朗运动方法的好处来自于真阳性、假阳性和业务结果灵活性的差异。以下各节将详细介绍如何利用这些统计指标优化业务决策。七、优化业务决策将我们的模型和结果应用于业务决策,我们考虑了从统计度量计算出的可能结果。

17
能者818 在职认证  发表于 2022-6-11 12:38:21
业务目标是识别有能力耗尽风险的客户,并主动让客户支持联系并讨论可能的解决方案。一种更具反应性的方法是等待一个完全容量的事件和一个客户联系支持。这可能会带来更严重的影响,如数据丢失对达到满容量的影响。我们可以将givensystem的业务结果标识为:O(x)=bcallor bcase每个结果都有其关联的美元金额。虽然我们无权透露我们的内部财务计算,但我们假设与呼叫客户isC相关的成本(bcall)和与客户拨打案例相关的成本为C(bcase)。我们确定了业务结果、bcallor BCase和计算的统计指标之间的关联。当模型表明客户面临容量不足的风险,即d(x)=1时,可以将此信息传递给客户支持,从而导致O(x)=bcall。根据估计的统计指标,真阳性(TP)和假阳性(FP)包括预计存在风险的系统。这可以表示为:布朗运动预测值:0预测值:1实际值:0 TN=223 FP=115实际值:1 FN=75 FP=113表四分段线性回归-526 SYSTEMSviO(x)=bcall=T P+F P当模型未确定处于风险中的系统,即d(x)=0时,这些系统被归类为真负(TN)。如果未将处于风险中的系统确定为存在风险,则会导致客户与支持工程师一起创建案例。这可以表示为:O(x)=bcase=F必须选择NA模型,以使与两个业务结果相关的总体成本最小化,即MinC(O)=bcall* C(bcall)+bcase* 这是一个凸优化问题,其中C(O)的最小值提供了最佳的业务结果。

18
kedemingshi 在职认证  发表于 2022-6-11 12:38:24
图6进一步解释了这种关系。由于客户导致的案例数量增加,零电话与企业的高成本相关。另一方面,更多的电话也会增加成本。沿着这条曲线的最小值对应于使总体成本最小化的最佳业务结果。图6:。成本随调用次数变化的凸优化图当比较分段线性回归和布朗运动模型的相关成本时,我们发现Nutanix系统的成本降低了39%。与分段线性回归或集成方法相比,布朗运动模型是有益的,因为:o不连续系统-与其他方法相比,该模型可以应用于更大的系统集,表现出一系列增长趋势。这是方差和漂移作为参数包含在模型中的结果,为一系列容量模式提供了更好的适应性o迈向风险评估-在表现出不同行为的系统中应用单一预测方法的局限性,导致预测估计较差,且计划可信度较低。SER提供了一个重新定义问题的机会,并从与容量不足相关的风险角度进行思考o命中时间问题-SER不是提供点估计,而是估计系统在特定时间段内耗尽容量的可能性。这意味着系统可以在我们计算的范围内的任何时间点以一定的确定概率达到满容量o个性化风险评估-SER可以根据系统利用率和风险规避偏好进行个性化。

19
能者818 在职认证  发表于 2022-6-11 12:38:26
风险偏好较高的公司可能能够承受70%的产能耗尽风险,而风险偏好较低的公司与产能耗尽相关的成本远高于购买更多存储o最小化成本-布朗运动模型和回归之间的比较,在统计测量方面,如真正率,误报率,为降低相关成本的业务决策提供了优化机会。基于对真阳性和假阳性的偏好,可以优化布朗运动模型,以降低总体业务成本,包括损失支持和销售功能III。结论和未来工作我们的研究表明,一种简单的预测方法比当前的容量预测模型(如apeice线性回归和预测集合)表现得更好。这为重新定义问题和采用概率方法管理容量提供了动力。随机估计Drisk使用带漂移的布朗运动模型来估计系统在一定时间内耗尽容量的可能性。在未来的工作中,我们希望检查以下方面以改进模型:o模型在估计相似性、漂移和方差时使用两个参数。有机会包括更多反映存储环境的参数o该模型仅适用于容量利用率。我们希望检查额外的工作量,例如将布朗运动方法与现有预测模型进行比较,我们发现两个样本的精度估计值是可比较的。然而,在将我们的模型转换为Nutanix系统的业务决策时,与分段回归模型相比,实现布朗运动模型可降低39%的成本。

20
mingdashike22 在职认证  发表于 2022-6-11 12:38:30
通过重新定义现有问题陈述并纳入更广泛的系统,我们的方法将模型与业务成果联系起来,并提供了一种成本效益高的容量管理方法。我们希望这种新方法将有助于未来的研究人员构建侧重于管理容量利用率的模型。viiIX。参考文献[1]Chamness,M.(2011年12月)。备份存储环境中的容量预测。《USENIX大型安装系统管理会议记录》(LISA)(第4卷)[2]Vaughn,C.,Miller,C.,Ekenta,O.,Sun,H.,Bhadkamkar,M.,Efstathopoulos,P.,和Kardes,E.(2015年10月)。占卜师:预测备份存储系统中的容量使用情况。2015年IEEE第23届国际研讨会(第208-217页),计算机和电信系统建模、分析和仿真(MASCOTS)。IEEE。[3] Friedman,J.H.(1991年)。多元自适应回归样条。《统计年鉴》,1-67。[4] Oczeretko,E.、Borowska,M.、Kitlas,A.、Borusiewicz,A.、Sobolewska Siemineuk,M.(2008年10月)。不规则感兴趣区域中medicalimages的分形分析。生物信息学和生物工程,2008年。BIBE 2008。第八届IEEE国际会议(第1-6页)。IEEE。[5] Matthews,M.V.,Ellsworth,W.L.,和Reasenberg,P.A.(2002)。反复地震的ABrownian模型。《美国地震学会公报》,92(6),2233-2250。[6] Osborne,M.F.(1959年)。股票市场中的布朗运动。运营研究,7(2),145-173。[7] Black,F.,&Scholes,M.(1973)。期权定价和公司责任。《政治经济学杂志》,81(3),637-654。[8] Ross,S.(2009)。概率论第八版的第一门课程。皮尔逊。[9] Karlin,S.(2014)。随机过程的第一门课程。学术出版社。八

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
jg-xs1
拉您进交流群
GMT+8, 2026-1-1 09:44