楼主: mingdashike22
1030 45

[量化金融] 基于大数据的数学及格率优化方法 [推广有奖]

21
mingdashike22 在职认证  发表于 2022-6-10 20:04:16
然后,学生的作业问题由vsa=maxG给出∈ GJXj=1TAPVG公司j、 π(j)= 最大值∈ GJXj=1CAPVj、 π(j). (7) 备注8。(i) 观察问题2的约束仅为等式(4)的约束;这些完全包含在条件G中∈ G、 (ii)注意,尽管问题2的搜索空间明显大于问题1的搜索空间,但前者的最优值不必大于或等于后者的最优值。然而,在实践中,下面的数值结果表明,情况确实如此,这并不是因为搜索空间包括在内,而是因为搜索空间大小的巨大差异。为了评估该方法带来的经济效益,有必要计算历史效益的最佳效益率,即,如果∈ G、 πh∈ sj分别是给定学期h的历史组组成和教员分配,然后,由于方法mt,相对增强ρmt由ρmtdef=100vmt给出-JPj=1塔夫格j、 πh(j)JPj=1塔夫格j、 πh(j), mt公司∈ {IA,SA}。(8) 最后,我们在下面的算法3中描述了优化算法备注9(经济角度:IA和SA解决方案为帕累托均衡)。(i) IA和SA问题是由社会福利驱动的两个调度公式。大学作为中央监管机构,旨在解决此类时间表问题,以改善其社区(即学生和教授)的社会福利。给定组分配矩阵G,IA方法寻求找到匹配对(讲师,部分),以最大限度地提高讲师的总体平均绩效,但每个讲师必须只教授一个部分。另一方面,SA方法寻求找到一个组分配矩阵G,给出一个完整的匹配对(讲师,章节)。

22
mingdashike22 在职认证  发表于 2022-6-10 20:04:19
更具体地说,学生群体的分布使总体平均成绩最大化。(ii)与帕累托公平相对应的解决方案和vSAare配置,即任何个人都无法改善其福利(在此特定情况下的成功机会)而不会降低系统中另一个人的福利的情况。本着同样的精神,参数ρmta是对帕累托均衡偏离的度量。请注意,IA方法比SA方法更容易实现,前者只需要分配讲师,而后者需要重新分配整个学生群体。数据:数据库:组合数据。csv。年和学期。分析课程:DC,IC。。。,纳米。学业成绩变量(APV):成绩、通过/不通过。组分段我l: l ∈ [左].APV绩效讲师[l], l ∈ [五十] 。优化方法:mt∈ {IA,SA}。结果:对于所选课程、年份和学期,方法mt的相对增强值ρmt。初始化;课程表← hashAssembledData。csv[(课程=分析课程)&(学年=y)&(学期=s)];讲师列表← 从课程表中哈希讲师列表;讲师绩效← 哈希APV性能讲师[讲师∈ 讲师名单];截面列表← 课程表中的哈希节列表l ∈ [五十] dofor j公司∈ J doTAPV公司(l, j)← hashAPVInstructors性能[(讲师=讲师列表(j))&(分段=Il)];生长激素(l, j)← 长度(哈希CourseTable[(Section=j)&(Segmentation=Il)])Endindif mt=IA thenCAPV← TAPVGh,vIA← 解决问题1,输入:CAPV。elsep公司←PJj=1G(l, j) :l ∈ [左], g级←PL公司l = 1克(l, i) :i∈ 【J】, π ← 分项清单;vSA公司← 解决问题2,输入:(TAPV,p,g,π)。结束πh← 分项清单;ρmt← 计算公式(8),输入:TAPV、Gh、πh、vmt.算法3:Op timi ZATION算法4.1。

23
大多数88 在职认证  发表于 2022-6-10 20:04:22
历史评估在本节中,我们将根据历史结果的平均值评估拟议方法的增强效果。为此,我们只需将算法1、2和3集成到主alg算法中,通过时间循环来评估每个学期的表现,然后将结果存储在表格中,这在算法4中完成。需要注意的是,除数据库外,所有剩余的输入数据都必须由用户定义。微分微积分课程的数值结果总结在表6中,如图2所示。结果表明,学生分配法(SA)比教师分配法(IA)产生更好的结果,后者适用于学业成绩变量:通过/失败和平均。这种差异不仅发生在平均值上,而且发生在每个观察到的实例(学期)上,这是由于问题1和2的搜索空间之间的大小差异,如备注8所述。另一方面,可以观察到,通过/失败变量比平均变量对优化过程更加敏感。同样,这种现象不仅发生在增强的平均值上,前者大约是后者的三倍,而且在算法分析的每个学期都会发生支配。后者之所以成立,是因为,为了提高平均变量,学生的成绩应该得到普遍提高,而通过率的提高并不那么苛刻。优化方法的结果对所有剩余的低除数课程产生类似的效果。因此,在下文中,我们将只关注通过/失败变量的分析,这是本文的标题。

24
nandehutu2022 在职认证  发表于 2022-6-10 20:04:26
将保留这两种优化方法以供进一步分析,这不是因为效率(显然SA会产生更好的结果),而是因为高等教育机构在实施解决方案时可能面临的管理限制。显然,从管理的角度来看,机构实施IA而不是SA更容易,同样重要的是,尽管1.4%或7%的增长乍看起来可能并不显著,但考虑到表1中显示的典型入学人数,这一好处是巨大的,表5显示了学生通过d课程所需的平均尝试次数。此外,拉丁美洲公立大学尽管存在严重的预算限制(如我们的研究案例),但仍大量资助学生,这一事实与该方法的结果更为相关。数据:数据库:AssembledData。csv。分析课程:DC,IC。。。,纳米。学业成绩变量(APV):成绩、通过/不通过。优化方法:mt∈ {IA,SA}。结果:所选方法、课程和学业表现变量的相对增强值ρmt表。初始化;年∈ [2010、2017]dofor学期∈ [2] docall算法1,输入:(Assembled Data.csv,Year,sement,analysisted Course);调用算法2,输入:(AssembledData.csv,分析课程,APV,分组我l: l ∈ [左]);调用算法3,输入:(AssembledData.csv,年份,学期,分析课程,APV,GroupSegmentation我l: l ∈ [左], mt);APVmt评估[年度,学期]← ρmt.endendAlgorithm 4:历史评估算法2010-12010-22011-12011-22012-12012-22013-12013-22014-12014-22015-12015-22016-12016-22017-10246810Enhancement Percentage讲师分配方法学生分配方法(a)示例DC。

25
mingdashike22 在职认证  发表于 2022-6-10 20:04:29
增强结果APV=通过Rat e.2010-12010-22011-12011-22012-12012-22013-12013-22014-12014-22015-12015-22016-12016-22017-10.00.51.01.52.02.53.0增强百分比讲师分配方法学生分配方法(b)示例DC。增强结果APV=平均值。图2:示例:微分微积分课程。两个图都显示了mt的增强结果ρmt∈ {IA,SA}优化方法。教师作业方法(IA)用蓝色表示,而学生作业方法(SA)用红色表示。图(a)显示了通过/失败变量的结果。图(b)显示了平均变量的结果。备注10(经济视角:图2)。正如第4.1小节开头所述,学生作业法(SA)比教师作业法(IA)产生更好的结果。这与欧共体经验主义观点中的以下观点相一致:当个人有更多的工具参与时,他们在社会福利方面的福祉就会增加。学术APV=及格/不及格APV=平均学期mt=IA mt=SA mt=IA mt=SA2010-1 2.0482 5.8891 0.7868 1.83932013-1 0.9090 5.8924 0.4230 2.08702016-1 2.0939 8.2952 0.4391 2.1050平均1.3811 7.0432 0.5501 2.1584表6:相对增强样本,ρmt,课程:Diffee rentia l微积分。我们展示了20 1 0-1至2017-1年间微分微积分课程的平均相对提高;以及同一时间窗口内的三个学期的样本。随机分析和预测评估迄今为止,该方法已根据历史记录进行评估,即将其运营时间与15个记录学期的运营时间进行比较。本节的目的是对该方法的有效性进行蒙特卡罗模拟,并应用大数定律估计算法的性能增强。

26
nandehutu2022 在职认证  发表于 2022-6-10 20:04:32
为了完整起见,我们在下文中给出了其证明和详细信息,见【18】。定理1(大数定律)。允许Z(n):n∈N是一个独立的、分布相同的随机变量序列,期望u=E(Z(1)),然后Z(1)+Z(2)+。Z(n)n- u> 0----→n→ ∞0,(9)即序列Z(n):n∈N在Ces\'aro意义上收敛到u。为了实现蒙特卡罗模拟,我们首先将几个因素/变量随机化,这些因素/变量定义了每门课程的学期设置,见第5.1节。接下来,我们将在第5.2节中讨论规范化标准,以使enhanceme n t模拟具有可比性。最后,我们在第5.3节中给出了这两种方法的蒙特卡罗模拟结果,模拟该方法优点的随机变量(定理1中的Z(n)),以及其Ces'aro均值(Z(1)+Z(2)+的演化+定理1)中的Z(n)来确定所提出算法的渐近性能。在本节中,我们采用了一种符号约定,标签和输入算法将引用在前几节中开发的相应alg算法的随机版本。例如,RandInputAlgorithm 3,Input t:(组分配矩阵G,讲师列表,分析课程,APV,组分割我l: l ∈ [左], mt),参考上述算法3,但输入数据不同;为便于澄清,随机生成的输入数据加下划线。这种符号的引入是为了说明的简洁:避免编写一种算法,其逻辑ic与其确定性版本基本相同。5.1. 变量随机化将以相同的方式随机化四个因素:美国红色讲师人数、注册学生人数、学生GPA列表和组数。

27
kedemingshi 在职认证  发表于 2022-6-10 20:04:35
首先,我们仅通过从经验数据中计算95%的置信区间,将整数值统计变量随机化,然后假设该因素的影响可以由均匀分布在该置信区间上的随机变量建模,见【17】。定义3。设x为标量统计变量,平均值为x,标准偏差为σ,样本量为n。(i) 如果x是实值,其95%置信区间由IXDEF=h'x给出- 1.96σ√n、 \'x+1.96σ√镍。(10) (ii)如果x是整数值,则其95%的置信区间由IXDEF=h给出\'\'x- 1.96σ√n,\'x+1.96σ√n我∩Z、 (11)其中x,·, · :R→r分别注意地板和天花板功能。以上所列统计变量的随机化在很大程度上依赖于从数据库中挖掘的经验分布。准论文1。(i) 设x为标量统计变量,则其相关随机变量x在其置信区间Ix上均匀分布,即x~ Unif(Ix),其中置信区间由(11)或(10)定义,具体取决于变量x是整数还是实值。(ii)让x=xi除息的∈Rdbe是一个向量统计变量,则其相关随机变量由x给出=十、除息的, 其中xi是与xifor all i相关联的随机变量∈ [d] 如上所述。由此不难计算出随机变量的置信区间(或范围),如表7和表8所示。相反,在初始化处理时,需要进一步考虑截面和GPA变量。参数SCOURSEDC IC VC VAG LA ODE BM NM上限值3 3 5 5 5 5 4下限值6 3 4 3 3 3 2平均值7.2667 4.0667 2.6000 5.1333 3.7333 3.5333 3.3333 1.6667标准偏差0.7037 1.1629 0.7368 1.9952 1.2228 0.9155 1.0465 0.6172表7:随机变量:终身教官人数NT,课程:全部。

28
何人来此 在职认证  发表于 2022-6-10 20:04:38
显示所有课程中随机变量“终身教官人数NT”的上限和下限、平均值和标准差。参数ScourseDC IC VC VAG LA ODE BM NM上限1554 1203 586 1243 1045 882 974 301Lower Extreme 1337 1043 513 1050 932 721 837 234平均1445.9333 1122.8667 549.8000 1146.5333 988.6667 801.8000 905.4000 267.5333标准偏差213.4446 156.8642 70.9969 188.8304 110.7229 158.4433 134.2971 65.4847表8:随机变量:注册学生人数NE,课程:全部。显示所有课程中随机变量“终身制学生人数NE”的上限和下限、平均值和标准差。Sections变量是具有不同容量的几个部分的列表。对数据的统计扫描表明,该列表是一个最不可预测的变量,因为路段通行能力在15到150之间,每个值的相对频率都很低。因此,决定在INTEGER Intervaldefinition 4中对部门能力进行分组。给定整数间隔的列表idef=[15, 30], [31, 45], [46, 60], [61, 75 ], [76, 90], [91, 105], [106, 120], [121, 135], [136, 150], (12) 对于每学期和每门课程,章节频率变量由FDEF给出=nsIPK公司∈ 检验:I∈ 我, (13) 其中nsi是容量属于区间I的区段数∈ 一、 次级论文2。截面变量S完全由组数变量NS定义,如下方式:df=lNSsfm。(14) 这里,sf是方程式(13)中引入d的sf的平均向量,可以理解为天花板函数· 应用于向量的每个分量。最后,GPA变量被视为论文3中的以下变量。每学期定义xdef=xi:我∈ [50], 其中xi是GPA等于toi的注册学生的相对频率;尤其是RPI∈ 【50】xi=1。

29
能者818 在职认证  发表于 2022-6-10 20:04:41
让XGPAbe将相关的随机变量添加到相对频率x的列表中,如假设1所述。然后,随机变量GPA由GPADEF给出=东北XGPA, (15) 式中,NE是注册学生数随机变量,可以理解为上限函数·应用于向量的每个分量。备注11。请注意,随机变量S和GPA都是标量和向量的乘积。然而,对于S,标量是一个随机变量NS,向量sf是确定性的,而在GPA的情况下,标量和向量XGPAare是随机变量。向量变量的随机化存在差异。到目前为止,S=s(1)K:K∈ 我正在生成一个容量在I(方程式(12))中声明的范围内的分区列表,这将引入一套稍后将使用的宽松裤,以使注册学生人数NE与总分区容量相匹配。一旦扳平比分,比赛将分几个步骤进行∈ IsK=NE时,将随机生成一个组分配矩阵G(如定义2(i))。第1步。解决以下数据拟合Pr问题(其解决方案请参见[23])问题3。给出S的两个实现=s(1)K:K∈ 我和NE,考虑整数问题df(1)=minXK公司∈ Is(1)KXi=1xK,i- 氖: xK,i∈ K、 就我而言∈s(1)K和K∈ 我. (16) 表示为x(1)K,i:i∈ [s(1)K],K∈ 我问题(16)的最优解。如果df(1)≡ 0然后跳到下面的步骤4。第2步。决定是否更方便增加或减少截面数s(1)K7→ s(2)K根据这种情况,使用贪心算法5,修改路段的通行能力,从大路段到小路段,并获取DF(2)def=XK公司∈ Is(2)KXi=1x(1)K,i- 氖< df(1)。

30
nandehutu2022 在职认证  发表于 2022-6-10 20:04:45
(17) 数据:s(1)K:K∈ 我, ∑=PK∈ IPs(1)Ki=1x(1)K,i,NE。结果:新截面数量集s(2)K:K∈ 我.初始化;将间隔列表I从大值排序为小值;如果∑>NE,则定义df(2)def=∑- NE,K(r)def=K的右极端,对于所有K∈ 我当df(2)>min{K(r):K时∈ 一} doif∑- NE>K(r),然后s(2)K=s(1)K- 1,df(2)=df(2)- K(r)端部定义df(2)定义=ne- ∑,K(l)def=K的左端,对于所有K∈ 我而df(2)>min{K(l): K∈ 一} doif∑- NE>K(l)然后s(2)K=s(1)K+1,df(2)=df(1)- K级(l)endendendAlgorithm 5:贪婪算法增加/减少节数Sif df(2)≡ 0然后跳到下面的步骤4。第3步。如果0<df(2)(一旦应用了贪婪y算法5),则应用增加/减少容量算法6(打破约束x(2)K,i∈ 方程(16)的K)。首先改变x(1)K,i7→ x(2)K,ias尽可能均匀。其次,将提醒r分布在随机选择的x(2)K、i7部分中→ x(3)K,I和getdf(3)def=XK公司∈ Is(2)KXi=1x(3)K,i- 氖≡ 0<df(2)。(18) 数据:df(2),s(2)K:K∈ 我, ∑=PK∈ IPs(2)Ki=1x(1)K,i,NE。结果:新的截面容量集x(2)K,i:i∈ [s(2)K],K∈ 我.初始化;对截面容量列表进行排序x(1)K,i:i∈ [s(2)K],K∈ 我从大值到小值;确定截面总数sdef=PK∈Is(2)K;如果∑>NE,则定义u=Σ - NEs公司;定义x(2)K,idef=x(1)K,i- u代表所有i∈ [s(2)K],K∈ 我选择∑- 氖- u×s截面K∈ 一、 我∈ 【sK】用S表示该集合;if(K,i)∈ S thenx(3)K,idef=x(2)K,i- 1elsex(3)K,idef=x(2)K,iendelsede fine u=氖- ∑s;定义x(2)K,idef=x(1)K,所有i的i+u∈ [s(2)K],K∈ 我选择NE- Σ - u×s截面K∈ 一、 我∈ 【sK】用S表示该集合;if(K,i)∈ S thenx(3)K,idef=x(2)K,i+1elsex(3)K,idef=x(2)K,iendendAlgorithm 6:贪婪算法增加/减少节的容量步骤4。

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
jg-xs1
拉您进交流群
GMT+8, 2026-1-4 11:21