楼主: mingdashike22
1029 45

[量化金融] 基于大数据的数学及格率优化方法 [推广有奖]

11
nandehutu2022 在职认证  发表于 2022-6-10 20:03:42
一个注册对应一行是不可理解的,例如,如果某个学生在同一学期注册DC和LA,则为每个注册创建一行,重复上面(i)和(ii)项中列出的所有信息。当一个人因为之前的失败或失败而需要重修一门课程时,情况也是如此。3、量化:变量、细分和专业在目前的工作中,我们假设讲师是成功的最重要因素之一,更具体地说,目标是实现最佳的师生合作关系;在这一点上,我们与[8,9]有所不同,后者提出,班级组成应该由同龄人互动决定。为此,有必要根据学生群体的相关特征对其进行培养。3.1. 分割因子的确定计算组合数据中考虑的定量因子的相关矩阵。csv;在表2中,我们展示了微分微积分课程的相关矩阵。从Gr ade行可以看出,年级变量中最重要的因素是学业平均成绩(GPA),其次是学业年龄(AA)和年龄。然而,GPA的影响是AA的四倍,而年龄因素的影响是相同的。此外,从GPA数据来看,很明显,成绩之后最重要的因素正是学业年龄和年龄(学生越年轻,GPA越高)。在一种情况下,对于剩余的课程,可以观察到类似的相关矩阵。因此,我们将GPA作为年级变量中唯一重要的定量因素。备注2。值得一提的是,班级规模对学生表现的影响一直是广泛讨论的主题,但没有达成共识。

12
可人4 在职认证  发表于 2022-6-10 20:03:46
虽然[15、10]报告了在减少班级规模方面的巨大优势,但[16]没有发现任何影响。在我们的特殊情况下,表2表明路段通行能力不仅与坡度变量不相关,而且与GPA变量也不相关。此外,路段通行能力与Cancellations(d rop out)变量不相关。因素部分年龄AA#入学成绩#取消#尝试GPACACACACITY学生考试能力1.0000-0.0108 0.0570 0.8334 0.0074 0.0003 0.0393 0.0180年龄-0.0108 1.0000 0.3069-0.0168-0.2031 0.0775 0.1384-0.2082AA 0.0570 0.3069 1.0000 0.0416-0.2164 0.1668 0.4294-0.1667#入学学生0.8335; 34-0.0168 0.0416 1.0000 0.0252 0.0131-0.0041 0.0325 等级0.0074-0.2031-0.2164 0.0252 1.0000-0.1247-0.0241 0.8207#取消0.0003 0.0775 0.1668 0.0131-0.1247 1.0000 0.3101-0.0686#尝试0.0393 0.1384 0.4294-0.0041-0.0241 0.3101 1.0000-0.0401 GPA 0.0180-0.2082-0.1667 0.0325 0.8207-0.0686-0.0401 1.000表2:定量因素相关性表,课程:微分微积分。该表显示了感兴趣的变量(部门能力、年龄、AA、#注册学生、成绩、#取消、#尝试、GPA)的相关矩阵。还有两个双变量有待分析,即通过/失败(PF)和性别。如果我们一般用x表示二元变量,用Y表示感兴趣的变量,则点双列相关系数由p bdef=M给出- MσrNNN。(2) 这里,索引0,1是二元变量X的值。对于i=0,1,Mi是组/事件{X=i}中数据点的变量Y的平均值,Nidenotes是每个组的总体{X=i},N=N+N表示总总体,σ表示变量Y的标准偏差。表3显示了二进制通过/失败(PF)变量与定量因素之间的相关性分析。

13
能者818 在职认证  发表于 2022-6-10 20:03:49
在年级变量分析中,及格/不及格变量中最重要的因素是学业平均成绩(GPA),其次是学业年龄(AA)和年龄。然而,在这种情况下,GPAI的影响是AA和年龄因素影响的三倍。同样,我们将GPA作为通过/失败变量中唯一重要的定量因素。接下来,下表4总结了性别变量与学业成绩变量的相关性分析,即成绩、GPA和及格/不及格(PF)。很明显,性别变量在学业表现变量中的发生率可以忽略不计,但基础数学(BM)课程的GPA除外,其中女性表现稍好。由于这种独特的相关性现象不存在于剩余的因素来源C IC VC VAG LA ODE BM NM截面容量0.0058 0.0139-0.0296-0.0986-0.0147 0.0448-0.0451 0.0840 Age-0.1757-0.2554-0.3048-0.1879-0.2444-0.2555-0.0892-0.3333a-0.1783-0.2855-0.3012-0.1550-0.2230-0.3841-0.0209-0.273 31#在校生0.0070 0.0276 0.0172-0.0410 0.0602 0.1258-0.03740.1916等级0.8072 0.7987 0.7864 0.8145 0.7959 0.7999 0.7988 0.7922#取消-0.1129-0.1397-0.1420-0.1299-0.1178-0.1647-0.0096-0.1489#尝试-0.0988-0.1635-0.1683-0.1374-0.1399-0.1577-0.0054-0.2065 GPA 0.6062 0.5892 0.5884 0.6445 0.6063 0.5341 0.6125 0.5828表3:通过/失败与定量因素,双列相关表,课程:全部。我们显示了与每门课程的及格/不及格变量相比,每个变量(课时能力、年龄、AA、#注册学生、成绩、#取消、#尝试、GPA)的双列相关性。从现在起,性别变量将被忽略。

14
能者818 在职认证  发表于 2022-6-10 20:03:53
最后,需要强调的是,考虑到性别和通过/失败(PF)变量的双重性质,所有相关系数都是一致的,即双序列点、Pearson和Spearman以及Kendall。FACTORCOURSEDC IC VC VAG LA ODE BM NMGrade 0.0545 0.0584 0.0240-0.0485 0.0154 0.0164-0.0740-0.0405GPA-0.0425-0.0441-0.0419-0.0766-0.0343-0.0824-0.1159-0.0663及格/不及格(PF)0.0509 0.0382 0.0166-0.0373 0.0103 0.0085-0.0535-0.0226表4:性别与学业成绩变量,课程:全部。每个课程都会显示每个变量(年级、GPA、及格/不及格)与性别变量之间的双列相关性。从前面的讨论中可以清楚地看到,在所分析的变量中,GPA是唯一在acad emic绩效变量等级和通过/失败上具有显著影响的变量。因此,这将被用作划分学生群体的唯一标准。从现在起,我们的分析将集中在平均成绩和及格/不及格变量作为成功的衡量标准,而GPA将用于第3.2节讨论的细分目的。在表e 5中,显示了所有服务课程这些变量的全球平均值(从2010-1年到2017-1年)。3.2. 细分过程学生群体的划分应按课程进行。对于参加课程的每组,算法计算10个GPA数值区间的区间[0,5]的分区我l: l ∈ [10], 所以大约百分之十的人口包含在l对于所有人l ∈ [10]. 同样,如果绘制相对频率的直方图,如图1所示,曲线和任何间隔之间的面积应在0.1左右。因此,如果fgpai是GPA变量的相对频率lfGPAdx~ 全部为0.1l ∈ [10].

15
nandehutu2022 在职认证  发表于 2022-6-10 20:03:57
下面的伪代码1总结了上述过程。VARIABLECOURSEDC IC VC VAG LA ODE BM NMGrade 2.6849 2.7829 3.2198 2.8616 3.0233 3.1170 2.8308 3.1893GPA 3.2213 3.3527 3.4969 3.2386 3.3201 3.4548 3.2696 3.5330通过/失败0.5010 0 0 0.5339 0.7151 0.5901 0.6398 0.6846 0.5441 0.6924尝试次数1.7382 1.9140 1.4996 1.5205 1.5495 1.7710 1.0549 1.4115表5:学业成绩变量平均值,课程:全部。显示了2010-1至2017-1年间每门课程学生的平均成绩(根据变量等级、GPA和及格/退学分数计算)。0 1 2 3 4 5kPa标度0.00.20.40.60.81.01.2GPA相对频率(a)示例DC。GPA柱状图,2010-1至2017-1.0学期1 2 3 4 5GPA等级0.00.20.40.60.81.01.2GPA相对频率2011-1学期2015-1学期1(b)DC示例。GPA直方图,2010-1和2015-1学期。图1:差异微积分GPA归一化直方图。图(a)显示了数据库集合数据中可用的所有这些测量值的归一化频率直方图。csv。图(b)显示了仅两个学期的归一化直方图,用于光学目的。请注意,在这两种情况下,归一化直方图下方的区域正好等于一个区域。数据:数据库:AssembledData。csv。年和学期。分析课程:DC,IC。。。,纳米。结果:GPA分割区间的极值我l: l ∈ [左]; 极值=[0,n 1,n 2,…,5]初始化;列表GPA← 排序(散列GPA变量fromAssembledData.csv[(课程=分析课程)&(年=y)&(学期=s)]);极值0← 0;对于i∈ [10] doextremes i公司←i×ListGPA的长度;endif列表极端值包含重复的极端值← 删除极端算法1中的重复:学生分段标记3。

16
大多数88 在职认证  发表于 2022-6-10 20:04:00
请注意,算法1旨在生成十个分段,但最后一条指令考虑删除之前定义的十一个极端中的一些点,以防重复。如图1(b)所示,当某一特定GPA值过于频繁时,就会出现这种情况,2011-1学期的GPA峰值为3。如图1(a)所示,在其他学期也可以观察到类似的峰值。3.3. 演讲者表现的计算演讲者作为成功因素的处理完全是根据研究案例量身定制的,不能将其视为一般方法,预期(平均)表现将根据成绩和通过/失败变量进行计算。为了计算教员的表现,首先要进行细分过程我l: l ∈ [左](如第3.2款所述)必须完成。接下来,计算遵循以下两个原则(i)附属原则和分为不同组的TEN u red(轨道或非轨道)讲师。(ii)如果特定讲师的经验(数据库AssembledData.csv中的完整PERSO n a l教学日志)在第I段中l经分析,累计不到30人,其绩效如下l由他/她所属的组(附属或终身)在该组中的平均表现来代替,即受分析部分约束的学业成绩变量(APV)的条件期望:eAPV公司讲师=x, 参见【17、18】。备注4。兼职和终身教官的分离是因为在分析机构内,不同群体的工作条件、期望以及结果存在显著差异。特别是,兼职教员既不稳定,也不是全职人员。因此,这两个群体几乎没有可比性。

17
可人4 在职认证  发表于 2022-6-10 20:04:03
另一方面,根据数学学院的需要,有一个内部策略,即通过低年级课程轮换教师。因此,由于雇佣和教学轮换政策,兼职讲师很少在一个文件段I内积累30名或以上的学生经验l.备注5(经济角度)。通过学生成绩和及格/不及格变量来衡量教师的表现,将教师视为一个转换函数,其中输出(学生成绩)是相对于输入(学生背景)来衡量的,这在过去是常态(参见,例如,[19])。然而,正如【19】和【20】中所指出的,这种方法有几个问题。其中一些问题是:很难准确衡量学生的背景,对负责教学难度更大的学生的教师存在偏见,以及不同教师之间学生成绩的不可比性。尽管如此,关于如何测量结构器性能的新进展一次又一次地出现。在[21]中,R.A.Berk提出了12种衡量教学效果的策略,其中一些是:体育评级、自我评价、校友评级、教学奖励等。

18
nandehutu2022 在职认证  发表于 2022-6-10 20:04:06
最后,考虑到我们工作的算法性质,我们只需要一个讲师绩效变量就可以提出优化方法,但算法本身适用于任何定量测量,正如上文所述。性能计算在以下pseucodeData:数据库:组合数据中进行了描述。csv。分析课程:DC,IC。。。,纳米。学业成绩变量(APV):年级、及格/不及格分组我l: l ∈ [左].结果:分析后的cou rse的性能哈希表,以每个分段间隔为条件我l: l ∈ [左]对于所选的学业绩效变量(APV):APV绩效终身[l], APV性能伴随[l], APV绩效讲师[l], l ∈ [五十] 初始化;讲师列表← 从集合数据中散列讲师列表。csv[课程=分析课程];Tenu红色列表← 从讲师列表中选择终身讲师;伴随列表← 讲师列表- 终身制名单;对于l ∈ [五十] doX=表:AssembledData中的哈希APV字段。csv[(课程=分析课程)&(GPA)∈ 我l) & (讲师∈ 终身制名单)];APV绩效终身[l] ←E(X);X=表:AssembledData中的哈希APV字段。csv[(课程=分析课程)&(GPA)∈ 我l) & (讲师∈ 伴随列表)];APV性能伴随[l] ←E(X)。endfor(结束)l ∈ [五十] 结构器中的dofor∈ 讲师从表:AssembledData列出doX=哈希APV字段。csv[(课程=分析课程)&(GPA)∈ 我l) & (讲师=讲师)];如果X的长度>=3 0,则NAPV性能讲师[l] ←E(X)。结构器中的elseif∈ NAPV绩效讲师终身名单[l] ←APV绩效终身[l]ElseAppV性能讲师[l] ←APV性能伴随[l]endendendendAlgorithm 2:教员绩效的计算4。核心优化算法和历史评估本节介绍核心优化算法。

19
kedemingshi 在职认证  发表于 2022-6-10 20:04:10
根据第3.3节所述的大数据分析,从本质上讲,它是将以前的算法与一个整数规划模块的集成,该模块的目标函数是最大化学术绩效变量(成绩和通过/失败)的期望。针对数据库中记录的每门课程和每学期,实现了两种方法。一、 讲师分配(IA)。假设已经确定了学生的组,指派寻求最佳预期绩效伙伴关系的讲师:讲师一致的小组。这在整数规划中称为工作分配问题。二、学生作业(SA)。假设各部分(具有给定容量)及其对应的讲师固定,将学生分配到可用部分,以优化学生-教师合作的预期绩效。这是线性优化中生产问题的整数规划版本。为了正确建模整数规划,我们首先引入一些符号定义1。让N,L,J∈Nbe分别是学生总数、细分项目总数和部门总数。让p=pl: l ∈ [左]∈NL,g=gj:j∈ 【J】∈NJbe各专业段的学生人数和各专业段的能力,尤其是以下总和条件成立。九、l = 1便士l=JXj=1gj=N.(3)备注6。请注意,条件Pjj=1gj=N意味着这些区段的容量没有松弛变量。这是由于研究案例,与其他大学相比,其他大学可能会出现大量的闲置能力。定义2。让N,L,J∈N、 p∈NL,g∈定义1中的NJbe。(i) 我们说矩阵G∈如果所有项都是非负整数和xj,则RL×Jis是组赋值矩阵∈ [J] G级(l, j) =pl, l ∈ [五十] ,Xl ∈ [五十] G级(l, j) =gj,j∈ [J] 。

20
大多数88 在职认证  发表于 2022-6-10 20:04:13
(4) 此外,通过Gdef定义集团分配空间=G:G是组分配矩阵.(二)出租tj:j∈ 【J】是分配给课程的讲师。对于固定APV∈等级,通过/不通过预期性能矩阵TAPV∈RJ×Las矩阵,其中心为TAPV(j,l) APV是否为可变性能,对应于分段间隔I内的讲师TJl.(iii)Gi ven集团分配矩阵G和教员团队tj:j∈ J, 确定选择performancematrix CAPVbyCAPVdef=TAPVG。(5) 备注7。观察以下(i)CAPV(j,i)测量在分区{G(k,i)}Lk=1的分区gi上讲师的平均表现。(ii)从组合数学中重新调用,m PAR中n的弱组合是一个满足PMI=1ai=n的非负整数序列(a,…,am)(见[22])。请注意G级(l, j) :j∈ 【J】是p的弱组成l对于每个l ∈ [五十] 还有那个G级(l, j) :l ∈ [左]是gjfor every j的弱组合∈ [J] 。(iii)回顾APV的预期性能矩阵TAPVF∈等级,通过/不通过, 从算法2第3.3节中构建的文件APVPPerformance讲师哈希表中恢复。接下来,我们介绍整数问题问题1(指令ors赋值方法)。让N,L,J∈定义1中的Nbe,设ξ=ξ(i,j):i∈[一] ,j∈ 【J】∈0, 1L×Jand L和CAPVbe,如定义2中的固定组分配矩阵G和f acultyteamtj:j∈ J. 然后,讲师分配问题由viadef=maxξ给出∈ {0,1}L×JJXi=1JXj=1CAPV(i,j)ξ(i,j),(6a)受制于:JXi=1ξ(i,j)=1,j∈ [J] ,JXj=1ξ(i,J)=1,我∈ [J] 。(6b)问题2(学生作业问题)。定义1中引入的符号和chosenfaculty团队tj:j∈ J, 设π是sj中的一个置换,使得tπ(j)是al l j的j部分的指导员∈ [J] 也就是说,选择讲师分配给各部门。

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
jg-xs1
拉您进交流群
GMT+8, 2026-1-4 11:08