排序测度的直接优化 - 第2页 - 外文文献专区

11楼

发表于 2022-4-15 09:59:16

从这个意义上说，任何不分青红皂白的模仿，例如一个均方误差，或Xijis的一个大的裕度误差。相反，我们建议使用一个排序分数，如第3.2节中提出的，一次评估整行X。也就是说，我们希望确保Xijis在所有对象j的估计中作为一个完整的对象j被用于一个已定义的用户i。这意味着我们应该最小化remp[U,V,X]:=mxi([uv>]i·,xi·)(34)，其中的q如（17）所示，并且可以理解，它是在xijonly的非零项上求值的。这是一个高度非凸优化问题。然而，我们可以再次通过（5）中描述的方法来确定上界，得到一个函数～remp[U,V,X]。它的细节很简单，所以省略了。注意，根据线性，这个上限分别在U和V中是凸的，只要其他参数仍然保留。此外，当V被定义时，～R[U,V,X]根据用户UI·分解成m个独立问题，而这种分解并不包含V的项。为了处理过定义问题，推荐了矩阵U和V的正则化。迹范数Kukf+kV kFcan在推广方面显示出所希望的性质[Srebro et al.，2005a]。这给出了一个协同优化的迭代过程:ofor firexed V用UI·求解m个独立的优化问题，使用U上的Frobeniusnorm正则化。ofor for firexed U用V求解一个大规模凸优化问题。由于用户数量通常比对象数量高得多，因此可以用V e ciently来处理优化问题。6.1数据集和实验协议我们从UCI存储库中选择PageBlock、PenDigits、OptDigits和Covertype主要是为了增加Di i-erent数据集的数量，我们可以在这些数据集上比较DORM和其他现有方法。由于它们不是主要的排名数据，我们将讨论其结果仅为说明目的。对于PageBlock，PenDigits和OptDigitswe示例50个查询和每个查询100个文档。对于Covertypes，我们对500个查询和100个文档进行采样。web Seach我们的web搜索数据集（由Microsoft Research的Chris Burges提供）包括1000个用于训练、验证和测试的查询。它们是从用于搜索引擎的更大的训练数据池中提供和选择的。图1显示了每个查询文档数量的直方图（中位数约为50）。根据相关级别（1：不好，2:一般，3:好，4:优秀，5:完美）来记录文档。未标记的文档被视为不好。类别（1到5）之间的比例约为75:17:15:2:1。特征向量的长度是367（即我们使用的是BM25)。我们从NDCG@N、MRR和WTA性能三个方面来评估我们的算法。Eachmovie这个协作数据集由72916个用户对1628部电影的2811983个评分组成。为了证明我们的改进不是由于改进了核的选择，而是由于改进了损失函数的选择，我们遵循[Basilico和Hofmann,2004]的实验设置、核的选择和预处理以及使用ERU的compareperformance。我们还使用了[Yu et al.，2006]的实验装置，比较了NDCG和NDCG@10的性能。在这两种情况下，我们都能够大大改善结果。

12楼

大多数88

发表于 2022-4-15 09:59:22

两个实验的数据集分别由Google Research的ThomasHofmann和Siemens Research的Shipeng Yu提供。协议由于WebSearch提供了一个验证集，我们使用后者进行模型选择。否则，使用10倍交叉验证来调整正则化常数。除了EachMovie数据集之外，我们始终使用线性核，在那里我们遵循[Basilico and Hofmann,2004]和[Yu et al.，2006]的协议。这样做是为了表明我们观察到的性能改进是由于我们选择了更好的损失函数而不是函数类。数据集ROCArea SVM Prec@10个数据块35.9±7 46.5±7 44.0±7 63.7±6 pendigits 26.2±8 41.5±4 15.6±3 85.2±3 optdigits 26.0±9 26.1±3 26.2±3 76.1±6 covertypes 47.0±2 48.5±2 42.1±1 58.8±2表1：对UCI数据的处理。Bold表示pairedt-testp<0.0001的高信号值。图1：每个查询的文档数。6.2 UCI数据集由于UCI数据不是以多个查询的形式出现的，所以我们对数据集进行置换，并对每个查询的文档进行

13楼

nandehutu2022

发表于 2022-4-15 09:59:28

目前，我们对这一问题缺乏理论指导，因此，我们从实验上研究了选择c图式的方法。显然，c需要是一个单调递减的函数。对于d∈,,,1,2,3和CI=1/log(i+2)和CI=1/log log(i+2),我们选择了CI=(i+1)-d，实验发现不同方案之间的差别不如用DORM代替其他算法所得到的改进那么明显。为了总结结果，我们在图4中展示了NDCG@10的性能差异。注意，当取样量增加时，取DI值c引起的NDCG精度差异将减小。估计收敛速度为1/√m。一种可能的解释是，c的选择可以被认为是先验知识。因此，随着样本量的增加，我们将需要减少对这一先验知识的依赖，合理地选择c will SU-CE.6.4MRR和WTA用于Web SearchMRR宿舍不仅对NDCG而且对其他性能指标都有好处。Wecompare使用平均倒数排名(MRR)和胜利者在同一数据集中获得所有(WTA)分数。为了比较，我们使用precision@n（其中n=3，因为这在实验中得到了最好的结果）、DORM最小化NDCG（在这种情况下是不正确的准则）和以前的方法。和以前一样，我们使用验证集来调整正则化参数c。我们选择dci=1/(i+1)（如inFigure 4所示，c的特定选择的可信度相当小）。图5中报告了不同样本量（从100到1000）的平均结果。从图5中可以看出，MRR的DORM优于所有其他模型，包括NDCG的DORM。这并不奇怪，因为MORM for MRR直接优化MRR，而其他方法不这样做。MORM for MRR比其他方法提高了1%-2%，如果我们将数据集大小增加一倍，增益仅为1%左右。优化MRR的收益低于优化MRR时的收益的事实可能是由于MRR比NDCG结构化程度低。WTA这是所有分数中结构化程度最低的，因为它只考虑了排名靠前的文档。这意味着，对于一个有5个关联度的排序数据集，只选择得分最高的数据集。这种转换抛弃了标签中一致的信息处理（即得分较低的文档之间的等级），这导致了对考虑所有级别的最小化相关成本函数应该表现更好的怀疑。实验证明，WTA损失函数的直接优化确实会导致糟糕的性能。为了修正这个问题，我们决定最小化一个修改的NDCG分数，而不是直接的WTA分数。这显著地提高了性能。NDCG@N得分中的截断级别应该接近1而不是10。我们设计了启发式来筛选截断级别：对于在前3项中有超过2个优先级的查询，截断为3；对于在top3项中只有一个优先级的查询，截断级别是在下一个优先级出现在theranked列表中的位置之后，就像对于有大量排名靠前的文档一样，我们希望在列表中至少包含一个排名较低的文档。我们称这种方法为mWTA（modi fireed DORMfor WTA）。对c的dieverent衰变项的实验表明，Ci=1/√i+1产生最好的结果。我们将新方法与各种方法进行了比较，并在图6中报告了正确预测的总数。RSVM和RSVM-IR-QPR在此任务中表现不佳，由于篇幅限制，我们忽略了它们的结果。虽然WTA的directoptimization不能令人满意，但mWTA的性能明显优于其他方法。6.5运行时性能人们可能会怀疑我们的公式可能很慢，因为匈牙利婚姻算法需要三次时间O(l)。

14楼

kedemingshi

发表于 2022-4-15 09:59:34

然而，每个这样的优化问题相对较小（平均每个查询50个文档），这意味着总的计算时间是可以控制的。为了实际结果，我们进行了实验来测量训练和交叉验证的时间。我们使用了SVMStruct的改进版本[Tsochantaridis et al.，2005]。这些算法都是用C语言编写的，代码是在Pentium4 3.2GHz工作站上运行的，带有1GBRAM，运行Linux并使用GCC 3.3.5。如图7所示，DORM优于其他大多数方法，除了多类SVM和BM25（不需要训练）。注意，有序回归算法明显比DORM慢，因为它们需要在web搜索数据集上释放图5：MRR分数，以获得更精确的样本量。我们使用ci=1/(i+1)比较了八种方法（包括DORM）。最小化NDCG的自适应版本的DORM(mWTA)比直接的WTAminimization表现得更好，因为它更好地利用了标签信息。图7：DORM（NDCG和MRR优化）与其他算法的运行时，忽略了IO。使用大量简单不等式，而不是更少数量的更有意义的不等式。表2比较了支持向量的数量（越慢）、列生成迭代的数量（越慢）、QP求解时间的百分比。DORM比其他算法更快，因为它有一个更稀疏的解决方案。就QP求解器中的迭代次数和时间百分比而言，DORM是一个在precision@n和rocarea之间很好地平衡的解决方案。优化MRR时的结果相似（这在表2的底部报告）。请注意，由于所有模型都使用线性函数，对于1000个查询，预测时间小于0.5s。6.6 EachMovie和Collaborative FilteringERU过去发布的关于协作筛选的结果使用期望秩效用(ERU)、NDCG和NDCG@10作为参考分数。为了证明性能的提高确实是由于一个更好的损失函数而不是一个独立的核，我们使用了[Basilico和Hofmann,2004]在ERU环境中使用相同参数组合提出的相同核和实验协议。表3显示了《宿舍》的优点：它优于JRank[Basilico和Hofmann，2004]和PRank[Crammer和Singer，2002]。在实验1中，我们将用户特征与项目相关性结合使用。在实验2中，我们结合用户评分使用了项目特征。在这两种情况下，100个训练用户、2000个输入用户和800个训练项目的100个试验的平均结果。在使用了对JRank最优的内核后，我们预计进一步优化内核将导致更好的结果，因为没有理由假设对JRank最优的模型类也将是宿舍的最佳选择。NDCG在第二个实验中，我们模仿了[Yu et al.，2006]OneachMovie的实验协议。在这里，我们将每个电影视为一个文档，将每个用户视为一个查询。在筛选出所有不受欢迎的文档和查询（如[Yu et al.，2006])后，我们有1075个文档和100个用户。对于每个用户，我们随机选择10、20和50个标记项进行训练，并对其余的进行性能预测。该过程独立重复10次。在QPrecision@10 103 7 44 89.02 Rocarea 997 12 19.64 dorm(NDCG)561 22 28.76 MRR优化方法#SVs#Iter%在QPrecision@3 1000 11 46.80 Rocarea 997 12 19.64 dorm(NDCG)520 23 61.66 dorm(MRR)550 17 1.76表2：支持向量的数量、列生成中的迭代和各种SVM风格优化算法在二次规划循环中花费的时间。Top：NDCG@10的优化，使用CI=1/√I+1。底部：MRR和NDCG的优化，使用CI=1/(i+1)。

15楼

可人4

发表于 2022-4-15 09:59:41

由于截断水平(precision@n)和c（DORM NDCG）的不同选择，相应的方法有不同的个数，实验恶作剧JRank DORM1 70.8 75.3 76.5±0.432 73.4 76.2 76.7±0.32表3：三种方法的期望秩效用得分。结果平均超过100个试验和100个培训用户，方法NDCG NDCG@1010 GPR 83.41±0.2245.58±1.51CGPR 86.39±0.24 57.34±1.44GPOR 80.59±0.0336.92±0.25CGPOR 80.83±0.1137.89±1.05mmF84.34±0.4847.46±3.42宿舍87.17±0.2461.75±1.83p<0.0001p<0.000120GPR 84.12±0.1548.49±0.66CGPR 86.98±0.1659.89±1.18GPOR 80.48±0.0536.78±0.30CGPOR 80.78±0.1337.81±0.56 MMMF 84.85±0.28 47.86±1.39宿舍87.63±0.37 62.82±1.9 p<0.0001 p=0.000650 GPR 85.15±0.23 53.75±0.89 CGPR 87.82±0.21 63.41±1.14gpor 80.10±0.0436.63±0.24cgpor 80.45±0.0637.74±0.41mmf86.13±0.3854.78±2.11宿舍87.84±0.3265.05±1.27p=0.8706p=0.006表4:EachMovie数据集上的NDCG优化。比较了6种未配对t检验的方法（最好的得分与第二好的得分），比较了标准高斯过程回归(GPR)[Rasmussen和Williams,2006]、高斯过程有序回归(GPOR)[Chu和Ghahramani,2005]以及它们的合作扩展(CPR，CGPOR)[Yu等人，2006]，MMMF[Rennie和Srebro,2005]和DORM（用于NDCG）。5种方法的注释摘自[Yu et al.，2006]并按100缩放，以修改我们显示NDCG结果的惯例。我们对显著性进行unpairedt-test（见表4）。请注意，[Yu et al.，2006]中没有涉及交叉验证或模型选择。为了公平起见，我们将以下参数ci=(i+1)–0.25（在此数据集中表现稍好）、C=0.01和n=10（NDCG的截断电平）。结果表明，DORMM在预测新项目的排名方面有很好的效果，特别是在项目数量较少的情况下。7总结与讨论本文提出了一个通用的方案来处理web页面排名和协作搜索中常见的大量标准。与以往的工作不同，我们的工作主要集中在两两比较，我们的目标是最小化多变量性能测试（或者更确切地说是一个凸的上界）直接。这既节省了计算，带来了更快的算法，也带来了更好的性能。在away中，我们的工作遵循[Vapnik，1982]的口头禅，即直接估计期望的数量，而不是优化代理函数。本论文的重点是构造一个设计良好的损失函数来进行优化，这种形式是完全通用的，可以在多种情况下作为插入替换。我们完全忽略了语言模型[Ponte and Croft，1998]来以任何复杂的方式解析查询。o尽管本文的内容是针对排序的，但该方法可以推广到优化许多其他复杂的多元损失函数。o我们可以直接将该方法用于信息检索任务或作者身份查询。在后一种情况下，查询qi将由一个作者编写的文档集合组成。o我们可以为查询添加个性化设置。这不是什么大问题，因为我们可以简单地添加个人数据uitoφ(qi,di,ui）并获得个性化排序。o类似于[Shalev-Shwartz and Singer，2006]的在线算法可以很容易地适应于处理大规模数据集。o本算法可以扩展到学习图上的匹配问题。这是通过将线性指派问题推广到二次指派问题来实现的。

16楼

nandehutu2022

发表于 2022-4-15 09:59:47

在这种情况下，我们必须付出的代价是匈牙利婚姻算法不再可行，因为优化问题本身是NP难的。注意，为评分函数选择一个希尔伯特空间是为了方便。如果应用程序需要神经网络或类似的（更难处理的）函数类而不是内核，我们仍然可以应用大边界公式。也就是说，我们发现内核方法非常适合这个问题。致谢：我们感谢托马斯·霍夫曼、Chris Burges和Shipeng Yuu为我们提供了用于排名的数据集。这对于获得与他们自己的出版物可比的结果（如实验中所报告的）是无价的。感谢Yasemin Altun、Chris Burges、Tiberio Caetano、David Hawking、Bhaskar Mehta、BobWilliamson和Volker Tresp进行有益的讨论。这项工作的一部分是在Le与Nicta一起进行的。澳大利亚国家信息和通信技术由澳大利亚政府支持的澳大利亚能力倡议提供资金，部分资金来自澳大利亚研究委员会。这项工作得到了帕斯卡网络的支持。参考j。巴西利科和霍夫曼。统一协作和基于内容的配置。正在进行中。Intl.conf。机器学习，第65-72页，纽约，纽约，2004。ACM出版社。博纳米，洛杉矶。比格勒Conn,G.Cornuejols,即。格罗斯曼，C.D.Laird,J.Lee,A.Lodi,F.Margot，N.Sawaya和A.Waechter。凸混合整数非线性规划的算法框架。研究报告RC23771，IBM，2005年10月。Bousquet和D.Herrmann。关于核矩阵学习的复杂性。在S.Becker,S.Thrun和K.Obermayer，编辑，《神经信息处理系统的进展》2002年第15期。S.Breese，D.Heckerman和C.Kardie。协同采购预测算法的实证分析。《第14届情报不确定性会议论文集》第43-52页，1998年。J.Burges,Q.V.Le和R.Ragno。学习用非光滑代价函数进行排序。INB.J.Platt和T.Hofmann主编，《神经信息处理系统进展》2007年第19期。C.J.C.Burges,T.Shaked,E.Renshaw,A.Lazier,M.Deeds,N.Hamilton,G.Hulldender.学习使用梯度下降法排序。正在进行中。INTL.康夫。机器学习，2005.Y。曹，徐俊，刘德义，李洪，黄勇，洪华。分类支持向量机在文献中的应用。在SIGIR，2006年。W。Chu和Z.Ghahramani。序数回归的高斯过程。J.马赫。学习。第6:1019-1041号决议，2005。朱棣文和S.S.凯尔蒂。支持向量序回归的新方法。正在进行中。Intl.conf。机器学习，2005.Cossock和T.Zhang。使用回归的子集排序。《学习理论会议论文集》，2006.克莱默和Y.辛格。用排名恶作剧。在神经信息处理系统的进展14，剑桥，麻省，2002。麻省理工学院出版社。克莱默和Y.辛格。在线类别排名的损失范围。在P.奥尔和R.梅尔，编辑，程序。年度大会。计算学习理论，第48-62页，柏林，德国，2005。斯普林格-弗拉格岛海勒和C.汤普金斯。Dantzig定理的推广。在H.W.库恩和A.W.Tucker，编辑，《线性不等式和相关系统》，数学研究年鉴第38卷。1956.R。Herbrich,T.Graepel和K.Obermayer。序数回归的大边距秩边界。载于A.J.Smola、P.L.Bartlett、B.Sch-olkopf和D.Schuurmans，编辑，《大边距分类器的进展》，第115-132页，麻州剑桥，2000年。麻省理工学院出版社。Jarvelin和J.Kekalainen。检索高度相关文献的IR评估方法。载于ACM信息检索特别兴趣小组(SIGIR)，第41-48页。纽约：ACM,2002。T。乔阿希姆斯。使用点击数据优化搜索引擎。在知识发现和数据挖掘ACMConference论文集(KDD)中。ACM，2002年。乔阿希姆斯。

17楼

mingdashike22

发表于 2022-4-15 09:59:53

一种多元性能度量的支持向量方法。正在进行中。Intl.conf。机器学习，第377-384页，旧金山，加利福尼亚，2005年。摩根·考夫曼出版社Jonker和A.Volgenant。稠密和稀疏线性指派问题的最短增广路径算法。计算机，38:325-340，1987.卡普。扩展时间o（mn log n）下M×n分配问题的一种算法。网络，10(2):143-152，1980.学报.库恩。分配问题的匈牙利方法。《海军研究后勤季刊》，1955年2:83-97.Lee,H.Chuang和K.Seamons。文档排序和向量空间模型。软件上的IEEETransactions，14(2):67-75，1997。Matveeva,C.Burges,T.Burkard,A.Laucius和L.Wong。高精度检索与多个嵌套的ranker。载于ACM信息检索特别兴趣小组(SIGIR)，第437-444页，2006年。芒克人。分配和运输问题的算法。暹罗学报，5(1):32-38,1957。S.Ong、A.J.Smola和R.C.Williamson。超核。在S.Thrun，S.Becker和K。Obermayer，编辑，《神经信息处理系统的进展》15，第478-485页。麻省理工学院出版社，剑桥，麻省理工学院，2003年。Orlin和Y.Lee。QuickMatch：分配问题的快速算法。工作论文3547-93，麻省理工学院斯隆管理学院，1993年3月。庞特和W.B.克罗夫特。信息检索的语言建模方法。在ACMSPEIL Information Retrieval Group(SIGIR)中，第275-281页。ACM,1998年c。E.Rasmussen和C.K.I.Williams。机器学习的高斯过程。麻省理工学院出版社，剑桥，麻省理工学院，2006.雷尼和N.斯雷布罗。协同预测的快速最大边界矩阵分解。正在进行中。INTL.康夫。机器学习，2005.理查森，普拉卡什和布里尔。超越PageRank：静态排名的机器学习。Goble和M.Dahlin,编辑，第15届万维网国际会议论文集，WWW,第707-715页。ACM，2006年。URLhttp://doi.acm.org/10.1145/1135777.1135881.s。罗伯逊和D.A.赫尔。TREC-9搜索跟踪报告。第9届文本检索会议论文集，第25-40页，2000年。罗伯逊、沃克、琼斯、汉考克-博柳和加特福德。霍加皮攻击-3。在文本检索会议3。美国国家标准与技术研究所商业部，1994年。NIST特别出版物500-226：ThirdText检索会议(TREC-3)概述。鲁丁。用p-范数推排序。《第19届学习理论会议论文集》，第4005卷，第589-604页。斯普林格，柏林，2006年。索尔顿，编辑。智能检索系统：自动文档处理的实验。普伦蒂斯-霍尔，美国，1971年。索尔顿和M.J.麦吉尔。现代信息检索概论。MacGraw-Hill（纽约），1983年b。Sch-olkopf和A.Smola。用内核学习。麻省理工学院出版社，剑桥，麻省理工学院，2002年。Shalev-Shwartz和Y.Singer。线上学习在双重中遇到优化。在H.U.Simon和G.Lugosi，编辑，计算学习理论(COLT)，LNCS。斯普林格，2006年。扩展版本。n。Srebro和A.Shraibman。秩、迹范数和极大范数。在P.奥尔和R.梅尔，编辑，程序。年度大会。计算学习理论，第3559号，第545-560页。Springer-Verlag,2005年6月。Srebro，N.Alon和T.Jaakkola。低秩矩阵协同预测的泛化误差界。载于L.K.Saul,Y.Weiss,L.Bottou,编辑，神经信息处理系统的进展17,剑桥，麻省，2005a。麻省理工学院出版社。Srebro，J.Rennie和T.Jaakkola。最大边距矩阵分解。在L.K.索尔，Y.Weiss和L.Bottou,编辑，神经信息处理系统的进展17,剑桥，麻省，2005b。麻省理工学院出版社Taskar，C.Guestrin和D.Koller。

18楼

kedemingshi

发表于 2022-4-15 09:59:54

最大边距马尔可夫网络。在S.Thrun，L.Saul和B.Sch-Olkopf主编，《神经信息处理系统的进展》16，第25-32页，马萨诸塞州剑桥，2004。麻省理工学院出版社。Tsochantaridis，T.Joachims，T.Hofmann和Y.Altun。结构化和相互依赖的输出变量的大边距方法。J.马赫。学习。第6:1453-1484，2005。V。瓦普尼克。根据经验数据估计依赖关系。斯普林格，1982年，柏林。福尔希斯。TREC2001问答跟踪概述。在文本检索会议(TREC)论文集。商务部，国家标准与技术研究所，2001年。NIST特别出版物500-250：第十次文本检索会议（TREC 2001）。Yu,K.Yu,V.Tresp和H.P.Kriegel。协同序回归。在WW。Cohenand A.Moore,编辑，程序。INTL.康夫。机器学习，第1089-1096页。ACM，2006年。网址http://doi.ACM.org/10.1145/1143844.1143981。

[计算机科学] 排序测度的直接优化 [推广有奖]

浏览过的帖子

浏览过的版块

本版微信群