楼主: 能者818
1176 13

[计算机科学] 在Flickr上个性化图像搜索结果 [推广有奖]

11
可人4 在职认证  发表于 2022-4-14 16:05:54
两列,例如,报告精确度和召回度为一个高阈值的猫猫老虎老虎老虎老虎老虎动物园动物猫泰国猫动物动物猫猫孟加拉动物自然动物动物动物猫猫动物猫猫黄油黄油猫佳能大猫大猫大猫大猫大猫大猫大猫大猫大猫大猫大猫大猫大猫大猫大猫大猫大猫大猫大猫大猫大猫大猫大猫大猫大猫大猫大猫大猫小猫大猫大猫小猫大猫小猫大猫小猫大猫小猫小猫大猫小猫小猫大猫小猫小猫小猫小猫小猫小猫小猫小猫小猫小猫小猫小猫小猫小猫小猫小猫小猫小猫小猫小猫小猫小猫小猫小猫小猫小猫小猫小猫小猫小猫小猫小猫到圣殿苏玛特兰蒂格斯条纹东方宠物公园白老虎美国黑色亚洲猫咪尼肯斯顿宁画廊印象美女爪子球哺乳动物5600 tag2毛茸茸的马里恩世界苏玛特兰眼睛specnature鼻子棒球异国他乡猫悉尼黑牙底特律老虎异国他乡猫街艺术美丽的野生大老虎国家动物园老虎老虎老虎老虎老虎苹果印度狮子动物园苏马特兰蒂格麦克佳能狗狗幼崽动物园osx野生动物鲨鱼加州尼康麦金塔印象美丽尼克里昂华盛顿dc截图濒危猫猫史密森尼马科斯野生动物狩猎mancc100华盛顿桌面野兽人斯皮莫里达动物imac野生亚利桑那州猫史蒂夫乔布斯tag1摇滚威廉大猫仪表板tag3海滩底格里斯河公园桑德拉拉斯维加斯panthera powerbook taggedout睡斯图加特大猫os katze treeme d70s 104自然森林宝贝Pantheratigrissae Cane在布拉沃小狗纹身dc x尼康鸟濒危苏门答腊ipod亚洲写真动物电脑canonrebelxt Marwell??2005年ibook bandhavgarh Boylos Angeles pantheratigris intel vienna FoundyshPortrain nikond70键盘schnbrunn panthersandiego d70小部件斑马Teethlazo2006壁纸pantheratigris brooklyngiraffe topv111笔记本电脑d2x bahamasTable 3:“老虎”数据集的十个主题模型按p(T-Z)排序的顶级标签。Pr Re Pr Re Pr Re Pr Re Pr Re Pr Re Pr Re Pr Re Pr Re Pr Re Pr Re br Re br Re br Re born=50n=100n=200n=300n=412*user1 1.00 0.12 1.00 0.24 1.00 0.49 0.94 0.68 0.89 0.89 user2 1.00 0.12 1.00 0.24 1.00 0.49 0.92 0.67 0.87 0.87 user3 1.00 0.12 0.88 0.21 0.84 0.41 0.85 0.62 0.89 0.89 user4 1.00 0.12 0.99 0.24 0.00 0.48 0.69 0.89 0.89 tigern=50n=100 n=200 n=300 76 0.11 0.80 0.24 0.79 0.47 0.77 0.69 0.77 0.77用户7 0.94 0.14 0.90 0.27 0.82 0.48 0.800.71 0.79 0.79用户8 0.90 0.13 0.88 0.26 0.82 0.49 0.79 0.71 0.79 0.79beetlen=50 n=100 n=200 n=232*n=300user9 1.00 0.22 0.99 0.43 0.77 0.77 0.66 0.70 0.66 0.85用户10 0.98 0.21 0.43 0.43 0.43 0.43 0.93 0.40 0.50 0.43 0.51 0.50 0.65用户12 1.00 0.22 0.99 0.43 0.77 0.70 0.66 0.85表4:过滤结果,其中学习的主题数量为10个,不包括组信息,以及从她用于照片的所有标签中获得的用户个人信息。星号表示R-方法的精确度,或n个结果的精确度,其中n是数据集中相关结果的数量。只标记50个最可能的图像为相关图像。其余450个图像被标记为与用户无关。召回率很低,因为在如此高的阈值下,许多相关图像被从结果中删除。随着阈值的降低(n=100,n=200,..),相对于500个标记图像的召回率增加。在所有情况下,精确度仍然很高,高于表1中所报告的纯标记searchreported的精确度。事实上,top100结果中的大多数图像都与用户的查询相关。用星号标记的列给出了方法的R精度,或者R结果的精度,其中R是相关结果的数量。

12
能者818 在职认证  发表于 2022-4-14 16:06:00
在我们的三个数据集上,该方法的平均R-精度比plainsearch精度高8%、17%和42%。表5给出了使用相关标签的方法的性能结果。我们探索了这个方向,因为我们相信它可以帮助区分用户感兴趣的不同主题。假设,一个儿童摄影师对自然摄影和儿童肖像感兴趣。他用于标记他的“新生”肖像的标签子集将不同于用于标记自然图像的标签。这些标签可以用来区分新生婴儿和新生婴儿的图像。然而,在为我们的研究选择的用户组中,使用relatedtags似乎并没有改善结果。这可能是因为特定用户与“甲壳虫”一起使用的标签在意义上与数据集的其余部分没有重叠。包括groupinformation并没有意义上的improveresults(本手稿中没有提供)。事实上,群组信息有时会损害而不是帮助估计。我们认为这是因为我们的数据集(根据图像兴趣度按Flickr排序)会因一般主题组的存在而产生偏差(例如,搜索最好的、壮观的自然、让我们玩标签等)。我们假设,在照片很少或没有标签的情况下,组信息将有助于估计p(iz)。通过使用组名作为另一个标记,组信息将有助于在丢失的数据中进行筛选。我们还在15个主题的数据上训练了模型,但没有发现结果上的显著差异。以前的研究推荐或个性化系统可以分为两大类。一种是collaborative firegtering(Breese et al.1998),它利用来自许多用户的项目评级来向其他志同道合的用户推荐项目;另一种是基于内容的推荐,它依赖于项目的内容和用户的查询或其他用户信息进行预测(Mooney and Roy2000)。我们的方法,通过联系人进行筛选,可以被视为隐式协作筛选,其中用户-联系人关系被视为偏好指示器:它假设用户喜欢她的联系人产生的所有照片。在我们以前的工作中,我们表明用户确实同意联系人提出的建议(Lerman2007;Lerman and Jones2007)。这类似于MovieTrust(Golbeck2006)实现的想法,但与该系统不同的是,社交媒体网站不需要用户对他们的联系人进行评分。与此同时,我们的第二种方法,通过标签(和组)进行筛选,与这两种方法有一些共同的特点。Itis类似于协作配置,因为我们使用标记来表示用户之间的协议。

13
可人4 在职认证  发表于 2022-4-14 16:06:06
它也类似于基于内容的推荐,因为我们通过用户分配给它的标记和组名来表示图像内容。我们基于模型的配置系统在技术上类似于,但在概念上不同于,概率模型proPr Re Pr Re Pr Re Pr Re Pr Re Pr Re Pr Re Pr Re Pr Re Pr Re Pr Re Pr Re Pr Re Pr Re Pr Re Pr Re user 1 0.8 0.10 0.78 0.19 0.79 0.38 0.56 0.79 0.79用户2 0.8 0.10 0.82 0.20 0.80 0.39 0.77 0.56 0.83 0.83用户3 0.98 0.12 0.88 0.21 0.81 0.85 0.85 0.85 0.85 0.21 0.21 0.85 0.85 0.85 0.85 0.21 0.84 0.8 0.12 0.12 0.88 0.21 0.85 0.85 0.85 0.85 0.21 0.85 0.85 0.85 0.85 0.85 0.85 0.85 0.85 0.85 0.85 0.85 0.85 0.85 0.85 0.85 0.85 0.23 0.78 0.46 0.76 0.68 0.76 0.76 0.76用户7 0.72 0.11 0.78 0.23 0.78 0.46 0.76 0.68 0.76 0.76用户8 0.90.13 0.82 0.24 0.80 0.47 0.78 0.69 0.78 0.78 0.78beetlen=50 n=100 n=200 n=232*n=300user9 0.78 0.17 0.62 0.27 0.58 0.50 0.54 0.54 0.53 0.68 user10 0.98 0.21 0.88 0.38 0.77 0.66 0.72 0.72 0.65 0.84 user11 0.96 0.21 0.74 0.32 0.62 0.53 0.59 0.59 0.56 0.72 user12 0.98 0.21 0.99 0.43 0.77 0.66 0.70 0.66 0.66 0.85表5:过滤结果,其中学习的主题数量为10个,不包括组信息,以及从她用于照片的所有标签中获得的用户个人信息,这些信息由以下搜索标记(Popescul et al.2001)。这两个模型都是概率生成模型,描述用户和感兴趣的项目的共现。特别是,该模型假设用户产生她感兴趣的主题;然后,如果用户喜欢这些文档,主题将生成文档和这些文档中的单词。在我们的模型中,我们隐喻性地假设照片所有者产生了她感兴趣的主题。反过来,Thetopics会生成所有者用来注释她的照片的标签。然而,与以前的工作不同,我们不像对待文档那样将照片视为变量。这是因为图像只由其所有者标记;同时,在他们的模型中,所有对文档感兴趣的用户都为该文档生成主题。我们基于模型的方法几乎与作者-主题模型相同(Rosen-Zvi et al.2004)。然而,我们扩展了他们的框架,以解决(1)如何利用照片组信息进行个性化信息搜索;(2)如何从局部观察到的个人信息(用户用来描述自己图像的标签)中近似用户感兴趣的主题。为了简单起见,我们采用经典的EM算法对模型进行训练;同时,由于对它们的生成模型进行精确的推断时所涉及的差异,它们采用了短暂的近似方法。结论和今后的工作我们提出了两种在Flickr上对图像搜索结果进行个性化的方法。这两种方法都依赖于用户通过他们在Flickr上的日常活动创建的元数据,即用户的联系人和他们用于注释图像的标记。我们声称这些信息捕获了用户在摄影中的状态和偏好,并可以用于个性化用户的搜索结果。我们认为提高查准率是个性化的一个重要目标,因为处理信息过载是用户面临的主要问题,我们可以通过减少用户需要检查的无关结果(误报)来帮助用户。话虽如此,我们的基于标签的方法也可以通过建议相关的关键字来扩展搜索(例如,查询老虎的“pantheratigris”、“bigcat”和“cub”)。除了标签和联系人之外,还有其他元数据、收藏夹和注释,可以用来帮助信息个性化和发现。在我们未来的工作中,我们计划解决在一个单一的方法中结合这些异构证据来源的挑战。

14
kedemingshi 在职认证  发表于 2022-4-14 16:06:08
我们将从联系人信息和标签结合开始。概率模型需要进一步探索。目前,没有原则上的方法来选择数据集中包含的潜在主题的数量。我们还计划有一个更好的机制来处理不知情的小组和团体。我们希望自动识别一般的兴趣小组,如让我们玩标签组,这些小组无助于区分话题。这里描述的方法可以应用于其他社交媒体网站,如del.icio.us我们设想,在不久的将来,所有的Web都将丰富的元数据,这里描述的种类,将用于个性化信息搜索和个人用户的发现。确认本研究是基于部分由国家科学基金会根据第IIS-0535182号奖励和部分由DARPA根据第NBCHD030010号合同支持的工作。美国政府被授权为政府目的复制和分发报告,尽管对其有任何版权注释。本文所载的观点和结论是作者的观点和结论,不应被解释为一定代表上述任何组织的任何与他们有关的人的政策或认可,无论是明示的还是暗示的。参考文献[Breese等人,1998]John Breese,David Heckerman和Carl Kadie。协同配置预测算法的实证分析。第14届艺术情报不确定性年度会议录(UAI-98),第43-52页,旧金山,加利福尼亚州,1998年。MorganKaufmann.[Dempster et al.1977]A.P.Dempster,N.M.Laird,and D.B.鲁宾。不完全数据的最大似然em算法。皇家统计学会杂志。系列B(方法学),39(1):1-38,1977。[Golbeck2006]J.Golbeck。从对社交网络的信任中产生预测性的电影效果。《第四届信托管理国际会议论文集》,意大利比萨,2006年5月[Golder和Huberman 2005]S.A.Golder和B.A.Huberman。协同标注系统的结构。技术报告,HP实验室,2005年。http://www.hpl.HP.com/research/idl/papers/tags/.[Lerman and Jones2007]K.Lerman and Laurie Jones。在Huminickr上进行社交浏览。正在进行中。2007年网络博客和社交媒体国际会议(ICWSM-07)。[勒曼2007年]K.勒曼。Digg上的社交网络和社交信息搜索。正在进行中。2007年国际网络博客和社交媒体会议(ICWSM-07)[Marlow et al.2006]C.Marlow,M.Naaman,D.博伊德,还有。戴维斯。Ht06,标签论文,分类学,目录,学术文章,阅读。载于2006年超文本论文集,纽约,2006年。ACM,纽约:ACM出版社。[Mika,2005]P.Mika。本体论是我们:社会网络和语义的统一模型。在国际语义网络会议(ISWC-05)上,2005。[Mooney and Roy2000]Raymond J.Mooney and Lorieneroy。基于内容的图书推荐使用learningfor文本分类。《第五届ACM数字图书馆会议论文集》,第195-204页,美国圣安东尼奥,2000年。ACM出版社,纽约,美国。[Popescul et al.2001]Alexandrin Popescul,Lyle Ungar,David Pennock和Steve Lawrence。稀疏数据环境下统一协作和基于内容推荐的概率模型。载于第17届艺术情报不确定性会议,第437-444页,西雅图,华盛顿,2001年8月-2月-5月。[Rosen-Zvi et al.2004]Michal Rosen-Zvi,Thomas Grif Fighths,Mark Steyvers和Padhraic Smyth。用于作者和文档的authortopic模型。载于AUAI\'04:第20届人工智能不确定性会议论文集,第487-494页,阿灵顿,弗吉尼亚州,美国,2004年。奥艾出版社。

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
jg-xs1
拉您进交流群
GMT+8, 2026-1-2 08:48