楼主: 可人4
111 0

[统计数据] 一个科学相关主题模型 [推广有奖]

  • 0关注
  • 2粉丝

会员

学术权威

77%

还不是VIP/贵宾

-

威望
10
论坛币
10 个
通用积分
45.5207
学术水平
0 点
热心指数
1 点
信用等级
0 点
经验
24788 点
帖子
4166
精华
0
在线时间
0 小时
注册时间
2022-2-24
最后登录
2022-4-15

楼主
可人4 在职认证  发表于 2022-4-6 20:35:00 来自手机 |只看作者 |坛友微信交流群|倒序 |AI写论文

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币
摘要翻译:
主题模型,如潜在Dirichlet分配(LDA),可以作为文档集合和其他离散数据的统计分析的有用工具。LDA模型假设每个文档的单词来自主题的混合,每个主题都是词汇表上的分布。LDA的一个局限性是无法对主题相关性进行建模,尽管例如,关于遗传学的文献比X射线天文学更有可能也是关于疾病的。这一限制源于使用Dirichlet分布来模拟主题比例之间的可变性。本文提出了相关话题模型(CTM),其中话题比例通过logistic正态分布呈现相关[J.Roy.Statist.Soc.Ser.B44(1982)139--177]。由于logistic正规不是多项式共轭的,我们推导了一个快速的变分推理算法,用于该模型的近似后验推理,该算法因logistic正规与多项式不共轭而变得复杂。我们将CTM应用于1990-1999年发表在《科学》杂志上的文章,该数据集包含5700万个单词。与LDA相比,CTM给出了更好的数据拟合,我们演示了它作为大型文档收集的探索性工具的使用。
---
英文标题:
《A correlated topic model of Science》
---
作者:
David M. Blei, John D. Lafferty
---
最新提交年份:
2007
---
分类信息:

一级分类:Statistics        统计学
二级分类:Applications        应用程序
分类描述:Biology, Education, Epidemiology, Engineering, Environmental Sciences, Medical, Physical Sciences, Quality Control, Social Sciences
生物学,教育学,流行病学,工程学,环境科学,医学,物理科学,质量控制,社会科学
--

---
英文摘要:
  Topic models, such as latent Dirichlet allocation (LDA), can be useful tools for the statistical analysis of document collections and other discrete data. The LDA model assumes that the words of each document arise from a mixture of topics, each of which is a distribution over the vocabulary. A limitation of LDA is the inability to model topic correlation even though, for example, a document about genetics is more likely to also be about disease than X-ray astronomy. This limitation stems from the use of the Dirichlet distribution to model the variability among the topic proportions. In this paper we develop the correlated topic model (CTM), where the topic proportions exhibit correlation via the logistic normal distribution [J. Roy. Statist. Soc. Ser. B 44 (1982) 139--177]. We derive a fast variational inference algorithm for approximate posterior inference in this model, which is complicated by the fact that the logistic normal is not conjugate to the multinomial. We apply the CTM to the articles from Science published from 1990--1999, a data set that comprises 57M words. The CTM gives a better fit of the data than LDA, and we demonstrate its use as an exploratory tool of large document collections.
---
PDF链接:
https://arxiv.org/pdf/708.3601
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

关键词:主题模型 distribution epidemiology Applications proportions limitation 推理 logistic 比例 data

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
加JingGuanBbs
拉您进交流群

京ICP备16021002-2号 京B2-20170662号 京公网安备 11010802022788号 论坛法律顾问:王进律师 知识产权保护声明   免责及隐私声明

GMT+8, 2024-5-12 20:30