近年来,媒体的信誉受到了打击。人们普遍认为#Modi、#Brexit 和#Trump 的选举证明了这一点。这些事件有助于揭露在主流媒体文学中占据关键空间的错误信息和宣传。这是一种缺乏事实、充满偏见的话语文化。
这是一个不幸的现实。
正是在这种情况下,我利用#TextAnalytics 中的现有概念(例如#TopicModel 和#SentimentAnalysis)来客观地评估媒体内容并以易于理解的视觉方式向潜在读者提供相关信息。
想象一下,如果您有能够很好地描述内容的预先信息——关于脱口秀或一篇文章,这将帮助您决定是要观看脱口秀还是阅读整篇文章。我探索了以公正的方式收集“相关信息”的方法。
随着#TextAnalytics 中的新知识,我寻找一个合适的假设来研究。
假设
Mani Shankar Aiyar 是一名前印度外交官和政治家,被广泛认为是推动印度总理纳伦德拉·莫迪 2014 年竞选活动的人,他对莫迪作为儿童茶叶供应商的社会地位发表了贬低的言论。自2014年选举选举以来,我在NDTV.com中找到了他的意见作品,非常批评Modi,负面的音调,负面的居高学,尽管他的党在2014年的选举中的举措,但富裕的戏剧性。我对他的作品失去了兴趣,并在 2014 年秋季停止阅读。
他的文章给了我一个完美的假设开始,特朗普的胜利给了我一个完美的触发器来检验我的假设。
主题建模和情感分析
作者在 2014 年 1 月至 2017 年 3 月期间在 ndtv.com 上发表的总共 155 篇文章用于分析目的。虽然不是很大,但该语料库仍然提供了一个不错的样本量来检验我的假设。这是我的发现。
– 调查结果 1:他通常写什么主题?
使用流行的主题建模技术以自动方式检测到以下关键主题。5 个主题——莫迪、甘地、印度、巴基斯坦和时间,这与我个人对作者兴趣的了解非常吻合。
– 发现 2:他关注的热门主题
他写的前 10 个主题是莫迪、巴基斯坦、印度、甘地、Govern(政府/治理)、PM、Will(主张和质疑的倾向)、BJP、Jaitley 和中国。在 2014 年 1 月至 2017 年 3 月期间,他在 155 篇文章中的 74 篇中写了关于莫迪的文章。主题列表与我个人对作者兴趣的了解相符。
– 调查结果 3 : 他表现出什么样的情绪?
超过 50% 的文章表现出负面的语气。这是使用开源词典发现的,这些词典将单词分为正面、负面或中性情绪。他的文章中几乎没有 25% 表现出积极的情绪。其中一小部分是中性的。再一次,这些发现与我之前阅读他的文章的个人经验非常吻合。
– 调查结果 4:他表达了什么情绪?
文章表现出以下所有情绪——愤怒、期待、厌恶、恐惧、喜悦、悲伤、惊讶和信任,如下图所示。这是使用将单词分类为情绪的开源词典发现的。将其与情绪联系起来,主要集中在一个负面的基调中。这再次与我之前阅读作者文章的个人经验非常吻合。
– 发现 5:关于他的文章还有什么可以描述的?
基于流行的信息检索技术(#TF-IDF)为每篇文章派生出最热门的关键词,以更好地描述内容。这有助于进一步了解内容,而无需阅读整篇文章。例如,请参见下文。
分析总结
有了这些发现,我可以很快地对他的文章有更好的理解。
自动主题检测和开源词典为分析提供了中立性和透明度,而流行的信息检索技术为分析提供了合法性。
编辑推荐
1、2022年300个以上最佳免费数据科学课程
2、大厂数据分析面试指南!来自亚马逊、谷歌、微软、头条、美团的面试问题!
3、机器学习模型方法总结
4、历史最全机器学习/深度学习/人工智能专业术语表中英对照表
5、机器学习如何应用于商业场景?三个真实的商业项目
6、数据工作者的自我修养 | 哪些技能是必不可少的?
7、《汗牛充栋:数据分析书籍分享》CDA网校新课上线
8、文本挖掘常用的107个语料库
9、一图读懂“东数西算”工程
10、零基础转行数据分析,看这篇文章就够了
DA内容精选


雷达卡



京公网安备 11010802022788号







