楼主: mingdashike22
1967 67

[经济学] 网络内容传播中的情感 [推广有奖]

21
kedemingshi 在职认证  发表于 2022-4-24 11:35:32
因此,厌恶的表达可能会对网络内容的差异产生积极影响。此外,嵌入在内容中的负面情绪表达也可能会影响个人特征和社会关系,从而影响文章的使用。老年用户更容易受到高唤醒和负面情绪表达的影响,如愤怒和焦虑(Kensinger,2008),这可能是由于年龄增长、健康状况恶化和缺乏成就感造成的“中年危机”(Wethington,2000年)。相比之下,年轻用户更有可能因为幸灾乐祸而喜欢阅读他人的厌恶故事(Heath et al.2001,Kensinger 2008)。女性比男性更倾向于分享积极的信息(林和王,2020年),因此,她们可能会在表达悲伤的内容中不太投入。拥有更多联系人的用户具有更高的网络中心性,这意味着更高的社会地位和社会影响力。他们的动机是获得表达更多焦虑和更少愤怒的内容,以保持自己的地位和影响力,焦虑的表达与高认知能力和谨慎的形象有关(Yinet al.2014),而愤怒的表达与缺乏自控能力、低认知能力和非理性有关(Xiao et al.2018)。此外,由于人们有消费故事的需求,“中年危机”也可能与悲伤或抑郁感有关。然而,中年用户可能会感到难以与他人分享带有悲伤表情的内容,因为这种行为可能会给人一种感觉,即用户处于劣势,需要帮助。事实上,研究发现,与年轻人相比,老年人寻求外部社会支持的可能性更小(Jiang等人。

22
kedemingshi 在职认证  发表于 2022-4-24 11:35:38
2018).Yu等人:网络内容中的情绪差异关于其他人有令人厌恶的经历,由于幸灾乐祸和社会比较(Heath等人,2001),关系不好的朋友可能会分享这些故事,以加强彼此的社会关系。然而,人们不太愿意与关系密切的朋友一起管理印象,因此,他们可能更愿意与亲密的联系人分享愤怒的内容。人们还可能与更重要的联系人(即关系密切的朋友)分享表达焦虑的内容,这被认为是更紧迫和有价值的(尹等人,2014)。数据为了分析在线文章中的情感表达及其差异级联,我们首先随机抽样了10万个微信上的出版商,然后筛选出在我们观察期间(2018年8月31日至11月30日)发表文章少于10篇的非活跃出版商,然后抽样了38839家出版商。我们记录了观察期间每个出版商的平均关注人数(出版商的受欢迎程度)、出版商每天发布的平均文章数量(出版商的主动性)和出版商类型(即个人、媒体、企业、政府或其他组织)。对于这些出版商,我们随机选择了他们在研究期间发布的10%的文章,总共收集了387486篇在线文章进行分析。此随机样本代表微信上分发和使用的文章,涵盖政治、经济、商业、社会、体育和科技等多种主题。

23
能者818 在职认证  发表于 2022-4-24 11:35:44
样本包括短文本(少于100个字符,类似于推文)和长文章(超过100000个字符,类似于报纸和杂志文章以及小说中的章节),平均文章长度为1164.60个字符,标准偏差为2060.98个字符。虽然微信平台主要发布文本,但它允许文章包含图像和视频。我们还记录了每篇文章中的图片数量和视频数量。共有6823576名独特的个人在微信上与他们的一级朋友(即,关系密切的联系人)或熟人(即,非一级朋友,关系不密切的联系人)分享了这些文章。我们收集了参与级联的所有用户的人口统计学(即年龄和性别)和网络特征(即网络程度)的数据,以及每个级联中每对发送者和接收者(无论他们是一级朋友)之间的联系强度。微信平台的一个特点是,共有350万活跃的出版商在微信平台上平均每天产生超过490万篇文章。获得政府许可发布报纸、广播和电视内容的组织。我们的结果对于排除主要包含视频但很少包含单词的文章的样本是稳健的,我们在稳健检查部分详细介绍了这些文章。熟人(弱联系)是非一级朋友,但在同一组聊天中。这种关系是一种“纽带”,因为它允许通过群聊进行信息交流。这被认为是“软弱的”,因为这些用户不是直接联系人,而且他们不太可能彼此熟悉。Yu等人:在线内容差异中的情绪4。1.映射CascadesOur dataset唯一地克服了在Twitterretweet级联映射中常见的级联映射问题。

24
可人4 在职认证  发表于 2022-4-24 11:35:50
转发级联基本上是基于时间和关系推断的(Shi等人,2014年,Vosoughi等人,2018年)。然而,我们的环境使我们能够通过记录分享文章的所有个人的确切帐户ID,以及他们从谁那里获得对文章的访问权,以及每次分享的时间,精确地对样本中每篇文章的影响级联进行分类。当一篇文章被发布到出版商的关注者那里,然后他们在当地的社交网络上分享文章时,文章级联就开始了。在每一篇文章末尾的用户都是那些分享了这篇文章的人,在接下来的一周里,没有人再分享这篇文章。在微信上,如果一篇文章在接下来的七天内没有被任何人再次分享,那么该文章不可能再次被分享(概率小于1%)。图EC。5.1在我们的示例中显示了一个大型文章级联的示例。4.2. 测量级联如第2.2节所述,我们通过四个维度测量级联:大小、深度、最大带宽和结构病毒性(Goel et al.2015,Vosoughi et al.2018)。这四个度量是级联过程的形状和动态的成功表示。具体而言,结构病毒性定义为asn(n-1) Pni=1Pnj=1dij,其中n表示参与级联的个体数量,Dijr表示个体i和个体j之间的最短距离。如果级联大小相同,较高的结构病毒性表明级联更多地由分散和对等共享驱动,而不是通过广播。图1(A-D)描述了我们样本中文章的级联大小、深度、最大宽度和结构病毒性的经验分布,并指出,在每个级联维度中,大部分文章都表现出较高的值。

25
kedemingshi 在职认证  发表于 2022-4-24 11:35:55
为了了解这些级联维数之间的关系,我们给出了相关矩阵(表EC.5.1)。我们发现级联的大小和最大宽度(0.974)之间存在密切关系,因为41%的文章级联以第一级结束。另一个强相关性是级联的深度和结构病毒性之间的相关性(0.921)。为了解释这种相关性,首先,结构病毒性是级联中每对节点之间的平均最短距离。其次,深度越大,表明叶栅对应的图的直径越大(因为叶栅深度比叶栅直径小)。因此,我们可以预期更大的直径与级联中每对节点之间的平均最短距离正相关。此外,由于级联的深度和大小之间正相关,结构病毒性也正相关。当发送者向接收者发送文章时,文章的链接(包括文章标题和简短描述)会显示给接收者。这种共享行为记录在平台的数据库中。当接收者打开链接并再次分享文章时,我们会对发送者和接收者的ID进行分类。Yu等人:在线内容差异中的情绪配置图1级联量表的互补累积分布函数(CCDF)和平均文章中四种负面情绪表达的强度水平。注:(A-D)级联大小、深度、最大宽度和结构病毒性的CCDF。CCDF是累积分布函数(CDF)的补充。以级联大小为例:对于x轴上给定级别的级联大小,CCDF的相应值显示级联大小高于或等于该级别的物品的分数。(E) 一篇普通文章中四种消极情绪表达的紧张程度。

26
mingdashike22 在职认证  发表于 2022-4-24 11:36:01
这些值直接取自我们的情绪检测分析,尚未标准化为标准分布(以便我们可以比较不同类型情绪的平均值)。这四种情绪的所有对之间的差异在统计学上都是显著的(ps<0.001)。具有瀑布的大小和最大宽度。尽管相关性相对较高,但将所有维度作为我们的结果变量也并非无关紧要,因为不同维度不仅对差异的理解有着不同的含义,情绪也可能对这些相关维度产生不同的影响,我们将在后面详述。5.情感表达的检测我们通过采用最先进的词汇生成方法来检测单词级的情感表达(薛等人,2014年,于等人,2019年)。具体而言,我们基于一个包含16017个独特情感词(Quan and Ren 2010)和800万个单词嵌入向量(Song et al.2018)的通用情感词典,构建了一个新的领域特定且最新的情感词典。我们构建新词汇主要有两个原因。首先,在中文博客(Quan and Ren 2010)中使用情感表达构建的通用词汇可能会遗漏特定领域的情感表达。微信文章中的情感表达可能与中文日志中的情感表达非常不同。第二,情绪表达是随时间而变化的。《通用词典》建立于2008年,它忽略了在接下来的十年中产生的新的情感表达方式。根据现有文献(尹等人2014年、布雷迪等人2017年、余等人2019年),我们在单词层面而不是在文档层面检测情感表达。随着时间的推移,情绪是内在的、主观的、动态的。

27
可人4 在职认证  发表于 2022-4-24 11:36:07
很难就文档级情绪表达注释(Quan和Ren 2010)达成一致,这阻碍了对文档的培训。Yu等人:在线内容中的情绪使用不同级别的监督学习模型。但是,从word级别开始可以减轻文档级别的歧义。此外,尽管NLP的研究已经开始探索文档级分析,但大多数最先进的模型的长度限制只有几百个字符(Sun等人,2019年),这与在线文章的长度不兼容。我们首先使用现有的情感词汇Ren CECps(Quan and Ren 2010)作为基本词汇。词典中的每个单词都映射到一个八维向量vi=(Ii,Ii,…,Ii),其中iik∈[0,1]是手动注释的,表示wi表达的第k种离散情绪的强度。其次,我们检索包含单词语义信息的单词向量。Vector一词可以通过统计语言建模(例如Mikolov等人(2013)的Word2Vec)得出。我们使用Song等人(2018)的DPRE训练词向量,他们为800多万个常见汉语单词和短语提供了200维词向量。这些词向量在最新、大规模和高质量的中文在线内容上进行了预训练,并通过各种NLPTask进行了验证(Song等人,2018年)。然后,两个单词之间的相似性可以通过两个对应单词向量的相似性来衡量(Mikolov等人,2013)。第三,我们遵循薛等人(2014年)和余等人(2019年)提出的方法,将基本词汇扩展到特定领域和最新词汇。对于基本词汇中的每个情感词,我们使用800万个词向量来挖掘语义相似的词作为潜在的情感词。

28
kedemingshi 在职认证  发表于 2022-4-24 11:36:14
对于每个潜在情感词,我们使用基本词汇中语义上最接近的词来确定它是否是一个情感词,以及八种离散情感的强度。第四,我们将新挖掘的情感词与基本词汇中的词相结合,形成一个扩展词汇。然后,我们将扩展词库视为一个新的“基本词库”,用于重复第三步,直到组合词库中的总词数收敛(更多细节见附录EC.1)。经过这一过程,共发现16921个新词,扩展词典共包含28969个新词。这一结果证实了构建特定领域词汇的必要性,如果不构建特定领域词汇,58.4%的独特情感词(28969个词中有16921个)将被忽略,也就是说,如果只使用基本词汇。五名评分员被招募来为八种离散的情绪注释新挖掘的单词的情绪强度。算法生成的结果与评分员生成的结果在统计学上没有显著差异,这证实了我们新词汇的有效性(见附录EC.2)。直觉上,即使是对人类来说,要准确地指定愤怒的单一值来描述《哈姆雷特》中包含了多少愤怒,以及对《李尔王》来说,愤怒的值是否应该高于《哈姆雷特》,也是一个挑战。例如,BERT的长度限制为512个字符(Sun等人,2019年)。由于自然语言的复杂性,长文档将给具有数百万个参数的模型带来极大困难。我们样本的文章长度为1164.60个字符,标准偏差为2060.98个字符。有些文章可以超过100000个字符。

29
大多数88 在职认证  发表于 2022-4-24 11:36:20
这显然超出了最先进的文档级方法所能处理的范围。余阿纳尔:情感内容在网络内容中,我们总结了情感词在文章中,并考虑损坏和程度词(IFAN)与这些情感词。根据文档级情感表达空间模型(Quan and Ren 2010),我们将每一篇在线文章映射为一个八维向量。向量的每个元素表示文章d中表达的相应离散情绪的情绪强度:d=(e,…,ek,…,e),其中ek由文章中包含的情绪、否定和程度词决定。否定词和程度词在汉语中经常使用,因此有助于准确分析情绪(权和任2010)。我们采用了由中国科学院开发的汉语心理分析系统TextMind提供的否定词词典。这本词典包含31个常用的否定词。我们使用了Ren CECps提供的60度单词作为我们的度单词词典,并注释了它们的度值。例如,汉语中“最大”一词的度值标注为1.5,而“种类”一词的度值标注为0.8。我们使用一个向前滑动的窗口(窗口大小设置为三个单词)来捕获这些否定词和程度词。如果我们的算法在文章中找到一个情感词,它会在情感词之前检查三个词,并捕获这三个词中出现的任何否定词和程度词。我们选择三个作为滑动窗口的大小,因为在汉语中,否定词和程度词通常在相应的情感词之前的三个词之内。

30
kedemingshi 在职认证  发表于 2022-4-24 11:36:26
文章d的第k离散情绪强度表示为ek(d),确定如下:ek(d)=∑ni=1(-1) mi×DegVi×Ik(wi),(1)其中{wi}ni=1是d篇和我们的词典中的情感词。它表达了第k个谨慎的动议。如果n=0,则ek(d)将设置为零。Ik(wi)是指wi(k)的第k个离散情绪强度∈{1, 2, . . . , 8}). Mi是wi滑动窗口中出现的否定词总数。最后,DegVi是wi滑动窗口中出现的所有度词的平均度值。然后将每篇文章的情绪归纳为八维向量。我们使用同样的程序,分析了评论中的八种离散情绪。我们给出了文章层面上情感表达的平均强度。我们发现,在所有负面情绪中,焦虑的情绪强度最高(见图1(E))。此外,我们在表C中给出了四种离散负面情绪的相关矩阵。5.2检查他们的独立性。所有负面情绪对的相关性均低于0。44,而大多数相关性都低于0.20。结果表明,这四种消极情绪之间的相关性较低,表明这四种消极情绪是独立的。这些原始的离散情绪强度(八维向量中的元素)具有不同的特征(即,具有不同的总体均值和方差)。为了比较不同的情绪,我们将这些原始的离散情绪变量标准化为Z分数。z分数的计算方法是从单个原始分数中减去总体平均值,然后将差异除以总体标准偏差。

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
jg-xs1
拉您进交流群
GMT+8, 2026-1-10 01:31