楼主: insomnia_U
509 0

关于MD&A语调的一些思考 [推广有奖]

  • 0关注
  • 0粉丝

博士生

59%

还不是VIP/贵宾

-

威望
0
论坛币
18 个
通用积分
73.3102
学术水平
0 点
热心指数
0 点
信用等级
0 点
经验
1663 点
帖子
22
精华
0
在线时间
632 小时
注册时间
2018-7-30
最后登录
2024-4-13

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币
    近几年比较火的一个财经领域就是研究语调对经济后果,或者语调的影响因素。何谓语调,就是衡量一段文本中所要表达的情绪(正面、负面)程度。
    如果要构建一段文本的语调,一般来说要经历以下步骤:
    1.获取文本、建立情绪词典
    2.分割文本,将文本切成N段词汇。
    3.将词汇与情绪词典进行比对,从而计算出这段文本共有多少正面、负面词汇。
   目前最火的分词工具可能就要属python中的jieba,在国内众多期刊中,只要是自行处理语料,一般都会用到jieba。目前来看,学者对jieba的使用不存在太大的分歧。
   对于情绪词典来说,选择的情绪词典基础不同就导致所构造的情绪词典有着很大差异。国外比较火的一般有LM词典。国内目前来看,哪种词典更具权威性,尚未形成统一意见。
   情绪词典的构造方式不同,将会对一段文本的情绪判断产生决定性影响。为何这么说?以下是几点看法:
    1.目前国内很多比较好的期刊都是以LM词典为基础进行构造情绪词典。一般是将LM词典中pos和neg词汇进行翻译,如某个英文单词有多种翻译结果,也都进行保留。但是由于中英文语言的不同会产生一些问题。举例来说,
    如LM词典中pos类下有DISTINCTION,中文翻译为区别;差别;特性;荣誉、勋章。若将这几个中文翻译直接归入到中文的pos下,显然存在缺陷。差别、特性这几个词语不具有明显的情绪倾向。
    进一步地,英文语法的原因导致英文的情绪表达中存在了大量的形容词。比如,LM词典中pos类下的BETTER这一形容词,中文翻译为更好的。幸运地是,翻译结果可以归入到中文词典的pos类下。但同时也存在一些问题,比如,2019年贵州茅台报表中提到“主动寻求媒体支持和指导,为公司发展赢得了更好环境。”由于在构造中文词典的过程中,我们只加入了‘更好的’这一词语,并未加入‘更好’,导致在正面词语统计方面,并没有准确统计这段话中所要存在的‘更好’这一正向词语。出现这一现象,主要是由于中英文表达语法的不同。
   此外,像‘100强、50强、AAA级’这些中文词语具有明显的正面倾向,但是LM词典中并未进行收录。那么在文本分析中,将会漏查这些正面词语。
   为了克服这些存在的问题,有的学者在LM词典的基础上加入中文词典、或者进行人工筛选。这样就会导致另外一个问题,即结果的不可复制性以及可验证性。因为,众多学者在发表期刊后并未主动开放自己构造的情绪词典。
   目前很多机构也注意到了语调分析是目前比较火的领域,不同的机构也构建了属于自己的情绪词典,从而统计每年上市公司年度的语调,以供使用者付费下载。使用最为广泛的是CNRDS数据库。此外还有wingo数据库以及CSMAR数据库。这些数据库都以LM情绪词典为基础、加入其他中文词典进行扩充,同时进行人工筛选剔除不合语义的词语。基于数据保密的原因,这些数据库并未对外公布其所构造的中文情绪词典。


   总的来说,学界对哪一数据库最具权威性或者说哪一词典最具准确性尚未形成统一意见。

以上仅是我的个人看法,如有错误,欢迎指正。




二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

关键词:Distinct python better CSMAR 中文词典

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
加JingGuanBbs
拉您进交流群

京ICP备16021002-2号 京B2-20170662号 京公网安备 11010802022788号 论坛法律顾问:王进律师 知识产权保护声明   免责及隐私声明

GMT+8, 2024-4-28 15:30