楼主: 大多数88
215 6

[量化金融] 利用信息技术构建中国市场的金融情感因素 [推广有奖]

  • 0关注
  • 3粉丝

会员

学术权威

68%

还不是VIP/贵宾

-

威望
10
论坛币
10 个
通用积分
63.9303
学术水平
0 点
热心指数
4 点
信用等级
0 点
经验
23514 点
帖子
3880
精华
0
在线时间
0 小时
注册时间
2022-2-24
最后登录
2022-4-15

相似文件 换一批

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币
英文标题:
《Constructing Financial Sentimental Factors in Chinese Market Using
  Natural Language Processing》
---
作者:
Junfeng Jiang, Jiahao Li
---
最新提交年份:
2018
---
英文摘要:
  In this paper, we design an integrated algorithm to evaluate the sentiment of Chinese market. Firstly, with the help of the web browser automation, we crawl a lot of news and comments from several influential financial websites automatically. Secondly, we use techniques of Natural Language Processing(NLP) under Chinese context, including tokenization, Word2vec word embedding and semantic database WordNet, to compute Senti-scores of these news and comments, and then construct the sentimental factor. Here, we build a finance-specific sentimental lexicon so that the sentimental factor can reflect the sentiment of financial market but not the general sentiments as happiness, sadness, etc. Thirdly, we also implement an adjustment of the standard sentimental factor. Our experimental performance shows that there is a significant correlation between our standard sentimental factor and the Chinese market, and the adjusted factor is even more informative, having a stronger correlation with the Chinese market. Therefore, our sentimental factors can be important references when making investment decisions. Especially during the Chinese market crash in 2015, the Pearson correlation coefficient of adjusted sentimental factor with SSE is 0.5844, which suggests that our model can provide a solid guidance, especially in the special period when the market is influenced greatly by public sentiment.
---
中文摘要:
在本文中,我们设计了一个综合算法来评估中国市场的情绪。首先,借助web浏览器自动化,我们自动抓取多个有影响力的金融网站的大量新闻和评论。其次,我们利用汉语语境下的自然语言处理技术,包括标记化、Word2vec单词嵌入和语义数据库WordNet,计算这些新闻和评论的Senti分数,然后构建情感因素。在这里,我们构建了一个特定于金融的情感词汇,以便情感因素能够反映金融市场的情绪,而不是幸福、悲伤等一般情绪。第三,我们还对标准情感因素进行了调整。我们的实验结果表明,我们的标准情绪因素与中国市场之间存在显著的相关性,调整后的因素信息量更大,与中国市场的相关性更强。因此,我们的情感因素可以作为投资决策的重要参考。特别是在2015年中国股市崩盘期间,调整后的情绪因素与苏格兰和南方能源公司的皮尔逊相关系数为0.5844,这表明我们的模型能够提供坚实的指导,尤其是在市场受公众情绪影响较大的特殊时期。
---
分类信息:

一级分类:Quantitative Finance        数量金融学
二级分类:Computational Finance        计算金融学
分类描述:Computational methods, including Monte Carlo, PDE, lattice and other numerical methods with applications to financial modeling
计算方法,包括蒙特卡罗,偏微分方程,格子和其他数值方法,并应用于金融建模
--
一级分类:Computer Science        计算机科学
二级分类:Computation and Language        计算与语言
分类描述:Covers natural language processing. Roughly includes material in ACM Subject Class I.2.7. Note that work on artificial languages (programming languages, logics, formal systems) that does not explicitly address natural-language issues broadly construed (natural-language processing, computational linguistics, speech, text retrieval, etc.) is not appropriate for this area.
涵盖自然语言处理。大致包括ACM科目I.2.7类的材料。请注意,人工语言(编程语言、逻辑学、形式系统)的工作,如果没有明确地解决广义的自然语言问题(自然语言处理、计算语言学、语音、文本检索等),就不适合这个领域。
--

---
PDF下载:
--> Constructing_Financial_Sentimental_Factors_in_Chinese_Market_Using_Natural_Langu.pdf (2.08 MB)
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

关键词:信息技术 中国市场 Applications Experimental Constructing

沙发
nandehutu2022 在职认证  发表于 2022-6-23 19:04:09 |只看作者 |坛友微信交流群
用自然语言处理构建中国市场的金融情感因素蒋俊峰*+,李嘉浩*+*似然科技+中山大学{Jiangjf6,lijh76}@mail2。系统单元。埃杜。cnAbstract在本文中,我们设计了一个综合算法来评估中国市场的情绪。首先,在web浏览器自动化的帮助下,我们自动抓取多个金融网站的大量新闻和评论。其次,我们利用汉语语境下的自然语言处理(NLP)技术,包括标记化、Word2vec单词嵌入和语义数据库WordNet,计算这些新闻和评论的Senti分数,然后构建情感因素。在这里,我们构建了一个特定于金融的实体词汇,以便情感因素能够反映金融市场的情绪,而不是幸福、悲伤等一般情绪。第三,我们还对标准情感因素进行了调整。我们的实验结果表明,标准情绪因素与中国市场之间存在显著相关性,调整后的因素信息量更大,与中国市场具有较强的相关性。因此,我们的情感因素可以作为投资决策的重要参考。特别是在2015年中国股市崩盘期间,调整后的情绪因素与苏格兰和南方能源公司的皮尔逊相关系数为0.5844,这表明我们的模型可以提供一个很好的指导,尤其是在市场深受公众情绪影响的特殊时期。索引词;自然语言处理;Word2Vec;WordNet;情绪分析;我

使用道具

藤椅
大多数88 在职认证  发表于 2022-6-23 19:04:12 |只看作者 |坛友微信交流群
自然语言处理作为机器学习中最有前途的领域之一,近年来取得了巨大的发展,并在社会的许多方面得到了应用。许多研究还将NLP技术应用于金融市场。应用NLP的困难在于自然语言不是一种结构化数据。寻找一种处理此类非结构化数据的方法是NLP的主要重点。许多模型在将自然语言数据转换为更易于处理的数值数据方面做得很好。随着这些模型的实现,使用自然语言数据变得可能和容易。一些模型基于朴素贝叶斯的思想[1]。这些模型背后的逻辑是:表达相同情感的词语将同时更频繁地出现。这些模型通常选择一些词作为标签词。通过对大量文本中出现的词语进行分析,研究这些标签词的频率与其他词语频率之间的关系,可以对词语进行聚类。对于任何给定的文本,它都可以使用这些词来评估背后的情绪。研究证明,这种方法可以成功地评估twitter或新闻等文本的感知。通过利用这种情绪,投资者可以做出适当的投资决策。然而,这种方法有其自身的局限性。主要是他们只关注几个词。一些表达类似情感但并不经常出现的新词将被忽略。有时不幸的是,这些词在分析文本情感时确实起到了重要作用。信息的丢失会对评估的准确性造成很大的损害。这项研究旨在用尽可能多的词语来分析情绪。

使用道具

板凳
可人4 在职认证  发表于 2022-6-23 19:04:15 |只看作者 |坛友微信交流群
本研究的具体步骤如下:o自动从多个金融网站下载新闻。o对我们从互联网上抓取的新闻进行预处理。o找到一种方法或一些算法来分析每个处理的文本数据,并最终通过当天的新闻计算每天的情感因素选择适当的标准来分析情绪因素与市场趋势之间的相关性,并判断我们的因素在金融投资中是否有用。我们使用的代码是Github中的开源代码。本文的剩余部分安排如下:第二部分介绍了捷巴、Word2vec和WordNet的研究背景和相关工作。第3节显示了我们在分析中使用的方法和数据。第4节包含了实验结果和讨论。最后,在第5节中,我们提出了我们的结论。二、相关工作A。汉语的杰巴斯标记化比英语复杂得多。为了标记英语单词,我们只需要用空格或标点符号将单词拆分成句子。汉语单词之间没有空格。因此,需要额外的标记化步骤。https://github.com/Coldog2333/Financial-NLPJieba中文文本标记化是一种中文单词标记化模块。解霸算法是一种概率语言建模算法。它基于字典先验地生成一个trie树,并计算字典中单词的频率。在处理需要标记化的句子时,它会生成一个DAG(DirectedArcyclic Graph)来记录每个可能的标记化。Dag是字典,其中键是单词在句子中的起始位置,值是可能的结束位置列表。对于DAG中每一个可能的单词,Jieba都会根据先验词典计算它们的概率。

使用道具

报纸
mingdashike22 在职认证  发表于 2022-6-23 19:04:19 |只看作者 |坛友微信交流群
然后找到从内容右侧到左侧概率最大的路径。这条概率最大的路径为我们提供了最可能的标记化。在句子包含字典中没有的单词的情况下,Jieba使用HMM(隐马尔可夫模型)和Viterbi算法进行标记化。根据单词中可能的条件,每个字符有四个条件:B(Begin)、M(Middle)、E(End)和S(Single)。将字典中没有的单词标记化的过程主要基于它们的条件。通过对大量文本的训练得到三个概率表,贾巴然后应用维特比算法计算单词的最可能条件,并使用条件链进行标记化。B、 Word2vec 2013年,谷歌发布了一款功能强大的工具,名为Word2vec[2]。它包含两个模型,一个是跳过gram,另一个是连续词包(CBOW)。通过word2vecmodel,我们可以将特定单词转换为可计算的数字向量。此外,可以说,它可以很好地表达两个不同单词之间的相似度和类比度。自word2vec问世以来,它在自然语言处理中得到了广泛的应用,其原有的模型和训练方法也启发了后来的许多单词嵌入模型和算法。现在,我们通过一个英文示例介绍Word2VEC模型。1) Skip gram:在Skip gram中,我们关注一个单词,并使用它来预测哪些单词将出现在它周围。例如,“男孩崇拜那个女孩”,我们可以很容易地获得五个背景词,如“the”、“boy”、“adores”、“that”、“girl”,因为我们在每两个词之间都有空格。让“adores”作为中心词,并将窗口大小设置为2,然后,在Skip-gram中,我们感兴趣的是给定中心词下每个背景词的条件概率,其中背景词在两个词中与中心词分开。

使用道具

地板
可人4 在职认证  发表于 2022-6-23 19:04:22 |只看作者 |坛友微信交流群
这就是Skip-gram的主要思想。让我们用严格的数学语言来描述Skip-gram模型。假设字典索引D集的大小为D,并表示为D={1,2,。。。,D}. 给定一个长度为T的文本序列,tthword表示为w(T)。当windowsize等于m时,Skip-gram要求我们在任意中心词下,最大化每个背景词在m个词中与中心词分离的所有条件概率的总和。TYt=1年-m级≤j≤m、 j6=0,1≤t+j≤TP(w(t+j)w(t))(1)那么,似然函数是,TXt=1X-m级≤j≤m、 j6=0,1≤t+j≤TlogP(w(t+j)w(t))(2)最大化上述似然函数,最小化以下损失函数,-TTXt=1X-m级≤j≤m、 j6=0,1≤t+j≤TlogP(w(t+j)w(t))(3)表示中心词和背景词的向量v和u,即对于索引为i的词,当它作为中心词和背景词时,v和u是向量。我们要训练的模型参数是每个单词的两种向量。为了将模型参数实现为lossfunction,我们应该用模型参数来表示背景词在给定中心词下的条件概率。假设在给定中心词时,生成每个背景词是相互独立的,那么对于中心词wc和背景词wb,b,c是它们在词典中的索引。

使用道具

7
大多数88 在职认证  发表于 2022-6-23 19:04:25 |只看作者 |坛友微信交流群
因此,在给定的中心词wc下生成背景词wb的概率可以通过softmax函数asP(wb)来定义wc)=exp(uTbvc)Pi∈Dexp(uTivc)(4)通过推导,我们得到了上述条件概率的梯度,logP(wbwc)vc=ub-Xj公司∈Dexp(uTjvc)Pi∈Dexp(uTivc)uj(5),即,logP(wbwc)vc=ub-Xj公司∈DP(wjwc)uj(6)然后,我们可以通过梯度下降或随机梯度下降迭代地解决这个问题,并最终通过和ui实现字向量,i=1,2。。。,D当它作为中心词和背景词时,当损失函数达到最小值时。如果文本序列T的长度太长,我们可以随机抽取相当短的子序列,计算每个历元中该子序列的损失,以找到近似解。通常,我们将使用Skip gramas的中心词向量作为自然语言处理应用程序中每个词的词向量。2) 连续词袋:CBOW类似于Skipgram,该模型预测中心词,并以文本序列中的背景词围绕中心词。例如,“男孩崇拜那个女孩”,我们可以获得五个背景词,如“the”、“boy”、“adores”、“that”、“girl”。让“adories”再次成为中心词,并将窗口大小设置为2,那么,在CBOW中,我们感兴趣的是在两个单词中与中心词分开的所有背景词下生成给定中心词的条件概率。这就是CBOW的主要思想。假设字典索引D集的大小为D,并表示为D={1,2,。。。,D}.

使用道具

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
加JingGuanBbs
拉您进交流群

京ICP备16021002-2号 京B2-20170662号 京公网安备 11010802022788号 论坛法律顾问:王进律师 知识产权保护声明   免责及隐私声明

GMT+8, 2024-9-20 03:03