楼主: 可人4
1226 40

[量化金融] 多渠道话语作为比特币价格和数量的指标 [推广有奖]

21
nandehutu2022 在职认证  发表于 2022-6-23 19:35:48
在继续之前,“非常积极”和“积极”标签被合并为“积极”。3.4特征提取下文概述了应用的预处理和特征提取技术。3.4.1预处理数据3.4.2柠檬化柠檬化是一种归一化过程,通过该过程可以减少数据中的形态变化。Word formsTable 5。多数票标签分布----0+++16(1.6%)122(12.2%)(47.9%)(37.9%)(0.4%),如“diving”和“dove”,将映射到其字典形式“diving”。与更粗糙的发条过程(更快、更简单)相比,productedlemmas在语言学上是有效的[40]。为了创建准确的引理,在确定引理之前,必须为每个标记分配一个词性标记(POS-tag)。在词性标注中,词类如“名词”或“副词”被添加到每个单词中。这些词汇分类在处理消歧方面很有价值。pacy-Python包【41】用于标记、解析和标记来自每个源的数据。Choi等人进行的一项比较研究表明,语法分析准确率在[42]引入的现有语法分析的2%以内(Spacy为92.8%,Andor等人为94.3%)。设置保留为默认设置。文本还可能包含各种类型的噪音,如对文本极性没有任何影响的单词和标点符号。在使用分类器处理数据之前,数据已被清除。在过滤停止词的过程中,从LTK停止词语料库中删除了否定词【44】。标点符号是使用正则表达式删除的,与源通道无关。然而,[45]假设,由于短信(缩写和不规则形式)的噪音性质,从推特中删除停止词对情绪预测的准确性有负面影响。

22
mingdashike22 在职认证  发表于 2022-6-23 19:35:51
在本研究收集的数据集中,停止词删除后没有明显的改善,它们被保留了下来。收集的文本文档必须转换为数字特征表示,以便统计分类器使用。文本转换为单词ngrams(features),然后使用一包ngrams方法表示。使用Scikit learn[46]CountVectorizer功能和n-gram范围规范,创建了单图、双图和三联图的矢量器。然后,将语料库转换为稀疏矩阵,计算每个文档中每个单词n-gram的出现次数,使用每个n-gram的相应矢量器。从理论上讲,二元图和三元图优于一元图的好处在于它们能维持词序。在情感分析的背景下,“我不喜欢比特币”这句话的单字特征将是[“我”,“做”,“不”,“喜欢”,“比特币]”。一个三角形将包含特征[…,[\'not\',\'like\',\'bitcoin\',…],还包括人们不喜欢的是比特币这一联系。bigramcontaining[\'not\',\'like\']允许否定。这种背景在单格和弓形进近中丢失了。3.4.3 TF-IDF变换为了应对该特定领域中过度呈现的单词,使用TF-IDF变换对特征向量中的计数进行加权和选择【47】。这与停止词删除不同,因为它适应域上下文。如果矢量化产生的矩阵将直接用于分类,则常用词将超过不太常见但更相关的词。

23
能者818 在职认证  发表于 2022-6-23 19:35:55
TF-IDF的主要思想是,一个在特定文章中非常常见但在其他文章中很少出现的词,将有力地表明这个词将具有很好的分类差异性。wi,j=t fi,j×log(Nd fi)(1)此过程将返回权重wi,j乘以术语频率t f,即术语i在文档j中出现的次数,乘以逆文档频率(文档总数(N),除以包含术语i(d f)的文档总数。TF-IDF转换的性能和附加值已经根据收集的内容进行了评估,并且没有显示任何话语频道与任何拟议分类相结合的交叉验证性能有所提高。对此的一种可能解释是,相对较短的文本被分类(回想一下,它们仅限于标题加上前500个字符)。TF-IDF在较长的文档上表现良好,但短文本会导致TF-IDF值出现噪音【48】。3.5情绪分类三个分类(AlchemyAPI、logistic回归、朴素贝叶斯)中的每一个的应用将以新闻数据为例进行说明。本节末尾列出了所有来源的汇总结果,因为每个来源的方法都是相同的。附录中可查阅每个来源的完整结果。3.5.1 AlchemyAPI我们首先使用AlchemyAPI(IBM Watson cloud Offering的一部分)为我们的情绪分类建立一个基线,然后再从thescikit库雇用分类员。AlchemyAPI是一种自然语言机器学习服务。

24
mingdashike22 在职认证  发表于 2022-6-23 19:35:58
Alchemy Language API为情感分析提供了现成的解决方案,但无法进行训练以适应特定的域,并且可能会受到域转移问题的影响[50]。原始文本数据被发送给AlchemyAPI处理,与发送给MTurk注释服务的方式相同,因为AlchemyAPI有自己的文本预处理。这意味着前一节中应用的预处理与本分类无关。需要注意的是,数据的标记方式可能会影响评估,因为AlchemyApi是一种纯粹的情绪分析API,而注释者则被要求根据公众对比特币的看法来标记项目。3.5.2 AlchemyAPI错误分析从表6中的混淆矩阵中,我们可以确定AlchemyAPI在摘要新闻文章中的召回率为74.2%,准确率为81.3%,使用MTurk注释的平均值作为黄金标准。回忆isTable 6。炼金术混乱矩阵/RealP NP 422 127N 87 237定义为正确分类的比率除以正确分类的总数。回忆=真实的积极因素+虚假的消极因素(2)在交易应用程序和假设整合到交易模型中的情况下,最大限度地提高精度是绝对关键的,因为不知情的交易可能导致重大的财务损失。

25
kedemingshi 在职认证  发表于 2022-6-23 19:36:01
错过一些有利的交易(召回)并不重要,我们只是想确保所做的交易确实是正确的。这并不是说召回根本不重要,人们仍然希望进行足够的有利交易,以超越单纯购买和持有比特币的基准。精度=T真阳性+假阳性(3)在分析错误分类时(17%的真阳性实例,34.89%的真阴性实例),负面实例的分类表现明显低于正面实例。考虑到这一点,重要的是要牢记个别新闻来源的偏见。对此的进一步解释可能是对比特币相关文本的广泛解释。例如,一个文档可以从五个单独的注释者那里收到标签[-2、-1、0、0、1],然后由于多数票的缘故,会收到一个中性标签。然而,正如许多注释者给它一个中性标签作为负面标签一样,负面注释者根本不同意负面程度。在最终的标签推断中,负面情绪分配被完全忽略。然而,这种负面情绪仍然存在于五个标签的平均值中。3.5.3逻辑回归逻辑回归(也称为最大熵或最大熵)已被证明在各种文本分类任务中有效[51],通常被视为二元分类问题的常用方法。它易于实现,不需要任何调整。现在,我们将再次求助于scikit learnPython库中提供的实现。

26
mingdashike22 在职认证  发表于 2022-6-23 19:36:04
逻辑回归的核心是基于逻辑函数,该函数接受任何输入x,并将其映射到极限0和1.1+e之间的值-z(4)由于预测是布尔型的,用于确定包含属于类别1的单个特征的特征集X的概率的逻辑回归模型P(1 | X)可以给定asP(1 | X)=1+ew+nPi=1wiXi(5),其中xi表示特征空间中的每个特征。使用最大似然估计确定每个特征的权重wi。由于概率之和必须为1,P(0 | X)由P(0 | X)=ew+nPi=1wiXi1+ew+nPi=1wiXi(6)给出。如果以下条件成立,我们现在可以指定标签0。否则将指定标签1。1<P(0 | X)P(1 | X)(7)对单词unigramfeatures进行逻辑回归的第一次测试显示,新闻文章、论坛主题和Reddit帖子的准确率分别为78%、73%和71%。达到最高精度的单格图与Pang和Lee的发现一致【33】。与Unigram相比,n-gram的表现不佳可归因于标记数据的有限可用性(随后将在交叉验证中进一步划分为训练集和测试集)。预计在一组稀疏的文档中,独特的bi和TRIG不会经常出现。这导致分类程序遇到更多“看不见”的n-grams,而不是unigrams。3.5.4逻辑回归误差分析检查分类误差表明,大多数(66.67%)错误分类的新闻文档包含“中性”,因为MTurk工作人员分配的多数选票。当比较多数票和分配的平均分数,并从语料库中删除中性标记的文档时,我们发现所有五个标签的平均值会产生更高的交叉验证分数,因为这在大量情况下会有效地忽略中性标记。

27
mingdashike22 在职认证  发表于 2022-6-23 19:36:07
只有16个实例收到了所有中立的注释,这意味着其余的实例平均而言会有积极或消极的情绪。大多数votegreatly增加了中性标签的数量,达到了整个数据集的三分之一。分级机的输出是正数或负数的二进制输出,第三个中性类永远无法预测。多类别分类通常也会受到更高错误率的影响,在[52]中,也有人认为,保持第三个中性标签会模糊正面和负面之间的决策边界,并降低绩效。出于上述原因,在分类培训过程中,mturkan符号的平均值被用作正确的标签。这有效地消除了中性实例(很少有文档收到所有五位注释者的所有负面标签)。从培训集中删除了完全中立的文档。3.5.5朴素贝叶斯(Naive Bayes,以下简称NB)通常被视为许多文本分类模型的基线,因为它具有强大、准确和快速的实现能力。传统的NB模型认为样本的所有属性都是相互独立的。尽管NB通常是错误的(不同语境的单词之间的关系,这在简单的一袋单词方法中丢失了),但NB在各种现实任务中表现良好。Domingos和Pazzani在[53]中解释了这一明显的悖论,他们断言分类估计只是函数估计符号(1,0)的函数。NB依赖于Bayes定理来计算类的后验概率,给定特征在输入向量中的分布。P(Ci | Fj)=P(Fj | Ci)P(Ci)P(Fj)(8)在等式8中,P(Ci)是类i存在的先验概率,与任何其他因素无关。

28
大多数88 在职认证  发表于 2022-6-23 19:36:10
P(Ci | Fj)是给定特征集j被分类为Ci的先验概率。P(Fj)是给定特征集发生的先验概率,同样独立于任何其他因素。NB模型用于文本分类的两种常见实现是伯努利模型和多项式模型。它们在表示自身特征的方法上有所不同。在伯努利模型中,每个文档都由单词空间上的二进制向量表示,其中维度与词汇表中的单词匹配,仅指示文档中是否存在单词。另一方面,多项式模型还将考虑每个单词出现的频率。上一步中构建的特征向量确实包含字数,因此多项式模型似乎更适合。多项式朴素贝叶斯计算出一个文档d属于c类的概率,如下所示[40]:(c | d)∝ logP(c)+Y1≤k≤ndlog P(tk | c)(9)P(tk | c)是特征tkbeing存在于c中的条件概率,表示特征tk在确定该文档是否属于c类时所贡献的证据量。P(c)是所有属于c类文档的先验概率。文档d向量中的特征由tk表示,其中NDI是d中特征的总数。多项式NB分类旨在根据用于训练模型的数据最大化P,有效地从类集合中选择最可能的类,为相应文档提供特定的特征集合。根据【40】所述,倍增概率可导致水流下的浮点数。因此,对数概率是相加的,而不是相乘的。argmaxc∈C^P(C | d)=argmaxc∈阻塞P(c)+Y1≤k≤上述符号中使用了等式10^P中的ndlog^P(tk | c)(10),因为概率不是真正已知的,它们是基于从训练集进行的观察。表7:。

29
何人来此 在职认证  发表于 2022-6-23 19:36:13
新闻文章摘要中多项NB和伯努利NBC分类的比较多项NB伯努利NBCV得分0.82 0.78表8。每个情绪频道新闻论坛的真实阶级分布Reddit IRC正面515(62.80%)1.257(64.42%)(66.68%)1.956(56.66%)负面305(37.20%)(35.58%)(33.32%)1.496(43.34%)比较证实了多项朴素贝叶斯优于伯努利朴素贝叶斯的假设。交叉验证分数显示,在表7中创建的新闻文章摘要中,使用单图特征,伯努利对数增加了4%。这与[54]中的发现一致。虽然logistic回归和朴素贝叶斯都用于分类,但NB是一个生成模型,而logistic回归是一个判别模型。生成模型(Generativemodels)试图对潜在的概率分布进行建模,而判别模型旨在了解类之间的边界[55]。逻辑回归将特征空间线性分割,即使某些特征是相关的(NB假设独立的),也能很好地执行。【56】指出,最好尽可能选择一种有区别的模型,因为人们应该直接解决分类问题,而不是将解决更一般的问题(对基础分布建模)作为分类的中间步骤。3.5.6多项式朴素贝叶斯误差分析为了保持一致性比较,再次将MTURK注释的平均值用作分类培训的目标。从混淆矩阵中评估多项式朴素贝叶斯分类法的性能,我们发现该分类法在预测负面新闻方面优于正面新闻,这在检查表8时似乎违反直觉,因为训练集中有更多的真实正面信息。所有其他情感频道也是如此(表20、21、22)。表8显示了每个通道的目标标签分布。

30
何人来此 在职认证  发表于 2022-6-23 19:36:16
与表5中的多数票相比,阶级不平衡有所减少。这种不一致性表明否定类比肯定类具有更强的预测特征;给定相同的文档长度(标题和前500个字符),负面文档向量中呈现的特征提供了更多证据证明文档属于负面类,而不是正面文档的特征。手动检查错误不会在错误分类实例的文档主题中显示清晰模式。表9:。新闻分类比较。News Precision Recall F-Measure CV/AccuracyAlchemyAPIRaw文本0.8290 0.7686 0.7976 0.76NB MultiNom。统计量0.782 0.728 0.754 0.82对数回归统计量0.775 0.626 0.685 0.78表10。论坛分类比较。论坛精准召回F-Measure CV/AccuracyAlchemyAPIRaw文本0.8708 0.5685 0.7976 0.69NB MultiNom。统计量0.585 0.584 0.584 0.71对数回归统计量0.652 0.563 0.604 0.74表11。Reddit分类比较。Reddit Precision Recall F-Measure CV/AccuracyAlchemyAPIRaw文本0.8298 0.6004 0.6967 0.71NB MultiNom。unigram0.603 0.546 0.573 0.73LogRetressionUnigram0.65 0.425 0.573 0.733.5.7分类比较表9将应用的分类新闻数据与unigram特征向量之间的精度、召回率、F-度量和交叉验证分数(准确度)进行比较。论坛帖子(表10)、Reddit帖子(表11)和IRC chatter(表12和13)也是如此。通过分离IRC渠道,假设开发(#dev)和场外(#otc)渠道之间的词汇可能有所不同,这一过程被进一步分割。交叉验证次数(10)被反复选择用于逻辑回归和多项式朴素贝叶斯分类,以优化准确性。

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
jg-xs1
拉您进交流群
GMT+8, 2025-12-9 08:42