楼主: 可人4
1227 40

[量化金融] 多渠道话语作为比特币价格和数量的指标 [推广有奖]

11
能者818 在职认证  发表于 2022-6-23 19:35:16
从基于规则的方法到统计方法,再到深度学习等最新发展,在商业激励和其可应用的深远领域的推动下,该领域的研究正在蓬勃发展。由于各个领域之间的情绪分析方法各不相同,因此不存在一个可供追求的跨领域最先进的准确度。此外,应考虑注释者之间协议中出现的意见的主观性。例如,如果我们考虑一个80%的注释者协议,它意味着人类大约有20%的时间会不同意任何指定的标签。最后,应该注意的是,本研究的目标不是为比特币域建立完美的情绪分类,而是选择准确度令人满意的分类(最好在基准的10%范围内),以便进一步分析与市场波动相关的情绪。Pang和Lee在[33]中对基于机器学习的情感分析方法进行了早期研究,结果表明,机器学习技术,如朴素贝叶斯、逻辑回归和支持向量机,在单图和双图特征上,可以与电影评论的人类生成基线相媲美(准确率为82%)。通过首先使用这些算法分析数据,我们可以发现是否存在相关性和因果关系。如果有,未来的研究可以调查改善情绪分类是否可以加强这种相关性,从而使错误分类不会传播到交易模型中。2.4数据标签标记代表性数据是自然语言处理和机器学习过程的组成部分,这些过程试图从正确标记的数据集中学习。在有监督机器学习中,模型首先根据包含正确标签的数据进行训练,以便模型可以从特征中学习分类功能。

12
mingdashike22 在职认证  发表于 2022-6-23 19:35:19
当我们试图确定有关比特币的新闻文章或社交帖子是正面还是负面时,我们首先通过训练集向分类者展示哪些特征属于正面和负面类别。基于模型在训练过程中看到的标签和相应的特征,它尝试估计属于未标记项的特征集的标签。有时可以从上下文或元数据推断标签。在产品评论的情绪分析中,星级可以用作评论文本的代理标签。不幸的是,收集的数据没有标签或相关元数据,需要进行注释。语言注释往往由专家进行,成本高昂且耗时。然后,似乎很容易采用更便宜、更快的方法。然而,应考虑对这些方法进行评估。【34】将专家注释与亚马逊Mechanical Turk提供的注释进行比较(http://mturk.com)对新闻文章标题进行有效文本分析的工作人员。亚马逊Mechanical Turk(以下简称MTurk)是一个在线平台,请求者可以在该平台上雇佣员工完成人类智能任务(HITs),从分类和分类到收集反馈和调节内容。该平台包括一个专门的情感注释服务。请求者可以上传他们想要注释的数据集,并指定评级尺度和说明。【34】发现专家之间的一致性高于非专家与专家之间的一致性。研究发现,个别专家提供的注释比非专家注释者更好。然而,平均有4名非专家如图2所示。[38]提出的多数票反对GLAD方法。注释员在有效的文本分析任务上可以与单个专家的注释精度相媲美。

13
kedemingshi 在职认证  发表于 2022-6-23 19:35:23
类似地,在[36]中,itis报告,对于情绪分析,与单个专家注释相比,每个项目三个MTurk注释提供类似或更好的性能。本文将这些见解作为MTurk过程的起点,为每个文档指定了4个以上的非专家注释员。然而,增加注释者的数量带来了分歧,这给我们带来了一个挑战,即在给定一组由不同注释者指定的标签后,推断出真正的标签。在这样做时,必须考虑到注释者的偏见以及任务中的歧义。此外,每个项目都没有一个真正的标签,因为有些项目比其他项目更容易解释。省略低性能的工作人员应该可以提高指定标签的整体精度,尤其是当这些低性能的工作人员提供了大量注释时。低质量提交的动机应该明确;工人的工资是根据完成的任务数量来支付的,而且没有黄金标准可以从一开始就对他们的提交进行比较,工人必须在速度和质量之间进行权衡,以优化他们的收入。一种简单的常客方法可能建议使用多数票,但这并不考虑个人噪音。[37]讨论了通过期望最大化来推断真实标签。在【38】中,该方法通过对单个工人的能力进行建模,具体应用于亚马逊机械土耳其公司。如图2所示,这种方法将实现5%的最大改善。

14
大多数88 在职认证  发表于 2022-6-23 19:35:26
虽然当本研究中使用的标签应用于实际交易算法时,这可能很重要,但目前决定只确定情绪与交易所之间是否存在相关性,然后再研究可能的方法来加强这种相关性(如果值得的话)。3方法以下各节将详细描述从数据收集到分类的数据分析过程。首先,描述了从在线渠道收集数据的过程。收集数据后,将通过收集所选子集中每个项目的众包标签,为每个通道的随机选择的数据子集添加标签。通过为每个项目收集多个标签,我们将能够提高推断真实标签的可能性。该标记集将在转换为数字特征向量之前进行预处理。同样,转换也应用于未标记的数据集。接下来,将描述用于从标记数据中学习的分类器。然后比较每个类别的绩效。由于与其他分类机构相比,一些分类机构预计在特定来源的数据上表现更好,因此将选择交叉验证人员最多的分类机构对各自渠道的未标记数据进行分类。该分类的输出将在每日时间戳上与市场数据相匹配,以确定在记录的情绪发生后n天内,积极和消极的在线话语数量与向上和向下的汇率变动之间是否存在相关性。图3详细说明了该方法。3.1收集的数据3.1.1新闻报道从彭博社、路透社、Cointdesk、News收集新文章。比特币《华尔街日报》和CNBC共发表7730篇文章,其中1534篇发表于2015年。

15
大多数88 在职认证  发表于 2022-6-23 19:35:28
除了文章正文外,还收集了作者和文章发表日期。要仅选择与比特币相关的文章,定制的web scraper要么使用相应网站的搜索功能并遍历所有页面,要么过滤可用的文章标签。该网站不区分发布日期,也不收集贴上比特币标签或使用网站搜索功能搜索比特币时显示的文章。从更广泛的日期范围(2012-2016年)中删除文章,将使我们能够在更广泛的词汇阅读方面培训分类师;有可能比特币在特定时期内遭遇了许多高度相似的负面事件,而描述这些事件的词汇主要围绕一个具有相同感觉的主题。在此类集合上培训分类师将限制该研究在交易模型中的可能应用,因为它对更广泛领域的概括能力较差,因此在评估不熟悉的事件时不可靠。3.1.2自2009年成立以来,论坛和Reddit发布了超过550000个主题和1500000个帖子,Bitcointalk。org是迄今为止最大的比特币相关论坛。在从以下子论坛中挖掘帖子之前,通过排除子论坛中的URL,过滤掉进行主题讨论的无关子论坛;\'“投机”、“经济学”、“交易讨论”。这三个子论坛包含与比特币交易直接相关的讨论,并有活跃的市场参与者发布主题和回复。对于论坛主题,主题标题和正文、时间戳以及作者姓名和回复总数都已编入索引。

16
何人来此 在职认证  发表于 2022-6-23 19:35:32
同样的数据是从Reddit收集的,但也包括了Reddit帖子的得分(社区用户的“赞成票”和“反对票”的函数)。3.1.3 IRC聊天通过BitcoinStats对两个最大的IRC(互联网中继聊天)频道进行了短信跟踪。comwebsite超过2015年。对于每条消息,都会记录作者、内容和时间戳。由于在线聊天室中流行的非正式写作方式,从Bitcointalk论坛和Reddit以及asIRC收集的数据可能会比从新闻文章中收集的数据噪音更大。3.1.4市场数据通过区块链收集市场数据。通过CSV下载选项提供信息【39】。块链。信息是本文所依赖的唯一数据来源,与在交易所交易的比特币的基本原理相关,并包含来自比特币交易所、比特邮票交易所和BTC-e交易所的每日数据。下载的CSV包含2015年每天的以下数据:o日期(每日时间戳)o平均(每日时间戳上的平均价格)o询问(每日时间戳上的平均询问价格、卖出价格、当日时间戳)o出价(每日时间戳上的平均出价、卖出价格)o最后一次(每日时间戳上记录的最后一次价格)3.2众包数据标签为了快速标记新闻文章,AmazonMechanicalTurk情绪分析服务被雇佣来创建一个由1000篇随机选择的新闻文章组成的标记语料库。使用亚马逊机械土耳其人服务,会说英语的员工被要求对提供的情绪进行评分。在我们的任务中,使用了从“非常消极”到“中性”到“非常积极”的5分量表。通过包含任务描述和标题,工作人员可以在开始之前出于任何原因退出此任务。一般来说,情绪分析的目的是确定某个主题内容的态度或极性。

17
nandehutu2022 在职认证  发表于 2022-6-23 19:35:35
所呈现内容的主题将是比特币。由于有大量不同的工作人员,他们中的绝大多数很可能对比特币或交易没有任何专业知识。他们没有直接询问员工内容对汇率的影响,而是被要求对公众对比特币的看法的感知影响进行评估。通过这样做,我们的目的是发现内容的真实意图情感交流。关于比特币的负面新闻本质上不可能有图3。NLP流程图对公众舆论的积极影响。为了有助于表达对所呈现内容的看法,我们为评分表上的每个项目提供了示例。此任务设置的详细视图可在附录中找到。直接任务提示指出,用户应假设内容与比特币相关。除此之外,任务尽可能简洁。”假设内容与数字货币比特币相关,评估该内容对比特币(BTC)舆论的影响。“向人类智能工作者提出的直接提示不是真正的情绪分析提示,因为它假设内容与比特币相关,并要求对公众舆论产生影响。因此,训练有素的分类人员不会对文本的情感进行分类,而是试图对文章对比特币舆论的预期影响进行分类。这在将这些信息应用于交易策略时很有价值,因为交易者会试图判断市场上其他参与者在发布相关信息后会做出什么样的决定。

18
大多数88 在职认证  发表于 2022-6-23 19:35:38
在传统的情绪分析任务中,负面提及aBitcoin竞争对手的文章可能会被负面分类,但可能会被回应提示的人文智能工作者正面分类。热门任务的内容是通过采用文章标题或主题标题以及文章或主题正文(如果可用)的前500个字符创建的。金融类文章的标题往往概括了文章中表达的一般观点。一些论坛主题仅由表达性标题组成,在这种情况下,仅使用标题。文章或正文的前500个字符用于提供标题的上下文。这500个字符的限制是为了避免MTurk工作人员在繁重的文字墙中超载;分析此文本将如图4所示。toMTurk workers演示的示例任务的屏幕截图。需要更多的时间,因为整篇文章中可能会出现混淆信息,因此会增加标记任务的成本。图4显示了一个显示给HIT工作者的示例任务。由于generallywell撰写的新闻文章的语法和语义结构与在线论坛和聊天频道上使用的结构有很大不同,因此对2000个论坛主题、2000篇Reddit帖子和2500条IRC消息执行了此注释过程。每个来源的情绪分类人员将分别接受培训。新闻文章、论坛主题和Reddit帖子的任务设置是相同的。IRC聊天的方法有所不同,因为与前者相比,信息通常很短且缺乏上下文。为了适应这种情况,工作人员只需对信息的一般内容是否表达了从非常消极到中性到非常积极的情绪进行评分,而不考虑比特币的背景。图5:。新闻文章上的工人活动分布。

19
nandehutu2022 在职认证  发表于 2022-6-23 19:35:41
每个工作者的注释被分组到20个容器中。421-701范围内没有任何注释的箱子未标记。3.3 Mechanical Turk结果分析每个数据集的标记在任务提交后48小时内完成。每提供一个标签,工人就得到0.02美元的补偿。对labelednews文章数据的分析表明,57名员工共提供了5000条注释(每个项目标记了5次),平均每位员工87.7条注释。该人群的标准差为121.67,表明工人之间提供的注释量差异较大。由于这种高方差,控制员工个人偏见很重要。图5显示了这种差异的图表。表1显示了Workers提供的标签的分布,这些标签聚集在提供的所有5000个注释上。极负、负、中性、正和极正注释分别由列标题-、-、0、+、++表示。37.62%的实例被指定为“中性”,而对正面新闻的轻微偏向表明新闻格局平衡。《华尔街日报》、《彭博社》、《新闻》等所有新闻媒体都报道了积极的消息,而非消极的消息。比特币com和比特币报告的正面报告是负面报告的三倍或更多。这可能表明他们的报告存在偏差,但也可能是由抽样内容造成的;在年发布的样本内容中,比特币的价值稳步增长。这种偏见在论坛和IRC注释中不太明显。

20
mingdashike22 在职认证  发表于 2022-6-23 19:35:44
还可以注意到,每个源的最大数量的标签都分配了一个中性标签。运用简单多数投票,目的是推断某一新闻文章的真实标签,会导致对正面新闻的更明显偏见,以3比1的比例超过负面新闻,并增加中立阶层的相对规模。结果见表5。对新闻数据的多数投票导致47.9%的样本处于中性,进一步加剧了正面和负面类别之间的不平衡。我们可以推断,对其他数据集的多数投票结果将与表1相似。跨新闻频道的注释分发。----0+++Coindesk 90 278 750 852 55路透社168 494 868 589 31新闻比特币7 43 139 147 9彭博社12 45 127 99《华尔街日报》15 47 56 3CNBC 20 83 134 148 25总计276(5.5%)(16.9%)(1881(37.7%)1876(37.5%)(2.4%)。表2。Bitcointalk子论坛的注释分布---0+++推测147 1087 2635 1017 124经济学75 707 2925 1163 120交易51 417 3260 1250 21总计273(1.8%)2211(14.7%)8838(58.9%)3430(22.8%)(1.8%)表3。Reddit页面的注释分布---0+++比特币66 535 3206 1074 96btc 101 600 3051 1150 111总计167(1.7%)、1135(11.4%)、6257(62.6%)、2224(22.2%)表4。IRC通道间的注释分布---0+++otc 133 1590 8944 1634 54dev 71 1877 8163 2260 59总计204(0.8%)、3467(14%)、17107(69%)、3894(15.7%)(0.5%),如果由于中性标签的存在程度较高,影响不太明显的话。真正的差异将在第3.5节中确定,其中分析了每个分类的误差。由于我们所做的预测是二元的(即正的或负的),因此在二元预测中,省略中性标签将导致更清晰的相邻标签之间的决策边界。

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
jg-xs1
拉您进交流群
GMT+8, 2025-12-9 09:41