COVID19：使用BioSentVec嵌入的问题回答模型-经管之家官网！

经济学管理学金融学统计学

您当前的位置> 考研考博>>

COVID19：使用BioSentVec嵌入的问题回答模型

发布：时光永痕 | 分类：考研

关于本站

人大经济论坛-经管之家：分享大学、考研、论文、会计、留学、数据、经济学、金融学、管理学、统计学、博弈论、统计年鉴、行业分析包括等相关资源。
经管之家是国内活跃的在线教育咨询平台!

提供"微信号、微博、抖音、快手、头条、小红书、百家号、企鹅号、UC号、一点资讯"等虚拟账号交易，真正实现买卖双方的共赢。【请点击这里访问】

TOP热门关键词

专题页面精选

COVID19：使用BioSentVec嵌入的问题回答模型介绍正如我们看到的COVID19在全球影响150万人和10万人死亡一样，全球AI研究界正在尽一切可能帮助医疗界。许多医学问题都是导致研究论文寻求答案的原因。这些问题适用于文本 ...

扫码加入数据分析学习群

COVID19：使用BioSentVec嵌入的问题回答模型
介绍
正如我们看到的CO V ID19在全球影响150万人和10万人死亡一样，全球AI研究界正在尽一切可能帮助医疗界。许多医学问题都是导致研究论文寻求答案的原因。这些问题适用于文本挖掘，并开发文本挖掘工具以提供有关这些问题的见解。
在这个博客中，我想分享如何使用基于BERT的嵌入预训练模型来构建基于文本的问答工具，以从COVID19研究论文资料库中查找与冠状病毒相关的答案。
当我是在IBM，我参加一个类似的解决方案，IBM风险观察，其搜索的供应链，从风险的新闻文章，微博，和天气数据。基于Risk Insights项目和Biology知识领域的基础思想，我开发了此模型。使用此模型，用户可以搜索研究论文以查找并输出相关文章以及哪篇论文，用户可以在哪一部分下找到输入问题的答案。另外，它还将相关段落显示为输出。它返回带有文章突出显示的答案句子的顶部文章。我的代码也已上传到我的 Github
数据
为了应对COVID-19大流行，白宫和主要研究小组的联盟已经准备好了COVID-19开放研究数据集（CORD-19）。CORD-19的资源超过52
句子嵌入
该解决方案主要用于医学领域，因此我使用了 BioSentVec 预训练模型进行嵌入。BioSentVec使用PubMed和MIMIC-III临床数据库中的临床注释创建了生物医学单词和句子嵌入。PubMed和MIMIC-III文本均使用NLTK进行了拆分和标记。我们还将所有单词都小写。更多详细信息和预训练模型可以在此处使用。
建筑
该解决方案是一种问答模型。它是使用嵌入的基于检索的质量检查模型。该解决方案的基本思想是将问题字符串与句子语料库进行比较，并得出得分最高的句子作为答案。我使用预先训练的BioSentVec嵌入模型和KNN创建每个句子的矢量表示，以找到答案句子。
预处理
下面是我所采取的步骤来预处理数据。同样，您可以在我的 GitHub中访问完整代码。
● 从数据集中读取 JSON 文件
● 解析 JSON 文件
● 删除超链接，参考
● 提取节的详细信息，并使用NLTK的send_tokenize方法按句子拆分文章。
● 生成模型的熊猫数据框
嵌入句子
加载BioSentVec预训练模型
model_path ='BioSentVec_PubMed_MIMICIII-bigram_d700.bin'
型号= sent2vec.Sent2vecModel（）
尝试：
model.load_model（model_path）
例外，例如e：
打印（e）
打印（'模型成功加载'）
使用BioSentVec模型向量化句子语料库
embs = model.embed_sentences（convid_sent_df ['sentence']）
KNN和排名
k最近邻居算法（KNN）t是一种非常简单的技术。首先，我将整个矢量化句子加载到模型中作为训练。当我需要找到答案时，我们需要将向量化的问题字符串作为输入发送到模型，并且 knn 模型从训练句子语料库中输出最相似的分数作为分数。从这些邻居那里总结出一个答案。记录之间的相似性可以用许多不同的方法来衡量。我在这里使用默认值。
从sklearn.neighbors导入NearestNeighbors
nbrs = NearestNeighbors（n_neighbors = 2，algorithm ='ball_tree'）。fit（embs）
测试模型
使用经过训练的邻居模型传递问题。如“ 冠状病毒的物理科学是什么”
emb = model.embed_sentence（'冠状病毒的物理科学'）
距离，索引= nbrs.kneighbors（emb）
输出量
结论
使用BioSentVec嵌入和KNN算法不是唯一的解决方案，这里有几种替代方法。
● 我们可以基于预定义关键字（模糊关键字）域词典开发自定义模型，并使用正则表达式重新定义规则以构建基于规则的语义搜索工具。这种模型在狭窄的知识集中非常有效，并且可以快速实施。
● 我们可以使用基于BERT的预训练Sentence Transformer 模型来开发快速问答模型。
● 还有更多选择
我打算尝试一个与Twitter流数据相似答疑系统的模型。
最后说明：我不是一个石楠专业人士，对模型提供的输出进行评论，而本文旨在说明可能的解决方案。

https://pic.jg.com.cn/img/pinggu/c2d3f9902d687474703a2f2f6564752e6364612e636e2f66696c65732f64656661756c742f323032302f30372d30382f3131353830313935626234323037323832322e706e67996b467026.jpg

关注 CDA人工智能学院，回复“录播”获取更多人工智能精选直播视频！

「经管之家」APP：经管人学习、答疑、交友，就上经管之家！
免流量费下载资料----在经管之家app可以下载论坛上的所有资源，并且不额外收取下载高峰期的论坛币。
涵盖所有经管领域的优秀内容----覆盖经济、管理、金融投资、计量统计、数据分析、国贸、财会等专业的学习宝库，各类资料应有尽有。
来自五湖四海的经管达人----已经有上千万的经管人来到这里，你可以找到任何学科方向、有共同话题的朋友。
经管之家（原人大经济论坛），跨越高校的围墙，带你走进经管知识的新世界。
扫描下方二维码下载并注册APP

本文关键词：

本文论坛网址：https://bbs.pinggu.org/thread-9447740-1-1.html

上一篇 | 请问增加年份虚拟变量i.year是在豪斯曼之 ...

下一篇 | 【学习笔记】被微观经济学按在地板上摩擦

考研精彩帖子推荐更多

您可能感兴趣的文章

本站推荐的文章

人气文章

本文标题：COVID19：使用BioSentVec嵌入的问题回答模型

本文链接网址：https://bbs.pinggu.org/jg/kaoyankaobo_kaoyan_9447740_1.html

1.凡人大经济论坛-经管之家转载的文章,均出自其它媒体或其他官网介绍,目的在于传递更多的信息,并不代表本站赞同其观点和其真实性负责；
2.转载的文章仅代表原创作者观点,与本站无关。其原创性以及文中陈述文字和内容未经本站证实,本站对该文以及其中全部或者部分内容、文字的真实性、完整性、及时性，不作出任何保证或承若；
3.如本站转载稿涉及版权等问题,请作者及时联系本站,我们会及时处理。

COVID19：使用BioSentVec嵌入的问题回答模型-经管之家官网！

考研