楼主: 时光永痕
1053 0

[数据挖掘新闻] 使用预训练的NLP模型汇总Twitter Live数据 [推广有奖]

  • 0关注
  • 14粉丝

svip3

学术权威

12%

(VIP/贵宾)六级

31%

威望
0
论坛币
26 个
通用积分
57.2086
学术水平
4 点
热心指数
4 点
信用等级
4 点
经验
34190 点
帖子
2733
精华
0
在线时间
321 小时
注册时间
2020-7-21
最后登录
2024-8-1

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币
使用预训练的NLP模型汇总Twitter Live数据
Twitter用户平均在社交媒体Twitter上花费4分钟。平均1分钟,他们阅读相同的内容。它表明用户花费大约25%的时间阅读相同的内容。
另外,大多数推文不会出现在您的仪表板上。您可能会了解热门话题,但是却错过了热门话题。在热门话题中,您可能只阅读了前5条推文及其评论。
那么,您将如何避免在Twitter上浪费时间呢?
我想说一下您整个趋势的Twitter标签数据。然后,您可以在不到2分钟的时间内完成阅读所有趋势推文。
在本文中,我将向您解释如何利用自然语言处理(NLP)预先训练的模型来总结基于主题标签的Twitter帖子。我们将为此使用4个(T5,BART,GPT-2,XLNet)预训练模型。
为什么要使用4种类型的预训练模型进行汇总?
每个预先训练的模型都有其自己的体系结构和权重。因此,这些模型给出的汇总输出可能会彼此不同。
在不同模型上测试twitter数据,然后选择显示摘要的模型,该摘要非常接近您的理解。然后将该模型部署到生产中。
让我们从收集Twitter Live数据开始。
Twitter实时数据
您可以通过两种方式获取Twitter实时数据。
官方Twitter API。按照本文获取Twitter数据集。
使用Beautiful Soup库从Twitter抓取数据。
我将使用步骤1来获取数据。收到Twitter API的凭据后,请按照以下代码通过API获取Twitter数据。
现在,让我们开始使用预先训练的模型一个接一个地汇总数据。
1.使用T5模型进行汇总
T5是用于各种NLP任务(包括摘要)的最新模型。我们将使用转换器库下载T5预训练模型并将该模型加载到代码中。
变形金刚库由Hugging Face团队开发和维护。这是一个开源库。
在此了解有关T5型号的更多信息。
这是使用T5模型总结Twitter数据集的代码。
遵守守则
您可以使用具有不同权重和体系结构的不同类型的T5预训练模型。变压器库中T5模型的可用版本为t5基,t5大,t5小,t5-3B和t5-11B。
对于PyTorch,Return_tensor值应为pt。
用于训练预模型的最大句子长度为512。因此,请将max_length值保持为512。
摘要句子的长度随着length_penality值的增加而增加。Length_penality = 1表示没有惩罚。
2.使用BART模型进行汇总
BART使用带有seq2seq转换的BERT(双向编码器)和GPT(从左至右解码器)架构。BART在汇总任务中达到了最新水平。
BART预先训练的模型在CNN /每日邮件数据上进行了训练,以完成摘要任务,但对于Twitter数据集,它也会提供良好的结果。
我们将利用拥抱面变压器库下载T5模型,然后将其加载到代码中。
这是使用BART模型总结Twitter数据集的代码。
遵守守则
您可以使用min_length和max_length来增加和减少摘要的长度。理想地,汇总长度应为物品总长度的10%至20%。
该模型非常适合摘要新闻文章。但这也可以在Twitter数据上产生良好的结果。
您可以使用不同的BART模型版本,例如bart-large,bart-base,bart-large-cnn和bart-large-mnli。
3.使用GPT-2模型进行汇总
具有150万个参数的GPT-2模型是一种基于变压器的大型语言模型。经过训练可以预测下一个单词。因此,我们可以使用此专业来汇总Twitter数据。
GPT-2型号带有各种版本。并且,每个版本的大小都超过1 GB。
我们将使用bert-extractive-summarizer库下载GPT-2模型。在此处了解有关bert-extractive-summarizer库的更多信息。
使用pip install bert-extractive-summarizer命令安装库。
这是使用GPT-2模型总结Twitter数据集的代码。
遵守守则
根据我们使用的预训练模型,transformer_type值将有所不同。
您可以根据需要更改transformer_model_key。GPT-2具有四个版本gpt2,gpt2-medium,gpt2-large和gpt2-XL。
该库还具有min_length和max_length选项。您可以根据需要将值分配给这些变量。
4.使用XLNet模型进行汇总
XLNet是BERT模型的改进版本,在其体系结构中实现了排列语言建模。同样,XLNet是双向转换器,其中以随机顺序预测下一个令牌。
XLNet模型具有xlnet-base-cased和xlnet-large-cased的两个版本。
这是使用XLNet模型总结Twitter数据集的代码。
遵守守则
您可以根据需要更改min_length和max_length的值。
如果超过512,则该模型将修剪句子长度。
总结的其他用例
总结每篇文章,并作为摘要提供给读者。
您可以使用此方法来生成高质量的SEO。它将帮助您的文章在Google上找到更多信息。
总结帖子的整个评论部分。这些帖子可能属于Reddit或Twitter社交媒体平台。
您可以汇总白皮书,电子书或博客文章,然后在您的社交媒体平台上共享它们。
题库
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

关键词:twitter live NLP ITT TWI

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
加好友,备注cda
拉您进交流群

京ICP备16021002-2号 京B2-20170662号 京公网安备 11010802022788号 论坛法律顾问:王进律师 知识产权保护声明   免责及隐私声明

GMT+8, 2024-11-6 05:07