发帖

楼主: 时光永痕

1053 0

[数据挖掘新闻] 使用预训练的NLP模型汇总Twitter Live数据 [推广有奖]

0关注
14粉丝

svip3

学术权威

12%

（VIP/贵宾）六级

31%

0%

威望: 0 级
论坛币: 26 个
通用积分: 57.2086
学术水平: 4 点
热心指数: 4 点
信用等级: 4 点
经验: 34190 点
帖子: 2733
精华: 0
在线时间: 321 小时
注册时间: 2020-7-21
最后登录: 2024-8-1

楼主

时光永痕

发表于 2020-12-11 20:23:34 |只看作者 |坛友微信交流群|倒序 |AI写论文

是否 +2 论坛币

k人参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群

赵安豆老师微信：zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

立即领取

感谢您参与论坛问题回答

经管之家送您两个论坛币！

+2 论坛币

使用预训练的NLP模型汇总Twitter Live数据
Twitter用户平均在社交媒体Twitter上花费4分钟。平均1分钟，他们阅读相同的内容。它表明用户花费大约25％的时间阅读相同的内容。
另外，大多数推文不会出现在您的仪表板上。您可能会了解热门话题，但是却错过了热门话题。在热门话题中，您可能只阅读了前5条推文及其评论。
那么，您将如何避免在Twitter上浪费时间呢？
我想说一下您整个趋势的Twitter标签数据。然后，您可以在不到2分钟的时间内完成阅读所有趋势推文。
在本文中，我将向您解释如何利用自然语言处理（NLP）预先训练的模型来总结基于主题标签的Twitter帖子。我们将为此使用4个（T5，BART，GPT-2，XLNet）预训练模型。
为什么要使用4种类型的预训练模型进行汇总？
每个预先训练的模型都有其自己的体系结构和权重。因此，这些模型给出的汇总输出可能会彼此不同。
在不同模型上测试twitter数据，然后选择显示摘要的模型，该摘要非常接近您的理解。然后将该模型部署到生产中。
让我们从收集Twitter Live数据开始。
Twitter实时数据
您可以通过两种方式获取Twitter实时数据。
官方Twitter API。按照本文获取Twitter数据集。
使用Beautiful Soup库从Twitter抓取数据。
我将使用步骤1来获取数据。收到Twitter API的凭据后，请按照以下代码通过API获取Twitter数据。
现在，让我们开始使用预先训练的模型一个接一个地汇总数据。
1.使用T5模型进行汇总
T5是用于各种NLP任务（包括摘要）的最新模型。我们将使用转换器库下载T5预训练模型并将该模型加载到代码中。
变形金刚库由Hugging Face团队开发和维护。这是一个开源库。
在此了解有关T5型号的更多信息。
这是使用T5模型总结Twitter数据集的代码。
遵守守则
您可以使用具有不同权重和体系结构的不同类型的T5预训练模型。变压器库中T5模型的可用版本为t5基，t5大，t5小，t5-3B和t5-11B。
对于PyTorch，Return_tensor值应为pt。
用于训练预模型的最大句子长度为512。因此，请将max_length值保持为512。
摘要句子的长度随着length_penality值的增加而增加。Length_penality = 1表示没有惩罚。
2.使用BART模型进行汇总
BART使用带有seq2seq转换的BERT（双向编码器）和GPT（从左至右解码器）架构。BART在汇总任务中达到了最新水平。
BART预先训练的模型在CNN /每日邮件数据上进行了训练，以完成摘要任务，但对于Twitter数据集，它也会提供良好的结果。
我们将利用拥抱面变压器库下载T5模型，然后将其加载到代码中。
这是使用BART模型总结Twitter数据集的代码。
遵守守则
您可以使用min_length和max_length来增加和减少摘要的长度。理想地，汇总长度应为物品总长度的10％至20％。
该模型非常适合摘要新闻文章。但这也可以在Twitter数据上产生良好的结果。
您可以使用不同的BART模型版本，例如bart-large，bart-base，bart-large-cnn和bart-large-mnli。
3.使用GPT-2模型进行汇总
具有150万个参数的GPT-2模型是一种基于变压器的大型语言模型。经过训练可以预测下一个单词。因此，我们可以使用此专业来汇总Twitter数据。
GPT-2型号带有各种版本。并且，每个版本的大小都超过1 GB。
我们将使用bert-extractive-summarizer库下载GPT-2模型。在此处了解有关bert-extractive-summarizer库的更多信息。
使用pip install bert-extractive-summarizer命令安装库。
这是使用GPT-2模型总结Twitter数据集的代码。
遵守守则
根据我们使用的预训练模型，transformer_type值将有所不同。
您可以根据需要更改transformer_model_key。GPT-2具有四个版本gpt2，gpt2-medium，gpt2-large和gpt2-XL。
该库还具有min_length和max_length选项。您可以根据需要将值分配给这些变量。
4.使用XLNet模型进行汇总
XLNet是BERT模型的改进版本，在其体系结构中实现了排列语言建模。同样，XLNet是双向转换器，其中以随机顺序预测下一个令牌。
XLNet模型具有xlnet-base-cased和xlnet-large-cased的两个版本。
这是使用XLNet模型总结Twitter数据集的代码。
遵守守则
您可以根据需要更改min_length和max_length的值。
如果超过512，则该模型将修剪句子长度。
总结的其他用例
总结每篇文章，并作为摘要提供给读者。
您可以使用此方法来生成高质量的SEO。它将帮助您的文章在Google上找到更多信息。
总结帖子的整个评论部分。这些帖子可能属于Reddit或Twitter社交媒体平台。
您可以汇总白皮书，电子书或博客文章，然后在您的社交媒体平台上共享它们。
题库

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

分享0 收藏0 回帖

关键词：twitter live NLP ITT TWI

[数据挖掘新闻] 使用预训练的NLP模型汇总Twitter Live数据 [推广有奖]

经管之家送您一份

经管之家联合CDA

感谢您参与论坛问题回答

扫码加我拉你入群

相关帖子

浏览过的帖子

浏览过的版块

本版微信群

[数据挖掘新闻] 使用预训练的NLP模型汇总Twitter Live数据 [推广有奖]

经管之家送您一份

经管之家联合CDA

感谢您参与论坛问题回答

扫码加我 拉你入群

相关帖子

浏览过的帖子

浏览过的版块

本版微信群

扫码加我拉你入群