楼主: yusb
190 0

[经管数据集] Python基于BERT和朴素贝叶斯算法的新闻文本分类源码+数据集+实验报告,基于NaiveBayes [推广有奖]

巨擘

0%

还不是VIP/贵宾

-

威望
1
论坛币
30410 个
通用积分
2208.5178
学术水平
13 点
热心指数
25 点
信用等级
3 点
经验
109312 点
帖子
19234
精华
0
在线时间
10131 小时
注册时间
2020-12-8
最后登录
2024-10-6

楼主
yusb 在职认证  发表于 2023-11-12 12:35:25 |只看作者 |坛友微信交流群|倒序 |AI写论文
相似文件 换一批

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币
Python基于BERT和朴素贝叶斯算法的新闻文本分类源码+数据集+实验报告,基于NaiveBayes的新闻情感分类模型

## 机器学习课设:基于BERT和朴素贝叶斯算法的新闻文本分类
工科专业的同学可以直接读这个文档。
商科专业的同学可以先看一下实验报告。
___
如何使用我的代码?
1. 打开`data.py`,修改第24,25行代码,改成你的数据集/测试集路径
    ```python
           datapath=".\\data\\train.csv"
           testpath=".\\data\\test.csv"
    ```
    csv文件中,`id`是样本的序列号,`content`是新闻的文本内容。`comment_all`是这个新闻   的所有评论。`label`是新闻真假的标签。其中有3个标签。-1是假新闻,0是不相关,1是真新闻。
   
    若要读取excel格式的文档,修改第`24,25,34,48`行代码即可,但是格式必须相同。
   
    其中`id`是样本的序列号,`content`是新闻的文本内容。`comment_all`是这个新闻的所有评论。`label`是新闻真假的标签。其中有3个标签。-1是假新闻,0是不相关,1是真新闻。

2. 打开`Bert_train.ipynb`或者`NaiveBayes.ipynb`,运行代码即可。
3. 或者直接将以下文件导入kaggle,打开GPU模式,设置好路径之后运行:
   ```
   split_dataset
   split_testset
   kaggle_bertversion.ipynb
   ```
   本段代码在kaggle上跑了大概2个小时,仅仅只有5个iteration,懒得再更新了。



`News_prediction.ipynb`没什么用,本来是用来做数据预处理的,运行之后会生成粗处理后的数据保存,下载时可以忽略。

`data`文件夹中已经包括了初始的数据集和处理之后的数据集。`.csv`文件初始数据集,另外两个是经过`News_prediction.ipynb`代码处理过的。在`Bert`和`NaiveBayes`训练函数中直接加载上来。

`result`文件夹中的文件是朴素贝叶斯和Bert模型训练后的输出文件,准确率分别问87.4和91.1。




Python基于BERT和朴素贝叶斯算法的新闻文本分类源码+数据集+实验报告,基于NaiveBayes.zip (62.35 MB, 需要: RMB 29 元)


4ff578482c1d132658a8ccf799f51b5.png


二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

关键词:python naive 朴素贝叶斯 Bayes baye

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
加JingGuanBbs
拉您进交流群

京ICP备16021002-2号 京B2-20170662号 京公网安备 11010802022788号 论坛法律顾问:王进律师 知识产权保护声明   免责及隐私声明

GMT+8, 2024-10-7 01:04