楼主: yusb
383 0

[经管数据集] Python基于BERT和朴素贝叶斯算法的新闻文本分类源码+数据集+实验报告,基于NaiveBayes [推广有奖]

已卖:21217份资源
好评率:99%
商家信誉:一般

巨擘

0%

还不是VIP/贵宾

-

威望
1
论坛币
40750 个
通用积分
2590.6961
学术水平
20 点
热心指数
31 点
信用等级
7 点
经验
8298 点
帖子
20478
精华
0
在线时间
11876 小时
注册时间
2020-12-8
最后登录
2026-2-11

楼主
yusb 在职认证  发表于 2023-11-12 12:35:25 |AI写论文

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币
Python基于BERT和朴素贝叶斯算法的新闻文本分类源码+数据集+实验报告,基于NaiveBayes的新闻情感分类模型

## 机器学习课设:基于BERT和朴素贝叶斯算法的新闻文本分类
工科专业的同学可以直接读这个文档。
商科专业的同学可以先看一下实验报告。
___
如何使用我的代码?
1. 打开`data.py`,修改第24,25行代码,改成你的数据集/测试集路径
    ```python
           datapath=".\\data\\train.csv"
           testpath=".\\data\\test.csv"
    ```
    csv文件中,`id`是样本的序列号,`content`是新闻的文本内容。`comment_all`是这个新闻   的所有评论。`label`是新闻真假的标签。其中有3个标签。-1是假新闻,0是不相关,1是真新闻。
   
    若要读取excel格式的文档,修改第`24,25,34,48`行代码即可,但是格式必须相同。
   
    其中`id`是样本的序列号,`content`是新闻的文本内容。`comment_all`是这个新闻的所有评论。`label`是新闻真假的标签。其中有3个标签。-1是假新闻,0是不相关,1是真新闻。

2. 打开`Bert_train.ipynb`或者`NaiveBayes.ipynb`,运行代码即可。
3. 或者直接将以下文件导入kaggle,打开GPU模式,设置好路径之后运行:
   ```
   split_dataset
   split_testset
   kaggle_bertversion.ipynb
   ```
   本段代码在kaggle上跑了大概2个小时,仅仅只有5个iteration,懒得再更新了。



`News_prediction.ipynb`没什么用,本来是用来做数据预处理的,运行之后会生成粗处理后的数据保存,下载时可以忽略。

`data`文件夹中已经包括了初始的数据集和处理之后的数据集。`.csv`文件初始数据集,另外两个是经过`News_prediction.ipynb`代码处理过的。在`Bert`和`NaiveBayes`训练函数中直接加载上来。

`result`文件夹中的文件是朴素贝叶斯和Bert模型训练后的输出文件,准确率分别问87.4和91.1。




Python基于BERT和朴素贝叶斯算法的新闻文本分类源码+数据集+实验报告,基于NaiveBayes.zip (62.35 MB, 需要: RMB 29 元)


4ff578482c1d132658a8ccf799f51b5.png


二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

关键词:python naive 朴素贝叶斯 Bayes baye
相关内容:Python数据算法

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
扫码
拉您进交流群
GMT+8, 2026-2-12 03:57