[统计数据] 如果论文比较长，可以考虑以下两种方式来分token： [推广有奖]

0关注
3粉丝

教授

15%

还不是VIP/贵宾

威望: 0 级
论坛币: 0 个
通用积分: 0.4083
学术水平: 0 点
热心指数: 0 点
信用等级: 0 点
经验: 7653 点
帖子: 595
精华: 0
在线时间: 55 小时
注册时间: 2023-5-18
最后登录: 2023-11-8

楼主

Yotoo编译 发表于 2023-7-18 13:46:17 |AI写论文

是否 +2 论坛币

k人参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群

赵安豆老师微信：zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

立即领取

感谢您参与论坛问题回答

经管之家送您两个论坛币！

+2 论坛币

如果论文比较长，可以考虑以下两种方式来分token：

1. 使用API：可以使用一些NLP API，例如Hugging Face的Transformers库中的Tokenizer，或者Google的BERT API等。这些API通常支持长文本的分词操作，并且会返回一个包含所有token的列表。

2. 使用代码解释器：如果你有一些NLP库的代码和运行环境，可以直接在代码解释器（如Python的Jupyter Notebook）中上传论文并进行分词操作。这样你可以自定义分词规则，并且对分词结果进行进一步处理和分析。

两种方式各有优劣，选择哪种方式取决于你的需求、技术能力以及可用资源。如果你只需要简单的分词操作，使用API可能更加方便和快速。如果你需要更多自定义和控制，或者希望对分词后的结果进行进一步的处理和分析，可以选择使用代码解释器。