楼主: Yotoo编译
237 0

[统计数据] 如果论文比较长,可以考虑以下两种方式来分token: [推广有奖]

  • 0关注
  • 3粉丝

教授

15%

还不是VIP/贵宾

-

威望
0
论坛币
0 个
通用积分
0.4083
学术水平
0 点
热心指数
0 点
信用等级
0 点
经验
7653 点
帖子
595
精华
0
在线时间
55 小时
注册时间
2023-5-18
最后登录
2023-11-8

楼主
Yotoo编译 发表于 2023-7-18 13:46:17 |AI写论文

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币
如果论文比较长,可以考虑以下两种方式来分token:

1. 使用API:可以使用一些NLP API,例如Hugging Face的Transformers库中的Tokenizer,或者Google的BERT API等。这些API通常支持长文本的分词操作,并且会返回一个包含所有token的列表。

2. 使用代码解释器:如果你有一些NLP库的代码和运行环境,可以直接在代码解释器(如Python的Jupyter Notebook)中上传论文并进行分词操作。这样你可以自定义分词规则,并且对分词结果进行进一步处理和分析。

两种方式各有优劣,选择哪种方式取决于你的需求、技术能力以及可用资源。如果你只需要简单的分词操作,使用API可能更加方便和快速。如果你需要更多自定义和控制,或者希望对分词后的结果进行进一步的处理和分析,可以选择使用代码解释器。

二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

关键词:Token 论文比较 Transformers transform Notebook

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
扫码
拉您进交流群
GMT+8, 2026-2-13 23:09