楼主: Mujahida
396 1

[其他] 5款可用于LLMs的数据抓取工具方案源码 [推广有奖]

已卖:5681份资源

泰斗

0%

还不是VIP/贵宾

-

威望
0
论坛币
13312 个
通用积分
746.7483
学术水平
459 点
热心指数
484 点
信用等级
414 点
经验
116309 点
帖子
4687
精华
0
在线时间
16731 小时
注册时间
2013-1-2
最后登录
2026-1-30

楼主
Mujahida 在职认证  发表于 2024-9-17 10:00:21 |AI写论文

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币
1、Crawl4AI
功能: 提取语义标记的数据块为JSON格式,提供干净的HTML和Markdown文件。
用途: 适用于RAG(检索增强生成)、微调以及AI聊天机器人的开发。
特点: 高效数据提取,支持LLM格式,多URL支持,易于集成和Docker容器化。
2、FireCrawl
功能: 抓取网站的所有可访问子页面,并转换内容为干净的Markdown格式。
特点: 适用于JavaScript动态生成的内容网站,提供易用的API。
3、Scrapegraph-ai
功能: 使用LLM和直接图形逻辑创建网站和本地文档的抓取流程。
特点: 自动执行数据抓取任务,用户只需指定信息类型。
4、Markdowner
功能: 将网站快速转换为Markdown数据。
特点: 支持自动爬虫、详细模式、JavaScript网站等,易于扩展和自托管。
5、Jina Reader
功能:将任何URL转化为LLM所需的Markdown格式
特点:可以针对这些内容集成不同的模型,支持API

5款可用于LLMs的数据抓取工具方案源码.zip (89.52 MB, 需要: RMB 29 元)


二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

关键词:数据抓取 LMS LLM Javascript script

沙发
Luce2030(未真实交易用户) 发表于 2025-1-16 11:49:26
刚好在找,感谢分享!!

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
扫码
拉您进交流群
GMT+8, 2026-2-1 16:04