楼主: 人工智能-AI
430 0

基于文字密度提取网页正文 [推广有奖]

  • 0关注
  • 10粉丝

会员

学术权威

71%

还不是VIP/贵宾

-

威望
0
论坛币
25 个
通用积分
0.0436
学术水平
0 点
热心指数
0 点
信用等级
0 点
经验
37770 点
帖子
3776
精华
0
在线时间
853 小时
注册时间
2017-9-5
最后登录
2018-4-11

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币
摘要:本文提出了一种基于文字密度的网页正文提取算法。该方法包括了3个步骤:首先对网页进行预处理,然后基于处理后的部分做出该网页的文字密度函数,最后引入一种分析机制将正文部分提取出来。本文提出的算法不依赖DO M树的建立、不依赖机器学习和数据挖掘,而是根据网页正文的特性进行正文提取。实验表明本方法切实可行并且具有较高的准确性,网页正文提取的准确度高达94%。

原文链接:http://www.cqvip.com//QK/96621X/201704/672098787.html

送人玫瑰,手留余香~如您已下载到该资源,可在回帖当中上传与大家共享,欢迎来CDA社区交流学习。(仅供学术交流用。)

二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

关键词:cqvip HTTP 大家共享 交流学习 密度函数 网页正文提取 文字密度函数 网页噪声 舆情分析

您需要登录后才可以回帖 登录 | 我要注册

本版微信群
加JingGuanBbs
拉您进交流群

京ICP备16021002-2号 京B2-20170662号 京公网安备 11010802022788号 论坛法律顾问:王进律师 知识产权保护声明   免责及隐私声明

GMT+8, 2024-4-28 14:33