人工智能的文本分类方法简述
摘要:本文阐述了一些
根本的文本分类的方法,以及一些
改良的文本文类的方法,并包含了一些文本分类的实际应用。其中着重阐述了贝叶斯分类以及一些其他的
的文本分类方法。最后提出了现在文本分类方法中存在的一些问题。
关键词:文本分类;贝叶斯方法;数据挖掘;分类算法。
0 引言
文本分类是指在给定分类体系下 , 根据文本内容 (自动) 确定文本类别的过程。20世纪90年代以前 ,占主导地位的文本分类方法一直是基于知识工程的分类方法 , 即由专业人员手工进行分类。目前在国内也已经开始对中文文本分类方法进行研究 , 相比于英文文本分类 , 中文文本分类的一个重要的
差异在于预处理阶段: 中文文本的读取需要分词 , 不像英文文本的单词那样有空格来区分。从简单的查词典的方法 , 到后来的基于统计语言模型的分词方法 , 中文分词的技术已趋于成熟。并在信息检索、Web文档自动分类、数字图书馆、自动文摘、分类新闻组、文本过滤、单词语义辨析以及文档的组织和管理等多个领域得到了初步的应用。
人工智能的
根本方法就是对人类智能活动的仿真。小样本数据可以看作是一种先验知识不完全的数据集。 ...


雷达卡




京公网安备 11010802022788号







