数据挖掘应该注意:商业理解,也就是业务理解最重要,没有这个,数据挖掘就是空中楼阁。
数据理解,明确知道你要解决的问题,知道每个数据属性,每个记录内容的含义,不然没法抽取数据。
数据准备,包括抽取,处理重复值,空值,重要性选择,有些还需要标准化处理,这个过程最消耗时间,占整个过程的70-80%。
建模准备,选择合适的数学模型,有时候要选择几种不同的模型。
模型评价,评价各个模型的准确性,对数据和分析过程的解释性,选择最优的。
模型发布,模型是给业务提供依据的,不能应用的模型是白白浪费时间。
以上基本是数据挖掘的各个步骤,都重要,没有哪个过程可以随便,都需要注意详见附件数据挖掘入门必看10个问题