从形式上来说,数据挖掘的开发流程是迭代式的。一般通过如下几个阶段对数据进行迭代式处理:[br][br] (一)解读需求[br][br] 绝大多数数据挖掘工程都是针对具体领域的,因此数据挖掘不应该沉浸在自己的算法模型世界里,而应该多和具体领域的专家交流合作,以正确解读出项目需求,且这种合作应当贯穿整个项目生命周期。[br][br] (二)搜集数据[br][br] 在大型公司,数据搜集大都是从其他业务系统数据库中提取。很多时候我们是对数据进行抽样,在这种情况下必须理解数据的抽样过程是如何影响取样分布,以确保评估模型环节中用于训练(train)和检验(test)模型的数据来自同一个分布。[br][br] (三)预处理数据[br][br] 预处理数据可主要分为数据准备和数据归约两部分。其中前者包含了缺失值处理、异常值处理、归一化、平整化、时间序列加权等;而后者主要包含维度归约、值归约和案例归约。[br][br] (四)评估模型[br][br] 确切来说,这一步就是在不同的模型之间做出选择,找到最优模型。很多人认为这一步是数据挖掘的全部,但显然这是以偏概全的,甚至绝大多数情况下这一步耗费的时间和精力在整个流程里是最少的。[br][br] (五)解释模型[br][br] 数据挖掘模型在大多数情况下是用来辅助决策的,人们显然不会根据“黑箱模型”来制[br]定决策。如何针对具体业务情景对模型做出合理解释也是一项非常重要的任务。