[br] (一)更便捷的开发模型[br][br] 在过去很多年,首要原则模型(first-principle models)是科学工程领域最为经典的模型。比如要想知道某辆车从启动到速度稳定行驶的距离,那么需要先统计从启动到稳定耗费的时间、稳定后的速度、加速度等参数;然后运用牛顿第二定律(或者其他物理学公式)建立模型,最后根据该车多次实验的结果列出方程组,从而计算出模型的各个参数。通过该过程,你就相当于学习到了一个知识——某辆车从启动到速度稳定行驶的具体模型。此后,只要在该模型中输入汽车的启动参数便可自动计算出该汽车达到稳定速度前行驶的距离。然而,在数据挖掘的思想中,知识的学习是不需要通过具体问题的专业知识建模。如果之前已经记录下了 100 辆型号性能相似的汽车从启动到速度稳定行驶的距离,那么就能够对这 100 个数据求均值,从而得到结果。显然,这一过程是直接面向数据的,或者说是直接从数据开发模型的。[br][br] (二)计算机技术的发展[br][br] 数据挖掘理论涉及的面很广,它实际上起源于多个学科。如建模部分主要起源于统计学和机器学习。统计学方法以模型为驱动,常常建立一个能够产生数据的模型。而机器学习则以算法为驱动,让计算机通过执行算法来发现知识。随着互联网工具的发展,分享和协作的成本大大降低。我们每天用手机聊天、购物、刷短视频、看新闻等日常的不经意动作给互联网行业提供了体量庞大的数据。这些数据通常被收集、存放在大型数据存储库中,没有强有力的工具,理解它们已经远远超出了我们的能力。而数据挖掘技术的出现解决了这一问题。它可以从海量的数据中提取出有价值的信息,进而作为决策的重要依据。[br][br] (三)预 测[br][br] 数据挖掘的真正价值在于能够以数据中的模式和关系的形式挖掘隐藏的宝石,这可以用来做出对企业有重大影响的预测。例如,如果一家公司确定的营销活动导致在该国某些地区的某种产品的型号的销售额非常高,而在其他地区则不然,那么可以在将来重新调整该广告活动以获得最大的回报。该技术的好处可能因业务类型和目标而异。例如,零售业的销售和营销经理可能用不同的方式挖掘客户信息以提高转化率,这种提高转化率的方式迥异于航空公司或金融服务业。不管是什么行业,过去应用于销售模式和客户行为的数据挖掘都可用于创建预测未来销售和行为的模型。数据挖掘也有助于取消可能损害企业的活动。例如,可以使用数据挖掘来提高产品的安全性,或检测保险和金融服务交易中的欺诈活动。