一、大数据分析的相关概念

[br][br]（一）机器学习与深度学习[br][br][b]1.[/b][b]机器学习[/b][br][br][br][br] 机器学习是人工智能在近期最重要的发展之一。机器学习的理念是，不将智能看作是给机器传授东西，而是机器会自己学习东西。这样一来，机器就可以直接从经验（或数据）中学习如何处理复杂的任务。[br][br] 随着计算速度和用于编程的算法的巨大进步与发展，机器学习成长迅速。由此产生的算法对我们的生活开始产生重大影响，而且它们的表现往往胜过人类。那么，机器学习是如何工作的呢？[br][br] 在机器学习系统中，计算机通常是通过在相同任务的大型数据库中进行训练，然后自己编写代码去执行一项任务。其中很大一部分涉及到识别这些任务中的模式，然后根据这些模式做出决策。[br][br] 机器学习的核心是“使用算法解析数据，从中学习，然后对新数据做出决定或预测”。也就是说计算机利用已获取的数据得出某一模型，然后利用此模型进行预测的一种方法，这个过程跟人的学习过程有些类似，比如人获取一定的经验，可以对新问题进行预测。[br][br] 我们举个例子，我们都知道支付宝春节的“集五福”活动，我们用手机扫“福”字照片识别福字，这个就是用了机器学习的方法。我们可以为计算机提供“福”字的照片数据，通过算法模型机型训练，系统不断更新学习，然后输入一张新的福字照片，机器自动识别这张照片上是否有福字。[br][br] 机器学习是一门多领域交叉学科，涉及概率论、统计学、计算机科学等多门学科。机器学习的概念就是通过输入海量训练数据对模型进行训练，使模型掌握数据所蕴含的潜在规律，进而对新输入的数据进行准确的分类或预测。训练数据与模型的关系如图1-1-1所示：

[size=100][center]图1-1-1 机器学习中训练数据与模型的关系[/center][/size]

[br][br] 为了更清楚地理解机器学习的过程，我们将以开发能够识别手写数字的机器为具体例子来考虑模式识别的问题。这样的机器应该能够准确识别一个字符所代表的数字，而无论它的书写格式如何变化。[br][br] 数字识别的过程分为两个阶段。首先，我们必须能够将手写数字的图像扫描到机器中，并从这张（数字）图像中提取出有意义的数据。这通常是通过主成分分析（PCA）的统计方法实现的，这种方法会自动提取图像中的主要特征，例如图像的长度、宽度、线条的交点等。这个过程与求解矩阵的特征值和特征向量的过程密切相关，也与谷歌用来在互联网上搜索信息的过程非常相似。[br][br] 然后，我们想训练机器从这些提取的特征中识别数字。一种非常主流的用来训练机器的方法是神经网络。神经网络算法的最初灵感来源是我们认为的人类大脑的工作方式，但并不严格地建立在我们认为的人类大脑的工作方式之上。[br][br][b]2.[/b][b]深度学习[/b][br][br] 深度学习是目前关注度很高的一类算法，深度学习（Deep Learning，DL）属于机器学习的子类。它的灵感来源于人类大脑的工作方式，是利用深度神经网络来解决特征表达的一种学习过程。[br][br] 人工智能、机器学习、深度学习关系如图1-1-2所示：

[center]图1-1--2人工智能、机器学习、深度学习之关系[/center][center][/center]

[br] 深度学习归根结底也是机器学习，不过它不同于监督学习、半监督学习、无监督学习、强化学习的这种分类方法，它是另一种分类方法，基于算法神经网络的深度，可以分成浅层学习算法和深度学习算法。[br][br] 浅层学习算法主要是对一些结构化数据、半结构化数据一些场景的预测，深度学习主要解决复杂的场景，比如图像、文本、语音识别与分析等。[br][br][b] 【理解案例】[/b][br][br] [b]世界排名第一的围棋棋手柯洁对人工智能机器人连输三盘，被“阿尔法狗”虐哭。[/b][br][br] [i]世界排名第一的围棋棋手柯洁与谷歌旗下的人工智能机器人AlphaGo（“阿尔法狗”）5月23日至27日在乌镇的对弈，吸引社会广泛关注。这是“阿尔法狗”去年3月大胜韩国棋手李世石后，与围棋大师的再次交战。不出意外的是，柯洁连败三局。[br][br] 引领“阿尔法狗”出奇制胜的系统，是一套“深度学习+强化学习”的算法模型。在人工智能的日常应用中，能够进行小样本分析的“迁移学习”算法模型也十分重要。业内专家表示，未来人工智能的发展趋势将是深度学习、强化学习、迁移学习三者融合互补。[/i]

[br][br] [i]世界排名第一的围棋棋手柯洁与谷歌旗下的人工智能机器人AlphaGo（“阿尔法狗”）2017年5月23日至27日在乌镇的对弈，吸引社会广泛关注。这是“阿尔法狗”在2016年3月大胜韩国棋手李世石后，与围棋大师的再次交战。不出意外的是，柯洁连败三局。[br][br] 引领“阿尔法狗”出奇制胜的系统，是一套“深度学习+强化学习”的算法模型。在人工智能的日常应用中，能够进行小样本分析的“迁移学习”算法模型也十分重要。业内专家表示，未来人工智能的发展趋势将是深度学习、强化学习、迁移学习三者融合互补。[br][/i][br][b] “[/b][b]阿尔法狗”不断进化：深度学习+强化学习[br][/b][br] [i]“阿尔法狗”的“大脑”，是机器学习系统，即一套机器模拟人脑运算的体系。支撑“阿尔法狗”的机器学习算法，是“深度学习+强化学习”。[br][br] 先来解释深度学习。实际上，人工智能技术已走过了60年历程，直到近年来机器学习技术中的深度学习算法取得突破，才迎来春天。深度学习概念由加拿大学者Geoffrey Hinton提出并不断完善，意为使机器模仿人脑神经网络的学习、判断和决策能力。[br][br] 在深度学习过程中，数据至关重要，是训练机器智能的沃土。2016年在对弈李世石前，“阿尔法狗”以半年时间集中模仿学习了3000万步人类围棋大师的走法，并从自我对弈中积累胜负经验。[br][br] 与2016年相比，2017年，“阿尔法狗”的算法有三大显著的进步。[br][br] 其一，其学习的数据全部来自机器自身，而非人类。“阿尔法狗”项目负责人David[br]Silver介绍，最好的训练数据不是来自于人类，而是来自于“阿尔法狗”自己，利用其强大的搜索能力，生成数据，让下一代的“阿尔法狗”学习。由于数据优质、算法高效，因此“阿尔法狗”计算量仅为去年对阵李世石时的1/10。[br][br] 其二，由多机运行升级为单机运行，更便于应用。去年“阿尔法狗”使用了谷歌云上的50个左右TPU，使用多台电脑运行，而今年的“阿尔法狗”使用了4个TPU，单台电脑即可运行。[br][br] 其三，强化学习重要性进一步凸显，机器自我决策能力大大提高。人工智能强化学习概念，借鉴自心理学，即机器会在环境给予的奖励或惩罚的刺激下，逐步形成对刺激的预期，产生能获得最大利益的习惯性行为。强化学习的本质是实现“自动决策”。机器会在没有任何指导、标签的情况下，尝试行为，得到一个结果，再判断是对还是错，由此调整之前的行为，通过不断地调整，算法持续优化。强化学习的算法更接近于人类的思维模式。[br][br] 目前，深度学习和强化学习的算法已经得到了一定的应用。研发“阿尔法狗”的团队、谷歌旗下的DeepMind公司已与英国国家医疗服务体系（NHS）合作，与眼科医院共同开发一套用于早期识别视觉疾病的机器学习系统，通过对眼球扫描图像的分析，发现糖尿病视网膜病变、老年性黄斑病变的早期症状。[/i]

[b]（二）监督学习、无监督学习、半监督学习与强化学习[/b][br][br]在了解了机器学习的概念后，即通过建立模型进行自我学习，那么学习方法有哪些呢？[br][br][b]1.[/b][b]监督学习[/b][br][br] 监督学习就是训练机器学习的模型的训练样本数据有对应的目标值，监督学习就是通过对数据样本因子和已知的结果建立联系，提取特征值和映射关系，通过已知的结果，已知数据样本不断的学习和训练，对新的数据进行结果的预测。[br][br] 监督学习通常用在分类和回归。比如手机识别垃圾短信，电子邮箱识别垃圾邮件，都是通过对一些历史短信、历史邮件做垃圾分类的标记，对这些带有标记的数据进行模型训练，然后获取到新的短信或是新的邮件时，进行模型匹配，来识别此邮件是或是不是，这就是监督学习下分类的预测。[br][br] 再举一个回归的例子，比如我们要预测公司净利润的数据，我们可以通过历史上公司利润（目标值），以及跟利润相关的指标，比如营业收入、资产负债情况、管理费用等数据，通过回归的方式我们回到的一个回归方程，建立公司利润与相关因此的方程式，通过输入因子数据，来预测公司利润。[br][br] 监督学习难点是获取具有目标值的样本数据成本较高，成本高的原因在于这些训练集的要依赖人工标注工作。[br][br][b]2.[/b][b]无监督学习[/b][br][br][br] 无监督学习跟监督学习的区别就是选取的样本数据无需有目标值，我们无需分析这些数据对某些结果的影响，只是分析这些数据内在的规律。[br][br] 无监督学习常用在聚类分析上面。比如客户分群、因子降维等。比如RFM模型的使用，通过客户的销售行为（消费次数、最近消费时间、消费金额）指标，来对客户数据进行聚类。比如如下四类。[br][br] 重要价值客户：最近消费时间近、消费频次和消费金额都很高；[br][br] 重要保持客户：最近消费时间较远，但消费频次和金额都很高，说明这是个一段时间没来的忠诚客户，我们需要主动和他保持联系；[br][br] 重要发展客户：最近消费时间较近、消费金额高，但频次不高，忠诚度不高，很有潜力的用户，必须重点发展；[br][br] 重要挽留客户：最近消费时间较远、消费频次不高，但消费金额高的用户，可能是将要流失或者已经要流失的用户，应当基于挽留措施。[br][br] 除此之外，无监督学习也适用于降维，无监督学习比监督学习好处是数据不需要人工打标记，数据获取成本低。[br][br][b]3.[/b][b]半监督学习[/b][br][br] 半监督学习是监督学习和无监督学习相互结合的一种学习方法，通过半监督学习的方法可以实现分类、回归、聚类的结合使用。[br][br] 半监督分类：是在无类标签的样例的帮助下训练有类标签的样本，获得比只用有类标签的样本训练得到更优的分类；[br][br] 半监督回归：在无输出的输入的帮助下训练有输出的输入，获得比只用有输出的输入训练得到的回归器性能更好的回归；[br][br] 半监督聚类：在有类标签的样本的信息帮助下获得比只用无类标签的样例得到的结果更好的簇，提高聚类方法的精度；[br][br] 半监督降维：在有类标签的样本的信息帮助下找到高维输入数据的低维结构，同时保持原始高维数据和成对约束的结构不变。半监督学习是最近比较流行的方法。[br][br][b]4.[/b][b]强化学习[/b][br][br] 强化学习是一种比较复杂的机器学习方法，强调系统与外界不断的交互反馈，它主要是针对流程中不断需要推理的场景，比如无人汽车驾驶，它更多关注性能。它是机器学习中的热点学习方法。[br][br] 需要说明的是，深度学习是根据模型的结构上的差异化形成的机器学习的一个分支，而上述四类是连接主义学习的四大类别，深度学习跟四类都是有都分重叠关系，如下图1-1-3所示。

[center]图1-1-3各类机器学习的重叠关系[/center][br][br]

[br] 除此之外，随着人工智能技术的不断发展及应用场景的持续深入，深度学习还发展出迁移学习等技术。[br][br] 目前的深度学习和强化学习算法，虽然进步迅速、得到了一定的应用，但仍面临一定局限性。[br][br] 深度学习的局限性在于，必须依赖庞大且优质的数据量。然而目前，数据源、数据算法、数据应用的市场高度分离，数据高度集中在谷歌、脸书、亚马逊、BAT等互联网巨头手中，高质量的大数据高度垄断、不易获得。[br][br] 强化学习的问题在于，不仅速度慢、反馈延迟，其分析的数据还有可能和大部分数据不同，存在数据偏差，在这样的情况下，强化学习就会“将错就错”，运算结果不可信。[br][br] 面对上述局限，迁移学习的方案出现了。2005年，学界提出“迁移学习”概念，强调“深度学习＋小样本”理念，即将大数据训练好的模型迁移到类似场景改进应用，其特征是小数据、冷启动，打破了“逢模型必大数据”的局限。[br][br] 比如，将骑自行车的经验应用在骑摩托车上，就是迁移学习。"阿尔法狗"能适应19×19的棋盘，那么，如果要迅速适应21×21的棋盘，就需要迁移学习算法。[br][br] 在IT行业，迁移学习已有局部应用。第四范式公司创始人戴文渊在百度负责名为“凤巢”的广告营销系统时，利用迁移学习将百度搜索算法应用到问答社区“百度知道”，使后者点击率提升四成；腾讯将大规模在线电商推荐任务迁移到新领域，大大减少了数据需求量；微软也利用迁移学习分析了电商产品的舆情取向。[br][br][b]（三）训练集、验证集和测试集[/b][br][br] 为了评估有监督算法的区分度、稳定性、鲁棒性等模型效果，往往会将样本拆分为：训练集(train set)、测试集(test set)、验证集(validation set 或者外样本测试oot)。[br][br] 机器学习中普遍的做法是将样本按7:3的比例从同一个样本集中随机划分出训练集和测试集。在风控领域，做评分卡模型的时候除了随机抽样外，也有用到分层抽样，不过划分的比例还是一样的。[br][br] 这三个样本集的作用分别是：[br][br] 训练集(train set)，用于训练有监督模型，拟合模型，调整参数，选择入模变量，以及对算法做出其他抉择；[br][br] 测试集(test set)，用于评估训练出的模型效果，但不会改变模型的参数及效果，一般验证模型是否过拟合或者欠拟合，决定是否重新训练模型或者选择其他的算法；[br][br] 验证集(validation set)，因为训练集和测试集均源自同一分布中，随着时间的流逝，近期样本的分布与训练模型的样本分布会有变化，需要校验训练好的模型在近期样本(验证集)是否有同样的效果，即模型的稳定性、鲁棒性、泛化误差。[br][br] 只有确定好了训练集和测试集后，才可以对有监督算法调整学习算法的参数来探索合适的参数，筛选合适的特征，快速检测算法的性能，引导对机器学习做出最重要的改变。[br][br] 因此，需合理地选择训练集和测试集，使其分布能代表真实的数据分布，才能期望算法有良好的效果。

一、 大数据分析的相关概念

Information: 一、 大数据分析的相关概念

一、大数据分析的相关概念

Information: 一、大数据分析的相关概念