五、云深度学习平台

为了更好地帮助生态链企业实现更多的人工智能等方面的应用,同时也为了促进内部各业务部门之间的学习交流和合作,M 公司推出了基于云计算的机器学习和深度学习平台,已取得了一定的应用效果。
[b](一)性能特点[/b][br][br] M 云深度学习平台是 M 公司针对机器学习优化而开发的高性能、分布式的云服务,为开发者提供了模型开发、训练、调优、测试、部署和预测的一站式解决方案。该平台所具有的性能特点如下:[br][br] (1)易用性:支持简单易用的命令行工具,可在 Linux/Mac/Windows 操作系统或者 Docker中运行,也可以通过 API、SDK 或者 Web 控制台使用云深度学习服务。[br][br] (2)兼容性:支持 TensorFlow 等深度学习框架的标准 API,兼容 Google Cloud-ML 的samples 代码,相同模型代码可以在不同云的平台上训练,避免了厂商绑定。[br][br] (3)高性能:支持超高性能 GPU 运算,支持数据并行和模型并行、单机多卡和多机多卡的分布式训练。[br][br] (4)灵活性:支持按需申请和分配 CPU、内存和 GPU 资源,可以根据任务运行时间实现秒级别的计量计费功能。[br][br] (5)安全性:支持基于 Access Key/Secret Key 的多租户认证授权机制,可以在线动态调整用户 Quota 配额。[br][br] (6)完整性:支持云端训练,用户编写好代码一键提交到云端训练,支持基于 CPU 或[br]GPU 训练,支持十余个主流深度学习框架和超参数自动调优等功能。[br][br] (7)支持模型服务,用户训练好的模型可以一键部署到云平台,对外提供通用的高性能gRPC 服务,支持模型在线升级和多实例负载均衡等功能。[br][br] (8)支持开发环境,用户可以在平台创建 TensorFlow 等深度学习开发环境,自动分配CPU、内存和 GPU 资源,支持 Notebook 和密码加密等功能。[br]
[b] (二)系统架构[/b][br][br] M 云深度学习平台建立在公有云和私有云为支撑的云计算平台之上,利用 GPU 机器集群为云深度学习平台的运行提供了强大的计算能力。这一平台包括存储服务、深度学习任务管理、GPU 集群管理和计算服务四个核心组件,采用了支持 TensorFlow 等用户自定义的模型结构。该平台所服务的核心业务包括智能助手、云相册、广告、金融和搜索推荐等。[br] [br] 目前,这一平台通过对图像、自然语言和语音的大量训练,调试出了图像识别、自然语言识别和语音处理等相关的场景,通过提供 API、SDK、命令行以及 Web 控制台多种访问方式,最大限度地满足了用户复杂多变的使用环境的应用需求。
[b](三)应用场景[/b][br][br] M 云深度学习平台有较为广泛的应用,基本的应用场景如附图 21 所示。[br][br] 从图中可以看出,M 用户的各类智能设备通过接入 App 服务器,将图像、语音、文本数据传输到 M 云深度学习平台进行相应的分析处理,同时 App 服务器将相关数据提交给 FDS(File Storage Service,文件存储服务)系统,处理后的数据也提交给 M 云深度学习平台,经综合分析处理后得出相应的结果,为用户提供各类服务。
[b](四)应用实例[/b][br][br] 目前,M 云深度学习平台在人脸检测和物体识别等方面有良好的应用效果。人脸检测包括人脸的位置、性别、年龄等数据的采集,物体识别能对 1 500 多种物体进行分类,包括客厅、卧室等场景。人脸检测服务通过上传图像可以识别图像中的人脸参数,能广泛应用于照相机、摄像头监控等场景;物体识别通过上传图像可以进行物体识别,为智能家居提供了想象空间。[br][br]
[b] (五)应用状况[br][/b][br] M 云深度学习平台已经在 M 公司内部各业务部门推广使用,相比于直接使用物理机,云服务拥有超高的资源利用率、快速的启动时间、近乎“无限”的计算资源、自动的故障迁移、支持分布式训练和超参数自动调优等优点,具有良好的推广和应用前景。目前,该平台已支持数十个功能和近 20 个深度学习框架,达到了“支持通用 GPU 等异构化硬件、支持主流的深度学习框架接口、支持无人值守的超参数自动调优以及支持从模型训练到上线的工作流”等业务需求,建成了一个多租户、任务隔离、资源共享、支持多框架和 GPU 的通用服务平台,并且在支持高性能 GPU 和分布式训练的基础上还集成模型训练和模型服务等功能,为用户创造了多方面的价值。

Information: 五、云深度学习平台