victorylee
作者victorylee2021-04-16 15:14
软件开发工程师, 浪潮商用机器有限公司

基于K1 Power Linux 与WMLA的企业级人工智能解决方案

字数 2254阅读 4983评论 0赞 2

该系列文章介绍一个企业级的人工智能解决方案,包含多篇文章,敬请浏览:

本文是第一篇

深度学习语音识别,图像处理,自然语言理解领域攻城略地。人工神经网络( Artificial Neural Network , ANN ) 是一个古老的模型,发端于感知器模型,人工神经网络是由多层感知器组成。由于人工神经网络运算量大,神经元为线性模型,缺乏训练多层神经网络的优化算法,导致人工神经网络的发展困难重重。随着计算机算力的增强,反向传播等算法的提出,人工神经网络突然迸发处蓬勃的生机,在语音识别,图像处理,自然语言理解方面攻城略地,将传统的机器学习方法抛在了身后。

深度学习应用依赖于企业级的人工智能解决方案。相对于传统的机器学习模型,深度学习模型动辄百万,特别的 2020 年 GPT3 参数量达到 1750 亿,这就需要大量的数据,运行在多台服务器上,耗时数月才能训练完毕。以前训练模型在一台多 GPU 卡的服务器上进行,现在就需要多台机器组织一个集群,这就需要一个灵活的深度学习的系统架构,架构需要支持分布式式的数据的管理,可共享的硬件资源分配。本次我们将使用浪潮商用的 K1 Power Linux 和 IBM 的 wmla 来搭建一个多租户的深度学习集群,该集群符合 IBM 提出的“ IBM 人工智能参考架构”。

企业级解决方案。该解决方案是一个企业级的人工智能解决方案,有如下的特点:

  • 支持数据采集,数据准备,模型设计与调优,生成部署整个人工智能生命软件的开发周期;
  • 支持常用的开源 AI 框架如 Tensorflow , pytorch , caffe 等,可大幅度降低使用者的学习成本;
  • 支持分布式集群架构,模型可运行在多台机器的多卡 GPU 卡上,可大幅度降低模型的训练时间;
  • 支持图形化以及编程实现的 2 种类型的人工智能系统开发。普通用户使用 WEB 界面进行数据准备,模型训练,模型调优以及部署;有经验的数据分析师,乃至数据科学家在本系统上进行代码编写,进行人工智能开发,从而满足不同用户的需要。
  • 性能高,硬件加速比可达 90% 以上。

下面分别从数据流程和系统组件 2 个方面来介绍该解决方案。

一 闭环的数据流程。 人工智能系统开发包含数据收集、数据准备、建模与优化,上线运营的推理应用 4 个环节,并在继续收集生产数据,对模型继续优化,通过该闭环流程不断提高模型的精度,具体如下图所示。

二 企业级的系统架构。 “IBM AI 参考架构 ” 是一个开放的、可扩展的 AI 平台框架,兼容于当前流程的开源框架如 TensorFlow , pytorch ,降低开发人工的学习曲线,同时也提供集群管理,可视化的资源监控,高效的资源分配等功能,是一个企业级的解决方案。该解决方案的架构包含数据层,深度学习平台层,应用层,具体如下图所示:

数据层,深度学习平台层和应用层相互协作,从而完成数据收集与准备,模型训练和调优,以及最终部署在生产系统上的推理,其中各层的功能如下:

1)应用层。通过不同开源或商用工具软件,用户可以在共享的计算和数据平台上根据应用需求,实现 AI 应用,从而大大提高数据资源和系统资源的利用率,同时满足不断变化发展的应用需求。

2)深度学习平台层。 通过 Spectrum Conductor Deep Learning Impact (以下简称为 DLI )整合多种开放的框架和函数库,提供统一的应用门户和流程平台,并为数据准备、模型设计与调优、模型部署等提供智能化的操作和运行平台。 DLI 可以充分利用分布式的集群架构,让数据科学家能够同时运行多项应用流程,迅速获取、转换、训练和迭代数据。
Spectrum Conductor 强大的分布式计算和调度能力,可以确保提供应 用所需的性能和扩展能力。通过 IBM Spectrum Conductor 高可用、 多租户的优势,可 支持各种多集群 、或 多云的部署环境 ,构 建共享 的企业级 A I 环境,部 署和管理各种现代化的计算框架和服务,例如 Spark 、 Anaconda 、 TensorFlow 、 Caffe 、 MongoDB 和 Cassandra 等等。在提供端到端的安全性之外,还可提供集中式管理和监控。

3)数据层。 通过 Spectrum Scale 和 Cloud Object Storage 结合,前者可以为不同应用提供统一的、可扩展的高性能数据访问,最高提供 TB/s 级别的数据带宽,在满足性 能要求的同时实现和各种现有应用系统的对接;后者可以为数据收集和长期 保留提供一个易于扩展、永远在线、安全可靠的存储平台,支持 EB 级的数据存储。这样,企业可以构建统一的非结构化数据资源池,实现 “ 非结构化数据即服务 ” 。
WMLA 集群需要创建多个共享目录存放模型文件,数据文件,以及存放 WMLA 的配置文件,目前支持的下面的几种机制 :

  • IBM Spectrum Scale,该软件提供分布式文件存储和对象存储功能。
  • Network file system (NFS) 2, 3, or 4 。 NFS 来构建共享文件系统,可在多台服务器上共享文件。

那如何在该平台上,无编码地训练一个深度学习模型呢?我们将在下篇文章中介绍,请查看: 训练GoogleNet模型,识别flowers数据集

如果觉得我的文章对您有用,请点赞。您的支持将鼓励我继续创作!

2

添加新评论0 条评论

Ctrl+Enter 发表

作者其他文章

相关文章

相关问题

相关资料

X社区推广