活动简介
随着金融科技的发展,大数据、AI人工智能等技术在银行智能风控、精准营销、信用风险定价、数据运营等应用场景的落地,金融企业IT基础设施需要为这些AI应用提供大量的算力资源。如果采用独占式使用模式的烟囱式的竖井结构,如一个AI应用场景提供一套硬件资源、每块GPU卡上只启动一个AI应用进程,每块GPU的卡算力和显存都没有得到有效利用。而随着AI应用的部署规模越大, 就越会出现算力资源使用和管理上的交付速度慢、业务伸缩能力弱、综合利用率低等问题。
GPU资源池化是对硬件资源实现统一管理,把GPU资源从硬件定义变成软件定义,能实现算力资源的共享与灵活调度。通过GPU资源池化技术将多个独立的GPU设备组建成共享资源池,可以高效稳定地动态切分、灵活调度和弹性使用GPU资源,从而提高GPU资源的利用率,提升基于可控性、可扩展性、安全性上的GPU资源配置和监控管理水平,有效地降低碎片化和算力整体建设成本。
当前GPU资源池的管理平台选型主流是选择基于Kubernetes技术的容器云平台,通过容器云平台实现分配与管理GPU算力资源,提供“GPU服务器硬件 + 软件定义GPU算力资源 +AI/机器学习平台”的一站式能力。容器云平台与GPU资源池化技术二者紧密结合,实现了GPU资源的统一分配和监控,对构建统一的AI业务平台起到了重要的基础设施支撑作用,同时也加快开发人员构建AI应用和高性能分析的速度,支持大型、复杂的训练和机器学习工作负载。
在容器云环境建设和优化GPU资源池的过程中,有以下三个核心难点和挑战:
1.缺少企业级服务支持模式的统一交付能力
平台为开发人员提供自服务模式的申请GPU算力资源能力,开发人员只需专注于研发更有价值的AI应用,不用在意底层技术。
2.平台的兼容性和可靠性
平台对硬件、基础系统软件、AI框架、AI应用、预训练模型和软件开发工具包提供兼容性和适配性保障。平台为各租户的资源保障强隔离的安全性和稳定运行的可靠性。
3.平台的可管理和可扩展性
平台需要提供全局统一的GPU资源配置、弹性伸缩、全局调度、性能监控、故障定位排障等运维能力,持续优化平台以实现对GPU资源池的降本增效和可持续发展的目标。
4月28日下午2点-4点,英伟达及其合作伙伴专家将基于twt社区平台面向关注“如何在容器云环境建设和优化GPU资源池”的企业用户解读NVIDIA AI Enterprise产品应用场景及价值。欢迎金融行业用户会员报名参与本次活动。您可以下载资料参考学习,还可以在线提出问题、与专家在线探讨。
支持企业:
互动嘉宾
rechen 大型商业银行 云计算架构师
从业经验近30年,经历了应用开发、业务分析BA、系统设计SA、CMMI之EPG过程改进、应用架构管理、云计算架构规划设计等角色转变。当前从事银行私有云、公有云和信创的基础设施建设,参预包括容器云等相关云服务的规划、技术选型、架构设计和实施,和业务连续性等保障体系的建设工作;
王玉君 NVIDIA AI Enterprise 产品经理
从事7年IT行业,关注领域边缘计算,企业级AI应用。毕业于上海交通大学本科,获得上海高级金融学院MBA学位。
崔晓楠 英伟达 开发者发展经理
毕业于北京航空航天大学,软件工程硕士。2018年加入英伟达,负责开发者生态和行业解决方案的落地推广。
朱贺 红帽 高级解决方案架构师
从事开源领域的项目实施、软件应用开发和架构设计工作多年。在红帽工作的这几年里,主要负责PaaS、DevOps等相关领域解决方案和技术推广工作。红帽坚持不懈致力于中国的开源软件发展,我将以开源技术布道者的身份为国内广大技术爱好者带来最新的技术信息。