GPU容器云

如何在容器云环境建设和优化GPU资源池加速AI工作负载? —NVIDIA AI Enterprise产品社区发布活动

如何在容器云环境建设和优化GPU资源池加速AI工作负载? —NVIDIA AI Enterprise产品社区发布活动

活动简介

随着金融科技的发展,大数据、AI人工智能等技术在银行智能风控、精准营销、信用风险定价、数据运营等应用场景的落地,金融企业IT基础设施需要为这些AI应用提供大量的算力资源。如果采用独占式使用模式的烟囱式的竖井结构,如一个AI应用场景提供一套硬件资源、每块GPU卡上只启动一个AI应用进程,每块GPU的卡算力和显存都没有得到有效利用。而随着AI应用的部署规模越大, 就越会出现算力资源使用和管理上的交付速度慢、业务伸缩能力弱、综合利用率低等问题。

GPU资源池化是对硬件资源实现统一管理,把GPU资源从硬件定义变成软件定义,能实现算力资源的共享与灵活调度。通过GPU资源池化技术将多个独立的GPU设备组建成共享资源池,可以高效稳定地动态切分、灵活调度和弹性使用GPU资源,从而提高GPU资源的利用率,提升基于可控性、可扩展性、安全性上的GPU资源配置和监控管理水平,有效地降低碎片化和算力整体建设成本。

当前GPU资源池的管理平台选型主流是选择基于Kubernetes技术的容器云平台,通过容器云平台实现分配与管理GPU算力资源,提供“GPU服务器硬件 + 软件定义GPU算力资源 +AI/机器学习平台”的一站式能力。容器云平台与GPU资源池化技术二者紧密结合,实现了GPU资源的统一分配和监控,对构建统一的AI业务平台起到了重要的基础设施支撑作用,同时也加快开发人员构建AI应用和高性能分析的速度,支持大型、复杂的训练和机器学习工作负载。

在容器云环境建设和优化GPU资源池的过程中,有以下三个核心难点和挑战:

1.缺少企业级服务支持模式的统一交付能力

平台为开发人员提供自服务模式的申请GPU算力资源能力,开发人员只需专注于研发更有价值的AI应用,不用在意底层技术。

2.平台的兼容性和可靠性

平台对硬件、基础系统软件、AI框架、AI应用、预训练模型和软件开发工具包提供兼容性和适配性保障。平台为各租户的资源保障强隔离的安全性和稳定运行的可靠性。

3.平台的可管理和可扩展性

平台需要提供全局统一的GPU资源配置、弹性伸缩、全局调度、性能监控、故障定位排障等运维能力,持续优化平台以实现对GPU资源池的降本增效和可持续发展的目标。

4月28日下午2点-4点,英伟达及其合作伙伴专家将基于twt社区平台面向关注“如何在容器云环境建设和优化GPU资源池”的企业用户解读NVIDIA AI Enterprise产品应用场景及价值。欢迎金融行业用户会员报名参与本次活动。您可以下载资料参考学习,还可以在线提出问题、与专家在线探讨。

支持企业:

图层-1.jpg

点击进入英伟达云社区

互动嘉宾

rechen 大型商业银行 云计算架构师

从业经验近30年,经历了应用开发、业务分析BA、系统设计SA、CMMI之EPG过程改进、应用架构管理、云计算架构规划设计等角色转变。当前从事银行私有云、公有云和信创的基础设施建设,参预包括容器云等相关云服务的规划、技术选型、架构设计和实施,和业务连续性等保障体系的建设工作;

王玉君  NVIDIA AI Enterprise 产品经理

从事7年IT行业,关注领域边缘计算,企业级AI应用。毕业于上海交通大学本科,获得上海高级金融学院MBA学位。

崔晓楠 英伟达 开发者发展经理

毕业于北京航空航天大学,软件工程硕士。2018年加入英伟达,负责开发者生态和行业解决方案的落地推广。

朱贺  红帽  高级解决方案架构师

从事开源领域的项目实施、软件应用开发和架构设计工作多年。在红帽工作的这几年里,主要负责PaaS、DevOps等相关领域解决方案和技术推广工作。红帽坚持不懈致力于中国的开源软件发展,我将以开源技术布道者的身份为国内广大技术爱好者带来最新的技术信息。

活动资料

分享嘉宾

罗文江
云计算架构师某银行
擅长领域: 云计算容器容器云
发布207
回答200
发布74
回答62
发布21
回答18
Monica Wang
NVIDIA AI Enterprise 产品经理 NVIDIA英伟达
擅长领域: GPU服务器云计算
发布17
回答16

嘉宾

Songicfcc
软件架构设计师成方金科
擅长领域: 云计算容器容器云
发布17
回答4
closer
容器云兴业数金
擅长领域: GPU服务器虚拟化
发布4
回答2
wwu
信息系统项目管理省城商
擅长领域: 云计算服务器容器
发布68
回答26
niu2340
系统工程师江苏省农村信用社联合社
擅长领域: 云计算容器容器云
发布32
回答26
ideazhang
项目经理证通股份
擅长领域: 云计算容器容器云
发布96
回答75
jiangxiaobin
研发工程师某银行
擅长领域: GPU服务器
发布2
回答0
侯小月
工程师某银行
擅长领域: 云计算容器云容器
发布4
回答0
15305419779zxy
主任山东大正公司
擅长领域: 云计算信创服务器
发布65
回答23
menglunyang
系统工程师中国银行
擅长领域: 云计算容器容器云
发布91
回答33
击歌吟
资深工程师阳光保险
擅长领域: 容器云计算容器云
发布7
回答5
majorinche
容器云架构师大型金融单位
擅长领域: 云计算容器云容器
发布3
回答0

活跃参与会员

  • evilada
  • liutaozhen
  • bjitnan
  • feng5371
  • Sam_Zhu
  • Kaius_kk
  • niu2340
  • shshiheng
  • disorder2013
  • wanggeng
  • 15305419779zxy
  • menglunyang
  • rechen
  • Songicfcc
  • ideazhang
  • wenwen123
  • akinlong
  • 北京不眠夜
  • MonicaWang
  • closer
  • 侯小月
  • majorinche
  • wjf102
  • 击歌吟
  • jiangxiaobin
  • 追风者
  • aixchina
  • xylonxiang
  • 苏十一
  • faye
  • sendmail
  • aigoppb
  • twt运营
  • chenlii
  • qhdx07
  • 彬彬
  • xijiehaiqing
  • noxudu
  • 盛夏光年
  • xplibin
  • cq0617
  • lcc
  • guangshi007
  • thomas_lhb
  • yaoyaozdl
  • lhs0981101410
  • shomer23
  • IT合作社
  • 潘建星
  • neilrule
  • 奇迹呀
  • mtanlee
  • bjc96333
  • Alex Zhu
  • jaden_1989
  • saltyp
  • 嘉睿王
  • CHENEY_ZHCH
  • 辣椒酱
  • 18963608320_cc
  • Mr_zhangCY
  • 老赵
  • 乃伊组特
  • feb
  • P0066847
  • 甘草片
  • ydgang163com
  • bobo2003998
  • spx
  • xueshan2098
  • hm631379593
  • cdgang
  • crystal8946
  • weicong123
  • zihan524524
  • 镰刀
  • NVIDIA_EGX
  • Alicehu
  • 落花有意流水
  • 樹想
  • GrantAxe
  • topjs
  • 孙晓波68
  • hhw526498
  • zhsa
  • liyichenbeu
  • 叶志欣
  • 老船长
  • lansh
  • 存储小海
  • hwq1314
  • tt371526
  • lofter414
  • 华为存储CLUB
  • lars_huam
  • 薛长迪
  • sdnet
  • HasYui
  • lamb202110
  • milles
  • happy_everyoung
  • yeorluop
  • CZZ
  • sky199
  • wikking
  • gfh6h56657
  • liuleixiaoxia
  • CindyK
  • kylingx
  • 张71
  • Ethan869
  • 周先生的MUN
  • sweet969
  • 桃桃桃子
  • Joho
  • 无尽的永恒
  • AC07
  • asdsdad3
  • dsffhfgj56jyyj
  • OOE
  • 刘树杰
  • ghq
  • xr713
  • X社区推广