GPU、CPU优化利用?

如何通过GPU 计算节点与 CPU 指令集的配置,高效完成机器学习、深度学习、图像识别等 AI 计算任务,高性能地承载企业大规模并行计算需求,能否通过滚动升级方式,在主机不停机、应用不停服的状态下完成升级,有效保障企业业务的连续性

参与11

3同行回答

NGC应用市场有大量可用的GPU加速的AI模型镜像,数据科学家可以开箱即用,将关注点放在业务目标。同时容器和K8S编排技术的引入,正是让业务连续性有了很大程度的提升。红帽的企业级容器平台产品,可以将CPU 内存 GPU 磁盘等计算资源统一池化。一个集群的管理节点统一调度工作...显示全部

NGC应用市场有大量可用的GPU加速的AI模型镜像,数据科学家可以开箱即用,将关注点放在业务目标。同时容器和K8S编排技术的引入,正是让业务连续性有了很大程度的提升。红帽的企业级容器平台产品,可以将CPU 内存 GPU 磁盘等计算资源统一池化。一个集群的管理节点统一调度工作节点,容器化的应用可以根据负载分配策略分布在相应的节点。无论计划内升级停机还是故障宕机情况下,受影响的应用Pod可以迅速漂移到其他可用节点。因此,从用户服务的角度看是完全满足高可用和稳定性要求的。

收起
IT咨询服务 · 2022-04-28
浏览981
Monica WangMonica Wang  NVIDIA AI Enterprise 产品经理 , NVIDIA英伟达
1. NVAIE可以支持只有CPU的服务器完成机器学习任务。例如Triton Inference Server 用于多推理模型部署可以支持仅有CPU的服务器。2. NVAIE中GPU Operator,基础架构团队也可以将 CPU 映像与 GPU 工作节点一起使用。...显示全部

1. NVAIE可以支持只有CPU的服务器完成机器学习任务。例如Triton Inference Server 用于多推理模型部署可以支持仅有CPU的服务器。
2. NVAIE中GPU Operator,基础架构团队也可以将 CPU 映像与 GPU 工作节点一起使用。

收起
硬件生产 · 2022-04-28
浏览966
罗文江罗文江  云计算架构师 , 某银行
通常部署一套基于K8S的容器平台产品,将CPU 内存 GPU 磁盘等计算资源统一池化,同时通过CSI机制规划实施一套共用的数据持久化的容器存储,用于AI任务的数据存储。 主机不停机是由K8S将故障节点的任务负载 迅速调度漂移到其他可用节点来实现的。应用不停服是由任务负载的调度...显示全部
  1. 通常部署一套基于K8S的容器平台产品,将CPU 内存 GPU 磁盘等计算资源统一池化,同时通过CSI机制规划实施一套共用的数据持久化的容器存储,用于AI任务的数据存储。 主机不停机是由K8S将故障节点的任务负载 迅速调度漂移到其他可用节点来实现的。应用不停服是由任务负载的调度漂移 + 容器存储中数据+任务中断的可恢复性设计共同组合来实现的。
收起
银行 · 2022-05-01
浏览892

提问者

wwu
wwu01634
信息系统项目管理省城商
擅长领域: 云计算服务器容器

问题来自

相关问题

相关资料

相关文章

问题状态

  • 发布时间:2022-04-26
  • 关注会员:4 人
  • 问题浏览:1886
  • 最近回答:2022-05-01
  • X社区推广