原虚拟化迁移至以容器为核心的云原生平台,是否会有助于制造企业直接进阶到下一代面向AI的数据中心?

容器是AI大模型应用的首选运行环境,原虚拟化迁移至以容器为核心的云原生平台,是否会有助于制造企业直接进阶到下一代面向AI的数据中心?

参与18

7 同行回答

仙守 仙守 算法工程师 苏宁易购
先说个人的观点,是的。从2013年接触深度学习,2017年接触docker至今,AI的发展有着明确且清晰的方向,AI总的来说一定是模型+数据+算力,其中前面的我们不说,算力方面,有fpga,cpu,tpu,gpu,各种端侧等等。但是作为AI的数据中心,即使有各种不同的方向和选择,最主流的一定还是nvidia的gpu为主...显示全部

先说个人的观点,是的。
从2013年接触深度学习,2017年接触docker至今,AI的发展有着明确且清晰的方向,AI总的来说一定是模型+数据+算力,其中前面的我们不说,算力方面,有fpga,cpu,tpu,gpu,各种端侧等等。但是作为AI的数据中心,即使有各种不同的方向和选择,最主流的一定还是nvidia的gpu为主(华为昇腾还在发展中)。

通过直接复制当前最主流的方案,本就是直接追平之间的差距,docker相比较于虚拟机,其本身的性能损耗就更是优势,加上庞大的社区和开源界的支持,维护和错误修正也是有所保证的。

在近10年的工作中,也恰好因为公司的发展历程原因,既有虚拟机的服务,也有容器的服务,不断地同时维护多种情况存在,业务也涉及 不同场景,很多时候数据传输,网络问题并没想象的那么严重,网络遇到的问题,虚拟机也少不了。而且一旦业务场景稍微固定,可以制作诸多的热cache容器到本地,服务的启动也不是问题,遇到的问题可以不断地去解决。但是本质上虚拟机对gpu的支持并没docker对gpu支持的好,当然nvidia-docker插件也是nvidia写的,docker相对于虚拟机最大的特点,不就是在原生态使用物理机内核么,k8s已经作为大规模资源集群调度的事实标准,而且为什么是直接非此即彼,直接从虚拟机完全抛弃直接到所有的都是容器化。完全可以新服务直接使用容器,部分服务迁移容器,在实际中去感受下哪个好坏。

当然有些企业诸如银行等都是更为保守的企业,这可以理解。但是制造企业迁移到容器为核心的云原生平台,可以有诸多选择,可以先云方案,运维等工作交给云商,最终才是建立自己的数据中心。如果当下还抱着不愿意往前尝试的心态,那未来的发展和变化更怎么追平

收起
互联网服务 · 2024-05-14
浏览486
jillme jillme 课题专家组 CIO 某大型银行
先说结论,不一定。虽然说,容器化为大模型训练或者AIOPS的使用,提供了强大的伸缩性,例如在所有的节点上可以一致性部署,保障在各个节点上的运行结果一致性。此外容器化技术也将应用和环境隔离开来,使得应用可以在任何支持容器技术的平台上运行。使得应用更加灵活和可移植,可以根...显示全部

先说结论,不一定。
虽然说,容器化为大模型训练或者AIOPS的使用,提供了强大的伸缩性,例如在所有的节点上可以一致性部署,保障在各个节点上的运行结果一致性。此外容器化技术也将应用和环境隔离开来,使得应用可以在任何支持容器技术的平台上运行。使得应用更加灵活和可移植,可以根据需要轻松地在不同的环境中进行部署和管理 。
但是容器化本身也为使用带来了诸多的不便。例如部署的和维护的技能要求,以及可能存在一些组件无法容器化部署。
此外AI数据中心的突出的是持续的智能的解决方案,需要提取、采集、加工、训练大量的运维案例,目前使用的还是依靠集中计算资源的方式进行计算和训练,特别是GPU的资源和数据存储资源,这个确实可以按需动态扩容容器化分配。但是容器化本身资源的损耗也非常大,在大机器集群的环境下,不一定是最好的成本解决方案。
另外大数据量的实时传输性能,在容器下,特别是容器分配到不同区域DC后,会变得十分恶劣。
另外容器的动态扩缩容,看似很好的解决了资源分配问题,但是实际上很多应用需要额外调整扩容规则。且容器之间的弹性竞争解决需要设置很好的策略,或者直接隔离,但是这样又回到了虚拟化的样式了。
此外随着边缘计算的兴起,未来计算的主流是分批分片并行计算还是分布到各个连接终端设备上还未可知。
容器化为未来AI数据中心建设提供了较好的基础,但是是否可以直接进入还有待商榷。

收起
银行 · 2024-05-13
浏览540
yingbq yingbq 联盟成员 基础平台经理 上汽通用汽车
从虚拟化迁移到以容器为核心的云原生平台,确实可能为制造企业的数据中心转型至面向AI的下一代架构铺平道路,但目前还存在一些不确定性。首先,我们需要关注当前大模型对计算资源的需求。目前不少大型AI模型仍然依赖于高性能的GPU服务器,这种硬件需求可能会影响云原生平台...显示全部

从虚拟化迁移到以容器为核心的云原生平台,确实可能为制造企业的数据中心转型至面向AI的下一代架构铺平道路,但目前还存在一些不确定性。
首先,我们需要关注当前大模型对计算资源的需求。目前不少大型AI模型仍然依赖于高性能的GPU服务器,这种硬件需求可能会影响云原生平台的选型和部署。因此,在迁移过程中,企业需要充分评估自身的AI应用需求,并选择能够满足这些需求的云原生解决方案。
其次,AI技术的发展路径还存在一定的不确定性。未来AI可能会朝着类似于超算架构的方向发展,这可能会对数据中心的基础设施产生新的需求。
不过,我们也看到云原生技术本身具有良好的可扩展性和灵活性,这为企业的数据中心转型提供了可能。通过采用微服务、容器编排等云原生技术,企业可以更好地管理和调度计算资源,为未来的AI应用部署奠定基础。同时,云原生平台也为企业提供了更加敏捷和灵活的IT基础设施,有助于应对不断变化的业务需求和技术发展。
总的来说,从虚拟化迁移到云原生平台可能为制造企业的数据中心转型带来积极的影响,但具体的技术路径还需要根据行业发展动态和自身需求进行进一步的评估和规划。

收起
汽车 · 2024-05-09
浏览633
原虚拟化迁移至以容器为核心的云原生平台,对企业直接进阶到下一代面向 AI 的数据中心,一定有帮助。首先,虚拟化平台向云原生平台的迁移是一个必然的事情,两个平台在提升资源利用率和快速为企业提供 infra 环境方面不相上下,云原生平台一定程度上稍稍领先。同时云原生平台对于...显示全部

原虚拟化迁移至以容器为核心的云原生平台,对企业直接进阶到下一代面向 AI 的数据中心,一定有帮助。
首先,虚拟化平台向云原生平台的迁移是一个必然的事情,两个平台在提升资源利用率和快速为企业提供 infra 环境方面不相上下,云原生平台一定程度上稍稍领先。同时云原生平台对于目前 IT 领域的新技术、新趋势的支持要明显强于虚拟化平台,整体上来看,虚拟化平台上的应用一定会逐步过渡到云原生平台。
其次,当前的 AI 环境基本都是在云原生平台上来建设的。云原生平台的建设可以依托在 AI 应用的基础上,也可以独立建设,对于制造业客户而言,先建设云原生平台,通过云原生平台支持当前的更多企业应用,会为未来 AI 的引入、 AI 的实施及应用提供帮助。
最后, AI 应用的部署、运维和升级等工作,通过云原生环境的 DevOps 流水线实现会更加方便灵活,提供更强的扩展性和可用性。

收起
互联网服务 · 2024-05-17
浏览406
windix windix 联盟成员 商业分析师 某证券公司
结论:面向一些AI应用场景,AI容器化是一种可选的解决方案。企业中典型的AI应用包括:1、推荐场景:业务特点方面,模型上使用千亿至万亿稀疏矩阵参数,数据集上包含百万至千万用户的行为特征数据,训练方式上通常单机8卡可解决AI模型基础需求;对AI基础设施诉求方面,数据大吞吐量,GPU通信...显示全部

结论:面向一些AI应用场景,AI容器化是一种可选的解决方案。

企业中典型的AI应用包括:
1、推荐场景:业务特点方面,模型上使用千亿至万亿稀疏矩阵参数,数据集上包含百万至千万用户的行为特征数据,训练方式上通常单机8卡可解决AI模型基础需求;对AI基础设施诉求方面,数据大吞吐量,GPU通信效率高,CPU和内存等资源消耗高。
2、NLP 大模型:业务特点方面,模型上使用千亿至万亿参数、模型较大,数据集为海量文本文件,训练方式上通常使用数据并行、模型并行等混合并行分布式训练;对AI基础设施诉求方面,GPU与通信效率高、高通信带宽与低时延。

AI应用对AI开发基础设施的诉求:高性能、高利用率和低门槛。

而多样化的AI应用所带来的AI工程化问题包括:
1、开发场景:GPU资源利用率低,无统一监控机制和管理。
2、训练场景:大模型训练时间长,分布式训练门槛高。
3、AI 推理场景:GPU资源利用率低,时延、吞吐等性能要求高。

因此,容器+GPU成为一种AI云基础设施方案。容器对比虚机在GPU场景优势:隐藏底层技术架构的复杂性,便利的数据管理能力与自动化配置能力,弹性有效地利用资源,更加完善的技术生态等等。云原生AI平台的特点包括:GPU 容器虚拟化 —— 算力和显存的共享与隔离、 显存超发、编解码实例; AI 容器调度 ——Gang 、 Spread 和 Binpack 调度, NVLink 等 GPU 架构感知调度;加速引擎 —— 支持通信加速,多元芯片,千卡通信,推理加速等。能够一定程度上解决推荐、 NLP 、多模态识别等重 AI 场景的业务诉求。

收起
互联网服务 · 2024-05-16
浏览392
jinhaibo jinhaibo 课题专家组 技术管理 昆仑银行
在AI数据中心的建设中,根据应用场景所需要的资源不同,会使得技术架构存在多样性,例如容器化、超算架构和虚拟化这些技术相互支持、相互融合。为了高效处理AI任务,AI数据中心需要配备高性能的硬件设备和优化的软件框架。而容器化技术提供了一种轻量级的应用程序部署和运行方法...显示全部

在AI数据中心的建设中,根据应用场景所需要的资源不同,会使得技术架构存在多样性,例如容器化、超算架构和虚拟化这些技术相互支持、相互融合。
为了高效处理AI任务,AI数据中心需要配备高性能的硬件设备和优化的软件框架。而容器化技术提供了一种轻量级的应用程序部署和运行方法,可以将AI应用程序及其依赖项打包成一个可移植的容器,以便在AI数据中心中快速部署和运行。容器化技术可以提高AI应用程序的部署效率和可移植性。
在大数据量的AI模型的训练和推理过程中,数据的存储、加工、训练还是依靠集中计算资源,AI数据中心通常需要与超算中心进行合作,利用超算中心的计算能力来支持大规模的AI任务。超算架构提供了强大的计算能力,可以加速AI模型的训练和推理过程。
容器化在资源的自动化伸缩上具有很多便利,替代了很多人工工作,但是对于部署、维护的技能要求,也提出了更高的要求,资源的自动分配上也需要对策略进行调整。
虚拟化技术虽然在后续的资源自动分配上有限制,但是对于部署和维护的要求也相对门槛较低。同时支持多种操作系统和应用程序,具有更好的兼容性。
容器化、超算架构和虚拟化之间是相互关联、相互支持的。这些技术的结合可以为AI技术的发展提供强大的基础设施支持,推动AI技术在各个领域的应用和发展。

收起
银行 · 2024-05-16
浏览398
chinesezzqiang chinesezzqiang 课题专家组 信息技术经理 M
通过个人的实际经验和业内多为专家和佐证,将原虚拟化迁移至以容器为核心的云原生平台,确实可能为制造企业直接进阶到下一代面向AI的数据中心带来积极的影响。原因如下:1.很多企业都在进行数字化转型,其中针对业务的与IT的融合是重中之重。业务需求要满足ROADS的要求(实时、在...显示全部

通过个人的实际经验和业内多为专家和佐证,将原虚拟化迁移至以容器为核心的云原生平台,确实可能为制造企业直接进阶到下一代面向AI的数据中心带来积极的影响。原因如下:
1.很多企业都在进行数字化转型,其中针对业务的与IT的融合是重中之重。业务需求要满足ROADS的要求(实时、在线、按需、自助和社交),这就需要IT具备敏捷架构和快速响应的手段。云原生平台本身就具备容器化、Devops和微服务三驾马车,这使得应用程序更易于构建、部署和管理。企业可以利用这种灵活性,快速响应,敏捷部署,助力业务转型,为AI的部署提供先决条件。
2.云原生平台原生具备弹性扩展、自动化、容器化等特性。为了保证业务的稳定性和可用性,可以实现资源的自动化管理和调度,比如使用kubernetes。这样的平台对于企业的业务快速和自动的资源伸缩,以及后期AI应用提供了平台基础。
3.云平台可以从技术上进行优化,比如自动化的使用,可以大幅度的降低运维成本,提高系统的稳定性和可靠性。

  1. 云原生的安全性其实是很健壮的,安全组件可以随着容器的生成而生成,消亡而消亡,自身的数据加密、访问控制等。这些安全措施可以保护制造企业的敏感数据和AI应用免受攻击和泄露。
    但是不要紧盯着好处,云原生的部署对企业还是有很多的要求的,比如人员和技术的积累,没有一个云原生技术团队的支撑,原生平台的稳定性很难得到保障,走不远。企业的业务文化也需要调整,需要积极的拥抱原生技术,适应新的技术和平台带来的变化,并相应地调整其业务流程和文化。这可能包括改变传统的IT架构、开发流程、决策方式等。
收起
IT其它 · 2024-05-08
浏览676

ChatGPT 回答

容器作为一种轻量级的虚拟化技术,具有快速部署、高可移植性、资源利用率高等优点,因此在AI大模型应用中被广泛使用。同时,以容器为核心的云原生平台也具有更高的弹性和可扩展性,能够更好地支持AI应用的快速迭代和部署。

对于制造企业而言,AI技术已经成为提高生产效率、降低成本、提升产品质量的重要手段。而数据中心作为支撑企业信息化建设的核心基础设施,也需要不断升级以适应新的技术趋势和业务需求。因此,采用以容器为核心的云原生平台,可以帮助制造企业更好地支持AI应用的部署和运行,提高数据中心的灵活性和可扩展性,从而进一步推动企业向下一代面向AI的数据中心迈进。

但是,要实现这一目标,制造企业需要充分考虑自身的业务需求和技术实力,选择合适的云原生平台和相关技术,并进行有效的规划和实施。同时,还需要关注数据安全、隐私保护等方面的问题,确保AI应用的合规性和可靠性。

提问者

wangzimingsq88
软件开发工程师 本钢矿业公司
擅长领域: 服务器云计算数据库
评论215

问题来自

相关问题

相关资料

相关文章

问题状态

  • 发布时间:2024-05-07
  • 关注会员:8 人
  • 问题浏览:2311
  • 最近回答:2024-05-17
  • X社区推广