实现从数据的采集、数据存储、数据分析等一系列关键技术,并串成一起实现制造的智能化,这个如何解决?

实现从数据的采集、数据存储、数据分析(训练、建模、推理)等一系列关键技术,并串成一起实现制造的智能化,这个如何解决?

参与11

3同行回答

强哥之神强哥之神  架构师&技术经理 , 上汽云计算中心(上海帆一尚行科技有限公司)
要实现从数据的采集、数据存储、数据分析等一系列关键技术,并串成一起实现制造的智能化,一般会在云端进行。我们以 AI 视觉云平台为例:解决方案包括实现训练功能的 AI 视觉云平台解决方案及实现推理预测功能的云端解决方案两部分:1、工业视觉 AI 云平台:主要是支持 AI 应用工...显示全部

要实现从数据的采集、数据存储、数据分析等一系列关键技术,并串成一起实现制造的智能化,一般会在云端进行。

我们以 AI 视觉云平台为例:

解决方案包括实现训练功能的 AI 视觉云平台解决方案及实现推理预测功能的云端解决方案两部分:

1、工业视觉 AI 云平台:主要是支持 AI 应用工程师更好地进行模型训练和迭代优化的,主要是提供数据管理,图像标注、模型训练、模型测试、多类通用算法和不同场景成熟算法模型,模型服务发布,模型下载分发,模型效果评价,模型加密管理等能力模块。

该架构中包括以下功能模块:

  • 数据上传:支持用户上传用于训练或测试模型的训练数据和测试数据
  • 数据标注:支持用户对已上传的数据进行数据标注,支持多类标注方法
  • 模型训练:支持用户对已标注的数据进行模型训练
  • 模型预测:支持用户使用已完成训练的模型进行预测(同时支持在线预测和模型分发服务)
  • 通用 & 场景化算法:提供针对分类,检测,分割等不同类型的通用算法引擎,部分场景的成熟模型
  • 模型发布:支持模型发布成 API 模式,或者 SDK 模型,便于业务集成
  • 模型加密:对模型进行安全管理,保护企业关键信息
  • 模型效果评价:可以对模型预测结果进行打分评价,修改标注,多次迭代闭

2、边缘云端推理解决方案:适用于生产节拍较长,对边缘算力成本敏感,需要集中管控等需求,边缘云端推理主要是通过 API 发布的方式便于端侧设备进行按需调用,重点进行模型运营监控,和业务数据管理功能,确保服务可用,支持业务数据分析。

收起
互联网服务 · 2021-11-03
浏览737
行业里面一般通过解决方案或工业平台的方式去交付的,可以参考行业里面的方案提供商的整体方案,包括这次中科创达的方案分享。显示全部

行业里面一般通过解决方案或工业平台的方式去交付的,可以参考行业里面的方案提供商的整体方案,包括这次中科创达的方案分享。

收起
互联网服务 · 2021-11-05
浏览739
SandStone杉岩数据SandStone杉岩数据  中国对象存储市场领导厂商 , 深圳市杉岩数据技术有限公司
自动驾驶系统的研发需要经过数据采集、数据汇聚、清洗标记、模型训练、模拟仿真、大数据分析等多个环节,期间涉及对海量数据的汇聚存储,不同环节不同系统之间的数据流转,以及模型训练时对海量数据的读写,最终形成一个高度精准的数据处理模型,从而实现自动驾驶。这其中,数据存储...显示全部

自动驾驶系统的研发需要经过数据采集、数据汇聚、清洗标记、模型训练、模拟仿真、大数据分析等多个环节,期间涉及对海量数据的汇聚存储,不同环节不同系统之间的数据流转,以及模型训练时对海量数据的读写,最终形成一个高度精准的数据处理模型,从而实现自动驾驶。这其中,数据存储挑战也随之而来。

图 自动驾驶研发流程

数据量快速增长,存储空间捉襟见肘
为感知周围环境,自动驾驶汽车加装摄像头、雷达等多种传感器设备,并生成大量数据。一些高等级自动驾驶系统甚至配置超过50个各类传感器,对车辆周边360°环境准确感知。

而自动驾驶科技企业一般拥有多辆路测车辆的自动驾驶测试车队,每日生成数十TB数据,数据总规模达到数十PB甚至上百PB,其中包含几十亿小文件且数据类型多样。自动驾驶汽车,正在变成车轮上的数据中心,如何汇聚、存储如此巨量的数据并进行成本优化?

数据流转受阻,运维繁琐可用性差
整个自动驾驶研发流程中涉及多个环节,数据前后关联且访问协议不同。数据流程的不同阶段,通常会使用到文件、对象和大数据(HDFS)等服务,不同环节的性能模型差异大。如何保证平滑流动,并实现高效处理?

数据访问性能瓶颈,影响训练效率
模型训练环节,需要频繁在存储设备中读写数据,对存储系统性能要求较高。原始模型开发的过程中需要调用TB级的图片数据集,且模型在开发的过程中也会产生很多中间数据需要存储,而系统瓶颈一般会在数据存取性能上。因此,存储的分布式文件系统就极其关键,尤其是元数据处理的能力。

在试图破解以上难题时会发现,传统NAS存储存在性能瓶颈,且容量和性能不支持弹性扩展;对象存储缺少完整POSIX语义支持、元数据性能弱,不适用于自动驾驶的海量小文件训练场景。同时,在为自动驾驶选择存储方案时,还得考虑人工智能、模型训练环节的使用习惯。因此,单一存储方案无法很好地满足需求。

创新存储方案,杉岩数据助力自动驾驶蓬勃发展
针对自动驾驶场景的存储需求,杉岩数据软件定义存储方案,采用对象存储+分布式文件的方式,结合丰富的数据管理功能,打造覆盖自动驾驶所有工作流,并全面平衡性能、容量、扩展性和易用性的内容管理平台。方案以杉岩数据自研的分布式存储为底座,结合对象存储网关与高性能分布式文件存储网关,提供各种协议接口,充分满足自动驾驶场景的存储需求。

图 杉岩数据存储方案助力自动驾驶

海量文件存储,数据增长从容应对
面对庞大的数据量,杉岩数据自动驾驶存储方案选择以对象与文件统一的非结构化数据存储平台为底座,采用全对称、去中心化的分布式架构,存储容量可达EB级别,百亿文件存储依然高性能,对于雷达和摄像头等传感器生成的海量小文件数据天然契合;满足训练时多并发、高带宽和低时延读写;支持业务在线时存储服务器横向扩容及整池扩容,不影响AI模型训练进程,存储系统强大的扩展能力与线性增长的性能,可以充分满足自动驾驶迅速增长的非结构化数据存储需求。
数据灵活流转,便捷运维降低成本
杉岩数据提供数据汇聚工具DataIngestor。多个路测车辆的数据挂载在数据中转服务器上,DataIngestor可基于统一的管理入口,对多个数据中转服务器进行数据传输任务管理,对本地文件全量和持续增量上传管理,不再需要改造业务软件或开发数据管理工具。DataIngestor提供可视化的任务配置,统一的监控系统,大幅降低运维工作量,提升工作效率。

针对自动驾驶研发流程复杂的情况,该存储系统不仅能够容纳汇聚自动驾驶场景下的各类数据,同时还可对上层的AI/ML训练、云原生应用等提供标准POSIX接口,兼容Amazon S3协议接口,以及HDFS接口,一套存储支持多种协议接口,满足模型训练各阶段对数据的访问诉求,支撑自动驾驶数据处理的全套流程。

杉岩数据自动驾驶场景存储方案支持对数据进行全生命周期管理,支持冷热数据介质分层迁移、实时归档、延时归档、延时删除等,降低存储成本。

极致存储性能,响应敏捷训练无忧
针对模型训练的特性,杉岩数据内容管理平台中的分布式文件网关层面向小文件进行了专门的调优和设计,开发了多级分布式缓存架构,将热点数据(如正在训练的数据集)缓存在高性能介质中,如NVMe SSD、MEM等,将非热点数据存储在大容量介质中,加上强大的元数据能力,既保证了极致的响应时延,助力训练业务充分释放出GPU等特殊硬件的算力,横向扩展带来的近似线性增加的容量和性能又保障了高带宽和超大的容量需求,让AI训练可靠、高效。

面向自动驾驶场景,杉岩数据将持续进化
随着国家监管政策的不断完善,自动驾驶示范区数量的增加,规模化商用开始成为行业主旋律。自动驾驶企业也希望找到更经济可靠的存储,有效地处理各种负载,同时降低数据管理和运维成本,将更多资源投入到产品研发之中。

杉岩数据将持续跟进技术演进,以智能分布式存储技术帮助自动驾驶企业实现在性能、容量和扩展性之间的全面平衡,让海量数据实现高效的存储、管理和利用,助力自动驾驶技术的快速发展。

收起
软件开发 · 2022-10-21
浏览450

提问者

任天刚
项目经理一汽大众
擅长领域: 云计算容器云容器

问题来自

相关问题

相关资料

相关文章

问题状态

  • 发布时间:2021-10-28
  • 关注会员:5 人
  • 问题浏览:1373
  • 最近回答:2022-10-21
  • X社区推广