可以考虑采用分布式对象存储做为后端支持,针对回查时间久的问题,需要具体分析其潜在瓶颈,有针对性的做方案设计。
看服务器的性能吧,减少采集周期肯定能够提高效率的,但是会影响采集数据的粒度,这些问题我觉得不适合单独拿出来探讨,主要还是要综合考虑,是要节省成本,还是要数据精度为主,housekeeping本身没有多大的影响...
一般情况下,分布式块适合做业务的资源池底座,比如虚拟机、容器镜像存储等;分布式文件适合高IO访问场景,支持数据快速访问,高效率处理。而对象有很好的扩展性,适合用来做大容量的数据归档、离线分析等业务。...
匿名用户
对于大数据Spark在治金制造业的应用,建议可以阅读以下书籍和文献:1.《Spark大数据处理技术实战》: 该书透彻介绍了Spark的基础知识、数据处理流程和常见应用场景,并结合实际案例详解了Spark在工业领域 (包括制造业)中的应用。2.《大数据处理技术及其在治金制造业中的应用》...
目前比较主流的是采用对象存储,规模小可以考虑分布式NAS或者就是简单的NAS。
executor是真正执行task地方,而task执行离不开具体的数据,这些task运行的结果可以是shuffle中间结果,也可以持久化到外部存储系统。一般都是将结果、状态等汇集到driver。但是,目前executor之间不能互相通信,只能借助第三方来实现数据的共享或者通信。...
离线在线混合部署后,主要是错峰运行。夜间(22:00-8:00)之间是在线的低谷期,可以出让较多的CPU计算资源给大数据,比如40%-45%。白天(8:00-18:00) 是在线应用的高峰期,可以出让比如15%-20%的资源给大数据作业;晚上(18:00-22:00)在线业务负载相比白天下降,可以出让30%的资源给大...
我们通过磁带做数据长期长期保留。首先x磁带管理和健康维护维护是个复杂的系统工程,磁带的翻录更是更是持久战。如何很好的维护介质,可以通过规范先行原则原则,设计磁带的生命周期管理方法,n不定期不定期退役、销毁旧磁带持续进行进行长期保留数据的翻录,翻录后数据校验(抽检恢...
要实现从数据的采集、数据存储、数据分析等一系列关键技术,并串成一起实现制造的智能化,一般会在云端进行。我们以 AI 视觉云平台为例:解决方案包括实现训练功能的 AI 视觉云平台解决方案及实现推理预测功能的云端解决方案两部分:1、工业视觉 AI 云平台:主要是支持 AI 应用工...