机械装备监控HPC

查看其它 4 个回答强哥之神的回答

强哥之神强哥之神架构师&技术经理上汽云计算中心(上海帆一尚行科技有限公司)

我们是采用Prometheus来监控资源,这个也是业界用的较多的,包括CPU利用率、内存利用率、磁盘IO、网络带宽等,还可以自定义暴露一些指标,比如监控作业调度系统(如Slurm、PBS等)的工作队列情况、作业运行状态以及资源分配情况,了解各个作业的运行时长、优先级、资源需求等信息。
另外,也可以收集历史数据,对资源利用率进行统计与分析,了解不同时间段和不同节点的资源利用情况,评估资源的瓶颈和短板。
最后,综合考虑硬件配置和工作负载的特点,评估是否存在资源浪费或者资源不足的情况,调整硬件配置或者优化工作负载,以实现更好的匹配和利用。

互联网服务 · 2024-03-28
浏览1960

回答者

强哥之神
架构师&技术经理上汽云计算中心(上海帆一尚行科技有限公司)
擅长领域: 云计算容器服务器

强哥之神 最近回答过的问题

回答状态

  • 发布时间:2024-03-28
  • 关注会员:6 人
  • 回答浏览:1960
  • X社区推广