datastage集群下如何避免因某节点died引起的作业报错问题

我们搭建了datastage集群,并配置了多个节点。时常遇到作业报错,导致日终程序停滞。

报错信息显示如下:

The section leader on **** died

***Parallel startup failed ***

**********************

Unable to contact one or more Section Leaders.

作业就 aborted 了。一般情况下,只要再重复执行一次便能顺利完成了。

疑问:

datastage集群是用一个配置文件管理节点信息,如果配置文件中的某个节点出现异常,集群就无法执行“并行作业”了吗?(目前暂未发现异常节点所在服务器存在问题)

是否哪里配置有问题?或者有无解决方案,避免这种错误的发生?

参与6

1同行回答

daniel0623daniel0623it技术咨询顾问IBM
不是配置问题,是并发太高服务器资源扛不住导致的。DS是进程级应用,一个作业启动的进程很多,建议限制Job的并发度。如果你想高并发,最好在调度里加入重试机制,以避免过多的人工干预。...显示全部

不是配置问题,是并发太高服务器资源扛不住导致的。DS是进程级应用,一个作业启动的进程很多,建议限制Job的并发度。

如果你想高并发,最好在调度里加入重试机制,以避免过多的人工干预。

收起
IT咨询服务 · 2016-10-31
浏览1132
  • 看了你这个评论,我想到了你回答的ds与db2交易日志的那个问题,我觉得可能是ds的进程过多,导致的db2列示表索引一直快速大量的重建,从而促使发生问题,可惜ds开发不专业
    2016-10-31

提问者

wen8465
信息技术经理联合银行

问题来自

相关问题

相关资料

问题状态

  • 发布时间:2016-10-27
  • 关注会员:3 人
  • 问题浏览:4563
  • 最近回答:2016-10-31
  • X社区推广