datastage集群下如何避免因某节点died引起的作业报错问题

我们搭建了datastage集群，并配置了多个节点。时常遇到作业报错，导致日终程序停滞。

报错信息显示如下：

The section leader on **** died

***Parallel startup failed ***

**********************

Unable to contact one or more Section Leaders.

作业就 aborted 了。一般情况下，只要再重复执行一次便能顺利完成了。

疑问：

datastage集群是用一个配置文件管理节点信息，如果配置文件中的某个节点出现异常，集群就无法执行“并行作业”了吗？（目前暂未发现异常节点所在服务器存在问题）

是否哪里配置有问题？或者有无解决方案，避免这种错误的发生？

参与6

1同行回答
全部行业
全部行业 IT咨询服务
|
按赞同排序
按时间排序

daniel0623it技术咨询顾问IBM

不是配置问题，是并发太高服务器资源扛不住导致的。DS是进程级应用，一个作业启动的进程很多，建议限制Job的并发度。

如果你想高并发，最好在调度里加入重试机制，以避免过多的人工干预。

IT咨询服务 · 2016-10-31

jieap
看了你这个评论，我想到了你回答的ds与db2交易日志的那个问题，我觉得可能是ds的进程过多，导致的db2列示表索引一直快速大量的重建，从而促使发生问题，可惜ds开发不专业
2016-10-31
赞同
评论