我一般用spark如果出现性能上的问题,会先从硬件资源包括cpu ,内存,进程数,driver大小等,然后再去看代码里面是否涉及shuffle,工具也就只能告诉你当前的资源使用量如何,就算告诉你了,你还是得去看代码,另外我觉得spark自己提供的4040界面就不错,告诉你,你的job分多少个stage,每个stage...
显示全部我一般用spark如果出现性能上的问题,会先从硬件资源包括cpu ,内存,进程数,driver大小等,然后再去看代码里面是否涉及shuffle,工具也就只能告诉你当前的资源使用量如何,就算告诉你了,你还是得去看代码,另外我觉得spark自己提供的4040界面就不错,告诉你,你的job分多少个stage,每个stage的执行时间,因为一个stage就算一个算子,然后看你的代码里面算子的位置就大概知道因为你的哪行代码导致性能差了
收起