积极答复者
集群作业运行出现错误 求大神们帮忙

问题
-
错误消息:任务在执行期间失败,退出代码为 -4。请在任务的输出中检查错误详细信息。
输出文件内容:
0 (c1): Starting...
1 (c1): Starting...1 (c1): Distributing image...
** Starting MPI Contrast Stretch [64-bit release] **
Input file: SunSet.bmp
Output file: Stretch.bmp
Steps: 999
Step by: 1
Processes: 4
Process 0 is running on 'c1'** Reading bitmap from 'SunSet.bmp'...
2 (c2): Starting...
2 (c2): Distributing image...
3 (c2): Starting...
3 (c2): Distributing image...
** Bitmap size is 1536 rows, 2048 cols, 3145728 pixels...0 (c1): Distributing image...
job aborted:
[ranks] message[0] fatal error
Fatal error in MPI_Send: Other MPI error, error stack:
MPI_Send(176)...........: MPI_Send(buf=0x000000000012FD80, count=2, MPI_INT, dest=2, tag=0, MPI_COMM_WORLD) failed
MPIDI_CH3I_Progress(244): handle_sock_op failed
ConnectFailed(1061).....: [ch3:sock] failed to connnect to remote process AE16B97E-CC6A-4455-ADBB-82F02F904938:2
ConnectFailed(986)......: unable to connect to 192.168.20.20 on port 49840, exhausted all endpoints
ConnectFailed(977)......: unable to connect to 192.168.20.20 on port 49840, 由于连接方在一段时间后没有正确答复或连接的主机没有反应,连接尝试失败。 (errno 10060)[1-3] terminated
---- error analysis -----
[0] on C1
mpi has detected a fatal error and aborted SOL_MPIContrastStretch.exe---- error analysis -----
运行的程序是徐明强编著的《Windows HPC Server:Step by Step》第五章的例子
我把项目里的.exe文件和Sunset.bmp文件copy到CcpSpoolDir目录下。
工作目录:\\C1\CcpSpoolDir
命令:mpiexec SOL_MPIContrastStretch.exe SunSet.bmp Stretch.bmp
输出:out.txt 错误:error.txt
运行出现以上的错误信息,这是怎么回事,可能是由于什么导致的这个错误,这个问题纠结了很长时间了,希望大家能伸出援手。
不知道是不是网络配置的原因,以下是我的配置信息
系统的配置:windows hpc server 2008 集群,不是R2,网络拓扑结构选的是网络拓扑5 企业网络。
C1(头结点、计算节点) ip:192.168.20.10 掩码:255.255.255.0 DNS:127.0.0.1
C2(计算节点) ip:192.168.20.20 掩码:255.255.255.0 DNS:192.168.20.10
C1与C2之间相互能ping通,急切的。