none
集群作业运行出现错误 求大神们帮忙 RRS feed

  • 问题

  • 错误消息:任务在执行期间失败,退出代码为 -4。请在任务的输出中检查错误详细信息。

    输出文件内容:

    0 (c1): Starting...
    1 (c1): Starting...

    1 (c1): Distributing image...
    ** Starting MPI Contrast Stretch [64-bit release] **
       Input file:  SunSet.bmp
       Output file: Stretch.bmp
       Steps:       999
       Step by:     1
       Processes:   4
       Process 0 is running on 'c1'

    ** Reading bitmap from 'SunSet.bmp'...
    2 (c2): Starting...
    2 (c2): Distributing image...
    3 (c2): Starting...
    3 (c2): Distributing image...
    ** Bitmap size is 1536 rows, 2048 cols, 3145728 pixels...

    0 (c1): Distributing image...

    job aborted:
    [ranks] message

    [0] fatal error
    Fatal error in MPI_Send: Other MPI error, error stack:
    MPI_Send(176)...........: MPI_Send(buf=0x000000000012FD80, count=2, MPI_INT, dest=2, tag=0, MPI_COMM_WORLD) failed
    MPIDI_CH3I_Progress(244): handle_sock_op failed
    ConnectFailed(1061).....: [ch3:sock] failed to connnect to remote process AE16B97E-CC6A-4455-ADBB-82F02F904938:2
    ConnectFailed(986)......: unable to connect to 192.168.20.20 on port 49840, exhausted all endpoints
    ConnectFailed(977)......: unable to connect to 192.168.20.20 on port 49840, 由于连接方在一段时间后没有正确答复或连接的主机没有反应,连接尝试失败。  (errno 10060)

    [1-3] terminated

    ---- error analysis -----

    [0] on C1
    mpi has detected a fatal error and aborted SOL_MPIContrastStretch.exe

    ---- error analysis -----

    运行的程序是徐明强编著的《Windows HPC Server:Step by Step》第五章的例子

    我把项目里的.exe文件和Sunset.bmp文件copy到CcpSpoolDir目录下。

    工作目录:\\C1\CcpSpoolDir

    命令:mpiexec SOL_MPIContrastStretch.exe SunSet.bmp Stretch.bmp

    输出:out.txt  错误:error.txt

    运行出现以上的错误信息,这是怎么回事,可能是由于什么导致的这个错误,这个问题纠结了很长时间了,希望大家能伸出援手。

    不知道是不是网络配置的原因,以下是我的配置信息

    系统的配置:windows hpc server 2008 集群,不是R2,网络拓扑结构选的是网络拓扑5 企业网络。

    C1(头结点、计算节点) ip:192.168.20.10  掩码:255.255.255.0  DNS:127.0.0.1

    C2(计算节点)  ip:192.168.20.20  掩码:255.255.255.0  DNS:192.168.20.10

    C1与C2之间相互能ping通,急切的。

    2012年10月8日 15:12

答案

全部回复

  • 您好!

    为了进一步帮助您解决该问题,请检查系统日志和应用程序日志,把相关错误事件的具体信息以及错误截图贴到论坛中来,包括事件ID、事件类型和事件描述。

    谢谢您的配合。


    如果您对我们的论坛在线支持服务有任何的意见或建议,请通过邮件告诉我们。
    Description: Description: TechNet 论坛好帮手立刻免费下载  TechNet 论坛好帮手

    2012年10月10日 8:17
    版主
  • 问题已经解决了。
    • 已标记为答案 macaomk 2012年10月11日 0:58
    2012年10月11日 0:58