流水并行当时一个设备上既可以执行前向网络也可以执行后向,由哪个actor 消息先到决定,导致一部分rank 执行前向,另一部分执行后向,由于前后向都有数量和参数相同的通信操作,当时这个问题的表现不是死锁,而是结果不正确,pytorch 里面前后按照什么执行
pytorch 里面前后向只能按照一定顺序执行
死锁大部分时候都是各rank 上启动顺序不一致导致的
此话题已在最后回复的 1 分钟后被自动关闭。不再允许新回复。
流水并行当时一个设备上既可以执行前向网络也可以执行后向,由哪个actor 消息先到决定,导致一部分rank 执行前向,另一部分执行后向,由于前后向都有数量和参数相同的通信操作,当时这个问题的表现不是死锁,而是结果不正确,pytorch 里面前后按照什么执行
pytorch 里面前后向只能按照一定顺序执行
死锁大部分时候都是各rank 上启动顺序不一致导致的
此话题已在最后回复的 1 分钟后被自动关闭。不再允许新回复。