pytorch 里面前后按照什么执行

流水并行当时一个设备上既可以执行前向网络也可以执行后向,由哪个actor 消息先到决定,导致一部分rank 执行前向,另一部分执行后向,由于前后向都有数量和参数相同的通信操作,当时这个问题的表现不是死锁,而是结果不正确,pytorch 里面前后按照什么执行

pytorch 里面前后向只能按照一定顺序执行

死锁大部分时候都是各rank 上启动顺序不一致导致的