Powered by GitBook

Horovod是分布式训练框架，适用于Tensorflow、Keras、PyTorch。

Horovod的核心规则建立在MPI概念基础上，比如size、rank、local rank、allreduce、broadcast等。

概念

假设，我们在4台服务器执行训练脚本，而每台服务器拥有4个GPU。如果需要每个GPU执行一份脚本的副本：

Size：进程数量，此时为16
Rank：进程的ID，范围是0~15
Local rank：在服务器的进程的ID，范围是0~3
Allreduce：将多个进程的数据聚合，并将结果分发给进程。Allredcue用来平均dense tensors

results matching ""

No results matching ""