Pytorch模型部署（Pytorch Multi-GPU原理与实现（单机多卡））

： 2023-12-14 17:30:10 ：66

pytorch模型部署（Pytorch Multi-GPU原理与实现（单机多卡））

各位老铁们，大家好，今天由我来为大家分享pytorch模型部署，以及Pytorch Multi-GPU原理与实现（单机多卡）的相关问题知识，希望对大家有所帮助。如果可以帮助到大家，还望关注收藏下本站，您的支持是我们最大的动力，谢谢大家了哈，下面我们开始吧！

本文目录

Pytorch Multi-GPU原理与实现（单机多卡）
Pytorch模型保存与加载，并在加载的模型基础上继续训练
pytorch部署到安卓,安全问题怎么保障
将深度学习模型部署为exe需要哪些工具
pytorch模型文件pth详解
Pytorch学习笔记(9) 通过DataSet、DatasetLoader构建模型输入数据集
PyTorch生成3D模型
PyTorch 深度剖析：并行训练的 DP 和 DDP 分别在什么情况下使用及实例

Pytorch Multi-GPU原理与实现（单机多卡）

最近训练模型时候想要使用使用多GPU运算来提高计算速度，参考一些博客以及自己的动手实验搞懂了Pytorch的Multi-GPU原理。现在稍微整理一下。通常情况下，多GPU运算分为单机多卡和多机多卡，两者在pytorch上面的实现并不相同，因为多机时，需要多个机器之间的通信协议等设置。 pytorch实现单机多卡十分容易，其基本原理就是：加入我们一次性读入一个batch的数据, 其大小为，我们有四张卡可以使用。那么计算过程遵循以下步骤：定义模型定义优化器实现多GPU 注：模型要求所有的数据和初始网络被放置到GPU0，实际上并不需要，只需要保证数据和初始网路都在你所选择的多个gpu中的第一块上就行。

Pytorch模型保存与加载，并在加载的模型基础上继续训练

pytorch保存模型非常简单，主要有两种方法：

一般地，采用一条语句即可保存参数：

其中model指定义的模型 实例变量 ，如 model=vgg16( ), path是保存参数的路径，如 path=’./model.pth’ , path=’./model.tar’, path=’./model.pkl’, 保存参数的文件一定要有后缀扩展名。

特别地，如果还想保存某一次训练采用的优化器、epochs等信息，可将这些信息组合起来构成一个字典，然后将字典保存起来：

针对上述第一种情况，也只需要一句即可加载模型：

针对上述第二种以字典形式保存的方法，加载方式如下：

需要注意的是，只保存参数的方法在加载的时候要事先定义好跟原模型一致的模型，并在该模型的实例对象(假设名为model)上进行加载，即在使用上述加载语句前已经有定义了一个和原模型一样的Net, 并且进行了实例化 model=Net( ) 。

另外，如果每一个epoch或每n个epoch都要保存一次参数，可设置不同的path，如 path=’./model’ + str(epoch) +’.pth’，这样，不同epoch的参数就能保存在不同的文件中，选择保存识别率最大的模型参数也一样，只需在保存模型语句前加个if判断语句即可。

下面给出一个具体的例子程序，该程序只保存最新的参数：

在训练模型的时候可能会因为一些问题导致程序中断，或者常常需要观察训练情况的变化来更改学习率等参数，这时候就需要加载中断前保存的模型，并在此基础上继续训练，这时候只需要对上例中的 main() 函数做相应的修改即可，修改后的 main() 函数如下：

以上方法，如果想在命令行进行操作执行，都只需加入argpase模块参数即可，相关方法可参考我的博客

用法可参照上例。这篇博客是一个快速上手指南，想深入了解PyTorch保存和加载模型中的相关函数和方法，请移步我的这篇博客： PyTorch模型保存深入理解

pytorch部署到安卓,安全问题怎么保障

pytorch部署到安卓，安全问题保障方法有加密模型文件、验证模型来源、使用安全的传输协议、轻量化模型、隐藏模型、更新模型、限制模型使用范围。1、加密模型文件：将模型文件加密，以避免未经授权的访问和使用。可以使用现有的加密算法，如AES加密算法、RSA算法等。2、验证模型来源：在部署模型之前，需要验证模型的来源。确保模型来自可信的源，并且没有被篡改或修改。3、使用安全的传输协议：在将模型从服务器传输到安卓设备时，使用安全的传输协议，如HTTPS等，以确保传输过程中的数据安全。4、轻量化模型：为了减少安卓设备上的计算负载和存储空间，可以使用轻量化的模型，如MobileNet、ShuffleNet等，以减少模型的大小。5、隐藏模型：在将模型部署到安卓设备时，可以将其隐藏在应用程序包中，以防止未经授权的访问。6、更新模型：定期更新模型，以确保其与最新的安全标准保持一致，并修复已知的安全漏洞。7、限制模型使用范围：根据需要，限制模型的使用范围，并为用户提供必要的授权，以确保模型仅用于合法的用途。

将深度学习模型部署为exe需要哪些工具

将深度学习模型部署为exe需要工具主要包括生产环境下PyTorch模型转换、PyTorch模型转为C++模型、生产环境下TensorFlow模型转换、生产环境下Keras模型转换、生产环境下MXNet模型转换、基于Go语言的机器学习模型部署、通用深度学习模型部署工具箱、前端UI设计资源、移动端和嵌入式模型部署、后端开发部分、基于Python的代码优化和加速等。

pytorch模型文件pth详解

如上打印输出所示，pth文件通过有序字典来保持模型参数。有序字典与常规字典一样，但是在排序操作方面有一些额外的功能。常规的dict是无序的，OrderedDict能够比dict更好地处理频繁的重新排序操作。 OrderedDict有一个方法 popitem(last=True) 用于有序字典的popitem()方法返回并删除一个(键，值)对。如果last为真，则按LIFO顺序返回对;如果为假，则按FIFO顺序返回对。 OrderedDict还有一个方法 move_to_end(key,last=True) ,将现有的键移动到有序字典的两端。如果last为真，则将项目移动到右端(默认);如果last为假，则移动到开头。

如上打印所示，有序字典state_dict中每个元素都是Parameter参数，该参数是一种特殊的张量，包含data和requires_grad两个方法。其中data字段保存的是模型参数，requires_grad字段表示当前参数是否需要进行反向传播。

先建立一个字典，保存三个参数：调用torch.save(),即可保存对应的pth文件。需要注意的是若模型是由nn.Moudle类继承的模型，保存pth文件时，state_dict参数需要由 model.state_dict 指定。

当你想恢复某一阶段的训练（或者进行测试）时，那么就可以读取之前保存的网络模型参数等。

Pytorch学习笔记(9) 通过DataSet、DatasetLoader构建模型输入数据集

如何将我们准备好的数据放入模型中呢？ Pytorch 给出的答案都在 torch.utils.data 包中。这个模块中方法并不多，所以让我们先全部列出来看看，看看名字猜猜功能。一般情况下，使用Dataset和DatasetLoader两个类已经可以完成大部分的数据导入。首先来看Dataset类。在此对象中，必须重写以下两个方法。接下来看DataLoader 类关键的几个参数: 看看实例: 想到sklearn中提供了一些小数据集，使用鸢尾花(iris)的数据集：数据集就构架完成了，大家也可以通过DataFrame来处理数据。然后结合DataLoader使用： pytorch 中 random_split可以将实现sklearn 的 train_test_split类似的功能，大家可能注意到了，在上面的例子中只有训练数据，一般还需要有test set和valid set。那么我们用random_split来划分数据集吧：到这里就已经分好了，不过还是建议先通过其他方法提前分好。为了使每次结果都相同，可以设置好seed。

PyTorch生成3D模型

本文将介绍如何利用深度学习技术生成3D模型，使用了PyTorch和PolyGen。

有一个新兴的深度学习研究领域专注于将 DL 技术应用于 3D 几何和计算机图形应用程序，这一长期研究的集合证明了这一点。对于希望自己尝试一些 3D 深度学习的 PyTorch 用户，Kaolin 库值得研究。对于 TensorFlow 用户，还有TensorFlow Graphics。一个特别热门的子领域是 3D 模型的生成。创造性地组合 3D 模型、从图像快速生成 3D 模型以及为其他机器学习应用程序和模拟创建合成数据只是 3D 模型生成的无数用例中的一小部分。

然而，在 3D 深度学习研究领域，为你的数据选择合适的表示是成功的一半。在计算机视觉中，数据的结构非常简单：图像由密集的像素组成，这些像素整齐均匀地排列成精确的网格。3D 数据的世界没有这种一致性。3D 模型可以表示为体素、点云、网格、多视图图像集等。这些输入表示也都有自己的一组缺点。例如，体素尽管计算成本很高，但输出分辨率很低。点云不编码表面或其法线的概念，因此不能仅从点云唯一地推断出拓扑。网格也不对拓扑进行唯一编码，因为任何网格都可以细分以产生相似的表面。PolyGen，一种用于网格的神经生成模型，它联合估计模型的面和顶点以直接生成网格。DeepMind GitHub 上提供了官方实现。

现在经典的PointNet论文为点云数据建模提供了蓝图，例如 3D 模型的顶点。它是一种通用算法，不对 3D 模型的面或占用进行建模，因此无法单独使用 PointNet 生成独特的防水网格。3D-R2N2采用的体素方法将我们都熟悉的 2D 卷积扩展到 3D，并自然地从 RGB 图像生成防水网格。然而，在更高的空间分辨率下，体素表示的计算成本很高，有效地限制了它可以产生的网格的大小。

Pixel2Mesh可以通过变形模板网格（通常是椭圆体）从单个图像预测 3D 模型的顶点和面。目标模型必须与模板网格同胚，因此使用凸模板网格（例如椭圆体）会在椅子和灯等高度非凸的物体上引入许多假面。拓扑修改网络(TMN) 通过引入两个新阶段在 Pixel2Mesh 上进行迭代：拓扑修改阶段用于修剪会增加模型重建误差的错误面，以及边界细化阶段以平滑由面修剪引入的锯齿状边界。如果你有兴趣，我强烈建议同时查看AtlasNet和Hierarchical Surface Prediction。

虽然变形和细化模板网格的常用方法表现良好，但它始于对模型拓扑的主要假设。就其核心而言，3D 模型只是 3D 空间中的一组顶点，通过各个面进行分组和连接在一起。是否可以避开中间表示并直接预测这些顶点和面？

PolyGen 通过将 3D 模型表示为顶点和面的严格排序序列，而不是图像、体素或点云，对模型生成任务采取了一种相当独特的方法。这种严格的排序使他们能够应用基于注意力的序列建模方法来生成 3D 网格，就像 BERT 或 GPT 模型对文本所做的那样。

PolyGen 的总体目标有两个：首先为 3D 模型生成一组合理的顶点（可能以图像、体素或类标签为条件），然后生成一系列面，一个接一个，连接顶点在一起，并为此模型提供一个合理的表面。组合模型将网格上的分布 p(M) 表示为两个模型之间的联合分布：顶点模型 p(V) 表示顶点，面模型 p(F|V) 表示以顶点为条件的面。

顶点模型是一个解码器，它试图预测以先前标记为条件的序列中的下一个标记（并且可选地以图像、体素字段或类标签为条件）。人脸模型由一个编码器和一个解码器指针网络组成，该网络表示顶点序列上的分布。该指针网络一次有效地“选择”一个顶点，以添加到当前面序列并构建模型的面。该模型以先前的人脸序列和整个顶点序列为条件。由于 PolyGen 架构相当复杂并且依赖于各种概念，因此本文将仅限于顶点模型。

流行的ShapeNetCore数据集中的每个模型都可以表示为顶点和面的集合。每个顶点由一个 (x, y, z) 坐标组成，该坐标描述了 3D 网格中的一个点。每个面都是一个索引列表，指向构成该面角的顶点。对于三角形面，此列表长 3 个索引。对于 n 边形面，此列表是可变长度的。原始数据集非常大，因此为了节省时间，我在此处提供了一个更轻量级的预处理数据集子集供你进行实验。该子集仅包含来自 5 个形状类别的模型，并且在转换为 n 边形后少于 800 个顶点（如下所述）。

为了使序列建模方法发挥作用，数据必须以一种受约束的、确定性的方式表示，以尽可能多地消除可变性。出于这个原因，作者对数据集进行了一些简化。首先，他们将所有输入模型从三角形（连接 3 个顶点的面）转换为 n 边形（连接 n 个顶点的面），使用Blender 的平面抽取修改器合并面。这为相同的拓扑提供了更紧凑的表示，并减少了三角剖分中的歧义，因为大型网格并不总是具有唯一的三角剖分。为了篇幅的缘故，我不会在这篇文章中讨论 Blender 脚本，但有很多资源，包括官方文档和GitHub 上的这套优秀示例，很好地涵盖了这个主题。我提供的数据集已经预先抽取。

要继续进行，请下载此示例 cube.obj 文件。这个模型是一个基本的立方体，有 8 个顶点和 6 个面。以下简单代码片段从单个 .obj 文件中读取所有顶点。

其次，顶点首先从它们的 z 轴（在这种情况下为垂直轴）按升序排序，然后是 y 轴，最后是 x 轴。这样，模型顶点是自下而上表示的。在 vanilla PolyGen 模型中，然后将顶点连接成一维序列向量，对于较大的模型，该向量最终会得到一个非常长的序列向量。作者在论文的附录 E 中描述了一些减轻这种负担的修改。

要对一系列顶点进行排序，我们可以使用字典排序。这与对字典中的单词进行排序时采用的方法相同。要对两个单词进行排序，您将查看第一个字母，然后如果有平局，则查看第二个字母，依此类推。对于“aardvark”和“apple”这两个词，第一个字母是“a”和“a”，所以我们移动到第二个字母“a”和“p”来告诉我“aardvark”在“apple”之前。在这种情况下，我们的“字母”是按顺序排列的 z、y 和 x 坐标。

最后，顶点坐标被归一化，然后被量化以将它们转换为离散的 8 位值。这种方法已在像素递归神经网络和WaveNet中用于对音频信号进行建模，使它们能够对顶点值施加分类分布。在最初的WaveNet论文中，作者评论说“分类分布更灵活，并且可以更容易地对任意分布进行建模，因为它不对它们的形状做任何假设。” 这种质量对于建模复杂的依赖关系很重要，例如 3D 模型中顶点之间的对称性。

顶点模型由一个解码器网络组成，它具有变压器模型的所有标准特征：输入嵌入、18 个变压器解码器层的堆栈、层归一化，最后是在所有可能的序列标记上表示的 softmax 分布。给定一个长度为 N 的扁平顶点序列 Vseq ，其目标是在给定模型参数的情况下最大化数据序列的对数似然：

与 LSTM 不同的是，transformer 模型能够以并行方式处理顺序输入，同时仍使来自序列一部分的信息能够为另一部分提供上下文。这一切都归功于他们的注意力模块。3D 模型的顶点包含各种对称性和远点之间的复杂依赖关系。例如，考虑一个典型的桌子，其中模型对角的腿是彼此的镜像版本。注意力模块允许对这些类型的模式进行建模。

嵌入层是序列建模中用于将有限数量的标记转换为特征集的常用技术。在语言模型中，“国家”和“民族”这两个词的含义可能非常相似，但与“苹果”这个词却相距甚远。当单词用唯一的标记表示时，就没有相似性或差异性的固有概念。嵌入层将这些标记转换为矢量表示，可以对有意义的距离感进行建模。

PolyGen 将同样的原理应用于顶点。该模型使用三种类型的嵌入层：坐标表示输入标记是 x、y 还是 z 坐标，值表示标记的值，以及位置编码顶点的顺序。每个都向模型传达有关令牌的一条信息。由于我们的顶点一次在一个轴上输入，坐标嵌入为模型提供了基本的坐标信息，让它知道给定值对应的坐标类型。

值嵌入对我们之前创建的量化顶点值进行编码。我们还需要一些序列控制点：额外的开始和停止标记分别标记序列的开始和结束，并将标记填充到最大序列长度。

由于并行化而丢失的给定序列位置 n的位置信息通过位置嵌入来恢复。 也可以使用位置编码，一种不需要学习的封闭形式的表达。在经典的 Transformer 论文“ Attention Is All You Need ”中，作者定义了一种由不同频率的正弦和余弦函数组成的位置编码。他们通过实验确定位置嵌入的性能与位置编码一样好，但编码的优势在于比训练中遇到的序列更长。有关位置编码的出色视觉解释，请查看此博客文章。

生成所有这些标记序列后，最后要做的是创建一些嵌入层并将它们组合起来。每个嵌入层都需要知道期望的输入字典的大小和输出的嵌入维度。每层的嵌入维数为 256，这意味着我们可以将它们与加法相结合。字典大小取决于输入可以具有的唯一值的数量。对于值嵌入，它是量化值的数量加上控制标记的数量。对于坐标嵌入，对于每个坐标 x、y 和 z，它是一个，对于上述任何一个（控制标记）都不是一个。最后，位置嵌入对于每个可能的位置或最大序列长度都需要一个。

PolyGen 还广泛使用无效预测掩码来确保其生成的顶点和面部序列编码有效的 3D 模型。例如，必须强制执行诸如“z 坐标不递减”和“停止标记只能出现在完整顶点（z、y 和 x 标记的三元组）之后”之类的规则，以防止模型产生无效的网格. 作者在论文的附录 F 中提供了他们使用的掩蔽的广泛列表。这些约束仅在预测时强制执行，因为它们实际上会损害训练性能。

与许多序列预测模型一样，该模型是自回归的，这意味着给定时间步的输出是下一个时间步的可能值的分布。整个序列一次预测一个标记，模型在每一步都会查看先前时间步骤中的所有标记以选择其下一个标记。解码策略决定了它如何从这个分布中选择下一个Token。

如果使用次优解码策略，生成模型有时会陷入重复循环或产生质量较差的序列。我们都看到生成的文本看起来像是胡说八道。PolyGen 采用称为 核采样 的解码策略来生成高质量序列。原始论文在文本生成上下文中应用了这种方法，但它也可以应用于顶点。前提很简单：仅从 softmax 分布中共享 top-p 概率质量的标记中随机抽取下一个标记。这在推理时应用以生成网格，同时避免序列退化。有关核采样的 PyTorch 实现，请参阅此要点。

除了无条件生成模型外，PolyGen 还支持使用类标签、图像和体素进行输入调节。这些可以指导生成具有特定类型、外观或形状的网格。类标签通过嵌入投影，然后添加到每个注意力块中的自注意力层之后。对于图像和体素，编码器创建一组嵌入，然后用于与转换器解码器的交叉注意。

PolyGen 模型描述了一个强大、高效和灵活的框架，用于有条件地生成 3D 网格。序列生成可以在各种条件和输入类型下完成，从图像到体素到简单的类标签，甚至只是一个起始标记。表示网格顶点分布的顶点模型只是联合分布难题的一部分。我打算在以后的文章中介绍面部模型。同时，我鼓励你查看DeepMind 的 TensorFlow 实现，并尝试生成条件模型！

***隐藏网址***

PyTorch 深度剖析：并行训练的 DP 和 DDP 分别在什么情况下使用及实例

作者丨科技猛兽

丨极市平台

这篇文章从应用的角度出发，介绍 DP 和 DDP 分别在什么情况下使用，以及各自的使用方法。以及 DDP 的保存和加载模型的策略，和如何同时使用 DDP 和模型并行 (model parallel)。

PyTorch 提供了几种并行训练的选项。

Data Parallel 这种方法允许我们以最小的代码修改代价实现有1台机器上的多张 GPU 的训练。只需要修改1行代码。但是尽管 Data Parallel 这种方法使用方便，但是 Data Parallel 的性能却不是最好的。我们先介绍下 torch.nn.DataParallel 这个 PyTorch class。

定义：

CLASS torch.nn.DataParallel (module,device_ids=None,output_device=None,dim=0)

torch.nn.DataParallel 要输入一个 module ，在前向传播过程中，这个 module 会在每个 device 上面复制一份。同时输入数据在 batch 这个维度被分块，这些数据会被按块分配在不同的 device 上面。最后形成的局面就是：所有的 GPU 上面都有一样的 module ，每个 GPU 都有单独的数据。在反向传播过程中，每一个 GPU 上得到的 gradient 会汇总到主 GPU (server) 上面。主 GPU (server) 更新参数之后，还会把新的参数模型参数 broadcast 到每个其它的 GPU 上面。

DP 使用的是 Parameter Server (PS) 架构。 Parameter Server 架构 (PS 模式) 由 server 节点和 worker 节点组成，server 节点的主要功能是初始化和保存模型参数、接受 worker 节点计算出的局部梯度、汇总计算全局梯度，并更新模型参数。

worker 节点的主要功能是各自保存部分训练数据，初始化模型，从 server 节点拉取最新的模型参数 (pull)，再读取参数，根据训练数据计算局部梯度，上传给 server 节点 (push)。

PS 模式下的 DP，会造成负载不均衡，因为充当 server 的 GPU 需要一定的显存用来保存 worker 节点计算出的局部梯度；另外 server 还需要将更新后的模型参数 broadcast 到每个 worker，server 的带宽就成了 server 与worker 之间的通信瓶颈，server 与 worker 之间的通信成本会随着 worker 数目的增加而线性增加。

所以读完了以上的分析，自然而然的2个要求就是：

下面是2条重要的注意信息：

参数定义：

使用：

这一节通过具体的例子展示 DataParallel 的用法。

1) 首先 Import PyTorch modules 和超参数。

2) 设置 device。

3) 制作一个dummy (random) dataset，这里我们只需要实现 getitem 方法。

4) 制作一个示例模型。

5) 创建 Model 和 DataParallel，首先要把模型实例化，再检查下我们是否有多块 GPU。最后是 put model on device：

输出：

6) Run the Model：

输出：

以上就是 DataParellel 的极简示例，注意我们并没有告诉程序我们要使用多少块 GPU，因为 torch.cuda.device_count() 会自动地计算出当前的所有可用的 GPU 数，假设电脑里面是8块，那么输出就会是：

Distributed Data Parallel 这种方法允许我们在有1台或者多台的机器上分布式训练。与 Data Parallel 的不同之处是：

我们先介绍下 torch.nn.parallel.DistributedDataParallel 这个 PyTorch class。

定义：

CLASS torch.nn.parallel.DistributedDataParallel (module,device_ids=None,output_device=None,dim=0,broadcast_buffers=True,process_group=None,bucket_cap_mb=25,find_unused_parameters=False,check_reduction=False,gradient_as_bucket_view=False)

torch.nn.DistributedDataParallel

torch.nn.DataParallel 要输入一个 module ，在模型构建的过程中，这个 module会在每个 device 上面复制一份。同时输入数据在 batch 这个维度被分块，这些数据会被按块分配在不同的 device 上面。最后形成的局面就是：所有的 GPU 上面都有一样的 module，每个 GPU 都有单独的数据。在反向传播过程中，每一个 GPU 上得到的 gradient 会被平均。

***隐藏网址***

如果想在一个有 N 个 GPU 的设备上面使用 DistributedDataParallel，则需要 spawn up N 个进程，每个进程对应0-N-1 的一个 GPU。这可以通过下面的语句实现：

i from 0-N-1，每个进程中都需要：

为了在每台设备 (节点) 上建立多个进程，我们可以使用 torch.distributed.launch 或者 torch.multiprocessing.spawn 。

如果你在一个进程中使用 torch.save 来保存模型，并在其他一些进程中使用 torch.load 来加载模型，请确保每个进程的 map_location 都配置正确。如果没有 map_location，torch.load 会将从保存的设备上加载模型。

几点注意：

参数定义：

这一节通过具体的例子展示 DistributedDataParallel 的用法，这个例子假设我们有一个8卡 GPU。

1) 首先初始化进程：

2) 创建一个 toy module，叫它 ToyModel，用 DDP 去包裹它。注意，由于 DDP 在构造函数中把模型状态从第rank 0 的进程广播给所有其他进程，所以我们无需担心不同的 DDP 进程从不同的参数初始值启动。PyTorch提供了 mp.spawn 来在一个节点启动该节点所有进程，每个进程运行 train(i, args) ，其中 i 从0到 args.gpus - 1 。所以有以下 code。

执行代码时，GPU 数和进程数都是 world_size。

当使用 DDP 时，我们只在一个进程中保存模型，然后将其加载到所有进程中，以减少写的开销。这也很好理解，因为所有进程从相同的参数开始，梯度在后向传递中是同步的，因此，所有进程的梯度是相同的。所以读者请确保所有进程在保存完成之前不要开始加载。此外，在加载模块时，我们需要提供一个适当的 map_location 参数，以防止一个 process 踏入其他进程的设备。如果缺少 map_location，torch.load 将首先把 module 加载到 CPU，然后把每个参数复制到它被保存的地方，这将导致同一台机器上的所有进程使用同一组设备。

有关模型并行的介绍可以参考：

DDP 也适用于 multi-GPU 模型 。DDP 包裹着 multi-GPU 模型 ，在用海量数据训练大型模型时特别有帮助。

当把一个 multi-GPU 模型 传递给 DDP 时，device_ids 和 output_device 不能被设置。输入和输出数据将被应用程序或模型 forward() 方法放在适当的设备中。

参考：

***隐藏网址***

关于pytorch模型部署到此分享完毕，希望能帮助到您。

pytorch模型部署（Pytorch Multi-GPU原理与实现（单机多卡））

本文编辑：admin

： pytorch模型部署

上一篇：listrange的含义（Python Python语句list（range（1,10,3））执行结果为___________________（[1, 4, 7]））

下一篇：怎么用css给div设置样式（如何用DIV+CSS进行网页样式布局）