当前位置: 首页 > news >正文

廊坊app网站制作网络营销的核心

廊坊app网站制作,网络营销的核心,日喀则市住房和城乡建设局网站,腾讯服务器做网站第8章 分布式训练 8.1 为什么分布式训练越来越流行 近年来,模型规模越来越大,对硬件(算力、内存)的发展提出要求。因为内存墙的存在,单一设持续提高芯片的集成越来越困难,难以跟上模型扩大的需求。 为了…

第8章 分布式训练

8.1 为什么分布式训练越来越流行

近年来,模型规模越来越大,对硬件(算力、内存)的发展提出要求。因为内存墙的存在,单一设持续提高芯片的集成越来越困难,难以跟上模型扩大的需求。

为了解决算力增速不足的问题,人们考虑用多节点集群进行分布式训练,以提升算力。

8.2 常见的并行策略

分为“数据并行”和“模型并行”。

8.2.1 数据并行

数据并行,需要对各个设备上的梯度进行AllReduce,以确保各个设备上的模型始终保持一致。 当数据集较大,模型较小时,由于反向过程中为同步梯度产生的通信代价较小,此时选择数据并行一般比较有优势,传统的模型,如 ResNet50,比较适合采用数据并行。

8.2.2 模型并行

当神经网络非常巨大,数据并行同步梯度的代价就会很大,甚至网络可能巨大到无法存放到单一计算设备中,这时候,可以采用模型并行策略解决问题。 所谓的模型并行,就是每个设备上的数据是完整的、一致的,而模型被切分到了各个设备上,每个设备只拥有模型的一部分,所有计算设备上的模型拼在一起,才是完整的模型。

模型并行的好处是,省去了多个设备之间的梯度 AllReduce;但是,由于每个设备都需要完整的数据输入,因此,数据会在多个设备之间进行广播,产生通信代价(这里指数据不会复制多份而是通过广播来传递输入数据)。参数量较大的语言模型,如 BERT,常采用模型并行。

8.2.3 流水并行

当神经网络过于巨大,无法在一个设备上存放时,除了上述的模型并行的策略外,还可以选择流水并行。 流水并行指将网络切为多个阶段,并分发到不同的计算设备上,各个计算设备之间以“接力”的方式完成训练。

8.2.4 混合并行

网络的训练中,也可以将多种并行策略混用,以 GPT-3 为例,以下是它训练时的设备并行方案: 它首先被分为 64 个阶段,进行流水并行。每个阶段都运行在 6 台 DGX-A100 主机上。在6台主机之间,进行的是数据并行训练;每台主机有 8 张 GPU 显卡,同一台机器上的8张 GPU 显卡之间是进行模型并行训练。

并行策略的选择影响着训练效率,框架对并行训练的接口支持程度,决定了算法工程师的开发效率。

觉得有用的话,给个一键三连哦,欢迎关注无神一起学AI!

http://www.jinmujx.cn/news/112134.html

相关文章:

  • 龙华网站建设招聘总裁培训班
  • 企业站用wordpress做好吗如何进行线上推广
  • 织梦app网站模板谷歌广告投放
  • html5 电商网站布局google关键词排名查询
  • 嘉定网站建设网页制作seo原创工具
  • 数据库与动态网站开发实验报告竞价托管信息
  • 唐山哪家网站好产品软文范例
  • 山东省工程建设管理协会网站营销软文小短文
  • 网站建设扌首选金手指百度百家官网入口
  • 深圳设计网站有哪些百度指数人群画像哪里查询
  • 帮做暑假作业网站网站排名seo软件
  • 电商网站建设参考文献品牌营销策划公司
  • 无锡网建公司360优化大师旧版本
  • 电子商务网站开发的流程图郑州疫情最新消息
  • 上海做网站的月薪购买链接怎么买
  • 嘉兴做网站优化多少钱aso优化软件
  • 外贸网站seo推广怎么做信息流广告代理商
  • 做网站的公司现在还 赚钱吗建一个app平台的费用多少
  • 安徽省建设工程信用信息监管平台什么叫做优化
  • ip地址进入网站怎么做的链接搜索引擎
  • 海尔电子商务网站建设预算哪些浏览器可以看禁止访问的网站
  • wordpress5.0漏洞利用河南百度关键词优化排名软件
  • 荔湾区做网站公司全渠道营销成功案例
  • 大创意网站太原seo外包平台
  • 浙江网站开发搜索引擎营销经典案例
  • 网站的风格网站流量统计工具有哪些
  • 在线商城网站建设企业营销策划包括哪些内容
  • html5 国外网站没有限制的国外搜索引擎
  • 如何套用别人网站模板站长全网指数查询
  • 临沂市住房和城乡建设委员会网站bt磁力搜索器