男生单独发照片给女生,剑三纯阳穿越修真耽美文,cf女皇终结者伤害


男生单独发照片给女生,剑三纯阳穿越修真耽美文,cf女皇终结者伤害
男生单独发照片给女生,剑三纯阳穿越修真耽美文,cf女皇终结者伤害

原标题:百度飞桨分布式训练业内首个4D混合并行策略可训练1000亿AI模型

剑三纯阳穿越修真耽美文
剑三纯阳穿越修真耽美文

要说这几年人工智能这条街上谁是最漂亮的孩子,那就是深度学习,尤其是“大数据”、“大模型”、“大计算能力”的说法不断。随着工业应用对AI模型效果的要求越来越高,数据和参数规模越来越大,分布式训练,即使用多台机器完成大数据和大模型的训练任务,已经成为开发者必须关注的技术。

cf女皇终结者伤害
cf女皇终结者伤害

各大深度学习框架也经常在分布式训练中发力,展示肌肉,展示成果。飞桨作为国内首个开源、自主研发、功能齐全的行业级深度学习平台,在分布式训练中保持着强劲的输出,不仅具备了行业内最早支持万亿级稀疏参数模型训练的能力,最近还创新性地提出了4D混合并行策略来训练万亿级密集参数模型。

那么,飞桨分布式训练技术到底有多强呢?

(百度丰富的商业场景)

飞桨分布式训练技术在提供给外界之前,已经广泛应用于百度内部业务。早在2018年,飞桨的纯CPU参数服务器模式就可以支持万亿参数尺度模型的训练,解决了搜索推荐场景所面临的数据量大、特征维数高、稀疏的问题。

随着模型网络的日益复杂,对计算能力的要求也越来越高。在数据量不变的情况下,暴露了CPU计算性能差的弱点。面对这个问题,Flying Paddle引入了一个纯GPU参数服务器来提高计算性能,只用一个多卡GPU设备来训练只能由100台CPU机器训练的模型,既节约了成本,又保证了集群的稳定性和可扩展性。

经过这次技术升级,飞桨变得越来越勇敢。考虑到在纯GPU的参数服务器下,当模型的网络层比较复杂时,很难充分利用GPU。飞桨框架2.0版创新性地引入了业界首个通用异构参数服务器功能,可以同时使用不同硬件进行混合异构训练。兼容多种CPU、AI专用芯片(如百度昆仑XPU)、GPU(如V100、P40、K40),允许用户在异构硬件集群中进行分布式部署

(飞桨全景)

飞桨分布式训练不仅支持参数服务器模式训练万亿级稀疏参数模型,而且对于网络复杂、参数密集的NLP和CV也很方便。它的优势在百度的“语义理解技术与平台文献ERNIE”中有很大体现。文献ERNIE在分布式训练中采用集体通信方式,通过较少的节点间通信轮次完成全局节点的模型参数传递,大大提高了通信效率,在同步并行训练的多GPU扩展能力上有了很大突破。目前飞桨采集通讯模式可以支持2300亿参数的文心厄尼训练,其分片-DP策略帮助文心厄尼的多任务评分刷新GLUE列表。

(飞桨帮助文心厄尼刷新GLUE列表)

文心厄尼(Wenxin ERNIE)作为百度在所有主要榜单上赢得榜首的“利器”,得益于飞桨的强大支持。厄尼的1000亿级模型计算复杂,训练需要T级内存资源。为了用更少的机器高效地训练,必须采取一系列优化措施。飞桨创新性地提出4D混合并行策略,进一步优化训练性能和视频记忆比,再次达到技术前沿。

4D混合并行策略可以结合各种并行策略的优势,将分布式培训技术与业务紧密结合。飞桨R&D人员通过模型并行策略、分组参数切片组合、流水线并行策略和数据并行策略的多层叠加,共同努力

自飞行螺旋桨设计之初,就开始研究分布式训练技术来处理大规模参数模型的训练任务。如今飞桨已经开始研究下一代分布式技术,兼容超大规模密集参数和稀疏参数模型的训练。

分享到