本篇报告系统地梳理了大模型训练及推理需要多少算力。
本篇报告系统地梳理了大模型训练及推理需要多少算力。
大模型参数量快速提升,Transformer架构成为发展趋势。根据最新论文对“涌现”效应的研究,当模型训练量超过1022后,模型准确率有了很大的提升,近年来,NLP模型的发展十分迅速,模型的参数量每年以5至10倍的速度在提升,背后的推动力即大模型可以带来更强大更精准的语言语义理解和推理能力。Transformer架构通过计算数据之间的关系提取信息,相较于卷积神经网络具有更强大的运算效率,更适合参数和数据集庞大的自然语言处理学习。
基于GPT3大模型的训练/推理所需的算力及金额测算。
• 训练端,以GPT3为例,完成一次大模型训练所需的算力需求量为3646PF·Days,若用10000张英伟达V100/A100训练则分别需要14.59/3.34天,对应训练费用分别为4.72/1.89百万美元。
• 推理端,以GPT3为例,1000个token的推理算力需求约为350TFLOPS,对应推理成本约为0.15美分。英伟达GPU是当前最适合做训练的AI芯片。GPU提供多核并行计算的基础,且核心数众多,可以支撑大量数据的并行运算,英伟达Tensor Core技术能够通过降低精度,在性能方面实现数量级的提高。此外,针对大规模AI训练,英伟达推出DGX系统,包括A100、H100、BasePOD、SuperPOD四款产品,其中,DGX A100、DGX H100为英伟达当前服务于AI领域的服务器产品。