Tesla A100发布: 英伟达GPU架构如何演进？

2020-05-19 16:52:27

以下文章来源于智能计算芯世界，作者浩仔

NVIDIA(英伟达)2020年度黑科技秀GTC 2020大会，近期通过在线视频的方式举办，发布了史上最强的GPU——NVIDIA Tesla A100卡，全球最强AI和HPC服务器平台HGX A100、全球最先进的AI系统——DGX A100系统、Orin SoC系列自动驾驶芯片和全新DRIVE AGX平台。

Tesla A100震撼全球，NVIDIA A100在AI训练（半/单精度操作，FP16/32）和推理（8位整数操作，INT8）方面，GPU比Volta GPU强大20倍。在高性能计算（双精度运算，FP64）方面，NVIDIA表示GPU的速度将提高2.5倍。

关于什么是INT8，INT8 指用8个位表示一个数字，FP32是指采用32位表示一个浮点数字，INT8精度低，一般用于推理，但也有些优势。

优势1：INT8能有效降低带宽，减少运算吞吐，提升计算能力，而精度损失低
优势2：INT8的乘加运算无论芯片面积还是能耗都优于FP32，FP16等。

A100 作为NVIDIA的第一个弹性多实例GPU统一了数据分析，训练和推理；并将被世界顶级云提供商和服务器制造商采用。

其中阿里云、AWS、百度云、谷歌云、微软Azure、甲骨文和腾讯云计划提供基于A100的云服务；
Atos、Cisco、Dell、Fujitsu、GIGABYTE、H3C、 HPE、 Inspur、 Lenovo、 Quanta/QCT 和 Supermicro等系统制造商将基于A100推出服务器服务器。

A100借鉴了NVIDIA Ampere架构的设计突破，在八代GPU架构中提供了该公司迄今为止最大的性能飞跃，统一了AI培训和推理，并将性能提高了20倍。A100是通用的工作负载加速器，还用于数据分析，科学计算和云图形。

Ampere GA100是迄今为止设计的最大的7nm GPU。GPU完全针对HPC市场而设计，具有科学研究，人工智能，深度神经网络和AI推理等应用程序。NVIDIA A100 是一项技术设计突破，在五项关键技术领域得到创新和突破：

NVIDIA Ampere架构 — A100的核心是NVIDIA Ampere GPU架构，其中包含超过540亿个晶体管，使其成为世界上最大的7纳米处理器。
基于TF32的第三代张量核(Tensor Core)： Tensor核心的应用使得GPU更加灵活，更快，更易于使用。TF32包括针对AI的扩展，无需进行任何代码更改即可使FP32精度的AI性能提高20倍。此外， TensorCore 现在支持FP64，相比上一代，HPC应用程序可提供多达2.5倍的计算量。
多实例（Multi-Instance）GPU — MIG是一项新技术功能，可将单个A100GPU划分为多达七个独立的GPU，因此它可以为不同大小的作业提供不同程度的计算，从而提供最佳利用率。
第三代NVIDIA NVLink —使GPU之间的高速连接速度加倍，可在服务器中提供有效的性能扩展。
结构稀疏性—这项新的效率技术利用了AI数学固有的稀疏特性来使性能提高一倍。

MIG是一种GPU划分机制，允许将一个A100划分为多达7个虚拟GPU，每个虚拟GPU都有自己专用的SM，L2缓存和内存控制器。与CPU分区和虚拟化一样，此系统背后的思想是为在每个分区中运行的用户/任务提供专用资源和可预测的性能水平。

MIG遵循了NVIDIA在该领域的早期工作，为虚拟图形需求（例如GRID）提供了类似的分区，但是Volta没有用于计算的分区机制。结果，虽然Volta可以在单独的SM上运行来自多个用户的作业，但它不能保证资源访问或阻止作业占用大部分L2缓存或内存带宽。相比之下，MIG为每个分区提供了专用的L2缓存和内存，从而使GPU的每个部分都完全完整而又完全隔离。
关于NVLink，它于2016年首次与Pascal P100 GPU一起推出，是NVIDIA专有的高带宽互连，旨在允许多达16个GPU相互连接以作为单个集群运行，应对更大的工作负载。对于Volta，NVIDIA对NVLink进行了较小的修订，将数据传输率提高了25％。同时，对于A100和NVLink3，这次是NVIDIA在进行更大的升级，使通过NVLink可用的总带宽增加了一倍。

总而言之，与NVLink 2相比，NVLink 3有两个重大变化，既可以提供更大的带宽，又可以提供更多的拓扑。

首先，NVIDIA有效地将NVLink的信号速率提高了一倍，从NVLink 2的25.78Gbps提高到NVLink 3的50Gbps。这使NVLink与其他互连技术保持同步，其中许多技术都类似地升级为更快的信号。
另一个重大变化是，鉴于信号速率提高了一倍，NVIDIA还将单个NVLink中的信号对/通道数量减少了一半，一个NVLink内可用的带宽数量保持不变，速度分别为上行每秒25GB和下行每秒25GB（或通常每秒50GB/秒），但可以使用一半的通道来完成。

NVIDIA A100在软件也做了些优化，包括50 多个加速、仿真和AI CUDA-X库，CUDA 11，AI服务器框架 NVIDIA Jarvis，应用框架NVIDIA Merlin和NVIDIA HPC SDK。
NVIDIA A100基于7nm Ampere GA100 GPU，具有6912 CUDA内核和432 Tensor Core，540亿个晶体管数，108个流式多处理器。采用第三代NVLINK，GPU和服务器双向带宽为4.8 TB/s，GPU间的互连速度为600 GB/s。另外，Tesla A100在5120条内存总线上的HBM2内存可达40GB。

从单一的Mezz Modular卡到全长PCIe 4.0图形卡，NVIDIA Ampere GA100 GPU提供尺寸不等的各种方案。GPU还具有多种配置，但NVIDIA今天重点介绍的是Tesla A100，它用于DGX A100和HGX A100系统。

关于NVIDIA Ampere GA100 GPU架构和规格，NVIDIA的Ampere GA100 GPU绝对是一个庞然大物。尺寸为826mm2，比Volta GV100 GPU的815mm2还要大。鉴于管芯尺寸和晶体管数量，Ampere GA100 GPU是单手构建的最密集的GPU。

Tesla A100 SMX模块具有带有6个HBM2堆栈的GA100 GPU。相比Tesla V100（Volta），SMX模块发生了变化，孔与上一代不对齐。推测，这可能是我们正在寻找的SMX Gen 4模块。该模具似乎比GV100稍大，估计为820-840 mm2。GA100 Ampere有望作为数据中心GPU推出，专注于面向计算的Tesla系列。

NVIDIA也发布了 DGX A100系统，该系统由8个GPU A100通过NVLink互连。NVIDIA深度学习工作站，即DGX系统，经历了几次迭代。最早的系统采用Pascal GP100 GPU，随后推出了4款基于Volta架构的系统，规格包含4到16个Tesla V100处理器。
NVIDIA在该数据库中提交了DGX A100商标的申请。NVIDIA以前没有使用过这样的产品名称，本次预计NVIDIA 将用DGX A100代替DGX-1和DGX-2。

DGX A100具有8个Tesla A100，提供高达5 petaflops的性能。DGX A100系统由NVIDIA DGX软件栈提供支持，其中包括针对AI和数据科学工作负载的优化软件，支持加速Spark 3.0、RAPIDS、Triton、TensorFlow、PyTorch等。

NVIDIA创立一种服务器构建基块(HGX A100)，采用灵活GPU配置的集成底板；4个GPU的HGX A100可通过NVLink实现GPU之间的完互连，8个GPU的配置通过NVSwitch提供满载的GPU互联带宽。

HGX A100采用了新的MIG技术，可以配置56个小型GPU，每个都比NVIDIA T4更快，一直可以配置到具有10 Petaflops AI计算性能的巨型8路GPU服务器。
大会除了发布第8代GPU架构、基于Ampere的7nm A100 GPU卡(AI训练峰值算力312TFLOPS，AI推理峰值算力1248TOPS，均较上一代Volta架构GPU提升20倍)外，还发布了值得关注新品，具体如下：
1、发布全球最强AI和HPC服务器平台HGX A100，最大可组成AI算力达10PFLOPS的超大型8-GPU服务器。
2、发布全球最先进的AI系统：NVIDIA DGX A100系统，单节点AI算力达到创纪录的5PFLOPS，5个DGX A100系统组成的一个机架，算力可媲美一个AI数据中心。
3、发布由140个DGX A100系统组成的DGX SuperPOD集群，AI算力最高可达700PFLOPS。
4、发布新DGX SuperPOD参考架构，帮助客户自身建立基于A100的数据中心。
5、宣布业界首个为25G优化的安全智能网卡（SmartNIC）。
6、发布首款基于NVIDIA安培架构的边缘AI产品：大型商用现货服务器EGX A100。通过搭载NVIDIA Mellanox ConnectX-6 Dx SmartNIC技术，EGX A100可以接收高达200Gbps的数据，并将其直接发送到GPU内存进行AI或5G信号处理，兼顾安全性和闪电般快速的网络功能。
7、发布世界上最小的用于微型边缘服务器和边缘AIoT盒的最强AI超级计算机：EGX Jetson Xavier NX。发布Jetson Xavier NX开发者工具包，包含云原生支持，该支持可扩展到整个Jetson自主机器的边缘计算产品线。
8、与开源社区合作加速数据分析平台Apache Spark 3.0，可将训练性能提高7倍。
9、发布NVIDIA Jarvis提供多模态会话AI服务，发布用于深度推荐系统的应用框架NVIDIA Merlin。
10、展示NVIDIA Clara医疗平台的突破性成就和生态扩展，帮医疗研究人员更快应对疫情。发布开放式协作设计平台NVIDIA Omniverse现已可供AEC市场的早期体验客户使用。
12、联手宝马，基于NVIDIA Isaac机器人平台打造提高汽车工厂物流效率的物流机器人。
13、发布Orin SoC系列自动驾驶芯片和下一代生产车型中拟使用全新DRIVE AGX平台。小马智行将在其自动驾驶Robotaxi车队中使用NVIDIA DRIVE AGX Pegasus平台，Canoo选择在下一代电动汽车中部署NVIDIADRIVE AGX Xavier平台。法拉第未来将在其旗舰超豪华FF 91电动车上部署NVIDIA DRIVE AGX Xavier平台。