设为首页 | 加入收藏
网站首页 新闻资讯 云商城 业务领域 解决方案 成功案例 支持与服务 招贤纳士 关于晟启 咨询热线:
400 600 3190
公司资讯 行业动态
Tesla A100发布: 英伟达GPU架构如何演进?
2020-05-19 16:52:27

以下文章来源于智能计算芯世界 ,作者浩仔



NVIDIA(英伟达)2020年度黑科技秀GTC 2020大会,近期通过在线视频的方式举办,发布了史上最强的GPU——NVIDIA Tesla A100卡,全球最强AI和HPC服务器平台HGX A100、全球最先进的AI系统——DGX A100系统、Orin SoC系列自动驾驶芯片和全新DRIVE AGX平台。


Tesla A100震撼全球,NVIDIA A100在AI训练(半/单精度操作,FP16/32)和推理(8位整数操作,INT8)方面,GPU比Volta GPU强大20倍。在高性能计算(双精度运算,FP64)方面,NVIDIA表示GPU的速度将提高2.5倍。


关于什么是INT8,INT8 指用8个位表示一个数字,FP32是指采用32位表示一个浮点数字,INT8精度低,一般用于推理,但也有些优势。
  • 优势1:INT8能有效降低带宽,减少运算吞吐,提升计算能力,而精度损失低
  • 优势2:INT8的乘加运算无论芯片面积还是能耗都优于FP32,FP16等。

A100 作为NVIDIA的第一个弹性多实例GPU统一了数据分析,训练和推理;并将被世界顶级云提供商和服务器制造商采用。
  • 其中阿里云、AWS、百度云、 谷歌云、微软Azure、 甲骨文 和腾讯云计划提供基于A100的云服务;
  • Atos、Cisco、Dell、Fujitsu、GIGABYTE、H3C、 HPE、 Inspur、 Lenovo、 Quanta/QCT 和 Supermicro等系统制造商将基于A100推出服务器服务器。

A100借鉴了NVIDIA Ampere架构的设计突破,在八代GPU架构中提供了该公司迄今为止最大的性能飞跃,统一了AI培训和推理,并将性能提高了20倍。A100是通用的工作负载加速器,还用于数据分析,科学计算和云图形。

Ampere GA100是迄今为止设计的最大的7nm GPU。GPU完全针对HPC市场而设计,具有科学研究,人工智能,深度神经网络和AI推理等应用程序。NVIDIA A100 是一项技术设计突破,在五项关键技术领域得到创新和突破:
  • NVIDIA Ampere架构  — A100的核心是NVIDIA Ampere GPU架构,其中包含超过540亿个晶体管,使其成为世界上最大的7纳米处理器。
  • 基于TF32的第三代张量核(Tensor Core):   Tensor核心的应用使得GPU更加灵活,更快,更易于使用。TF32包括针对AI的扩展,无需进行任何代码更改即可使FP32精度的AI性能提高20倍。此外,  TensorCore  现在支持FP64,相比上一代,HPC应用程序可提供多达2.5倍的计算量。
  • 多实例(Multi-Instance)GPU — MIG是一项新技术功能,可将单个A100GPU划分为多达七个独立的GPU,因此它可以为不同大小的作业提供不同程度的计算,从而提供最佳利用率。
  • 第三代NVIDIA NVLink —使GPU之间的高速连接速度加倍,可在服务器中提供有效的性能扩展。
  • 结构稀疏性—这项新的效率技术利用了AI数学固有的稀疏特性来使性能提高一倍。

MIG是一种GPU划分机制,允许将一个A100划分为多达7个虚拟GPU,每个虚拟GPU都有自己专用的SM,L2缓存和内存控制器。与CPU分区和虚拟化一样,此系统背后的思想是为在每个分区中运行的用户/任务提供专用资源和可预测的性能水平。

MIG遵循了NVIDIA在该领域的早期工作,为虚拟图形需求(例如GRID)提供了类似的分区,但是Volta没有用于计算的分区机制。结果,虽然Volta可以在单独的SM上运行来自多个用户的作业,但它不能保证资源访问或阻止作业占用大部分L2缓存或内存带宽。相比之下,MIG为每个分区提供了专用的L2缓存和内存,从而使GPU的每个部分都完全完整而又完全隔离。
关于NVLink,它于2016年首次与Pascal P100 GPU一起推出,是NVIDIA专有的高带宽互连,旨在允许多达16个GPU相互连接以作为单个集群运行,应对更大的工作负载。对于Volta,NVIDIA对NVLink进行了较小的修订,将数据传输率提高了25%。同时,对于A100和NVLink3,这次是NVIDIA在进行更大的升级,使通过NVLink可用的总带宽增加了一倍。

总而言之,与NVLink 2相比,NVLink 3有两个重大变化,既可以提供更大的带宽,又可以提供更多的拓扑。
  • 首先,NVIDIA有效地将NVLink的信号速率提高了一倍,从NVLink 2的25.78Gbps提高到NVLink 3的50Gbps。这使NVLink与其他互连技术保持同步,其中许多技术都类似地升级为更快的信号。
  • 另一个重大变化是,鉴于信号速率提高了一倍,NVIDIA还将单个NVLink中的信号对/通道数量减少了一半,一个NVLink内可用的带宽数量保持不变,速度分别为上行每秒25GB和下行每秒25GB(或通常每秒50GB/秒),但可以使用一半的通道来完成。

NVIDIA  A100在软件也做了些优化,包括50 多个加速、仿真和AI CUDA-X库,CUDA 11,AI服务器框架 NVIDIA Jarvis,应用框架NVIDIA Merlin和NVIDIA HPC SDK。
NVIDIA A100基于7nm Ampere GA100 GPU,具有6912 CUDA内核和432 Tensor Core,540亿个晶体管数,108个流式多处理器。采用第三代NVLINK,GPU和服务器双向带宽为4.8 TB/s,GPU间的互连速度为600 GB/s。另外,Tesla A100在5120条内存总线上的HBM2内存可达40GB。

从单一的Mezz  Modular卡到全长PCIe 4.0图形卡,NVIDIA Ampere GA100 GPU提供尺寸不等的各种方案。GPU还具有多种配置,但NVIDIA今天重点介绍的是Tesla A100,它用于DGX A100和HGX A100系统。

关于NVIDIA Ampere GA100 GPU架构和规格,NVIDIA的Ampere GA100 GPU绝对是一个庞然大物。尺寸为826mm2,比Volta GV100 GPU的815mm2还要大。鉴于管芯尺寸和晶体管数量,Ampere GA100 GPU是单手构建的最密集的GPU。



Tesla A100 SMX模块具有带有6个HBM2堆栈的GA100 GPU。相比Tesla V100(Volta),SMX模块发生了变化,孔与上一代不对齐。推测,这可能是我们正在寻找的SMX Gen 4模块。该模具似乎比GV100稍大,估计为820-840 mm2。GA100 Ampere有望作为数据中心GPU推出,专注于面向计算的Tesla系列。

NVIDIA也发布了 DGX A100系统,该系统由8个GPU A100通过NVLink互连。NVIDIA深度学习工作站,即DGX系统,经历了几次迭代。最早的系统采用Pascal GP100 GPU,随后推出了4款基于Volta架构的系统,规格包含4到16个Tesla V100处理器。
NVIDIA在该数据库中提交了DGX A100商标的申请。NVIDIA以前没有使用过这样的产品名称,本次预计NVIDIA 将用DGX A100代替DGX-1和DGX-2。

DGX A100具有8个Tesla  A100,提供高达5 petaflops的性能。DGX A100系统由NVIDIA DGX软件栈提供支持,其中包括针对AI和数据科学工作负载的优化软件,支持加速Spark 3.0、RAPIDS、Triton、TensorFlow、PyTorch等。

NVIDIA创立 一种服务器构建基块(HGX A100),采用灵活GPU配置的集成底板;4个GPU的HGX A100可通过NVLink实现GPU之间的完互连,8个GPU的配置通过NVSwitch提供满载的GPU互联带宽  。


HGX A100采用了新的MIG技术,可以配置56个小型GPU,每个都比NVIDIA T4更快,一直可以配置到具有10 Petaflops AI计算性能的巨型8路GPU服务器。
大会除了发布第8代GPU架构、基于Ampere的7nm A100 GPU卡(AI训练峰值算力312TFLOPS,AI推理峰值算力1248TOPS,均较上一代Volta架构GPU提升20倍)外,还发布了值得关注新品,具体如下:
1、发布全球最强AI和HPC服务器平台HGX A100,最大可组成AI算力达10PFLOPS的超大型8-GPU服务器。
2、发布全球最先进的AI系统:NVIDIA DGX A100系统,单节点AI算力达到创纪录的5PFLOPS,5个DGX A100系统组成的一个机架,算力可媲美一个AI数据中心。
3、发布由140个DGX A100系统组成的DGX SuperPOD集群,AI算力最高可达700PFLOPS。
4、发布新DGX SuperPOD参考架构,帮助客户自身建立基于A100的数据中心。
5、宣布业界首个为25G优化的安全智能网卡(SmartNIC)。
6、发布首款基于NVIDIA安培架构的边缘AI产品:大型商用现货服务器EGX A100。通过搭载NVIDIA Mellanox ConnectX-6 Dx SmartNIC技术,EGX A100可以接收高达200Gbps的数据,并将其直接发送到GPU内存进行AI或5G信号处理,兼顾安全性和闪电般快速的网络功能。
7、发布世界上最小的用于微型边缘服务器和边缘AIoT盒的最强AI超级计算机:EGX Jetson Xavier NX。发布Jetson Xavier NX开发者工具包,包含云原生支持,该支持可扩展到整个Jetson自主机器的边缘计算产品线。
8、与开源社区合作加速数据分析平台Apache Spark 3.0,可将训练性能提高7倍。
9、发布NVIDIA Jarvis提供多模态会话AI服务,发布用于深度推荐系统的应用框架NVIDIA Merlin
10、展示NVIDIA Clara医疗平台的突破性成就和生态扩展,帮医疗研究人员更快应对疫情。发布开放式协作设计平台NVIDIA Omniverse现已可供AEC市场的早期体验客户使用。
12、联手宝马,基于NVIDIA Isaac机器人平台打造提高汽车工厂物流效率的物流机器人。
13、发布Orin SoC系列自动驾驶芯片和下一代生产车型中拟使用全新DRIVE AGX平台。小马智行将在其自动驾驶Robotaxi车队中使用NVIDIA DRIVE AGX Pegasus平台,Canoo选择在下一代电动汽车中部署NVIDIADRIVE AGX Xavier平台。法拉第未来将在其旗舰超豪华FF 91电动车上部署NVIDIA DRIVE AGX Xavier平台。
公司名称:海南晟启云计算科技有限公司
联系电话:0898-68548041/68551390
咨询服务热线:400 600 3190
传真0898-68548041
QQ号码:307752331     电子邮箱:sqldyyp@163.com
公司地址:海南省海口市国贸北路26号金茂金厦18E1室

关于官方微信

在线客服 业务简介 联系我们
海南晟启云计算科技有限公司 @ 2001-2020 版权所有 技术热线:13337622668 琼ICP备18001661号 全程开发设计:海南中立科技:企业邮箱登陆: