NVIDIAがCPU市場に参入か!? Armベースのデータセンター向けCPU新製品『Grace』を投入

昨年GPUメーカーでソフトバンクからARMホールディングスを買収したNVIDIAでしたが、CPU事業への本格的参入の動きなのでしょうか。
Armベースのデータセンター向けCPUの新製品を発表したようです。

NVIDIA、Armベースのデータセンター向けCPU「Grace」投入を表明――現在のx86ベースのCPUと比較して10倍の性能を発揮【クラウドWatch:笠原一輝 2021年4月13日】

 半導体メーカーのNVIDIAは、4月12日午前8時(米国太平洋時間、日本時間4月12日午前0時)から同社の年次プライベートカンファレンス「GTC 2021」を開催しており、同社のAIに向けた各種ソリューションなどに関して多くの発表を行っている。

 そのGTC 2021の最初のセッションとして開催された同社 CEO ジェンスン・フアン氏の基調講演では、新しいデータセンター向けのCPUとして、開発コード名「Grace」(グレース)と呼ばれる製品を2023年に投入することを明らかにした。

001_o
〔※NVIDIAのGrace(右)を搭載したマザーボード、左のもう1つのチップはGPU(提供:NVIDIA)〕

 NVIDIAによれば、GraceはArm社が開発する新しいデータセンター向けのCPUコアIPデザイン「次世代Neoverse(ネオバース)」が採用され、CPUコア1つあたりの処理能力がSPECrate2017_int_baseベンチマークで300を超える性能を発揮する。

 また、NVIDIAがサーバーなどでGPUとGPUを接続するインターコネクトとして導入しているNVLinkの次世代版が搭載されており、キャッシュコヒーレントに対応したNVLinkを利用した場合、CPUとGPU間の帯域幅は900GB/秒、キャッシュコヒーレントを使わない場合には600GB/秒の帯域を実現する。

 さらに、メモリコントローラはLPDDR5に対応。メモリ帯域は500GB/秒となり、現状の2倍の帯域幅を実現するという。

 なお、このGraceとNVIDIAのGPUを組み合わせることで、現在のx86 CPUとNVIDIA GPUの組み合わせでディープラーニング(深層学習)の大規模なモデル(1兆パラメータを持つモデル)を学習させた場合に1カ月かかる処理が、10分の1のわずか3日に短縮できるとのことだ。

x86 CPUベースの「DGX A100」と比べ性能が10倍となるArm CPU「Grace」

 NVIDIAが発表したGraceは、同社が「次世代Neoverse」と呼んでいるArmのデータセンター向けCPUデザインIPを採用している。Armは2018年の「Arm Techcon 2018」で、同社のデータセンター向けCPUのデザインIPとなる「Neoverse」を発表しており、既に同社の顧客などで採用されている。

 NVIDIAは現時点で、その次世代Neoverseがどういうものなのかは明らかにしていないが、Armが先日発表したばかりの新しい命令セット「Armv9」に対応した、新しいデザインであることは想定される。

 ただし今回、NVIDIAはその次世代Neoverseの性能は明らかにした。それによれば、CPUコア1つあたりで、SPECrate2017_int_baseにて300を超える性能を発揮するという。具体的にCPUコアがいくつになるのかなどは明らかにしていないが、当然、CPUコアは多くのコアが実装される形になるので、マルチコア時の性能はもっと大きな数字になることが想定される。

 なお、公開されたGraceのダイ写真を見る限りは、CPUダイはモノリシックダイで、AMDのEPYCなどで採用されているようなチップレットや、MCMと呼ばれる1つのパッケージの中に複数のダイが実装される形にはなっていないようだ。

002_o
〔※NVIDIA Graceの概要(出典:NVIDIA)〕

 NVIDIAによれば、Graceの開発ターゲットは、CPUとメインメモリが、GPUやGPUメモリに比べて帯域幅が十分ではないことを克服することにあるという。というのも、現状ではCPUおよびCPUに接続されているメインメモリとGPUを接続するインターコネクトは、メモリやGPUと比較して低速なPCI Expressになるので、そこに引っ張られてしまい、GPUがメモリにアクセスするのに十分な帯域幅が確保されない現状がある。

003_o
〔※現在のx86 CPUとGPUは、プロセッサに比べると遅いPCI Expressで接続されているため、CPUに接続されているメインメモリからGPUへの帯域幅は十分ではない(出典:NVIDIA)〕

 そこでGraceでは、NVIDIAのGPUがサポートしている高速なインターコネクトであるNVLinkに対応し、さらにNVLinkの帯域幅をCPUとGPUで600GB/秒、さらにキャッシュコヒーレント機能を有効にした場合には900GB/秒という帯域幅を実現する。

 また、CPUのメモリコントローラはLPDDR5に対応しており、メモリ帯域幅は500GB/秒を実現する。それにより、GPUとCPUが4つずつ搭載されているシステムの場合、メモリからGPUへの帯域幅は2000GB/秒となり、GPUがメインメモリにアクセスすることがボトルネックにならず、本来の性能を発揮できるようになる。

 NVIDIAによれば、1兆パラメータという非常に複雑で巨大なAIモデルを利用すると、学習にかかる時間は、x86 CPU(AMD 第2世代EPYC×2)とNVIDIA GPU(A100×8)の組み合わせとなる現行製品のDGX A100では約1カ月となるが、Grace(×8)+NVIDIA GPU(A100 ×8)の組み合わせの場合は、わずか3日間で終わるという。性能はざっと10倍に向上するという計算になる。

004_o
〔※8xGrace+8xA100はDGX A100(2x x86 CPU+8xA100)に比べて10倍の性能を発揮(出典:NVIDIA)〕

 Graceの製造委託先は現時点では未公表だが、NVIDIAによれば5nmプロセスルールで製造され、2023年に市場に投入される計画になっているとのこと。現在、Swiss National Supercomputing Centre(CSCS)やLos Alamos National Laboratory(ロスアラモス国立研究所)が、Hewlett Packard Enterprise社が製造するGraceベースのスーパーコンピュータを導入する計画で、2023年より稼働する予定になっている。

005_o
〔※CSCSやロスアラモス国立研究所などにHPCが製造したスーパーコンピュータが2023年に稼働する(出典:NVIDIA)〕

Arm CPU+NVIDIA GPUがAmazon EC2インスタンスで提供開始、新DPUのBlueField-3は2022年第1四半期に投入

 2020年、世の中をあっと言わせたArm買収を発表したNVIDIAは、GraceのようなArmベースのソリューションを加速している。すでにArm CPUに対応したCUDAをリリースしており、Arm CPUを利用したディープラーニングの学習ソリューションの充実などを進めている。

 今回のGTCではAWS(Amazon Web Services)との提携が発表され、AWSが提供しているGraviton2プロセッサ(64ビットのArm Neoverseコアを利用したカスタムプロセッサ)を利用したAmazon EC2インスタンスに、NVIDIA GPUを利用したものが提供されることが明らかにされた。

 また同時に、「Arm HPC Developer Kit」と呼ばれるArm CPUに対応した開発キットも提供され、ArmベースのCPUを利用したディープラーニングの学習がより利用しやすくする。Graviton2+NVIDIA GPUのAmazon EC2インスタンスは2021年後半から提供開始される予定だ。

006_o
〔※Arm CPU+NVIDIA GPUがAmazon EC2インスタンスで提供開始(出典:NVIDIA)〕

 またNVIDIAは、2020年に発表した、DPU(Data Processing Units)と呼んでいるソフトウェア定義型のSmartNIC「BlueField-2 DPU」の後継として、「BlueField-3 DPU」を発表した。

 BlueField-3ではArm CPUが16コアに強化され(BlueField-2は8コア)、ネットワークの転送速度も200Gb/秒から400Gb/秒へと引き上げられる。従来のBlueField-2 DPU向けにソフトウェア開発キットDOCAで作成したソフトウェアは、そのまま実行可能だ。

007_o
〔※BlueField-3(提供:NVIDIA)〕

008_o
〔※BlueField-3の概要(出典:NVIDIA)〕

 BlueField-3は、2022年第1四半期からの提供開始が予定されている。なお、2020年に発表されたBlueField-2は本日より一般提供が開始されている。BlueField DPUはDell Technologies、Inspur、Lenovo、Supermicroなどのシステムベンダーから提供されるとNVIDIAでは説明している。

 

NVIDIA、データセンターのソフトウェア定義型ネットワークインフラを実現する「DPU」のロードマップを公開――DPU版CUDAといえる「DOCA」を提供へ【クラウドWatch:笠原一輝 2020年10月5日】

 半導体メーカーのNVIDIAは、同社のプライベート年次イベント「GTC 2020」を、10月5日(現地時間)よりフルデジタルカンファレンスとして開催している。

 10月5日午前6時(米国太平洋時間、日本時間22時)からは、同社の創始者でCEOのジェンスン・フアン氏による基調講演が行われている。それに先だってNVIDIAは報道発表を行い、同社のデータセンター向けのソリューションなどを発表した。

 この中でNVIDIAは、同社がイスラエルMellanox Technologiess(以下、Mellanox)を買収して得た、従来はSmartNIC(スマートニック、インテリジェントなイーサネットアダプタという意味)と呼ばれていた「BlueField-2」を、今後はDPU(Data Processing Units)と呼び、ソフトウェアで定義可能なネットワークのインフラとしてそのソフトウェア開発キットとなる「DOCA」(ドゥカ)を提供していくことを明らかにした。

002
〔※NVIDIAの最初のDPUとなるBlueField-2〕

 DOCAは、NVIDIAがGPUに対してソフトウェア開発キットとしてCUDA(クーダ)を提供しているのと同じような形のソフトウェア開発キットで、ソフトウェア開発者はDPU向けソフトウェアを容易に、複数世代にわたり開発することができる。これにより、ストレージへのアクセス、ネットワークへのアクセスなどに利用されているCPUの負荷をオフロードし、データセンター全体の性能を底上げすることが可能になる。

 NVIDIAはそのBlueFieldシリーズのロードマップも明らかにし、BlueField-2のGPU搭載版として「BlueField-2X」を計画しているほか、2022年には搭載されているCPUの処理能力やディープラーニング(深層学習)の推論性能を倍に高めた「BlueField-3」、そしてそのGPU搭載版となる「BlueField-3X」を、そして2023年には、CPUとGPUを1つに統合したBlueField-4のリリースを計画していることを明らかにした。

001
〔※NVIDIAのBlueField-2X〕

ソフトウェアでサーバーのインフラを定義するDPU、Mellanox由来のBlueField-2が最初の世代に

 NVIDIAは近年データ向けのソリューションに力を入れている。言うまでもなく、現在のデータセンターでは多くのAIアプリケーションが走っており、その学習プロセスには、同社のGPUとその開発環境であるCUDAをベースにしたソフトウェアが使われていることもあって、NVIDIAのデータセンター事業の売上は年々伸びていっている。

 そのNVIDIAが次の手として2019年に買収を発表したのが、イスラエルのMellanoxで、2020年に買収は完了している。MellanoxはInfiniBandやEthernetといったネットワーク技術、つまりデータセンターとデータセンター、あるいはラックとラック、ブレードとブレードなど接続する技術の提供企業として知られており、この買収でNVIDIAは、データセンターを支えるインフラの部分を手に入れたといえる。

 そのMellanoxが開発して販売してきたSmartNICが「BlueField-2」で、買収後には、NVIDIAのブランドが冠された「NVIDIA BlueField-2」として投入されてきた。SmartNICとは、Ethernetなどのネットワーク機能に加えて、CPUのようなデータを処理する汎用プロセッサを搭載したインテリジェントのNIC(Network Interface Controller)という意味だ。BlueField-2には、MellanoxのConnectX-6というNICと、Arm Cortex-A72(8コア)のCPU、2つのVLIWのアクセラレーションエンジンなどを搭載しており、ソフトウェアで新しい機能を定義することが可能になっている。

004_o1
〔※BlueField-2の仕様〕

 このBlueField-2とソフトウェアを組み合わせることで、従来はホスト側のCPU(例えばXeon、EPYC、Arm CPUなど)が行っていたネットワークの管理、ストレージの管理、セキュリティ、インフラ管理などをオフロードして、BlueField-2側で行われることが可能になる。

 これによってCPUは、仮想マシンの実行やコンテナの実行などによりリソースを使えるようになり、データセンター全体の効率を大きく向上させることが可能になる。今後はこうしたSmartNICを「DPU」(Data Processing Units)と呼び、BlueField-2がその最初の世代の製品と位置づけられる。

003_o1
〔※SmartNIC改めDPUでは、従来はCPUが処理していたネットワークの管理やストレージの管理、セキュリティなどのワークロードを、システム側のCPUからオフロードすることが可能になる〕

DPUの開発はNVIDIAが提供するDOCAで、複数世代にわたって開発したソフトウェアを使用可能

 すでにNVIDIAはVMwareと提携しており、「Project Monterey」(プロジェクトモントレー)という取り組みの中で、BlueField-2がVMware Cloud Foundationでサポートされると共同で発表している。

 さらにRed Hatも、Red HatのKubernetes/Docker対応製品群「Red Hat OpenShift」などでBlueField-2の対応を発表している。

 今回NVIDIAは、このBlueField-2向けに、新しいソフトウェア開発環境としてDOCAを導入することを明らかにした。NVIDIAではGPUの汎用演算用にソフトウェア開発キットのCUDAを提供しているが、DOCAはそのDPU版ということになる。ソフトウェア開発者はこのDOCAを利用することで、複数世代のDPUで利用できるDPUのソフトウェアを容易にプログラミングすることが可能になる。

 DOCAは今後NVIDIAのNGC(ディープラーニング/マシンラーニング向けのソフトウェア最適化環境)に統合されて提供され、開発者がより容易にアクセスできるようにされる。

005_o1
〔※DOCAのコンセプト、CUDAのDPU版だと考えれば理解しやすい〕

ロードマップにはGPUを基板上にのせたBlueField-2X、将来にはCPU/GPUが1チップになったBlueField-4も

 NVIDIAは、BlueField-2の今後のロードマップに関しても明らかにした。それによれば、今後BlueField-2にAmpereアーキテクチャのGPUを統合した「BlueField-2X」の提供を開始する。

 BlueField-2Xは、BlueField-2に搭載されているArm Cortex-A72(8コア)と2つのVLIWアクセラレータエンジンに加えて、NVIDIAのAmpereアーキテクチャのGPUを搭載しており、それらのCPUとGPU間はPCI Express Gen 4で接続される。

 DOCAを利用することで、CPU、VLIWアクセラレータ、GPUをヘテロジニアスに利用し、サーバーのネットワークやストレージ、セキュリティなどの機能を、ソフトウェアで定義して実現することができる。NVIDIAによれば、BlueField-2XはCPU性能はBlueField-2と同じだが、GPUが追加されたことで、AI推論時の性能が0.7TOPSから60TOPSへと約85倍に強化されるという。

007_o1
〔※BlueField-2X〕

 2022年には次世代製品となるBlueField-3となる。CPUの性能(SPECint)は350とBlueField-2の5倍に強化される。推論の性能は約2倍の1.5TOPS、ネットワークの性能も200Gbpsから倍の400Gbpsへと強化される。そのBlueField-3のGPU搭載版がBlueField-3Xとなり、AIの性能が75TOPSへと引き上げられる。

 そして2024年に計画されているBlueField-4では、CPUとGPUが1ダイに統合され、性能が大きく強化される。CPUの性能は1000(SPECint)となり、Bluefield-2の14.2倍になる。またAIの性能も400TOPSとなりBluefield-2の約571倍の性能を実現する。

006_o1
〔※NVIDIAのDPUロードマップ〕

 これらの複数世代の製品に向けたソフトウェアを、DOCAで開発することが可能になる。つまり、新しい世代の製品がリリースされても、過去の世代向けに作ったコードがそのま新しい世代で使えることになるという、後方互換性を実現している。過去の資産がそのまま使えるということを意味しており、過去の投資がそのまま生かせるという意味でも注目に値する。

英国には80台のNVIDIA DGX A100から構成されたCambridge-1を設置、投資額4000万ポンド

 このほかNVIDIAは、エッジAI向けのEGX AIプラットフォームの提供を開始したことや、新しいエッジ向けの開発ボードとしてJetson Nano 2GBなどの提供を開始したことなどを明らかにした。

009_o
〔※Jetson Nano 2GBは、59ドルと低価格に提供される〕

 また、NVIDIAはAIを利用した製薬のためのプラットフォーム「NVIDIA Clara Discovery」を発表し、その最初の顧客として英国のGSK(グラクソ・スミスクライン)を迎えたことを明らかにした。そのGSKなどの英国の製薬企業などのために、NVIDIAとしては初めて米国外に設置する同社のスーパーコンピュータ「Cambridge-1」を、英国に設置したことを明らかにした。

008_o1
〔※NVIDIAが英国に設置するスーパーコンピュータ「Cambridge-1」〕

010_o
〔※NVIDIA Clara DiscoveryをGSKが採用〕

 NVIDIAによればCambridge-1は80台のNVIDIA DGX A100(NVIDIAが提供するブレードサーバー型のHPC)から構成されており、それぞれがMellanoxのInfiniBandで接続されている。

 元になったNVIDIAのDGX SuperPodはピーク性能で400PFLOPS、Linpackでは8PFLOPSの性能を実現しており、TOP500では29位、Green500ではトップ3に入る性能に相当する。NVIDIAでは、このCambridge-1のために4000万ポンド(日本円で約53億円)の投資を英国にて行っていることもあわせて発表している。