◆そういうことで、GTC関連の話題が盛りだくさん。基調講演のほかのジェンスン・フアンの話として、NVIDIAは今後10年間で社員の数が7万5千人になるが、750万のAIエージェントと協働するようになると語った記事が出ている。社員1人当たり100のAIエージェントと働いて、会社の業務の主体はAIエージェントということになる。数は抜きにしてAIエージェント主体という意味では、10年かからないような気もする。また、事業を遂行するペースが速くなり、常にクリティカルパスの上で仕事をするようになると語ったらしい。それはその通りのような気がする。急ぎの仕事は忙しい人に頼めという言葉があるが、そんな感じの業務風景が日常になるのかもしれない。健康管理やウェルビーイングの重要性が増すと思われる。
AIつながりで次の話題。NVIDIAからOpenClawへのNVIDIAの取組みとしてNemoClawが発表された。基調講演でも、大きなトピックのひとつだったと思う。NemoClawは、NVIDIAのOpenShellにNemotronを統合したもののようだ。NemotronはNVIDIAのLLMで、Nemotronを扱うフレームワークとしてNVIDIA NeMoが用意されている。OpenShellは推論エージェントのランタイム環境である。これらを統合し、AIエージェントがオンプレのローカル環境からプライバシールーターを介してクラウドにアクセスすることで、セキュアな運用を確保しているとのこと。強化学習も行うので自己進化型自律エージェントと呼ばれているようだ。ガードレール層があり、ファイルやネットワーク、プロセス、推論が、他のAIエージェントと混ざらないように分離保護されていると見られる。個人向けというよりも企業向けパッケージのようだ。
ここからハードウェア。まずはラックの話題。NVIDIA Vera RubinのラックシステムKyberで、800VDC対応が進んでいるようだ。DCなので直流給電となる。従来の電源供給は、415VACで供給し、途中で54VDCへ変換し、GPUカードなどで12Vに変換し、さらに負荷点(POL)となるチップのそばで0.8Vなどの電源電圧に変換する、という具合になっている。変換の損失もあるのだが、根本的な限界も見えている。同じ電力(W)を供給する場合、電圧(V)が低いと電流(I)が増え、電流が増えると途中の配線やコネクタの抵抗値(R)に対してIRドロップが起きやすく、損失(=発熱)が増えるという問題があり、実際に12Vコネクタが燃えたりして問題が徐々に大きくなっている。
この問題に対応するためには、電流を少なくすればよいが、電圧を上げることになるが、チップ自体への供給電圧は1Vを切っており、この電圧差を吸収できる電圧コンバーターが必要になる。一般的に入力電圧が大きいとコンバーターのサイズも大きくなるため、配置する場所など物理的な対応が難しかった。パワー半導体のGaN素子は耐圧が大きく、入力電圧が高くても小型化が可能なので、ボードに実装できるサイズで800VDCを受けて12Vを出せるようになる。電源系全体でも、コンピューティングトレイまで800VDCで配ることが出来るため、ラックや給電設備全体で損失を減らすことが出来る。GW級AIファクトリーを構成するラックシステムには、必須の技術になると見られている。電力がAIファクトリーの規模(=AI性能)を決める時代となっている。
ここからVera CPUの話題。NVIDIAがVera CPUの詳細を明かしたという記事が出ているようだ。チップレット構成で、CPUダイの両わきにメモリーコントローラーダイが2つずつ4つ並んでいる。ひとつのメモリコントローラ―ダイには2つのLPDDR5コントローラーが入っているので、1チップあたり8つのLPDDR5コントローラーが載っている。システムボード上はVeraを挟むように4本+4本のSOCAMM2が並ぶ。SOCAMMを192GBとすると、8本で約1.5TBとなる。1ノード2CPUで約3TB。CPUダイの下側は、PCIe Gen6 x16のPCIeダイがある。CPUダイの上側はチップレットは無く、CPUダイに搭載されたNVLINK C2C(Chip-to-Chip)マクロがある。これはGPUともつながるが、1ノード2CPUとなるときには、Vera同士をつなぐことになる。NVLINK部分の面積は、PCIeダイの面積よりかなり小さい。半導体プロセス(VeraはTSMC 3nm)の違いもあるのかもしれないが、PCIeダイの方が5倍くらい大きい。
CPUダイの内部は、コアが7列x13行で並んでいる。計算すると91コアになるが、公表されているコア数は88コアで、差引き3コアが動かない場合のバックアップ用の冗長コアのようだ。動かないと言っても、製造後の試験で動かない場合や、機能的には動くが動作速度が遅くて不合格になる場合など、いろいろある。チップ内で91コア中88コアが合格するということは、96.7%の合格率があればよいので、動作速度のチップ内ばらつきとしては片側2σ(97.7%)で管理すればよいことになる。実際のところはわからないが、さすがに設計基準は3σとして、2σ管理に緩めたマージンは製造側が持っているということだろうか。設計も製造も3σ管理ならば88コアと言わず90コアでも良いと思う。しかし、91コア中の3つのコアを動かないようにして出荷するというのは、少しぜいたくな気もする。ちなみにGraceは76コア中72コアで出荷しているようなので、Graceよりは攻めているのかもしれないが。
CPUコアのアーキテクチャは、前世代のGraceがArm Neoverse V2だったのに対して、Veraでは独自設計のOlympusコアを開発している。コア間のメッシュネットワークはSCF(Scalable Coherency Fabric)の第二世代となっているが、Graceと同じくArmのCMN(Coherent Mesh Network)ベースとみられている。一般にArm CPUというと、物理コア数=論理コア数のシングルスレッドが主流のような気がするが、Veraは2スレッドで、176論理コアとなっている。ひとつの物理コア内でマルチスレッドにすると、同じ演算器リソースをタイミングで切り替えて使うの、ノイジーネイバー問題や意図していなかったセキュリティの脆弱性が発覚するリスクがあると見られている。このためデータセンター向けでは、シングルスレッドが主流になっていると思うが、Veraの2スレッド構造は対策がしてあるようだ。
Veraの2スレッド構造はSpatial Multi-threadingで、同じ物理コア内ではあるが、それぞれにリソースを割り当てるので空間的に分けている、と説明されている。よく理解していないが、演算機のリソースが2つ分入っているのだろうか。Graceのメッシュ構成は7x6のようだが、Veraの構成は7x7のように見えるので、メッシュサイズと接続可能な物理コア数はそれほど変わらないと思われる。ただしプロセスがN4(Grace)からN3(Vera)に進むことで、増やせる物量を論理コア数に振り向けたのかもしれない。N4のLogic密度はN5とほぼ同じで、N3のロジック密度はN5の1.7倍程度と言われているので、N4からN3も論理回路は1.7倍程度は増やせると思われる。物理コア内のL2キャッシュメモリは共有するとして、演算リソースは2つ分入るのかもしれない。
また冗長の話に戻るが、仮に90コアまでアクティベートするなら、180論理コアになるので、2スレッド化の恩恵で4論理コアを増やすことが出来る。歩留りが安定すると増やすつもりなのかもしれない。ちょっと気になるのはロイヤリティで、一般的にはチップ単体での課金やコア単位での課金など、ケースバイケースではあるが、88コア分で払っているのか176コア分で払っているのか少し気になった。ただしVeraの場合は、現状でコア数のバリエーションが無いようなので、チップレベルでの課金かもしれない。以上でVeraの話は終わり。
ここからGTC関連の話に戻る。シスコから、セキュアAIファクトリーという構想がGTCで発表されている。AIファクトリー内は、膨大な数のGPUとCPUがあり、光も入ってきて多様な高速通信が行われるようになっている。セキュリティも合わせて変わっていく必要があり、その中のひとつで、Cisco Hybrid Mesh FirewallをNVIDIAのBlueField DPUに拡張するシステムが出ているようだ。外部からのリクエストに紛れて入ってくる脅威が、CPU/GPUに到達する前に、DPUで防御する構想らしい。AIファクトリー内部のワークロードはこれまでよりも飛躍的に検査するべきプロセスが増加するので、BlueFieldで守備を固めることで、堅牢なセキュリティを築くとのこと。
また、Alice&Bob社から、NVIDIAのCUDA-Qを量子コンピューティングに組み込んだ成果が、GTCで報告されている。昨年、同社のQPUシミュレーションライプラリ(Dynamiq)にCUDA-Qを統合し、今回、量子誤り訂正(QEC)復号シミュレーションにGH200を用いたところ、AMDのRyzen 9 9950X(16コア/32スレッド)に比べて、実行時間が18時間2分から1時間57分(約2時間)に、約9分の1になったとのこと。量子コンピュータ内でデコヒーレントによって量子計算が壊れた後、量子誤り訂正(QEC)復号シミュレーションで復号した結果を、量子計算に戻して継続することが出来るらしい。戻し方など皆目見当がつかないのだが、復号に18時間かかると1日挟むような感じになると思うが、これが2時間だとだいぶ助かるのではないかと思う。
最後にGTCとは別の話題。AMDのリサ・スーCEOが韓国のネイバー社を訪問したとの記事が出ている。ネイバーのAIデータセンターに、AMDのチップを使うという覚書を交わしたようだ。ネイバーのLLMであるHyperCLOVA Xに最適化したGPUを提供するらしい。現在はNVIDIAのBlackwellが入っているが、NVIDIAにロックインされないためにマルチベンダー化を検討しており、当面はAMDかインテルのGPUで90MW程度の増設(合計135MW)を計画しているとのこと。さらに倍の規模の270MWまで拡張する予定らしい。