2026年3月31日

そういえば、NVIDIAがMarvelに20億ドルを出資したという記事が出ている。両者はシリコンフォトニクス関連で提携したようだ。NVIDIA側はNVLINK Fusionを提供し、Marvelも採用することで、NVIDIAのCPU,GPU,DPU,NIC,Ether-SWに接続可能なカスタムXPUを開発するとのこと。また、AI-RAN, 5G, 6Gネットワークを拡張していく構想を、両社間で共有したと見られる。

次にインテル関連。インテルのPanther Lake-Hのダイフォトが出ているようだ。3月8日に出ていた記事とは別のダイ写真で、ハイエンド品種の写真となっている。Intel 18Aプロセスで製造されたコンピュートタイルに、Pコアx4, Eコアx8, LP-Eコアx4が搭載されている。背面給電(BSPD)を使っているので、信号面に電源配線が無い分回路の配置が密に詰まっているかが気になるが、高解像度な写真ではあるが、他のチップレットと見比べてもよくわからない。光学顕微鏡で見える回路の切れ目は、電源電圧が異なる場合やアナログ回路を保護する場合に必要なギャップであることが多く、これはプロセス世代とはあまり関係が無い。同じ機能ブロックで面積が比較できると、分析できるのかもしれない。写真には他に、Xe3コアx12を含むGPUタイルとIOタイルも写っているが、Panther Lake-Hでは、GPUタイルがTSMC N3Eプロセス, IOタイルがTSMC N6プロセスで製造されている。GPUタイルとIOタイルを合わせると、面積としてはコンピュートタイルよりも、少し大きいように見える。

CPUつながりで次の話題。Arm AGI CPUに対するインテルの見解を伝える記事と、インテルCPUに対するAMDの見解を伝える記事が出ていた。Arm AGI CPUは、AIデータセンター向けとしてアピールしていたように思うが、AIワークロードに適したCPUについての議論は、これから始まるのかもしれない。AI学習からAI推論に世間の注目が移っていく中で、CPUアーキテクチャの議論が久しぶりに活発になりつつあるような気がする。

CPUは計算機の発展とともに、その時代の要請に合わせていろいろな検討がなされてきた。1990年代には、パイプラインやスーパースカラーに加えて、マルチスレッド、アウトオブオーダー、投機実行、VLIW、キャッシュメモリなど、現在のCPUコアで用いられている技術は出そろっていたと思う。ちなみにこのころは、浮動小数点演算器がコプロセッサ扱いだった。1990年代の終わりに論理回路の組み方と消費電力の関係が整理されて、2000年代に入ってクロックゲーティングやパワーゲーティング、DVFS、バックゲートバイアスなどの省電力技術(電力制御技術)がたくさん出てきた。

2000年代に入ってトランジスタの微細化が進み、電源電圧が下がってオンチップマルチプロセッサが一般的になると、サーバーが並列化して大型化していった。このときの計算性能指標(SPECベンチマーク)は整数演算(Int)や浮動小数点演算(FP)がメインで、消費電力(Power)が追加された。スーパーコンピューターの性能はLINPACKで測られ、京などにみられるように、計算機というよりも建物になった。(2000年の地球シミュレータも体育館並みだったが) 現在はハイパースケーラーが、データセンターの建物にCPUを詰め込んでいる。データセンター向けCPUのベンチマークには、VMをいくつ動かせるかというSPECベンチマークがある。

今後、AIデータセンターになるとCPUとGPU・NPUが建物に詰め込まれることになるが、AIにとって理想的なCPUアーキテクチャについて議論が始まると思われる。どのような構成がAIワークロードに最適なのかまだよくわからないというか、AIワークロード自体が突然変わる可能性がある。とはいえ、AIワークロードそのものはNPUにオフロードされるので、その準備には汎用的な処理が可能なCPUを用いることになる。この汎用的な処理の守備範囲が、おそらく変わっていくのだろう。オフロードという意味では、画像処理や学習はすでにGPUにオフロードしている。また、現在のCPUにはベクトル演算器が入っており、HPC並みの計算性能を持っているが、こういった機能が今後も要求されるのか、意見が分かれる可能性があると思う。

AIワークロードの前処理に適したCPUという観点では、今のところCPU各社の設計思想は、さまざではないかと思う。いくつかのCPUの仕様について、現時点で要素別に整理してみたい。

まず基本的なところとして、半導体プロセスは、Intel 18A/INTEL3からTSMC 2nm/3nmあたりとなっている。コアの動作電圧は半導体プロセスに従う。コアの動作周波数は3GHz~4GHzと言ったところかと思う。電圧と周波数は発熱・冷却と密接な関係があり、いまは冷却能力にどれくらいコストをかけるかで周波数が決まると思う。昔は論理回路の段数(クリティカルパス)で周波数の上限が決まっていたが、今もそうなのだろうか。(トランジスタが十分小さくて速いので何段でも入りそうな気がするが、暴言だったら申しわけない) 発熱はワークロードとコア数と周波数によって変わり、コア単体の周波数とワークロードがどれくらいの発熱でおさまるかは、省電力技術も含めて設計次第である。

コア数は、物理コア数ではNVIDIAのVeraが88コアで少ない方、インテルのClearwater Forrestが288コアで最多となる。インテルのGranite Rapidsは128コア、Arm AGIは136コア、AMDのVenice(Zen6c)は推定だが256コアと思われる。コア数は、データセンター用としてはVM性能のうえでは多い方が良いと思われる。AIデータセンターでどのように作用するかは未知数と思う。コアが多ければ、AIエージェントの数も増えるかと思うが、スループットの観点では、他の要素の制約も受けるだろう。(以下、AIワークロードというときは推論を想定している)

スレッド数は、物理コア内に1つ(シングルスレッド)か、2スレッドとなっている。データセンター用ではノイジーネイバー問題やセキュリティ懸念があり、シングルスレッドの方が良いと言われている。シングルスレッド派はインテル Clearwater Forrest(Eコア)と、Arm AGIである。2スレッド派はAMD Zen6/6c、NVIDIA Vera、インテル Granite Rapids(Pコア)である。ただし、NVIDIA Veraは2スレッドだが空間分離スレッドと言っており、ノイジーネイバー等の問題は起きないと言っているようだ。また、AMDとインテルの2スレッドコアは、BIOSでシングルスレッドにできるようで、各社シングルスレッドを意識していると言ってよい。インテルの次期PコアであるDiamond Rapidsは、シングルスレッドではないかとのウワサもある。AIワークロードでは、どちらが良いかは未知数だと思う。ワークロード単体はシングルスレッド性能を上げて、ソケット当たりのスループットはコア数で稼ぐ、という方向のような気もするが、マルチスレッドの利点もありそうな気もする。

論理コア当たりのL3キャッシュ容量は、1MBクラスと2MBクラスに2分されているようだ。NVIDIA Veraが0.92MB(168MB/176論理コア)で、Arm AGIが0.94MB(128MB/136論理コア)となっている。AMD Venice(Zen6c)で2MB(CCD当り128MB/64論理コア)、インテルGranite Rapidsで1.97MB(504MB/256論理コア)、Clearwater Forrestで2MB(コンピュートタイル当り48MB/24論理コア)となる。Armアーキテクチャの方は1MB/論理コアのようだ。AWSのGraviton5も1MB(196MB/196論理コア)となっている。AIワークロード以前に、キャッシュメモリは単純に多い方が性能には有利かと思うが、L2$や主記憶との帯域のバランスもあるので一概には言えないかもしれない。(1MBあれば、ベンチマークプログラムが入ってしまうので、性能評価上は1MBで良いという事情もあるだろう)

DDR5チャネル数は、インテルのGranite Rapidsだけ世代が少し古いのでDDR5 8chとなっている。Clearwater Forrestと、Arm AGIはDDR5 12chとなっている。NVIDIA VeraはLPDDR5 8chだが、SOCAMMでメモリモジュールひとつが192GBを搭載できる。ソケット当たりのメモリ容量としては1.5TBになるので、他の12ch×128GBと同等となる。AMD VeniceはIOダイを拡張しており、DDR5 16chとなっている。AIワークロードはメモリがたくさん必要なので、後発のCPUほどメモリ搭載容量が大きくとる傾向にあると思われる。今後も増えていくのかもしれない。また、AIワークロードの方では、省メモリ化に注力する流れも出てくると思われる。

CPU内蔵のベクトル演算器は、インテルのGranite RapidsではAVX-512(512bit幅)やAMD Zen6/6cにはコアに256bit x2器のベクトル演算器がある。インテルのClearwater ForrestはAVX2(128bit) x2器、Arm AGIは128bit SVE2 x2器、NVIDIA Veraは128bit SVE2 x6器を搭載している。512bit幅のベクトル演算器は、科学技術計算向けに倍精度(FP64)で計算するために搭載されているが、電力消費が大きいのでスパコン用CPUを目指さなければ載せない方向だと思う。一方で、ベクトルエンジンをFP8やFP4に分割してAIワークロードを処理するので、ベクトル演算器自体は必要である。近年のAI向けCPUの変化のひとつと言える。

同様に、最近はマトリクス(行列)演算器が搭載される傾向にある。インテルのGranite RapidsではAMX(Advanced Matrix Engine)がある。AMXはSapphire Rapids(2021年)から載っている。一方で、Eコア系のClearwater Forrestには搭載されていない。ArmアーキテクチャにはSME/SME2という行列演算器があり、SMEはFP32、SME2はFP16での行列演算が可能となっている。SMEはQualcommのSnapdragonに載っていたと思う。SME2はサムスンの次期Exynosに載る予定だったような気がする。

Arm AGI CPUにSME2が載っていない点は少し注目かと思う。NPUにオフロードすることが前提となっているのかもしれない。NVIDIA VeraにもSME/SME2は載っていない。そもそもGPUのTensorコアが行列演算器で、Volta GPU(2017年)のころに先行していて、他社のCPUに波及したのがAMX(GPUではXMX)やSMEと言ってよいと思う。Veraも行列演算はGPUにオフロードすることが前提と思われる。AMDもGPUにCDNAを搭載しており、Zen6には行列演算器は搭載していない。Ryzen AIにNPUとしてXDNAを搭載しており、これをZen7以降で搭載すると見られている。現状のCPU内蔵の行列演算器は、当座のNPUとして機能する程度と見て良いと思われる。インテルもPanther Lakeには50TOPS程度のNPUが搭載されている。AIデータセンター規模になると、行列演算はCPUで処理せず、GPU/NPUにオフロードするのが現在の傾向と考えられる。

従来の観点では、一般的なCPUの特徴は、コア数・キャッシュメモリ容量・動作周波数・発熱などだが、性能という点では、メモリ帯域、専用演算器の有無など細かく見るべき項目があると思う。現在のAI向けの性能指標は、AI FLOPS(FP8またはFP4)、NPUのTOPS、トークン/秒のTPSあたりだが、MLPerfなどのベンチマークもこれから整理されると思う。ソフトウェア性能(UI/UX)とベンチマークの関係が社会に認知されると、次はベンチマークを高得点にするためのアーキテクチャが考案され、ハードウェアに波及していく流れになると思う。しばらくは推移を見守ることにしたい。 

CPUの性能関連でもうひとつ。数日前からインテルのBOT(Binary Optimization Tool)について記事が多く出ている。ゲーム全般で性能が8%程度向上するらしく、効果がある場合では18%などの数字が見られるようだ。命令数の変化に着目すると、スカラー命令をベクトル化するという記事があり、ベクトル演算の多用でIPCを上げていると思われる。せっかくの専用演算器も使うソフトが無ければ、ただのダークシリコンとなって不要と判断されてしまう。一方で、このような最適化活動があって効果がわかると、やはり必要だということになって無いと売れなくなってしまう。こうしてハードウェアは変わっていくのだと思う。

最後にTSMCの話題。TSMCの熊本工場(FAB23)で、3nmプロセスを製造する件に関して、台湾経済部投資委員会の承認が下りたようだ。2028年に12インチウェハ換算で月産15,000枚を目指すとのこと。台湾のTSMCはそのころA14プロセスに移行している見込みであり、台湾での最先端プロセスから2世代前の半導体プロセス製造であれば海外に出しても良いという「N-2原則」は保持されている。 

もうひとつTSMC関連。ドイツのドレスデン建設が進められているESMCについて記事が出ている。ESMCは、TSMC・ボッシュ・インフィニオン・NXPが出資した半導体工場で、TSMCが70%の株を保有、あとの3社が10%ずつとなっている。ESMCが地域に向けたシンポジウムを開催したようで、TSMCから1.6nmプロセスについて説明があったようだ。これまでに公表されている計画では28/22nm、16/12nmプロセスだったと記憶しているが、導入予定のないプロセスについて説明するのもおかしい気がする。熊本のJASMのように最初は汎用的なプロセスで、その後に先端プロセスの導入を考えているのかもしれない。

.。.:*・゚+.。.:*・゚+.。.:*・゚+.。.:*・゚+.。.:*・゚+.。.:*・゚+.。.:*・゚+.。.:*・゚+.。.:*・゚+.。.:*・゚