2026年4月21日

そうえいば、AMDがCo-Packaged Optics (CPO)関連でGlobalFoundriesと協業するという記事が出ているようだ。AMDの次世代AIアクセラレータMI-500シリーズに向けて、光集積回路(PIC)のチップ製造をGlobalFoundriesに委託するらしい。組立はASEが行うとのこと。AIデータセンター内の接続では、低消費電力化のために銅配線から光配線への移行は不可避と見られている。MI-500は2027年に登場の予定で、CPUはEPYC Verano (Zen6)との組み合わせと思われる。今年の後半にはHeilosラックシステムが投入されると思われるが、AIアクセラレータはMI-400、CPUはEPYC Venice (Zen6)、NICはAMD Pensandoで、光スイッチはBroadcomのTomahawk-6が採用されていたと思う。次世代となるMI-500世代もPensandoを使うようだが、Tomahawkを今回のGF製PICと置き換えるのかもしれないが、どうだろうか。

GlobalFoundries(略してGF)は、もともとAMDの半導体製造部門だったと思う。2009年に独立して、その後、2015年ごろにIBMの半導体部門が合体したり、7nmプロセス開発から降りてIBMともめたりしていたような気がする。AMDとはFinFETプロセスのチップを提供するなどでCPU製造を支えていたが、7nm以降には進まないことになったので、AMDはTSMCに乗り換えることになったと記憶している。チップレット時代の幕開けを告げたAMD EPYCの初代Naples (Zen、このときはCCDのみだった)と、2代目のRome (Zen2)のIOチップレットはGF製14nmプロセスで、Milan (Zen3)のIOチップレットがGF製12nmプロセスだったと思う。GenoaのZen4以降はIOチップレットもTSMC製になった。今回はEPYC以外のPICで、再びGFと提携することになったということだろう。

もうひとつAMD関連。AMDのRyzenシリーズで、3D V-Cache構造のCCDを2つ搭載したRyzen 9 9950X3D2のベンチマーク記事が出ているようだ。Zen5の16コア全部でL3キャッシュが192MBという贅沢なつくりとなっている。全コアでコア当りのL3キャッシュ容量が12MB(論理コア当り6MB)となる。その前のRyzen 9 9950X3Dでは、3D V-Cache構造のCCDが1つだった。つまり、標準のL3キャッシュ容量32MBのCCDが8コアと、3D V-Cache構造で92MBのCCDが8コアで、合計128MBだった。これはキャッシュが潤沢に使えるCCDと、そうでないCCDの組合せということになる。このX3D2とX3Dの比較結果が出ているが、X3D2の方が価格が200ドルほど高額にもかかわらず、従来のベンチマークでは性能差がほとんどない結果となっている。ゲーミングユーザーにとってはすこし残念な結果となっているようだ。

ただし、AMDとしてはX3D2はゲーム用途のCPUとは言っておらず、プロフェッショナル向けのレイテンシ感度が高いワークロード用と言っているようだ。(箱にそう書いてある) ベンチマークの比較では、ほとんど差が無かったとなっているが、重たいワークロードでもコア当り12MBのキャッシュをもつCCD1個で用が足りているとしたら、X3DがX3D2になる効果はほとんど無いのではないかと思う。ベンチマークソフトはデータがキャッシュに入ってしまえば、あとは動作周波数と、演算器~キャッシュ間の帯域と、クロック当り命令実行数(IPC)などで決まってしまうからだ。また、CCD間の通信が発生するとIOチップを経由するのでレイテンシが大きくなるが、それはX3D2でも改善はしない。X3Dに比べて、X3D2の大きな効果が見られたベンチマークとしては、ビデオエンコーディングや、OpenFOAM(流体解析)、Poisson(2次元方程式)などだったようだ。エンコーディングはキャッシュが大きい方が有利だし、OpenFOAMやPoissonはHPC用途で見られるベンチマークだと思う。他にも、AIでRAGを行う場合に効果があると伝えている記事があるようだ。

また、Ryzen 9 9950X3D2のサンプル提供については、AMDが数を絞っているという記事もあった。先にも書いたがゲーム用途ではなく、高額でプロフェッショナル用途ということで、AMDとしては一般向けとは少し違うという姿勢があるのかもしれない。とはいえ、ひととおりゲームやそのほかのベンチマークで高い割には違いが無いという評価も、重要な意味があると思う。

ちなみに、Zen5で採用されたX3DとX3D2は第2世代3D V-Cacheと言っており、Zen3・Zen4世代での第1世代の3D V-Cacheとは、コアチップとメモリチップの上下が入れ替わっている。つまり今までコアチップの上にメモリチップを搭載していたが、第2世代は下にメモリチップがあって、その上にコアチップを搭載している。この方が、コアチップの背面に放熱用のヒートスプレッダーが直接当たるので、冷却で有利になるらしい。冷却が有利だと動作周波数が挙げられるし、周波数が上がるということは性能が上がるということだ。冷却能力が性能に影響するのは、ここ10年くらいの常識となっている。

さて、3D V-Caheの第1世代と第2世代の違いは、言葉で書くとメモリとコアの上下関係が入れ替わっただけと思うかもしれないが、実装構造上では、わりと複雑な変更になると思う。第1世代では、コアチップの背面にTSV(シリコン貫通ビア)を開けて、メモリチップを実装していたと思う。CCDは通常のフリップチップ実装(C4バンプ)で、表面(端子面)が下を向いている。背面のシリコンにTSVが途中まで埋め込んであって、背面を削ってシリコン層を薄くすると端子が出てくる。メモリチップはそのTSVの端子に合わせて表面に端子があり、CCDの背中に載せることで、L3キャッシュメモリを増設している。 メモリの表面(Face)をCCDの背面(Back)に接合するので、Face-to-Back接続と呼ばれている。メモリチップが背中に乗るのでキャッシュ容量は増えるが、コアの発熱は抜けにくくなるというトレードオフがあった。

第2世代では、メモリチップの背面にTSVを開けて端子を形成し、パッケージ基板に接続するための端子(C4バンプ)を出している。こうすると、メモリチップの表面(Face)とCCDの表面(Face)をダイレクトボンディングで接続することが出来る。これは表面と表面なので、Face-to-Face接続と呼ばれている。メモリチップ背面のC4バンプを基板に接続すると、CCDが上になって、背面に冷却用のヒートスプレッダーが直接冷却することができる。メモリチップの背面のC4バンプは、メモリチップのためだけではなく、CCDへの電源供給やIOチップとの通信用、制御系や試験系などの端子を出す必要がある。ちなみにC4バンプというのは鉛と錫の合金でできた、直径100umくらいの半田ボールのことで、C4というのはControlled Collapse Chip Connectionの頭文字から来ている。

ここでちょっと疑問が生じる。X3D2は2つのCCDが3D V-Cacheだが、X3Dは片方が普通のCCDというこで、メモリチップが無いCCDの端子面はC4バンプになっている必要がある。つまり、メモリチップに張合わせるCCDと、基板に直接載せるCCDの2つがあることになる。おそらくメモリチップに張合わせるダイレクトボンディング仕様のCCDに対して、C4バンプパッドを形成する追加工程があると思われる。ただし、ダイレクトボンディングは9umとか6um、次世代は4.5umくらいの端子ピッチであるのに対して、C4バンプパッドは昔から150umピッチくらいだったと思う。15倍から30倍くらいスケールが違うので、単純にC4バンプパッドを置くわけにはいかないと思われる。

しかしよく考えると、ダイレクトボンディングはメモリを増設するための接続端子なので、電源に加えてデータやアドレスや制御線等の端子がたくさんあるはずだ。CCDからC4バンプに接続するのは、電源供給とIOチップとの通信用、制御系や試験系で、メモリチップの背面に出す端子と同じ本数(もちろん同じ並び)でよい。ということは、ダイレクトボンディング用の端子はいったん絶縁層で埋めてしまい、C4バンプに出す端子だけ、窓を開けて引き出すにようになっていると思われる。引出し配線が1層ですむのか2層必要なのかわからないが、いわゆる再配線層(RDL)を形成していると思われる。第1世代ではCCDの背面にTSVを埋め込んでおいて削って端子を出していたが、第2世代では絶縁層をかぶせて再配線層を形成していると思うが、どうだろうか。

もちろん、第1世代も第2世代も、半導体プロセスの中でウェハ単位での加工になると思われる。チップとして切り分けた後にできる追加工程とは考えられないので、事前に3D V-Cache仕様のCCDをどれだけ製造するのか、普通のCCDと分けてオーダーしておく必要があるだろう。半導体プロセスの話になるとつい長くなる。

CPUつながりで次の話題。Qualcommのクリスチアーノ・アモンCEOが韓国を訪問するらしい。サムスンとSKハイニクスへ行く予定とのこと。Snapdragon 8 Elite Gen2をサムスンの2nmプロセス(SF2)で製造するのではないかとの記事は伝えている。わかりにくいがSnapdragon 8 Elite Gen2 (EliteのGen2)とは、Snapdragon 8 Elite Gen5 (Snapdragon 8のGen5)のことで、すでにTSMCの3nmプロセスで製造している。今回は派製品をSF2で製造するのではないかとのこと。TSMC3nmはFinFETで、サムスン2nmはGAAトランジスタだったと思うが、同じ設計でトランジスタ型をまたいだ実例となるのであれば、少し興味深いと思う。SKハイニクスではLPDDR5の調達について、交渉すると見られている。

最後にTSMCの話題。TSMC高雄のFab22は5つの2nmプロセスラインを構築する予定らしいが、年間の総電力量が112億kWhと見られているようだ。単位の桁数が大きくて良くわからないが、年間のWhなので、たとえば1Wだと1年間の電力量は、1Wx365日×24hで8.76kWhになる。つまり、年間の総電力量112億kWhを8.76kWhで割れば、Wに換算出来る。112億k÷8.76kは12.8億Wで、1,280,000,000Wと表記すると1.28GWである。原発1基が1GWと言われており、高雄のFab22の年間電力を賄うためには、原発1.3基分を常時稼働する必要があるようだ。

上の方で、プロセッサの性能は冷却能力が決める時代に入っていると書いたが、システムの性能は電力供給能力が決める時代に入っていると思う。ファンやポンプは駆動系だが、半導体そのものは駆動系を持たない。つまり半導体に供給した電力はそのまま発熱となる。たとえばプロセッサに1GWを供給するということは、1GWを冷却するということだ。その供給と冷却の枠の中で、どれだけの性能を獲得できるかが、アーキテクトと回路設計、ソフト開発やシステム開発の腕の見せ所だと思う。

.。.:*・゚+.。.:*・゚+.。.:*・゚+.。.:*・゚+.。.:*・゚+.。.:*・゚+.。.:*・゚+.。.:*・゚+.。.:*・゚+.。.:*・゚