AI Liquid Cooling at System Scale
Data Center Worldでの最近のプレゼンテーションでは、AIデータセンターの設計、調達、運用において、システムシミュレーションがいかに重要な機能となりつつあるかが強調されました。

AIは長年にわたりデジタルインフラに組み込まれ、レコメンデーションエンジン、セキュリティシステム、自動化などのサービスを陰ながら支えてきました。2022年後半に変化したのは、その利用しやすさです。ChatGPTのような生成AIツールの台頭により、高度な推論や多段階の問題解決が大規模に利用可能になりました。この変化は、データセンターのワークロードを根本的に変えました。

当初は検索ベースの処理だったものが、計画・推論・適応を行うAIエージェントによって実行される、長い推論の連鎖へと進化しました。NVIDIAのCEOであるジェンセン・フアン氏がGTC 2026の基調講演で指摘したように、「推論の転換点が到来した」のです。

データセンターのリーダーにとって、この転換点は一つの領域で最も明確に表れています。それは冷却、そしてますます重要性を増す液体冷却です。

先週、ワシントンD.C.で開催されたData Center Worldにおける「Spark Session: AIデータセンター冷却のための物理ベースのシステムシミュレーション」では、こうした新たな環境下でAIデータセンターを設計、調達、運用する上で、システムシミュレーションがいかに重要な機能となりつつあるかが強調されました。

AIワークロードが熱環境の常識を塗り替えている

AIインフラの普及により、電力密度が急速かつ持続的に上昇しており、従来の冷却設計の想定ではもはや対応できなくなっています。

主な指標は以下の通り:

  • ラックあたりの電力密度は、10年前の1ラックあたり2~5kWから現在の30~50kW以上へと上昇しており、1ラックあたり100kW以上の時代も目前に迫っています
  • AIに最適化されたサーバーは、2030年までにデータセンターの総電力消費量のほぼ半分を占めると予測されています
  • 冷却は、施設全体のエネルギー使用量の40%以上を常に占めています
  • 世界のデータセンターの電力需要は、この10年の終わりまでに2倍以上になると予想されています

このような高密度環境下では、信頼性の高い液体冷却戦略がこれまで以上に重要になっています。

液体冷却は、単一のコンポーネントの問題ではなく、システム全体としての課題である

現代のAIデータセンターは、独立したサブシステムの集合体というよりは、緊密に統合された機械のような振る舞いをする。特に液体冷却環境では、局所的なわずかな変化がプラント全体に急速に波及する可能性があります。

主な特徴は以下の通りである:

  • AIトレーニングの負荷は、数秒のうちにアイドル状態からピーク電力まで急激に変動します。
  • 熱的、流体的、および制御的な応答は、ラック、CDU、ポンプ、チラー間で密接に連動しています。
  • コンポーネントの仕様書には個々の動作は記載されているが、システム全体の応答については説明されていません。

エンジニアリングマネージャーや運用担当者にとって、これは定格性能や定常状態の仮定のみに基づいた意思決定が、ますます大きなリスクを伴うことを意味します。冷却システム全体における動作を理解せずにハードウェアを選択することは、下流での影響を把握できないまま、重大な影響を及ぼす決定を下すことに等しくなっています。真の動作を理解するには、システムレベルのシミュレーションが必要です。

なぜ今、物理ベースのシステムシミュレーションが重要なのか

冷却システムのシミュレーションおよび解析を行うシステムレベルのモデルには、以下のものが利用できます:

  • Modelica:オープンで方程式ベースのマルチフィジックスモデリング言語
  • FMI(Functional Mock-up Interface):ツールや組織を跨いだモデル交換のためのインターフェース
  • API駆動型ワークフロー:物理的挙動を運用ソフトウェア、分析プラットフォーム、AIワークフローに公開するもの

このアプローチにより、熱、流体、機械、制御のダイナミクスを、単一の統合されたフレームワーク内で一体的にモデル化することが可能になります。モデルは、単発の解析ではなく、複数のチームやワークフローを支える共有デジタル資産となります.

Modelica & Interface Approach

シミュレーションはデータセンターのライフサイクル全体においてどのような価値をもたらすのか?

  1. 設計:液体冷却アーキテクチャにおけるトレードオフの定量化
  2. システムレベルのシミュレーションにより、エンジニアは現実的なAIワークロードの条件下で、冷却トポロジーや機器のサイジングに関する判断を評価することができます。チームは単一の設計点に対して最適化を行うのではなく、広範な動作範囲にわたる挙動を評価することが可能になります。次のような疑問に対して定量的な回答を得ることができます:
    • 過渡的なAI負荷に対して、CDU、ポンプ、熱交換器をどのようにサイジングすべきか?
    • 異なる液体冷却アーキテクチャ間のトレードオフは何か?
    • 全体的な効率は、コンポーネントレベルの設計選択にどの程度影響を受けるか?
  3. 調達:仕様書からシステム性能へ
  4. 調達の意思決定は、特定のデータセンター環境内で機器がどのように動作するかを理解することにますます依存しています。
  5. シミュレーション対応のコンポーネントモデルにより、オーナーやオペレーターは、エネルギー、水使用量、過渡応答といったシステムレベルの指標に基づいて機器を評価できます。また、メーカーはデータシート上では見えない性能上の優位性を実証することも可能です。
  6. バルブ、CDU、ポンプ、熱交換器のサプライヤーにとって、シミュレーション対応モデルの提供は、単なる学術的な取り組みではなく、競争上の差別化要因になりつつあります。
  7. 運用:設計条件を超えた現実の管理
  8. 十分に設計された施設であっても、予期しきれなかった状況に直面することがあります。例としては、異常気象、GPU世代の進化、汚れの付着、部分的な故障、負荷プロファイルの変化などが挙げられます。
  9. 設計段階で開発されたシステムモデルを再利用することで、稼働時間を犠牲にすることなく、制御戦略の変更をテストし、故障モードを分析し、容量拡張のシナリオを評価することができます。これにより、運用チームは不確実性の中でも情報に基づいた意思決定が可能になります。

事例研究:1つのバルブがシステム全体に及ぼす影響

本事例では、液体冷却配管ループ内の制御バルブの応答時間という単一のパラメータ変更が、冷却システム全体にどのような波及効果をもたらすかを検証した。

コンポーネントレベルに限定して見ると、急激なAI負荷変動下において、応答の速いバルブの方が、応答の遅いバルブと比較して、ラック供給温度をより安定させることが確認された。システムレベルで検討すると、このモデルは、当該コンポーネントの上流に位置するチラーにもさらなるメリットがあることを明らかにした。応答の遅いバルブの場合、負荷変動によるラック供給温度の変動は、負荷ジャンプの前に抑制されていなければ、設計限界を超えていたであろう。しかし、これを実現するには、上流のチラーをその効率的な動作点から外す必要がある。

Illustrative data based on Modelica Buildings Library simulation framework

データセンター関係者の主な考察

  • 液体冷却式AIデータセンターは、局所的な判断が全体に影響を及ぼす密接に結合されたシステムです。
  • 過渡的な挙動や効率のトレードオフを理解するには、システムレベルのシミュレーションが不可欠です。
  • モデルは、設計、調達、運用全般において価値をもたらします。
  • シミュレーション対応のコンポーネントモデルは、メーカーとオーナー・オペレーター間の透明性と信頼を醸成します。
  • ModelicaやFMIなどのオープンスタンダードは、組織や分野を超えた連携を可能にします。

液体冷却シミュレーションに関する最終的な考察

AIワークロードの増加が続く中、冷却性能は信頼性、効率性、そしてビジネス成果に直接影響を及ぼします。データセンターにおける液体冷却は、性能と複雑さの双方において要求水準を引き上げています。

物理ベースのシステムシミュレーションは、この複雑さを乗り越え、コストがかさむか、あるいは取り返しのつかない事態になる前に、情報に基づいた意思決定を行うための実用的な手段を提供します。

AIデータセンターの時代において、成功はコンポーネントを個別に最適化することではなく、システム全体を理解することにかかっています。

モデロンのデータセンターシステムシミュレーションソリューションをご覧ください。