メディア

AI時代のデータセンタートレンド インフラの統合と水冷システム組み込みエンジニアも知っておきたい(2/3 ページ)

» 2024年08月29日 16時00分 公開
[SupermicroEDN Japan]

最重要課題は冷却

 データセンターの運用者や事業者が、業界標準を満たす高度なAI演算機能を実装し、サービスを可能にするためには、正確なAI構築に向けた大量の情報(ビッグデータ)を収集/格納/迅速に処理できる強力な計算機リソースと、高速なストレージ環境が必要です。既存の多くのデータセンターや組織は、従来のCPUだけで処理できるアプリケーションを想定した環境で運用されているため、AI向けの計算リソースを展開できる環境を新たに整備することが重要です。AIモデルを開発するには、膨大なデータセットを利用し、高性能なGPU/アクセラレーターを用いてトレーニングを行う必要があります。高度なGPU/アクセラレーターがあればトレーニングに必要な大規模並列演算を同時に実行できるため、学習プロセスを加速し、AIソリューションの構築と展開に必要な時間を大幅に短縮できます。AIプロジェクトを成功させるためには、まず、ソフトウェアのニーズに応えられるハードウェアのパフォーマンスを維持することが、競合他社を凌ぐ結果につながります。

 大規模言語モデルの場合、高性能GPUを1基のみ使用しトレーニングを行うと、計算が終了し結果を得るまでに数カ月から数十カ月はかかると試算されています。結果をより早く得てAIとして迅速に利用するためには、数十個から数百個のGPUを高速なネットワークで接続し、高速な並列演算環境を用意することが必須で、これらのハードウェアを既存のデータセンターインフラに統合することが重要です。そのためには、電力供給量、効率的な冷却方法や冷却設備の検討、高速なクラスタを構築する高帯域ネットワーク網など、データセンター設備全体の設計を再考し、最適化していく必要があるためシームレスな統合を実現するには、入念な計画と、ITチームとファシリティチームの協力が重要です。

 その中でも最も考慮すべき点は、GPU搭載サーバの消費電力が非常に大きく、膨大な熱を発生させることです。トレーニングの計算時はハードウェアの性能を常に100%使い切って動作させる必要があるため、システムに最大出力と最大性能を発揮させるための効率的な冷却が不可欠となります。一般的なシステムの冷却方法は空冷で、今後も多くのシステムで空冷技術が用いられることは間違いありません。一方で、消費電力と発熱量が増加の一途をたどっているGPUサーバでは、既に空冷のみでの冷却方法には限界がきていて、AIを主力とするデータセンターの多くが水冷(液冷/液浸)式を導入する傾向にあります。

Copyright © ITmedia, Inc. All Rights Reserved.

RSSフィード

公式SNS

EDN 海外ネットワーク

All material on this site Copyright © ITmedia, Inc. All Rights Reserved.
This site contains articles under license from AspenCore LLC.