AI時代のデータセンタートレンド インフラの統合と水冷システム:組み込みエンジニアも知っておきたい(1/3 ページ)
サーバ/ストレージ/ネットワークといったデータセンターの設備をAI(人工知能)処理に対応させるためには、高度なGPUやアクセラレーターといった設備を統合させる必要があります。インフラの統合にあたって最も考慮すべき点は冷却で、AIデータセンターでは水冷(液冷/液浸)式の導入が加速しています。
OpenAIが開発した言語モデル「GPT-4」など、大規模言語モデル(LLM)の登場以来、さまざまな用途において人工知能(AI)の活用が身近な存在となりつつあります。その急速な進歩は世界中の企業や業界に革命をもたらしていて、こうした最新テクノロジーをCSPや各種データセンターに統合することで、AIを利用した業務効率改善をはかる動きも高まりつつあります。
しかし、AI技術を取り入れることは簡単ではありません。利用価値のあるAIを開発し活用するためには、高度で大規模な並列演算が可能な計算機リソース(ハードウェア)が必要不可欠で、計算機リソース不足がAIの課題といわれています。
さらに、AI向け計算機を既存のインフラやデータセンターに統合する際にも、さまざまな課題が生じています。例えば、AIの活用に向けた統合の需要が高まる一方で、組織は既存のインフラ内の互換性、AIの開発/維持のためのスキル開発や人材獲得から、専門的なプログラミング技術が必要なAIアプリケーション開発のコスト、AIアプリケーションを迅速に計算して結果を得るためのアクセラレーター搭載ハードウェアの導入/展開に至るまで、多くの課題に取り組まなければいけません。
AI処理にはインフラのアップグレードが不可欠
はやり言葉として用いられ、日頃から見聞きするようになったAIは、勝手に動作しているのではありません。元をたどると、人間の脳内にある神経細胞ニューロンとそのつながりの神経回路網を、人工ニューロンという数式的なモデルで表現し、ディープラーニングとして、膨大なデータを用いて高度かつ大規模に演算した結果として成り立っています。
これらを開発する上ではさまざまな課題が生じます。主に挙げられるのは、スーパーコンピュータクラスの高度なハードウェアリソースの用意と、開発から運用までの高度な専門技術、さらに、既存のデータセンターにAI用のアクセラレーターが搭載された新たなハードウェアと高帯域ネットワーク網を増設し、既存インフラとの互換性を確保することです。
従来のデータセンターで利用されているサーバ/ストレージ/ネットワークは、AIアルゴリズムの計算需要を処理するような設計ではありません。大規模な並列演算を可能にするアクセラレーターや高帯域ネットワークも導入されていないことが多く、そのままではAI需要に対して最適なパフォーマンスを提供できません。このことは、システム運用と密接にかかわる消費電力や維持管理コストなどの問題にもつながります。
こうした障壁を乗り越えるために、組織はクラウド/オンプレミスの既存のインフラを慎重に評価し、AIのワークロードに対応するためのアップグレードを行う必要があります。AI処理は、大きく分けてAIの正確性の根幹となるトレーニング(学習)と、その結果AIとして実際に目にするインファレンス(推論)に分類されます。AI処理の中でも最も高度で大規模な演算が必要になるディープラーニングトレーニングにおいては、TesorFlowやPyTorchなどの各種フレームワークを用いてアプリケーションが開発されます。その際の計算機リソースとしては、これまでのサーバに搭載されているCPUの他に、並列演算に優れたGPUやアクセラレーターと呼ばれるAI向けに特化し最適化した非常に高速なハードウェアと、各GPUを高速に接続する高帯域ネットワークが欠かせません。一方、インファレンス(推論)ではアプリケーションや用途に応じてモバイル/PC/エッジコンピュータなど、CPUだけで処理できるものからGPUが必要なものまでさまざまな選択肢があります。
Copyright © ITmedia, Inc. All Rights Reserved.