Hugging Faceは、NvidiaのAIマイクロサービス「NIMs」に対抗する新たなサービス「HUGS」を発表した。これにより、ユーザーは幅広いハードウェアで大規模言語モデル(LLM)を手軽に運用できるようになる。

HUGSは、オープンソースの「Text Generation Inference(TGI)」や「Transformers」フレームワークを基盤に構築され、多様なGPUやAIアクセラレータに対応。AWSやGoogle Cloud上では1時間あたり約1ドルで使用できる。Hugging Faceの戦略は、Nvidiaのハードウェア依存を打破し、コスト面で優位に立つことにあるが、その性能が実際にNIMsを上回るかは今後の検証次第である。

Hugging FaceとNvidiaのAIサービス対決:HUGSとNIMsの概要

Hugging Faceの「HUGS」とNvidiaの「NIMs」は、AIモデルをクラウドやオンプレミスで手軽に運用できるサービスである。両者とも、事前に最適化されたコンテナを提供することで、ユーザーは複雑な設定や調整を行わずに大規模言語モデル(LLM)を利用できる。

NvidiaのNIMsは、同社のTensorRTやvLLMを活用したGPU向けに最適化されたサービスであるのに対し、HUGSはオープンソースを基盤とし、幅広いハードウェアでの展開を可能にする点が特徴だ。DockerやKubernetes環境でのコンテナ展開に加え、標準的なOpenAI APIを通じてアクセスできるため、開発者にとって柔軟性が高い。

幅広いハードウェア対応がもたらすメリットと限界

HUGSの大きな特徴は、NvidiaのGPUだけでなく、AMDのGPUやAmazonのInferentia、GoogleのTPUなど、さまざまなハードウェアで利用できる点にある。この多様なハードウェア対応により、ユーザーは特定のベンダーへの依存を避け、コスト削減や柔軟なインフラ選択を可能にする。

ただし、対応範囲が広がる一方で、IntelのGaudiアクセラレータには対応していないなど、一部のプラットフォームでは利用が制限される。また、幅広いハードウェアで同等の性能を発揮するためには、さらなる最適化が必要であり、これがNIMsに対する課題となる。

コスト比較:HUGSとNIMsのクラウド料金と展開の違い

HUGSとNIMsは共に時間課金制を採用しているが、その価格設定には違いがある。HUGSはAWSやGoogle Cloudで1時間あたり約1ドルで提供される一方、NIMsは1GPUあたり1時間1ドル、オンプレミスでは年間4,500ドルの費用がかかる。

このため、大規模なモデルを展開する場合、HUGSのほうが費用対効果が高いとされる。例えば、MetaのLlama 3.1 405Bを8つのGPUで運用する際、HUGSはNIMsに比べて大幅にコストを削減できる。しかし、料金の差が性能や安定性にどの程度影響するかについては、今後の評価が必要である。

将来展望とHugging Faceのモデル展開戦略

Hugging Faceは、すでにMetaやMistral、Google、Alibabaなどの主要なオープンモデルに対応しており、今後さらに多様なモデルのサポートを拡大する計画を発表している。特に、MicrosoftのPhiシリーズのモデルも対象に含まれる見込みだ。

また、DigitalOceanでのGPU対応インスタンスや、Hugging FaceのEnterprise Hubを通じた自社インフラ展開も可能であり、ユーザーは多様なプラットフォームでAIモデルを活用できる。これにより、AI活用の範囲が一層広がることが期待されているが、NIMsとの競争が激化する中で、独自性をどう維持するかが課題となる。