社内LLM導入について
社内LLM導入に向けたGPUスペックの見積もり方
社内で大規模言語モデル、いわゆる LLM を導入・運用するにあたって、GPU または TPU のスペックを見積もるには、いくつかの重要なポイントがあります。
まず大きく分けて、以下の5つの要素を考慮する必要があります。
・1つ目は、モデルのサイズです。
たとえば LLaMA2 や Mistral、Gemma のようなオープンソースモデルでは、7B、13B、70B といったパラメータ数の違いがあります。
モデルが大きくなるほど、必要なメモリ量、つまり GPU の VRAM が増えます。
・2つ目は、利用用途です。
単純な Q&A か、ドキュメント生成、コード補完、チャットボットなど、目的によって処理負荷が大きく変わります。
・3つ目は、同時に使う人数(同時アクセス数)です。
例えば10人が同時に使うのか、それとも100人か。
これによって必要なスループット、バッチ処理能力が変わります。
・4つ目は、1回のプロンプトで使われるトークン数です。
トークンというのは、言葉を構成する単位です。
たとえば「今日はいい天気ですね」という一文でも、数トークンに分割されます。
やり取りが長くなるほど、モデルの負荷も上がります。
・最後は、応答の速さ(レスポンスタイム)の要求レベルです。
ユーザーが数秒待てる場合と、リアルタイムで返事が必要な場合とでは、求められる GPU 性能も異なります。
💡 では、どのくらいの GPU が必要か?
モデルのサイズに応じて、大体以下のように見積もることができます:
モデル | パラメータ数 | FP16 モデルの場合の目安 | INT4(量子化) |
---|---|---|---|
LLaMA2 7B | 約70億 | 約13〜14GB | 約4GB |
LLaMA2 13B | 約130億 | 約26〜28GB | 約7GB |
LLaMA2 70B | 約700億 | 140〜160GB | 35〜40GB |
このように、量子化(INT4)を使えば、GPUメモリの使用量を半分以下に抑えることも可能です。
実際の社内利用では、vLLM のような推論エンジンを使うと、効率的に GPU を使ってスループットを上げることができます。
もし小規模なチームで使う場合には、
- A100 40GB
- L40S 48GB
のような GPU 1枚でも、7B〜13B のモデルで十分に回せます。
70Bクラスのモデルを扱う場合は、GPU を複数枚使ったクラスタ構成、あるいはクラウド上のインフラが必要になります。
以上が、LLM の社内運用に必要な GPU/TPU スペックの基本的な見積もりになります。
ご質問があれば、ぜひどうぞ。