社内LLM導入に向けたGPUスペックの見積もり方


しゃないだい規模きぼ言語げんごモデルもでる、いわゆる LLM を導入どうにゅう運用うんようするにあたって、GPU または TPU のスペックを見積もるみつもるには、いくつかの重要なじゅうようなポイントぽいんとがあります。

まず大きくおおきく分けてわけて以下いかの5つの要素ようそ考慮こうりょする必要ひつようがあります。


・1つは、モデルもでるサイズさいずです。
たとえば LLaMA2 や Mistral、Gemma のようなオープンソースモデルもでるでは、7B、13B、70B といったパラメータぱらめーたすう違いちがいがあります。
モデルもでる大きくおおきくなるほど、必要なひつようなメモリめもりりょう、つまり GPU の VRAM が増えふえます。


・2つは、利用りよう用途ようとです。
単純なたんじゅんな Q&A か、ドキュメントどきゅめんと生成せいせいコードこーど補完ほかんチャットちゃっとボットなど、目的もくてきによって処理しょり負荷ふか大きくおおきく変わりかわります。


・3つは、同時にどうじに使うつかう人数にんずう同時どうじアクセスあくせすすう)です。
例えばたとえば10にん同時にどうじに使うつかうのか、それとも100にんか。
これによって必要なひつようなスループット、バッチ処理しょり能力のうりょく変わりかわります。


・4つは、1かいのプロンプトで使わつかわれるトークンすうです。
トークンというのは、言葉ことば構成こうせいする単位たんいです。
たとえば「今日きょうはいい天気てんきですね」という一文いちぶんでも、すうトークンに分割ぶんかつされます。
やり取りやりとり長くながくなるほど、モデルもでる負荷ふか上がりあがります。


最後さいごは、応答おうとうはやさ(レスポンスれすぽんすタイムたいむ)の要求ようきゅうレベルれべるです。
ユーザーゆーざーすうびょう待てるまてる場合ばあいと、リアルりあるタイムたいむ返事へんじ必要なひつような場合ばあいとでは、求めもとめられる GPU 性能せいのう異なりことなります。


💡 では、どのくらいの GPU が必要ひつようか?

モデルもでるサイズさいず応じておうじて大体だいたい以下いかのように見積もるみつもることができます:

モデルもでる パラメータぱらめーたすう FP16 モデルもでる場合ばあい目安めやす INT4(量子りょうし
LLaMA2 7B やく70億 やく13〜14GB やく4GB
LLaMA2 13B やく130億 やく26〜28GB やく7GB
LLaMA2 70B やく700億 140〜160GB 35〜40GB

このように、量子りょうし(INT4)を使えばつかえば、GPUメモリめもり使用しようりょう半分はんぶん以下いか抑えるおさえることも可能ですかのうです


実際じっさいしゃない利用りようでは、vLLM のような推論すいろんエンジンえんじん使うつかうと、効率こうりつ的にてきに GPU を使ってつかってスループットを上げるあげることができます。


もししょう規模きぼチームちーむ使うつかう場合ばあいには、

  • A100 40GB
  • L40S 48GB
    のような GPU 1まいでも、7B〜13B のモデルもでる十分にじゅうぶんに回せまわせます。

70Bクラスくらすモデルもでる扱うあつかう場合ばあいは、GPU を複数ふくすうまい使ったつかったクラスタ構成こうせい、あるいはクラウドじょうインフラいんふら必要にひつようになります。


以上いじょうが、LLM のしゃない運用うんよう必要なひつような GPU/TPU スペックの基本きほん的なてきな見積もりみつもりになります。
質問しつもんがあれば、ぜひどうぞ。


留言

2025-04-11