真砂第一団地4の4の2に住んでいる盛と申します。
エキサイト株式会社を通じて、光回線「ファミリータイプ」を導入したいと考えておりまして、その関係でいくつか確認させていただきたい点がございます。
まず、直近で建物にマンションタイプの回線設備が導入されたようなことはございましたでしょうか?
もしなければ、ファミリータイプを新たに引き込むことになりますので、以下の点についてご確認・ご許可いただく必要があると、回線提供会社から案内を受けております。
- 管理会社様の情報(お名前、ご住所、ご連絡先など)を提供いただけますでしょうか?
- 「ファミリータイプの光回線」を部屋まで引き込むことについて、許可をいただけますでしょうか?
- 建物にMDF室(配線盤の部屋)がある場合、施錠されているかをご確認いただけますか?
(もし施錠されている場合、工事日当日に開錠をお願いすることになります。) - 外壁に配線を固定するための金具(引き止め金具など)を取り付けることは可能でしょうか?
- 配管やダクトから引き込めない場合、壁に直径1cmほどの穴をあけて引き込む可能性がありますが、こちらもご許可いただけますか?
工事は NTT が指定する業者によって行われ、「フレッツ光」の導入工事と同様の内容になると説明を受けております。
お手数をおかけいたしますが、どうぞよろしくお願いいたします。
社内LLM導入に向けたGPUスペックの見積もり方
社内で大規模言語モデル、いわゆる LLM を導入・運用するにあたって、GPU または TPU のスペックを見積もるには、いくつかの重要なポイントがあります。
まず大きく分けて、以下の5つの要素を考慮する必要があります。
・1つ目は、モデルのサイズです。
たとえば LLaMA2 や Mistral、Gemma のようなオープンソースモデルでは、7B、13B、70B といったパラメータ数の違いがあります。
モデルが大きくなるほど、必要なメモリ量、つまり GPU の VRAM が増えます。
・2つ目は、利用用途です。
単純な Q&A か、ドキュメント生成、コード補完、チャットボットなど、目的によって処理負荷が大きく変わります。
・3つ目は、同時に使う人数(同時アクセス数)です。
例えば10人が同時に使うのか、それとも100人か。
これによって必要なスループット、バッチ処理能力が変わります。
・4つ目は、1回のプロンプトで使われるトークン数です。
トークンというのは、言葉を構成する単位です。
たとえば「今日はいい天気ですね」という一文でも、数トークンに分割されます。
やり取りが長くなるほど、モデルの負荷も上がります。
・最後は、応答の速さ(レスポンスタイム)の要求レベルです。
ユーザーが数秒待てる場合と、リアルタイムで返事が必要な場合とでは、求められる GPU 性能も異なります。
💡 では、どのくらいの GPU が必要か?
モデルのサイズに応じて、大体以下のように見積もることができます:
モデル | パラメータ数 | FP16 モデルの場合の目安 | INT4(量子化) |
---|---|---|---|
LLaMA2 7B | 約70億 | 約13〜14GB | 約4GB |
LLaMA2 13B | 約130億 | 約26〜28GB | 約7GB |
LLaMA2 70B | 約700億 | 140〜160GB | 35〜40GB |
このように、量子化(INT4)を使えば、GPUメモリの使用量を半分以下に抑えることも可能です。
実際の社内利用では、vLLM のような推論エンジンを使うと、効率的に GPU を使ってスループットを上げることができます。
もし小規模なチームで使う場合には、
- A100 40GB
- L40S 48GB
のような GPU 1枚でも、7B〜13B のモデルで十分に回せます。
70Bクラスのモデルを扱う場合は、GPU を複数枚使ったクラスタ構成、あるいはクラウド上のインフラが必要になります。
以上が、LLM の社内運用に必要な GPU/TPU スペックの基本的な見積もりになります。
ご質問があれば、ぜひどうぞ。