社内LLM導入について

真砂まさご第だい一いち団地だんち４よんの４よんの２にに住んですんでいる盛と申しもうします。

エキサイトえきさいと株式かぶしき会社かいしゃを通じてつうじて、光ひかり回線かいせん「ファミリーふぁみりータイプたいぷ」を導入どうにゅうしたいと考えてかんがえておりまして、その関係かんけいでいくつか確認かくにんさせていただきたい点てんがございます。

まず、直近ちょっきんで建物たてものにマンションまんしょんタイプたいぷの回線かいせん設備せつびが導入どうにゅうされたようなことはございましたでしょうか？

もしなければ、ファミリーふぁみりータイプたいぷを新たにあらたに引きひき込むこむことになりますので、以下いかの点てんについてご確認かくにん・ご許可きょかいただく必要ひつようがあると、回線かいせん提供ていきょう会社かいしゃから案内あんないを受けてうけております。

管理かんり会社かいしゃ様さまの情報じょうほう（お名前なまえ、ご住所じゅうしょ、ご連絡れんらく先さきなど）を提供ていきょういただけますでしょうか？
「ファミリーふぁみりータイプたいぷの光ひかり回線かいせん」を部屋へやまで引きひき込むこむことについて、許可きょかをいただけますでしょうか？
建物たてものにMDF室しつ（配線はいせん盤ばんの部屋へや）がある場合ばあい、施錠せじょうされているかをご確認かくにんいただけますか？
（もし施錠せじょうされている場合ばあい、工事こうじ日にち当日とうじつに開錠かいじょうをお願いねがいすることになります。）
外壁がいへきに配線はいせんを固定こていするための金具かなぐ（引き止めひきとめ金具かなぐなど）を取り付けるとりつけることは可能でしょうかのうでしょうか？
配管はいかんやダクトだくとから引きひき込めこめない場合ばあい、壁かべに直径ちょっけい1cmほどの穴あなをあけて引きひき込むこむ可能かのう性せいがありますが、こちらもご許可きょかいただけますか？

工事こうじは NTT が指定していする業者ぎょうしゃによって行わおこなわれ、「フレッツ光ひかり」の導入どうにゅう工事こうじと同様のどうようの内容ないようになると説明せつめいを受けてうけております。

お手数てすうをおかけいたしますが、どうぞよろしくお願いねがいいたします。

社内LLM導入に向けたGPUスペックの見積もり方

社しゃ内ないで大だい規模きぼ言語げんごモデルもでる、いわゆる LLM を導入どうにゅう・運用うんようするにあたって、GPU または TPU のスペックを見積もるみつもるには、いくつかの重要なじゅうようなポイントぽいんとがあります。

まず大きくおおきく分けてわけて、以下いかの5つの要素ようそを考慮こうりょする必要ひつようがあります。

・1つ目めは、モデルもでるのサイズさいずです。
たとえば LLaMA2 や Mistral、Gemma のようなオープンソースモデルもでるでは、7B、13B、70B といったパラメータぱらめーた数すうの違いちがいがあります。
モデルもでるが大きくおおきくなるほど、必要なひつようなメモリめもり量りょう、つまり GPU の VRAM が増えふえます。

・2つ目めは、利用りよう用途ようとです。
単純なたんじゅんな Q&A か、ドキュメントどきゅめんと生成せいせい、コードこーど補完ほかん、チャットちゃっとボットなど、目的もくてきによって処理しょり負荷ふかが大きくおおきく変わりかわります。

・3つ目めは、同時にどうじに使うつかう人数にんずう（同時どうじアクセスあくせす数すう）です。
例えばたとえば10人にんが同時にどうじに使うつかうのか、それとも100人にんか。
これによって必要なひつようなスループット、バッチ処理しょり能力のうりょくが変わりかわります。

・4つ目めは、1回かいのプロンプトで使わつかわれるトークン数すうです。
トークンというのは、言葉ことばを構成こうせいする単位たんいです。
たとえば「今日きょうはいい天気てんきですね」という一文いちぶんでも、数すうトークンに分割ぶんかつされます。
やり取りやりとりが長くながくなるほど、モデルもでるの負荷ふかも上がりあがります。

・最後さいごは、応答おうとうの速はやさ（レスポンスれすぽんすタイムたいむ）の要求ようきゅうレベルれべるです。
ユーザーゆーざーが数すう秒びょう待てるまてる場合ばあいと、リアルりあるタイムたいむで返事へんじが必要なひつような場合ばあいとでは、求めもとめられる GPU 性能せいのうも異なりことなります。

💡 では、どのくらいの GPU が必要ひつようか？

モデルもでるのサイズさいずに応じておうじて、大体だいたい以下いかのように見積もるみつもることができます：

モデルもでる	パラメータぱらめーた数すう	FP16 モデルもでるの場合ばあいの目安めやす	INT4（量子りょうし化か）
LLaMA2 7B	約やく70億	約やく13〜14GB	約やく4GB
LLaMA2 13B	約やく130億	約やく26〜28GB	約やく7GB
LLaMA2 70B	約やく700億	140〜160GB	35〜40GB

このように、量子りょうし化か（INT4）を使えばつかえば、GPUメモリめもりの使用しよう量りょうを半分はんぶん以下いかに抑えるおさえることも可能ですかのうです。

実際じっさいの社しゃ内ない利用りようでは、vLLM のような推論すいろんエンジンえんじんを使うつかうと、効率こうりつ的にてきに GPU を使ってつかってスループットを上げるあげることができます。

もし小しょう規模きぼなチームちーむで使うつかう場合ばあいには、

A100 40GB
L40S 48GB
のような GPU 1枚まいでも、7B〜13B のモデルもでるで十分にじゅうぶんに回せまわせます。

70Bクラスくらすのモデルもでるを扱うあつかう場合ばあいは、GPU を複数ふくすう枚まい使ったつかったクラスタ構成こうせい、あるいはクラウド上じょうのインフラいんふらが必要にひつようになります。

以上いじょうが、LLM の社しゃ内ない運用うんように必要なひつような GPU/TPU スペックの基本きほん的なてきな見積もりみつもりになります。
ご質問しつもんがあれば、ぜひどうぞ。

社内LLM導入について

留言