Gateアプリをダウンロードするにはスキャンしてください
qrCode
その他のダウンロードオプション
今日はこれ以上表示しない

ローカルのオープンソースAIモデルを自分で運営するのは簡単です—方法はこれです

デクリプトのアート、ファッション、エンターテインメントハブ。


SCENEを見る

\u003e\u003e\u003e\u003e gd2md-html アラート: 生成されたソース内のインライン画像リンクおよび画像をサーバーに保存します。注意: Google Docsからエクスポートされたzipファイル内の画像は、ドキュメント内の順序と同じにならない場合があります。画像を確認してください!

----->

もしあなたが開発者でないなら、なぜ自宅のコンピューターでオープンソースのAIモデルを実行したいと思うのでしょうか?

実際、いくつかの良い理由があります。そして、無料でオープンソースのモデルがこれまで以上に優れており、使いやすく、最小限のハードウェア要件で済むので、今が試す絶好の時期です。

オープンソースモデルがChatGPT、Perplexity、またはGoogleに月額$20 を支払うよりも優れている理由をいくつか紹介します:

  • 無料です。サブスクリプション料金はかかりません。
  • あなたのデータはあなたの機械に留まります。
  • オフラインで動作し、インターネットは必要ありません。
  • 特定のユースケースに合わせてモデルをトレーニングし、カスタマイズできます。たとえば、クリエイティブライティングや… まあ、何でも。

参入障壁が崩壊しました。今、ユーザーがライブラリ、依存関係、プラグインを独自にインストールする手間なしにAIを試すことができる専門プログラムがあります。比較的新しいコンピュータを持っているほとんどの人がこれを行うことができます:8GBのビデオメモリを搭載した中程度のノートパソコンまたはデスクトップで、驚くほど能力のあるモデルを実行できます。また、一部のモデルは6GBまたは4GBのVRAMでも動作します。そして、Appleの場合、最近数年のMシリーズチップ(は最適化されたモデルを実行できるでしょう。

ソフトウェアは無料で、セットアップは数分で完了し、最も intimidating なステップ—どのツールを使用するかを選ぶこと—は単純な質問に帰着します: ボタンをクリックするのが好きですか、それともコマンドを入力するのが好きですか?

LMスタジオ vs. オラマ

地元のAI分野では2つのプラットフォームが支配しており、それぞれ反対のアプローチで問題に取り組んでいます。

LM Studioはすべてを洗練されたグラフィカルインターフェースにまとめています。アプリをダウンロードし、内蔵のモデルライブラリを閲覧し、クリックしてインストールし、チャットを開始するだけです。この体験はChatGPTを使用するのに似ていますが、処理はあなたのハードウェアで行われます。Windows、Mac、Linuxユーザーは同じスムーズな体験を得ることができます。初心者にとって、これは明らかな出発点です。

Ollamaは、ターミナルで作業する開発者やパワーユーザーを対象としています。コマンドラインからインストールし、1つのコマンドでモデルを取得し、あとは心ゆくまでスクリプトや自動化を行えます。軽量で速く、プログラミングワークフローにきれいに統合されます。

学習曲線は急ですが、報酬は柔軟性です。また、これはパワーユーザーが汎用性とカスタマイズ性のために選ぶものでもあります。

両方のツールは、同じ基盤となるモデルを同一の最適化エンジンを使用して実行しています。パフォーマンスの違いはわずかです。

LMスタジオの設定

あなたのオペレーティングシステム用のインストーラーを訪れてダウンロードしてください。ファイルのサイズは約540MBです。インストーラーを実行し、指示に従ってください。アプリケーションを起動します。

ヒント1: どのタイプのユーザーか尋ねられたら、「開発者」を選択してください。他のプロフィールは、物事を簡単にするためにオプションを隠すだけです。

ヒント2: OSS、OpenAIのオープンソースAIモデルのダウンロードを推奨します。しかし、今は「スキップ」をクリックしてください。もっと良く、より小さなモデルがあります。

VRAM: ローカルAIを実行するための鍵

LM Studioをインストールすると、プログラムは実行可能になり、このように見えます:

今、LLMが機能する前にモデルをダウンロードする必要があります。そして、モデルが強力であればあるほど、より多くのリソースが必要になります。

重要なリソースはVRAM、つまりグラフィックカードのビデオメモリです。LLMは推論中にVRAMにロードされます。十分なスペースがない場合、パフォーマンスが低下し、システムは遅いシステムRAMに頼らざるを得なくなります。実行したいモデルに対して十分なVRAMを確保することで、それを避けることができます。

VRAMの量を知るには、Windowsタスクマネージャーに入り、)control+alt+del(を押してGPUタブをクリックし、Intel/AMDプロセッサの統合グラフィックスではなく、専用グラフィックスカードを選択していることを確認してください。

"専用GPUメモリ"セクションで、どれだけのVRAMを持っているかがわかります。

MシリーズのMacでは、RAMとVRAMを共有しているため、物事は簡単です。あなたのマシンのRAMの量は、アクセスできるVRAMと等しくなります。

確認するには、Appleロゴをクリックし、次に「このMacについて」をクリックします。メモリは見えますか?それがあなたのVRAMの量です。

少なくとも8GBのVRAMが必要です。7〜9億パラメータ範囲のモデルは、4ビット量子化を使用して圧縮されており、快適に適合しながら強力なパフォーマンスを提供します。モデルが量子化されている場合、開発者が通常その名前に開示します。名前にBF、FP、またはGGUFが含まれている場合、量子化されたモデルを見ていることになります。)FP32、FP16、FP8、FP4(の数が低いほど、消費するリソースは少なくなります。

リンゴとリンゴではありませんが、量子化を画面の解像度として想像してください。8K、4K、1080p、または720pで同じ画像を見ることができます。解像度に関係なくすべてを把握できますが、ズームインして詳細にこだわると、4K画像は720pよりも多くの情報を持っていることがわかりますが、レンダリングにはより多くのメモリとリソースが必要になります。

しかし理想的には、本当に真剣であれば、24GBのVRAMを搭載した素晴らしいゲーミングGPUを購入すべきです。それが新しいかどうかは関係ありませんし、どれほど速いか強力かも関係ありません。AIの世界では、VRAMが王様です。

VRAMをどれだけ利用できるかを把握したら、VRAM計算機にアクセスして、どのモデルを実行できるかを確認できます。または、単に40億パラメータ未満の小さなモデルから始めて、コンピュータがメモリ不足だと教えてくれるまで大きなモデルにステップアップしていきます。)この技術についてはもう少し後で。(

モデルをダウンロードしています

ハードウェアの限界を知ったら、モデルをダウンロードする時です。左のサイドバーの虫眼鏡アイコンをクリックして、名前でモデルを検索します。

QwenとDeepSeekは、あなたの旅を始めるために使うのに良いモデルです。はい、彼らは中国製ですが、監視されることを心配しているなら、安心してください。ローカルでLLMを実行すると、何もあなたのマシンを離れないので、中国やアメリカ政府、または企業によって監視されることはありません。

ウイルスに関して言えば、私たちが推奨しているものはすべてHugging Face経由で提供されており、ソフトウェアはすぐにスパイウェアやその他のマルウェアがチェックされます。しかし、アメリカのモデルとしてはMetaのLlamaが最も優れているので、愛国者であればそれを選ぶことをお勧めします。)最後のセクションでは他の推奨も提供しています。(

モデルは、トレーニングデータセットやそれを構築するために使用されるファインチューニング技術によって異なる動作をすることに注意してください。イーロン・マスクのGrokは別として、偏りのないモデルなど存在しません。偏りのない情報など存在しないからです。したがって、地政学にどれだけ関心があるかに応じて選択してください。

今のところ、3B )小型モデル(と7Bバージョンの両方をダウンロードしてください。7Bを実行できるなら、3B )を削除して、13Bバージョンをダウンロードして実行してみてください。その後も続けてください(。7Bバージョンを実行できない場合は、それを削除して3Bバージョンを使用してください。

ダウンロードが完了したら、「マイモデル」セクションからモデルを読み込んでください。チャットインターフェースが表示されます。メッセージを入力してください。モデルが応答します。おめでとうございます:ローカルAIを実行しています。

モデルにインターネットアクセスを与える

デフォルトでは、ローカルモデルはウェブをブラウジングできません。設計上、彼らは孤立しているため、内部知識に基づいて彼らと反復作業を行うことになります。彼らは短編小説の執筆、質問への回答、コーディングなどには適していますが、最新のニュースを提供したり、天気を教えたり、メールを確認したり、会議のスケジュールを設定したりすることはできません。

モデルコンテキストプロトコルサーバーはこれを変更します。

MCPサーバーは、あなたのモデルと外部サービスの間のブリッジとして機能します。AIにGoogleを検索させたり、GitHubリポジトリをチェックさせたり、ウェブサイトを読むようにしたいですか?MCPサーバーがそれを可能にします。LM Studioはバージョン0.3.17でMCPサポートを追加し、プログラムタブからアクセスできます。各サーバーは特定のツール—ウェブ検索、ファイルアクセス、API呼び出し—を公開します。

インターネットへのアクセスをモデルに与えたい場合、MCPサーバーの完全ガイドがセットアッププロセスを説明しており、ウェブ検索やデータベースアクセスなどの人気オプションが含まれています。

ファイルを保存すると、LM Studioが自動的にサーバーをロードします。モデルとのチャット中に、これらのツールを呼び出してライブデータを取得できるようになりました。あなたのローカルAIは今やスーパー能力を得ました。

8GBシステム向けの推奨モデル

あなたのために利用可能なLLMは文字通り何百もあり、オールラウンドなオプションから、コーディング、医学、ロールプレイ、クリエイティブライティングなどの専門的な使用ケースのために設計された微調整されたモデルまで様々です。

コーディングに最適: Nemotron または DeepSeek が良い選択です。彼らはあなたの心を吹き飛ばすことはないでしょうが、コード生成やデバッグにおいてうまく機能し、プログラミングベンチマークでほとんどの代替品を上回ります。DeepSeek-Coder-V2 6.7B は、特に多言語開発においてもう一つの優れた選択肢を提供します。

一般的な知識と推論に最適: Qwen3 8B。モデルは強力な数学的能力を持ち、複雑なクエリに効果的に対処します。そのコンテキストウィンドウは、長い文書を一貫性を失うことなく収容できます。

クリエイティブライティングに最適:DeepSeek R1 バリアントですが、かなりのプロンプトエンジニアリングが必要です。また、恐怖に適したOpenAIのGPT-OSSの「abliterated-uncensored-NEO-Imatrix」バージョンや、エロティカに適したDirty-Muse-Writerのような無修正のファインチューンもあります)と言われています(。

チャットボット、ロールプレイ、インタラクティブフィクション、カスタマーサービスに最適: Mistral 7B ) 特に Undi95 DPO Mistral 7B( と大きなコンテキストウィンドウを持つLlamaのバリアント。MythoMax L2 13Bは、長い会話の中でキャラクターの特性を維持し、トーンを自然に適応させます。他のNSFWロールプレイについては、多くのオプションがあります。このリストのいくつかのモデルをチェックしてみると良いでしょう。

MCP用: Jan-v1-4bとPokee Research 7bは、新しいものを試したい場合におすすめのモデルです。DeepSeek R1も良い選択肢です。

すべてのモデルは、名前を検索するだけでLM Studioから直接ダウンロードできます。

オープンソースのLLMの状況は急速に変化しています。新しいモデルが毎週発表され、それぞれが改善を主張しています。LM Studioでそれらをチェックするか、Hugging Faceのさまざまなリポジトリをブラウズしてみてください。自分でテストオプションを試してみてください。悪いフィットは、ぎこちない表現、繰り返しのパターン、事実の誤りのおかげで素早く明らかになります。良いモデルは違った感覚を持ちます。彼らは推論します。彼らはあなたを驚かせます。

技術は機能しています。ソフトウェアは準備完了です。あなたのコンピュータはおそらくすでに十分なパワーを持っています。残るは試すだけです。

OWN-0.03%
原文表示
このページには第三者のコンテンツが含まれている場合があり、情報提供のみを目的としております(表明・保証をするものではありません)。Gateによる見解の支持や、金融・専門的な助言とみなされるべきものではありません。詳細については免責事項をご覧ください。
  • 報酬
  • コメント
  • リポスト
  • 共有
コメント
0/400
コメントなし
  • ピン