Ollama チートシート - 最も役立つコマンド - 2026 年更新
以前にこのOllamaコマンドリストを編集したことがあります。
以下は、Ollama コマンドのリストと例です([Ollama コマンドのチートシート](https://www.glukhov.org/ja/post/2024/12/ollama-cheatsheet/ “ollama commands cheat sheet”))。
私は以前にこれを編集し、2026年1月に最終更新しました。
このチートシートが皆さんにとっても役に立つことを願っています。

このOllamaチートシートはCLIコマンド、モデル管理、カスタマイズに焦点を当てています。
ただし、ここにはcurlコールもいくつか含まれています。
異なるローカルLLMホスティングソリューションを比較している場合、Ollama、vLLM、LocalAI、Jan、LM Studio など12以上のローカルLLMツールの包括的な比較をぜひご参照ください。コマンドラインインターフェースの代替を探している場合は、Docker Model RunnerはLLMデプロイに異なるアプローチを提供しています。
インストール
- オプション1: ウェブサイトからダウンロード
- ollama.comにアクセスし、Mac、Linux、またはWindows用のインストーラーをダウンロードしてください。
- オプション2: コマンドラインでインストール
- MacおよびLinuxユーザーの場合、以下のコマンドを使用してください:
curl https://ollama.ai/install.sh | sh
- 画面表示に従って、パスワードが求められた場合は入力してください。
システム要件
- オペレーティングシステム: MacまたはLinux(Windows版は開発中)
- メモリ(RAM): 最小8GB、16GB以上が推奨
- ストレージ: 約10GB以上の空き容量(モデルファイルは非常に大きく、ここに詳しく記載されています Ollamaモデルを別のドライブに移動)
- プロセッサ: 5年前のものから比較的新しいCPU(Ollamaが異なるCPUアーキテクチャをどのように利用するかについては、OllamaがIntel CPUのパフォーマンスコアと効率コアを使用する方法の分析をご覧ください)
本格的なAIワークロードに取り組んでいる場合、ハードウェアオプションを比較することをおすすめします。私たちはNVIDIA DGX Spark vs Mac Studio vs RTX-4080のOllamaパフォーマンス比較でベンチマークを行い、高価なハードウェアを購入を検討している場合は、DGX Sparkの価格と性能比較で詳細なコスト分析をご覧ください。
基本的なOllama CLIコマンド
| コマンド | 説明 |
|---|---|
ollama serve |
あなたのローカルシステムでOllamaを起動します。 |
ollama create <new_model> |
既存のモデルからカスタマイズまたはトレーニングのために新しいモデルを作成します。 |
ollama show <model> |
特定のモデルの詳細(構成やリリース日など)を表示します。 |
ollama run <model> |
指定されたモデルを実行し、インタラクション準備をします。 |
ollama pull <model> |
指定されたモデルをあなたのシステムにダウンロードします。 |
ollama list |
ダウンロードされたすべてのモデルを一覧表示します。ollama lsと同じです。 |
ollama ps |
現在実行中のモデルを表示します。 |
ollama stop <model> |
指定された実行中のモデルを停止します。 |
ollama rm <model> |
指定されたモデルをあなたのシステムから削除します。 |
ollama help |
任意のコマンドに関するヘルプを提供します。 |
モデル管理
-
モデルのダウンロード:
ollama pull mistral-nemo:12b-instruct-2407-q6_Kこのコマンドは、指定されたモデル(例: Gemma 2B、または mistral-nemo:12b-instruct-2407-q6_K)をあなたのシステムにダウンロードします。 モデルファイルは非常に大きいため、ハードディスクまたはSSD上のモデルが使用するスペースに注意してください。 また、すべてのOllamaモデルをホームディレクトリから別の大きなドライブに移動することも検討してください。
-
モデルの実行:
ollama run qwen2.5:32b-instruct-q3_K_Sこのコマンドは指定されたモデルを起動し、インタラクティブなREPLでインタラクションが可能になります。Ollamaが複数の同時リクエストをどのように管理するかを理解したい場合は、Ollamaが並列リクエストを処理する方法に関する詳細な分析をご覧ください。
-
モデルの一覧表示:
ollama listこれは同じです:
ollama lsこのコマンドはあなたのシステムにダウンロードされたすべてのモデルを一覧表示します、例えば:
$ ollama ls NAME ID SIZE MODIFIED deepseek-r1:8b 6995872bfe4c 5.2 GB 2 weeks ago gemma3:12b-it-qat 5d4fa005e7bb 8.9 GB 2 weeks ago LoTUs5494/mistral-small-3.1:24b-instruct-2503-iq4_NL 4e994e0f85a0 13 GB 3 weeks ago dengcao/Qwen3-Embedding-8B:Q4_K_M d3ca2355027f 4.7 GB 4 weeks ago dengcao/Qwen3-Embedding-4B:Q5_K_M 7e8c9ad6885b 2.9 GB 4 weeks ago qwen3:8b 500a1f067a9f 5.2 GB 5 weeks ago qwen3:14b bdbd181c33f2 9.3 GB 5 weeks ago qwen3:30b-a3b 0b28110b7a33 18 GB 5 weeks ago devstral:24b c4b2fa0c33d7 14 GB 5 weeks ago -
モデルの停止:
ollama stop llama3.1:8b-instruct-q8_0このコマンドは指定された実行中のモデルを停止します。
VRAMからモデルの解放
モデルがVRAM(GPUメモリ)に読み込まれると、使用が終了した後でもそのままでいます。モデルをVRAMから明示的に解放し、GPUメモリを解放するには、keep_alive: 0を指定してOllama APIにリクエストを送信できます。
- curlを使用してVRAMからモデルを解放:
curl http://localhost:11434/api/generate -d '{"model": "MODELNAME", "keep_alive": 0}'
MODELNAMEを実際のモデル名に置き換えてください。例えば:
curl http://localhost:11434/api/generate -d '{"model": "qwen3:14b", "keep_alive": 0}'
- Pythonを使用してVRAMからモデルを解放:
import requests
response = requests.post(
'http://localhost:11434/api/generate',
json={'model': 'qwen3:14b', 'keep_alive': 0}
)
これは特に以下のケースに役立ちます:
- 他のアプリケーションのためにGPUメモリを解放したいとき
- 複数のモデルを実行し、VRAM使用量を管理したいとき
- 大規模なモデルを使用し終えた後、すぐにリソースを解放したいとき
注意: keep_aliveパラメータは、最後のリクエスト後、モデルがメモリにどのくらいの時間(秒単位)保持されるかを制御します。0に設定すると、モデルがすぐにVRAMからアンロードされます。
モデルのカスタマイズ
-
システムプロンプトの設定: Ollama REPL内で、モデルの動作をカスタマイズするためにシステムプロンプトを設定できます:
>>> /set system For all questions asked answer in plain English avoiding technical jargon as much as possible >>> /save ipe >>> /byeその後、カスタマイズされたモデルを実行します:
ollama run ipeこれにより、システムプロンプトが設定され、モデルが将来的に使用できるよう保存されます。
-
カスタムモデルファイルの作成:
custom_model.txtなどのテキストファイルを作成し、以下のような構造にしてください:FROM llama3.1 SYSTEM [あなたのカスタム指示をここに記入してください]次に、以下のコマンドを実行します:
ollama create mymodel -f custom_model.txt ollama run mymodelこれにより、ファイルに記載された指示に基づいてカスタマイズされたモデルが作成されます。
ファイルを使用してOllamaを使う
-
ファイルのテキストを要約:
ollama run llama3.2 "Summarize the content of this file in 50 words." < input.txtこのコマンドは
input.txtの内容を指定されたモデルを使って要約します。 -
モデルの応答をファイルに記録:
ollama run llama3.2 "Tell me about renewable energy." > output.txtこのコマンドはモデルの応答を
output.txtに保存します。
一般的な使用ケース
-
テキスト生成:
- 大規模なテキストファイルの要約:
ollama run llama3.2 "Summarize the following text:" < long-document.txt - コンテンツの生成:
ollama run llama3.2 "Write a short article on the benefits of using AI in healthcare." > article.txt - 特定の質問への回答:
ollama run llama3.2 "What are the latest trends in AI, and how will they affect healthcare?"
.
- 大規模なテキストファイルの要約:
-
データ処理と分析:
- テキストをポジティブ、ネガティブ、またはニュートラルな感情に分類:
ollama run llama3.2 "Analyze the sentiment of this customer review: 'The product is fantastic, but delivery was slow.'" - 事前に定義されたカテゴリにテキストを分類: 類似したコマンドを使って、事前に定義された基準に基づいてテキストを分類またはカテゴリ化できます。
- テキストをポジティブ、ネガティブ、またはニュートラルな感情に分類:
PythonでOllamaを使う
- Ollama Pythonライブラリをインストール:
pip install ollama - Pythonでテキストを生成:
このコードスニペットは、指定されたモデルとプロンプトを使ってテキストを生成します。
import ollama response = ollama.generate(model='gemma:2b', prompt='what is a qubit?') print(response['response'])
Pythonでの高度な統合については、PythonでOllamaのWeb Search APIを使用するをご覧ください。これはウェブ検索機能、ツール呼び出し、MCPサーバー統合をカバーしています。AIで動くアプリケーションを作成している場合は、AIコーディングアシスタントの比較が開発に適したツールの選択を助けるかもしれません。
ウェブベースのインターフェースを探している場合は、Open WebUIがRAG機能とマルチユーザーのサポートを備えたセルフホストされたインターフェースを提供しています。高パフォーマンスの生産性デプロイを検討している場合は、vLLMの代替を検討してください。
有用なリンク
代替案と比較
- ローカルLLMホスティング: 2026年完全ガイド - Ollama、vLLM、LocalAI、Jan、LM Studio & その他
- vLLMクイックスタート: 高性能LLMサービング
- Docker Model Runner vs Ollama: どちらを選ぶべきか?
- Ollama Enshittificationの最初の兆候
パフォーマンスとハードウェア
- Ollamaが並列リクエストを処理する方法
- OllamaがIntel CPUのパフォーマンスと効率コアを使用する方法
- NVIDIA DGX Spark vs Mac Studio vs RTX-4080: Ollamaパフォーマンス比較
- DGX Spark vs. Mac Studio: NVIDIAの個人用AIスーパーコンピュータの実用的な価格比較
統合と開発
- PythonでOllamaのWeb Search APIを使用する
- AIコーディングアシスタントの比較
- Open WebUI: セルフホストされたLLMインターフェース
- ローカルOllamaインスタンス用のLLMオープンソースチャットUI
- 構造化された出力でLLMを制限: Ollama、Qwen3 & PythonまたはGo
- PythonとGoでOllamaを統合: REST APIとPythonクライアントの例
- Ollama用のGo SDK: 例付き比較