Ollama チートシート - 最も役立つコマンド - 2026 年更新

以前にこのOllamaコマンドリストを編集したことがあります。

目次

以下は、Ollama コマンドのリストと例です([Ollama コマンドのチートシート](https://www.glukhov.org/ja/post/2024/12/ollama-cheatsheet/ “ollama commands cheat sheet”))。
私は以前にこれを編集し、2026年1月に最終更新しました。
このチートシートが皆さんにとっても役に立つことを願っています

ollama cheatsheet

このOllamaチートシートはCLIコマンド、モデル管理、カスタマイズに焦点を当てています。
ただし、ここにはcurlコールもいくつか含まれています。

異なるローカルLLMホスティングソリューションを比較している場合、Ollama、vLLM、LocalAI、Jan、LM Studio など12以上のローカルLLMツールの包括的な比較をぜひご参照ください。コマンドラインインターフェースの代替を探している場合は、Docker Model RunnerはLLMデプロイに異なるアプローチを提供しています。

インストール

  • オプション1: ウェブサイトからダウンロード
    • ollama.comにアクセスし、Mac、Linux、またはWindows用のインストーラーをダウンロードしてください。
  • オプション2: コマンドラインでインストール
    • MacおよびLinuxユーザーの場合、以下のコマンドを使用してください:
curl https://ollama.ai/install.sh | sh
  • 画面表示に従って、パスワードが求められた場合は入力してください。

システム要件

本格的なAIワークロードに取り組んでいる場合、ハードウェアオプションを比較することをおすすめします。私たちはNVIDIA DGX Spark vs Mac Studio vs RTX-4080のOllamaパフォーマンス比較でベンチマークを行い、高価なハードウェアを購入を検討している場合は、DGX Sparkの価格と性能比較で詳細なコスト分析をご覧ください。

基本的なOllama CLIコマンド

コマンド 説明
ollama serve あなたのローカルシステムでOllamaを起動します。
ollama create <new_model> 既存のモデルからカスタマイズまたはトレーニングのために新しいモデルを作成します。
ollama show <model> 特定のモデルの詳細(構成やリリース日など)を表示します。
ollama run <model> 指定されたモデルを実行し、インタラクション準備をします。
ollama pull <model> 指定されたモデルをあなたのシステムにダウンロードします。
ollama list ダウンロードされたすべてのモデルを一覧表示します。ollama lsと同じです。
ollama ps 現在実行中のモデルを表示します。
ollama stop <model> 指定された実行中のモデルを停止します。
ollama rm <model> 指定されたモデルをあなたのシステムから削除します。
ollama help 任意のコマンドに関するヘルプを提供します。

モデル管理

  • モデルのダウンロード:

    ollama pull mistral-nemo:12b-instruct-2407-q6_K
    

    このコマンドは、指定されたモデル(例: Gemma 2B、または mistral-nemo:12b-instruct-2407-q6_K)をあなたのシステムにダウンロードします。 モデルファイルは非常に大きいため、ハードディスクまたはSSD上のモデルが使用するスペースに注意してください。 また、すべてのOllamaモデルをホームディレクトリから別の大きなドライブに移動することも検討してください。

  • モデルの実行:

    ollama run qwen2.5:32b-instruct-q3_K_S
    

    このコマンドは指定されたモデルを起動し、インタラクティブなREPLでインタラクションが可能になります。Ollamaが複数の同時リクエストをどのように管理するかを理解したい場合は、Ollamaが並列リクエストを処理する方法に関する詳細な分析をご覧ください。

  • モデルの一覧表示:

    ollama list
    

    これは同じです:

    ollama ls
    

    このコマンドはあなたのシステムにダウンロードされたすべてのモデルを一覧表示します、例えば:

    $ ollama ls
    NAME                                                    ID              SIZE      MODIFIED     
    deepseek-r1:8b                                          6995872bfe4c    5.2 GB    2 weeks ago     
    gemma3:12b-it-qat                                       5d4fa005e7bb    8.9 GB    2 weeks ago     
    LoTUs5494/mistral-small-3.1:24b-instruct-2503-iq4_NL    4e994e0f85a0    13 GB     3 weeks ago     
    dengcao/Qwen3-Embedding-8B:Q4_K_M                       d3ca2355027f    4.7 GB    4 weeks ago     
    dengcao/Qwen3-Embedding-4B:Q5_K_M                       7e8c9ad6885b    2.9 GB    4 weeks ago     
    qwen3:8b                                                500a1f067a9f    5.2 GB    5 weeks ago     
    qwen3:14b                                               bdbd181c33f2    9.3 GB    5 weeks ago     
    qwen3:30b-a3b                                           0b28110b7a33    18 GB     5 weeks ago     
    devstral:24b                                            c4b2fa0c33d7    14 GB     5 weeks ago  
    
  • モデルの停止:

    ollama stop llama3.1:8b-instruct-q8_0
    

    このコマンドは指定された実行中のモデルを停止します。

VRAMからモデルの解放

モデルがVRAM(GPUメモリ)に読み込まれると、使用が終了した後でもそのままでいます。モデルをVRAMから明示的に解放し、GPUメモリを解放するには、keep_alive: 0を指定してOllama APIにリクエストを送信できます。

  • curlを使用してVRAMからモデルを解放:
curl http://localhost:11434/api/generate -d '{"model": "MODELNAME", "keep_alive": 0}'

MODELNAMEを実際のモデル名に置き換えてください。例えば:

curl http://localhost:11434/api/generate -d '{"model": "qwen3:14b", "keep_alive": 0}'
  • Pythonを使用してVRAMからモデルを解放:
import requests

response = requests.post(
    'http://localhost:11434/api/generate',
    json={'model': 'qwen3:14b', 'keep_alive': 0}
)

これは特に以下のケースに役立ちます:

  • 他のアプリケーションのためにGPUメモリを解放したいとき
  • 複数のモデルを実行し、VRAM使用量を管理したいとき
  • 大規模なモデルを使用し終えた後、すぐにリソースを解放したいとき

注意: keep_aliveパラメータは、最後のリクエスト後、モデルがメモリにどのくらいの時間(秒単位)保持されるかを制御します。0に設定すると、モデルがすぐにVRAMからアンロードされます。

モデルのカスタマイズ

  • システムプロンプトの設定: Ollama REPL内で、モデルの動作をカスタマイズするためにシステムプロンプトを設定できます:

    >>> /set system For all questions asked answer in plain English avoiding technical jargon as much as possible
    >>> /save ipe
    >>> /bye
    

    その後、カスタマイズされたモデルを実行します:

    ollama run ipe
    

    これにより、システムプロンプトが設定され、モデルが将来的に使用できるよう保存されます。

  • カスタムモデルファイルの作成: custom_model.txtなどのテキストファイルを作成し、以下のような構造にしてください:

    FROM llama3.1
    SYSTEM [あなたのカスタム指示をここに記入してください]
    

    次に、以下のコマンドを実行します:

    ollama create mymodel -f custom_model.txt
    ollama run mymodel
    

    これにより、ファイルに記載された指示に基づいてカスタマイズされたモデルが作成されます。

ファイルを使用してOllamaを使う

  • ファイルのテキストを要約:

    ollama run llama3.2 "Summarize the content of this file in 50 words." < input.txt
    

    このコマンドはinput.txtの内容を指定されたモデルを使って要約します。

  • モデルの応答をファイルに記録:

    ollama run llama3.2 "Tell me about renewable energy." > output.txt
    

    このコマンドはモデルの応答をoutput.txtに保存します。

一般的な使用ケース

  • テキスト生成:

    • 大規模なテキストファイルの要約:
      ollama run llama3.2 "Summarize the following text:" < long-document.txt
      
    • コンテンツの生成:
      ollama run llama3.2 "Write a short article on the benefits of using AI in healthcare." > article.txt
      
    • 特定の質問への回答:
      ollama run llama3.2 "What are the latest trends in AI, and how will they affect healthcare?"
      

    .

  • データ処理と分析:

    • テキストをポジティブ、ネガティブ、またはニュートラルな感情に分類:
      ollama run llama3.2 "Analyze the sentiment of this customer review: 'The product is fantastic, but delivery was slow.'"
      
    • 事前に定義されたカテゴリにテキストを分類: 類似したコマンドを使って、事前に定義された基準に基づいてテキストを分類またはカテゴリ化できます。

PythonでOllamaを使う

  • Ollama Pythonライブラリをインストール:
    pip install ollama
    
  • Pythonでテキストを生成:
    import ollama
    
    response = ollama.generate(model='gemma:2b', prompt='what is a qubit?')
    print(response['response'])
    
    このコードスニペットは、指定されたモデルとプロンプトを使ってテキストを生成します。

Pythonでの高度な統合については、PythonでOllamaのWeb Search APIを使用するをご覧ください。これはウェブ検索機能、ツール呼び出し、MCPサーバー統合をカバーしています。AIで動くアプリケーションを作成している場合は、AIコーディングアシスタントの比較が開発に適したツールの選択を助けるかもしれません。

ウェブベースのインターフェースを探している場合は、Open WebUIがRAG機能とマルチユーザーのサポートを備えたセルフホストされたインターフェースを提供しています。高パフォーマンスの生産性デプロイを検討している場合は、vLLMの代替を検討してください。

有用なリンク

代替案と比較

パフォーマンスとハードウェア

統合と開発

設定と管理