Ollama 빠른 참조 - 가장 유용한 명령어 - 2026 업데이트

며칠 전에 이 오알라마 명령어 목록을 정리했습니다.

Page content

다음은 가장 유용한 Ollama 명령어의 목록과 예시입니다 (Ollama 명령어 참고표)
나는 이 목록을 몇 년 전에 정리했으며, 마지막으로 2026년 1월에 업데이트했습니다.
이 목록이 당신에게도 도움이 되기를 바랍니다 (유용하게 사용해 보세요).

ollama 참고표

이 Ollama 참고표는 CLI 명령어, 모델 관리 및 커스터마이징에 초점을 맞추고 있지만, 여기서는 curl 호출도 포함하고 있습니다.

다른 로컬 LLM 호스팅 솔루션을 비교하고 있다면, 우리의 Ollama, vLLM, LocalAI, Jan, LM Studio 및 기타와의 포괄적 비교를 확인해 보세요. 명령행 인터페이스 대안을 찾고 있다면, Docker 모델 러너은 LLM 배포에 대한 다른 접근 방식을 제공합니다.

설치

  • 옵션 1: 웹사이트에서 다운로드
    • ollama.com에 방문하여 운영체제(Mac, Linux 또는 Windows)에 맞는 설치 파일을 다운로드하세요.
  • 옵션 2: 명령행을 통해 설치
    • Mac 및 Linux 사용자는 다음 명령어를 사용하세요:
curl https://ollama.ai/install.sh | sh
  • 화면에 표시된 지시사항을 따르고, 비밀번호가 요청되면 입력하세요.

시스템 요구 사항

진짜로 AI 작업을 수행하려면 하드웨어 옵션을 비교하는 것이 좋습니다. 우리는 NVIDIA DGX Spark vs Mac Studio vs RTX-4080 성능 비교를 벤치마킹했고, 고성능 하드웨어를 고려 중이라면, 우리의 DGX Spark 가격 및 기능 비교가 상세한 비용 분석을 제공합니다.

기본 Ollama CLI 명령어

명령어 설명
ollama serve 로컬 시스템에서 Ollama를 시작합니다.
ollama create <new_model> 기존 모델에서 새로운 모델을 생성하여 커스터마이징 또는 훈련에 사용합니다.
ollama show <model> 특정 모델에 대한 세부 정보를 표시합니다 (예: 구성 및 출시 날짜).
ollama run <model> 지정된 모델을 실행하여 상호작용 준비를 합니다.
ollama pull <model> 지정된 모델을 시스템에 다운로드합니다.
ollama list 다운로드된 모든 모델을 나열합니다. ollama ls와 동일합니다.
ollama ps 현재 실행 중인 모델을 표시합니다.
ollama stop <model> 지정된 실행 중인 모델을 중지합니다.
ollama rm <model> 지정된 모델을 시스템에서 제거합니다.
ollama help 모든 명령어에 대한 도움을 제공합니다.

모델 관리

  • 모델 다운로드:

    ollama pull mistral-nemo:12b-instruct-2407-q6_K
    

    이 명령어는 지정된 모델 (예: Gemma 2B 또는 mistral-nemo:12b-instruct-2407-q6_K)을 시스템에 다운로드합니다. 모델 파일은 매우 크므로, 하드디스크 또는 SSD에 모델이 사용하는 공간을 주의 깊게 확인하세요. 모든 Ollama 모델을 홈 디렉토리에서 더 큰 드라이브로 이동하고 싶다면, 여기를 참고하세요 모든 Ollama 모델을 홈 디렉토리에서 다른 드라이브로 이동

  • 모델 실행:

    ollama run qwen2.5:32b-instruct-q3_K_S
    

    이 명령어는 지정된 모델을 실행하고, 상호작용을 위한 인터랙티브 REPL을 열어줍니다. Ollama가 여러 병렬 요청을 어떻게 처리하는지 알고 싶다면, 우리의 상세한 분석을 참고하세요 Ollama가 병렬 요청을 어떻게 처리하는지

  • 모델 목록:

    ollama list
    

    이는 다음과 동일합니다:

    ollama ls
    

    이 명령어는 시스템에 다운로드된 모든 모델을 나열합니다, 예를 들어:

    $ ollama ls
    이름                                                    ID              크기      수정 시간     
    deepseek-r1:8b                                          6995872bfe4c    5.2 GB    2주 전     
    gemma3:12b-it-qat                                       5d4fa005e7bb    8.9 GB    2주 전     
    LoTUs5494/mistral-small-3.1:24b-instruct-2503-iq4_NL    4e994e0f85a0    13 GB     3주 전     
    dengcao/Qwen3-Embedding-8B:Q4_K_M                       d3ca2355027f    4.7 GB    4주 전     
    dengcao/Qwen3-Embedding-4B:Q5_K_M                       7e8c9ad6885b    2.9 GB    4주 전     
    qwen3:8b                                                500a1f067a9f    5.2 GB    5주 전     
    qwen3:14b                                               bdbd181c33f2    9.3 GB    5주 전     
    qwen3:30b-a3b                                           0b28110b7a33    18 GB     5주 전     
    devstral:24b                                            c4b2fa0c33d7    14 GB     5주 전  
    
  • 모델 중지:

    ollama stop llama3.1:8b-instruct-q8_0
    

    이 명령어는 지정된 실행 중인 모델을 중지합니다.

VRAM에서 모델 해제

모델이 VRAM(그래픽 카드 메모리)에 로드되면, 사용이 끝난 후에도 그대로 남아 있습니다. 모델을 VRAM에서 명시적으로 해제하고 그래픽 카드 메모리를 해제하려면 Ollama API에 keep_alive: 0을 포함한 요청을 보낼 수 있습니다.

  • curl을 사용하여 VRAM에서 모델 해제:
curl http://localhost:11434/api/generate -d '{"model": "MODELNAME", "keep_alive": 0}'

MODELNAME을 실제 모델 이름으로 대체하세요, 예를 들어:

curl http://localhost:11434/api/generate -d '{"model": "qwen3:14b", "keep_alive": 0}'
  • Python을 사용하여 VRAM에서 모델 해제:
import requests

response = requests.post(
    'http://localhost:11434/api/generate',
    json={'model': 'qwen3:14b', 'keep_alive': 0}
)

이것은 다음과 같은 경우에 특히 유용합니다:

  • 다른 애플리케이션을 위해 그래픽 카드 메모리를 해제해야 할 때
  • 여러 모델을 실행하고 있으며 VRAM 사용량을 관리하고 싶을 때
  • 큰 모델을 사용했고 즉시 자원을 해제하고 싶을 때

참고: keep_alive 파라미터는 마지막 요청 이후 모델이 메모리에 얼마나 오래 유지되는지(초 단위)를 제어합니다. 0으로 설정하면 모델이 즉시 VRAM에서 해제됩니다.

모델 커스터마이징

  • 시스템 프롬프트 설정: Ollama REPL 내에서 시스템 프롬프트를 설정하여 모델의 행동을 커스터마이징할 수 있습니다:

    >>> /set system 모든 질문에 대해 가능한 한 기술 용어를 피하고 일반 영어로 답변하라
    >>> /save ipe
    >>> /bye
    

    커스터마이징된 모델을 실행하려면:

    ollama run ipe
    

    이는 시스템 프롬프트를 설정하고 모델을 미래 사용을 위해 저장합니다.

  • 커스터마이징된 모델 파일 생성: 다음 구조를 가진 텍스트 파일 (예: custom_model.txt)을 생성하세요:

    FROM llama3.1
    SYSTEM [여기에 커스터마이징된 지시사항을 입력하세요]
    

    그런 다음 실행하세요:

    ollama create mymodel -f custom_model.txt
    ollama run mymodel
    

    이는 파일에 있는 지시사항에 기반한 커스터마이징된 모델을 생성합니다.

Ollama와 파일 사용

  • 파일의 텍스트 요약:

    ollama run llama3.2 "이 파일의 내용을 50자로 요약해 주세요." < input.txt
    

    이 명령어는 지정된 모델을 사용하여 input.txt의 내용을 요약합니다.

  • 모델 응답을 파일에 기록:

    ollama run llama3.2 "재생 가능한 에너지에 대해 말해 주세요." > output.txt
    

    이 명령어는 모델의 응답을 output.txt에 저장합니다.

일반적인 사용 사례

  • 텍스트 생성:

    • 큰 텍스트 파일 요약:
      ollama run llama3.2 "다음 텍스트를 요약해 주세요:" < long-document.txt
      
    • 콘텐츠 생성:
      ollama run llama3.2 "AI를 의료에 사용하는 이점에 대해 짧은 기사를 작성해 주세요." > article.txt
      
    • 특정 질문 답변:
      ollama run llama3.2 "AI의 최신 트렌드는 무엇이며, 이는 의료에 어떤 영향을 미칠까요?"
      

    .

  • 데이터 처리 및 분석:

    • 텍스트의 긍정, 부정 또는 중립 감정 분류:
      ollama run llama3.2 "이 고객 리뷰의 감정을 분석해 주세요: '제품은 훌륭하지만 배송이 느렸어요.'"
      
    • 사전 정의된 범주에 텍스트 분류: 유사한 명령어를 사용하여 사전 정의된 기준에 따라 텍스트를 분류하거나 범주화할 수 있습니다.

Python과 Ollama 사용

  • Ollama Python 라이브러리 설치:
    pip install ollama
    
  • Python을 사용하여 텍스트 생성:
    import ollama
    
    response = ollama.generate(model='gemma:2b', prompt='qubit란 무엇인가요?')
    print(response['response'])
    
    이 코드 조각은 지정된 모델과 프롬프트를 사용하여 텍스트를 생성합니다.

고급 Python 통합을 원하시면, Python에서 Ollama의 웹 검색 API 사용를 참조하세요. 이는 웹 검색 기능, 도구 호출 및 MCP 서버 통합을 다룹니다. AI 기반 애플리케이션을 개발하고 있다면, 우리의 AI 코딩 어시스턴트 비교가 개발에 적합한 도구를 선택하는 데 도움을 줄 수 있습니다.

웹 기반 인터페이스를 원하시면, Open WebUI가 RAG 기능 및 다중 사용자 지원을 제공하는 자체 호스팅 인터페이스를 제공합니다. 고성능 프로덕션 배포를 원하시면, vLLM 대안를 고려해 보세요.

유용한 링크

대안 및 비교

성능 및 하드웨어

통합 및 개발

구성 및 관리