Ollama에서 가장 인기 있는 명령은 무엇인가요?

Ollama에서 가장 인기 있는 명령은 ollama list, ollama pull, ollama rm 및 ollama run입니다.

Ollama를 다른 LLM 호스팅 옵션과 비교할 수 있는 곳은 어디인가요?

우리의 LLM 호스팅 개요는 Ollama와 vLLM, Docker Model Runner, LocalAI 및 클라우드 제공업체를 비교하며, 비용과 인프라의 트레이드오프를 포함합니다.

Ollama가 로컬 및 클라우드 LLM 옵션 중 어디에 맞는지 어떻게 확인할 수 있나요?

LLM 호스팅 가이드는 Ollama와 vLLM과 같은 로컬 도구와 클라우드 제공업체를 비교하고 각각을 선택해야 할 때를 설명합니다.

Ollama 모델을 사용한 후 GPU 메모리를 어떻게 해제할 수 있나요?

실행 중인 모델을 중지하려면 ollama stop과 모델 이름을 사용하거나, keep_alive를 0으로 설정하여 Ollama API에 요청을 보내 모델을 즉시 VRAM에서 언로드할 수 있습니다.

Linux에서 Ollama를 설치하는 방법은 무엇인가요?

ollama.com에 접속하여 설치 프로그램을 다운로드하거나, 터미널에서 curl https://ollama.ai/install.sh | sh 명령을 실행하고 안내에 따라 진행하십시오.

Ollama를 실행하기 위한 시스템 요구 사항은 무엇인가요?

맥 또는 리눅스가 필요하며, 최소 8GB의 RAM(16GB 권장), 모델을 저장할 수 있는 약 10GB의 자유 공간, 그리고 최근 몇 년 사이에 출시된 비교적 현대적인 CPU가 필요합니다.

현재 로드되거나 실행 중인 Ollama 모델을 확인하려면 어떻게 해야 하나요?

현재 로드된 모델을 목록으로 보여주고, 그 크기, GPU 또는 CPU 사용 여부, 메모리에 얼마나 오랫동안 유지되는지 확인하려면 ollama ps를 실행하십시오.

한 줄의 프롬프트만으로 상호작용 세션을 열지 않고 Ollama 모델을 어떻게 실행할 수 있나요?

프롬프트를 ollama run에 파이프하여 전달할 수 있습니다. 예를 들어, printf “여기 질문을 입력하세요\n” | ollama run modelname 명령어는 모델을 한 번 실행한 후 종료합니다.

Ollama에서 병렬 요청을 늘리거나 제한하는 방법은 무엇인가요?

서버를 시작하기 전에 OLLAMA_NUM_PARALLEL 환경 변수를 설정하여(예: OLLAMA_NUM_PARALLEL=2 ollama serve) Ollama가 동시에 처리하는 요청 수를 제어할 수 있습니다.

Ollama 모델을 어떻게 맞춤화하거나 시스템 프롬프트를 설정할 수 있나요?

상호작용형 REPL에서 /set system을 사용한 후 /save를 실행하여 새 모델을 생성하거나, FROM 및 SYSTEM 줄이 포함된 Modelfile을 만들고 ollama create를 실행하여 맞춤형 모델을 빌드할 수 있습니다.

Ollama CLI 빠른 참고서: ls, serve, run, ps + 명령어 (2026년 업데이트)

업데이트된 Ollama 명령어 목록 - ls, ps, run, serve 등

Page content

이 Ollama CLI 빠른 참고서는 매일 사용하는 명령어(ollama ls, ollama serve, ollama run, ollama ps, 모델 관리, 일반적인 워크플로우)와 예제를 포함하고 있습니다. 복사/붙여넣기할 수 있는 예제가 포함되어 있습니다.

또한, OLLAMA_NUM_PARALLEL 및 관련 설정을 발견하고 심층적으로 분석할 수 있도록 짧은 “성능 조절 옵션” 섹션도 포함되어 있습니다.

ollama cheatsheet

이 Ollama 빠른 참고서는 CLI 명령어, 모델 관리, 맞춤 설정에 초점을 맞추고 있습니다. 하지만 여기에도 curl 호출도 포함되어 있습니다.

Ollama가 로컬, 자체 호스팅, 클라우드 옵션 중 어디에 위치하는지에 대한 전체적인 그림을 보려면 LLM 호스팅: 로컬, 자체 호스팅 및 클라우드 인프라 비교를 참조하세요. 로컬 LLM 호스팅 솔루션을 비교하고 싶다면, 우리의 Ollama, vLLM, LocalAI, Jan, LM Studio 및 기타에 대한 종합 비교를 참조하세요. 명령줄 인터페이스 대신 대안을 원한다면, Docker Model Runner는 LLM 배포에 대한 다른 접근 방식을 제공합니다.

Ollama 설치 (다운로드 및 CLI 설치)

옵션 1: 웹사이트에서 다운로드
- ollama.com을 방문하여 운영 체제(Mac, Linux 또는 Windows)에 맞는 설치 프로그램을 다운로드하세요.
옵션 2: 명령줄을 통한 설치
- Mac 및 Linux 사용자의 경우 다음 명령어를 사용하세요:

curl -fsSL https://ollama.com/install.sh | sh

화면에 표시된 지시사항을 따르고, 비밀번호가 요청되면 비밀번호를 입력하세요.

Ollama 시스템 요구 사항 (RAM, 저장소, CPU)

운영 체제: Mac, Linux 또는 Windows
메모리 (RAM): 최소 8GB, 16GB 이상 권장
저장소: 최소 약 10GB의 자유 공간 (모델 파일은 정말 크므로 여기에서 더 많은 정보를 확인하세요 Ollama 모델을 다른 드라이브로 이동 )
프로세서: 비교적 현대적인 CPU (최근 5년 이내). Ollama가 다양한 CPU 아키텍처를 어떻게 활용하는지에 대해 궁금하다면, 우리의 분석을 참조하세요 Ollama가 인텔 CPU 성능 및 효율 코어를 어떻게 활용하는지.

심각한 AI 작업량이 필요한 경우 하드웨어 옵션을 비교하는 것이 좋습니다. 우리는 NVIDIA DGX Spark vs Mac Studio vs RTX-4080 성능 비교를 벤치마크했으며, 고성능 하드웨어에 투자하고자 한다면, 우리의 DGX Spark 가격 및 기능 비교를 참조하세요. 상세한 비용 분석을 제공합니다.

기본 Ollama CLI 명령어

명령어	설명
`ollama serve`	Ollama 서버를 시작합니다 (기본 포트 11434).
`ollama run <model>`	지정된 모델을 인터랙티브 REPL에서 실행합니다.
`ollama pull <model>`	지정된 모델을 시스템으로 다운로드합니다.
`ollama push <model>`	모델을 Ollama 레지스트리에 업로드합니다.
`ollama list`	다운로드된 모든 모델을 나열합니다. `ollama ls`와 동일합니다.
`ollama ps`	현재 실행 중인 (로드된) 모델을 표시합니다.
`ollama stop <model>`	실행 중인 모델을 중지합니다 (언로드).
`ollama rm <model>`	시스템에서 모델을 제거합니다.
`ollama cp <source> <dest>`	로컬에서 새 이름으로 모델을 복사합니다.
`ollama show <model>`	모델에 대한 세부 정보를 표시합니다 (아키텍처, 파라미터, 템플릿 등).
`ollama create <model>`	Modelfile을 통해 새로운 모델을 생성합니다.
`ollama launch [integration]`	AI 코딩 어시스턴트의 제로 구성 런칭 (Claude Code, Codex, Droid, OpenCode).
`ollama signin`	Ollama 레지스트리에 인증합니다 (개인 모델 및 클라우드 모델 사용 가능).
`ollama signout`	Ollama 레지스트리에서 로그아웃합니다.
`ollama help`	어떤 명령어에 대한 도움을 제공합니다.

점프 링크: Ollama serve 명령어 · Ollama launch 명령어 · Ollama run 명령어 · Ollama run 플래그 · Ollama ps 명령어 · Ollama show 명령어 · Ollama signin · Ollama CLI 기초 · 성능 조절 옵션 (OLLAMA_NUM_PARALLEL) · 병렬 요청 심층 분석

Ollama CLI (그것이 무엇인지)

Ollama CLI는 모델을 관리하고 로컬에서 실행/호스팅하는 명령줄 인터페이스입니다. 대부분의 워크플로우는 다음과 같이 요약됩니다:

서버 시작: ollama serve
모델 실행: ollama run <model>
로드/실행 중인 항목 확인: ollama ps
모델 관리: ollama pull, ollama list, ollama rm

Ollama 모델 관리: pull 및 list 명령어

모델 목록:

ollama list

이는 다음과 같습니다:

ollama ls

이 명령어는 시스템에 다운로드된 모든 모델을 나열합니다. 그들의 파일 크기와 HDD/SSD에 저장된 정보를 포함합니다, 예를 들어

$ ollama ls
NAME                                                    ID              SIZE      MODIFIED     
deepseek-r1:8b                                          6995872bfe4c    5.2 GB    2 weeks ago     
gemma3:12b-it-qat                                       5d4fa005e7bb    8.9 GB    2 weeks ago     
LoTUs5494/mistral-small-3.1:24b-instruct-2503-iq4_NL    4e994e0f85a0    13 GB     3 weeks ago     
dengcao/Qwen3-Embedding-8B:Q4_K_M                       d3ca2355027f    4.7 GB    4 weeks ago     
dengcao/Qwen3-Embedding-4B:Q5_K_M                       7e8c9ad6885b    2.9 GB    4 weeks ago     
qwen3:8b                                                500a1f067a9f    5.2 GB    5 weeks ago     
qwen3:14b                                               bdbd181c33f2    9.3 GB    5 weeks ago     
qwen3:30b-a3b                                           0b28110b7a33    18 GB     5 weeks ago     
devstral:24b                                            c4b2fa0c33d7    14 GB     5 weeks ago

모델 다운로드: ollama pull

ollama pull mistral-nemo:12b-instruct-2407-q6_K

이 명령어는 지정된 모델(Gemma 2B, 또는 mistral-nemo:12b-instruct-2407-q6_K 등)을 시스템으로 다운로드합니다. 모델 파일은 매우 크므로, 하드디스크 또는 SSD에서 모델이 사용하는 공간을 주의 깊게 확인해야 합니다. 심지어 모든 Ollama 모델을 홈 디렉토리에서 다른 더 큰 드라이브로 이동를 고려할 수도 있습니다.

모델 업로드: ollama push

ollama push my-custom-model

로컬 모델을 Ollama 레지스트리에 업로드하여 다른 사용자가 이 모델을 pull할 수 있도록 합니다. 먼저 로그인(ollama signin)이 필요하며, 모델 이름은 Ollama 사용자 이름으로 시작되어야 합니다. 예를 들어 myuser/my-model. HTTP를 통해 프라이빗 레지스트리에 푸시하는 경우 --insecure 플래그를 사용하세요:

ollama push myuser/my-model --insecure

모델 복사: ollama cp

ollama cp llama3.2 my-llama3-variant

모델을 새로운 이름으로 로컬에서 복사합니다. 다시 다운로드하지 않고도. 이것은 Modelfile을 편집하기 전에 유용합니다 — 먼저 복사하고, 복사본을 수정하고, 원본은 그대로 유지하세요:

ollama cp qwen3:14b qwen3-14b-custom
ollama create qwen3-14b-custom -f ./Modelfile

Ollama show 명령어

ollama show는 다운로드된 모델에 대한 정보를 출력합니다.

ollama show qwen3:14b

기본적으로 모델 카드(아키텍처, 컨텍스트 길이, 임베딩 길이, 양자화 등)를 출력합니다. 3가지 유용한 플래그가 있습니다:

플래그	표시 내용
`--modelfile`	모델을 생성한 전체 Modelfile (FROM, SYSTEM, TEMPLATE, PARAMETER 라인)
`--parameters`	오직 파라미터 블록 (예: `num_ctx`, `temperature`, `stop` 토큰)
`--verbose`	텐서 형태와 레이어 수 포함 확장 메타데이터

# 시스템 프롬프트와 템플릿이 어떤 모델로 구성되었는지 정확히 확인
ollama show deepseek-r1:8b --modelfile

# 컨텍스트 윈도우 크기와 기타 추론 파라미터 확인
ollama show qwen3:14b --parameters

# 텐서 수준의 세부 정보 (양자화 시 디버깅 시 유용)
ollama show llama3.2 --verbose

--modelfile 출력은 모델을 커스터마이징하기 전에 특히 유용합니다: 기본 Modelfile을 복사하고, 그곳에서 편집하여 처음부터 작성하지 않아도 됩니다.

Ollama serve 명령어

ollama serve는 로컬 Ollama 서버를 시작합니다 (기본 HTTP 포트 11434).

ollama serve

“ollama serve” 명령어 (systemd 친화적인 예시):

# 환경 변수 설정, 이후 서버 시작
# Ollama를 호스트의 IP 주소에서 사용 가능하게 설정
export OLLAMA_HOST=0.0.0.0:11434
export OLLAMA_NUM_PARALLEL=2
ollama serve

Ollama run 명령어

모델 실행:

ollama run gpt-oss:20b

이 명령어는 지정된 모델을 시작하고, 상호작용을 위한 인터랙티브 REPL을 열어줍니다. Ollama가 여러 병렬 요청을 어떻게 관리하는지 이해하고 싶다면? 우리의 상세한 분석에서 Ollama가 병렬 요청을 어떻게 처리하는지에 대해 더 배우세요.

ollama run은 인터랙티브 세션에서 모델을 실행합니다, gpt-oss:120b의 경우 다음과 같은 상황을 볼 수 있습니다:

$ ollama run gpt-oss:120b
>>> 메시지 전송 (/? 도움 보기)

질문이나 명령을 입력하고 모델이 답변합니다.

>>> who are you?
Thinking...
사용자가 "who are you?"라고 묻고 있습니다. 간단한 질문입니다. ChatGPT, OpenAI에서 훈련한 AI 언어 모델이라고 답해야 합니다.
등등. 간단한 소개를 제공해야 합니다. 아마도 도움이 필요하다고 물어볼 것입니다.
...생각 끝.

저는 ChatGPT, OpenAI에서 개발한 AI 언어 모델입니다. 다양한 텍스트에 훈련되어 질문에 답하고, 아이디어를 브레인스토밍하고, 개념을 설명하고, 글쓰기를 초안하고, 문제를 해결하고, 더 많은 것들을 도와드릴 수 있습니다. 저는 다양한 주제에 대해 이야기하고, 도움을 드릴 수 있는 다재다능한 가상 비서로 생각해 주세요. 오늘은 어떻게 도와드릴까요?

>>> 메시지 전송 (/? 도움 보기)

인터랙티브 ollama 세션을 종료하려면 Ctrl+D를 누르거나 /bye를 입력하세요, 결과는 같습니다:

>>> /bye
$

Ollama run 명령어 예제

모델을 실행하고 비인터랙티브 모드에서 단일 질문을 묻고자 한다면:

printf "Give me 10 bash one-liners for log analysis.\n" | ollama run llama3.2

ollama 세션에서 상세한 병렬 LLM 응답을 보고 싶다면, 모델을 실행할 때 --verbose 또는 -v 파라미터를 사용하세요:

$ ollama run gpt-oss:20b --verbose
>>> who are you?
Thinking...
간단한 질문에 대답해야 합니다: "who are you?" 사용자가 "who are you?"라고 묻고 있습니다. 우리는 ChatGPT, OpenAI에서 훈련한 대규모 언어 모델이라고 답할 수 있습니다. 또한 기능을 언급할 수 있습니다. 사용자는 간단한 소개를 기대하고 있을 것입니다. 우리는 친절하게 대할 것입니다.
...생각 끝.

저는 OpenAI에서 훈련한 대규모 언어 모델인 ChatGPT입니다. 저는 질문에 답하고, 설명을 제공하고, 아이디어를 브레인스토밍하고, 과학, 역사, 창작 글쓰기, 일상적인 조언 등 다양한 주제에 대해 대화할 수 있습니다. 단지 제가 무엇을 이야기하고 싶은지 말해주세요!

total duration:       1.118585707s
load duration:        106.690543ms
prompt eval count:    71 token(s)
prompt eval duration: 30.507392ms
prompt eval rate:     2327.30 tokens/s
eval count:           132 token(s)
eval duration:        945.801569ms
eval rate:            139.56 tokens/s
>>> /bye
$

네, 맞습니다. 이건 139 토큰/초입니다. gpt-oss:20b는 매우 빠릅니다. 제가 GPU와 16GB VRAM을 가지고 있다면, LLM 속도 비교 세부 정보를 16GB VRAM GPU에 최적의 Ollama LLM에서 확인하세요.

팁: 여러 앱에서 모델을 HTTP로 사용하려면 ollama serve로 서버를 시작하고, 긴 인터랙티브 세션 대신 API 클라이언트를 사용하세요.

Ollama run 플래그 (전체 참조)

플래그	설명
`--verbose` / `-v`	각 응답 후 시간 통계 (토큰/초, 로드 시간 등)를 출력
`-p, --parameters`	Modelfile 없이 모델 파라미터를 내부에서 전달 (아래 참조)
`--format string`	특정 출력 형식 강제 (예: `json`)
`--nowordwrap`	자동 줄 바꿈 비활성화 — 스크립트로 출력을 파이프할 때 유용
`--insecure`	HTTP를 통해 레지스트리에 연결 허용 (프라이빗/자체 호스팅 레지스트리용)

Modelfile 없이 모델 파라미터 조정 (-p / –parameters)

-p 플래그는 Modelfile을 생성하지 않고 런타임에서 추론 파라미터를 변경할 수 있게 합니다. 여러 -p 플래그를 중첩 사용할 수 있습니다:

# 컨텍스트 윈도우 증가 및 온도 감소
ollama run qwen3:14b -p num_ctx=32768 -p temperature=0.5

# 결정적인 출력으로 코딩 작업 실행
ollama run devstral:24b -p temperature=0 -p num_ctx=65536

이 방법으로 설정할 수 있는 일반적인 파라미터:

파라미터	효과
`num_ctx`	토큰 단위의 컨텍스트 윈도우 크기 (기본값은 모델에 따라 달라지며, 일반적으로 2048–4096)
`temperature`	무작위성: 0 = 결정적, 1 = 창의적
`top_p`	핵심 샘플링 임계값
`top_k`	상위-K 토큰으로 어휘 제한
`num_predict`	생성할 최대 토큰 수 (-1 = 무제한)
`repeat_penalty`	반복 토큰에 대한 벌금

REPL에서 다중 줄 입력

트리플 인용부호("\"\"\")로 텍스트를 감싸면, 조기에 제출하지 않고 다중 줄 프롬프트를 입력할 수 있습니다:

>>> """Summarise this in one sentence:
... The quick brown fox jumps over the lazy dog.
... It happened on a Tuesday.
... """

다중 모드 모델 (이미지)

시야 능력 있는 모델(예: gemma3, llava)은 프롬프트에 이미지 경로를 직접 전달할 수 있습니다:

ollama run gemma3 "What's in this image? /home/user/screenshot.png"

CLI를 통한 임베딩 생성

임베딩 모델은 텍스트 대신 JSON 배열을 출력합니다. 빠른 일회성 임베딩을 위해 텍스트를 직접 파이프할 수 있습니다:

echo "Hello world" | ollama run nomic-embed-text

생산 임베딩 작업량은 /api/embeddings REST 엔드포인트나 Python 클라이언트를 사용하는 것이 좋습니다.

강제 JSON 출력 (–format)

ollama run llama3.2 --format json "List 5 capital cities as JSON"

모델은 유효한 JSON을 반환하도록 지시됩니다. jq 또는 구조화된 데이터를 기대하는 스크립트로 출력을 파이프할 때 유용합니다.

Ollama stop 명령어

이 명령어는 지정된 실행 중인 모델을 중지합니다.

ollama stop llama3.1:8b-instruct-q8_0

Ollama는 시간이 지나면 자동으로 모델을 해제합니다. 기본값은 4분입니다. 남은 시간을 기다리고 싶지 않다면, 이 ollama stop 명령어를 사용하는 것이 좋습니다. 또한, /generate API 엔드포인트에 keep_alive=0 파라미터를 전달하여 모델을 VRAM에서 강제로 해제할 수도 있습니다. 아래에 설명과 예제가 있습니다.

Ollama ps 명령어

ollama ps는 현재 실행 중인 모델과 세션을 표시합니다 (VRAM이 왜 가득 차 있는지 디버깅하는 데 유용합니다).

ollama ps

ollama ps의 출력 예시는 다음과 같습니다:

NAME           ID              SIZE     PROCESSOR    CONTEXT    UNTIL
gpt-oss:20b    17052f91a42e    14 GB    100% GPU     4096       4 minutes from now

여기서 제 PC에서 gpt-oss:20b는 제 GPU의 16GB VRAM에 잘 맞고, 오직 14GB만 사용합니다.

만약 ollama run gpt-oss:120b를 실행하고 ollama ps를 호출하면 결과가 그리 밝지 않습니다: 78%의 레이어가 CPU에 있으며, 컨텍스트 윈도우는 4096 토큰입니다. 컨텍스트를 늘리면 더 나빠질 것입니다.

NAME            ID              SIZE     PROCESSOR          CONTEXT    UNTIL
gpt-oss:120b    a951a23b46a1    66 GB    78%/22% CPU/GPU    4096       4 minutes from now

Ollama launch 명령어 (AI 코딩 통합)

ollama launch은 **Ollama v0.15 (2026년 1월)**에서 도입된 명령어로, 인기 있는 AI 코딩 어시스턴트를 로컬 Ollama 서버에 대해 제로 구성, 한 줄 설정을 제공합니다.

ollama launch를 사용하는 이유

ollama launch 이전에는 Claude Code나 Codex와 같은 코딩 에이전트를 로컬 Ollama 백엔드에 연결하려면 수동으로 환경 변수를 설정하고, 도구가 올바른 API 엔드포인트를 가리키도록 설정하고, 호환되는 모델을 선택해야 했습니다. ollama launch은 이 모든 작업을 대신 해줍니다.

이미 로컬에서 Ollama를 실행하고 있고, API 호출이나 클라우드로 코드를 보내지 않고도 agentic 코딩 어시스턴트를 원한다면, ollama launch은 가장 빠른 방법입니다.

지원되는 통합

통합	무엇인지
`claude`	Anthropic의 Claude Code — agentic 코딩 어시스턴트
`codex`	OpenAI의 Codex CLI 코딩 어시스턴트
`droid`	Factory의 AI 코딩 에이전트
`opencode`	오픈소스 코딩 어시스턴트

기본 사용법

# 인터랙티브 선택기 — 메뉴에서 통합을 선택
ollama launch

# 특정 통합을 바로 실행
ollama launch claude

# 특정 모델과 함께 실행
ollama launch claude --model qwen3-coder

# 실행하지 않고 통합을 구성 (설정을 확인하려고 할 때 유용)
ollama launch droid --config

모델	메모
`qwen3-coder`	강력한 코딩 성능, 긴 컨텍스트, 로컬에서 실행
`glm-4.7-flash`	빠른 로컬 옵션
`devstral:24b`	Mistral의 코딩 중심 모델

예제: Ollama를 사용하여 로컬에서 Claude Code 실행

# 1. 모델이 사용 가능하도록 확인
ollama pull qwen3-coder

# 2. 그에 대해 Claude Code 실행
ollama launch claude --model qwen3-coder

Ollama는 필요한 환경 변수를 설정하고 자동으로 http://localhost:11434로 가리키는 Claude Code를 시작합니다. 그 후 Claude Code는 일반적으로 사용하는 것처럼 사용할 수 있습니다 — 유일한 차이점은 추론이 본인의 하드웨어에서 실행됩니다.

성능 조절 옵션 (`OLLAMA_NUM_PARALLEL`)

부하가 있을 때 대기열이나 타임아웃을 보는 경우, 배우는 첫 번째 조절 옵션은 **OLLAMA_NUM_PARALLEL**입니다.

OLLAMA_NUM_PARALLEL = Ollama가 병렬로 실행하는 요청 수.
더 높은 값은 처리량을 증가시킬 수 있지만, VRAM 압력과 지연 증가를 유발할 수 있습니다.

빠른 예시:

OLLAMA_NUM_PARALLEL=2 ollama serve

전체 설명(포괄적인 조절 전략 및 실패 모드 포함)을 보려면:

Ollama가 병렬 요청을 어떻게 처리하는지

Ollama 모델을 VRAM에서 해제 (keep_alive)

모델이 VRAM(그래픽 메모리)에 로드되면 사용이 끝나도 그대로 남아 있습니다. 모델을 VRAM에서 명시적으로 해제하고 GPU 메모리를 해제하려면 Ollama API에 keep_alive: 0을 포함한 요청을 보낼 수 있습니다.

curl을 사용하여 VRAM에서 모델 해제:

curl http://localhost:11434/api/generate -d '{"model": "MODELNAME", "keep_alive": 0}'

MODELNAME을 실제 모델 이름으로 대체하세요, 예를 들어:

curl http://localhost:11434/api/generate -d '{"model": "qwen3:14b", "keep_alive": 0}'

Python을 사용하여 VRAM에서 모델 해제:

import requests

response = requests.post(
    'http://localhost:11434/api/generate',
    json={'model': 'qwen3:14b', 'keep_alive': 0}
)

이것은 특히 다음 경우에 유용합니다:

다른 애플리케이션을 위해 GPU 메모리를 해제해야 할 때
여러 모델을 실행하고 VRAM 사용량을 관리하고 싶을 때
대규모 모델을 사용한 후 즉시 리소스를 해제하고 싶을 때

참고: keep_alive 파라미터는 마지막 요청 후 모델이 메모리에 얼마나 오래 유지되는지를 제어합니다. 0으로 설정하면 모델이 즉시 VRAM에서 해제됩니다.

Ollama 모델 커스터마이징 (시스템 프롬프트, Modelfile)

시스템 프롬프트 설정: Ollama REPL 내에서 시스템 프롬프트를 설정하여 모델의 행동을 커스터마이징할 수 있습니다:
```
>>> /set system 모든 질문에 대해 가능한 한 기술 용어를 피하고 영어로 답변하세요
>>> /save ipe
>>> /bye
```
이후, 커스터마이징된 모델을 실행하세요:
```
ollama run ipe
```
이는 시스템 프롬프트를 설정하고 미래 사용을 위한 모델을 저장합니다.
커스터마이징 모델 파일 생성: 텍스트 파일(예: custom_model.txt)을 생성하고 다음과 같은 구조를 사용하세요:
```
FROM llama3.1
SYSTEM [여기서 사용자 지정 지시사항을 입력하세요]
```
이후 실행하세요:
```
ollama create mymodel -f custom_model.txt
ollama run mymodel
```
이는 파일의 지시사항에 기반한 커스터마이징된 모델을 생성합니다.

Ollama 로그인 및 로그아웃 (레지스트리 인증)

ollama signin
ollama signout

ollama signin은 로컬 Ollama 설치를 ollama.com의 Ollama 레지스트리와 인증합니다. 로그인 후, 클라이언트는 로컬에 자격 증명을 저장하고 이후 명령어에 자동으로 재사용합니다.

로그인으로 해제되는 기능:

계정이나 조직의 프라이빗 모델을 pull하고 push할 수 있습니다.
클라우드 호스팅 모델(예: qwen3-coder:480b-cloud)을 사용할 수 있습니다. 이는 로컬에서 실행할 수 없는 대규모 모델입니다.
ollama push를 통해 레지스트리에 모델을 게시할 수 있습니다.

대안: API 키 인증

CI 파이프라인이나 헤드리스 서버에서 상호작용형 ollama signin이 실용적이지 않은 경우, Ollama 계정 설정에서 API 키를 생성하고 환경 변수로 노출하세요:

export OLLAMA_API_KEY=ollama_...
ollama pull myorg/private-model

OLLAMA_API_KEY 변수는 모든 Ollama 명령어 및 API 요청에서 자동으로 인식됩니다 — 각 머신에서 ollama signin을 실행할 필요가 없습니다.

Ollama run 명령어와 파일 사용 (요약, 리디렉션)

파일에서 텍스트 요약:
```
ollama run llama3.2 "Summarize the content of this file in 50 words." < input.txt
```
이 명령어는 지정된 모델을 사용하여 input.txt의 내용을 요약합니다.
모델 응답을 파일로 로그:
```
ollama run llama3.2 "Tell me about renewable energy." > output.txt
```
이 명령어는 모델의 응답을 output.txt에 저장합니다.

Ollama CLI 사용 사례 (텍스트 생성, 분석)

텍스트 생성:

대규모 텍스트 파일 요약:

ollama run llama3.2 "Summarize the following text:" < long-document.txt

콘텐츠 생성:

ollama run llama3.2 "Write a short article on the benefits of using AI in healthcare." > article.txt

특정 질문에 답변:

ollama run llama3.2 "What are the latest trends in AI, and how will they affect healthcare?"

데이터 처리 및 분석:
- 텍스트를 긍정, 부정, 중립 감정으로 분류:
```
ollama run llama3.2 "Analyze the sentiment of this customer review: 'The product is fantastic, but delivery was slow.'"
```
- 사전 정의된 범주로 텍스트 분류: 유사한 명령어를 사용하여 사전 정의된 기준에 따라 텍스트를 분류하거나 범주화할 수 있습니다.

Ollama와 Python 사용 (클라이언트 및 API)

Ollama Python 라이브러리 설치:
```
pip install ollama
```
Python을 사용한 텍스트 생성:
```
import ollama

response = ollama.generate(model='gemma:2b', prompt='what is a qubit?')
print(response['response'])
```
이 코드 스니펫은 지정된 모델과 프롬프트를 사용하여 텍스트를 생성합니다.

고급 Python 통합을 원한다면, Ollama의 Web Search API를 Python으로 사용을 참조하세요. 이는 웹 검색 기능, 도구 호출, MCP 서버 통합을 다룹니다. AI 기반 애플리케이션을 개발하고 있다면, 우리의 AI 코딩 어시스턴트 비교가 개발에 적합한 도구를 선택하는 데 도움이 될 것입니다.

웹 기반 인터페이스를 원하는 경우, Open WebUI는 RAG 기능과 다중 사용자 지원이 있는 자체 호스팅 인터페이스를 제공합니다. 고성능 프로덕션 배포를 원한다면, vLLM을 대안으로를 고려하세요. Ollama를 다른 로컬 및 클라우드 LLM 인프라 선택과 비교하려면 LLM 호스팅: 로컬, 자체 호스팅 및 클라우드 인프라 비교를 참조하세요.

Ollama CLI 빠른 참고서: ls, serve, run, ps + 명령어 (2026년 업데이트)

Ollama 설치 (다운로드 및 CLI 설치)

Ollama 시스템 요구 사항 (RAM, 저장소, CPU)

기본 Ollama CLI 명령어

Ollama CLI (그것이 무엇인지)

Ollama 모델 관리: pull 및 list 명령어

Ollama show 명령어

Ollama serve 명령어

Ollama run 명령어

Ollama run 명령어 예제

Ollama run 플래그 (전체 참조)

Modelfile 없이 모델 파라미터 조정 (-p / –parameters)

REPL에서 다중 줄 입력

다중 모드 모델 (이미지)

CLI를 통한 임베딩 생성

강제 JSON 출력 (–format)

Ollama stop 명령어

Ollama ps 명령어

Ollama launch 명령어 (AI 코딩 통합)

ollama launch를 사용하는 이유

지원되는 통합

기본 사용법

추천 모델

예제: Ollama를 사용하여 로컬에서 Claude Code 실행

성능 조절 옵션 (`OLLAMA_NUM_PARALLEL`)

Ollama 모델을 VRAM에서 해제 (keep_alive)

Ollama 모델 커스터마이징 (시스템 프롬프트, Modelfile)

Ollama 로그인 및 로그아웃 (레지스트리 인증)

Ollama run 명령어와 파일 사용 (요약, 리디렉션)

Ollama CLI 사용 사례 (텍스트 생성, 분석)

Ollama와 Python 사용 (클라이언트 및 API)

유용한 링크

구성 및 관리

대안 및 비교

성능 및 하드웨어

통합 및 개발

Ollama 설치 (다운로드 및 CLI 설치)

Ollama 시스템 요구 사항 (RAM, 저장소, CPU)

기본 Ollama CLI 명령어

Ollama CLI (그것이 무엇인지)

Ollama 모델 관리: pull 및 list 명령어

Ollama show 명령어

Ollama serve 명령어

Ollama run 명령어

Ollama run 명령어 예제

Ollama run 플래그 (전체 참조)

Modelfile 없이 모델 파라미터 조정 (-p / –parameters)

REPL에서 다중 줄 입력

다중 모드 모델 (이미지)

CLI를 통한 임베딩 생성

강제 JSON 출력 (–format)

Ollama stop 명령어

Ollama ps 명령어

Ollama launch 명령어 (AI 코딩 통합)

ollama launch를 사용하는 이유

지원되는 통합

기본 사용법

추천 모델

예제: Ollama를 사용하여 로컬에서 Claude Code 실행

성능 조절 옵션 (OLLAMA_NUM_PARALLEL)

Ollama 모델을 VRAM에서 해제 (keep_alive)

Ollama 모델 커스터마이징 (시스템 프롬프트, Modelfile)

Ollama 로그인 및 로그아웃 (레지스트리 인증)

Ollama run 명령어와 파일 사용 (요약, 리디렉션)

Ollama CLI 사용 사례 (텍스트 생성, 분석)

Ollama와 Python 사용 (클라이언트 및 API)

유용한 링크

구성 및 관리

대안 및 비교

성능 및 하드웨어

통합 및 개발

성능 조절 옵션 (`OLLAMA_NUM_PARALLEL`)