Rost Glukhov | 개인 사이트 및 기술 블로그

Text Generation Inference(TGI) 는 매우 특유의 에너지를 지니고 있습니다. 추론 분야에서 가장 새로운 기술은 아니지만, 이미 프로덕션 환경에서 발생하는 문제를 잘 이해하고 있습니다.

llama.cpp를 이용한 16GB VRAM LLM 벤치마크 (속도 및 컨텍스트)

여기서는 VRAM이 16GB인 GPU에서 여러 LLM의 속도를 비교하고, 자체 호스팅에 가장 적합한 모델을 선정해 보겠습니다.

호주에 RTX 5090 재고가 있습니다. 마침내. 하지만 하나를 찾아도 현실과 동떨어진 프리미엄 가격을 지불해야 합니다.

Tailscale 또는 WireGuard를 통한 원격 Ollama 접근, 공개 포트 없음

Ollama 는 로컬 데몬 (daemon) 으로 취급될 때 가장 행복해합니다: CLI 와 애플리케이션이 루프백 HTTP API 와 통신하며, 나머지 네트워크는 Ollama 의 존재를 전혀 알지 못합니다.

로그는 시스템이 화재 상태일 때도 여전히 사용할 수 있는 디버깅 인터페이스입니다. 문제는 평문 텍스트 로그는 시간이 지날수록 관리하기 어려워진다는 점입니다. 필터링, 집계, 알림이 필요해지자마자 문장을 파싱하게 됩니다.

GPU 및 영구 모델 스토리지 사용 Docker Compose 기반 Ollama

Ollama 는 베어 메탈 (bare metal) 환경에서 훌륭하게 작동합니다. 이를 서비스처럼 다룰 때 더욱 흥미로운데, 안정적인 엔드포인트, 고정된 버전, 영구 저장소, 그리고 GPU 가 있거나 없는 명확한 상태를 보장받기 때문입니다.

Caddy 또는 Nginx를 통한 역방향 프록시 설정으로 Ollama의 HTTPS 스트리밍 구현

리버스 프록시 뒤에 Ollama 를 실행하는 것은 HTTPS, 선택적 접근 제어, 예측 가능한 스트리밍 동작을 얻는 가장 간단한 방법입니다.

RAG 및 검색을 위한 텍스트 임베딩 - Python, Ollama, OpenAI 호환 API

검색 증강 생성 (RAG)을 공부 중이시라면, 이 섹션에서는 텍스트 임베딩이 무엇인지, 검색 및 검색 (retrieval) 과 어떻게 연관되는지, 그리고 Ollama 또는 OpenAI 호환 HTTP API(많은 llama.cpp 기반 서버에서 제공하는 방식) 를 사용하여 Python에서 두 가지 일반적인 로컬 설정을 호출하는 방법을 쉽게 설명합니다.

Hugo 및 정적 사이트를 위한 Netlify: 가격, 무료 티어 및 대안

Netlify 는 Hugo 사이트와 모던 웹 애플리케이션을 프로덕션급 워크플로우로 배포하는 가장 개발자 친화적인 방법 중 하나입니다: 모든 풀 리퀘스트에 대한 미리보기 URL, 원자적 배포, 글로벌 CDN, 그리고 선택적 서버리스 및 엣지 기능을 제공합니다.

K8s 와 Kafka 상의 Apache Flink: PyFlink, Go, 운영, 그리고 관리형 가격 정책

Apache Flink 는 유계 및 무계 데이터 스트림에 대한 상태 기반 연산을 위한 프레임워크입니다.

GraphRAG 를 위한 Neo4j 그래프 데이터베이스, 설치, Cypher, 벡터, 운영

Neo4j 는 관계가 곧 데이터일 때 찾아야 할 솔루션입니다. 도메인이 원과 화살표로 가득 찬 화이트보드처럼 보인다면, 이를 테이블로 강제하는 것은 고통스럽습니다.

맞춤 도메인을 위한 호스팅 이메일 서비스 비교: Workspace, Microsoft 365, Zoho, Proton, WorkMail

자신의 도메인에 이메일을 설정하는 것은 주말에 DNS 작업만 하면 될 것 같습니다. 그러나 실제로는 20 년의 역사를 가진 소규모 분산 시스템입니다.

정적 사이트와 블로그는 배포할 때마다 변경됩니다. IndexNow를 지원하는 검색 엔진 은 다음 맹목적 크롤링을 기다리지 않고도 이러한 변경 사항을 학습할 수 있습니다.

SGLang 빠른 시작: OpenAI API 를 통해 LLM 설치, 구성 및 제공

SGLang 은 단일 GPU 에서 분산 클러스터에 이르기까지 저지연 및 고휘도 추론을 제공하도록 설계된 대규모 언어 모델 및 멀티모달 모델용 고성능 서비스 프레임워크입니다.

OpenAI 호환 로컬 LLM을 위한 llama.swap 모델 스위처 빠른 시작 가이드

곧 vLLM, llama.cpp 등 여러 스택을 각각 다른 포트에서 관리하게 될 것입니다. 모든 다운스트림 시스템은 여전히 하나의 /v1 기본 URL 을 요구하며, 그렇지 않으면 포트, 프로필, 일회성 스크립트를 계속 조정해야 합니다. llama-swap은 이러한 스택들 앞에 위치한 /v1 프록시입니다.

Apache Kafka 빠른 시작 - CLI 및 로컬 예제를 사용하여 Kafka 4.2 설치

Apache Kafka 4.2.0 는 현재 지원되는 릴리스 라인이며, Kafka 4.x 는 완전히 ZooKeeper 가 필요 없고 기본적으로 KRaft 를 기반으로 구축되어 있으므로 현대적인 빠른 시작 (Quickstart) 을 위한 최적의 기준선입니다.

TGI - 텍스트 생성 추론 - 설치, 구성, 문제 해결

llama.cpp를 이용한 16GB VRAM LLM 벤치마크 (속도 및 컨텍스트)

호주 RTX 5090, 2026 년 3 월 가격과 재고 현실

Tailscale 또는 WireGuard를 통한 원격 Ollama 접근, 공개 포트 없음

관측 가능성과 알림을 위한 Go의 slog를 활용한 구조화된 로깅

GPU 및 영구 모델 스토리지 사용 Docker Compose 기반 Ollama

Caddy 또는 Nginx를 통한 역방향 프록시 설정으로 Ollama의 HTTPS 스트리밍 구현

RAG 및 검색을 위한 텍스트 임베딩 - Python, Ollama, OpenAI 호환 API

Hugo 및 정적 사이트를 위한 Netlify: 가격, 무료 티어 및 대안

K8s 와 Kafka 상의 Apache Flink: PyFlink, Go, 운영, 그리고 관리형 가격 정책

GraphRAG 를 위한 Neo4j 그래프 데이터베이스, 설치, Cypher, 벡터, 운영

맞춤 도메인을 위한 호스팅 이메일 서비스 비교: Workspace, Microsoft 365, Zoho, Proton, WorkMail

IndexNow 설명 - 콘텐츠를 게시할 때 검색 엔진에 알림

SGLang 빠른 시작: OpenAI API 를 통해 LLM 설치, 구성 및 제공

OpenAI 호환 로컬 LLM을 위한 llama.swap 모델 스위처 빠른 시작 가이드

Apache Kafka 빠른 시작 - CLI 및 로컬 예제를 사용하여 Kafka 4.2 설치

구독하기