에버그린 노트: 시간이 지날수록 가치가 복리되는 노트 작성법

에버그린 노트: 시간이 지날수록 가치가 복리되는 노트 작성법

저하되지 않고 개선되는 노트.

대부분의 엔지니어링 노트는 한 번 작성되고 나면 방치됩니다. 디버깅 세션에서 얻은 통찰을 기록하고 어딘가에 붙여 넣은 후, 2년이 지난 후에야 그 파일을 찾아보지만 당시 왜 중요했는지 맥락을 기억하지 못하는 경우가 많습니다.

디지털 가든: 지식을 단순히 발행하는 대신 기르세요

디지털 가든: 지식을 단순히 발행하는 대신 기르세요

단순히 글을 게시하는 것을 넘어, 성장할 수 있는 지식을 공유하세요.

온라인에서 지식을 게시하는 지배적인 모델은 2000년대 초 이후 크게 변하지 않았습니다. 무언가를 작성하고, 다듬고, 게시한 다음 넘어가는 방식입니다.

실무에서 적용하는 LLM 가드레일: 실제로 효과적인 전략

실무에서 적용하는 LLM 가드레일: 실제로 효과적인 전략

모델이 아닌 위험을 관리하십시오.

LLM은 예측 불가능합니다. 할루시네이션(환각)을 일으키거나, 데이터를 유출하거나, 해로운 콘텐츠를 생성하거나, 정당한 요청을 거부하기도 합니다. 가드레일(Guardrails)은 모델의 기능을 희생하지 않으면서도 모델의 행동을 제한합니다.

모델 라우팅: 모든 작업에 단일 모델을 사용하지 마세요

모델 라우팅: 모든 작업에 단일 모델을 사용하지 마세요

적절한 작업에 적합한 모델

200단어짜리 이메일을 요약하기 위해 700억 파라미터 모델 실행은 낭비입니다. 프로덕션 코드를 검토하기 위해 30억 파라미터 모델을 실행하는 것은 무모합니다. 대부분의 시스템은 이 두 극단 사이의 어딘가에 위치해 있으며, 바로 여기서 모델 라우팅(Model Routing)의 역할이 시작됩니다.

다중 모델 시스템 설계: 단일 모델로는 부족한 경우

다중 모델 시스템 설계: 단일 모델로는 부족한 경우

작동하는 가장 단순한 패턴을 선택하라.

단일 모델 시스템은 단순합니다. 다중 모델 시스템은 강력합니다. 여기서 핵심 과제는 모델을 선택하는 것이 아니라, 이러한 모델들을 조율하는 아키텍처를 설계하는 것입니다.

LLM 시스템의 비용 최적화: 돈이 실제로 어디로 가는가

LLM 시스템의 비용 최적화: 돈이 실제로 어디로 가는가

중요한 곳에 토큰을 투자하세요.

LLM(대형 언어 모델) 비용은 사용량에 따라 선형적으로 증가합니다. 하루에 1,000개의 요청을 처리하고 요청당 비용이 $0.01인 시스템의 경우, 일일 비용은 $100이며 연간 비용은 $365입니다. 기업 규모에서는 이 비용이 $10,000을 넘을 수 있습니다.

AI 어시스턴트의 메모리 시스템

AI 어시스턴트의 메모리 시스템

에이전트의 작업 기억, 구조화 기억 및 검색 기억

메모리는 어시스턴트를 반응형에서 지속형으로 전환시키지만, 동시에 많은 시스템이 조용히 부패하는 곳이기도 합니다. 설문 조사들은 단기적 대 장기적 이분법이 현대 에이전트 메모리에는 더 이상 충분하지 않다고 주장하며, OpenAI와 LangGraph SDK들은 작동 메모리(working memory), 내구 상태(durable state), 검색(retrieval)이라는 더 단순한 스택을 지향합니다.

AI 어시스턴트 아키텍처: LLM, 메모리, 도구, 라우팅, 가시성

AI 어시스턴트 아키텍처: LLM, 메모리, 도구, 라우팅, 가시성

실제로 진지한 어시스턴트는 어떻게 구축되는가

프로덕션 환경의 AI 어시스턴트는 단순히 “프롬프트가 붙은 LLM"이 아닙니다. 의도(intent)를 수용하고, 상태를 유지하며, 언제 검색하거나 행동을 취할지 결정하는 시스템입니다. 또한 실패 원인을 디버깅할 수 있도록 충분한 런타임 세부 정보를 노출해야 합니다.

OpenClaw 대 Hermes 에이전트: 2026년 스타 수, 다운로드 및 사용 현황

OpenClaw 대 Hermes 에이전트: 2026년 스타 수, 다운로드 및 사용 현황

별, 토큰, 다운로드 — 진정한 승자는 누구인가?

GitHub에서 오픈소스 AI 에이전트 프레임워크의 인기가 폭발적으로 증가하고 있습니다. 자기 호스팅 AI 시스템 생태계의 핵심에 있는 두 프로젝트인 OpenClawHermes Agent는 압도적인 선두를 차지하여, 나머지 분야에서는 3위 자리를 놓고 치열한 경쟁이 벌어지고 있는 상황입니다.

llama.cpp 라우터 모델 재시작 없이 전체 언로드

llama.cpp 라우터 모델 재시작 없이 전체 언로드

llama-server를 종료하지 않고도 VRAM을 확보하는 방법

llama.cpp 라우터 모드는 수년 동안 llama-server에 도입된 변화 중 가장 유용한 변화 중 하나입니다. 이는 로컬 LLM 운영자에게 Ollama에서 기대하는 모델 관리 경험에 가까운 기능을 제공하면서도, llama.cpp를 처음부터 사용하게 만드는 원시 성능과 저레벨 제어를 그대로 유지합니다.

지식 시스템에서의 검색과 표현

지식 시스템에서의 검색과 표현

검색은 지식 구조가 아닙니다

대부분의 현대 지식 시스템은 검색(Retrieval) 최적화에 집중하며, 이는 이해할 수 있는 접근입니다. 검색은 가시적이며 데모하기 쉽고, 작동할 때 마법처럼 느껴집니다. 질문을 입력하면 답변이 돌아옵니다.

LLM Wiki - RAG이 대체할 수 없는 체계화된 지식

LLM Wiki - RAG이 대체할 수 없는 체계화된 지식

AI 시스템을 위한 컴파일된 지식

전제는 간단합니다. 컴파일된 지식은 검색된 단편보다 재사용성이 높습니다. RAG는 직관적인 질문—LLM에게 외부 지식을 어떻게 접근하게 할 것인가?—에 대한 기본 답변이 되었습니다.

구독하기

시스템, 인프라, AI 엔지니어링에 관한 새 글을 받아보세요.