Agent Memory Provider 비교 — Honcho, Mem0, Hindsight 및 기타 5종

에이전트의 지속적인 메모리를 위한 8가지 플러그형 백엔드.

Page content

컨텍스트 창을 벗어나는 무언가가 유지되지 않는 한, 현대의 어시스턴트들은 탭을 닫을 때 여전히 모든 것을 잊어버립니다. Agent memory providers는 세션 전반에 걸쳐 사실과 요약본을 보유하는 서비스 또는 라이브러리입니다. 메모리가 확장되는 동안 프레임워크를 가볍게 유지하기 위해 종종 plugins 형태로 연결됩니다.

이 가이드는 Hermes Agent 외부 메모리 플러그인으로 제공되는 8가지 백엔드인 Honcho, OpenViking, Mem0, Hindsight, Holographic, RetainDB, ByteRover, Supermemory를 비교하고, 이들이 더 넓은 AI systems 스택에 어떻게 통합되는지 설명합니다. 동일한 벤더들이 커뮤니티 또는 공식 통합을 통해 OpenClaw 및 기타 에이전트 도구에도 등장합니다. **AI Systems Memory hub**에는 이 문서가 Cognee 및 관련 가이드와 함께 목록에 포함되어 있습니다.

Hermes 전용 경계 코어 메모리(MEMORY.md 및 USER.md), 동결 동작 및 트리거에 대해서는 **Hermes Agent Memory System**를 참조하십시오.


Hermes Agent는 지속적이고 세션 간 공유되는 지식을 위해 8가지 외부 메모리 제공자 플러그인을 제공합니다. 한 번에 하나의 외부 제공자만 활성화할 수 있습니다. 내장된 MEMORY.md와 USER.md는 교체되는 것이 아니라, 외부 제공자와 함께 추가적으로 로드된 상태를 유지합니다.

외부 종속성. Holographic를 제외한 모든 외부 제공자는 최소 하나 이상의 외부 서비스 호출을 필요로 합니다. 메모리 추출을 위한 LLM, 의미론적 검색을 위한 임베딩 모델, 또는 저장 공간을 위한 PostgreSQL과 같은 데이터베이스가 필요합니다. 이러한 종속성은 개인정보 보호, 비용, 그리고 귀하의 메모리 스택을 완전히 self-hosted로 운영할 수 있는지 여부에 직접적인 영향을 미칩니다. Hindsight와 ByteRover는 종속성을 최소화하거나 제거한 반면, Honcho, Mem0, Supermemory는 가장 많은 구성 요소를 필요로 합니다. 제공자가 Ollama 또는 기타 OpenAI 호환 엔드포인트를 지원하는 경우, LLM 및 임베딩 호출을 로컬 모델로 라우팅하여 데이터를 제3자 서버에 노출하지 않고 완전히 격리할 수 있습니다.

ai agent memory system providers

Hermes Agent를 이용한 활성화

hermes memory setup   # 대화형 선택기 + 설정
hermes memory status  # 활성 상태 확인
hermes memory off     # 외부 제공자 비활성화

또는 ~/.hermes/config.yaml에서 수동으로 설정할 수 있습니다:

memory:
  provider: openviking  # 또는 honcho, mem0, hindsight, holographic, retaindb, byterover, supermemory

제공자 비교

제공자 저장소 비용 외부 종속성 셀프 호스팅 가능 여부 고유 기능
Honcho 클라우드/셀프 호스팅 유료/무료 LLM + 임베딩 모델 + PostgreSQL/pgvector + Redis 예 — Docker / K3s / Fly.io 변증법적 사용자 모델링 + 세션 범위 컨텍스트
OpenViking 셀프 호스팅 무료 LLM (VLM) + 임베딩 모델 예 — 로컬 서버; Ollama 네이티브 초기화 마법사 파일 시스템 계층 구조 + 계층적 로딩
Mem0 클라우드/셀프 호스팅 유료/무료 OSS LLM + 임베딩 모델 + 벡터 스토어 (Qdrant 또는 pgvector) 예 — Docker Compose OSS; 완전 로컬 운영 가능 서버 측 LLM 추출
Hindsight 클라우드/로컬 무료/유료 LLM + 번들형 PostgreSQL + 내장 임베더 + 내장 리랭커 예 — Docker 또는 임베디드 Python; Ollama로 완전 로컬 운영 가능 지식 그래프 + reflect 합성
Holographic 로컬 무료 없음 네이티브 — 인프라 필요 없음 HRR 대수 + 신뢰도 점수 산정
RetainDB 클라우드 월 $20 클라우드 관리형 (RetainDB 서버에서 LLM + 검색 수행) 아니오 델타 압축 (Delta compression)
ByteRover 로컬/클라우드 무료/유료 LLM 전용 — 임베딩 모델 및 DB 불필요 예 — 기본적으로 로컬 우선; Ollama 지원 파일 기반 컨텍스트 트리; 임베딩 파이프라인 불필요
Supermemory 클라우드 유료 LLM + PostgreSQL/pgvector (엔터프라이즈 Cloudflare 배포) 엔터프라이즈 플랜 전용 컨텍스트 펜싱 + 세션 그래프 인제스트

상세 분석

Honcho

적합한 용도: 멀티 에이전트 시스템, 세션 간 컨텍스트 공유, 사용자-에이전트 정렬.

Honcho는 기존 메모리와 함께 실행됩니다. USER.md는 그대로 유지되며, Honcho는 추가적인 컨텍스트 계층을 더합니다. 이는 대화를 메시지를 교환하는 동료 간의 상호작용으로 모델링합니다. 각 Hermes 프로필당 하나의 사용자 동료와 하나의 AI 동료가 할당되며, 모두 하나의 워크스페이스를 공유합니다.

외부 종속성: Honcho는 세션 요약, 사용자 표현 유도 및 변증법적 추론을 위한 LLM, 관찰 내용 전반에 대한 의미론적 검색을 위한 임베딩 모델, 벡터 저장을 위한 pgvector 확장 기능이 포함된 PostgreSQL, 그리고 캐싱을 위한 Redis가 필요합니다. api.honcho.dev의 관리형 클라우드가 이 모든 과정을 대신 처리합니다. 셀프 호스팅 배포(Docker, K3s 또는 Fly.io)의 경우 사용자가 직접 자격 증명을 제공해야 합니다. LLM 슬롯은 Ollama 및 vLLM을 포함하여 모든 OpenAI 호환 엔드포인트를 수용하므로 추론을 온프레미스에서 유지할 수 있습니다. 임베딩 슬롯은 기본적으로 openai/text-embedding-3-small을 사용하지만, LLM_EMBEDDING_API_KEYLLM_EMBEDDING_BASE_URL을 통해 구성 가능한 제공자를 지원합니다. 즉, BGE 모델을 사용하는 vLLM과 같은 로컬 옵션을 포함하여 모든 OpenAI 호환 임베딩 서버를 사용할 수 있습니다.

도구: honcho_profile (동료 카드 읽기/업데이트), honcho_search (의미론적 검색), honcho_context (세션 컨텍스트 — 요약, 표현, 카드, 메시지), honcho_reasoning (LLM 합성), honcho_conclude (결론 생성/삭제).

주요 설정 옵션:

  • contextCadence (기본값 1): 기본 레이어 새로고침 사이의 최소 턴 수
  • dialecticCadence (기본값 2): peer.chat() LLM 호출 사이의 최소 턴 수 (1-5 권장)
  • dialecticDepth (기본값 1): 호출당 .chat() 통과 횟수 (1-3으로 제한)
  • recallMode (기본값 ‘hybrid’): hybrid (자동+도구), context (주입 전용), tools (도구 전용)
  • writeFrequency (기본값 ‘async’): 플러시 타이밍: async, turn, session 또는 정수 N
  • observationMode (기본값 ‘directional’): directional (모두 켬) 또는 unified (공유 풀)

아키텍처: 이중 레이어 컨텍스트 주입 — 기본 레이어 (세션 요약 + 표현 + 동료 카드) + 변증법적 보충 (LLM 추론). 콜드 스타트(cold-start)와 웜 프롬프트(warm prompts)를 자동으로 선택합니다.

멀티 피어 매핑: 워크스페이스는 프로필 간에 공유되는 환경입니다. 사용자 피어(peerName)는 글로벌한 인간 정체성입니다. AI 피어(aiPeer)는 Hermes 프로필당 하나씩 존재합니다 (hermes가 기본값, 나머지는 hermes.<profile>).

설정:

hermes memory setup  # "honcho" 선택
# 또는 레거시 방식: hermes honcho setup

설정 파일: $HERMES_HOME/honcho.json (프로필 로컬) 또는 ~/.honcho/config.json (글로벌).

프로필 관리:

hermes profile create coder --clone  # 공유 워크스페이스를 가진 hermes.coder 생성
hermes honcho sync                   # 기존 프로필에 대해 AI 피어 데이터 백필(Backfill)

OpenViking

적합한 용도: 구조화된 브라우징을 지원하는 셀프 호스팅 지식 관리.

OpenViking은 계층적 로딩이 적용된 파일 시스템 계층 구조를 제공합니다. 무료이며, self-hosted 방식으로 메모리 저장소에 대한 완전한 제어권을 가질 수 있습니다.

외부 종속성: OpenViking은 의미론적 처리 및 메모리 추출을 위한 VLM(vision-language model)과 벡터 검색을 위한 임베딩 모델이 필수적으로 필요합니다. 지원되는 VLM 제공자로는 OpenAI, Anthropic, DeepSeek, Gemini, Moonshot 및 vLLM(로컬 배포용)이 있습니다. 임베딩의 경우 OpenAI, Volcengine (Doubao), Jina, Voyage를 지원하며, Ollama를 통해 로컬에서 서비스되는 모든 임베딩 모델을 사용할 수 있습니다. openviking-server init 대화형 마법사는 사용 가능한 RAM을 감지하여 적절한 Ollama 모델(예: 임베딩용 Qwen3-Embedding 8B, VLM용 Gemma 4 27B)을 추천하고, API 키가 전혀 필요 없는 완전한 로컬 설정을 위해 모든 것을 자동으로 구성합니다. 별도의 외부 데이터베이스는 필요하지 않으며, OpenViking은 메모리를 파일 시스템에 저장합니다.

도구: viking_search, viking_read (계층형), viking_browse, viking_remember, viking_add_resource.

설정:

pip install openviking
openviking-server init   # 대화형 마법사 (로컬 설정을 위한 Ollama 모델 추천)
openviking-server
hermes memory setup  # "openviking" 선택
echo "OPENVIKING_ENDPOINT=http://localhost:1933" >> ~/.hermes/.env

Mem0

적합한 용도: 자동 추출을 통한 관리 부담 없는 메모리 관리.

Mem0는 모든 add 작업 시 LLM 호출을 통해 서버 측에서 메모리 추출을 수행합니다. 즉, 대화를 읽고, 개별 사실을 추출하고, 중복을 제거한 뒤 저장합니다. 관리형 클라우드 API는 모든 인프라를 처리합니다. 오픈 소스 라이브러리와 셀프 호스팅 서버를 사용하면 완전한 제어권을 가질 수 있습니다.

외부 종속성: Mem0는 메모리 추출을 위한 LLM(기본값: OpenAI gpt-4.1-nano; Ollama, vLLM, LM Studio를 포함한 20개 제공자 지원)과 검색을 위한 임베딩 모델(기본값: OpenAI text-embedding-3-small; Ollama, HuggingFace를 포함한 10개 제공자 지원)이 필요합니다. 저장소는 라이브러리 모드에서 /tmp/qdrant의 Qdrant를 사용하거나, 셀프 호스팅 서버 모드에서 pgvector가 포함된 PostgreSQL을 사용하며, 둘 다 로컬에서 실행 가능합니다. 클라우드를 전혀 사용하지 않는 완전한 로컬 Mem0 스택 구축이 가능합니다. LLM과 임베딩에는 Ollama를 사용하고, 로컬 Qdrant 인스턴스를 Memory.from_config를 통해 구성하면 됩니다.

도구: mem0_profile, mem0_search, mem0_conclude.

설정:

pip install mem0ai
hermes memory setup  # "mem0" 선택
echo "MEM0_API_KEY=your-key" >> ~/.hermes/.env

설정 파일: $HERMES_HOME/mem0.json (user_id: hermes-user, agent_id: hermes).

Hindsight

적합한 용도: 엔티티 관계를 포함한 지식 그래프 기반 회상.

Hindsight는 엔티티와 관계를 추출하여 메모리의 지식 그래프를 구축합니다. 고유한 reflect 도구는 여러 메모리를 결합하여 새로운 통찰력을 만들어내는 교차 메모리 합성(cross-memory synthesis) 기능을 수행합니다. 회상(Recall) 시에는 네 가지 검색 전략(의미론적, 키워드/BM25, 그래프 탐색, 시간적)을 병렬로 실행한 뒤, 상호 순위 융합(reciprocal rank fusion)을 사용하여 결과를 병합하고 재정렬합니다.

외부 종속성: Hindsight는 retain 호출 시 사실 및 엔티티 추출을 위해, 그리고 reflect 호출 시 합성을 위해 LLM이 필요합니다(기본값: OpenAI; Anthropic, Gemini, Groq, Ollama, LM Studio 및 모든 OpenAI 호환 엔드포인트 지원). 임베딩 모델과 교차 인코더 리랭킹 모델은 Hindsight 내부에 포함되어 있습니다. 이들은 hindsight-all 패키지 내에서 로컬로 실행되며 별도의 외부 API가 필요하지 않습니다. PostgreSQL 또한 관리형 pg0 데이터 디렉토리를 통해 임베디드 Python 설치 시 함께 번들링되므로, 필요 시 외부 PostgreSQL 인스턴스를 지정할 수도 있습니다. 클라우드를 전혀 사용하지 않는 완전한 로컬 설정을 위해 HINDSIGHT_API_LLM_PROVIDER=ollama로 설정하고 로컬 Ollama 모델을 지정하면 retainrecall이 완벽하게 작동합니다. 단, reflect 기능은 도구 호출(tool-calling)이 가능한 모델(예: qwen3:8b)이 필요합니다.

도구: hindsight_retain, hindsight_recall, hindsight_reflect (고유한 교차 메모리 합성).

설정:

hermes memory setup  # "hindsight" 선택
echo "HINDSIGHT_API_KEY=your-key" >> ~/.hermes/.env

hindsight-client(클라우드) 또는 hindsight-all(로컬)이 자동 설치됩니다. 버전 0.4.22 이상이 필요합니다.

설정 파일: $HERMES_HOME/hindsight/config.json

  • mode: cloud 또는 local
  • recall_budget: low / mid / high
  • memory_mode: hybrid / context / tools
  • auto_retain / auto_recall: true (기본값)

로컬 UI: hindsight-embed -p hermes ui start

Holographic

적합한 용도: 로컬 전용 저장소를 사용하는 개인정보 보호 중심 설정.

Holographic는 메모리 인코딩을 위해 HRR(Holographic Reduced Representation) 대수를 사용하며, 메모리 신뢰도를 위해 신뢰도 점수 산정 방식을 적용합니다. 클라우드 종속성이 없으며, 모든 것은 사용자의 하드웨어에서 로컬로 실행됩니다.

외부 종속성: 없음. Holographic는 LLM, 임베딩 모델, 데이터베이스, 네트워크 연결이 전혀 필요하지 않습니다. 메모리 인코딩은 프로세스 내에서 실행되는 HRR 대수를 통해 완전히 수행됩니다. 이는 8가지 제공자 중 유일하게 외부 호출 없이 작동한다는 점에서 매우 독특합니다. 다만, 검색 품질이 임베딩 기반의 의미론적 검색보다는 낮을 수 있으며, Hindsight의 reflect와 같은 교차 메모리 합성 기능은 제공되지 않습니다. 개인정보 보호와 종속성 없는 운영이 필수적인 사용자에게 Holographic는 무조건적인 최적의 선택입니다.

도구: HRR 대수를 통한 메모리 작업을 위한 2가지 도구.

설정:

hermes memory setup  # "holographic" 선택

RetainDB

적합한 용도: 델타 압축을 통한 고빈도 업데이트.

RetainDB는 델타 압축을 사용하여 메모리 업데이트를 효율적으로 저장하고, 하이브리드 검색(벡터 + BM25 + 리랭킹)을 통해 관련 컨텍스트를 끌어올립니다. 월 $20의 비용이 드는 클라우드 기반 서비스이며, 모든 메모리 처리는 서버 측에서 수행됩니다.

외부 종속성: RetainDB의 LLM 호출, 임베딩 파이프라인, 리랭킹은 모두 RetainDB 자체 클라우드 인프라에서 실행됩니다. 사용자는 RETAINDB_KEY만 제공하면 됩니다. 메모리 추출에는 서버 측에서 Claude Sonnet이 사용됩니다. 셀프 호스팅 옵션이나 로컬 모드는 제공되지 않습니다. 모든 대화 데이터는 처리를 위해 RetainDB 서버로 전송되어 저장됩니다. 데이터 주권이나 오프라인 운영이 중요한 사용 사례에는 적합하지 않습니다.

도구: retaindb_profile (사용자 프로필), retaindb_search (의미론적 검색), retaindb_context (작업 관련 컨텍스트), retaindb_remember (유형 + 중요도와 함께 저장), retaindb_forget (메모리 삭제).

설정:

hermes memory setup  # "retaindb" 선택

ByteRover

적합한 용도: 사람이 읽고 감사할 수 있는 저장소를 갖춘 로컬 우선 메모리.

ByteRover는 임베딩 벡터나 데이터베이스 대신, 도메인, 주제, 하위 주제 파일로 구성된 계층 구조인 구조화된 마크다운 컨텍스트 트리를 메모리로 저장합니다. LLM이 소스 콘텐츠를 읽고 추론하여 추출된 지식을 계층 구조의 올바른 위치에 배치합니다. 검색은 MiniSearch 전체 텍스트 검색을 사용하며, LLM 기반 검색으로 계층적 폴백(fallback)이 가능하여 별도의 벡터 데이터베이스가 필요 없습니다.

외부 종속성: ByteRover는 메모리 큐레이션 및 검색을 위해 LLM이 필요합니다(Anthropic, OpenAI, Google, Ollama 및 openai-compatible 슬롯을 통한 모든 OpenAI 호환 엔드포인트를 포함하여 18개 제공자 지원). 임베딩 모델이나 데이터베이스는 필요하지 않습니다. 컨텍스트 트리는 일반 마크다운 파일로 구성된 로컬 디렉터리입니다. 클라우드 동기화는 선택 사항이며 팀 협업을 위해서만 사용됩니다. 기본적으로 모든 기능은 오프라인에서 작동합니다. 완전한 독립형 로컬 설정을 위해 Ollama를 제공자로 연결하면(brv providers connect openai-compatible --base-url http://localhost:11434/v1), 데이터가 기기를 벗어나지 않습니다.

도구: 메모리 작업을 위한 3가지 도구.

설정:

hermes memory setup  # "byterover" 선택

Supermemory

적합한 용도: 컨텍스트 펜싱 및 세션 그래프 인제스트를 지원하는 엔터프라이즈 워크플로우.

Supermemory는 컨텍스트 펜싱(컨텍스트별로 메모리 격리)과 세션 그래프 인제스트(전체 대화 기록 가져오기)를 제공합니다. 메모리를 자동으로 추출하고 사용자 프로필을 구축하며, 의미론적 검색과 키워드 검색을 결합한 하이브리드 검색을 실행합니다. 관리형 클라우드 API가 주요 배포 대상입니다.

외부 종속성: Supermemory의 클라우드 서비스는 모든 LLM 추론과 임베딩을 서버 측에서 처리하므로, 사용자는 Supermemory API 키만 제공하면 됩니다. 셀프 호스팅은 엔터프라이즈 플랜의 부가 기능으로만 제공되며 Cloudflare Workers에 배포됩니다. 이를 위해서는 pgvector 확장이 포함된 PostgreSQL(벡터 저장용)과 OpenAI API 키(필수, Anthropic 및 Gemini는 선택 사항)를 직접 제공해야 합니다. Docker 기반의 로컬 셀프 호스팅 경로는 없으며, 아키텍처가 Cloudflare Workers 에지 컴퓨팅에 밀접하게 결합되어 있습니다. 엔터프라이즈 계약 없이 완전한 데이터 주권을 원하는 사용자에게는 적합하지 않은 선택입니다.

도구: 메모리 작업을 위한 4가지 도구.

설정:

hermes memory setup  # "supermemory" 선택

선택 가이드

  • 멀티 에이전트 지원이 필요한가요? Honcho
  • 셀프 호스팅과 무료 모델을 원하시나요? OpenViking 또는 Holographic
  • 설정 과정이 없는 것을 원하시나요? Mem0
  • 지식 그래프를 원하시나요? Hindsight
  • 델타 압축이 필요한가요? RetainDB
  • 대역폭 효율성이 중요한가요? ByteRover
  • 엔터프라이즈 기능이 필요한가요? Supermemory
  • 개인정보 보호(로컬 전용)를 원하시나요? Holographic
  • 외부 서비스 없이 완전한 로컬 환경을 원하시나요? Holographic(종속성 전혀 없음) 또는 Ollama를 사용하는 Hindsight/Mem0/ByteRover
  • 임베딩 파이프라인 없이 사람이 읽고 감사할 수 있는 메모리를 원하시나요? ByteRover

프로필별 상세 제공자 구성 및 실제 워크플로우 패턴은 Hermes Agent production setup을 참조하십시오.


관련 가이드

구독하기

시스템, 인프라, AI 엔지니어링에 관한 새 글을 받아보세요.