RAG - Рост Глухов | Персональный сайт и технический блог

Метод PARA для инженеров: организация знаний по действиям

Организация заметок по темам кажется логичной, пока у вас нет заметок о PostgreSQL в пяти разных папках и вы не можете найти ту, которая важна для решения сегодняшней проблемы.

Память превращает ассистентов из реактивных в персистентные системы, но именно здесь многие системы тихо деградируют. Исследования показывают, что разделение на кратковременную и долгосрочную память больше не достаточно для современной памяти агентов; OpenAI и SDK LangGraph указывают на более простую архитектуру — рабочую память, персистентное состояние и извлечение данных.

Архитектура ИИ-ассистента: LLM, память, инструменты, маршрутизация, наблюдаемость

Система AI-ассистента в продакшене — это не просто «LLM с промптом». Это система, которая принимает намерения пользователя, сохраняет состояние, решает, когда нужно извлечь данные или выполнить действие, и предоставляет достаточно деталей во время выполнения для отладки сбоев.

ИИ для управления знаниями: реальные рабочие процессы, которые работают

Искусственный интеллект не заменяет управление знаниями; он меняет его форму как для отдельных лиц, так и для команд.

Получение данных против репрезентации в системах знаний

Большинство современных систем знаний оптимизируют процесс поиска, и это вполне понятно. Поиск нагляден, его легко продемонстрировать, и он кажется магией, когда работает. Введи вопрос — получи ответ.

LLM Wiki: систематизированные знания, которые невозможно заменить с помощью RAG

Основная идея проста: скомпилированные знания более пригодны для повторного использования, чем извлеченные фрагменты. RAG стал стандартным ответом на простой вопрос — как предоставить LLM доступ к внешним знаниям?

PKM против RAG, Wiki и систем памяти: простое объяснение

PKM, RAG, вики, системы памяти ИИ и теперь практические рабочие процессы с помощью ИИ часто обсуждаются так, будто они решают одну и ту же проблему. Это не так. Все они имеют дело с знаниями, но работают на разных уровнях:

«Вторая голова. Объяснение для инженеров и работников интеллектуального труда»

Информационная перегрузка связана не столько с огромным объемом данных, сколько с нерешенными входящими потоками информации. Современная интеллектуальная работа оставляет за собой след из открытых вкладок, чатов, документов, выделенных фрагментов, цитат, транскриптов, скриншотов и недописанных заметок.

Валидация структурированного вывода LLM на Python, которая работает надёжно

Большинство руководств по «структурированному выводу» (structured output) для больших языковых моделей (LLM) не обладают должной серьезностью. Они учат вас вежливо просить модель выдавать JSON и затем надеяться, что она поступит правильно. Это не валидация. Это оптимизм, обернутый в фигурные скобки.

Векторные представления текста для RAG и поиска — Python, Ollama, совместимые с API OpenAI

Если вы работаете с генерацией с расширением поиска (RAG), этот раздел объясняет векторные представления текста (эмбеддинги) простым языком: что это такое, как они работают в поиске и извлечении данных, и как вызывать два распространенных локальных режима из Python с помощью Ollama или OpenAI-совместимого HTTP API (так как многие серверы на базе llama.cpp поддерживают такой интерфейс).

Графовая база данных Neo4j для GraphRAG: установка, Cypher, векторы, операции.

Neo4j — это то, что вы выбираете, когда связи и есть данные. Если ваша предметная область выглядит как доска с кружками и стрелками, то попытка запихнуть её в таблицы будет болезненной.

Системы ИИ: саморазвернутые ассистенты, RAG и локальная инфраструктура

Большинство локальных конфигураций искусственного интеллекта начинаются с модели и среды выполнения.

OpenClaw: Исследование самохостинга ИИ-ассистента как реальной системы

Большинство локальных конфигураций искусственного интеллекта начинаются одинаково: модель, среда выполнения и интерфейс чата.

Быстрый старт OpenClaw: установка с помощью Docker (Ollama GPU или Claude + CPU)

OpenClaw — это автономный ИИ-ассистент, предназначенный для работы с локальными средами выполнения LLM, такими как Ollama, или с облачными моделями, такими как Claude Sonnet.

Стратегии разбиения на части в сравнении RAG: альтернативы, компромиссы и примеры

Чанкинг — это наиболее недооцененный гиперпараметр в Retrieval-Augmented Generation (RAG): он определяет, что видит ваша LLM, насколько дорогостоящим становится индексирование, и сколько контекстного окна LLM тратится на каждый ответ.

Руководство по генерации с расширенным поиском (RAG): архитектура, реализация и внедрение в производство

Production-focused guide to building RAG systems: chunking, vector stores, hybrid retrieval, reranking, evaluation, and when to choose RAG over fine-tuning.