RAG

Метод PARA для инженеров: организация знаний по действиям

Метод PARA для инженеров: организация знаний по действиям

Организуйте заметки по действиям, а не по темам.

Организация заметок по темам кажется логичной, пока у вас нет заметок о PostgreSQL в пяти разных папках и вы не можете найти ту, которая важна для решения сегодняшней проблемы.

Системы памяти в AI-ассистентах

Системы памяти в AI-ассистентах

Рабочая, структурированная и память извлечения для ассистентов.

Память превращает ассистентов из реактивных в персистентные системы, но именно здесь многие системы тихо деградируют. Исследования показывают, что разделение на кратковременную и долгосрочную память больше не достаточно для современной памяти агентов; OpenAI и SDK LangGraph указывают на более простую архитектуру — рабочую память, персистентное состояние и извлечение данных.

Архитектура ИИ-ассистента: LLM, память, инструменты, маршрутизация, наблюдаемость

Архитектура ИИ-ассистента: LLM, память, инструменты, маршрутизация, наблюдаемость

«Как на самом деле создаются серьёзные ассистенты»

Система AI-ассистента в продакшене — это не просто «LLM с промптом». Это система, которая принимает намерения пользователя, сохраняет состояние, решает, когда нужно извлечь данные или выполнить действие, и предоставляет достаточно деталей во время выполнения для отладки сбоев.

Получение данных против репрезентации в системах знаний

Получение данных против репрезентации в системах знаний

Поиск — это не структура знаний

Большинство современных систем знаний оптимизируют процесс поиска, и это вполне понятно. Поиск нагляден, его легко продемонстрировать, и он кажется магией, когда работает. Введи вопрос — получи ответ.

LLM Wiki: систематизированные знания, которые невозможно заменить с помощью RAG

LLM Wiki: систематизированные знания, которые невозможно заменить с помощью RAG

Скомпилированные знания для ИИ-систем

Основная идея проста: скомпилированные знания более пригодны для повторного использования, чем извлеченные фрагменты. RAG стал стандартным ответом на простой вопрос — как предоставить LLM доступ к внешним знаниям?

PKM против RAG, Wiki и систем памяти: простое объяснение

PKM против RAG, Wiki и систем памяти: простое объяснение

«Карта современных систем знаний»

PKM, RAG, вики, системы памяти ИИ и теперь практические рабочие процессы с помощью ИИ часто обсуждаются так, будто они решают одну и ту же проблему. Это не так. Все они имеют дело с знаниями, но работают на разных уровнях:

«Вторая голова. Объяснение для инженеров и работников интеллектуального труда»

«Вторая голова. Объяснение для инженеров и работников интеллектуального труда»

Заметки — это хранилище. Второй мозг — это вычисление.

Информационная перегрузка связана не столько с огромным объемом данных, сколько с нерешенными входящими потоками информации. Современная интеллектуальная работа оставляет за собой след из открытых вкладок, чатов, документов, выделенных фрагментов, цитат, транскриптов, скриншотов и недописанных заметок.

Валидация структурированного вывода LLM на Python, которая работает надёжно

Валидация структурированного вывода LLM на Python, которая работает надёжно

Перестаньте полагаться на интуицию. Валидируйте контракты.

Большинство руководств по «структурированному выводу» (structured output) для больших языковых моделей (LLM) не обладают должной серьезностью. Они учат вас вежливо просить модель выдавать JSON и затем надеяться, что она поступит правильно. Это не валидация. Это оптимизм, обернутый в фигурные скобки.

Векторные представления текста для RAG и поиска — Python, Ollama, совместимые с API OpenAI

Векторные представления текста для RAG и поиска — Python, Ollama, совместимые с API OpenAI

Встраивания для RAG — Python, Ollama, API OpenAI.

Если вы работаете с генерацией с расширением поиска (RAG), этот раздел объясняет векторные представления текста (эмбеддинги) простым языком: что это такое, как они работают в поиске и извлечении данных, и как вызывать два распространенных локальных режима из Python с помощью Ollama или OpenAI-совместимого HTTP API (так как многие серверы на базе llama.cpp поддерживают такой интерфейс).

Графовая база данных Neo4j для GraphRAG: установка, Cypher, векторы, операции.

Графовая база данных Neo4j для GraphRAG: установка, Cypher, векторы, операции.

Графы, Cypher, векторы и усиление операций.

Neo4j — это то, что вы выбираете, когда связи и есть данные. Если ваша предметная область выглядит как доска с кружками и стрелками, то попытка запихнуть её в таблицы будет болезненной.

Стратегии разбиения на части в сравнении RAG: альтернативы, компромиссы и примеры

Стратегии разбиения на части в сравнении RAG: альтернативы, компромиссы и примеры

Сравнение стратегий чанкирования в RAG

Чанкинг — это наиболее недооцененный гиперпараметр в Retrieval-Augmented Generation (RAG): он определяет, что видит ваша LLM, насколько дорогостоящим становится индексирование, и сколько контекстного окна LLM тратится на каждый ответ.

Руководство по генерации с расширенным поиском (RAG): архитектура, реализация и внедрение в производство

Руководство по генерации с расширенным поиском (RAG): архитектура, реализация и внедрение в производство

От базового RAG до продакшена: чанкинг, векторный поиск, реранкинг и оценка в одном руководстве.

Production-focused guide to building RAG systems: chunking, vector stores, hybrid retrieval, reranking, evaluation, and when to choose RAG over fine-tuning.