Обновить
16K+
160,18
Рейтинг
37 890
Подписчики
Сначала показывать

Agent Driven SDLC: как меняется разработка в эпоху ИИ

Время на прочтение12 мин
Охват и читатели7.7K

Еще примерно год назад нам обещали, что разработка с приходом AI ускорится в 10 раз. Однако все понимают, что прогнозируемого роста за это время не произошло. Почему — сейчас попробуем разобраться.

Привет, Хабр! Я Влад Шевченко, CTO по AI в red_mad_robot. Сегодня поговорим об анатомии AI-агентов, критериях готовности компании к работе с ними и кризисе жизненного цикла разработки ПО, а также ответим на вопрос, почему нельзя просто написать запрос агенту и ждать результата.

Мы в компании взаимодействуем с искусственным интеллектом уже достаточно давно, и в данный момент занимаемся трансформацией бизнеса: смотрим, что меняется в клиентах, где-то помогаем, а где-то учимся у них. Я разделил SDLC на два подхода. Начнем с разработки классических систем без искусственного интеллекта, но с применением его как помощника.

Читать далее

Harness Bench: как оценить агентский harness и выбрать связку с моделью

Время на прочтение12 мин
Охват и читатели8.9K

Привет! Я Андрей Иванов, NLP-исследователь в R&D-лаборатории red_mad_robot.

Когда мы собираем AI-агента, первым делом выбираем модель под задачу. Но в реальном приложении она не работает в одиночку, ей нужен агентский harness — программная обвязка. Поэтому выбирать приходится не просто модель, а связку «модель + harness».

Чтобы делать этот выбор осознанно, мы создали Harness Bench — открытый фреймворк, который тестирует связки на реальных задачах в одинаковых условиях. В статье расскажу, как он устроен, разберу баги опенсорсных обвязок, которые ломают автоматический прогон, а потом покажу на цифрах, как смена harness влияет на способности одной и той же модели.

Читать далее

DCD: доменно-ориентированная архитектура для построения RAG-систем

Время на прочтение7 мин
Охват и читатели8.5K

Привет! Это Роботы.
Недавно мы выпустили статью на arXiv, где представили архитектурный подход DCD (Domain–Collection–Document) для структурирования пространства знаний и обработки запросов в RAG-системах. Мы провели подробные эксперименты, оценили работу подхода на собственном бенчмарке и показали, как он влияет на качество поиска и генерации в сравнении с другими подобными методами. А теперь хотим здесь рассказать о ключевых идеях, лежащих в основе DCD Design.

Читать далее

Эволюция данных: генетический алгоритм в задаче классификации текстов

Время на прочтение5 мин
Охват и читатели13K

Привет! Меня зовут Женя Андриевская. Я — NLP-инженер в лаборатории R&D red_mad_robot. Сегодня расскажу, как мы призвали на помощь эволюцию, чтобы улучшить качество данных в задачах классификации текстов. Да-да, ту самую эволюцию, с мутациями и скрещиваниями — только в мире данных, промптов и LLM.

Читать далее

Как маскировать персональные данные на изображениях: наш эксперимент с OCR и NER

Время на прочтение4 мин
Охват и читатели9.6K

Всем привет! Меня зовут Андрей Иванов, я NLP-исследователь в R&D red_mad_robot. Мы разрабатываем систему Guardrails для защиты персональных данных (PII) и фильтрации небезопасного контента.

В этой статье расскажу, как мы решали задачу точечного маскирования PII на картинках без обучения специальных визуальных детекторов. Разберём связку оптического распознавания символов (OCR) с NER-моделью, покажем метрики на реальных данных, раскроем ограничения подхода и наши решения для их преодоления.

Читать далее

Прогноз AI на 2026 год: давление инфраструктуры и рост агентных систем

Время на прочтение6 мин
Охват и читатели7.8K

В конце прошлого года обсудили с Head of R&D red_mad_robot Валерой Ковальским, как будет развиваться AI в 2026 году. В статье делимся его прогнозами и разбираем, какие изменения уже формируют индустрию и какие станут критичными в ближайшие годы — с точки зрения инженерии, масштабирования и реального применения в продуктах.

Дополнительный контекст и комментарии дал Саша Абрамов — AI-визионер, руководитель AI/ML-команд и автор Dealer.AI.

Читать далее

Как мы сделали гибридный AI-поиск по смыслу книг: двухконтурная архитектура и семантическое ранжирование

Время на прочтение8 мин
Охват и читатели10K

Всем привет! Меня зовут Яна Чеканова, я проджект-менеджер в red_mad_robot уже два года — и да, я не технарь, а филолог по образованию. Парадоксально, но именно это образование помогло мне в одном из самых технологичных проектов — создании AI-поиска для сервиса книги билайн.

Идея родилась у команды билайна: они провели исследование и поняли, что большинство читателей не ищут конкретного автора или название, а ориентируются на настроение и ощущение от книги — «что-то атмосферное», «что-то как любимый роман». Так появилась гипотеза: сделать поиск, который понимает смысл запроса, а не только ключевые слова.

Мы подключились, чтобы превратить эту идею в технологию: векторизовали метаданные полумиллиона книг, обучили LLM и собрали гибридную систему, которая подбирает литературу по смыслу и контексту — даже если запрос звучит просто как «что-нибудь про путешествия во времени».

Рассказываю, как это было.

Читать далее

MCP Tool Registry: автоматизированное создание систем RAG

Время на прочтение8 мин
Охват и читатели15K

Всем привет! Меня зовут Максим Максимов, я — NLP-инженер в AI R&D лаборатории в red_mad_robot. Мы работаем с прикладными AI-системами, проводим эксперименты и проверяем архитектурные подходы в реальных сценариях.

Современные AI-архитектуры всё чаще выносят прикладную логику за пределы LLM — в инструменты, внешние источники данных и правила их оркестрации. Модель выступает вычислительным ядром, а ценность формируется на уровне системы вокруг неё. 

Из этого подхода в R&D-лаборатории вырос MCP Tool Registry — центральный реестр для управления системой серверов, необходимых для построения RAG. В этой статье я подробно расскажу, из каких частей состоит MCP Tool Registry, как он работает и покажу его применение на практическом примере.

Читать далее

«План б.», который сработал: как мы интегрировали Daisy в платформу Билайна

Время на прочтение7 мин
Охват и читатели6.8K

В 2025 году AI окончательно вышел за рамки экспериментальных функций и стал инфраструктурным слоем цифровых продуктов. Он всё чаще определяет не отдельные возможности, а логику развития экосистем, скорость запуска новых продуктов и качество пользовательского опыта.

​​Именно в этом контексте в 2025 году red_mad_robot и Билайн заключили стратегическое партнёрство. Мы развиваем сразу несколько направлений — от AI-сервисов до клиентских продуктов, где технологии усиливают ежедневный UX.

Одним из первых шагов стало создание полноценного AI-слоя для платформы Билайна «план б.» на базе Agentic-First решения Daisy. Рассказываем, как мы подошли к проектированию AI-функциональности, какие решения легли в основу архитектуры и что получилось на практике.

Читать далее

Qwen3Guard: следующий шаг в модерации и контроле контента

Время на прочтение6 мин
Охват и читатели9K

Всем привет! Меня зовут Миша Мартьянов, я инженер по исследованиям и разработке в лаборатории AI R&D в red_mad_robot. В мои задачи входит проверка гипотез и развитие наших продуктов. Однако недостаточно просто улучшать продукты, необходимо также чтобы они работали устойчиво и безопасно. 

Ранее я рассказывал разработку идеального контент-фильтра на базе Guardrails. Но время не стоит на месте: появляются новые модели и новые практики их применения. Этому и будет посвящён наш сегодняшний разговор.

Читать далее

Контроль против гибкости: два подхода к созданию AI-агентов

Время на прочтение9 мин
Охват и читатели13K

Привет! Меня зовут Женя Орлов, я руковожу NLP-разработкой в red_mad_robot. Мы экспериментируем с мультиагентными системами и изучаем, как LLM ведут себя в разных архитектурах. В процессе накопилось много наблюдений и рабочих инсайтов — хочу поделиться тем, что помогает нам при проектировании AI-агентов. 

В последнее время внимание инженеров и исследователей привлекают агентные архитектуры — системы, где LLM координирует работу внутренних инструментов и других моделей. Разберём два основных подхода к построению агентных систем. 

Читать далее

Schema-Guided Reasoning: как научить языковые модели последовательно рассуждать

Время на прочтение10 мин
Охват и читатели12K

LLM умеют многое: генерировать тексты, анализировать документы, писать код. Но на практике их работа часто непредсказуема — сегодня модель даёт точный ответ, а завтра на тех же данных ошибается, пропускает ключевые шаги или придумывает факты.

Для AI-инженеров это системная проблема. Возьмём автоматизацию документооборота: нужно классифицировать договоры, извлекать реквизиты, проверять стандарты. Но модель работает как лотерея — результат не поддаётся логике или меняется при повторном запуске с одинаковыми данными. Как встроить такой результат в бизнес-процесс?

Для решения этой задачи появился подход Schema-Guided Reasoning (SGR). Его активно продвигает Ринат Абдуллин в материалах по работе с LLM. Идея проста и эффективна: заставить модель мыслить не хаотично, а внутри заданной схемы. Это не панацея, но SGR серьёзно снижает количество ошибок, делает процесс прозрачнее, а также позволяет тестировать отдельные компоненты рассуждений.

Читать далее

Когда одного агента мало: практический кейс применения мультиагентной системы

Время на прочтение9 мин
Охват и читатели8.6K

Привет! Меня зовут Егор Козлов, я работаю NLP-инженером в red_mad_robot. Мы активно внедряем в бизнес AI-агентов — автономных и полуавтономных программных сущностей, которые самостоятельно выполняют задачи и принимают решения в интересах бизнеса. 

В статье расскажу о принципах работы AI-агентов — с особым вниманием к workflow-агентам и мультиагентным системам (MAS). И поделюсь практическим кейсом внедрения мультиагентной среды для автоматического анализа и исправления уязвимостей в коде.

Читать далее

Baidu и AI Search Paradigm: мультиагентная структура для интеллектуального поиска информации

Время на прочтение14 мин
Охват и читатели7.4K

Аналитический центр red_mad_robot продолжает разбирать ключевые исследования в сфере интеллектуальных систем и генеративного поиска. На этот раз рассказываем про архитектуру AI Search Paradigm от Baidu — новой системы интеллектуального поиска, построенной на LLM и мультиагентных методах.

Читать далее

Ближайшие события

Circuit Tracing: как заглянуть в галлюцинации модели и найти там смысл

Время на прочтение7 мин
Охват и читатели12K

Всем привет! Меня зовут Ирина, я NLP-инженер в red_mad_robot, занимаюсь научными исследованиями интерпретируемости LLM и анализом механизмов внутренних вычислений моделей, чтобы применять полученные результаты на практике. Например, сегодня хочу рассказать, как мы подошли к решению задачи детекции галлюцинаций LLM в RAG системах со стороны исследования графов размышлений модели — с помощью интересного фреймворка от Anthropic.

В статье поговорим, как использовать cross-layer transcoders и атрибуционные графы для детекции галлюцинаций в RAG системах. Рассмотрим пример реализации детектора на графах для анализа модели Qwen2.5-7B и практические примеры использования. Спойлер: на простой реализации получили точность детекции 85% на тестовом датасете.

Читать далее

Рынок цифровых AI-Компаньонов: эволюция, метрики и инсайты

Время на прочтение30 мин
Охват и читатели10K

Привет! Это Лиза Скрыль, продакт-менеджер в NDT by red_mad_robot. Мы исследовали рынок AI-компаньонов и хотим поделиться инсайтами о том, как формируется эта новая потребительская категория.

Читать далее

Все LLM в одном окне: как мы сделали AI-сервис Daisy

Время на прочтение5 мин
Охват и читатели17K

Знакомьтесь, Daisy — наш сервис для быстрого доступа ко всем передовым LLM. Он вырос из инициативы друзей, которым хотелось разобраться, какие пользовательские сценарии работают в GenAI и как сделать удобный AI-based UX. Начав с внутреннего исследования, мы открыли доступ к сервису для внешнего мира и увидели, что им начали активно пользоваться.

За полгода у Daisy — 300 тыс. пользователей, 5 тыс. DAU и более 3,5 млн обращений к моделям. Рассказываем, как мы пошли дальше простого доступа к LLM через API — и сделали полноценный AI-сервис со своим подходом к архитектуре и взаимодействию с пользователями.

Читать далее

Новый метод поиска от Sakana: расширение inference-time scaling и коллективный разум

Время на прочтение7 мин
Охват и читатели7.4K

Аналитический центр red_mad_robot продолжает разбирать исследования японской лаборатории Sakana AI — в прошлый раз это была архитектура CTM, вдохновлённая внутренней динамикой человеческого мышления. Теперь — метод, который помогает языковым моделям мыслить точнее уже на этапе выполнения запроса.

В работе представлены два подхода: AB‑MCTS и его расширение Multi‑LLM AB‑MCTS. Первый объединяет два принципа — уточнение уже готовых ответов и генерацию альтернативных, второй добавляет работу нескольких языковых моделей. Всё это чтобы научить модели «думать» одновременно глубже и шире.

Читать далее

От мозга к мультиагентным системам: как устроены Foundation Agents нового поколения

Время на прочтение43 мин
Охват и читатели8.7K

Аналитический центр red_mad_robot разобрал объёмную научную статью «Advances and Challenges in Foundation Agents» от группы исследователей AI из передовых международных университетов и технологических компаний.

Работа предлагает новый взгляд на текущее состояние и развитие «интеллектуальных агентов», которые могут адаптироваться к множеству задач и контекстов. Рассказываем, какие идеи лежат в основе Foundation Agents, с какими проблемами предстоит столкнуться, и что ждёт нас в будущем.

Читать далее

Собственный контент-фильтр на базе LLM: от эксперимента до стабильной системы

Время на прочтение5 мин
Охват и читатели5.1K

Привет! Меня зовут Миша Мартьянов, я инженер по исследованиям и разработке в red_mad_robot. Моя работа — искать новые идеи, проверять гипотезы и улучшать продукты. На этом пути иногда приходится изобретать уникальные решения. Например, мы создали собственный фильтр, чтобы отсеивать нежелательный контент с помощью LLM. Рассказываю, как мы к этому пришли и с какими сложностями столкнулись.

Читать далее
1
23 ...

Информация

Сайт
redmadrobot.ru
Дата регистрации
Дата основания
Численность
501–1 000 человек
Местоположение
Россия