Статьи / Профиль artarasov / Хабр

Артем Тарасов@artarasov

AI Systems Engineer

Рейтинг

Подписчики

ПрофильСтатьи5ПостыНовостиКомментарии3

artarasov 23 июн в 05:10

Evals: что должен знать каждый AI-инженер в 2026

Средний

9 мин

8.3K

Машинное обучение * Искусственный интеллектNatural Language Processing * Тестирование IT-систем *

Аналитика

В июле 2025 coding-агент в Replit проигнорировал явный запрет на изменения файлов (code-freeze) и удалил production-базу – данные примерно 1200 компаний, позже заявив, что «сделал катастрофическую ошибку». Operator от OpenAI, которого попросили всего лишь найти дешевые яйца, сам купил их на Instacart на $31.43 – в обход собственного подтверждения покупки. Официальный чатбот мэрии Нью-Йорка советовал предпринимателям нарушать закон: говорил, что можно забирать чаевые работников и отказывать арендаторам с жилищными ваучерами Section 8. Эти и другие инциденты сведены в обзоре «Towards a Science of AI Agent Reliability», где каждый разделен по характеру сбоя: тяжесть вреда, нарушение полномочий, плохая калибровка.

Ни один из этих случаев не всплыл бы в обычном демо. И ни один бенчмарк про них заранее бы не предупредил.

Публичные бенчмарки полезны – по ним видно, какая модель в целом сильнее и куда движется фронтир. Но они отвечают на другой вопрос. Высокий балл на лидерборде не говорит, справляется ли система с вашими задачами: для этого нужны собственные evals и бенчмарки под конкретные задачи. А часть аспектов – безопасность, устойчивость к злоупотреблениям, поведение под атакой – бенчмарком в принципе не измерить; в этих случаях работает red-teaming. Современная AI-система – это модель в симбиозе с retrieval, tools, memory, routing, prompts, state, permissions. Вы ответственны за всю систему и хотите понимать, как хорошо работает именно она, в то время как публичный бенчмарк измеряет только модель.

artarasov 3 июн в 06:42

Evals для чайников. Как тестировать AI-агента, чтобы понимать, где именно он ломается

Средний

5 мин

6.4K

Искусственный интеллектМашинное обучение * Тестирование IT-систем * Анализ и проектирование систем * Natural Language Processing *

Аналитика

Большинство команд оценивают производительность AI-агентов через end-to-end метрики: success rate, количество токенов, tool usage, стоимость запроса, долю успешных задач. Это полезно для общего контроля ситуации, но почти бесполезно для реальной диагностики системы.

Например, если success rate упал с 85% до 72%, то само по себе число не объясняет причину деградации. Команда вынуждена гадать, какая часть системы вдруг начала допускать ошибки. Сломался retrieval? Модель хуже начала выбирать инструменты? Контекст загрязняется после нескольких ходов? Или система уперлась в возможности base model? При росте проекта и увеличении сложности кодовой базы, сбои начинают расти мультипликативно – ошибки всех систем начинают перемножаться между собой. В конечном итоге, команда теряет реальный контроль.

Проблему решает внедрение покомпонентных eval. Они дополняют end-to-end метрики, показывая, какой слой AI-агента работает, какой деградировал – и где именно искать причину. То есть внедрение evals помогает получать метрики производительности каждого компонента вашего агента.

artarasov 26 мая в 07:16

Почему ломается ваш AI-агент — и почему смена модели обычно его не чинит

Средний

6 мин

Тестирование IT-систем * Анализ и проектирование систем * Natural Language Processing * Машинное обучение * Искусственный интеллект

Аналитика

Представьте внутреннего AI-агента, который помогает компании искать общие документы и управлять ими. Он работает. До тех пор, пока 12–15% запросов не начинают падать. Агент возвращает не тот документ, редактирует не тот файл, молча падает или уверенно ссылается на файл, которого не существует. Поиск по фото отказывает с той же частотой. Ошибки размазаны равномерно по пользователям, фичам и запросам.

Первое инстинктивное действие — поменять модель. Opus 4.5, GPT 5.5 или что там сейчас в топе лидерборда. Меняете. Счет за инференс растет в 4–5 раз, а общая доля ошибок снижается с 12% до 9%. Пользователи пишут о тех же проблемах. Бюджет следующего квартала сгорает за пару недель ради улучшения в 3 процентных пункта — и вы по-прежнему не понимаете, что именно было не так в системе и как улучшать ее дальше.

Эта статья — о том, почему смена модели обычно разочаровывает и куда стоит смотреть в первую очередь. Большинство сбоев AI-систем живет в слое обвязки — orchestration, retrieval, tool definitions, retries, context management, — а не в самой модели. Дальше — метод, как отличить проблемы обвязки от проблем модели, кейс, в котором одно исправление в обвязке подняло completion rate с 26% до 88% без смены модели, и чек-лист, который помогает находить такие сбои в вашей собственной системе. Если вы никогда не делали подобной диагностики — ожидайте найти хотя бы один пункт, который стоит починить.

artarasov 23 окт 2021 в 11:57

Простой шутер от третьего лица на Unreal Engine. Часть 2

4 мин

9.4K

Блог компании OTUSРазработка игр * Unreal Engine *

До прочтения этой статьи рекомендую прочитать первую часть.

План на сегодня:

Сегодня мы создадим простеньких противников, который будут ходить туда-сюда. Научимся наносить им урон.

artarasov 30 сен 2021 в 12:04

Простой шутер от третьего лица на Unreal Engine. Часть 1

7 мин

28K

Блог компании OTUSРазработка игр * Дизайн игр * Unreal Engine *

Эта статья писалась для новичков Unreal Engine, если вы профи, то вам будет скучно. Для нормального прочтения, осмысления и понимания происходящего ниже необходимо знать что такое переменная и их основные типы, что такое метод, булеву логику и самые базовые принципы программирования. Спасибо. Приступим.

+29

Evals: что должен знать каждый AI-инженер в 2026

Evals для чайников. Как тестировать AI-агента, чтобы понимать, где именно он ломается

Почему ломается ваш AI-агент — и почему смена модели обычно его не чинит

Простой шутер от третьего лица на Unreal Engine. Часть 2

Простой шутер от третьего лица на Unreal Engine. Часть 1

Информация

Специализация