andrivasg30 июн в 11:30

Harness Bench: как оценить агентский harness и выбрать связку с моделью

12 мин

8.9K

Блог компании red_mad_robotNatural Language Processing * Python * Open source *

+15

Комментарии 8

larsan12 30 июн в 14:27

в чём смысл тестировать opencode с openclaw/hermes, как практически это может быть полезно? абсолютно разные инструменты

andrivasg 30 июн в 15:36

Да, по реализации они абсолютно разные. Но job у них один: превратить модель в работающего агента. Это как раз причина их сравнивать, а не повод этого не делать.
Цель сравнения - выбрать наилучшую связку harness+модель под задачу. Различия и определяют выбор: что лучше получается у одного, а что у другого, как раз и можно наблюдать на тестах.

vyacheslavteplyakov 1 июл в 18:31

Ну нет. Не согласен. Вы сравнили тёплое с мягким. Два агента - интерактивных чат бото ориентированных компаньона, сравнили с одной ADE. Получается перевес. И о чудо, оказывается у второй штуковины нет памяти, но она пишет код лучше чем две первых. Ну как такое могло произойти? =)

Стоит сравнивать группами, допустим, opencode vs Claude (позволяет подключать не только Antropic модели) vs droid и отдельно Hermes, Openclaw Open Human.

Вообще не понимаю, почему у казалось бы людей, которые должны различать эти типы харнесов, принято валить их в одну кучу и сравнивать Hermes с Claude. Одна фиговина сделана с упором на персонализацию и интерактив, вторая код строчить и работать к кодовой базой внутри проекта в качестве инструмента разработки. Это вообще разные вещи.

andrivasg 2 июл в 16:31

С разделением на классы согласен, но не с тем что сравнение бессмысленно. В эксперименте разные harness выполняют одну задачу с одинаковыми моделью, средой, MCP-инструментами и оценкой - это позволяет сравнить их влияние на результат.

По исходникам базовый цикл у них одинаков: задача -> системный prompt -> tool calls -> выполнение -> проверка. Совпадают TODO-статусы, shell/file tools, форматы patch/edit и правила plan -> implement -> verify; некоторые формулировки совпадают дословно. Поэтому специализация различается, но их Agent Loop сопоставим.

Провал OpenCode на памяти это не оценка coding agent в целом, а конкретное архитектурное ограничение. Например, в Qwen Code полноценная Auto-Memory включена по умолчанию.

Сравнение внутри отдельных классов тоже полезно. Но наша цель не общий рейтинг, а карта применимости harness по разным классам задач.

vyacheslavteplyakov 2 июл в 16:45

Одинаковые они примерно как ворд и эксель в пакете офиса, и там и там есть макросы и там и там даже можно делать таблицы, но есть нюанс.

andrivasg 2 июл в 17:47

Тесты как раз и измеряют этот "нюанс". Word и Excel тоже можно сравнить на конкретной задаче, например, подготовить финансовый отчет.

Цель такого сравнения не "что лучше вообще", а где заканчивается применимость одного инструмента и начинается преимущество другого.

trashchenkov 30 июн в 19:50

Как ваша работа соотносится с Harbor https://www.harborframework.com/ ?

andrivasg 1 июл в 09:08

Сильно близкая по духу платформа, но цели разные: у нас фокус на удобном сравнении связок "модель + harness", у Harbor на оценке и тюнинге агента/промптов.

Там, где есть пересечения, я бы выделил такие различия:

1. Harness у нас - черный ящик снаружи. Агент живет в отдельном контейнере и достает до песочницы только через MCP-мост, Harbor же ставит агента внутрь среды задачи. Эта изоляция позволяет нам легко трассировать действия агента, выявлять проблемы, сравнивать агентов между собой.
2. В Harbor задача это физическая директория с инструкцией, докер-файлом и т.д. Бенчмарк у нас - код. Все то же самое умещается в одном методе, поэтому обернуть стандартный датасет дешево - одна точка входа в коде.

Зарегистрируйтесь на Хабре, чтобы оставить комментарий