Обновить

Комментарии 8

в чём смысл тестировать opencode с openclaw/hermes, как практически это может быть полезно? абсолютно разные инструменты

Да, по реализации они абсолютно разные. Но job у них один: превратить модель в работающего агента. Это как раз причина их сравнивать, а не повод этого не делать.
Цель сравнения - выбрать наилучшую связку harness+модель под задачу. Различия и определяют выбор: что лучше получается у одного, а что у другого, как раз и можно наблюдать на тестах.

Ну нет. Не согласен. Вы сравнили тёплое с мягким. Два агента - интерактивных чат бото ориентированных компаньона, сравнили с одной ADE. Получается перевес. И о чудо, оказывается у второй штуковины нет памяти, но она пишет код лучше чем две первых. Ну как такое могло произойти? =)

Стоит сравнивать группами, допустим, opencode vs Claude (позволяет подключать не только Antropic модели) vs droid и отдельно Hermes, Openclaw Open Human.

Вообще не понимаю, почему у казалось бы людей, которые должны различать эти типы харнесов, принято валить их в одну кучу и сравнивать Hermes с Claude. Одна фиговина сделана с упором на персонализацию и интерактив, вторая код строчить и работать к кодовой базой внутри проекта в качестве инструмента разработки. Это вообще разные вещи.

С разделением на классы согласен, но не с тем что сравнение бессмысленно. В эксперименте разные harness выполняют одну задачу с одинаковыми моделью, средой, MCP-инструментами и оценкой - это позволяет сравнить их влияние на результат.

По исходникам базовый цикл у них одинаков: задача -> системный prompt -> tool calls -> выполнение -> проверка. Совпадают TODO-статусы, shell/file tools, форматы patch/edit и правила plan -> implement -> verify; некоторые формулировки совпадают дословно. Поэтому специализация различается, но их Agent Loop сопоставим.

Провал OpenCode на памяти это не оценка coding agent в целом, а конкретное архитектурное ограничение. Например, в Qwen Code полноценная Auto-Memory включена по умолчанию.

Сравнение внутри отдельных классов тоже полезно. Но наша цель не общий рейтинг, а карта применимости harness по разным классам задач.

Одинаковые они примерно как ворд и эксель в пакете офиса, и там и там есть макросы и там и там даже можно делать таблицы, но есть нюанс.

Тесты как раз и измеряют этот "нюанс". Word и Excel тоже можно сравнить на конкретной задаче, например, подготовить финансовый отчет.

Цель такого сравнения не "что лучше вообще", а где заканчивается применимость одного инструмента и начинается преимущество другого.

Сильно близкая по духу платформа, но цели разные: у нас фокус на удобном сравнении связок "модель + harness", у Harbor на оценке и тюнинге агента/промптов.

Там, где есть пересечения, я бы выделил такие различия:

1. Harness у нас - черный ящик снаружи. Агент живет в отдельном контейнере и достает до песочницы только через MCP-мост, Harbor же ставит агента внутрь среды задачи. Эта изоляция позволяет нам легко трассировать действия агента, выявлять проблемы, сравнивать агентов между собой.
2. В Harbor задача это физическая директория с инструкцией, докер-файлом и т.д. Бенчмарк у нас - код. Все то же самое умещается в одном методе, поэтому обернуть стандартный датасет дешево - одна точка входа в коде.

Зарегистрируйтесь на Хабре, чтобы оставить комментарий

Информация

Сайт
redmadrobot.ru
Дата регистрации
Дата основания
Численность
501–1 000 человек
Местоположение
Россия