Комментарии 8
в чём смысл тестировать opencode с openclaw/hermes, как практически это может быть полезно? абсолютно разные инструменты
Да, по реализации они абсолютно разные. Но job у них один: превратить модель в работающего агента. Это как раз причина их сравнивать, а не повод этого не делать.
Цель сравнения - выбрать наилучшую связку harness+модель под задачу. Различия и определяют выбор: что лучше получается у одного, а что у другого, как раз и можно наблюдать на тестах.
Ну нет. Не согласен. Вы сравнили тёплое с мягким. Два агента - интерактивных чат бото ориентированных компаньона, сравнили с одной ADE. Получается перевес. И о чудо, оказывается у второй штуковины нет памяти, но она пишет код лучше чем две первых. Ну как такое могло произойти? =)
Стоит сравнивать группами, допустим, opencode vs Claude (позволяет подключать не только Antropic модели) vs droid и отдельно Hermes, Openclaw Open Human.
Вообще не понимаю, почему у казалось бы людей, которые должны различать эти типы харнесов, принято валить их в одну кучу и сравнивать Hermes с Claude. Одна фиговина сделана с упором на персонализацию и интерактив, вторая код строчить и работать к кодовой базой внутри проекта в качестве инструмента разработки. Это вообще разные вещи.
С разделением на классы согласен, но не с тем что сравнение бессмысленно. В эксперименте разные harness выполняют одну задачу с одинаковыми моделью, средой, MCP-инструментами и оценкой - это позволяет сравнить их влияние на результат.
По исходникам базовый цикл у них одинаков: задача -> системный prompt -> tool calls -> выполнение -> проверка. Совпадают TODO-статусы, shell/file tools, форматы patch/edit и правила plan -> implement -> verify; некоторые формулировки совпадают дословно. Поэтому специализация различается, но их Agent Loop сопоставим.
Провал OpenCode на памяти это не оценка coding agent в целом, а конкретное архитектурное ограничение. Например, в Qwen Code полноценная Auto-Memory включена по умолчанию.
Сравнение внутри отдельных классов тоже полезно. Но наша цель не общий рейтинг, а карта применимости harness по разным классам задач.
Одинаковые они примерно как ворд и эксель в пакете офиса, и там и там есть макросы и там и там даже можно делать таблицы, но есть нюанс.
Как ваша работа соотносится с Harbor https://www.harborframework.com/ ?
Сильно близкая по духу платформа, но цели разные: у нас фокус на удобном сравнении связок "модель + harness", у Harbor на оценке и тюнинге агента/промптов.
Там, где есть пересечения, я бы выделил такие различия:
1. Harness у нас - черный ящик снаружи. Агент живет в отдельном контейнере и достает до песочницы только через MCP-мост, Harbor же ставит агента внутрь среды задачи. Эта изоляция позволяет нам легко трассировать действия агента, выявлять проблемы, сравнивать агентов между собой.
2. В Harbor задача это физическая директория с инструкцией, докер-файлом и т.д. Бенчмарк у нас - код. Все то же самое умещается в одном методе, поэтому обернуть стандартный датасет дешево - одна точка входа в коде.
Harness Bench: как оценить агентский harness и выбрать связку с моделью