dirvika29 апр в 08:16

DeepSeek v4 vs GLM 5.1: сравнительный бенчмарк агентов на реальных задачах разработки

1 мин

9.1K

Блог компании VeaiПрограммирование * Исследования и прогнозы в IT * Анализ и проектирование систем *

Комментарии 11

Бенчмарки уже вообще ничего значат. Уж не знаю как там дела в разработке, но с DS дипсик работает просто ужасно.

Скинул ему ноутбук, попросил поправить кривую реализацию позиционного кодирования. Он 5 раз не мог переписать код: то пытался json выдать, то писал все с нуля, то 'вот вся ячейка - вставьте и запустит' - и херачил все 17 ячеек в одну.

Только на 6ой попытке, спустя 40 минут он выдал что-то внятное. А на бумаге это топовая модель, которая такие задачи должна как орешки щелкать.

Jacov911 29 апр в 15:27

Это в режиме "агента" или просто в чате?

morginalium8 29 апр в 16:22

конкретно этот случай - в чате с pro-версией. а аналогичное было в opencode

Dolby 29 апр в 15:34

Согласен, тоже удивляюсь. Даже простые функции на 5-10 строчек он умудряется на 30-40 строк размазать, выдает индусский код вместо лаконичного решения

Cogitatus 1 мая в 15:22

Тоже сравнил его на небольшом фиксе в реальном проекте - там где клод опус 4.7 обошёлся несколькими строчками, выбрав более правильный и лаконичный подход ещё и тесты проверил и поправил, дипсик начал вводить лишние сущности и подходы, которые только запутывали итоговое понимание кода, хотя формально были верными, но не нужными.

Возможно клоду (на уровне обработки запроса в компании) пишут более правильные системные промты, снижающие энтропию результата не в ущерб требованиям, поэтому его вывод кажется более лаконичным.

palyaros02 29 апр в 19:24

Так а чего вы хотели? Ноутбук это зубодробительная вещь с тонной лишнего контекста. Блокнотом откройте и сами попробуйте в таком виде что-то исправить, не сломав. Вы модели, вместо того, чтоб дать кусок кода на исправление, дали файл, который надо как-то распарсить, найти задачу, закодировать обратно и чтоб не сломалось. Без библиотек даже, сырым анализом байтов. Искусственное усложнение задачи на порядки. Дипсик в ds имхо не плох, а вы его не ds просили заниматься, а парсингом

OverFitter 30 апр в 06:16

Ноутбук - это просто код, упакованный в json для добавления небольшого количества метадаты. Современные модели поголовно уже адекватно с этим справляются. Какой там анализ байтов - непонятно

palyaros02 11 мая в 07:25

У дипсика нет библиотек для работы с ipynb в его интерпретаторе. Ваш ноутбук для него - просто json с огромной кучей нерелевантной информации. Без указаний, где в этой куче вообще код. Если есть картинки или любой другой контент в base64 - вообще труба. Искать по файлу в чатике он тоже не умеет - нужно весь файл прочитать, или писать обвязку на питоне. Вы того же дипсика подключите к агенту или в ide - результат будет совершенно другой. Или возьмите любую топовую модель, дайте ей сырой питон и попросите аналогичную задачу сделать - будет провал. У меня Sonnet чистый без всего (самописный агент) также не смог исправить код в ноутбуке - поломал форматирование и обратно починить не смог. Опус не тестил, мб он и справится.

Ну и вообще тестить агентные модели через чатик в 2026 немного уже моветон.

kivan_mih 29 апр в 22:05

Немного офтоп из личного опыта, но поделюсь, может кому пригодится. Использую Glm 5.1 с начала апреля и он субъективно очень хороший, у меня он работает на кастомной опенкло инсталляции 24/7 по максимальной подписке пишет код в полуавтономном режиме. На него перешел с подписки антропика, пока антропик ее окончательно не закрыл для сторонних агентов 4 апреля. Неделю пришлось привыкать, потому что казалось бы всё то же самое, но качество результата ощущалось немного по-другому. Спустя неделю адаптировался, пришлось чуть больше guardrails расставить и дополнительных проверочных агентов запускать в моменты, в которые опусу это было излишним. Пример - допустим агент гоняет е2е тесты веб приложения со скриншотами, у меня в описании проекта четко написано что скрины надо класть в специальную темповую папку, которая после прогона тестов удаляется. У опуса с этим проблем никогда не было, а вот glm мог иногда их засунуть - пойди поищи, пришлось обмазать каждый прогон тестов специальной утилитой которая контролировала структуру папок и файлов после завершения. Несмотря на такие косяки у glm значительно меньше проблем с доступностью, антропик последние месяцы сильно лихорадило, лимиты едятся заметно медленее, хватает на дольше и самое главное работа в опенкло официально поощряется в подписке, а не как у антропика, что могут забанить в любой момент. Качество кода хуже, но в моем случае незначительно и поправимо. В общем для полуавтономного кодинга в опенкло он мне вполне подошёл.

PS: не используйте автономный кодинг с опенкло на работе. Используйте строго для той тысячи пет проектов, которые вы мечтали реализовать в последние 10 лет, но руки не доходили :)

ivchatov309 30 апр в 20:46

GLM по подписке зайки или где-то потокенно? У шефа подписка в клешне начала 429 выдавать и перекидывать на 4.7, при этом у его друга точно такой же сетап работает безотказно уже где-то месяц.

kivan_mih 1 мая в 03:40

Да, z.ai. 429 ни разу не ловил.

На первый взгляд у них сделано по уму и нагрузка не 429 генерит, а токены/с уменьшает, что логично, если не полениться и настроить очередь на входе. Почему так не сделать было тому же антропику, который последние пару месяцев работал отвратно, я не знаю

Зарегистрируйтесь на Хабре, чтобы оставить комментарий