Обновить

DeepSeek v4 vs GLM 5.1: сравнительный бенчмарк агентов на реальных задачах разработки

Время на прочтение1 мин
Охват и читатели9.1K
Всего голосов 4: ↑2 и ↓20
Комментарии11

Комментарии 11

Бенчмарки уже вообще ничего значат. Уж не знаю как там дела в разработке, но с DS дипсик работает просто ужасно.

Скинул ему ноутбук, попросил поправить кривую реализацию позиционного кодирования. Он 5 раз не мог переписать код: то пытался json выдать, то писал все с нуля, то 'вот вся ячейка - вставьте и запустит' - и херачил все 17 ячеек в одну.

Только на 6ой попытке, спустя 40 минут он выдал что-то внятное. А на бумаге это топовая модель, которая такие задачи должна как орешки щелкать.

Это в режиме "агента" или просто в чате?

конкретно этот случай - в чате с pro-версией. а аналогичное было в opencode

Согласен, тоже удивляюсь. Даже простые функции на 5-10 строчек он умудряется на 30-40 строк размазать, выдает индусский код вместо лаконичного решения

Тоже сравнил его на небольшом фиксе в реальном проекте - там где клод опус 4.7 обошёлся несколькими строчками, выбрав более правильный и лаконичный подход ещё и тесты проверил и поправил, дипсик начал вводить лишние сущности и подходы, которые только запутывали итоговое понимание кода, хотя формально были верными, но не нужными.

Возможно клоду (на уровне обработки запроса в компании) пишут более правильные системные промты, снижающие энтропию результата не в ущерб требованиям, поэтому его вывод кажется более лаконичным.

Так а чего вы хотели? Ноутбук это зубодробительная вещь с тонной лишнего контекста. Блокнотом откройте и сами попробуйте в таком виде что-то исправить, не сломав. Вы модели, вместо того, чтоб дать кусок кода на исправление, дали файл, который надо как-то распарсить, найти задачу, закодировать обратно и чтоб не сломалось. Без библиотек даже, сырым анализом байтов. Искусственное усложнение задачи на порядки. Дипсик в ds имхо не плох, а вы его не ds просили заниматься, а парсингом

Ноутбук - это просто код, упакованный в json для добавления небольшого количества метадаты. Современные модели поголовно уже адекватно с этим справляются. Какой там анализ байтов - непонятно

б

У дипсика нет библиотек для работы с ipynb в его интерпретаторе. Ваш ноутбук для него - просто json с огромной кучей нерелевантной информации. Без указаний, где в этой куче вообще код. Если есть картинки или любой другой контент в base64 - вообще труба. Искать по файлу в чатике он тоже не умеет - нужно весь файл прочитать, или писать обвязку на питоне. Вы того же дипсика подключите к агенту или в ide - результат будет совершенно другой. Или возьмите любую топовую модель, дайте ей сырой питон и попросите аналогичную задачу сделать - будет провал. У меня Sonnet чистый без всего (самописный агент) также не смог исправить код в ноутбуке - поломал форматирование и обратно починить не смог. Опус не тестил, мб он и справится.

Ну и вообще тестить агентные модели через чатик в 2026 немного уже моветон.

Немного офтоп из личного опыта, но поделюсь, может кому пригодится. Использую Glm 5.1 с начала апреля и он субъективно очень хороший, у меня он работает на кастомной опенкло инсталляции 24/7 по максимальной подписке пишет код в полуавтономном режиме. На него перешел с подписки антропика, пока антропик ее окончательно не закрыл для сторонних агентов 4 апреля. Неделю пришлось привыкать, потому что казалось бы всё то же самое, но качество результата ощущалось немного по-другому. Спустя неделю адаптировался, пришлось чуть больше guardrails расставить и дополнительных проверочных агентов запускать в моменты, в которые опусу это было излишним. Пример - допустим агент гоняет е2е тесты веб приложения со скриншотами, у меня в описании проекта четко написано что скрины надо класть в специальную темповую папку, которая после прогона тестов удаляется. У опуса с этим проблем никогда не было, а вот glm мог иногда их засунуть - пойди поищи, пришлось обмазать каждый прогон тестов специальной утилитой которая контролировала структуру папок и файлов после завершения. Несмотря на такие косяки у glm значительно меньше проблем с доступностью, антропик последние месяцы сильно лихорадило, лимиты едятся заметно медленее, хватает на дольше и самое главное работа в опенкло официально поощряется в подписке, а не как у антропика, что могут забанить в любой момент. Качество кода хуже, но в моем случае незначительно и поправимо. В общем для полуавтономного кодинга в опенкло он мне вполне подошёл.

PS: не используйте автономный кодинг с опенкло на работе. Используйте строго для той тысячи пет проектов, которые вы мечтали реализовать в последние 10 лет, но руки не доходили :)

GLM по подписке зайки или где-то потокенно? У шефа подписка в клешне начала 429 выдавать и перекидывать на 4.7, при этом у его друга точно такой же сетап работает безотказно уже где-то месяц.

Да, z.ai. 429 ни разу не ловил.

На первый взгляд у них сделано по уму и нагрузка не 429 генерит, а токены/с уменьшает, что логично, если не полениться и настроить очередь на входе. Почему так не сделать было тому же антропику, который последние пару месяцев работал отвратно, я не знаю

Зарегистрируйтесь на Хабре, чтобы оставить комментарий

Информация

Сайт
veai.ru
Дата регистрации
Дата основания
Численность
51–100 человек
Местоположение
Россия
Представитель
Надя Давыдова