Комментарии 11
Бенчмарки уже вообще ничего значат. Уж не знаю как там дела в разработке, но с DS дипсик работает просто ужасно.
Скинул ему ноутбук, попросил поправить кривую реализацию позиционного кодирования. Он 5 раз не мог переписать код: то пытался json выдать, то писал все с нуля, то 'вот вся ячейка - вставьте и запустит' - и херачил все 17 ячеек в одну.
Только на 6ой попытке, спустя 40 минут он выдал что-то внятное. А на бумаге это топовая модель, которая такие задачи должна как орешки щелкать.
Это в режиме "агента" или просто в чате?
Согласен, тоже удивляюсь. Даже простые функции на 5-10 строчек он умудряется на 30-40 строк размазать, выдает индусский код вместо лаконичного решения
Тоже сравнил его на небольшом фиксе в реальном проекте - там где клод опус 4.7 обошёлся несколькими строчками, выбрав более правильный и лаконичный подход ещё и тесты проверил и поправил, дипсик начал вводить лишние сущности и подходы, которые только запутывали итоговое понимание кода, хотя формально были верными, но не нужными.
Возможно клоду (на уровне обработки запроса в компании) пишут более правильные системные промты, снижающие энтропию результата не в ущерб требованиям, поэтому его вывод кажется более лаконичным.
Так а чего вы хотели? Ноутбук это зубодробительная вещь с тонной лишнего контекста. Блокнотом откройте и сами попробуйте в таком виде что-то исправить, не сломав. Вы модели, вместо того, чтоб дать кусок кода на исправление, дали файл, который надо как-то распарсить, найти задачу, закодировать обратно и чтоб не сломалось. Без библиотек даже, сырым анализом байтов. Искусственное усложнение задачи на порядки. Дипсик в ds имхо не плох, а вы его не ds просили заниматься, а парсингом
Ноутбук - это просто код, упакованный в json для добавления небольшого количества метадаты. Современные модели поголовно уже адекватно с этим справляются. Какой там анализ байтов - непонятно
б
У дипсика нет библиотек для работы с ipynb в его интерпретаторе. Ваш ноутбук для него - просто json с огромной кучей нерелевантной информации. Без указаний, где в этой куче вообще код. Если есть картинки или любой другой контент в base64 - вообще труба. Искать по файлу в чатике он тоже не умеет - нужно весь файл прочитать, или писать обвязку на питоне. Вы того же дипсика подключите к агенту или в ide - результат будет совершенно другой. Или возьмите любую топовую модель, дайте ей сырой питон и попросите аналогичную задачу сделать - будет провал. У меня Sonnet чистый без всего (самописный агент) также не смог исправить код в ноутбуке - поломал форматирование и обратно починить не смог. Опус не тестил, мб он и справится.
Ну и вообще тестить агентные модели через чатик в 2026 немного уже моветон.
Немного офтоп из личного опыта, но поделюсь, может кому пригодится. Использую Glm 5.1 с начала апреля и он субъективно очень хороший, у меня он работает на кастомной опенкло инсталляции 24/7 по максимальной подписке пишет код в полуавтономном режиме. На него перешел с подписки антропика, пока антропик ее окончательно не закрыл для сторонних агентов 4 апреля. Неделю пришлось привыкать, потому что казалось бы всё то же самое, но качество результата ощущалось немного по-другому. Спустя неделю адаптировался, пришлось чуть больше guardrails расставить и дополнительных проверочных агентов запускать в моменты, в которые опусу это было излишним. Пример - допустим агент гоняет е2е тесты веб приложения со скриншотами, у меня в описании проекта четко написано что скрины надо класть в специальную темповую папку, которая после прогона тестов удаляется. У опуса с этим проблем никогда не было, а вот glm мог иногда их засунуть - пойди поищи, пришлось обмазать каждый прогон тестов специальной утилитой которая контролировала структуру папок и файлов после завершения. Несмотря на такие косяки у glm значительно меньше проблем с доступностью, антропик последние месяцы сильно лихорадило, лимиты едятся заметно медленее, хватает на дольше и самое главное работа в опенкло официально поощряется в подписке, а не как у антропика, что могут забанить в любой момент. Качество кода хуже, но в моем случае незначительно и поправимо. В общем для полуавтономного кодинга в опенкло он мне вполне подошёл.
PS: не используйте автономный кодинг с опенкло на работе. Используйте строго для той тысячи пет проектов, которые вы мечтали реализовать в последние 10 лет, но руки не доходили :)
GLM по подписке зайки или где-то потокенно? У шефа подписка в клешне начала 429 выдавать и перекидывать на 4.7, при этом у его друга точно такой же сетап работает безотказно уже где-то месяц.
Информация
- Сайт
- veai.ru
- Дата регистрации
- Дата основания
- Численность
- 51–100 человек
- Местоположение
- Россия
- Представитель
- Надя Давыдова

DeepSeek v4 vs GLM 5.1: сравнительный бенчмарк агентов на реальных задачах разработки