Обновить

Cursor показал 5 графиков, которые хоронят все публичные ИИ-бенчмарки для кода. Разбираемся

Уровень сложностиПростой
Время на прочтение6 мин
Охват и читатели12K
Всего голосов 13: ↑11 и ↓2+10
Комментарии13

Комментарии 13

Статья была бы гораздо лучше, если бы ее не писала ИИ-шка

Этот стиль "Без громких заявлений. Без атак на конкурентов. Просто пять графиков и спокойное объяснение внутреннего процесса оценки. "

уже настолько узнаваемый, что вот прям, как слог Маяковского

Кстати, а где ИИ научились так писать? Где-то в обучающем массиве данных есть огромное количество текстов написанных в этом конкретном стиле. Этот объём должен многократно превышать всё другие существующие в нашем мире авторские стили по объему появления в сети. Но до ИИ я не встречал его вродеь🤔

  1. Какие-то американские книжки по убедительному маркетингу или ораторскому искусству

  2. Там же методы аргументации типа "добавьте больше разных отрицаний и противопоставлений"

  3. там же, про добавляйте рубленные фразы, как будто вы - Маяковский, варьируйте длину фраз (причем ведь буквально

  4. Нумерованные списки - это признак структурированной информации - это ж хорошо? вот нейронки их обожают фигачить по делу и не по делу

Просто человек, который читает такие руководства, понимает, что 100 отрицаний в одном тексте это многовато и не нужно. А нумерованные списки ломают мысль

не знаю конечно как в английском, но наши люди - пишут скорее более длинными абзацами, больше Войны и Мира, больше Пустовского, чем стихи Маяковского

Дефолтный output выравнивается RL.

Скорее всего, статья была бы гораздо лучше если бы стиль не задавали вообще. Кликбейт был в промпте, похоже.

От ИИ текстов уже тянет блевать. Никогда их не читаю и непонятно почему модерация Хабра их не банит.

так это копро-блог, кто ж его забанит :)

Cursor - ненужная какашка с недоIDE и недоLLMами composer и их статистика не считает нормальных людей, которые не пользуются cursor.

Я очень удивился, когда сравнил opus внутри claude-code и opus внутри курсора. Небо и земля.

В итоге, чем пользоваться-то? Кому деньги нести кровно заработанные?

По моему внутреннему рейтингу (для кодогенерации из спецификации 200 строк получаю код на 500-900 строк):

  1. Бесплатный Клауди Опус 4,6 Думающий - даже у старых моделей есть ощущение, что понимает спецификацию как человек.

  2. ChatGPT 5.4 - платный, дышит в спину, но нет ощущения "что понимает"

  3. Gemeny 3.1 Про - бесплатный, просто генерирует код.

  4. остальные непригодны для кодогенерации по спецификациями

А где достать бесплатный опус 4.6?

"Это не академическое различие. В продакшене токены — это задержка. Токены — это стоимость. Модель, решающая 72% задач за 3 000 токенов, — лучший продукт, чем модель, решающая 75% за 12 000. Первая отвечает за секунды. Вторая заставляет разработчика минуту смотреть на крутящееся колёсико. Первая стоит копейки за запрос. Вторая — доллары."

максимально сомнительное утверждение. кто сказал что решение в 12к токенов будет "тяжелее", там может быть как раз более простая/дешевая модель. и разница всего в 4 раза по токенам вдруг превращается из копеек в доллары, то есть в 100 раз по деньгам и времени отклика...

правильнее считать тогда не в токенах, а в долларах...

Я работал полтора месяца с GPT Codex и Opus, по сравнению с опусом кодекс просто мусор, хз как в тестах он выше опуса, но он любит ходить кругами даже на простых задачах, работает гораздо дольше, сложные задачи ему надо дробить просто до кирпичиков (и смысл в нём теряется).
Через час-два наворачивания кругов с кодексом опус несколько раз на той же задаче справлялся за 1-2 итерации, экономя собственно час-два.
Почему использовал оба? Потому что они были оплачены и когда кончался лимит опуса приходилось иметь дело с кодексом (крайне печальный опыт).
Наборы правил одинаковые, оба - платные, но крайне разный опыт.

Из того что я видел за последнее время - из платных у опуса тупо нет конкурентов, остальные по сути соревнуются с сонетом (и часто не в их пользу), гугловую платную модельку тоже еле-еле дотянули в коде до сонета.
Очень хз что показывают такие графики и не "оптимизированы" ли они под гопоту кодекс.

Зарегистрируйтесь на Хабре, чтобы оставить комментарий

Информация

Сайт
bothub.ru
Дата регистрации
Дата основания
Численность
11–30 человек
Местоположение
Россия
Представитель
Greg Ewin