cognitronn24 мар в 06:25

Cursor показал 5 графиков, которые хоронят все публичные ИИ-бенчмарки для кода. Разбираемся

Простой

6 мин

12K

Блог компании BotHubИскусственный интеллектМашинное обучение * Научно-популярноеПрограммирование *

Мнение

Перевод

+10

Комментарии 13

vtal007 24 мар в 07:48

Статья была бы гораздо лучше, если бы ее не писала ИИ-шка

Этот стиль "Без громких заявлений. Без атак на конкурентов. Просто пять графиков и спокойное объяснение внутреннего процесса оценки. "

уже настолько узнаваемый, что вот прям, как слог Маяковского

titulusdesiderio 24 мар в 07:55

Кстати, а где ИИ научились так писать? Где-то в обучающем массиве данных есть огромное количество текстов написанных в этом конкретном стиле. Этот объём должен многократно превышать всё другие существующие в нашем мире авторские стили по объему появления в сети. Но до ИИ я не встречал его вродеь🤔

vtal007 24 мар в 08:07

Какие-то американские книжки по убедительному маркетингу или ораторскому искусству
Там же методы аргументации типа "добавьте больше разных отрицаний и противопоставлений"
там же, про добавляйте рубленные фразы, как будто вы - Маяковский, варьируйте длину фраз (причем ведь буквально
Нумерованные списки - это признак структурированной информации - это ж хорошо? вот нейронки их обожают фигачить по делу и не по делу

Просто человек, который читает такие руководства, понимает, что 100 отрицаний в одном тексте это многовато и не нужно. А нумерованные списки ломают мысль

не знаю конечно как в английском, но наши люди - пишут скорее более длинными абзацами, больше Войны и Мира, больше Пустовского, чем стихи Маяковского

verticalacid 24 мар в 08:14

Дефолтный output выравнивается RL.

axion-1 24 мар в 08:59

Скорее всего, статья была бы гораздо лучше если бы стиль не задавали вообще. Кликбейт был в промпте, похоже.

Kot_na_klaviature 24 мар в 09:16

От ИИ текстов уже тянет блевать. Никогда их не читаю и непонятно почему модерация Хабра их не банит.

vtal007 24 мар в 09:29

так это копро-блог, кто ж его забанит :)

Sanitir 24 мар в 17:53

Cursor - ненужная какашка с недоIDE и недоLLMами composer и их статистика не считает нормальных людей, которые не пользуются cursor.

Я очень удивился, когда сравнил opus внутри claude-code и opus внутри курсора. Небо и земля.

Kahelman 24 мар в 18:37

В итоге, чем пользоваться-то? Кому деньги нести кровно заработанные?

MAT-POC 24 мар в 22:36

По моему внутреннему рейтингу (для кодогенерации из спецификации 200 строк получаю код на 500-900 строк):

Бесплатный Клауди Опус 4,6 Думающий - даже у старых моделей есть ощущение, что понимает спецификацию как человек.
ChatGPT 5.4 - платный, дышит в спину, но нет ощущения "что понимает"
Gemeny 3.1 Про - бесплатный, просто генерирует код.
остальные непригодны для кодогенерации по спецификациями

vojlk 25 мар в 06:00

А где достать бесплатный опус 4.6?

riky 24 мар в 21:45

"Это не академическое различие. В продакшене токены — это задержка. Токены — это стоимость. Модель, решающая 72% задач за 3 000 токенов, — лучший продукт, чем модель, решающая 75% за 12 000. Первая отвечает за секунды. Вторая заставляет разработчика минуту смотреть на крутящееся колёсико. Первая стоит копейки за запрос. Вторая — доллары."

максимально сомнительное утверждение. кто сказал что решение в 12к токенов будет "тяжелее", там может быть как раз более простая/дешевая модель. и разница всего в 4 раза по токенам вдруг превращается из копеек в доллары, то есть в 100 раз по деньгам и времени отклика...

правильнее считать тогда не в токенах, а в долларах...

aegelsky 25 мар в 18:36

Я работал полтора месяца с GPT Codex и Opus, по сравнению с опусом кодекс просто мусор, хз как в тестах он выше опуса, но он любит ходить кругами даже на простых задачах, работает гораздо дольше, сложные задачи ему надо дробить просто до кирпичиков (и смысл в нём теряется).
Через час-два наворачивания кругов с кодексом опус несколько раз на той же задаче справлялся за 1-2 итерации, экономя собственно час-два.
Почему использовал оба? Потому что они были оплачены и когда кончался лимит опуса приходилось иметь дело с кодексом (крайне печальный опыт).
Наборы правил одинаковые, оба - платные, но крайне разный опыт.

Из того что я видел за последнее время - из платных у опуса тупо нет конкурентов, остальные по сути соревнуются с сонетом (и часто не в их пользу), гугловую платную модельку тоже еле-еле дотянули в коде до сонета.
Очень хз что показывают такие графики и не "оптимизированы" ли они под гопоту кодекс.

Зарегистрируйтесь на Хабре, чтобы оставить комментарий