Обновить

OpenCode с NorthMiniCode на своем железе

Уровень сложностиСредний
Время на прочтение5 мин
Охват и читатели8.3K
Всего голосов 10: ↑9 и ↓1+12
Комментарии12

Комментарии 12

Интересная статья.

1. Стоит повторять путь на VM поверх винды?

2. Одной 5070ti хватит?

3. Больше мощностей помогут превратить бухого мидла в трезвого?

  1. Не вижу препятствий, llama.cpp собирается под винду

  2. 16gb маловато, но если квантовать кэши, брать q3 версию модели (качество будет хуже) - можно впихнуть. Ну или часть в ram на cpu - пожертвовать скоростью ради качества.

  3. Трезветь однозначно будет, если взять исходную модель и лучшее железо. Тут дело скорее не в мощности, а в обьеме vram. Ну и для трезвости добавить авто ревью qwen-ами в виде трезвого надсмотрщика. Возможно поэкспериментирую с этим, опишу.

Спасибо, меня исследование контроля и управления качеством больше всего интересует.

Мало что-то про эту самую трезвость большинство думает и измеряет

Хрен вы прокинете GPU в виртуалку поверх винды, я думаю. Ничто не мешает всё то же самое сделать прямо в винде)

Судя по внешнему виду, этот сервер точно не должено быть рабочей станцией.

Прекрасное решение сделать из него PROXMOX сервер и спокойно прокидывать видеокарты в контейнеры LXC причем можно одну и туже карту прокинуть хоть в 10 контейнеров одновременно и все будут работать!

При этом на нем можно даже крутить винду с ускорением ГПУ и играть к примеру на этих картах в режиме стриминга хоть на утюге в сайберпанк 2077 когда надоест ИИ мучать :)

Ну или вывести винду на один из монитров реальной карты прямо с виртуальной машины и получить полную имитацию локальной системы.

Согласен, оч много статей про облака, но единицы про локальное использование. Мидл может себе позволить за год накопить на rtx6000pro, так что надеюсь на более глубокие статьи

Спасибо. Вот еще похожая дообученная на датасете от Fable 5 (с дополнениями рассуждений от опуса) плотная модель с MTP и при этом на 12 Гб запустится https://huggingface.co/yuxinlu1/gemma-4-12B-agentic-fable5-composer2.5-v2-3.5x-tau2-GGUF автор проверял админской частью бенчмарка тау2 телеком - 55% эта модель, 12% базовая, 90% клауд. Как я понял тут главное питон, баш, веб и дебагер, общие знания затерты и вообще что там оказалось затертым непонятно, главное терминал, программирование и дебаг.

Потестировал в винде, отличается от базовой модели сильно, очень короткие размышления, поиски по реестру, правка строк внутри файлов, множество тестов, запускал ллама с --tools all, без агента, без промптов.

Т.е. попросил в обычном чате написать код и он начал искать установленные зависимости питона, ставить их, сравнивать версии, создал файл рядом с бинарником ллама и долго его тестировал, вылетело в конце, файл рабочий оказался. Ну это или винда или ллама с базовыми 8 инструментами. Как факт промптов на использование tools или тестов не нужно. Работает шустро.

Автор утверждает что именно датасет с рассуждениями от фабл 5 дал прирост в бенчмарке и хочет довести бенчмарк до 60-70% в третьей версии.

Интересно, спасибо за наводку, стоит последить-попробовать.

То что "модель NorthMiniCode в отличие от Qwen специально заточена под агентские циклы" не делает ее лучше Qwen в агентских сценариях. Странный выбор модели учитывая что Qwen3.6 гораздо лучше.

выбор вполне обоснованный - qwen3.6 это модель общего назначения, а для данной задачи всякие vision функции и знания о древнем Риме и прочем не очень нужны.

А как vision функции и общие знания мешают в агентских задачах? Несмотря на то что Qwen3.6 универсальная модель она агентские задачи все равно решает лучше.

“Qwen3.6 всё равно решает агентские задачи лучше” — это сильное утверждение, которое надо подтверждать одинаковым экспериментом.

Vision и общие знания сами по себе не мешают. Но в агентских coding-задачах важна не максимальная универсальность, а способность держать workflow: читать локальный контекст, не фантазировать, пользоваться инструментами, делать минимальные патчи и проверять результат.

Более универсальная модель может быть сильнее по общим бенчмаркам, но это не гарантирует, что она лучше работает в конкретном цикле read → edit → test → fix на конкретном проекте, железе и toolchain.

Статья не про сравнение North и Qwen, а про практический опыт запуска North Mini Code локально в OpenCode на домашнем железе.

Возможно, Qwen3.6 действительно окажется сильнее в части задач. Возможно, оптимальным вариантом будет разделение ролей в агентском цикле: North как быстрый code-writing agent, Qwen как reasoning/review-модель. Но это надо проверять на конкретных задачах, а не утверждать заранее.

Зарегистрируйтесь на Хабре, чтобы оставить комментарий

Публикации