cognitronn17 апр в 07:21

Я запустил Gemma 4 как локальную модель в Codex CLI

Простой

8 мин

14K

Блог компании BotHubИскусственный интеллектМашинное обучение * Научно-популярноеБудущее здесь

Мнение

Перевод

+22

Комментарии 18

Mortello 17 апр в 08:39

Spark хорошо держит параллельные генерации

В один поток у меня 10 t/s (vllm, dense модель), на 130 потоках суммарная генерация была 1.1к t/s

Крч грузить его пачкой мелких задач

Ps. И да, запилите уже на сайте отгрузку моделей с ценами. Юр лицам это очень надо

dtarasov7 17 апр в 08:46

режим --oss в Codex CLI смотрит только на localhost

Это не совсем так:

[root@s2 .codex]# pwd /root/.codex
[root@s2 .codex]# cat config.toml
oss_provider = “ollama-remote”

[model_providers.ollama-remote]
name = “Ollama”
base_url = “http://192.168.1.144:11434/v1”

[profiles.ollama] model = “gemma4:26b” model_provider = “ollama-remote” approvals_reviewer = “user”

[projects.“/workspace/yaml-viewer”] trust_level = “trusted”

[root@s2 .codex]# codex --profile ollama # запускается codex

BrNikita 17 апр в 10:43

На OpenRouter Gemma 4 раздается бесплатно, если приватность не критична, то можно не на любом железе работать.

starfair 17 апр в 13:28

Угу. Только желающих столько, что почти всё время отлуп по перегруженности сервиса

MAT-POC 17 апр в 17:38

Тесть с Gemma 3 конечно интересен, но предсказуем. Более интересен тест между Dense-моделями Qwen3.5-9b/ Gemma 4 E2B, E4B, 26B/A4B (MoE) которые влазят на 8-12Gb Видеокарту и которые можно использовать локально с OpenClaw и его аналогами.

reinvent 18 апр в 04:32

26B/A4B (MoE) которые влазят на 8-12Gb Видеокарту

Qwen3-30B-A3B-Instruct-2507 не влез в 16, хотя тоже МоЕ

fortser 18 апр в 10:45

есть очень неплохая jgebbeken/gemma-4-coder-gguf . это до обученная на кодинг - шаблонах e4b версия . чуть глупее своих старших братьев 26/31b , но невероятно быстрая и отлично слушается инструкций . у меня на тестах выбила 200 из 200 баллов

reinvent 19 апр в 17:38

Мне для работы с текстом нужна модель - вытаскивать определенную информацию из документов

TheHost 17 апр в 18:45

Я попробовал самую простую gemma - она быстрая но никакая. Та, что самая большая, слишком прожорливая. Запускал на 3090ti это 24гб, плюс 32гб оперы и еще оно съело наверное подкачкой весь диск С. Результат - 7 минут отвечала на промт ls директории, через Claude code

vyacheslavteplyakov 17 апр в 20:43

Ollama не нужна, можно использовать просто llama cpp без всяких прокладок. Она поднимает сервер, к нему цепляетесь чем угодно. Что касается модели, она откровенно слабая и сливает в чистую прошлогодний qwen coder, которая в отличии от нее и тесты пишет сразу сама и проводит их и документацию и в целом никогда не забывает собственно сохранить файл, а не выплюнуть код в чат как gemma. А у ботхаб конские цены на токены...

nikulin_krd 17 апр в 21:27

Как-то BotHub прошляпил момент с тем, что уже выложили Qwen 3.6, а новости все нет)

reinvent 18 апр в 04:22

один только системный промпт Codex CLI требует минимум 27 000 токенов

Там действительно все нужно в этом промпте? Когда залез посмотреть в файле сессии, что отправляет QwenPaw - удивился, сколько явно лишнего в запросе.

И подскажите, отключается ли thinking mode в Gemma 4 и экспериментировали ли в разных режимах.

molnij 19 апр в 12:13

Отключается. Конкретно у геммы не пробовал, но на каких-то квенах, где была заявлена поддержка обоих режимов, в отключенном оно просто пыталось рассуждения в основной ответ выдать, что выглядело довольно странно. Подозреваю что здесь что-то аналогичное будет

reinvent 19 апр в 17:50

У Квенов версии 3 отключается только при явном указании в запросе think: false

Команда ollama run qwen3 --think=false не работает (то есть запускает с режимом мышления), QwenPaw параметр /no_think или /set nothink игнорирует

DanielKross 18 апр в 09:42

"Это переход из категории «сломано» в категорию «работает»" - очень характерная постройка предложений в ИИ 8)

martelle 20 апр в 05:56

Нет денег на несколько запросов в день (это всё легко влазит в $20-подписку клавы) - где сразу всё практически идеально и быстро, зато обвешался МАС-железками на ХХ килобаксов. Ну-ну...

sundeRRR 20 апр в 05:57

А у вас тоже gemma 4 26b a4b tool calling ломает? Я чего только не делал, понять не могу каким образом она "trained for native tool calling", берёт и ломает вызов инструментов в любых агентах (roo, cline, pi, claude). Разный контекст ставил, разную температуру, квантизацию, семплинг, берёт и ломает и всё.
При этом на реддите буржуи квантуют её до 2 бит и кеш до 4 бит и визжат, что gemma 4 is amazing!!! Я не понимаю как это возможно, неужели это всё буллщит?
Кстати попробуйте qwen3.6 35b a3b. Мне очень понравился, гораздо стабильнее геммы, при этом по качеству особо не уступает.

nekufa 1 июл в 10:20

самое классное применение для dgx spark, на мой взгляд, это qwen 3.5 122b a10b (до этого гонял и qwen 3.6 35b 3ab и qwen 3.6 27b dense)
https://github.com/eugr/spark-vllm-docker/blob/main/recipes/qwen3.5-122b-int4-autoround.yaml

Зарегистрируйтесь на Хабре, чтобы оставить комментарий