Комментарии 18
Spark хорошо держит параллельные генерации
В один поток у меня 10 t/s (vllm, dense модель), на 130 потоках суммарная генерация была 1.1к t/s
Крч грузить его пачкой мелких задач
Ps. И да, запилите уже на сайте отгрузку моделей с ценами. Юр лицам это очень надо
режим
--ossв Codex CLI смотрит только на localhost
Это не совсем так:
[root@s2 .codex]# pwd /root/.codex [root@s2 .codex]# cat config.toml oss_provider = “ollama-remote”
[model_providers.ollama-remote] name = “Ollama” base_url = “http://192.168.1.144:11434/v1”
[profiles.ollama]
model = “gemma4:26b”
model_provider = “ollama-remote”
approvals_reviewer = “user”
[projects.“/workspace/yaml-viewer”]
trust_level = “trusted”
[root@s2 .codex]# codex --profile ollama
# запускается codex
На OpenRouter Gemma 4 раздается бесплатно, если приватность не критична, то можно не на любом железе работать.
Тесть с Gemma 3 конечно интересен, но предсказуем. Более интересен тест между Dense-моделями Qwen3.5-9b/ Gemma 4 E2B, E4B, 26B/A4B (MoE) которые влазят на 8-12Gb Видеокарту и которые можно использовать локально с OpenClaw и его аналогами.
26B/A4B (MoE) которые влазят на 8-12Gb Видеокарту
Qwen3-30B-A3B-Instruct-2507 не влез в 16, хотя тоже МоЕ
есть очень неплохая jgebbeken/gemma-4-coder-gguf . это до обученная на кодинг - шаблонах e4b версия . чуть глупее своих старших братьев 26/31b , но невероятно быстрая и отлично слушается инструкций . у меня на тестах выбила 200 из 200 баллов
Я попробовал самую простую gemma - она быстрая но никакая. Та, что самая большая, слишком прожорливая. Запускал на 3090ti это 24гб, плюс 32гб оперы и еще оно съело наверное подкачкой весь диск С. Результат - 7 минут отвечала на промт ls директории, через Claude code
Ollama не нужна, можно использовать просто llama cpp без всяких прокладок. Она поднимает сервер, к нему цепляетесь чем угодно. Что касается модели, она откровенно слабая и сливает в чистую прошлогодний qwen coder, которая в отличии от нее и тесты пишет сразу сама и проводит их и документацию и в целом никогда не забывает собственно сохранить файл, а не выплюнуть код в чат как gemma. А у ботхаб конские цены на токены...
Как-то BotHub прошляпил момент с тем, что уже выложили Qwen 3.6, а новости все нет)
один только системный промпт Codex CLI требует минимум 27 000 токенов
Там действительно все нужно в этом промпте? Когда залез посмотреть в файле сессии, что отправляет QwenPaw - удивился, сколько явно лишнего в запросе.
И подскажите, отключается ли thinking mode в Gemma 4 и экспериментировали ли в разных режимах.
Отключается. Конкретно у геммы не пробовал, но на каких-то квенах, где была заявлена поддержка обоих режимов, в отключенном оно просто пыталось рассуждения в основной ответ выдать, что выглядело довольно странно. Подозреваю что здесь что-то аналогичное будет
"Это переход из категории «сломано» в категорию «работает»" - очень характерная постройка предложений в ИИ 8)
Нет денег на несколько запросов в день (это всё легко влазит в $20-подписку клавы) - где сразу всё практически идеально и быстро, зато обвешался МАС-железками на ХХ килобаксов. Ну-ну...
А у вас тоже gemma 4 26b a4b tool calling ломает? Я чего только не делал, понять не могу каким образом она "trained for native tool calling", берёт и ломает вызов инструментов в любых агентах (roo, cline, pi, claude). Разный контекст ставил, разную температуру, квантизацию, семплинг, берёт и ломает и всё.
При этом на реддите буржуи квантуют её до 2 бит и кеш до 4 бит и визжат, что gemma 4 is amazing!!! Я не понимаю как это возможно, неужели это всё буллщит?
Кстати попробуйте qwen3.6 35b a3b. Мне очень понравился, гораздо стабильнее геммы, при этом по качеству особо не уступает.
самое классное применение для dgx spark, на мой взгляд, это qwen 3.5 122b a10b (до этого гонял и qwen 3.6 35b 3ab и qwen 3.6 27b dense)
https://github.com/eugr/spark-vllm-docker/blob/main/recipes/qwen3.5-122b-int4-autoround.yaml
Я запустил Gemma 4 как локальную модель в Codex CLI