Обновить

Комментарии 4

Мы разрабатывали топологию материнской платы с оглядкой на несколько составляющих.

Вы разрабатываете материнские платы?

Например, в PostgreSQL задержка инъекции составляет около 200 нс. Поскольку архитектура моделей отличается от баз данных, в качестве ориентира будем использовать базовую задержку в 50 нс.

Не понял логику выбора значения 50. почему 50, а не 150 или 250? Неясно из статьи

Первый кейс

несколько сотен пользователей, в нашем случае 200 сотрудников;

Генерация составила порядка 500 токенов в секунду.

500 - суммарная генерация для 200 параллельных запросов? Если да, то на запрос 2.5 токена - неюзабельно (на мой взгляд). Если для одного запроса, то как падает скорость генерации при параллельных запросах?

Второй кейс

много одновременных пользователей — порядка тысяч;

Результат составил около 150 токенов в секунду генерации

Вопросы те же: 150 это суммарно на “тысячи” параллельных запросов или на один? как падает скорость генерации при параллельных запросах?

Не хватает — контекста AI-агентов. В сценарии «один запрос → ответ» задержка препроцессинга на CPU в 50–100 мс некритична. Но для агентных систем (где модель делает цепочку из 5–15 последовательных вызовов: подумать → выбрать инструмент → вызвать → получить результат → подумать ещё...) каждая миллисекунда умножается на длину цепочки. Условные 500 tokens/sec для чата — ок, а для агента, который за один «ход» генерирует 5000+ токенов, это 10+ секунд ожидания — пользователь просто может не дождаться.

Я наблюдал такую картину. Некоторые модели при полном размещении в врам все равно нагружают цп, некоторые не нагружают, так пару процентов. Если модель оптимальная, которая полностью крутиться на видеокартах, то мощный процессор не выглядит как необходимый компонент. Много ядерные цпу стоят безобразно много, зачем они нужны, если не участвуют в работе. В статье не увидел статистики по нагрузке цпу. Хотелось бы увидеть этот аспект, как раз думаю о сборке сервера под ии. Процессор пока не куплен.

Все веса модели и kv-cache помещаются в gpu vram? тогда ваш крутой 100500ядерный процессор и крутая ddr100500 память не задействована более чем полностью. Если между gpu нет интерконнекта, то процессор чуть чуть занят перекидыванием данных между gpu, и это очень маленькая нагрузка, упирается в pci-e шину.

Я допускаю, что есть отдельная задача, запуск очень маленьких моделей на мощном железе (например вычисление embending но там контекст мизерный) при большом контекстном окне, в режиме агентских задач или длинных чат сессиях (каждое следующее сообщение заставляет токенизер повторно обрабатывать этот контекст) процессор станет заметным.

Вот это и нужно было тестировать, или опять заголовок и посыл статьи - прямая ложь.

selectel, вы датацентр, у вас железо, у вас возможности, сделайте хоть раз правильно что-нибудь. Вы же физически можете протестировать cpu+ram железо слабое и сильное с одной и той же gpu, в разных сценариях (да хватит синтетики - длинный контекст и короткий), не умеете? самый тупой агент вам готовые команды сделает, тесты проведет, табличку составит.

Рекомендация, что можно протестировать:

Две сборки из слабого процессора (условно прошлого поколения, ddr4 ram, в идеале заниженные частоты и тайминги, в биосе это пару кликов, и последнего) с 4-мя/8-мью gpu.

Проверить, как влияет для одной и той же llm модели размещение ее на разных gpu (т.е. на 1, на 2, на 4,..) и как влияет на это выбор процессора и памяти.

Все проверки проводить на сценариях (с последовательными не параллельными запросами и отдельно параллельными, перебирая предел одновременных запусков):
- короткий контекст + короткая генерация
- короткий контекст + длинная генерация
- длинный контекст + короткая генерация
- длинный контекст + длинная генерация
и длинные тесты дополнительно проводить в режиме чата для теста работы попадания части контекста в кеш,
еще отдельно тестировать наличие изображений в промпте, как одного, так и нескольких.

Затем эти тесты закинуть сообществу, такая табличка будет в миллион раз полезнее рекламной статьи о том что на ваших серверах работает kimi-k2 (если что намекну, что сейчас в топах glm-5.2, рекомендую хвастаться ею), даже если это будет единственное содержимое статьи

Зарегистрируйтесь на Хабре, чтобы оставить комментарий

Информация

Сайт
slc.tl
Дата регистрации
Дата основания
Численность
1 001–5 000 человек
Местоположение
Россия
Представитель
Александр Шилов