Комментарии 2
Спасибо за обзор.
1.Андрей, судя по должности, вы в целом отвечаете за ML в PT. Для вас не должно было стать сюрпризом, что все подходы к оценке моделей напоминают "бардак" и почему бенчи живут меньше года. Количественная оценка моделей, как мы привыкли к оценкам в других отраслях, пока недостижима. Даже "простая" история - воспроизводимость бенчмарка - открытая задача: одна и та же модель развернутая в разных облаках может дать заметно разные результаты. И такая ситуация в целом по оценке моделей, а не только для кибербеза.
2.В ваш обзор не попали общие бенчмарки моделей, где есть разделы по кибер безопасности. MMLU или MMLU-Pro В системном подходе нужно оценивать ещё и способности модели в целом к размышлению или к расчетам. Вы же проверяете на собеседовании человека не только ответы на задачи, но и ход получения ответов. Такое можно проверить например DPval-AA или HLE.
3.Антропик свои новые модели сравнивает по бенчу на основе платформы CyberGym .
4.Я бы ещё отметил в статье фундаментальный вызов применения ИИ в крупных компаниях - резкое падение точности ИИ в длительных задачах. В доступных публичных данных точность на длительных задачах не превышает 85% на задачах длительностью в 2-5 часов.
Вывод пока простой - под вашу конкретную задачу И ваше окружение придется тестировать конкретные модели. При этом не факт, что итоги тестирования воспроизведутся у другого клиента.
p.s. Постараюсь зайти к вам в гости 22 апреля.
Спасибо за содержательный комментарий!
1) Все так. Но дать срез времени все равно полезно, особенно в узком домене и собственно статья про это.
2) MMLU и MMLU-Pro это база, про них много написано, конечно их и некоторые кодинг бенчи нужно добавлять для оценки кибербезных LLM. HLE я к таким, кстати, не отношу, слишком специфичный там набор задач.
3) Да, CyberGym выглядит неплохо, отличное дополнение. Кстати не только Антропик, китайцы тоже не отстают https://z.ai/blog/glm-5.1
4) Все так! Есть даже отдельный бенчмарк про это https://metr.org/ . Именно поэтому сейчас многое упирается в harness engineering.
Ждем :)
Информация
- Дата регистрации
- Дата основания
- 2002
- Численность
- 1 001–5 000 человек
- Местоположение
- Россия
Как измерить LLM для задач кибербеза: обзор открытых бенчмарков