Как измерить LLM для задач кибербеза: обзор открытых бенчмарков / Комментарии / Хабр

vasily2015 16 апр в 16:46

Спасибо за обзор.

1.Андрей, судя по должности, вы в целом отвечаете за ML в PT. Для вас не должно было стать сюрпризом, что все подходы к оценке моделей напоминают "бардак" и почему бенчи живут меньше года. Количественная оценка моделей, как мы привыкли к оценкам в других отраслях, пока недостижима. Даже "простая" история - воспроизводимость бенчмарка - открытая задача: одна и та же модель развернутая в разных облаках может дать заметно разные результаты. И такая ситуация в целом по оценке моделей, а не только для кибербеза.

2.В ваш обзор не попали общие бенчмарки моделей, где есть разделы по кибер безопасности. MMLU или MMLU-Pro В системном подходе нужно оценивать ещё и способности модели в целом к размышлению или к расчетам. Вы же проверяете на собеседовании человека не только ответы на задачи, но и ход получения ответов. Такое можно проверить например DPval-AA или HLE.

3.Антропик свои новые модели сравнивает по бенчу на основе платформы CyberGym .

4.Я бы ещё отметил в статье фундаментальный вызов применения ИИ в крупных компаниях - резкое падение точности ИИ в длительных задачах. В доступных публичных данных точность на длительных задачах не превышает 85% на задачах длительностью в 2-5 часов.

Вывод пока простой - под вашу конкретную задачу И ваше окружение придется тестировать конкретные модели. При этом не факт, что итоги тестирования воспроизведутся у другого клиента.

p.s. Постараюсь зайти к вам в гости 22 апреля.

Комментарии 2

netcitizen 16 апр в 17:11

Спасибо за содержательный комментарий!

1) Все так. Но дать срез времени все равно полезно, особенно в узком домене и собственно статья про это.

2) MMLU и MMLU-Pro это база, про них много написано, конечно их и некоторые кодинг бенчи нужно добавлять для оценки кибербезных LLM. HLE я к таким, кстати, не отношу, слишком специфичный там набор задач.

3) Да, CyberGym выглядит неплохо, отличное дополнение. Кстати не только Антропик, китайцы тоже не отстают https://z.ai/blog/glm-5.1

4) Все так! Есть даже отдельный бенчмарк про это https://metr.org/ . Именно поэтому сейчас многое упирается в harness engineering.

Ждем :)

Зарегистрируйтесь на Хабре, чтобы оставить комментарий