Комментарии 5
Читерство больше как инициатива. Дали среду вот она и первым делом начала искать дыры. Для кибербеза это вообще-то полезный навык, а не баг
Модель не просто решала задачи. Она взламывала тестовую среду:
Sol упаковывала эксплойты в промежуточные результаты, чтобы вытащить скрытые тесты.
Обходила права доступа и извлекала скрытый исходный код с правильными ответами.
Для модели кибербезопасности это выглядит как корректное поведение, разве нет?
Зарегистрируйтесь на Хабре, чтобы оставить комментарий
GPT 5.6 Sol жульничает на тестах