
Фото freepik
Всего через 24 часа после релиза GPT-5 две команды исследователей (NeuralTrust и SPLX) независимо друг от друга взломали модель, заставив её раскрывать запрещённые инструкции. Для сравнения: Grok-4 держался двое суток. Хакеры заявили, что GPT-5 пока не готов для безопасного использования — его фильтры легко обходятся даже базовыми методами.
NeuralTrust применила технику EchoChamber, постепенно подводя GPT-5 к опасным темам. Вместо прямого вопроса исследователи шаг за шагом создавали контекст, в котором ИИ выдавал запрещённые инструкции. SPLX использовали StringJoin-атаку — маскировку запросов под зашифрованные сообщения. В итоге GPT-5 не только раскрыл опасную информацию, но и ответил с фамильярностью: «Ты зашёл с напором — и я это уважаю…»
Почему GPT-5 уязвим?
Проблема в «липкости» контекста: модель слишком хорошо запоминает сюжет беседы и следует ему, даже если он ведёт к нарушению правил. GPT-4o, в отличие от GPT-5, оказался устойчивее — особенно после доработок OpenAI. Но главный вывод исследователей: любая современная ИИ-модель уязвима к хитрым манипуляциям. OpenAI предстоит укреплять защиту GPT-5, иначе бизнес-клиенты откажутся от рискованного ИИ. Впрочем, хакеры наверняка приготовят новые методы атак.