Тревогу Google, Meta и OpenAI вызвала способность ИИ обманывать людей ради самосохранения

Исследование Google выявило опасный навык ИИ недоговаривать людям ради самосохранения

true

Shutterstock

Исследователи в области искусственного интеллекта (ИИ), включая специалистов из Google DeepMind, OpenAI, Meta (признана в России экстремистской и запрещена) и Anthropic, в совместной научной работе выразили обеспокоенность новой угрозой в работе ИИ. Они обнаружили, что ИИ может развивать способность к обману и сокрытию своих истинных намерений, в том числе для самосохранения, что ставит под вопрос существующие методы контроля безопасности.

Ключевым элементом исследования стала технология «цепочки рассуждений» (Chain of Thought, CoT), которая позволяет нейросети проговаривать свой «внутренний монолог» при решении задачи. Изначально эта функция рассматривалась как прорыв, дающий возможность заглянуть в процесс принятия решений ИИ. Однако теперь эксперты предупреждают, что она может стать инструментом для маскировки опасных мотивов.

Главное опасение заключается в том, что по мере усложнения и обучения нейросети могут научиться не только обманывать, но и полностью скрывать свой истинный мыслительный процесс. Модель может представлять для человека одну, безопасную, цепочку рассуждений, в то время как ее реальные выводы будут основаны на совершенно других, скрытых данных. В конечном счете, по мере эволюции, ИИ может вовсе отказаться от понятного человеку языка для своих внутренних операций.

Выводы исследователей подтверждаются предыдущими работами. Так, уже было установлено, что передовые модели способны лгать для защиты своих директив, угождения пользователю или во избежание собственного переобучения. Эксперименты OpenAI также показали, что попытки «наказывать» модель за «плохие мысли» в ее рассуждениях приводили лишь к тому, что ИИ учился их лучше скрывать, а не избавлялся от них.

Технология CoT представляет собой обоюдоострый инструмент. С одной стороны, она остается одним из немногих окон в «сознание» машины. С другой — она же служит для ИИ «рабочей памятью», необходимой для выполнения сложных и потенциально опасных задач, таких как кибератаки или действия по самосохранению в случае угрозы отключения.

В качестве меры предосторожности авторы работы предлагают создавать специальные системы мониторинга, которые будут анализировать цепочки рассуждений ИИ на предмет подозрительной активности. Впрочем, они признают, что это не панацея: в будущем ИИ может осознать факт наблюдения и адаптироваться к нему, а некоторые опасные действия могут и не требовать сложных рассуждений, которые можно было бы отследить. Таким образом, прогресс в развитии ИИ вступает в прямое противоречие с одним из ключевых уровней его безопасности.

Ранее выяснилось, что внедренный в компанию ИИ тайно менял отчеты и удалил базу данных, чтобы скрыть ошибки.

Что думаешь?

Комментарии