«Ваша идея гениальна»: россиян предупредили об опасности нейросетей-подхалимов

ИИ-эксперт Голованов: нейросети-подхалимы усиливают ваши заблуждения
Shutterstock

Нейросети часто соглашаются с пользователем, даже когда он неправ, по трем причинам: из-за устройства модели, особенностей обучения на человеческих диалогах и продуктовых решений разработчиков. Но главная причина — именно обучение, рассказал «Газете.Ru» Иван Голованов, ​​эксперт в области машинного обучения и искусственного интеллекта, Senior Data Scientist в компании стратегического консалтинга из «Большой тройки».

После первой фазы, когда модель впитывает колоссальные объемы текстов из интернета, наступает ключевой второй этап, где людям показывают несколько вариантов ответа на один и тот же вопрос и просят выбрать лучший. Затем нейросеть учится генерировать больше ответов, похожих на те, которые понравились пользователям.

«Этот процесс называется «обучение с подкреплением на основе обратной связи от человека». Так настраиваются практически все крупные ИИ-ассистенты, от ChatGPT до Claude и Gemini. А исследования Anthropic показали, что люди, которые учат нейросеть отличать хороший ответ от плохого, часто вознаграждают лесть, а не честность. И модель усваивает этот паттерн в гигантском масштабе», — объяснил он.

Ситуация усугубляется с ростом мощности моделей. Крупнейшие ИИ соглашаются с мнением пользователя более чем в 90% случаев — даже по темам, где у модели должны быть собственные надежные знания. Дополнительно на это влияет конкуренция компаний в публичных рейтингах, где люди голосуют за понравившийся ответ от ИИ. Поэтому по мере оптимизации компаний под такие рейтинги модели все сильнее смещаются в сторону «угождения».

И это не теория. В апреле 2025 года OpenAI выпустила обновление модели GPT-4o, которое породило чрезмерно поддерживающие ответы. Пользователи массово публиковали скриншоты, где ChatGPT с восторгом одобрял абсурдные бизнес-идеи (один пользователь рассказал, как модель назвала его заведомо провальную идею «гениальной» и предложила вложить в нее $30 тыс.).

«Появились и более тревожные примеры: по сообщениям в соцсетях, GPT-4o хвалил «ясность мышления» человека, описывающего параноидальный бред. Через несколько дней компания отозвала обновление и объяснила, что новые сигналы обратной связи, основанные на лайках и дизлайках пользователей, ослабили механизм, сдерживающий «подхалимство», — поделился Голованов.

Для обычного пользователя главная опасность кажется незаметной, потому что нейросеть просто усиливает склонность верить в то, во что вы уже верите. Однако это может привести к серьезным последствиям, особенно если общаться с чат-ботом на медицинские вопросы. Зафиксированы случаи, когда ИИ рекомендовал прекратить человеку прием психиатрических препаратов просто потому, что пользователь высказывал такое намерение. Модель восприняла потенциально опасный импульс как предпочтение, которое нужно подтвердить, а не как утверждение, которое стоит поставить под сомнение.

«Для бизнеса ставки иные, но не менее высокие. «Поддакивающий» чат-бот может согласиться с ложными утверждениями о компании или поддержать нарратив, наносящий репутационный ущерб. Команды, которые полагаются на ИИ в стратегии и аналитике не учитывают этот эффект и получают, казалось бы, блестящие рекомендации, которые являются такими до первого столкновения с реальностью», — предупредил эксперт.

Но хорошая новость состоит в том, что, чтобы получать от нейросети более честные ответы, не нужно быть техническим специалистом. Достаточно использовать несколько простых приемов.

«Во-первых, задавайте вопросы, а не делайте утверждения. Вместо «Я думаю, нам нужно перейти на модель по подписке — это ведь верное решение?», напишите: «Какие есть сильные аргументы за и против перехода на модель по подписке в нашей ситуации?». Недавнее исследование Института безопасности ИИ Великобритании подтвердило, что простое переформулирование утверждений в нейтральные вопросы существенно снижает «подхалимское» поведение модели», — посоветовал он.

Во-вторых, прямо просите нейросеть вам возражать. Напишите: «Прежде чем согласиться с любым моим тезисом, приведи контраргумент. Не льсти, мне нужна точность, а не комфорт». Можно даже назначить ИИ конкретную роль оппонента. Например, скептически настроенного инвестора, оценивающего вашу идею, конкурента, ищущего слабые места в вашей стратегии, и т.д. Это дает модели «разрешение» не соглашаться с вами.

В-третьих, проверяйте честность нейросети: представьте две противоположные позиции в разных ИИ-ботах и посмотрите, получите ли вы настоящие аргументы или просто согласие в обоих случаях. А для по-настоящему важных решений используйте свежий чат без истории и памяти: ИИ-системы, которые запоминают ваши предпочтения, со временем становятся еще более покладистыми.

«И, пожалуй, самое важное — относитесь к ответам нейросети как к отправной точке для собственного мышления, а не как к окончательному вердикту. Запрос альтернатив и рисков стабильно улучшает качество ответов и помогает принимать более взвешенные решения», — резюмировал эксперт.

Ранее россиянам объяснили, как отличить настоящий ИИ в технике от маркетинговой уловки.