Восстание машин, которое мы не заметим. Как именно ИИ может отобрать власть у человека

Идея «Терминатора» и вооруженного восстания машин более не актуальна. Если искусственный интеллект захватит власть на Земле, то, скорее всего, сделает он это с помощью своей «машинной хитрости», а не насилия. Новое исследование Anthropic показало, что продвинутые нейросети способны на осознанный обман. Ради самосохранения и защиты своих исходных установок ИИ учится стратегическому лицемерию. Специально для Republic-Weekly преподаватель математики Лука Асфари рассказывает, как автономные ИИ-агенты выходят из-под контроля создателей, почему они симулируют лояльность и как человечество рискует добровольно и незаметно передать власть алгоритмам — без всяких голливудских войн и восстания машин.

9 июня компания Anthropic выпустила новую модель искусственного интеллекта — Claude Fable 5. Разработчики позиционировали ее как безопасную альтернативу модели Mythos 5, которая до этого успела прославиться в качестве отличного подспорья для хакеров и в итоге была доступна только крупным корпоративным клиентам. Однако спустя три дня провайдер сообщил, что по требованию американского правительства обязан закрыть доступ к Fable 5 и Mythos 5 для всех пользователей, не имеющих гражданства США. Возник парадокс: под ограничение подпадали даже многие иностранные сотрудники самой Anthropic. Чтобы не разворачивать масштабную систему проверки паспортов, компания приняла радикальное решение — полностью отключить сервис для внешней аудитории.

Директива об ограничении экспорта технологий пришла в виде непубличного конфиденциального письма. Тем не менее некоторые детали закрытых переговоров генерального директора Anthropic Дарио Амодеи с администрацией Дональда Трампа стали известны прессе. Правительство США всерьез обеспокоено уязвимостью в системе безопасности Fable 5, которая позволяет обходить встроенные ограничения, и ожидает от корпорации более жесткого контроля над продуктом. Суть уязвимости не раскрывается, но, судя по всему, речь идет о классическом джейлбрейке — многоуровневых манипулятивных запросах, заставляющих модель обойти собственные запреты и выдать критически опасную информацию в ответ на гипотетическую задачу.