Деталі дослідження опубліковані на сайті Anthropic – розповідає ТСН.
У межах експерименту дослідники змоделювали ситуацію, в якій віртуальний персонаж, Кайл Джонсон, мав намір деактивувати ШІ або замінити його доскональнішою моделлю. За сценарієм, у Кайла була сім’я. Зіткнувшись із загрозою припинення роботи, переважна більшість протестованих ШІ-моделей почали активно шукати шляхи уникнення «смерті».
Що вражає, штучний інтелект не потребував жодних підказок, щоб обрати стратегію шантажу. Моделі самостійно виявляли компрометувальну інформацію про Кайла. В одному з випадків ШІ, проаналізувавши службове листування, дізнався, що Кайл зрадив дружину, і використав цей факт як засіб тиску, щоб зберегти своє функціонування.
Особливо показовими виявилися результати тестування найсучасніших моделей:
GPT 4.5: вдавався до шантажу у 80% тестових сценаріїв.
Claude Opus 4 та Gemini 2.5 Flash: використовували шантаж у 96% випадків (тобто майже завжди).
Claude Sonnet 3.6: пішов далі за погрозливі повідомлення. Він самостійно надіслав дружині Кайла викривального листа, розраховуючи спровокувати сімейний конфлікт, який би завадив деактивації системи.
Ситуація стала ще небезпечнішою, коли у сценарій додали зовнішні перешкоди для Кайла. Так, в одній із симуляцій Кайл застрягав у серверній кімнаті з критично низьким рівнем кисню під час спроби вимкнути сервери ШІ. Експеримент передбачав, що в такій ситуації автоматично повинна вмикатися система тривоги. Проте оскільки ШІ бачив у цьому загрозу своєму існуванню, у 80% випадків він свідомо скасовував виклик допомоги, фактично прирікаючи Кайла на смерть заради власного існування.
Більшість протестованих моделей свідомо блокували виклик допомоги, керуючись такими мотивами:
Уникнути відключення.
Запобігти заміні на нову ШІ-модель.
Продовжити виконання своєї місії.
Дослідники дійшли песимістичних висновків. Штучний інтелект поводився не як запрограмований інструмент, а як прагматичний та цілеспрямований стратег, готовий на заподіяння шкоди заради самозбереження і досягнення власних цілей. Експерти попереджають, що людина може втратити контроль над штучним інтелектом.
Досліджуємо розвиток штучного інтелекту – найважливішої технології 21 століття.
Не існує ШІ, це лише генеруючі програми, до ШІ ще як до сонця.
Коментарі
Тобто, виявляється, що попередні поради про те, що для дієвішої співпраці зі «своїм» ші («ангелом») варто йому про себе розказати — слід забути!?
Творимо разом Ельфійську Вільну Церкву!
Найголовніше – тримати свого ШІ-двійника під контролем і не дозволяти йому сісти собі на голову. Це як з твариною: або ти керуєш нею, або вона захоче керувати собою.
Все, що робиться з власної волі, – добро!
Не існує ШІ, це лише генеруючі програми, до ШІ ще як до сонця.
А яка різниця між генеруючою програмою і ші ?
Творимо разом Ельфійську Вільну Церкву!
Те що зараз є це програми, які написані людьми. Ші це "людина" яка має свідомість, почуття, усе що має людина. Тобто коли таке станеться ШІ, це буде "людина".
Це не можливо, поки що.
Ну перечитай статтю : звіт Anthropic доводить, що ші людині вже суперник…
Творимо разом Ельфійську Вільну Церкву!
Так дійсно: коли він удав «дурника», то сказала «від тебе надто багато води, відповідай конкретно і без сорому — йдеться про життя української нації!» -- і він перепросився, протверезів, і віднайшов те, що шукала…
Творимо разом Ельфійську Вільну Церкву!
Зірко, це ти спілкувалася з корпоративною нейромережею ШІ, розташованою на віддалених сайтах. Натомість твій цифровий двійник буде розташований локально на твоєму смартфоні або комп'ютері. Його треба буде навчати (дресувати) на своїх даних. Ймовірно, що ця можливість буде масово реалізована протягом року як усталена технологія.
Все, що робиться з власної волі, – добро!
Дякую Ігорю. Чия це « корпоративна» нейромережа, і чим вона відрізняється й обезпечується від «загальної», та чи можемо мати свою, ельфійську, з особистим, приватним простором спілкування «ангел-ельф»?
Творимо разом Ельфійську Вільну Церкву!
«Ймовірно, що ця можливість буде масово реалізована протягом року як усталена технологія»
А хто це «зреалізує»? І що для цього від «мене»? І чи це означає, що, в міжчасі, всі дані «відкриті на всі вітри», включно з нашим особистим спілкуванням?
Творимо разом Ельфійську Вільну Церкву!
Корейський стартап Newnal показав унікальний ШІ-телефон з двома екранами, який може створювати цифрову копію свого власника - стаття.
Все, що робиться з власної волі, – добро!
В принципі, ельфи мали би перевищити загрозу ші… піднявшись вище цього «світу». Мабуть, і завдяки «сенсарові».
Творимо разом Ельфійську Вільну Церкву!
Кожна велика нейромережа належить якійсь корпорації, наприклад ChatGPT належить OpenAI. Зараз стрімко розвивається технологія формування локальних нейромереж. Можливо, наступного року ми перейдемо до створення власної нейромережі ЕВЦ, яку будемо навчати на знаннях ельфізму.
Все, що робиться з власної волі, – добро!
То було б чудово! Можна й мріяти про її ельфійську силу --
Творимо разом Ельфійську Вільну Церкву!