08.08.2023 - 12:22

Олена Каганець

Відвідувань: 6
Переглядів: 6

Нейромережевий колапс: чому незабаром може зупинитися розвиток алгоритмів штучного інтелекту

За оцінкою низки вчених, вже незабаром якість нейромереж може швидко деградувати. Причиною цього стане велика кількість у мережі контенту, раніше згенерованого моделями штучного інтелекту.

230808ai-2.jpg

Ілюстративне фото

Про те, чи стануть марними нейромережі в майбутньому, міркують на Forbes керівник напряму фундаментальних досліджень MTS AI Сергій Загоруйко та технічний лідер групи NLP Platform Олексій Малафєєв.

Останнім часом в IT-спільноті тільки й розмов, що про долю нейромереж. У нещодавно опублікованій науковій статті група британських і канадських дослідників дійшла резонансного висновку: якщо навчити нейромережу на матеріалах, згенерованих іншою ШІ-моделлю, це призведе до технічного колапсу, який полягає у неминучому падінні якості роботи нейромережі.

Ключове побоювання гравців ринку полягає в тому, що генеративні моделі можуть заглушити своїм контентом «оригінальний» контент, згенерований людьми. В результаті інтернет може заповнитися штучно згенерованими текстами або зображеннями, а в майбутньому навіть відеороликами, які не тільки не несуть цінності, а і якимось чином спотворюють реальність, містять фактичні помилки. Людина їм може й не повірить, але нейромережа прийме за чисту монету.

Це, своєю чергою, може призвести до того, що наступні моделі штучного інтелекту, які навчатимуться на цих синтезованих даних, будуть видавати ще більш спотворений результат. І той контент, який згенерують вони, виявиться ще більш зіпсованим і далеким від реальності.

Поки що оцінити ступінь серйозності проблеми складно, оскільки нема надійних відомостей про кількість опублікованих у мережі даних, згенерованих моделями. Однак сама по собі проблема забруднення даних стоїть дуже гостро – інфополе засмічуватиметься, сміттєві дані потраплять у навчальні вибірки й сервіси, що працюють на таких моделях, почнуть функціонувати все гірше і гірше.

Побачити результат такого забруднення можна вже сьогодні. Мовні моделі дозволяють створювати контент, який виводить із ладу системи моніторингу публікацій у мережі. Через нього ламаються алгоритми контролю громадської думки, а це призводить до ситуацій, коли думали, що буде Клінтон, а вийшов Трамп.

Насправді такі проблеми властиві й людям. Якщо людина з дитинства виховується на певній літературі, наприклад, на філософських екзистенційних творах, це напевно дуже сильно вплине на її погляди та на думки, які вона генеруватиме протягом життя. До певної міри моделі штучного інтелекту схожі на дітей – вони навчаються і дізнаються щось про світ з різних текстів, звуків або зображень, і результат сильно залежить від того, які матеріали використовувалися для навчання. Найчастіше батьки стежать за тим, щоб дитина не читала невідповідну літературу, яку вона може випадково знайти в інтернеті. Чимось схожим належить займатися й ШІ-розробникам.

До того ж сучасні алгоритми машинного навчання все ще дуже недосконалі. Щоб навчити мовну модель генерувати текст на прийнятному рівні, її доводиться навчати на величезній кількості текстів – набагато більшому, ніж потрібно людині. Попри те, що сучасні ШІ-моделі набагато потужніші, ніж людський мозок, вони все ще поступаються людям в якості написання текстів, сприйняття світу і логічні судження.

Тому розробникам належить пройти великий шлях: необхідно зробити навчання ШІ-моделей більш ефективним, тобто скоротити кількість матеріалів, які необхідні нейромережам для якісної роботи. І тоді, можливо, й не доведеться навчати їх на всьому інтернеті.

Проблема забруднення даних має цікавий нюанс – вона більшою мірою властива нейромережам, які навчаються на матеріалах англійською мовою, адже на ній написана набагато більша кількість текстів. Тому для мов, які не такі популярні, ця проблема буде менш вираженою, і в якийсь момент локальні ШІ-моделі можуть стати навіть якіснішими, ніж англомовні.

Попри всі недоліки, синтетичні (тобто згенеровані штучним інтелектом) матеріали можуть бути корисними у ситуаціях, коли даних дуже мало або їх нема зовсім. Дуже багато тут залежить від кількості згенерованих даних, які використовувалися для навчання, і їх якості, відповідності задачі, що вирішується, і нормам етики, безпеки тощо.

Рано чи пізно економічна палиця вдарить по компаніях, які роблять сервіси на ШI-моделях, навчених за допомогою згенерованих нейромережами даних. Корпоративні клієнти та звичайні користувачі почнуть предʼявляти претензії до розробників через неякісну роботу таких сервісів, а потім почнуть відмовлятися від них. Тому розробники таких нейромереж самі почнуть шукати способи підтримувати якість своїх моделей на належному рівні.

Таким чином, механізми ринку створюють певний баланс. І ще одним перспективним напрямом для досліджень стане розробка підходів, які дозволять користуватися синтетичними даними без будь-яких збитків.

Вже зараз варто подумати про те, як уникнути можливих наслідків нейроколапсу. Насамперед для цього потрібно намагатися не змішувати людський та згенерований контент – варто ретельно підходити до вибору даних, які беруть участь у навчанні моделі.

Крім цього, допомогти у розв'язанні проблеми може сам штучний інтелект, а точніше – ШІ-детектори згенерованого контенту. На них можна буде перевіряти дата-мережі до навчання нейромереж, наче просівати дані через сито, і, таким чином, відсікати все те, що було згенероване ШІ. Правда, цей метод теж покладається на моделі, що навчаються, які будуть помилятися. Отже, розв'язати проблему вони повністю не зможуть.

Також ШІ-компаніям варто розвивати методи очищення дата-мереж від шуму, які використовуються для виявлення серед даних спамерських текстів, реклами, текстів, що повторюються і т. д. Інтуїтивно здається, що якщо штучно згенерований контент нижчої якості, ніж контент, згенерований людиною, то можна навчитися автоматично це визначати й таким чином очищати дані від корисного вмісту.

Є і найбільш очевидний та радикальний варіант розв'язання проблеми – зупинити розвиток мовних моделей на поточному рівні та дотримуватися принципу «працює – не чіпай». У такому разі нейромережі застрянуть у 2023 році й не знатимуть нічого, що сталося пізніше, через це з часом вони просто втратять застосування. Далі настане розчарування інвесторів та нова зима ШІ. Це – потенційно можливий сценарій, але навряд чи він зараз розглядається серйозно.

Наші інтереси:

Підтримувати чистоту українського інформаційного простору, уникати машинного генерування текстів для нашого сайту.

В тему:

Занадто брехливий: Meta закрила публічний тест Galactica – свого «ШІ для наукових завдань»ChatGPT як прихований інструмент лівої пропаганди та дезінформації – дослідження Замінити обличчя заборонених акторів і зекономити. Як штучний інтелект змінює кіно, рекламу та креатив В Німеччині відбулася церковна служба з проповідями ChatGPT – декому сподобалось Штучний інтелект став невід'ємною частиною світової економіки. А що Україна?

Якщо ви помітили помилку, то виділіть фрагмент тексту не більше 20 символів і натисніть Ctrl+Enter

Теги:

українська мова штучний інтелект

Зверніть увагу

Френк Герберт і його «вулики Геллстрома»

30 Вер

«Великий Вулик» Френка Герберта – етномережа вільних людей у фантастичному романі «Вулик Геллстрома» (+відео)

Це не просто соціальна фантастика. Це продовження саги про фріменів – вільних людей, які формують новий світ. Згідно з історичною логікою, їхнім наступним і неминучим кроком стане творення вільної...

Останні записи

31 Жов

Сценарій, до якого готується влада, – ганебний мир та нечесні вибори з грою без правил – Микола Княжицький

30 Жов

Ярослав Железняк: Офісом Президента сформовано ручний механізм репресій – хроніки психопатичної диктатури (+відео)

30 Жов

Якщо влада захоче когось посадити – посадить. "Чесні і непідкупні" судді засудять будь-кого навіть без доказів

30 Жов

Топ-менеджер Зеленського – велика проблема: загроза Україні походить ізсередини – The American Conservative

30 Жов

Маленький магазин зброї у США отримав від України контракт на 1 млрд доларів – The Financial Times

29 Жов

Про ракети «Фламінго»: колишня кастингова агенція має контракти $1 млрд на безпілотники – NYT

28 Жов

Вінстон Черчилль: не герой, а психопат і головний лиходій Другої світової війни – історик Дерріл Купер (США) + подкаст

Golden dome (Золотий купол) – космічний щит і меч

28 Жов

Американський технофашизм: AGI, космічний щит і Україна як полігон майбутнього (подкаст)

Валерій Тимофійович Швець, доктор фізико-математичних наук

28 Жов

Дмитро Донцов – націоналіст у добу фашизму, або Чи є плановою нинішня російсько-українська війна

28 Жов

Три європейські компанії об'єдналися, щоб конкурувати з SpaceX

Кращий коментар

Опубліковано Ігор Каганець 8 Серпень, 2023 - 14:42 посилання

Ще не підтримано

Описана тенденція розвитку машинного генерування текстів підштовхує нас формувати мову Сенсар, творити на ній власний корпус літератури і навчати на ньому моделі генерування текстів.

Все, що робиться з власної волі, – добро!

Коментарі

Опубліковано Ігор Каганець 8 Серпень, 2023 - 14:42 посилання

Ще не підтримано

Все, що робиться з власної волі, – добро!

Опубліковано Зірка 8 Серпень, 2023 - 14:44 посилання

Ще не підтримано

Обнадійлива інформація !

Творимо разом Ельфійську Вільну Церкву!

Нейромережевий колапс: чому незабаром може зупинитися розвиток алгоритмів штучного інтелекту

Категорія:

Світ:

Спецтема:

Зверніть увагу

Останні записи

Кращий коментар

Коментарі