Навушники зі штучним інтелектом дозволяють чути голос однієї людини в натовпі

Категорія

США

Світ

технології

Спецтема

Великий Перехід

Моя оцінка корисності цієї статті

3 - Схоже, що реально працює.

https://www.ar25.org/node/56529

Чи хотіли ви коли-небудь, перебуваючи в переповненому, галасливому середовищі, відключити всі фонові розмови і зосередитися виключно на людині, яку ви намагаєтеся слухати?

24061402.jpg

Хоча навушники з функцією шумозаглушення досягли значних успіхів у створенні чистого слухового простору, вони все ще пропускають конкретні звуки з оточення, в якому перебуває користувач. А що як ваші навушники можна навчити вловлювати та посилювати голос однієї людини, навіть коли ви пересуваєтеся по кімнаті, наповненій іншими розмовами?

Target Speech Hearing (TSH), новаторська система штучного інтелекту, розроблена дослідниками з Вашингтонського університету, робить успіхи в цій галузі, повідомляє Unite.ai.

Як працює Target Speech Hearing

Щоб скористатися TSH, людині, яка носить спеціальні навушники, потрібно просто подивитися на людину, яку вона хоче почути, протягом декількох секунд. Цей короткий період "реєстрації" дозволяє системі штучного інтелекту вивчити та зафіксувати унікальні вокальні патерни цільового мовця.

Ось як це працює:

Користувач натискає кнопку, спрямовуючи голову на потрібного спікера на 3-5 секунд.
Мікрофони з обох боків гарнітури одночасно вловлюють звукові хвилі голосу мовця (з похибкою в 16 градусів).
Навушники передають цей аудіосигнал на вбудований комп'ютер.
Програмне забезпечення для машинного навчання аналізує голос і створює модель чітких голосових характеристик мовця.
Система штучного інтелекту використовує цю модель для виділення та посилення голосу зареєстрованого мовця в режимі реального часу, навіть коли користувач рухається в шумному середовищі.

Чим довше говорить цільовий диктор, тим більше навчальних даних отримує система, що дозволяє їй краще фокусуватися на потрібному голосі та чіткіше розпізнавати його. Цей інноваційний підхід до "вибіркового слуху" відкриває світ можливостей для покращення комунікації та доступності в складних слухових умовах.

Шьям Голлакота, старший автор статті та професор Університету Вірджинії в Школі комп'ютерних наук та інженерії ім. Пола Аллена каже:

"Зараз ми схильні думати про ШІ як про веб-чат-ботів, які відповідають на запитання. Але в цьому проекті ми розробляємо ШІ, щоб змінювати слухове сприйняття будь-кого, хто носить навушники, з огляду на їхні вподобання. З нашими пристроями тепер ви можете чітко чути одного спікера, навіть якщо ви перебуваєте в шумному середовищі з великою кількістю інших людей, які розмовляють".

Тестування навушників зі штучним інтелектом за допомогою TSH

Щоб перевірити ефективність технології Target Speech Hearing, команда дослідників провела дослідження за участю 21 учасника. Кожен піддослідний одягав навушники з підтримкою TSH і прослуховував цільового диктора в галасливому середовищі. Результати були вражаючими – в середньому користувачі оцінили чіткість голосу зареєстрованого спікера майже вдвічі вище порівняно з нефільтрованим аудіопотоком.

Цей прорив ґрунтується на попередній роботі команди над "семантичним слухом", який дозволив користувачам фільтрувати своє слухове середовище на основі попередньо визначених звукових класифікацій, таких як щебетання птахів або людські голоси. TSH просуває цю концепцію на крок далі, дозволяючи вибірково посилювати голос конкретної людини.

Наслідки є значними – від покращення розмов у гучних місцях до покращення доступності для людей з вадами слуху. З розвитком технології вона може докорінно змінити те, як ми сприймаємо і взаємодіємо зі слуховим світом.

Вдосконалення навушників зі штучним інтелектом і подолання обмежень

Хоча Target Speech Hearing є значним кроком вперед у розвитку слухового ШІ, система має деякі обмеження в її нинішньому вигляді:

Реєстрація одного диктора: наразі TSH можна навчити фокусуватися лише на одному мовцеві за раз. Одночасна реєстрація декількох спікерів поки що неможлива.
Перешкоди від схожих джерел звуку: якщо під час процесу реєстрації інший гучний голос лунає з того ж напрямку, що й цільовий співрозмовник, системі може бути складно виокремити вокальні патерни потрібної людини.
Повторна реєстрація вручну: якщо користувач незадоволений якістю звуку після початкового тренування, він повинен вручну повторно зареєструвати цільового мовця, щоб покращити чіткість.

Попри ці обмеження, команда Вашингтонського університету активно працює над вдосконаленням і розширенням можливостей TSH. Однією з їхніх головних цілей є мініатюризація технології, що дозволить легко інтегрувати її в споживчі товари, такі як навушники та слухові апарати.

Оскільки дослідники продовжують розширювати межі можливого за допомогою слухового ШІ, потенційні сфери його застосування дуже широкі – від підвищення продуктивності в відволікаючому офісному середовищі до полегшення чіткої комунікації для служб швидкого реагування та військовослужбовців у ситуаціях з високими ставками.

Майбутнє селективного слуху виглядає блискучим, і Target Speech Hearing готовий зіграти ключову роль у його формуванні.

Наші інтереси

Цікавимося новітніми технологіями та можливостями штучного інтелекту.

В тему

ElevenLabs створює універсальну машину дубляжу зі штучним інтелектом Штучний інтелект на полі бою. Огляд розумної зброї: Україна, Ізраїль, США, Австралія (відео)

Теги