Słuchawki AI M2: natychmiastowe tłumaczenie dla wielu osób mówiących

Słuchawki bezprzewodowe zawsze oferowały Pixel Buds Z funkcji Google Natychmiastowe tłumaczenie Świetnie. W ciągu ostatnich kilku lat marki takie jak Timkettle wprowadziły podobne słuchawki douszne dla klientów biznesowych. Jednak wszystkie te rozwiązania obsługują tylko jeden strumień audio na raz na potrzeby tłumaczenia.

Naukowcy z Uniwersytetu Waszyngtońskiego (UW) opracowali coś naprawdę niezwykłego: słuchawki oparte na sztucznej inteligencji, które potrafią tłumaczyć głosy wielu osób jednocześnie. Wyobraźmy sobie osobę wielojęzyczną w zatłoczonym barze, która rozumie mowę osób wokół niej, mówiących różnymi językami jednocześnie. Ta innowacja stanowi ogromny krok naprzód w technologii tłumaczeń symultanicznych.

Zespół nazywa swoją innowację „Przestrzennym Tłumaczeniem Mowy” i wykorzystuje słuchawki binauralne. Dla niewtajemniczonych: binauralna technologia audio stara się naśladować efekty dźwiękowe dokładnie tak, jak naturalnie słyszy je ludzkie ucho. Aby je nagrać, mikrofony umieszczane są na głowie manekina, w odległości równej odległości między uszami człowieka, po obu stronach. Technologia ta opiera się na nagrywaniu dźwięku z dwóch różnych źródeł, aby stworzyć trójwymiarowe wrażenia słuchowe.

To podejście jest kluczowe, ponieważ nasze uszy nie tylko słyszą dźwięk, ale także pomagają nam określić kierunek jego źródła. Nadrzędnym celem jest stworzenie naturalnej sceny dźwiękowej z efektem stereo, która zapewni żywe, koncertowe wrażenia. Lub, mówiąc współcześnie, przestrzenne wrażenia słuchowe. Technologia ta poprawia wrażenia użytkownika, zapewniając realistyczny dźwięk przestrzenny.

Praca ta jest dziełem zespołu kierowanego przez profesora Shyama Gollakotę, którego dorobek obejmuje aplikacje umożliwiające instalację podwodnego GPS-u w smartwatchach, przekształcanie chrząszczy w fotografów, implanty mózgowe umożliwiające interakcję z urządzeniami elektronicznymi, aplikację mobilną słyszalną infekcję oraz Plus. Te osiągnięcia podkreślają kompetencje profesora Gollakoty w dziedzinie innowacyjnych technologii.

Jak działa tłumaczenie wielogłosowe?

„Po raz pierwszy zachowaliśmy głos każdej osoby i kierunek, z którego dochodziła” – wyjaśnia Golkota, obecny profesor w Szkole Informatyki i Inżynierii im. Paula G. Allena w tym instytucie.

Zespół porównuje swoją technologię do radaru. Zaczyna od identyfikacji liczby osób mówiących w okolicy i aktualizuje tę liczbę w czasie rzeczywistym, gdy osoby wchodzą i wychodzą z zasięgu słuchu. To podejście jest w całości oparte na urządzeniach i nie obejmuje wysyłania strumieni audio użytkownika do serwera w chmurze w celu przetłumaczenia. Ach, ta prywatność!

Oprócz tłumaczenia mowy, pakiet zachowuje również „charakter ekspresyjny i głośność głosu każdego mówcy”. Co więcej, regulacja kierunku i głośności odbywa się w miarę poruszania się mówcy po pomieszczeniu. Co ciekawe, Apple podobno również pracuje nad System umożliwiający słuchawkom AirPods tłumaczenie dźwięku w czasie rzeczywistym.

Jak sztuczna inteligencja umożliwia natychmiastowe tłumaczenie?

Zespół Uniwersytetu Waszyngtońskiego (UW) przetestował możliwości tłumaczeniowe swoich inteligentnych słuchawek opartych na sztucznej inteligencji w niemal kilkunastu lokalizacjach wewnętrznych i zewnętrznych. Pod względem wydajności system może odbierać, przetwarzać i odtwarzać przetłumaczony dźwięk w ciągu 2-4 sekund. Uczestnicy testu wydają się preferować opóźnienie rzędu 3-4 sekund, ale zespół pracuje nad przyspieszeniem procesu tłumaczenia.

Do tej pory zespół testował tłumaczenia tylko dla języka hiszpańskiego, niemieckiego i francuskiego, ale ma nadzieję, że uda mu się dodać Plus do pakietu. Technicznie rzecz biorąc, udało im się skondensować ślepą separację źródeł, lokalizację, ekspresyjne tłumaczenie w czasie rzeczywistym i przekaz binauralny w jeden strumień, co jest imponującym osiągnięciem. Ta integracja zaawansowanych technologii stanowi ogromny krok naprzód w dziedzinie tłumaczeń symultanicznych.

Na potrzeby systemu zespół opracował model tłumaczenia mowy w czasie rzeczywistym, który mógł działać na chipie Apple M2 i przeprowadzać wnioskowanie w czasie rzeczywistym. Zadania związane z dźwiękiem były obsługiwane przez słuchawki Sony WH-1000XM4 z redukcją szumów oraz binauralny mikrofon USB Sonic Presence SP15C.

A oto najlepsza część. W komunikacie prasowym fundacji czytamy: „Kod maszynowy dla proof-of-concept jest dostępny dla innych do rozbudowy”. Oznacza to, że społeczność naukowa i społeczność oprogramowania open source mogą uczyć się i rozwijać bardziej zaawansowane projekty w oparciu o fundamenty stworzone przez zespół UW. To otwiera drogę do przyszłego rozwoju technologii tłumaczeniowych z wykorzystaniem sztucznej inteligencji.