Nowa funkcja OpenAI może czytać tekst i naśladować głosy

30 March 2024

OpenAI zdecydowało się nie wprowadzać tej funkcji na szerszą skalę, o czym informowało reporterów na początku tego miesiąca.

OpenAI udostępnia wstępne wyniki testu funkcji, która potrafi czytać słowa na głos przekonującym ludzkim głosem, podkreślając nowe granice sztucznej inteligencji i podnosząc widmo zagrożeń związanych z deepfake’ami.

Firma udostępnia wczesne wersje demonstracyjne i przypadki użycia z małej wersji zapoznawczej modelu zamiany tekstu na mowę o nazwie Voice Engine, którą udostępniła dotychczas około 10 programistom, powiedział rzecznik.

OpenAI zdecydowało się nie wprowadzać tej funkcji na szerszą skalę, o czym informowało reporterów na początku tego miesiąca.

Rzecznik OpenAI powiedział, że firma zdecydowała się ograniczyć publikację po otrzymaniu opinii od zainteresowanych stron, takich jak decydenci, eksperci branżowi, nauczyciele i twórcy. Jak wynika z wcześniejszej konferencji prasowej, firma początkowo planowała udostępnić narzędzie aż 100 programistom w drodze aplikacji.

„Wiemy, że generowanie mowy przypominającej głosy ludzi wiąże się z poważnym ryzykiem, o którym szczególnie warto pamiętać w roku wyborczym” – napisała firma w piątkowym poście na blogu. „Współpracujemy z partnerami amerykańskimi i międzynarodowymi z przedstawicieli rządów, mediów, rozrywki, edukacji, społeczeństwa obywatelskiego i spoza nich, aby mieć pewność, że podczas prac uwzględnimy ich opinie”.

W niektórych kontekstach do fałszowania głosów wykorzystano już inną technologię sztucznej inteligencji. W styczniu fałszywa, ale realistycznie brzmiąca rozmowa telefoniczna rzekomo od prezydenta Joe Bidena zachęcała mieszkańców New Hampshire, aby nie głosowali w prawyborach, co wzbudziło strach sztucznej inteligencji przed krytycznymi światowymi wyborami.

W przeciwieństwie do poprzednich wysiłków OpenAI związanych z generowaniem treści audio, Voice Engine może tworzyć mowę brzmiącą jak poszczególne osoby, wraz z ich specyficzną rytmem i intonacją. Oprogramowanie potrzebuje jedynie 15 sekund nagranego dźwięku mówiącej osoby, aby odtworzyć jej głos.

Podczas demonstracji narzędzia Bloomberg wysłuchał klipu, w którym dyrektor generalny OpenAI, Sam Altman, krótko wyjaśniał technologię głosem, który brzmiał nie do odróżnienia od jego rzeczywistej mowy, ale był w całości wygenerowany przez sztuczną inteligencję.

„Jeśli masz odpowiednią konfigurację dźwięku, będzie to w zasadzie głos ludzkiego kalibru” – powiedział Jeff Harris, kierownik produktu w OpenAI. „To imponująca jakość techniczna”. Jednak Harris powiedział: „Istnieje oczywiście wiele delikatności związanych z bezpieczeństwem, jeśli chodzi o zdolność naprawdę dokładnego naśladowania ludzkiej mowy”.

Jeden z obecnych partnerów OpenAI korzystających z tego narzędzia, Norman Prince Neurosciences Institute w ramach non-profit systemu opieki zdrowotnej Lifespan, wykorzystuje technologię, aby pomóc pacjentom odzyskać głos. Na przykład narzędzie to wykorzystano do przywrócenia głosu młodej pacjentce, która utraciła zdolność wyraźnego mówienia z powodu guza mózgu, poprzez odtworzenie jej mowy z wcześniejszego nagrania na potrzeby projektu szkolnego – czytamy w firmowym poście na blogu.

Niestandardowy model mowy OpenAI może również tłumaczyć generowany dźwięk na różne języki. Dzięki temu jest przydatny dla firm z branży audio, takich jak Spotify Technology SA. Spotify wykorzystało już tę technologię w swoim własnym programie pilotażowym do tłumaczenia podcastów popularnych gospodarzy, takich jak Lex Fridman. OpenAI zachwalało także inne korzystne zastosowania tej technologii, takie jak tworzenie szerszej gamy głosów w treściach edukacyjnych dla dzieci.

W programie testowym OpenAI wymaga od swoich partnerów wyrażenia zgody na zasady użytkowania, uzyskania zgody pierwotnego mówcy przed użyciem głosu oraz ujawnienia słuchaczom, że głosy, które słyszą, są generowane przez sztuczną inteligencję. Firma instaluje także niesłyszalny dźwiękowy znak wodny, pozwalający rozróżnić, czy utwór dźwiękowy został utworzony za pomocą jej narzędzia.

Przed podjęciem decyzji, czy udostępnić tę funkcję szerzej, OpenAI oświadczyło, że prosi o opinie zewnętrznych ekspertów. „Ważne jest, aby ludzie na całym świecie rozumieli, dokąd zmierza ta technologia, niezależnie od tego, czy ostatecznie sami ją wdrożymy na szeroką skalę, czy nie” – stwierdziła firma w poście na blogu.

OpenAI napisało również, że ma nadzieję, że prezentacja jego oprogramowania „motywuje potrzebę wzmocnienia odporności społeczeństwa” na wyzwania, jakie stwarzają bardziej zaawansowane technologie sztucznej inteligencji. Na przykład firma wezwała banki do stopniowego wycofywania uwierzytelniania głosowego jako środka bezpieczeństwa dostępu do kont bankowych i poufnych informacji. Dąży także do edukacji publicznej na temat zwodniczych treści AI i dalszego rozwoju technik wykrywania, czy treści audio są prawdziwe, czy wygenerowane przez sztuczną inteligencję.

(Z wyjątkiem nagłówka, ta historia nie została zredagowana przez personel NDTV i została opublikowana z kanału konsorcjalnego.)

Czekając na odpowiedź załadować…

Zrodlo