OpenAI zaprezentowało nowe narzędzie, które odtwarza głos danej osoby na podstawie zaledwie 15 sekund nagranego dźwięku.
Model, nazwany Voice Engine, potrzebuje jednego 15-sekundowego klipu, aby nauczyć się głosu danej osoby i sposobu, w jaki ona mówi. Stamtąd użytkownicy mogą wprowadzać tekst, który będzie wyrażał wszystko, co im się podoba, za pomocą realistycznie brzmiących głosów zawierających emocje. Firma podała, że opracowała silnik głosowy w 2022 r. i wykorzystywała go w gotowych głosach, ale po raz pierwszy omawia się tę kwestię z wykorzystaniem rzeczywistego głosu danej osoby. OpenAI potwierdziło również w swoim poście na blogu w piątek (29 marca) oczywiste, potencjalnie szkodliwe implikacje.
„Podchodzimy ostrożnie i świadomie do szerszej wersji ze względu na ryzyko niewłaściwego użycia syntetycznego głosu” – napisała OpenAI w poście na blogu. „Mamy nadzieję rozpocząć dialog na temat odpowiedzialnego wdrażania głosów syntetycznych i tego, w jaki sposób społeczeństwo może dostosować się do tych nowych możliwości”.
OpenAI dodało, że na podstawie przebiegu tych rozmów zadecyduje, w jaki sposób – a nawet czy – udostępni publicznie silnik głosowy.
Firma napisała: „Podejmiemy bardziej świadomą decyzję o tym, czy i jak wdrożyć tę technologię na dużą skalę”.
Implikacje Voice Engine są ogromne. Chociaż można go używać na różne istotne sposoby, na przykład do szybkiego nagrywania prezentacji lub skuteczniejszej komunikacji, nie jest trudno uchwycić głos innej osoby i wykorzystać go do niegodziwych celów. Rzeczywiście istnieje już wiele tego typu oszustw i wykorzystuje się je do oszukiwania ludzi, aby wysyłali pieniądze i udostępniali informacje oszustom.
Dzielimy się naszymi wnioskami z małej wersji zapoznawczej Voice Engine – modelu, który wykorzystuje wprowadzanie tekstu i pojedynczą 15-sekundową próbkę dźwięku w celu wygenerowania naturalnie brzmiącej mowy, która bardzo przypomina oryginalnego mówcę. https://t.co/yLsfGaVtrZ29 marca 2024 r
OpenAI argumentuje, że właśnie z powodu tego ryzyka uzyskiwanie informacji zwrotnych jest tak ważne. Firma oświadczyła, że współpracuje z rządami, firmami medialnymi, firmami rozrywkowymi i instytucjami edukacyjnymi w całych Stanach Zjednoczonych i na całym świecie, aby omówić technologię Voice Engine. Strony te testują obecnie Voice Engine i zgodziły się nie podszywać się pod inne osoby. Muszą także ujawnić każdemu, kto słucha dźwięku, że głos jest generowany przez sztuczną inteligencję. OpenAI dodało także znak wodny, dzięki czemu słuchacze będą wiedzieć, że głos nie jest autentyczny.
„Uważamy, że każdemu szerokiemu wdrożeniu technologii głosu syntetycznego powinny towarzyszyć funkcje uwierzytelniania głosu, które weryfikują, czy pierwotny mówca świadomie dodaje swój głos do usługi, oraz lista głosów zakazanych, która wykrywa i zapobiega tworzeniu głosów, które są zbyt podobne do prominentnych osobistości” – stwierdziła firma.
Patrząc w przyszłość, nie wiadomo, co przyniesie Voice Engine. Chociaż możliwe jest, że w końcu zostanie to upublicznione, OpenAI może również stwierdzić, że nie leży to w najlepszym interesie publicznym. Tak czy inaczej, jak stwierdziła firma, rozwój jest wyraźnie możliwy i wyraźnie to widać. „Ważne jest, aby ludzie na całym świecie rozumieli, dokąd zmierza ta technologia” – stwierdziła firma, „niezależnie od tego, czy ostatecznie sami ją wdrożymy na szeroką skalę, czy nie”.