ElevenLabs udostępnia interfejs API projektowania głosu oparty na sztucznej inteligencji oraz funkcje X to Voice

ElevenLabs, nowojorska firma zajmująca się sztuczną inteligencją (AI), udostępniła interfejs programowania aplikacji (API) dla swojej funkcji Voice Design, która niedawno zadebiutowała. Ogłoszenie pojawiło się w zeszłym tygodniu, a jednocześnie firma wprowadziła także projekt open source nazwany X to Voice, który może wygenerować unikalny głos dla profilu X (wcześniej znanego jako Twitter) na podstawie postów użytkownika. Ta funkcja wyświetla także podpowiedź tekstową, która jest generowana automatycznie na podstawie analizy profilu.

w wpis na bloguElevenLabs szczegółowo opisało dwa nowe narzędzia AI. Pierwszą z nich jest niedawno wprowadzona wersja API narzędzia Voice Design. Voice Design to nowa funkcja opracowana przez firmę, która może generować unikalne głosy AI na podstawie komunikatów tekstowych. Głosy te są oparte na opisie udostępnionym przez użytkownika, obejmującym wysokość tonu, barwę, tempo wygłaszania, intonację i inne.

Teraz ta funkcja jest dostępna za pośrednictwem firmowego API. Oznacza to, że programiści mogą wykorzystać tę możliwość do tworzenia aplikacji i oprogramowania. Voice Design może być oferowany przez programistów w celu opracowania głosów dla ich postaci AI lub użytkownikom, aby mogli sami generować nowe głosy.

Firma zaoferowała dwa punkty końcowe. First umożliwia programistom generowanie trzech unikalnych podglądów głosowych na podstawie podpowiedzi tekstowych. Drugi pozwala im zapisywać podglądy głosowe w swojej bibliotece do użytku lokalnego. ElevenLabs nie podało ceny API ani kosztu za żądanie modelu AI. Nie są znane również szczegóły dotyczące modelu AI.

Drugim narzędziem jest firmowy projekt open source nazwany X to Voice. Jest to rozszerzenie funkcjonalności dostępne do testowania na kliencie WWW Tutaj. Użytkownicy mogą dodać nazwę użytkownika X, a sztuczna inteligencja automatycznie przeanalizuje profil, w tym biografię i posty. Po dokonaniu analizy generuje podpowiedź tekstową na podstawie analizy.

Podpowiedź tekstowa jest następnie automatycznie przekazywana do Voice Design w celu wygenerowania unikalnego głosu dla profilu. W serwisie Gadgets 360 przetestowano tę funkcję i okazało się, że wygenerowanie podglądu głosowego dla profilu zajmuje od 30 sekund do minuty. W sumie generowane są trzy podglądy głosowe. Głos AI wypowiada linię, która również opiera się na analizie profilu.

Oprócz trzech podglądów głosowych na stronie wyświetlane są także podpowiedzi tekstowe, których użyto do wygenerowania głosu AI. Odkryliśmy również, że ta funkcja animuje zdjęcia profilowe użytkowników, którzy dodali zbliżenie swojej twarzy, i synchronizuje ruchy warg i ust, aby dopasować je do wypowiadanych słów.

Najnowsze wiadomości techniczne i recenzje znajdziesz na stronie Gadgets 360 X, Facebooku, WhatsApp, Wątki I Wiadomości Google. Aby uzyskać najnowsze filmy na temat gadżetów i technologii, zasubskrybuj nasz Kanał YouTube. Jeśli chcesz wiedzieć wszystko o najlepszych influencerach, śledź nasze wewnętrzne informacje Kto to jest360 NA Instagrama I YouTube.

Premiera Realme GT 7 Pro z procesorem Snapdragon 8 Elite i baterią 6500 mAh: cena, dane techniczne



Zrodlo