Generator podcastów Meta NotebookLlama AI wydany jako „narzędzie typu open source”, które ma konkurować z programem NotebookLM firmy Google

W niedzielę Meta wypuściła nowe narzędzie sztucznej inteligencji (AI) o otwartym kodzie źródłowym, które będzie działać na Google NotebookLM. Narzędzie, nazwane NotebookLlama, to generator podcastów oparty na sztucznej inteligencji, do którego użytkownicy mogą przesłać plik PDF, a narzędzie przekształci go w podcast audio zawierający dwie postacie AI. Narzędzie wykorzystuje trzy różne modele AI Llama 3.1 do zakończenia całego procesu. Podobnie jak narzędzie Google, podcast NotebookLlama również w płynny sposób śledzi konwersację pomiędzy dwoma hostami AI.

Narzędzie Meta NotebookLlama AI wykorzystuje trzy duże modele językowe do generowania podcastów audio z bloków tekstu. Obecnie narzędzie akceptuje jako dane wejściowe wyłącznie pliki PDF, więc użytkownicy będą musieli przekonwertować dowolny format tekstowy na format PDF.

Przepływ pracy w MetaNotebookuLlama
Źródło zdjęcia: Meta

NotebookLlama najpierw używa modelu instrukcji Llama 3.2 1B do wstępnego przetworzenia pliku PDF i zapisania go w pliku „.txt”. Następnie model instrukcji Llama 3.1 70B jest używany do napisania transkrypcji podcastu przy użyciu źródłowego zbioru danych. Transkrypcja jest następnie dramatyzowana przy użyciu narzędzia do ponownego zapisu, które wykorzystuje model instrukcji Llama 3.1 8B. Na koniec używane jest niestandardowe narzędzie, które umożliwia dodanie transkrypcji w procesie przetwarzania tekstu na mowę. W tym celu Meta korzysta z narzędzia Parler TTS. Zainteresowane osoby mogą uzyskać dostęp do wszystkich modeli wymaganych do generowania podcastów z listy GitHub Tutaj.

Wymienione powyżej modele AI to jednak jedynie rekomendacje twórców. Użytkownicy mogą preferować stosowanie mniejszych modeli na każdym etapie, jednak wyniki mogą się różnić. Meta podkreśliła, że ​​do uruchomienia systemu AI w zalecanej konfiguracji użytkownicy będą potrzebować procesora graficznego z zagregowaną pamięcią około 140 GB.

Użytkownik X (wcześniej znany jako Twitter). wysłane próbkę wygenerowanego podcastu. Na tej podstawie wydaje się, że jakość dźwięku nie jest tak dobra jak w Google NotebookLM, a dźwięk jest przenikliwy i robotyczny. Co więcej, zdarzają się przypadki, gdy fragmenty dźwięku są pomijane, a hosty AI w końcu przekrzykują się.

Meta przyznaje się do niektórych problemów i planuje je poprawić w następnej iteracji produktu AI. Firma podkreśliła: „Model TTS ogranicza naturalność brzmienia. Prawdopodobnie można to poprawić dzięki lepszemu rurociągowi i pomocy kogoś bardziej kompetentnego”.

Gigant technologiczny planuje także wykorzystać dwa różne LLM do napisania scenariusza, w którym każdy model będzie debatował nad drugim, aby podcast brzmiał bardziej konwersacyjnie. Jest to również część przyszłego planu deweloperów. Ponadto firma testuje również model Llama 405B AI do pisania transkrypcji, a także zwiększa obsługę większej liczby formatów wejściowych i wyjściowych.

Najnowsze wiadomości techniczne i recenzje znajdziesz na stronie Gadgets 360 X, Facebooku, WhatsApp, Wątki I Wiadomości Google. Aby uzyskać najnowsze filmy na temat gadżetów i technologii, zasubskrybuj nasz Kanał YouTube. Jeśli chcesz wiedzieć wszystko o najlepszych influencerach, śledź nasze wewnętrzne informacje Kto to jest360 NA Instagrama I YouTube.

iPhone SE 4 z 6,06-calowym ekranem LTPS OLED, baterią 3279 mAh i wewnętrznym modemem Apple


Sprzedaż iPhone’a z serii 16 w Indonezji zablokowana ze względu na niespełnione wymagania inwestycyjne



Zrodlo