OpenAI, Google, Meta i Anthropic, wszystko polegać w dużym stopniu na treściach wydawców premium przeszkolenie dużych modeli językowych, czyli LLM, będących podstawą ich wysiłków w zakresie sztucznej inteligencji, mimo że według nich firmy te regularnie bagatelizują wykorzystanie takich treści chronionych prawem autorskim nowe badania wydany w tym tygodniu przez giganta wydawnictw internetowych Ziff Davis.
Ziff Davis jest właścicielem CNET, a także mnóstwo innych marekw tym IGN, PCMag, Mashable i Everyday Health.
Artykuł szczegółowo opisujący badania, którego autorem jest George Wukoson z Ziffa Davisa, główny prawnik ds. sztucznej inteligencji i dyrektor ds. technologii Joey Fortuna, donosi, że firmy zajmujące się sztuczną inteligencją celowo odfiltrowywały treści niskiej jakości na rzecz wysokiej jakości treści stworzonych przez człowieka w celu szkolenia ich modele. Biorąc pod uwagę, że firmy zajmujące się sztuczną inteligencją chcą, aby ich modele działały dobrze, rozsądne jest, aby w swoich danych szkoleniowych preferowały treści wysokiej jakości. Aby dokonać tych rozróżnień, firmy zajmujące się sztuczną inteligencją wykorzystywały autorytet domeny witryn internetowych, czyli zasadniczo ich ranking w wyszukiwarce Google. Ogólnie rzecz biorąc, źródła, które lepiej filtrują w Google, mają zazwyczaj wyższą jakość i wiarygodność.
Firmy stojące za popularnymi chatbotami AI, takimi jak ChatGPT i Gemini, ukrywają, skąd czerpią informacje, które stanowią podstawę do udzielania odpowiedzi przez boty. Nie jest to pomocne dla konsumentów, którzy nie mają wglądu w źródła, ich wiarygodność oraz to, czy dane szkoleniowe mogą być stronnicze lub utrwalać szkodliwe stereotypy.
Jest to jednak również przedmiotem poważnego sporu z wydawcami, którzy twierdzą, że firmy zajmujące się sztuczną inteligencją w zasadzie piracią swoje dzieła chronione prawem autorskim, bez pozwolenia i wynagrodzenia. Chociaż OpenAI licencjonowało treści od niektórych wydawców w związku z przekształceniem się z organizacji non-profit w spółkę nastawiona na zysk, inne firmy medialne pozywają twórcę ChatGPT za naruszenie praw autorskich.
„Główni programiści LLM nie ujawniają już swoich danych szkoleniowych tak jak kiedyś. Są teraz bardziej komercyjne i mniej przejrzyste” – napisali Wukoson i Fortuna.
OpenAI, Google, Meta i Anthropic nie odpowiedziały od razu na prośby o komentarz.
Wydawcy, w tym New York Timesa pozwali Microsoft i OpenAI za naruszenie praw autorskich, natomiast wydawcy Wall Street Journal i New York Post Dow Jones pozywa Perplexity, kolejny generatywny start-up AI, działający na podobnych podstawach.
Big Tech doświadczył ogromnych wycen w obliczu rewolucji AI. Wartość Google jest obecnie wyceniana na około 2,2 biliona dolarówI Meta jest wyceniana na około 1,5 biliona dolarówczęściowo ze względu na ich pracę z generatywną sztuczną inteligencją. Inwestorzy obecnie wyceniają start-upy OpenAI i Anthropic na poziomie 157 miliardów dolarów I 40 miliardów dolarówodpowiednio. Tymczasem wydawcy wiadomości borykają się z trudnościami i zostali do tego zmuszeni fale zwolnień w ciągu ostatnich kilku lat. Wydawcy wiadomości zmagają się w wysoce konkurencyjnym środowisku mediów internetowych, próbując poruszać się w zgiełku wyszukiwarek internetowych, „Slop” generowany przez sztuczną inteligencję i media społecznościowe, aby znaleźć odbiorców.
Dyrektor generalny Meta Mark Zuckerberg stwierdził, że twórcy i wydawcy „przeceniają wartość swoich konkretnych treści” w: wywiad z The Verge na początku tego roku.
W międzyczasie niektóre firmy zajmujące się sztuczną inteligencją podpisały umowy licencyjne z wydawcami, aby dostarczać swoim LLM aktualne artykuły prasowe. OpenAI podpisało umowę z Financial Times, DotDash Meredith, Vox i innymi wcześniej w tym roku. Meta I Microsoftu zerwała także umowy z wydawcami. Ziff Davis nie podpisał podobnego kontraktu.
Na podstawie analizy ujawnień starszych modeli firm zajmujących się sztuczną inteligencją Wukoson i Fortuna odkryły, że adresy URL czołowych wydawców, takich jak Axel Springer (Business Insider, Politico), Future PLC (TechRadar, Tom’s Guide), Hearst (San Francisco) Chronicle, Men’s Health), News Corp (The Wall Street Journal), The New York Times Company, The Washington Post i inne, stanowiły 12,04% danych szkoleniowych, przynajmniej dla zbioru danych OpenWebText2. OpenWebText2 został użyty do uczenia GPT-3, który jest podstawową technologią ChatGPT, chociaż najnowsza wersja ChatGPT nie jest bezpośrednio zbudowana na GPT-3 i jest czymś odrębnym.
Ani OpenAI, Google, Anthropic ani Meta nie ujawniły danych szkoleniowych wykorzystywanych do trenowania ich najnowszych modeli.
Każdy z kilku trendów omówionych w artykule badawczym „odzwierciedla decyzje podjęte przez firmy LLM o nadaniu priorytetu wysokiej jakości zbiorom danych w formie tekstu internetowego w szkoleniu LLM, co skutkuje rewolucyjnymi przełomami technologicznymi zapewniającymi ogromną wartość dla tych firm” – napisali Wukoson i Fortuna.