Home Technologia Epoch AI uruchamia benchmark AI FrontierMath w celu przetestowania możliwości modeli AI

Technologia

Epoch AI uruchamia benchmark AI FrontierMath w celu przetestowania możliwości modeli AI

12 November 2024

Epoch AI, instytut badawczy z siedzibą w Kalifornii, uruchomił w zeszłym tygodniu nowy test porównawczy sztucznej inteligencji (AI). Nowy test porównawczy sztucznej inteligencji, nazwany FrontierMath, testuje duże modele językowe (LLM) pod kątem ich zdolności do ponownego sezonowania i rozwiązywania problemów matematycznych. Firma zajmująca się sztuczną inteligencją twierdzi, że istniejące testy matematyczne nie są zbyt przydatne ze względu na takie czynniki, jak zanieczyszczenie danych i bardzo wysokie wyniki modeli sztucznej inteligencji. Epoch AI twierdzi, że nawet czołowe firmy LLM uzyskały w nowym benchmarku mniej niż dwa procent.

Epoch AI wprowadza benchmark FrontierMath

w post na X (wcześniej znanym jako Twitter) firma zajmująca się sztuczną inteligencją wyjaśniła, że współpracowała z ponad 60 matematykami, aby stworzyć setki początków i niepublikowanych problemów matematycznych. Epoch AI twierdzi, że rozwiązanie tych pytań zajęłoby nawet matematykom wiele godzin. Jako powód opracowania nowego testu porównawczego podano ograniczenia istniejących testów porównawczych, takich jak GSM8K i MATH, w przypadku których modele AI na ogół uzyskują wysokie wyniki.

Firma twierdziła, że wysokie wyniki osiągnięte przez LLM wynikają w dużej mierze z zanieczyszczenia danych. Oznacza to, że pytania w jakiś sposób zostały już wprowadzone do modeli sztucznej inteligencji, co umożliwiło im łatwe rozwiązywanie pytań.

FrontierMath rozwiązuje ten problem poprzez uwzględnienie nowych, unikalnych i nigdzie niepublikowanych problemów, minimalizując ryzyko związane z zanieczyszczeniem danych. Ponadto test porównawczy obejmuje szeroki zakres pytań, w tym wymagające obliczeń problemy z teorii liczb, analizy rzeczywistej i geometrii algebraicznej, a także tematy takie jak teoria mnogości Zermelo – Fraenkla. Firma zajmująca się sztuczną inteligencją twierdzi, że wszystkie pytania mają charakter „zgadnij”, co oznacza, że nie można ich rozwiązać przypadkowo bez solidnego uzasadnienia.

Epoch AI podkreśliło, że aby zmierzyć możliwości sztucznej inteligencji, należy stworzyć punkty odniesienia w zakresie kreatywnego rozwiązywania problemów, w przypadku których sztuczna inteligencja musi rozumować na wielu etapach. Warto zauważyć, że wielu weteranów branży uważa, że istniejące testy porównawcze nie są wystarczające, aby poprawnie zmierzyć stopień zaawansowania modelu sztucznej inteligencji.

W odpowiedzi na nowy benchmark w a postNoam Brown, badacz OpenAI, który stał za modelem o1 firmy, z zadowoleniem przyjął nowy test porównawczy i powiedział: „Uwielbiam widzieć nową ewaluację z tak niskim współczynnikiem przepustowości dla pionierskich modeli”.

Najnowsze wiadomości techniczne i recenzje znajdziesz na stronie Gadgets 360 X, Facebooku, WhatsApp, Wątki I Wiadomości Google. Aby uzyskać najnowsze filmy na temat gadżetów i technologii, zasubskrybuj nasz Kanał YouTube. Jeśli chcesz wiedzieć wszystko o najlepszych influencerach, śledź nasze wewnętrzne informacje Kto to jest360 NA Instagrama I YouTube.

Poco X7 Pro może być pierwszym smartfonem dostarczanym w Indiach z systemem HyperOS 2 firmy Xiaomi

iQOO 13 opcji kolorystycznych zaprezentowano przed premierą w Indiach 3 grudnia

Zrodlo

Facebook
Twitter
Pinterest
WhatsApp

Previous articleMela: „Brighton? Nawet nie wiem gdzie to jest…"
Next articleXbox Game Pass otrzyma Spyro i 7 innych gier w listopadzie

Kasia Gromala
https://myslpolska.org/
Facebook

RELATED ARTICLES MORE FROM AUTHOR

Technologia

Właśnie ogłoszono: Amazon w końcu zrezygnował z dat wyprzedaży w Czarny Piątek

Technologia

Bluesky zajmuje pierwsze miejsce w App Store, a użytkownicy nadal uciekają z X Elona Muska

Technologia

Zanim kupisz kartę podarunkową, musisz wiedzieć jedną rzecz

Pełny Gmail? Jak zdobyć 15 GB więcej danych bez utraty wiadomości14 November 2024

Przyczyna śmierci Fernando Valenzueli: ujawniają straszny powód jego śmierci14 November 2024

Zach Bryan ogłasza występ na stadionie MetLife z udziałem Kings of Leon14 November 2024

María José López potwierdza pracę naukowców: "Cały dzień spędzamy na odkrywaniu i nie widzimy ani grosza"14 November 2024

Siedzący obok strażnika De Lima wścieka się: Jak on może mnie nie znać?14 November 2024

Odpowiedni dla Super Mamy, wystarczy spryskać, aby usunąć wycieki w domu14 November 2024

Categories

Aktualności (16,560)

Biznesie18

Gospodarka1

Ludzie1

Rozrywka (3,695)

Sport (4,837)

Styl Życia547

Technologia (3,225)