Epoch AI uruchamia benchmark AI FrontierMath w celu przetestowania możliwości modeli AI

Epoch AI, instytut badawczy z siedzibą w Kalifornii, uruchomił w zeszłym tygodniu nowy test porównawczy sztucznej inteligencji (AI). Nowy test porównawczy sztucznej inteligencji, nazwany FrontierMath, testuje duże modele językowe (LLM) pod kątem ich zdolności do ponownego sezonowania i rozwiązywania problemów matematycznych. Firma zajmująca się sztuczną inteligencją twierdzi, że istniejące testy matematyczne nie są zbyt przydatne ze względu na takie czynniki, jak zanieczyszczenie danych i bardzo wysokie wyniki modeli sztucznej inteligencji. Epoch AI twierdzi, że nawet czołowe firmy LLM uzyskały w nowym benchmarku mniej niż dwa procent.

Epoch AI wprowadza benchmark FrontierMath

w post na X (wcześniej znanym jako Twitter) firma zajmująca się sztuczną inteligencją wyjaśniła, że ​​współpracowała z ponad 60 matematykami, aby stworzyć setki początków i niepublikowanych problemów matematycznych. Epoch AI twierdzi, że rozwiązanie tych pytań zajęłoby nawet matematykom wiele godzin. Jako powód opracowania nowego testu porównawczego podano ograniczenia istniejących testów porównawczych, takich jak GSM8K i MATH, w przypadku których modele AI na ogół uzyskują wysokie wyniki.

Firma twierdziła, że ​​wysokie wyniki osiągnięte przez LLM wynikają w dużej mierze z zanieczyszczenia danych. Oznacza to, że pytania w jakiś sposób zostały już wprowadzone do modeli sztucznej inteligencji, co umożliwiło im łatwe rozwiązywanie pytań.

FrontierMath rozwiązuje ten problem poprzez uwzględnienie nowych, unikalnych i nigdzie niepublikowanych problemów, minimalizując ryzyko związane z zanieczyszczeniem danych. Ponadto test porównawczy obejmuje szeroki zakres pytań, w tym wymagające obliczeń problemy z teorii liczb, analizy rzeczywistej i geometrii algebraicznej, a także tematy takie jak teoria mnogości Zermelo – Fraenkla. Firma zajmująca się sztuczną inteligencją twierdzi, że wszystkie pytania mają charakter „zgadnij”, co oznacza, że ​​nie można ich rozwiązać przypadkowo bez solidnego uzasadnienia.

Epoch AI podkreśliło, że aby zmierzyć możliwości sztucznej inteligencji, należy stworzyć punkty odniesienia w zakresie kreatywnego rozwiązywania problemów, w przypadku których sztuczna inteligencja musi rozumować na wielu etapach. Warto zauważyć, że wielu weteranów branży uważa, że ​​istniejące testy porównawcze nie są wystarczające, aby poprawnie zmierzyć stopień zaawansowania modelu sztucznej inteligencji.

W odpowiedzi na nowy benchmark w a postNoam Brown, badacz OpenAI, który stał za modelem o1 firmy, z zadowoleniem przyjął nowy test porównawczy i powiedział: „Uwielbiam widzieć nową ewaluację z tak niskim współczynnikiem przepustowości dla pionierskich modeli”.

Najnowsze wiadomości techniczne i recenzje znajdziesz na stronie Gadgets 360 X, Facebooku, WhatsApp, Wątki I Wiadomości Google. Aby uzyskać najnowsze filmy na temat gadżetów i technologii, zasubskrybuj nasz Kanał YouTube. Jeśli chcesz wiedzieć wszystko o najlepszych influencerach, śledź nasze wewnętrzne informacje Kto to jest360 NA Instagrama I YouTube.

Poco X7 Pro może być pierwszym smartfonem dostarczanym w Indiach z systemem HyperOS 2 firmy Xiaomi


iQOO 13 opcji kolorystycznych zaprezentowano przed premierą w Indiach 3 grudnia



Zrodlo