Home Technologia Epoch AI uruchamia benchmark AI FrontierMath w celu przetestowania możliwości modeli AI

Technologia

Epoch AI uruchamia benchmark AI FrontierMath w celu przetestowania możliwości modeli AI

12 November 2024

Epoch AI, instytut badawczy z siedzibą w Kalifornii, uruchomił w zeszłym tygodniu nowy test porównawczy sztucznej inteligencji (AI). Nowy test porównawczy sztucznej inteligencji, nazwany FrontierMath, testuje duże modele językowe (LLM) pod kątem ich zdolności do ponownego sezonowania i rozwiązywania problemów matematycznych. Firma zajmująca się sztuczną inteligencją twierdzi, że istniejące testy matematyczne nie są zbyt przydatne ze względu na takie czynniki, jak zanieczyszczenie danych i bardzo wysokie wyniki modeli sztucznej inteligencji. Epoch AI twierdzi, że nawet czołowe firmy LLM uzyskały w nowym benchmarku mniej niż dwa procent.

Epoch AI wprowadza benchmark FrontierMath

w post na X (wcześniej znanym jako Twitter) firma zajmująca się sztuczną inteligencją wyjaśniła, że współpracowała z ponad 60 matematykami, aby stworzyć setki początków i niepublikowanych problemów matematycznych. Epoch AI twierdzi, że rozwiązanie tych pytań zajęłoby nawet matematykom wiele godzin. Jako powód opracowania nowego testu porównawczego podano ograniczenia istniejących testów porównawczych, takich jak GSM8K i MATH, w przypadku których modele AI na ogół uzyskują wysokie wyniki.

Firma twierdziła, że wysokie wyniki osiągnięte przez LLM wynikają w dużej mierze z zanieczyszczenia danych. Oznacza to, że pytania w jakiś sposób zostały już wprowadzone do modeli sztucznej inteligencji, co umożliwiło im łatwe rozwiązywanie pytań.

FrontierMath rozwiązuje ten problem poprzez uwzględnienie nowych, unikalnych i nigdzie niepublikowanych problemów, minimalizując ryzyko związane z zanieczyszczeniem danych. Ponadto test porównawczy obejmuje szeroki zakres pytań, w tym wymagające obliczeń problemy z teorii liczb, analizy rzeczywistej i geometrii algebraicznej, a także tematy takie jak teoria mnogości Zermelo – Fraenkla. Firma zajmująca się sztuczną inteligencją twierdzi, że wszystkie pytania mają charakter „zgadnij”, co oznacza, że nie można ich rozwiązać przypadkowo bez solidnego uzasadnienia.

Epoch AI podkreśliło, że aby zmierzyć możliwości sztucznej inteligencji, należy stworzyć punkty odniesienia w zakresie kreatywnego rozwiązywania problemów, w przypadku których sztuczna inteligencja musi rozumować na wielu etapach. Warto zauważyć, że wielu weteranów branży uważa, że istniejące testy porównawcze nie są wystarczające, aby poprawnie zmierzyć stopień zaawansowania modelu sztucznej inteligencji.

W odpowiedzi na nowy benchmark w a postNoam Brown, badacz OpenAI, który stał za modelem o1 firmy, z zadowoleniem przyjął nowy test porównawczy i powiedział: „Uwielbiam widzieć nową ewaluację z tak niskim współczynnikiem przepustowości dla pionierskich modeli”.

Najnowsze wiadomości techniczne i recenzje znajdziesz na stronie Gadgets 360 X, Facebooku, WhatsApp, Wątki I Wiadomości Google. Aby uzyskać najnowsze filmy na temat gadżetów i technologii, zasubskrybuj nasz Kanał YouTube. Jeśli chcesz wiedzieć wszystko o najlepszych influencerach, śledź nasze wewnętrzne informacje Kto to jest360 NA Instagrama I YouTube.

Poco X7 Pro może być pierwszym smartfonem dostarczanym w Indiach z systemem HyperOS 2 firmy Xiaomi

iQOO 13 opcji kolorystycznych zaprezentowano przed premierą w Indiach 3 grudnia

Zrodlo

Facebook
Twitter
Pinterest
WhatsApp

Previous articleMela: „Brighton? Nawet nie wiem gdzie to jest…"
Next articleXbox Game Pass otrzyma Spyro i 7 innych gier w listopadzie

Kasia Gromala
https://myslpolska.org/
Facebook

RELATED ARTICLES MORE FROM AUTHOR

Technologia

Zaoszczędź 250 USD na tym pomocnym zestawie odkurzacza i mopa robota Roomba

Technologia

Dane NASA umożliwiają globalną reakcję na rosnący poziom mórz. Oto, co musisz wiedzieć

Technologia

Google Gemini jest teraz dostępny na iPhone’a

Panel Izby Reprezentantów ponownie zaprosi Duterte do dochodzenia w sprawie wojny narkotykowej14 November 2024

Ministerstwo Religii mianuje 40 studentów medresy, aby zostali ambasadorami umiarkowania religijnego14 November 2024

Wiadomości z Indii | Od 14 do 19 listopada korzystanie z metra na linii żółtej będzie utrudnione ze względu na prace budowlane14 November 2024

Mistrzyni olimpijska w narciarstwie Lindsey Vonn odchodzi z emerytury przed igrzyskami w 2026 roku14 November 2024

Irańskie obiekty nuklearne „nie powinny być atakowane” – szef MAEA14 November 2024

Zaoszczędź 250 USD na tym pomocnym zestawie odkurzacza i mopa robota Roomba14 November 2024

Categories

Aktualności (16,851)

Biznesie18

Gospodarka1

Ludzie1

Rozrywka (3,755)

Sport (4,916)

Styl Życia554

Technologia (3,287)