Epoch AI, instytut badawczy z siedzibą w Kalifornii, uruchomił w zeszłym tygodniu nowy test porównawczy sztucznej inteligencji (AI). Nowy test porównawczy sztucznej inteligencji, nazwany FrontierMath, testuje duże modele językowe (LLM) pod kątem ich zdolności do ponownego sezonowania i rozwiązywania problemów matematycznych. Firma zajmująca się sztuczną inteligencją twierdzi, że istniejące testy matematyczne nie są zbyt przydatne ze względu na takie czynniki, jak zanieczyszczenie danych i bardzo wysokie wyniki modeli sztucznej inteligencji. Epoch AI twierdzi, że nawet czołowe firmy LLM uzyskały w nowym benchmarku mniej niż dwa procent.
Epoch AI wprowadza benchmark FrontierMath
w post na X (wcześniej znanym jako Twitter) firma zajmująca się sztuczną inteligencją wyjaśniła, że współpracowała z ponad 60 matematykami, aby stworzyć setki początków i niepublikowanych problemów matematycznych. Epoch AI twierdzi, że rozwiązanie tych pytań zajęłoby nawet matematykom wiele godzin. Jako powód opracowania nowego testu porównawczego podano ograniczenia istniejących testów porównawczych, takich jak GSM8K i MATH, w przypadku których modele AI na ogół uzyskują wysokie wyniki.
Firma twierdziła, że wysokie wyniki osiągnięte przez LLM wynikają w dużej mierze z zanieczyszczenia danych. Oznacza to, że pytania w jakiś sposób zostały już wprowadzone do modeli sztucznej inteligencji, co umożliwiło im łatwe rozwiązywanie pytań.
FrontierMath rozwiązuje ten problem poprzez uwzględnienie nowych, unikalnych i nigdzie niepublikowanych problemów, minimalizując ryzyko związane z zanieczyszczeniem danych. Ponadto test porównawczy obejmuje szeroki zakres pytań, w tym wymagające obliczeń problemy z teorii liczb, analizy rzeczywistej i geometrii algebraicznej, a także tematy takie jak teoria mnogości Zermelo – Fraenkla. Firma zajmująca się sztuczną inteligencją twierdzi, że wszystkie pytania mają charakter „zgadnij”, co oznacza, że nie można ich rozwiązać przypadkowo bez solidnego uzasadnienia.
Epoch AI podkreśliło, że aby zmierzyć możliwości sztucznej inteligencji, należy stworzyć punkty odniesienia w zakresie kreatywnego rozwiązywania problemów, w przypadku których sztuczna inteligencja musi rozumować na wielu etapach. Warto zauważyć, że wielu weteranów branży uważa, że istniejące testy porównawcze nie są wystarczające, aby poprawnie zmierzyć stopień zaawansowania modelu sztucznej inteligencji.
W odpowiedzi na nowy benchmark w a postNoam Brown, badacz OpenAI, który stał za modelem o1 firmy, z zadowoleniem przyjął nowy test porównawczy i powiedział: „Uwielbiam widzieć nową ewaluację z tak niskim współczynnikiem przepustowości dla pionierskich modeli”.
Najnowsze wiadomości techniczne i recenzje znajdziesz na stronie Gadgets 360 X, Facebooku, WhatsApp, Wątki I Wiadomości Google. Aby uzyskać najnowsze filmy na temat gadżetów i technologii, zasubskrybuj nasz Kanał YouTube. Jeśli chcesz wiedzieć wszystko o najlepszych influencerach, śledź nasze wewnętrzne informacje Kto to jest360 NA Instagrama I YouTube.
Poco X7 Pro może być pierwszym smartfonem dostarczanym w Indiach z systemem HyperOS 2 firmy Xiaomi
iQOO 13 opcji kolorystycznych zaprezentowano przed premierą w Indiach 3 grudnia