Eksperci tworzą „Ostateczny egzamin ludzkości”, aby stłumić potężną technologię sztucznej inteligencji

Zespół ekspertów ds. technologii uruchomił w poniedziałek globalne zaproszenie do zadawania najtrudniejszych pytań systemom sztucznej inteligencji, które coraz częściej przyjmują popularne standardy, takie jak gry dla dzieci.

Projekt nazwany „Ostatnim egzaminem ludzkości” ma na celu ustalenie, kiedy pojawi się sztuczna inteligencja na poziomie eksperckim. Według organizatorów, organizacji non-profit o nazwie Center for AI Security (CAIS) i startupu Scale AI, ma on pozostać aktualny nawet w obliczu ewolucji możliwości w nadchodzących latach.

Rozmowa nadeszła kilka dni po tym, jak twórca ChatGPT zapowiedział nowy model znany jako OpenAI o1, który „zniszczył najpopularniejsze standardy rozumowania” – powiedział Dan Hendricks, dyrektor generalny CAIS i doradca start-upu xAI Elona Muska.

Hendricks jest współautorem dwóch artykułów opublikowanych w 2021 r., w których zaproponowano testy obecnie szeroko rozpowszechnionych systemów sztucznej inteligencji, z których jeden dotyczy wiedzy studentów na takie tematy, jak historia Stanów Zjednoczonych, a drugi dotyczy zdolności modeli do rozumowania przy użyciu matematyki na poziomie zawodów. W przypadku testu licencjackiego z internetowego centrum AI Hugging Face pobrano więcej danych niż z jakiegokolwiek innego takiego zbioru danych.

Podczas przygotowywania tych dokumentów sztuczna inteligencja udzielała niemal losowych odpowiedzi na pytania egzaminacyjne. „Teraz są zmiażdżeni” – powiedział Hendricks agencji Reuters.

Na przykład modele Claude’a z laboratorium sztucznej inteligencji Anthropic uzyskały około 77% punktów w teście na poziomie licencjackim w 2023 r. do prawie 89% rok później, według rankingu Notable Skill Leaderboard.

To sprawia, że ​​te konwencjonalne punkty odniesienia są mniej istotne.

Według kwietniowego raportu AI Index Uniwersytetu Stanforda wydaje się, że sztuczna inteligencja słabo radzi sobie w rzadziej stosowanych testach, które obejmują formułowanie planów i łamigłówki z wizualnym rozpoznawaniem wzorców. Na przykład OpenAI o1 uzyskał około 21% w jednej z wersji testu rozpoznawania wzorców ARC-AGI, jak podali w piątek organizatorzy ARC.

Niektórzy badacze sztucznej inteligencji argumentują, że takie wyniki wskazują na planowanie i abstrakcyjne rozumowanie jako lepsze wskaźniki inteligencji, chociaż Hendricks stwierdził, że wizualny aspekt ARC sprawia, że ​​jest on mniej przydatny do oceny wzorców językowych. „Ostateczny egzamin ludzkości” będzie wymagał abstrakcyjnego rozumowania, powiedział.

Obserwatorzy branżowi stwierdzili, że odpowiedzi ze wspólnych testów porównawczych mogły znaleźć się w danych wykorzystywanych do szkolenia systemów sztucznej inteligencji. Hendricks powiedział, że niektóre pytania dotyczące „Ostatniego egzaminu ludzkości” pozostaną prywatne, aby mieć pewność, że systemy sztucznej inteligencji nie zapamiętają odpowiedzi.

Egzamin będzie zawierał co najmniej 1000 pytań pochodzących z crowdsourcingu, które zostaną przesłane 1 listopada i które będą trudne do odpowiedzi dla osób niebędących ekspertami. Zostaną one poddane wzajemnej ocenie, a zwycięskie zgłoszenia zaoferują współautorstwo i nagrody o wartości do 5000 dolarów ufundowane przez Scale AI.

„Desperacko potrzebujemy bardziej rygorystycznych testów modelowych na poziomie eksperckim, aby ocenić szybki postęp sztucznej inteligencji” – powiedział Alexander Wang, dyrektor generalny Scale.

Jedno ograniczenie: organizatorzy nie chcą pytań na temat broni, która według niektórych jest zbyt niebezpieczna dla sztucznej inteligencji.

Jeszcze jedno! Jesteśmy teraz na kanałach WhatsApp! Śledź nas, aby nigdy nie przegapić żadnych aktualizacji ze świata technologii. Aby śledzić kanał HT Tech na WhatsApp, kliknij Tutaj dołącz teraz!

Zrodlo