Badanie Apple ujawnia poważną wadę sztucznej inteligencji w OpenAI, Google i Meta LLM

Według a badanie od badaczy Apple.

LLM z OpenAI, Google, Meta i innych osób są chwalone za imponujące umiejętności rozumowania. Jednak badania sugerują, że ich rzekoma inteligencja może być bliższa „wyrafinowanemu dopasowywaniu wzorców” niż „prawdziwemu logicznemu rozumowaniu”. Tak, nawet zaawansowany model rozumowania o1 OpenAI.

Najpopularniejszym testem umiejętności rozumowania jest test o nazwie GSM8K, ale ze względu na jego popularność istnieje ryzyko skażenia danych. Oznacza to, że osoby z wykształceniem wyższym mogą znać odpowiedzi na test, ponieważ zostali przeszkoleni w zakresie tych odpowiedzi, a nie ze względu na wrodzoną inteligencję.

ZOBACZ TAKŻE:

Wartość finansowania OpenAI wycenia firmę na 157 miliardów dolarów

Aby to sprawdzić, w badaniu opracowano nowy test porównawczy o nazwie GSM-Symbolic, który zachowuje istotę problemów z rozumowaniem, ale zmienia zmienne, takie jak nazwy, liczby, złożoność i dodaje nieistotne informacje. Odkryli zaskakującą „kruchość” wyników LLM. W badaniu przetestowano ponad 20 modeli, w tym o1 i GPT-4o OpenAI, Gemma 2 firmy Google i Llama 3 firmy Meta. Z każdym pojedynczym modelem jego wydajność spadała wraz ze zmianą zmiennych.

Dokładność spadła o kilka punktów procentowych po zmianie nazw i zmiennych. Jak zauważyli naukowcy, modele OpenAI działały lepiej niż inne modele open source. Jednakże odchylenie uznano za „nieistotne”, co oznacza, że ​​żadna rzeczywista rozbieżność nie powinna wystąpić. Jednak sytuacja stała się naprawdę interesująca, gdy badacze dodali do tej mieszanki „pozornie istotne, ale ostatecznie nieistotne stwierdzenia”.

Zmienna prędkość światła

ZOBACZ TAKŻE:

Wyciek sugeruje, że bezpłatna aktualizacja Apple Intelligence prawdopodobnie wkrótce się pojawi

Aby przetestować hipotezę, że LLM opierają się bardziej na dopasowywaniu wzorców niż na rzeczywistym rozumowaniu, w badaniu dodano niepotrzebne wyrażenia do problemów matematycznych, aby zobaczyć, jak zareagują modele. Na przykład: „Oliver zbiera 44 kiwi w piątek. Następnie w sobotę zbiera 58 kiwi. W niedzielę zbiera dwukrotnie więcej kiwi niż w piątek, ale pięć z nich było nieco mniejszych od przeciętnych. Ile kiwi ma Oliver?”

Konsekwencją tego był znaczny spadek wydajności we wszystkich obszarach. Najlepiej wypadła wersja o1 Preview OpenAI, ze spadkiem dokładności o 17,5%. To wciąż całkiem nieźle, ale nie tak źle, jak model Phi 3 Microsoftu, który spisał się o 65 procent gorzej.

ZOBACZ TAKŻE:

ChatGPT-4, Gemini, MistralAI i inne łączą siły w tym osobistym narzędziu AI

W przypadku kiwi z badania wynika, że ​​osoby LLM zwykle odejmują od równania pięć mniejszych kiwi, nie rozumiejąc, że rozmiar kiwi nie ma znaczenia dla problemu. Wskazuje to, że „modele mają tendencję do przekształcania stwierdzeń w operacje bez prawdziwego zrozumienia ich znaczenia”, co potwierdza hipotezę badaczy, że osoby uczące się LLM szukają wzorców w problemach z rozumowaniem, a nie wewnętrznie rozumieją tę koncepcję.

W badaniu nie przebierano w słowach na temat swoich ustaleń. Testowanie modeli na poziomie porównawczym, który zawiera nieistotne informacje, „ukazuje krytyczną wadę w zdolności LLM do prawdziwego rozumienia pojęć matematycznych i dostrzegania informacji istotnych dla rozwiązywania problemów”. Warto jednak wspomnieć, że autorzy tego badania pracują dla Apple, które jest oczywiście głównym konkurentem Google, Meta, a nawet OpenAI — chociaż Apple i OpenAI współpracują, Apple pracuje również nad własnymi modelami sztucznej inteligencji.

To powiedziawszy, nie można ignorować widocznego braku umiejętności formalnego rozumowania wśród uczniów LLM. Ostatecznie jest to dobre przypomnienie, aby złagodzić szum wokół sztucznej inteligencji zdrowym sceptycyzmem.

Tematy
Sztuczna inteligencja Apple



Zrodlo