W nowym artykule badawczym stwierdzono, że GPT-4 może przewyższyć analityków ludzkich, jeśli chodzi o przewidywanie przyszłości na podstawie analizy sprawozdań finansowych. Artykuł, który został opublikowany w czasopiśmie preprint, wykazał w swoich testach, że GPT-4 dał lepsze wyniki w porównaniu z ludzkimi odpowiednikami w krótkim okresie (od jednego miesiąca do sześciu miesięcy). Osiągnął dokładność swoich przewidywań na poziomie 60,31% w porównaniu z 56,7% analityków. W artykule nie sugerowano jednak, że model sztucznej inteligencji może zastąpić człowieka.
Cel pracy badawczej
Opublikowano w czasopiśmie Social Science Research Network (SSRN) na 54 stronach papier pod tytułem „Analiza sprawozdań finansowych za pomocą modeli wielkojęzycznych” podjęto próbę poznania roli, jaką konwencjonalne modele sztucznej inteligencji (AI) mogą odegrać w analizie sprawozdań finansowych organizacji i przewidywaniu jej wyników na giełdzie w najbliższej przyszłości.
Taka analiza zawsze była uważana za bardzo skomplikowaną, ponieważ na wyniki przedsiębiorstw może wpływać szeroki zakres czynników. Chociaż niektóre firmy finansowe korzystają ze sztucznych sieci neuronowych (ANN), aby pomóc indywidualnym osobom w analizach, nie wykorzystano w tym celu dużych modeli językowych (LLM). Naukowcy chcieli sprawdzić, czy najnowocześniejszy (SOTA) LLM, taki jak GPT-4, może być cennym dodatkiem do tego, czy nie.
Co odkrył artykuł badawczy GPT-4?
Badacze wykorzystali zanonimizowane i ustandaryzowane sprawozdania finansowe przedsiębiorstw według GPT-4 (aby zapobiec stronniczości wynikającej ze wzmianki o nazwie firmy). Następnie badacze wykorzystali dwie metody do przetestowania możliwości LLM. Pierwszym było zaprojektowanie prostego podpowiedzi, która kierowała chatbotem do analizy wypowiedzi i przewidywania przyszłych zarobków. Drugim było zastosowanie podpowiedzi „łańcucha myślenia” (CoT), która nauczyła model sztucznej inteligencji naśladowania analityków finansowych.
Metoda CoT wymagała od GPT-4 zidentyfikowania znaczących trendów, obliczenia kluczowych wskaźników finansowych i sformułowania oczekiwań co do przyszłych zysków. Chociaż proste podpowiedzi nie przyniosły godnych uwagi wyników, podpowiedzi CoT osiągnęły 60,31%, czyli więcej niż przeciętny wynik ludzkiego analityka.
„Odkryliśmy, że LLM przoduje w zadaniach ilościowych, które wymagają intuicji i rozumowania na poziomie ludzkim. Możliwość wykonywania zadań w różnych dziedzinach wskazuje na pojawienie się sztucznej inteligencji ogólnej” – stwierdzono w artykule.
Badacze jednak szybko zwrócili uwagę, że analitycy GPT i analitycy ludzcy uzupełniają się, a nie zastępują tych pierwszych. W artykule stwierdzono w szczególności, że LLM mają przewagę w obszarach, w których ludzie mają tendencję do okazywania uprzedzeń i niezgody. Podobnie ludzie wnoszą wartość dodaną, gdy analiza wymaga dodatkowych informacji kontekstowych, które prawdopodobnie nie będą dostępne w danych finansowych.