Według doniesień narzędzie do transkrypcji OpenAI dodaje halucynacyjne treści do dokumentacji konsultacji medycznych

OpenAI wypuściło w 2022 roku narzędzie sztucznej inteligencji (AI) o nazwie Whisper, które może transkrybować mowę na tekst. Jednak w raporcie stwierdzono, że narzędzie AI jest podatne na halucynacje i dodaje wyimaginowany tekst do transkrypcji. Jest to niepokojące, ponieważ mówi się, że narzędzie to jest wykorzystywane w kilku branżach wysokiego ryzyka, takich jak medycyna i dostępność. Według doniesień szczególne obawy budzi stosowanie tego narzędzia podczas konsultacji lekarz-pacjent, podczas których halucynacje mogą dostarczyć potencjalnie szkodliwych informacji i narazić życie pacjenta.

OpenAI Whisper podobno ma skłonność do halucynacji

Associated Press zgłoszone że system automatycznego rozpoznawania mowy (ASR) OpenAI Whisper ma duży potencjał generowania halucynacyjnego tekstu. Powołując się na wywiady z wieloma inżynierami oprogramowania, programistami i badaczami akademickimi, w publikacji stwierdzono, że wyimaginowany tekst zawiera opisy rasowe, przemoc oraz metody leczenia i leki.

Halucynacje, w żargonie sztucznej inteligencji, to poważny problem, który powoduje, że systemy sztucznej inteligencji generują odpowiedzi, które są nieprawidłowe lub wprowadzające w błąd. W przypadku Whisper mówi się, że sztuczna inteligencja wymyśla tekst, którym nikt nigdy nie mówił.

W przykładzie zweryfikowanym przez publikację zdanie mówiącego: „On, chłopiec, miał, nie jestem pewien, dokładnie, wziąć parasolkę”. zmieniono na „Wziął duży kawałek krzyża, malutki, mały kawałek… Jestem pewien, że nie miał noża terroru, więc zabił wiele osób”. W innym przypadku Whisper podobno dodał informacje rasowe bez żadnej wzmianki o tym.

Chociaż halucynacje nie są nowym problemem w przestrzeni sztucznej inteligencji, problem związany z tym konkretnym narzędziem ma większe znaczenie, ponieważ technologia open source jest wykorzystywana w kilku narzędziach wykorzystywanych w branżach wysokiego ryzyka. Na przykład Nabla z siedzibą w Paryżu stworzyła narzędzie oparte na szeptach, z którego według doniesień korzysta ponad 30 000 lekarzy i 40 systemów opieki zdrowotnej.

Narzędzie Nabli zostało użyte do transkrypcji ponad siedmiu milionów wizyt lekarskich. Aby zachować bezpieczeństwo danych, firma usuwa również oryginalne nagranie ze swoich serwerów. Oznacza to, że jeśli w tych siedmiu milionach transkrypcji wygenerowano jakikolwiek halucynacyjny tekst, nie da się go zweryfikować i poprawić.

Kolejnym obszarem, w którym technologia jest wykorzystywana, jest tworzenie narzędzi dostępności dla społeczności niesłyszących i niedosłyszących, gdzie ponownie weryfikacja dokładności narzędzia jest znacznie utrudniona. Mówi się, że większość halucynacji jest generowana przez dźwięki tła, nagłe pauzy i inne dźwięki otoczenia.

Niepokojąca jest także skala problemu. W publikacji, powołując się na badacza, stwierdzono, że osiem na dziesięć transkrypcji audio zawierało halucynacyjny tekst. Deweloper powiedział publikacji, że halucynacje występowały „w każdym z 26 000 transkrypcji, które stworzył za pomocą Whisper”.

Warto zauważyć, że przy początek z Whisper, OpenAI stwierdziło, że Whisper oferuje odporność na poziomie ludzkim na akcenty, hałas w tle i język techniczny. Rzecznik firmy powiedział publikacji, że firma zajmująca się sztuczną inteligencją stale bada sposoby ograniczania halucynacji i obiecał uwzględnić opinie w przyszłych aktualizacjach modeli.

Zrodlo