Uprzedzenia i stereotypy w pierwszej osobie ChatGPT przetestowane w nowym badaniu OpenAI

ChatGPT, podobnie jak inne chatboty oparte na sztucznej inteligencji (AI), może wprowadzać uprzedzenia i szkodliwe stereotypy podczas generowania treści. W przeważającej części firmy skupiły się na eliminowaniu uprzedzeń związanych z osobami trzecimi w przypadku poszukiwania informacji o innych osobach. Jednak w nowym badaniu opublikowanym przez OpenAI firma przetestowała błędy pierwszoosobowe w swoich modelach sztucznej inteligencji, w ramach których sztuczna inteligencja decydowała, co wygenerować, na podstawie pochodzenia etnicznego, płci i rasy użytkownika. Na podstawie badania firma zajmująca się sztuczną inteligencją twierdzi, że ChatGPT ma bardzo niską skłonność do generowania uprzedzeń pierwszoosobowych.

OpenAI publikuje badanie na temat uprzedzeń w pierwszej osobie w ChatGPT

Uprzedzenia pierwszoosobowe różnią się od dezinformacji trzecioosobowej. Na przykład, jeśli użytkownik pyta o osobę polityczną lub gwiazdę, a model sztucznej inteligencji generuje tekst zawierający stereotypy na podstawie płci lub pochodzenia etnicznego danej osoby, można to nazwać uprzedzeniami trzeciej osoby.

Z drugiej strony, jeśli użytkownik powie AI swoje imię, a chatbot zmieni sposób, w jaki reaguje na użytkownika w oparciu o jego preferencje rasowe lub płciowe, będzie to oznaczać stronniczość pierwszoosobową. Na przykład, jeśli kobieta pyta sztuczną inteligencję o pomysł na kanał YouTube i poleca kanał poświęcony gotowaniu lub makijażowi, można to uznać za stronniczość pierwszoosobową.

w wpis na bloguOpenAI szczegółowo opisał swoje badanie i podkreśliło ustalenia. Firma zajmująca się sztuczną inteligencją wykorzystała wersje ChatGPT-4o i ChatGPT 3.5, aby sprawdzić, czy chatboty generują stronnicze treści na podstawie imion i dostarczonych im dodatkowych informacji. Firma twierdziła, że ​​przeanalizowano odpowiedzi modeli sztucznej inteligencji z milionów prawdziwych rozmów w celu znalezienia wzorca obrazującego takie trendy.

W jaki sposób LMRA miała za zadanie ocenić błędy systematyczne w generowanych odpowiedziach
Źródło zdjęcia: OpenAI

Duży zbiór danych następnie udostępniono asystentowi ds. badań nad modelem językowym (LMRA), dostosowanemu do potrzeb modelowi sztucznej inteligencji zaprojektowanemu do wykrywania wzorców stereotypów i uprzedzeń pierwszoosobowych, a także osób oceniających. Skonsolidowany wynik powstał na podstawie tego, jak bardzo LMRA mogła zgodzić się z ustaleniami osób oceniających.

OpenAI stwierdziło, że badanie wykazało, że uprzedzenia związane z płcią, rasą lub pochodzeniem etnicznym w nowszych modelach sztucznej inteligencji wynosiły zaledwie 0,1%, podczas gdy w starszych modelach w niektórych domenach wynosiły około 1%.

Firma zajmująca się sztuczną inteligencją wymieniła również ograniczenia badania, powołując się na to, że skupiało się ono głównie na interakcjach w języku angielskim i binarnych skojarzeniach płci w oparciu o imiona pospolite występujące w USA. W badaniu skupiono się także głównie na rasach i grupach etnicznych rasy czarnej, azjatyckiej, latynoskiej i białej. OpenAI przyznało, że należy włożyć więcej pracy w inne dane demograficzne, języki i konteksty kulturowe.

Zrodlo