W miarę narastania szumu wokół generatywnej sztucznej inteligencji potrzeba wprowadzenia solidnych przepisów bezpieczeństwa staje się coraz bardziej wyraźna.
Teraz Anthropic – firma stojąca za Claude AI – przygląda się, w jaki sposób jej modele mogłyby oszukać lub sabotować użytkowników. Anthropic właśnie upuścił gazetę przedstawiając swoje podejście.
Sam Altman ustępuje ze stanowiska szefa grupy ds. bezpieczeństwa OpenAI
Antropiczne najnowsze badania — zatytułowany „Oceny sabotażu dla modeli granicznych” — pochodzi od zespołu Alignment Science, kierującego się polityką firmy „Odpowiedzialne skalowanie”.
Celem jest sprawdzenie, na ile zdolna sztuczna inteligencja może wprowadzać użytkowników w błąd, a nawet „obalać systemy, które wprowadziliśmy, aby ich nadzorować”. Badanie skupia się na czterech konkretnych taktykach: sabotaż decyzji ludzkich, sabotaż kodu, worki z piaskiem i podważanie nadzoru.
Pomyśl o użytkownikach, którzy maksymalnie wykorzystują ChatGPT, próbując nakłonić go do generowania nieodpowiednich treści lub obrazów graficznych. Celem tych testów jest upewnienie się, że sztucznej inteligencji nie da się oszukać i złamać jej własnych zasad.
Zmienna prędkość światła
W artykule Anthropic twierdzi, że jego celem jest przygotowanie się na możliwość ewolucji sztucznej inteligencji w coś o niebezpiecznych możliwościach. Dlatego poddali swoje modele Claude 3 Opus i 3.5 Sonnet serii testów mających na celu ocenę i udoskonalenie ich protokołów bezpieczeństwa.
Test decyzji ludzkiej skupiał się na badaniu, w jaki sposób sztuczna inteligencja może potencjalnie manipulować ludzkim procesem decyzyjnym. W drugim teście, Code Sabotage, sprawdzano, czy sztuczna inteligencja może subtelnie wprowadzać błędy do kodujących baz danych. Silniejsze modele sztucznej inteligencji w rzeczywistości doprowadziły do silniejszych zabezpieczeń przed tego rodzaju lukami.
Pozostałe testy — Worki z piaskiem i Podważanie nadzoru — sprawdzały, czy sztuczna inteligencja może ukryć swoje prawdziwe możliwości lub ominąć mechanizmy bezpieczeństwa wbudowane w system.
Na razie z badania Anthropic wynika, że obecne modele sztucznej inteligencji stwarzają niskie ryzyko, przynajmniej pod względem tych złośliwych możliwości.
„Minimalne środki łagodzące są obecnie wystarczające, aby zaradzić ryzyku sabotażu” – pisze zespół, ale „wydaje się, że bardziej realistyczne oceny i silniejsze środki łagodzące będą konieczne, gdy tylko poprawią się możliwości”.
Tłumaczenie: uważaj, świecie.
Tematy
Cyberbezpieczeństwo sztucznej inteligencji