Anthropic testuje zdolność sztucznej inteligencji do sabotażu

21 October 2024

W miarę narastania szumu wokół generatywnej sztucznej inteligencji potrzeba wprowadzenia solidnych przepisów bezpieczeństwa staje się coraz bardziej wyraźna.

Teraz Anthropic – firma stojąca za Claude AI – przygląda się, w jaki sposób jej modele mogłyby oszukać lub sabotować użytkowników. Anthropic właśnie upuścił gazetę przedstawiając swoje podejście.

ZOBACZ TAKŻE:

Sam Altman ustępuje ze stanowiska szefa grupy ds. bezpieczeństwa OpenAI

Antropiczne najnowsze badania — zatytułowany „Oceny sabotażu dla modeli granicznych” — pochodzi od zespołu Alignment Science, kierującego się polityką firmy „Odpowiedzialne skalowanie”.

Celem jest sprawdzenie, na ile zdolna sztuczna inteligencja może wprowadzać użytkowników w błąd, a nawet „obalać systemy, które wprowadziliśmy, aby ich nadzorować”. Badanie skupia się na czterech konkretnych taktykach: sabotaż decyzji ludzkich, sabotaż kodu, worki z piaskiem i podważanie nadzoru.

Pomyśl o użytkownikach, którzy maksymalnie wykorzystują ChatGPT, próbując nakłonić go do generowania nieodpowiednich treści lub obrazów graficznych. Celem tych testów jest upewnienie się, że sztucznej inteligencji nie da się oszukać i złamać jej własnych zasad.

Zmienna prędkość światła

W artykule Anthropic twierdzi, że jego celem jest przygotowanie się na możliwość ewolucji sztucznej inteligencji w coś o niebezpiecznych możliwościach. Dlatego poddali swoje modele Claude 3 Opus i 3.5 Sonnet serii testów mających na celu ocenę i udoskonalenie ich protokołów bezpieczeństwa.

Test decyzji ludzkiej skupiał się na badaniu, w jaki sposób sztuczna inteligencja może potencjalnie manipulować ludzkim procesem decyzyjnym. W drugim teście, Code Sabotage, sprawdzano, czy sztuczna inteligencja może subtelnie wprowadzać błędy do kodujących baz danych. Silniejsze modele sztucznej inteligencji w rzeczywistości doprowadziły do silniejszych zabezpieczeń przed tego rodzaju lukami.

Pozostałe testy — Worki z piaskiem i Podważanie nadzoru — sprawdzały, czy sztuczna inteligencja może ukryć swoje prawdziwe możliwości lub ominąć mechanizmy bezpieczeństwa wbudowane w system.

Na razie z badania Anthropic wynika, że obecne modele sztucznej inteligencji stwarzają niskie ryzyko, przynajmniej pod względem tych złośliwych możliwości.

„Minimalne środki łagodzące są obecnie wystarczające, aby zaradzić ryzyku sabotażu” – pisze zespół, ale „wydaje się, że bardziej realistyczne oceny i silniejsze środki łagodzące będą konieczne, gdy tylko poprawią się możliwości”.

Tłumaczenie: uważaj, świecie.

Tematy
Cyberbezpieczeństwo sztucznej inteligencji

Zrodlo