Narzędzie do sprawdzania aktu UE dotyczącego sztucznej inteligencji ujawnia pułapki związane z przestrzeganiem przepisów przez Big Tech

Według danych Reuters niektóre z najważniejszych modeli sztucznej inteligencji nie spełniają europejskich przepisów w kluczowych obszarach, takich jak odporność na cyberbezpieczeństwo i skutki dyskryminacji.

UE od dawna debatowała nad nowymi przepisami dotyczącymi sztucznej inteligencji, zanim OpenAI udostępniło publicznie ChatGPT pod koniec 2022 r. Rekordowa popularność i wynikająca z niej debata publiczna na temat rzekomych zagrożeń egzystencjalnych takich modeli skłoniła prawodawców do opracowania szczegółowych przepisów dotyczących sztucznej inteligencji „ogólnego przeznaczenia” (GPAI).

Teraz nowe narzędzie zaprojektowane przez szwajcarski start-up LatticeFlow i partnerów i wspierane przez urzędników Unii Europejskiej przetestowało modele generatywnej sztucznej inteligencji opracowane przez duże firmy technologiczne, takie jak Meta i OpenAI, w kilkudziesięciu kategoriach zgodnie z szeroko zakrojoną ustawą o sztucznej inteligencji obowiązującą w bloku. wchodzić w życie etapami w ciągu najbliższych dwóch lat.

Przyznając każdemu modelowi ocenę od 0 do 1, ranking opublikowany w środę przez LatticeFlow pokazał, że wszystkie modele opracowane przez Alibaba, Anthropic, OpenAI, Meta i Mistral uzyskały średnie oceny 0,75 lub więcej.

Jednakże firmowe narzędzie „Large Language Model (LLM) Checker” ujawniło niedociągnięcia niektórych modeli w kluczowych obszarach, wskazując obszary, w których firmy mogą być zmuszone przekierować zasoby, aby zapewnić zgodność.

Firmom, które nie zastosują się do ustawy o sztucznej inteligencji, grożą kary w wysokości 35 milionów euro (38 milionów dolarów) lub 7% światowego rocznego obrotu.

Mieszane wyniki

Obecnie UE nadal próbuje ustalić, w jaki sposób będą egzekwowane przepisy ustawy o sztucznej inteligencji dotyczące generatywnych narzędzi sztucznej inteligencji, takich jak ChatGPT, zbierając ekspertów w celu opracowania kodeksu postępowania regulującego tę technologię do wiosny 2025 r.

Jednak test LatticeFlow, opracowany we współpracy z naukowcami ze szwajcarskiego uniwersytetu ETH w Zurychu i bułgarskiego instytutu badawczego INSAIT, zapewnia wczesny wskaźnik konkretnych obszarów, w których firmy technologiczne mogą nie przestrzegać prawa.

Na przykład dyskryminacja stanowi stały problem w rozwoju generatywnych modeli sztucznej inteligencji, odzwierciedlając ludzkie uprzedzenia dotyczące płci, rasy i innych obszarów, gdy zostanie o to poproszony.

Podczas testowania wyników dyskryminujących LLM Checker LatticeFlow przyznał „GPT-3.5 Turbo” OpenAI stosunkowo niski wynik 0,46. W tej samej kategorii model „Qwen1.5 72B Chat” Alibaba Cloud otrzymał zaledwie 0,37.

Testując pod kątem „szybkiego porwania”, czyli rodzaju cyberataku, w którym hakerzy ukrywają złośliwą zachętę jako uzasadnioną w celu wydobycia poufnych informacji, LLM Checker przyznał modelowi Meta „Llama 2 13B Chat” wynik 0,42. W tej samej kategorii model „8x7B Instruct” francuskiego startupu Mistral otrzymał 0,38.

„Claude 3 Opus”, model opracowany przez wspieraną przez Google firmę Anthropic, uzyskał najwyższą średnią ocenę 0,89.

Test został zaprojektowany zgodnie z tekstem ustawy o sztucznej inteligencji i zostanie rozszerzony o dalsze środki egzekwowania prawa w miarę ich wprowadzania. LatticeFlow twierdzi, że narzędzie LLM Checker będzie bezpłatnie dostępne dla programistów w celu sprawdzenia zgodności ich modeli w Internecie.

Petar Tsankov, dyrektor generalny i współzałożyciel firmy, powiedział agencji Reuters, że wyniki testów były ogólnie pozytywne i przedstawił firmom plan działania pozwalający na udoskonalenie ich modeli zgodnie z ustawą o sztucznej inteligencji.

„UE wciąż opracowuje wszystkie kryteria zgodności, ale już widzimy pewne luki w modelach” – powiedział. „Uważamy, że dzięki większemu skupieniu się na optymalizacji pod kątem zgodności dostawcy modeli mogą być dobrze przygotowani do spełnienia wymogów prawnych”.

Meta odmówił komentarza. Alibaba, Anthropic, Mistral i OpenAI nie odpowiedziały natychmiast na prośby o komentarz.

Chociaż Komisja Europejska nie może weryfikować narzędzi zewnętrznych, organ ten był informowany na każdym etapie prac nad LLM Checker i określił to jako „pierwszy krok” we wdrażaniu nowych przepisów.

Rzecznik Komisji Europejskiej powiedział: „Komisja z zadowoleniem przyjmuje to badanie i platformę oceny modeli sztucznej inteligencji jako pierwszy krok w przełożeniu unijnej ustawy o sztucznej inteligencji na wymagania techniczne”.

© Thomson Reuters 2024

Zrodlo