Mistral ogłasza Pixtral 12B Multimodalny Model AI z funkcją „Wizji Komputerowej”

Mistral wydał w środę swój pierwszy multimodalny model sztucznej inteligencji (AI) nazwany Pixtral 12B. Firma AI, znana z modeli dużych języków (LLM) typu open source, udostępniła również najnowszy model AI na GitHub i Hugging Face do pobrania i przetestowania przez użytkowników. Co ciekawe, pomimo bycia multimodalnym, Pixtral może przetwarzać obrazy tylko za pomocą technologii komputerowego widzenia i odpowiadać na zapytania o nie. Do tej funkcjonalności dodano dwa specjalne enkodery. Nie może generować obrazów, takich jak modele Stable Diffusion lub Generative Adversarial Networks (GAN) Midjourney.

Mistral wypuszcza Pixtral 12B

Zyskując reputację minimalistycznego konta Mistral na X (dawniej znanego jako Twitter), oficjalne konto firmy udostępniło model sztucznej inteligencji w post udostępniając swój link magnet. Całkowity rozmiar pliku Pixtral 12B wynosi 24 GB i do uruchomienia modelu będzie potrzebny komputer z obsługą NPU lub z wydajnym procesorem graficznym.

Pixtral 12B ma 12 miliardów parametrów i został zbudowany przy użyciu istniejącego modelu Nemo 12B AI firmy. Użytkownicy Mistral będą również potrzebować Gaussian Error Linear Unit (GeLU) jako adaptera wizyjnego i 2D Rotary Position Embedding (RoPE) jako enkodera wizyjnego.

Warto zauważyć, że użytkownicy mogą przesyłać pliki obrazów lub adresy URL do Pixtral 12B, a model ten powinien być w stanie odpowiadać na zapytania dotyczące obrazu, takie jak identyfikacja obiektów, liczenie obiektów i udostępnianie dodatkowych informacji. Ponieważ jest zbudowany na Nemo, model będzie również biegły w wykonywaniu wszystkich typowych zadań opartych na tekście.

Użytkownik Reddita Opublikowano obraz wyników benchmarkingu Pixtral 12B, z którego wynika, że ​​LLM przewyższa Claude-3 Haiku i Phi-3 Vision pod względem możliwości multimodalnych w teście ChartQA. Wyprzedza również oba konkurencyjne modele AI w teście Massive Multitask Language Understanding (MMLU) pod względem wiedzy multimodalnej i rozumowania.

Cytując rzecznika firmy, TechCrunch raporty że model Mistral AI można dostroić i używać na licencji Apache 2.0. Oznacza to, że wyniki z modelu można wykorzystywać do użytku osobistego lub komercyjnego bez ograniczeń. Ponadto Sophia Yang, Head of Developer Relations w Mistral, wyjaśniła w post że Pixtral 12B wkrótce będzie dostępny na Le Chat i Le Platforme.

Na razie użytkownicy mogą bezpośrednio pobrać model AI za pomocą łącza magnet udostępnionego przez firmę. Alternatywnie, wagi modelu zostały również hostowany na Hugging Face i GitHub oferty.

Zrodlo