Apple wypuszcza Depth Pro, model sztucznej inteligencji o otwartym kodzie źródłowym do jednoocznego szacowania głębokości

Firma Apple wypuściła w tym roku kilka modeli sztucznej inteligencji (AI) typu open source. Są to przeważnie małe modele językowe przeznaczone do konkretnego zadania. Dodając do tej listy, gigant technologiczny z Cupertino wypuścił teraz nowy model AI nazwany Depth Pro. Jest to model wizyjny, który może generować jednooczne mapy głębi dowolnego obrazu. Technologia ta jest przydatna w generowaniu tekstur 3D, rzeczywistości rozszerzonej (AR) i nie tylko. Naukowcy realizujący projekt twierdzą, że mapy głębi generowane przez sztuczną inteligencję są lepsze niż te generowane za pomocą wielu kamer.

Apple wypuszcza model Depth Pro AI

Oszacowanie głębokości jest ważnym procesem w modelowaniu 3D, a także w różnych innych technologiach, takich jak AR, autonomiczne systemy jazdy, robotyka i nie tylko. Ludzkie oko to złożony układ soczewek, który może dokładnie ocenić głębokość obiektów, nawet obserwując je z perspektywy jednego punktu. Jednak kamery nie radzą sobie z tym zbyt dobrze. Zdjęcia wykonane jednym aparatem sprawiają wrażenie dwuwymiarowych, usuwając głębię z równania.

Zatem w przypadku technologii, w których głębokość obiektu odgrywa ważną rolę, stosuje się wiele kamer. Jednak modelowanie takich obiektów może być czasochłonne i wymagać dużych zasobów. Zamiast tego w artykuł badawczy zatytułowany „Depth Pro: ostra jednooczna głębokość metryczna w mniej niż sekundę” firma Apple podkreśliła, w jaki sposób wykorzystała oparty na wizji model sztucznej inteligencji do wygenerowania map głębokości zerowej jednoocznych obrazów obiektów.

Jak model Depth Pro AI generuje mapy głębi
Źródło zdjęcia: Apple

Aby opracować model sztucznej inteligencji, badacze wykorzystali architekturę opartą na transformatorze wizyjnym (ViT). Wybrano rozdzielczość wyjściową 384 x 384, ale rozdzielczość wejściową i przetwarzania utrzymano na poziomie 1536 x 1536, co zapewniło modelowi AI więcej miejsca na zrozumienie szczegółów.

W przeddrukowanej wersji artykułu, która jest obecnie publikowana w czasopiśmie internetowym arXiv, naukowcy stwierdzili, że model sztucznej inteligencji może teraz dokładnie generować mapy głębi wizualnie złożonych obiektów, takich jak klatka, ciało i wąsy futrzanego kota oraz więcej. Mówi się, że czas generowania wynosi jedną sekundę. Wagi modelu sztucznej inteligencji typu open source są obecnie przechowywane w GitHub wymienianie kolejno. Zainteresowane osoby mogą uruchomić model na podstawie pojedynczego procesora graficznego.

Zrodlo