OpenAI, wiodąca firma zajmująca się badaniami i wdrażaniem sztucznej inteligencji, ujawniła wprowadzenie GPT-4 Turbo z Vision w swoim popularnym chatbocie AI ChatGPT. To ulepszenie jest również dostępne za pośrednictwem interfejsu programowania aplikacji (API). Dzięki tej aktualizacji użytkownicy posiadający płatne konta w ChatGPT mogą teraz wprowadzać obrazy, aby otrzymywać odpowiedzi. Zanurzmy się w nowo wprowadzonym GPT-4 Turbo z możliwościami Vision.
GPT-4 Turbo z wizją: co nowego?
Najnowsza wersja, GPT-4 Turbo, może poszczycić się pojemnością do 128 000 tokenów, co stanowi znaczący skok w porównaniu z 8-krotnym wzrostem w porównaniu z GPT-3.5 Turbo. Tokeny służą jako fragmenty danych wprowadzanych do modelu w celu przetworzenia. Ten zaktualizowany model obejmuje informacje do grudnia poprzedniego roku, dzięki czemu użytkownicy otrzymują bardziej trafne i aktualne odpowiedzi.
Przeczytaj także: WhatsApp uruchamia chatbota Meta AI dla niektórych użytkowników w Indiach: co to jest i jak z niego korzystać
Według oficjalnego wpisu na blogu OpenAI „GPT-4 Turbo with Vision umożliwia modelowi interpretację obrazów i zapewnianie powiązanych odpowiedzi”. Dodatkowo może obsługiwać wprowadzanie multimediów za pośrednictwem Uniform Resource Locator (URL). Pomimo tego, że jest to najbardziej zaawansowana technologia opracowana przez firmę, GPT-4 Turbo ma pewne ograniczenia.
Przeczytaj także: Alphabet ustanawia nowy rekord – inwestorzy są zadowoleni z postępu Google w zakresie sztucznej inteligencji
Ograniczenia i zakres
OpenAI wyjaśnia, że poprawna analiza obrazów medycznych, takich jak tomografia komputerowa, obrazy zawierające tekst w języku innym niż angielski lub mały tekst, grafika, tekst stylizowany, obrazy panoramiczne lub typu „rybie oko” i inne, wyjaśnia, że model może mieć trudności z prawidłową analizą obrazów medycznych. Ponadto system nie jest przystosowany do obsługi znaków CAPTCHA. Użytkownicy mogą przesyłać pliki obrazów w formatach PNG (.png), JPEG (.jpeg i .jpg), WEBP (.webp) i nieanimowanych GIF (.gif) z limitem rozmiaru 20 MB na obraz.
Przeczytaj także: Google dodaje dwa nowe modele sztucznej inteligencji do swojej rodziny LLM Gemma – dlaczego to ma znaczenie
„Automatycznie usuniemy obraz po przetworzeniu go przez model” – zapewnia OpenAI. Oprócz możliwości przetwarzania obrazu, GPT-4 Turbo oferuje także takie funkcje, jak tworzenie stron internetowych od podstaw, pomoc w kodowaniu i wiele innych. Dostęp do GPT-4 Turbo jest przyznawany użytkownikom ChatGPT Plus, a ceny subskrypcji w Indiach zaczynają się od 20 dolarów miesięcznie (około 1660 rupii).