Zdaniem niektórych sokolich detektywów, długo oczekiwane możliwości wizyjne ChatGPT mogą już wkrótce zostać udostępnione.
Władze Androida zauważyłem kilka wierszy kodu w części zaawansowanego trybu głosowego najnowszej wersji beta ChatGPT v1.2024.317, które wskazują na coś, co nazywa się „Kamera na żywo”. Kod wydaje się stanowić ostrzeżenie dla użytkowników, aby nie używali kamery Live „do nawigacji na żywo lub podejmowania decyzji, które mogą mieć wpływ na Twoje zdrowie lub bezpieczeństwo”.
Kolejna linia kodu wydaje się zawierać instrukcje dotyczące możliwości widzenia, mówiąc: „Dotknij ikony aparatu, aby ChatGPT mógł przeglądać i rozmawiać o swoim otoczeniu”.
Zmienna prędkość światła
Aktualizacje ChatGPT dla Windows i macOS: wszystko, co musisz wiedzieć
Rozwijające się możliwości ChatGPT: wizja, głos i nie tylko
Zdolność ChatGPT do wizualnego przetwarzania informacji była główną funkcją, która zadebiutowała w maju zeszłego roku na wydarzeniu OpenAI, inaugurując GPT-4o. W demonstracjach z wydarzenia pokazano, jak GPT-4o może wykorzystywać kamerę mobilną lub stacjonarną do identyfikowania obiektów i zapamiętywania szczegółów obrazu. Jedno z konkretnych demo obejmowało GPT-4o identyfikującego psa bawiącego się piłką tenisową i pamiętającego, że ma na imię „Bowser”.
Od czasu wydarzenia OpenAI i późniejszego wczesnego dostępu do kilku szczęśliwych testerów alfa niewiele powiedziano o GPT-4o z wizją. Tymczasem we wrześniu OpenAI udostępniło zaawansowany tryb głosowy użytkownikom ChatGPT Plus i Team.
Jeśli tryb widzenia ChatGPT będzie wkrótce dostępny, jak sugeruje kod, użytkownicy wkrótce będą mogli przetestować oba komponenty nowych funkcji GPT-4o, które zaprezentowano wiosną ubiegłego roku.
Tweet mógł zostać usunięty
Pomimo doniesień o OpenAI, ostatnio było bardzo tłoczno malejące zyski z przyszłymi modelami. W zeszłym miesiącu uruchomił ChatGPT Search, który łączy model AI z siecią, dostarczając informacji w czasie rzeczywistym. Krążą także pogłoski, że pracuje nad agentem, który będzie w stanie wykonywać w imieniu użytkownika wieloetapowe zadania, takie jak pisanie kodu i przeglądanie Internetu. Premiera prawdopodobnie ma się ukazać w styczniu.