W środę Google ogłosił znaczącą aktualizację Gemini, swojego wewnętrznego modelu sztucznej inteligencji (AI). Firma ogłosiła, że możliwości generowania obrazu przez chatbota będą teraz obsługiwane przez model AI Imagen 3 dla wszystkich użytkowników. Imagen 3 to najnowszy i najbardziej wydajny model generowania obrazu przez giganta technologicznego z Mountain View. Oprócz aplikacji Gemini funkcja ta zostanie również rozszerzona na wersję API Gemini, aby umożliwić programistom tworzenie aplikacji i doświadczeń w oparciu o tę funkcję.
Użytkownicy Gemini uzyskują dostęp do modelu AI Imagen 3
w post na X (wcześniej znanym jako Twitter) oficjalny uchwyt aplikacji Google Gemini ujawnił, że wszyscy użytkownicy, w tym użytkownicy bezpłatnej warstwy, będą mogli generować obrazy za pomocą Imagen 3. W poście podkreślono, że model AI oferuje wysoki stopień fotorealizmu, zapewnia lepszą przyczepność i dodaje do obrazów mniej niepożądanych elementów.
Pracownicy Gadgets 360 mogli zweryfikować, czy aplikacja Gemini rzeczywiście korzysta z Imagen 3 do generowania obrazów. Aby przetestować jego możliwości i porównać je z Meta AI, daliśmy obu chatbotom ten sam monit. Podpowiedź brzmiała: „Narysuj obraz psa golden retriever siedzącego na nabrzeżu pociągu i wyglądającego przez okno na Alpy. Pociąg ma drewniane wnętrze, a siedzenia są w kolorze zielonym. Wszyscy pozostali pasażerowie pociągu to także zwierzęta. Jeden konduktor sprawdza bilety.
Wygenerowane obrazy można zobaczyć powyżej. Chociaż oba modele sztucznej inteligencji nie zawierały jednego lub więcej elementów wskazanych w podpowiedzi, Gemini był w stanie uwzględnić więcej elementów. Dodatkowo, podczas gdy Meta AI generuje obrazy w rozdzielczości 1280 x 1280, obrazy Imagen 3 są generowane w rozdzielczości 2048 x 2048.
Imagen 3 może generować obrazy w szerokiej gamie stylów, takich jak fotorealistyczne, teksturowane obrazy olejne i sceny z gliny. Użytkownicy mogą także zażądać, aby zdjęcia wyglądały tak, jakby zostały zrobione konkretnym aparatem, takim jak lustrzanka cyfrowa Nikon, styl GoPro, obiektyw szerokokątny i nie tylko.
Google twierdzi, że model sztucznej inteligencji ma wbudowane zabezpieczenia zmniejszające ryzyko deepfakes. Każdy wygenerowany obraz jest również opatrzony znakiem wodnym SynthID, technologią, która dodaje niewidoczną etykietę AI w pikselach obrazu. Nie można go przyciąć ani usunąć. Jest on obecny nawet na zrzutach ekranu.