Mastodon
Zdjęcie okładkowe wpisu Gemini przestaje „rzucać okiem”. Nowy tryb Agentic Vision sprawia, że AI aktywnie bada zdjęcia, używając do tego… Pythona

Gemini przestaje „rzucać okiem”. Nowy tryb Agentic Vision sprawia, że AI aktywnie bada zdjęcia, używając do tego… Pythona

0
Dodane: 1 dzień temu

Większość modeli AI przetwarza obrazy w jeden sposób: robi „statyczny rzut oka” na całość i próbuje wygenerować opis. To mało precyzyjne, ale jest duża zmiana.

Dotychczas (przynajmniej w Gemini) było tak, że jeśli detal jest mały lub niewyraźny – model zgaduje (i często się myli). Google właśnie zmienia zasady gry. Gemini 3 Flash zyskał funkcję „Agentic Vision”, która pozwala mu traktować analizę zdjęcia jak śledztwo.

Aktywne patrzenie zamiast zgadywania

Google oficjalnie zaprezentowało nową mechanikę dla modelu Gemini 3 Flash. Nazywa się ona „Agentic Vision”.

Kluczowa różnica polega na tym, że AI nie jest już pasywnym obserwatorem. Gdy model dostanie zdjęcie, zamiast od razu wypluwać odpowiedź, wchodzi w pętlę decyzyjną: Myśl -> Działaj -> Obserwuj.

Python jako cyfrowa lupa

Najciekawszy jest element „Działaj”. Gemini 3 Flash otrzymał dostęp do środowiska uruchomieniowego Pythona, którego używa do… manipulacji obrazem w czasie rzeczywistym. Jeśli zapytasz o numer seryjny na małym chipie albo znak drogowy w tle:

  • Model „zauważy”, że detal jest niewyraźny.
  • Samodzielnie napisze i wykona kod w Pythonie, by przyciąć zdjęcie (crop), obrócić je lub cyfrowo przybliżyć (zoom).
  • Dopiero ten „przetworzony” fragment podda ponownej analizie.

Koniec z liczeniem palców „na oko”

Świetnym przykładem podanym przez Google jest liczenie obiektów (np. palców dłoni czy elementów na stole). Tradycyjne LLM-y mają tendencję do halucynowania liczb (tzw. probabilistyczne zgadywanie).

Gemini z „Agentic Vision” robi to inaczej: używa Pythona, by narysować wirtualne ramki (bounding boxes) na każdym wykrytym obiekcie i fizycznie je zliczyć. Dzięki temu odpowiedź jest wynikiem deterministycznego obliczenia, a nie statystycznym strzałem. Wynik? Wzrost skuteczności w benchmarkach o 5-10%, co w tej branży jest skokiem generacyjnym.

Kiedy to dostaniemy?

Google wdraża tę funkcję dwutorowo:

  • Dla deweloperów: zmiana jest już dostępna w Google AI Studio i Vertex AI (przez API).
  • Dla użytkowników: funkcja zaczyna trafiać do aplikacji Gemini (jako część modeli „Thinking”).

To kolejny dowód na to, że przyszłość AI nie leży tylko w coraz większych modelach, ale w dawaniu im narzędzi, by mogły weryfikować swoje „halucynacje”.

Google AI Plus wchodzi do Polski. Gemini 3 Pro i 200 GB chmury za połowę dotychczasowej ceny

Zapraszamy do dalszej dyskusji na Mastodonie lub Twitterze .