Gemini przestaje „rzucać okiem”. Nowy tryb Agentic Vision sprawia, że AI aktywnie bada zdjęcia, używając do tego… Pythona

Dariusz Hałas

Dodane: 2 miesiące temu

Większość modeli AI przetwarza obrazy w jeden sposób: robi „statyczny rzut oka” na całość i próbuje wygenerować opis. To mało precyzyjne, ale jest duża zmiana.

Dotychczas (przynajmniej w Gemini) było tak, że jeśli detal jest mały lub niewyraźny – model zgaduje (i często się myli). Google właśnie zmienia zasady gry. Gemini 3 Flash zyskał funkcję „Agentic Vision”, która pozwala mu traktować analizę zdjęcia jak śledztwo.

Aktywne patrzenie zamiast zgadywania

Google oficjalnie zaprezentowało nową mechanikę dla modelu Gemini 3 Flash. Nazywa się ona „Agentic Vision”.

Kluczowa różnica polega na tym, że AI nie jest już pasywnym obserwatorem. Gdy model dostanie zdjęcie, zamiast od razu wypluwać odpowiedź, wchodzi w pętlę decyzyjną: Myśl -> Działaj -> Obserwuj.

Python jako cyfrowa lupa

Najciekawszy jest element „Działaj”. Gemini 3 Flash otrzymał dostęp do środowiska uruchomieniowego Pythona, którego używa do… manipulacji obrazem w czasie rzeczywistym. Jeśli zapytasz o numer seryjny na małym chipie albo znak drogowy w tle:

Model „zauważy”, że detal jest niewyraźny.
Samodzielnie napisze i wykona kod w Pythonie, by przyciąć zdjęcie (crop), obrócić je lub cyfrowo przybliżyć (zoom).
Dopiero ten „przetworzony” fragment podda ponownej analizie.

Koniec z liczeniem palców „na oko”

Świetnym przykładem podanym przez Google jest liczenie obiektów (np. palców dłoni czy elementów na stole). Tradycyjne LLM-y mają tendencję do halucynowania liczb (tzw. probabilistyczne zgadywanie).

Gemini z „Agentic Vision” robi to inaczej: używa Pythona, by narysować wirtualne ramki (bounding boxes) na każdym wykrytym obiekcie i fizycznie je zliczyć. Dzięki temu odpowiedź jest wynikiem deterministycznego obliczenia, a nie statystycznym strzałem. Wynik? Wzrost skuteczności w benchmarkach o 5-10%, co w tej branży jest skokiem generacyjnym.

Kiedy to dostaniemy?

Google wdraża tę funkcję dwutorowo:

Dla deweloperów: zmiana jest już dostępna w Google AI Studio i Vertex AI (przez API).
Dla użytkowników: funkcja zaczyna trafiać do aplikacji Gemini (jako część modeli „Thinking”).

To kolejny dowód na to, że przyszłość AI nie leży tylko w coraz większych modelach, ale w dawaniu im narzędzi, by mogły weryfikować swoje „halucynacje”.

Google AI Plus wchodzi do Polski. Gemini 3 Pro i 200 GB chmury za połowę dotychczasowej ceny

Agentic Vision Gemini 3 Flash Google AI halucynacje AI news Python w AI rozpoznawanie obrazu AI