Gemini przestaje „rzucać okiem”. Nowy tryb Agentic Vision sprawia, że AI aktywnie bada zdjęcia, używając do tego… Pythona
Większość modeli AI przetwarza obrazy w jeden sposób: robi „statyczny rzut oka” na całość i próbuje wygenerować opis. To mało precyzyjne, ale jest duża zmiana.
Dotychczas (przynajmniej w Gemini) było tak, że jeśli detal jest mały lub niewyraźny – model zgaduje (i często się myli). Google właśnie zmienia zasady gry. Gemini 3 Flash zyskał funkcję „Agentic Vision”, która pozwala mu traktować analizę zdjęcia jak śledztwo.
Aktywne patrzenie zamiast zgadywania
Google oficjalnie zaprezentowało nową mechanikę dla modelu Gemini 3 Flash. Nazywa się ona „Agentic Vision”.
Kluczowa różnica polega na tym, że AI nie jest już pasywnym obserwatorem. Gdy model dostanie zdjęcie, zamiast od razu wypluwać odpowiedź, wchodzi w pętlę decyzyjną: Myśl -> Działaj -> Obserwuj.
Python jako cyfrowa lupa
Najciekawszy jest element „Działaj”. Gemini 3 Flash otrzymał dostęp do środowiska uruchomieniowego Pythona, którego używa do… manipulacji obrazem w czasie rzeczywistym. Jeśli zapytasz o numer seryjny na małym chipie albo znak drogowy w tle:
- Model „zauważy”, że detal jest niewyraźny.
- Samodzielnie napisze i wykona kod w Pythonie, by przyciąć zdjęcie (crop), obrócić je lub cyfrowo przybliżyć (zoom).
- Dopiero ten „przetworzony” fragment podda ponownej analizie.
Koniec z liczeniem palców „na oko”
Świetnym przykładem podanym przez Google jest liczenie obiektów (np. palców dłoni czy elementów na stole). Tradycyjne LLM-y mają tendencję do halucynowania liczb (tzw. probabilistyczne zgadywanie).
Gemini z „Agentic Vision” robi to inaczej: używa Pythona, by narysować wirtualne ramki (bounding boxes) na każdym wykrytym obiekcie i fizycznie je zliczyć. Dzięki temu odpowiedź jest wynikiem deterministycznego obliczenia, a nie statystycznym strzałem. Wynik? Wzrost skuteczności w benchmarkach o 5-10%, co w tej branży jest skokiem generacyjnym.
Kiedy to dostaniemy?
Google wdraża tę funkcję dwutorowo:
- Dla deweloperów: zmiana jest już dostępna w Google AI Studio i Vertex AI (przez API).
- Dla użytkowników: funkcja zaczyna trafiać do aplikacji Gemini (jako część modeli „Thinking”).
To kolejny dowód na to, że przyszłość AI nie leży tylko w coraz większych modelach, ale w dawaniu im narzędzi, by mogły weryfikować swoje „halucynacje”.
Google AI Plus wchodzi do Polski. Gemini 3 Pro i 200 GB chmury za połowę dotychczasowej ceny






