Mastodon
Zdjęcie okładkowe wpisu Mniej halucynacji w kodzie. Anthropic wydaje model Claude Opus 4.8

Mniej halucynacji w kodzie. Anthropic wydaje model Claude Opus 4.8

0
Dodane: 15 godzin temu

Zaledwie sześć tygodni po premierze wersji 4.7, firma Anthropic udostępnia nowy, usprawniony model językowy – Claude Opus 4.8.

Twórcy skupili się na rozwiązaniu problemów, na które narzekali użytkownicy: zmniejszeniu liczby bezrefleksyjnych błędów, dodaniu manualnej kontroli nad zużyciem tokenów oraz optymalizacji narzędzi deweloperskich. Co ważne, cena subskrypcji pozostaje na tym samym poziomie.

Uczciwość modelu i dane

Jednym z głównych problemów poprzednich iteracji było zjawisko halucynacji oraz utwierdzanie użytkownika w błędzie w przypadku pisania kodu. Według oficjalnych danych Anthropic, wersja 4.8 została zoptymalizowana pod kątem „uczciwości”. W praktyce oznacza to, że model ma około czterokrotnie rzadziej przepuszczać bez komentarza błędy we własnym kodzie i znacznie częściej przyznawać się do braku wiedzy.

Złote klatki gigantów pustoszeją. Dlaczego Andrej Karpathy wybrał Anthropic?

Poprawę widać również w dokumentacji technicznej:

  • skuteczność w zadaniach programistycznych (agentic coding) wzrosła z 64,3 proc. do 69,2 proc.
  • wielodyscyplinarne rozumowanie zaliczyło skok z 54,7 proc. do 57,9 proc.

Trzeba jednak pamiętać o pewnych ograniczeniach. Pierwsi recenzenci zauważają, że model wciąż miewa problemy z pamięcią kontekstową i potrafi „zapomnieć” o ręcznie wprowadzonych wytycznych przy dłuższych i bardziej złożonych konwersacjach.

Nowość w interfejsie: suwak wysiłku

Najbardziej widoczną zmianą dla użytkowników webowych aplikacji claude.ai oraz Cowork jest wprowadzenie funkcji kontroli wysiłku (effort control). Użytkownik otrzymuje pięciostopniowy suwak, za pomocą którego sam decyduje, jak dużo zasobów obliczeniowych model ma przeznaczyć na dane zapytanie:

  • wyższe ustawienia zmuszają algorytm do głębszej analizy i generują lepsze odpowiedzi, ale wiążą się z dłuższym czasem oczekiwania i szybszym zużyciem przypisanych do konta tokenów,
  • niższe ustawienia to z kolei szybsza odpowiedź i większa oszczędność limitów.

Domyślnie system uruchamia się na ustawieniu wysokim (high), które według inżynierów stanowi optymalny kompromis między jakością a wykorzystaniem zasobów. Dla trudnych zadań programistycznych producent zaleca tryb „extra”.

Dynamiczne przepływy pracy dla deweloperów

Opus 4.8 przynosi kluczowe nowości dla profesjonalistów korzystających ze środowiska Claude Code (w planach Enterprise, Team i Max). Nowa funkcja dynamicznych przepływów pracy (dynamic workflows) pozwala sztucznej inteligencji na tworzenie i zarządzanie setkami równoległych subagentów w jednej sesji. Umożliwia to przeprowadzanie masowych operacji, takich jak np. migracja setek tysięcy linii kodu w istniejących repozytoriach, z automatyczną weryfikacją na podstawie testów jednostkowych.

Zmiany dotknęły również API. Programiści mogą teraz aktualizować instrukcje systemowe wewnątrz tablicy wiadomości, bez konieczności resetowania pamięci podręcznej promptów. Ułatwi to dynamiczną zmianę uprawnień agenta w trakcie wykonywania zadania.

Podstawowy koszt korzystania z platformy pozostaje bez zmian. Miesięczny abonament Pro to wciąż wydatek rzędu 94 zł (20 USD), a dostęp przez API kosztuje 5 dolarów za milion tokenów wejściowych i 25 dolarów za wyjściowe. Potaniał natomiast tryb Fast, oferujący 2,5-krotnie szybsze działanie – jego cena została obniżona trzykrotnie względem starszych modeli.

Anthropic oficjalnie potwierdziło również, że pracuje nad nową klasą modeli o wyższej inteligencji. W ramach projektu Glasswing, wybrani klienci testują już model Claude Mythos Preview w branży cyberbezpieczeństwa. Jego publiczna premiera zaplanowana jest na najbliższe tygodnie.

Zapraszamy do dalszej dyskusji na Mastodonie lub Twitterze .