16 agentów AI, 20 tysięcy dolarów i jeden kompilator. Claude napisał kod, ale to człowiek musiał nim zarządzać

Dariusz Hałas

Dodane: 4 godziny temu

Eksperyment badacza z Anthropic brzmi jak sen każdego CEO i koszmar każdego programisty. Ale jak to ze snami bywa, potem role się odwracają…

Szesnaście instancji sztucznej inteligencji, pracując ramię w ramię bez przerwy na kawę, napisało od zera działający kompilator języka C. Sukces? Tak, ale z gwiazdką. A właściwie z kilkoma gwiazdkami, wartymi 20 000 dolarów.

Eksperyment za miliony tokenów

Nicholas Carlini z Anthropic postanowił sprawdzić, co się stanie, gdy spuści ze smyczy najnowszy model Claude Opus 4.6. Nie jedną sztukę, ale szesnaście. Agenci AI zostali wrzuceni do wspólnego środowiska, gdzie mieli dostęp do repozytorium, mogli pobierać zadania, pisać kod i rozwiązywać konflikty w plikach – zupełnie jak zdalny zespół deweloperski. Wynik po dwóch tygodniach?

100 000 linii kodu w języku Rust.
Kompilator, który potrafi zbudować bootowalny kernel Linuxa 6.9.
Zaliczenie ostatecznego testu każdego sprzętu i softu: uruchomienie Dooma.

Rachunek za API wyniósł 20 000 dolarów. Dużo? Dla hobbysty tak. Dla korporacji to ułamek pensji jednego senior developera.

Mit „Czystego Pokoju”

Anthropic chwali się, że to implementacja typu „clean-room” (bez podglądania istniejących rozwiązań), ale społeczność Hacker News słusznie wytyka tu nadużycie. Modele AI były trenowane na gigantycznych zbiorach kodu, w tym na kodzie źródłowym GCC czy Clang.

To nie jest więc „wynalezienie koła na nowo” przez geniusza, ale raczej brutalne, siłowe „rozpakowanie” wiedzy, którą model już miał w swoich wagach. Co więcej, kod – choć działa – jest daleki od ideału. Jest mniej wydajny niż ten z GCC, a assembler i linker wciąż roją się od błędów. Zatem owszem, eksperyment dowiódł, że da się, ale to wcale nie oznacza, że wynik jest doskonały. Jest wręcz daleki od tego.

Ściana przy 100 tysiącach linii

Otóż najciekawszy wniosek z eksperymentu Anthropic dotyczy jednak nie sukcesów, a porażek. Okazuje się, że przy około 100 000 linii kodu, agenci AI zaczęli tracić spójność. Dodawanie nowych funkcji psuło te istniejące – klasyczny problem długu technologicznego, z którym AI radzi sobie gorzej niż ludzie.

Co więcej, eksperyment nie był w pełni autonomiczny. Carlini musiał zbudować potężne „rusztowanie”. Musiał filtrować logi błędów (bo zbyt długie komunikaty ogłupiały model) i ręcznie sterować procesem, gdy agenci utykali w martwym punkcie (a utykali). Zatem AI puszczone całkiem samopas nie zbudowałoby… niczego, zacinając się na jednej z pętli iteracyjnych…

Programiści nie muszą się jeszcze pakować

Ten eksperyment pokazuje przyszłość programowania. Nie jest to świat, w którym naciskasz przycisk „Stwórz Aplikację” i idziesz na plażę. To świat, w którym programista staje się menadżerem. Zamiast pisać pętle, zarządza stadem 16 cyfrowych pracowników, pilnując, by nie weszli na minę (co im się niestety zdarza). Carlini, mimo sukcesu, sam przyznaje: „Myśl o programistach wdrażających oprogramowanie, którego nigdy osobiście nie zweryfikowali, budzi we mnie realny niepokój”. I to chyba najlepsze podsumowanie tego, gdzie dziś jest autonomicznie programująca AI.