Apple: listy kontrolne skuteczniejsze niż nagrody w trenowaniu AI

Krzysztof Kołacz

Dodane: 2 miesiące temu
fot. Apple

Nowe badania Apple pokazują, że duże modele językowe (LLM) mogą znacząco poprawić swoje wyniki dzięki prostej metodzie – sprawdzaniu własnej pracy przy pomocy checklist.

Czym jest RLCF?

Apple opracowało technikę Reinforcement Learning from Checklist Feedback (RLCF). Zamiast oceny „kciuk w górę/kciuk w dół”, model dostaje listę kryteriów i punktację (0–100) za to, jak dobrze je spełnia.

Efekty badań?

Poprawa wyników na wszystkich testowanych benchmarkach,
+6 pkt na InFoBench, +4 pkt na FollowBench, +3 pkt na Arena-Hard,
Wzrost nawet o 8,2% w ocenie złożonych instrukcji.

Checklista zwiększa precyzję w realizacji wieloetapowych zadań i złożonych poleceń. To kluczowe, bo asystenci AI stają się głównym interfejsem, przez który użytkownicy będą wykonywać codzienne zadania.

RLCF poprawia „instruction following”, ale nie rozwiązuje jednak kwestii bezpieczeństwa i wymaga użycia mocniejszych modeli jako „sędziów” przy trenowaniu mniejszych.

Pełny raport i opis metody znajdziecie tutaj.

Jest jednak coś niesamowitego w tym, że metoda checklist, którą zawdzięczamy branży lotnictwa cywilnego nadal okazuje się w wielu obszarach jedną z najskuteczniejszych metod sprawowania kontroli. Więcej o jej historii przeczytacie w świetnej książce „Metoda czarnej skrzynki. Zaskakująca prawda o nauce na błędach” autorstwa Matthew Syed, którą w Polsce wydało krakowskie Insignis Media.

Krzysztof Kołacz

🎙️ O technologii i nas samych w podcaście oraz newsletterze „Bo czemu nie?”. ☕️ O kawie w podcaście „Kawa. Bo czemu nie?”. 🏃🏻‍♂️ Po godzinach biegam z wdzięczności za życie.