Ograniczenia modeli językowych Apple w prawdziwym rozumowaniu: badania nad zdolnościami AI

Nowe badanie przeprowadzone przez Apple Machine Learning Research kwestionuje powszechny pogląd dotyczący zdolności dużych modeli językowych, takich jak o1 firmy OpenAI czy warianty myślenia Claude’a, w zakresie tzw. „rozumowania” sztucznej inteligencji. Wyniki badania wskazują na fundamentalne ograniczenia tych systemów, sugerując, że nie są one w rzeczywistości zdolne do prawdziwego rozumowania, a ich działanie opiera się raczej na zaawansowanym dopasowywaniu wzorców.

W eksperymencie badacze Apple postanowili odejść od standardowych matematycznych testów, które często są podatne na zanieczyszczenia danych. Zamiast tego stworzyli kontrolowane środowiska zagadek, takie jak wieża Hanoi czy przeprawa przez rzekę, co pozwoliło na precyzyjną analizę nie tylko ostatecznych odpowiedzi, ale również wewnętrznych śladów rozumowania modeli na różnych poziomach złożoności problemu. Ta metodologia wykazała zaskakujące wnioski dotyczące działania sztucznej inteligencji.

Rezultaty są niezwykle wymowne i podważają dotychczasowe założenia. Wszystkie testowane modele rozumujące, w tym o3-mini, DeepSeek-R1 oraz Claude 3.7 Sonnet, doświadczały całkowitego załamania dokładności powyżej określonych progów złożoności. Mimo posiadania wystarczających zasobów obliczeniowych, wskaźnik ich sukcesu spadał do zera. Co ciekawe, wraz ze wzrostem trudności modelom zdarzało się wręcz ograniczać wysiłek myślowy, co wskazuje na fundamentalne ograniczenia skali ich możliwości, a nie na brak zasobów.

Co więcej, nawet jeśli badacze dostarczali modelom kompletne algorytmy rozwiązania, to i tak zawodziły one na tych samych poziomach złożoności. Oznacza to, że ograniczenia nie tkwią w strategii rozwiązywania problemów, ale w podstawowej zdolności do wykonania logicznych kroków. Dodatkowo modele wykazywały dziwne niespójności – potrafiły rozwiązać zadania wymagające ponad 100 ruchów, a jednocześnie ponosiły porażki przy znacznie prostszych zagadkach, gdzie wystarczyło wykonać zaledwie 11 ruchów.

Badanie wskazuje na istnienie trzech odrębnych trybów działania modeli: standardowe modele zaskakująco lepiej radzą sobie przy niskiej złożoności niż modele rozumujące, modele rozumujące wykazują przewagę przy średniej złożoności, natomiast oba rodzaje modeli całkowicie zawodzą w warunkach wysokiej złożoności. Analiza śladów rozumowania dowiodła także istnienia nieefektywnego „przetwarzania nadmiernego” (overthinking), gdzie modele potrafiły szybko znaleźć poprawne rozwiązanie, lecz następnie bezproduktywnie wykorzystywały dalszą moc obliczeniową rozważając błędne alternatywy.

Ważnym wnioskiem z badań Apple jest stwierdzenie, że obecne modele określane jako „rozumujące” de facto opierają się na zaawansowanym dopasowywaniu wzorców, a nie na prawdziwych zdolnościach dedukcyjnych. Sugeruje to, że duże modele językowe nie skalują umiejętności rozumowania w sposób zbliżony do ludzi – mają tendencję do nadmiernego rozmyślania nad łatwymi problemami, podczas gdy przy trudniejszych zadaniach poświęcają im mniej uwagi.

Publikacja tych wyników jest szczególnie interesująca ze względu na swoją datę pojawienia się – zaledwie kilka dni przed konferencją WWDC 2025, na której Apple ma podobno ograniczyć nacisk na sztuczną inteligencję na rzecz nowych projektów i funkcji oprogramowania. Wyniki te mogą więc z jednej strony stanowić ważny głos w dyskusji o obecnym stanie i przyszłości AI, a z drugiej mogą sygnalizować zmianę podejścia firmy do tej dynamicznie rozwijającej się dziedziny.

Adres: ul. Grochowska 239, 04-001 Warszawa, Praga Południe
Godziny otwarcia:
Poniedziałek - Piątek: 10.00 - 18.00
Sobota 11:00-15:00
Telefon: +48 790 343 000

Udostępnij artykuł !