4 Minute
Echipa de machine learning de la Apple a publicat recent un studiu controversat intitulat „Iluzia gândirii”, declanșând o intensă dezbatere în cadrul comunității de inteligență artificială. Cercetătorii Apple susțin că modelele lingvistice mari (large language models) disponibile astăzi nu realizează, de fapt, un raționament independent sau gândire logică autentică. Totuși, un răspuns venit din partea comunității de cercetare AI a pus sub semnul întrebării aceste concluzii generale, alimentând discuții aprinse despre limitele reale, dar și potențialul modelelor AI moderne.
Argumente cheie: Sunt modelele AI actuale cu adevărat limitate? Ellen Lason, cercetător la Open Philanthropy, a publicat un contra-studiu intitulat „Iluzia iluziei gândirii”, contestând direct afirmațiile Apple. Lason, citând modelul avansat Claude Opus dezvoltat de Anthropic, susține că rezultatele prezentate de Apple reflectă deficiențe de proiectare și nu limite fundamentale ale raționamentului AI. Din perspectiva sa, aceste neajunsuri țin de factori tehnici sau setări inadecvate care au influențat performanța modelelor AI analizate de Apple.
Principalele critici la adresa metodologiei Apple Lason a evidențiat trei probleme majore legate de evaluarea realizată de Apple:
- Limitările de token neglijate: Potrivit lui Lason, modelele Apple au eșuat la anumite puzzle-uri logice nu din lipsă de raționament, ci din cauza unor restricții stricte privind numărul maxim de tokeni pentru output, care au truncat răspunsurile modelelor.
- Probleme imposibil de rezolvat tratate ca eșecuri ale AI: În cazul unor provocări precum variante ale puzzle-ului „River Crossing”, unele scenarii nu aveau soluție, dar totuși au fost marcate ca eșecuri AI, penalizând incorect modelele.
- Restricții în sistemul de evaluare: Sistemul automatizat Apple recunoștea doar soluțiile complete, pas cu pas. Răspunsurile parțiale sau cele strategice, chiar dacă logic corecte, erau considerate eșuate, fără a se distinge între limitarea de output și o deficiență de raționament. Pentru a-și susține afirmațiile, Lason a repetat experimentele Apple, eliminând limitele impuse la output. Rezultatele au arătat că modelele de limbaj testate pot rezolva probleme logice complexe atunci când nu sunt restricționate artificial, demonstrând astfel existența unor abilități reale de raționament dacă sistemele sunt configurate corect.
Testarea AI cu puzzle-uri logice clasice Studiul Apple a evaluat capabilitatea de raționament AI printr-o serie de patru puzzle-uri logice consacrate: Turnul din Hanoi (imaginea de mai sus), Lumea Blocurilor, puzzle-ul „River Crossing” și săritura pieselor la dame. Aceste exerciții, esențiale în cercetarea AI și științele cognitive, devin din ce în ce mai complexe pe măsură ce cresc numărul pașilor sau restricțiile, solicitând o planificare multi-etapă. Apple a cerut ca modelele AI să ofere nu doar răspunsuri corecte, ci și să explice clar modul de gândire („chain-of-thought“) pentru fiecare problemă, ceea ce a crescut nivelul de exigență al evaluării.
Scădere semnificativă a performanței odată cu creșterea complexității Conform studiului Apple, pe măsură ce complexitatea puzzle-urilor crește, acuratețea modelelor de limbaj scade drastic, ajungând la zero în cazul celor mai dificile probleme. Apple a interpretat acest lucru ca dovadă a unui colaps fundamental în abilitățile de raționament ale celor mai avansate sisteme AI.
Reacția comunității: Deficiență de raționament sau limită la output? Cercetătorii și membrii activi ai comunității AI au semnalat rapid ceea ce consideră a fi erori de interpretare în studiul Apple. Ei subliniază că imposibilitatea de a genera un output complet din cauza limitărilor de token nu echivalează cu absența raționamentului. În multe cazuri, modelele AI au prezentat strategii logice corecte, însă răspunsul a fost întrerupt înainte de finalizare. De asemenea, punctarea negativă chiar și pentru instanțe de puzzle-uri imposibile de rezolvat ridică întrebări cu privire la corectitudinea metodologiei de evaluare folosite de Apple.
Implicații și relevanță pentru industrie Această dispută are implicații majore pentru evoluția modelelor generative AI, a asistenților AI avansați și a modelelor lingvistice de mari dimensiuni (LLM). Pe măsură ce companiile dezvoltă modele AI capabile să abordeze raționamente complexe, multi-etapă, relevanța unei testări juste și transparente devine crucială. Atât descoperirile echipei Apple, cât și analiza lui Lason, subliniază importanța metodologiilor corecte de evaluare și a unor medii de testare AI bine proiectate. Pe măsură ce inteligența artificială generativă evoluează, stabilirea unor standarde solide și imparțiale pentru evaluarea capacităților de rezolvare a problemelor va rămâne esențială pentru progresul real în domeniul AI.
Sursa: arxiv
Comentarii