Un altre maó al mur (de la IA)

Jordi Torras
20 de des. 2024
Blog

El 1979, Pink Floyd va llançar el seu icònic àlbum The Wall, una exploració inquietant de l'aïllament psicològic. El seu personatge central, Pink, construeix un mur metafòric al seu voltant, pedra a pedra, mentre pateix traumes i alienació. Cada experiència -des de l'opressiva escolarització fins a la pèrdua personal- afegeix una nova capa a la seva barrera psicològica impenetrable. L'àlbum ressona amb qualsevol que hagi sentit mai atrapat pels seus propis pors, dubtes o passat sense resoldre. Com a narrativa, parla de la tendència humana a construir barreres mentals com a escut i presó.

Curiosament, es pot establir un paral·lelisme amb l'estat de la intel·ligència artificial avui dia. Tan com l'IA és una història de descobriments remarcables, també és una narrativa de limitacions i els murs que construïm quan ens enfrontem a aquestes limitacions. Com el mur de Pink, el camp de l'IA s'ha construït pedra a pedra, amb cada fita celebrada com un triomf, només perquè apareguin nous reptes. Ens trobem en un moment de la història en què el mur de l'IA està a punt de esfondrar-se, revelant un món nou i valent, o de créixer més, reforçant els límits de les nostres aspiracions.

La Pedra de la Raó: Estudi d'Apple sobre els LLMs

Recentment, els investigadors d'Apple van realitzar un estudi fascinant sobre els Models de Llenguatge Grans (LLMs), revelant una falla fonamental en les seves capacitats de raonament. L'experiment va exposar que mentre els LLMs com GPT-4o poden generar text coherent i contextualment apropiat, sovint fallen en tasques que requereixen consistència lògica o raonament abstracte. Per exemple, poden tenir dificultats amb problemes bàsics que impliquen raonament de diversos passos, exposant una limitació contundent: aquests models no "pensen" realment.

Les troballes d'Apple posen de manifest el caos entre el rendiment superficial de l'IA i les habilitats cognitives més profundes que associem amb la intel·ligència humana. No és que els LLMs siguin inútils; més aviat, excel·leixen en tasques que es semblen a la "imitació del llenguatge" mentre fallen en la comprensió genuïna. Aquesta distinció és crítica ja que les empreses cada vegada més busquen aquestes eines per a tasques com la interacció amb els clients, la sumarització de documents i la presa de decisions.

Tot i que els LLMs han demostrat ser transformadors, l'estudi serveix com un recordatori sobri: l'arquitectura actual potser no sigui la que ens impulsarà cap a la Intel·ligència General. Això ens porta a una preocupació més ampla sobre la trajectòria del desenvolupament de l'IA.

La Desacceleració en les Millores de GPT

OpenAI, ha reconegut una taxa de millora més lenta en els seus models. Segons aquest informe d'Opentools, OpenAI està canviant la seva estratègia a causa dels rendiments decreixents de l'escalatge de l'arquitectura Transformer - l'espina dorsal de la majoria dels LLMs moderns. Les primeres iteracions de GPT van demostrar avenços significatius en capacitat amb l'addició de més dades i mides de model més grans. Però ara, els rendiments d'aquestes inversions estan disminuint.

Aquesta trajectòria de desacceleració planteja preguntes existencials sobre el camp de l'IA. Si l'escalatge per si sol ja no és suficient, què ve després? Necessitem paradigmes totalment nous per trencar el mur que separa l'IA estreta del somni elusiu de la Intel·ligència General? O bé, com suggereix el Teorema de Tesler, relegarem aquests avenços a la rutina, deixant de considerar-los AI del tot?

La Piràmide de l'IA: Un Marc per a la Comprensió

Per entendre millor on ens trobem en el viatge de l'IA, és útil visualitzar el camp com una piràmide. La "Piràmide de l'IA", molt semblant a la jerarquia de necessitats de Maslow, delimita la progressió de la intel·ligència artificial a través de cinc nivells:

Computació: La base de l'IA, que comprèn la potència computacional bruta i els algorismes necessaris per processar dades. Sense això, cap sistema d'IA podria existir.
Automatització: Aquest nivell abasta sistemes que realitzen tasques específiques basades en regles de manera eficient i sense intervenció humana. Penseu en l'automatització de processos robòtics o en els chatbots bàsics.
IA Dèbil: Aquí, els sistemes d'IA mostren una intel·ligència limitada adaptada a dominis específics. Els LLMs i els sistemes de visió per ordinador entren en aquesta categoria, excel·lent en les seves tasques designades però incapaços de generalitzar més enllà d'elles.
Intel·ligència Artificial General (AGI): L'objectiu aspiracional de la recerca en IA, l'AGI tindria habilitats cognitives semblants a les humanes, capaç de raonar, aprendre i adaptar-se a través de diversos dominis sense necessitat de reentrenament.
Superintel·ligència: El cim hipotètic de l'IA, on les màquines superen la intel·ligència humana en tots els sentits concebibles, transformant potencialment la societat de maneres que difícilment podem imaginar.

Actualment, oscil·lem entre els nivells 3 i 4. Els LLMs com GPT-4 representen l'apogeu de l'IA Dèbil, però romanen limitats pel "mur" del raonament i la comprensió.

L'Efecte de l'IA i el Teorema de Tesler

Un fenomen curiós impregna la recerca en IA: tan aviat com un sistema d'IA aconsegueix competència en una tasca concreta, aquesta tasca deixa de ser considerada com "IA". Això està encapsulat pel Teorema de Tesler - "L'IA és tot allò que encara no s'ha fet" i la dita de John McCarthy, "Tan aviat com funciona, ningú ho anomena IA". La correcció ortogràfica, una vegada aclamada com una meravella de l'IA, ara és només una característica rutinària dels processadors de text. El mateix destí podria esperar als LLMs.

El risc aquí no és merament semàntic. Si els avenços en IA es normalitzen com a tecnologies mundanes, el finançament i l'entusiasme per la recerca innovadora podrien disminuir. Les empreses podrien conformar-se amb millores incrementals, ofegant la recerca de l'AGI. Això posa de manifest la importància de mantenir un enfocament visionari en el desenvolupament de l'IA.

Un Moment Històric de Decisió

Ens trobem en un moment crucial. O bé l'arquitectura Transformer, amb les seves vastes bases de dades i potència computacional, evolucionarà per millorar les capacitats de raonament, impulsant-nos cap a l'AGI, o bé es quedarà estancada. En aquest últim cas, la societat podria acostumar-se als LLMs com a simples eines, deixant de veure'ls com a emblemàtics de la intel·ligència artificial. Aquest resultat reflectiria el mur metafòric de Pink Floyd: una estructura construïda a partir de limitacions i potencial no acomplert.

Però aquesta no és una visió pessimista. Inclús dins les limitacions de l'IA Dèbil, les possibilitats d'aplicacions empresarials són impressionants. Des de l'automatització del suport al client fins a la descoberta d'insights en dades no estructurades, els LLMs només han aranyat la superfície del seu potencial. Les empreses que aprofitin aquestes eines de manera creativa no només desbloquejaran valor sinó que també obriran el camí per a futurs avenços.

Derrocar el Mur!

La trajectòria del desenvolupament de l'IA està lluny de ser certa. Podem estar davant d'una trencada monumental o enfrontant-nos a l'acumulació lenta de limitacions. El resultat depèn no només de la innovació tecnològica sinó també de la voluntat social, la inversió i l'aplicació creativa d'eines existents.

El final de The Wall de Pink Floyd acaba amb la demolició del mur del protagonista, només per deixar-lo vulnerable i incert. El mur de l'IA, també, ha de ser desmantellat - no en desesperança, sinó amb l'esperança que el que hi ha més enllà valgui la pena el viatge. Ja sigui que aconseguim l'AGI o redefinim els límits de l'IA, la història encara no ha acabat. Depèn de nosaltres assegurar-nos que aquest capítol de la història tecnològica no sigui només una altra pedra en el mur.

Torras.ai