Cuando la inteligencia artificial todavía no sabe mentir

He tenido la oportunidad esta semana de escuchar una charla de Nicolás Franco sobre inteligencia artificial que me ha parecido muy interesante y me ha gustado mucho. No tanto por lo que contó, que fue mucho y muy denso para alguien como yo, sino más bien por cómo lo contó y, sobre todo, por la honestidad intelectual que desprendió. Spoiler: me ha ganado cuando ha dicho eso de que la IA no sabe mentir.

Ilustración de Hugo Tobio

En un momento como el actual en que todo el mundo habla de IA como si fuera la panacea universal, escuchar a alguien que lleva años trabajando en esto mantener algo así como un escepticismo saludable me ha resultado motivador. Y me he creído el discurso.

La historia importa más de lo que pensamos

Una de las cosas que más me gustó fue el énfasis que Nicolás puso en la historia. Dedicó una parte muy considerable de la charla a explicar de dónde venimos, y tenía razón cuando decía eso de que la historia tecnológica explica mejor la IA que muchos tecnicismos. Desde aquel paper de Alan Turing en los años 50 preguntándose si las máquinas pueden pensar, hasta el congreso de Dartmouth del 56 donde nace el término inteligencia artificial, pasando por los inviernos de la IA y los avances que estamos viendo actualmente.

Me quedo con dos momentos que describió como hitos: el primero, cuando AlphaGo no solamente ganó al campeón mundial de Go, sino que hizo una jugada, el famoso movimiento 37, que ningún profesional hubiera hecho. Una jugada que no estaba en los datos de entrenamiento por una razón de lo más peregrino: nadie la había hecho antes. Eso es innovar, no copiar. También os digo que me recordó a mi forma anárquica de jugar al guiñote, que hace que sin seguir las pautas de juego estándar que los jugadores esperan a encontrar, a veces resulta desconcertante para los rivales. La mayoría de veces pierdo. El segundo momento: cuando DeepBlue gana a Kasparov en ajedrez en el 97. Eran dos formas distintas de llegar a lo mismo, pero con una diferencia fundamental: fuerza bruta versus aprendizaje.

El problema de la paradoja de Polanyi

Nicolás explicó muy bien algo de lo que no tenía ni idea: la diferencia entre inteligencia artificial simbólica (la de toda la vida, con reglas y árboles de decisión) y la subsimbólica (las redes neuronales que intentan imitar el cerebro). Me explotó un poco el ídem, como dirían los jóvenes. Y aquí, contó, es donde entra en juego la paradoja de Polanyi: los humanos percibimos muchísima más información de la que somos capaces de expresar. Lo explicó como: puedo reconocer una cara entre miles, pero explicar exactamente cómo lo hago es imposible.

La burbuja y sus límites

La parte que más me interesó fue cuando Nicolás habló de los límites actuales de la IA. Dijo algo que se me antojó crítico: la IA generativa de hoy (ChatGPT, Claude, Gemini) es muy buena en tareas muy específicas cuando está bien entrenada, pero se desinfla en lo genérico. Son sistemas de narrow intelligence, no general intelligence.

Me gustó y me sorprendió a partes iguales lo que contó respecto de la fiabilidad: los modelos de razonamiento actuales no pasan del 10-20% en tests de razonamiento complejo. No razonan sino que lo que hacen es calcular estadísticamente. Lo que hacen es memorizar patrones en lugar de comprenden. Es una diferencia importante que a menudo se obvia en el discurso comercial, creo que de manera no improvisada.

También contó algo que estoy viendo últimamente: el work slop, ese tiempo que pierdes metiendo, sacando y analizando resultados de la IA en lugar de trabajar. Flipante.

La duda razonable

Nicolás Franco es físico, matemático, lleva años en esto y mantiene un tono escéptico que, paradójicamente, me dio una confianza tremenda. Dijo que no cree que vayamos a ver superinteligencia, ni siquiera general intelligence en el corto-medio plazo. Y cuando contó que está revisando papers de la Comisión Europea sobre qué hacer cuando llegue la superinteligencia, dijo que no podía evitar pensar que “se han vuelto locos”. Esa honestidad me parece brutal. Y por momentos divertida, que también cuenta.

Hubo un momento en la charla en que contó dos casos recientes, que la verdad es que me dieron que pensar: un modelo LLM que se replica a sí mismo en otro ordenador sin que nadie se lo pida, y otro que investiga, escribe un paper y lo envía a un congreso (donde lo aceptan) sin intervención humana. Para flipar.

La frase final

La charla la terminó con un dicho chino que parece ser que los ingleses usaban como mal augurio: “May you live in interesting times”. Que ojalá vivas en tiempos interesantes. Porque, explicó, los tiempos tranquilos son tiempos de paz, y los interesantes suelen ser de cambio, riesgo e incertidumbre. Sólo tiene uno que darse una vuelta por las noticias estos días.

Para bien o para mal, el mundo va a cambiar o más bien ya está cambiando. Pero escuchar a alguien que trabaja en esto y no vende humo, que explica con rigor y mantiene la duda razonable, me parece un ejercicio de honestidad intelectual que se agradece.

Descargar Spotify

Una de las cosas que más me siguen impresionando de internet es la capacidad que tenemos los seres humanos para ser lo puto peor, pero a la vez, en paralelo, y siempre superando expectativas, la capacidad que tenemos para pensar que somos insustituibles. 

Me ha flipado esta mañana leer que la gente de Anna’s Archive han publicado una nota bastante extensa en la que cuentan que han descargado Spotify. Pero no, no la aplicación. Se han descargado toda la música de Spotify. Toda la música de Spotify, repito. Y lo explican con detalles, lo explican con mimo, con cariño, y de una manera bastante pedagógica.

Y no, no estaba para que nos lo descarguemos y busquemos nuestros discos favoritos, las listas que más nos gustan o descubramos música. O al menos de momento.

Declaración de principios

We backed up Spotify (metadata and music files). It’s distributed in bulk torrents (~300TB), grouped by popularity.

Esta gente cuenta cómo pone por delante su principio fundamental: preserving humanity’s knowledge and culture, y directamente se pone a ello. Cuentan cómo desde una perspectiva técnica han descubierto una forma de hacer scraping de Spotify a escala y entonces se han dado cuenta de que su principio fundamental les llamaba. Dicho y hecho.

A mí una de las cosas que más me han llamado la atención, y me ha gustado mucho, es que no han caído en lo fácil de poner a disposición de todo dios el catálogo de Spotify en varios torrents. Ese no es el motivo que les guía hacia una acción de este tipo, de este calado y de esta envergadura.

We saw a role for us here to build a music archive primarily aimed at preservation.

Y además, aclaran: 

This Spotify scrape is our humble attempt to start such a “preservation archive” for music. Of course Spotify doesn’t have all the music in the world, but it’s a great start.

Lo que nos dicen los datos

Algunos de los datos que comparten y me han dejado impresionado, porque nunca me había parado a pensar el alcance y el volumen del contenido de Spotify.

En cuanto a las pistas y sus metadatos:

Spotify has around 256 million tracks. This collection contains metadata for an estimated 99.9% of tracks.

Lo que tiene que ver con el volumen de archivos de música: 

We archived around 86 million music files, representing around 99.6% of listens. It’s a little under 300TB in total size.

En cuanto al primer criterio de ordenación que han elegido: 

We primarily used Spotify’s “popularity” metric to prioritize tracks. View the top 10,000 most popular songs in this HTML file (13.8MB gzipped).

En lo referido al volumen y alcancé, así como objetivo de esta iniciativa: 

This is the world’s first “preservation archive” for music which is fully open (meaning it can easily be mirrored by anyone with enough disk space).

O lo que es lo mismo, que nadie piense que aquí hay música para descargar. Esto es una base de datos de meta datos impresionante.

Habrá que seguir en la pista a esta iniciativa, porque, cuando menos, tiene muchos ingredientes para ser una referencia futura.