En plena era digital, hay empresas que recorren librerías de segunda mano de todo el mundo buscando manuales técnicos, actas de congresos y dietarios históricos. Los compran, los escanean y los destruyen.
No es ciencia ficción. Es una práctica documentada que ya ha llegado a Catalunya: un librero de Badalona fue de los primeros en dar la voz de alarma tras recibir una serie de pedidos que, según él mismo describió, resultaban «algo extraños».
El negocio secreto de alimentar a las IAs con libros físicos
Los grandes modelos de lenguaje —ChatGPT, Llama, Claude— necesitan cantidades masivas de texto para seguir mejorando. Cuantas más palabras procesan, más eficientes y precisos se vuelven. Durante años, esa materia prima llegaba gratis desde internet. Cuando esa fuente se agotó, las empresas recurrieron a bibliotecas pirata en línea, y las demandas por derechos de autor no tardaron en llegar.
Entonces apareció una nueva fuente: los libros físicos de segunda mano. Han pasado por procesos editoriales rigurosos, lo que garantiza calidad textual; y los ejemplares usados con poca circulación tienen más probabilidades de estar libres de derechos, lo que reduce considerablemente el riesgo legal.
La magnitud del proyecto quedó al descubierto gracias a una investigación de The Washington Post. El medio reveló el llamado Proyecto Panamá de Anthropic: un plan interno descrito como una operación para «escanear y destruir todos los libros del mundo». La propia empresa admitía, según ese informe, que prefería que el proyecto permaneciera en secreto.
La cadena oculta: de las librerías de segunda mano a Illinois
El mecanismo tiene varios eslabones. Una empresa llamada Zoom Books compra libros usados en distintos puntos del mundo y los envía a PrepFort, un proveedor logístico situado en Illinois. Los pedidos no llegan a oficinas tecnológicas. Llegan a un almacén de terceros.
Los títulos detectados en Catalunya no eran best-sellers: eran manuales de viticultura, actas de congresos de los años ochenta y dietarios de la Guerra Civil. Libros de tiradas reducidas, difíciles de encontrar en cualquier biblioteca pública. Ese patrón de compra resulta muy difícil de explicar con lógica comercial convencional.
Xavier Vinaixa, director técnico de Sorensen.ai, lo describe con precisión: los gastos de envío son elevados, los destinos son siempre los mismos y los títulos tienen escasa circulación. «Es evidente que no los compran para vender», señala. Zoom Books llegó a publicar en su web que ofrecía servicios a laboratorios de IA, incluyendo la obtención de facturas legales. Esa información fue eliminada, aunque varios usuarios hicieron capturas de pantalla antes de que desapareciera.
Por qué se destruyen los libros después de escanearlos
La destrucción no es un accidente. Es una consecuencia directa del método elegido: para digitalizar libros rápidamente, se cortan los lomos, lo que permite escanear las páginas sueltas a mayor velocidad. El resultado es un libro inutilizable para cualquier uso posterior.
El tiempo importa mucho en este sector. El escaneo destructivo es significativamente más rápido que los métodos no destructivos, y en una industria donde los datos son el recurso más codiciado, la velocidad marca la diferencia entre adelantarse a la competencia o quedarse atrás.
Un fallo judicial reciente reforzó este modelo de negocio. En el caso Bartz contra Anthropic, el juez dictaminó que entrenar una IA con libros adquiridos legalmente —comprados con factura— es una práctica legítima. Ese precedente convierte la compra masiva de libros en una estrategia con respaldo legal. La oferta de trabajo publicada por PrepFort añade otra pieza al rompecabezas: el puesto pedía experiencia en «procesamiento de libros» y capacidad para levantar hasta 18 kilogramos con regularidad, requisitos llamativos para una empresa que, en teoría, solo gestiona envíos.
El patrimonio bibliográfico en riesgo: la alarma desde Catalunya
Marçal Font, librero de la Llibreria Fènix de Badalona, no teme tanto el volumen actual de compras como lo que puede venir después. «El problema no es la compra actual de libros, sino el tsunami que viene. El patrimonio bibliográfico se pierde«, advierte.
Los títulos más vulnerables son precisamente los menos visibles: obras de tiradas reducidas, sin catalogar, ausentes de las colecciones de las bibliotecas públicas. Si desaparecen, no tienen copia de seguridad institucional.
Desde la Conselleria de Cultura de Catalunya reconocen la práctica, pero piden calma. Recuerdan que el depósito legal obliga a los editores a entregar ejemplares a instituciones como la Biblioteca de Catalunya o la Biblioteca Nacional de España y, según su postura, «difícilmente se puede hablar de un riesgo de desaparición de libros editados». Aun así, los expertos señalan una distinción relevante: destruir ejemplares comerciales no es lo mismo que destruir patrimonio bibliográfico. Por ahora.
Propuestas para no perder ni el dato ni el libro
Font y Vinaixa no se limitan a denunciar el problema. Proponen que sean las propias instituciones y agentes culturales quienes capturen el valor de esos datos, en lugar de cederlo a intermediarios externos.
Vinaixa plantea un consorcio catalán que ofrezca fondo documental de dominio público con metadatos limpios, contrato único, atribución clara y auditoría de uso. El objetivo es cobrar a las empresas tecnológicas por lo que necesitan y conservar el patrimonio en manos locales. Con ese fin impulsa también Cedulari.cat: una base de datos centrada en el corpus pre-ISBN —obras que no están catalogadas en ningún registro— que ofrece a los modelos de lenguaje algo que habitualmente les falta: procedencia, trazabilidad y fuentes verificables.
El debate tiene una dimensión más amplia. La Conselleria de Cultura lo resume con claridad: hace falta «un equilibrio entre la protección de los derechos de los creadores, la preservación del patrimonio cultural y la necesidad de que lenguas como el catalán tengan una presencia significativa en las tecnologías que configurarán el futuro». Lo que ocurra en los próximos años con esos libros olvidados en almacenes puede determinar si el catalán —y otras lenguas minorizadas— tiene voz real en la IA del mañana, o simplemente desaparece de ella.
