Sábado 31 de Enero de 2026

Hoy es Sábado 31 de Enero de 2026 y son las 06:19 ULTIMOS TITULOS:

31/01/2026

Cómo Silicon Valley construyó la IA con millones de libros

Fuente: telam

Documentos revelados en una demanda por derechos de autor, demuestran una inversión millonaria para digitalizar obras literarias y alimentar los modelos de inteligencia artificial

>A principios de 2024, los ejecutivos de la startup de inteligencia artificial Anthropic impulsaron un ambicioso proyecto que pretendían mantener en secreto. “El Proyecto Panamá es nuestro esfuerzo por escanear destructivamente todos los libros del mundo”, decía un documento de planificación interna revelado en documentos legales la semana pasada. “No queremos que se sepa que estamos trabajando en esto”.

Los detalles del Proyecto Panamá, que no se habían divulgado previamente, surgieron en más de 4.000 páginas de documentos en una demanda por derechos de autor interpuesta por autores de libros contra Anthropic, empresa valorada por los inversores en 183.000 millones de dólares. La compañía acordó pagar 1.500 millones de dólares para resolver el caso en agosto, pero la decisión de un juez de distrito la semana pasada de revelar una serie de documentos del caso reveló con mayor detalle el ferviente interés de Anthropic por los libros.

El caso Anthropic formó parte de una ola de demandas interpuestas contra empresas de inteligencia artificial por autores, artistas, fotógrafos y medios de comunicación. Los documentos presentados en los casos muestran a las principales empresas tecnológicas en una carrera frenética, a veces clandestina, por adquirir las obras recopiladas de la humanidad.

Sin embargo, los registros judiciales sugieren que las empresas no consideraron práctico obtener permiso directo de editoriales y autores para usar su obra. En cambio, Anthropic, Meta y otras empresas encontraron maneras de adquirir libros al por mayor sin el conocimiento de los autores, según los documentos judiciales, incluso descargando copias piratas.

En una presentación legal recientemente publicada, Anthropic reveló que el cofundador Ben Mann descargó personalmente un botín de ficción y no ficción de una “biblioteca paralela” de libros y otro contenido que infringe los derechos de autor llamada LibGen durante un período de 11 días en junio de 2021. Una captura de pantalla de su navegador web incluida en los documentos lo muestra descargando archivos con un software para compartir archivos.

Anthropic afirmó en documentos legales que la compañía nunca entrenó un modelo de IA comercial que generara ingresos utilizando sus datos de LibGen y que nunca utilizó Pirate Library Mirror para entrenar ningún modelo de IA completo.

Google, Microsoft y OpenAI, creador de ChatGPT, también enfrentan demandas por derechos de autor por parte de autores de libros que presentan acusaciones similares. (The Washington Post tiene un acuerdo de contenido con OpenAI.)

En junio, el juez de distrito William Alsup dictaminó que Anthropic tenía derecho a usar libros para entrenar modelos de IA porque procesan el material de forma “transformadora”. Comparó el proceso de entrenamiento de IA con el de los profesores que “enseñan a los escolares a escribir bien”. Ese mismo mes, el juez de distrito Vince Chhabria dictaminó en el caso Meta que los autores de los libros no habían demostrado que los modelos de IA de la compañía pudieran perjudicar las ventas de sus libros.

Pero las empresas aún pueden verse en problemas por su forma de adquirir libros. En el caso de Anthropic, el proyecto de escaneo de libros fue aprobado, pero el juez determinó que la empresa podría haber infringido los derechos de autor de los autores al descargar millones de libros pirateados gratuitamente antes de lanzar el Proyecto Panamá.

Alsup concedió el estatus de demanda colectiva a los autores cuyos libros se incluyeron en dos bibliotecas paralelas (enormes colecciones de libros digitalizados compartidos en línea sin autorización) que Anthropic había descargado y almacenado para su uso futuro. En lugar de enfrentarse a un juicio, la compañía acordó pagar 1.500 millones de dólares a editoriales y autores sin admitir ninguna irregularidad. Los autores cuyos libros fueron descargados pueden reclamar su parte del acuerdo, estimada en unos 3.000 dólares por título.

- - -

Cuando Anthropic emprendió su Proyecto Panamá para comprar y escanear libros físicos, recurrió a un veterano de Silicon Valley. La compañía contrató a Tom Turvey, un ejecutivo de Google que había ayudado a crear el famoso, pero legalmente controvertido, proyecto Google Books del gigante de las búsquedas dos décadas antes.

Los empleados de Anthropic también discutieron la posibilidad de acercarse a bibliotecas estadounidenses, incluida la Biblioteca Pública de Nueva York [NYPL, por sus siglas en inglés] o “una nueva biblioteca que padece una subfinanciación crónica”, según los documentos.

Anthropic finalmente adquirió millones de libros, a menudo en lotes de decenas de miles, según los documentos presentados. Dependía de libreros, entre ellos las tiendas de libros usados ​​Better World Books y World of Books, con sede en el Reino Unido.

La cantidad final de libros escaneados y su costo están redactados en los documentos, pero una propuesta de proyecto de un proveedor que finalmente trabajó con Anthropic señaló que la empresa de inteligencia artificial estaba “buscando un proveedor experimentado de servicios de escaneo de documentos para convertir de 500.000 a dos millones de libros en un período de seis meses”.

El documento describe cómo la máquina de corte hidráulica de la empresa de escaneo cortaba con precisión los libros, cuyas páginas se escaneaban posteriormente en escáneres de alta velocidad, alta calidad y nivel de producción. Finalmente, señala que la empresa de escaneo coordinará con la empresa de reciclaje la recogida de los libros terminados.

Los documentos publicados en la demanda por derechos de autor contra Meta muestran que los empleados del gigante de las redes sociales también ansiaban más datos y estaban dispuestos a asumir riesgos legales para obtenerlos. Si bien el juez Chhabria falló a favor de Meta en el uso de libros para entrenar modelos de IA, permitió que los autores siguieran adelante con las acusaciones de que Meta distribuyó ilegalmente copias de libros pirateados. Los demandantes buscan que se les conceda el estatus de demanda colectiva por estas reclamaciones en el Distrito Norte de California.

En su demanda, los autores alegaron que los altos mandos de Meta consideraron pagar por libros para entrenar sus modelos de IA, pero optaron por descargar millones de libros gratis de plataformas de torrents que facilitan la piratería en línea. El diseño de las plataformas suele recompensar a los usuarios que suben material con descargas más rápidas de grandes colecciones de archivos.

“Descargar torrents desde una laptop corporativa no me parece correcto”, escribió un ingeniero en 2023, según los documentos. Posteriormente, el mismo empleado expresó su preocupación al equipo legal de la empresa por el hecho de que usar sitios de torrents podría implicar compartir contenido pirateado, lo cual “podría ser legalmente inaceptable”.

“Si hay cobertura mediática que sugiera que hemos utilizado un conjunto de datos que sabemos que está pirateado, como LibGen, esto puede socavar nuestra posición negociadora con los reguladores sobre estos temas”, continuó el correo electrónico.

En una presentación el mes pasado, los abogados de Meta escribieron que la compañía “niega haber distribuido las obras de los demandantes cuando descargó datos de entrenamiento… usando torrents”.

“OpenAI dio el pistoletazo de salida que condujo a la piratería desenfrenada por parte de empresas de IA y a la explotación de toda la expresión humana”, declaró Justin A. Nelson, abogado de Susman Godfrey LLP, quien representa a autores de libros en los casos de OpenAI y Anthropic. OpenAI declinó hacer comentarios para este artículo.

Grimmelmann, profesor de derecho de Cornell Tech, afirmó que las empresas de IA “se autoconvencieron de una falacia” sobre el uso de datos con derechos de autor. Los avances detrás de ChatGPT y herramientas similares comenzaron en la investigación académica, donde el uso de material con derechos de autor para la capacitación está ampliamente aceptado, explicó, pero los investigadores continuaron con esta práctica incluso cuando se comercializaron los modelos de IA.

La decisión de Anthropic de adquirir y escanear libros físicos en lugar de descargar bibliotecas paralelas resultó ser una decisión inteligente, añadió. “Este sería un buen ejemplo de cómo la empresa adopta un enfoque más moderado y logra el cumplimiento legal”.

* Will Oremus escribe para The Washington Post sobre las ideas, los productos y las luchas de poder que configuran el mundo digital. Antes de unirse a The Post en 2021, trabajó durante ocho años como redactor senior de tecnología en Slate y dos años como redactor senior para OneZero en Medium.

[Fotos: Reuters/ Dado Ruvic/ Illustration; Reuters/ Dado Ruvic/ Illustration/File Photo; Gabby Jones/ Bloomberg; Marissa Leshnov/ The New York Times; Pexels]

Fuente: telam

Compartir

Comentarios

Aun no hay comentarios, sé el primero en escribir uno!