Meta y la IA: ¿Derechos de autor en riesgo? La polémica Libgen y el entrenamiento de Llama

Las grandes empresas tecnológicas como Meta se enfrentan a dilemas éticos y legales significativos en su búsqueda por dominar el campo de la inteligencia artificial. Recientes documentos judiciales revelan que empleados de Meta discutieron internamente el uso de obras protegidas por derechos de autor, obtenidas mediante métodos cuestionables, para entrenar sus modelos de IA. Este debate interno, ahora expuesto públicamente, plantea preguntas cruciales sobre los límites de la “fair use” y la responsabilidad de las empresas en la adquisición de datos para el desarrollo de tecnologías avanzadas. Este artículo analizará en detalle la controversia, las implicaciones legales y éticas, y las estrategias que Meta habría considerado para mitigar los riesgos asociados.

La Controversia de los Datos con Copyright y la IA de Meta

La demanda Kadrey v. Meta, en la que autores como Sarah Silverman y Ta-Nehisi Coates figuran como demandantes, ha desvelado comunicaciones internas que sugieren que Meta consideró activamente el uso de materiales con copyright para entrenar sus modelos de IA, incluyendo la familia de modelos Llama. Esta estrategia se habría planteado a pesar de las dudas sobre su legalidad, lo que evidencia una tensión entre la necesidad de datos para competir en el mercado de la IA y el respeto a los derechos de autor.

“Pedir Perdón, No Permiso”: La Mentalidad Interna en Meta

Las conversaciones internas revelan una mentalidad pragmática, incluso arriesgada, entre algunos empleados de Meta. Un ingeniero de investigación propuso la idea de “pedir perdón, no permiso”, sugiriendo adquirir libros y escalar la decisión a los ejecutivos para que tomaran la responsabilidad final. Esta actitud refleja una cultura interna donde la velocidad y la competitividad podrían haber primado sobre las consideraciones legales y éticas. La discusión también incluyó la posibilidad de comprar ebooks a precios minoristas en lugar de negociar acuerdos de licencia con las editoriales, una táctica que, según algunos, ya estarían utilizando numerosas startups.

Libgen y Otras Fuentes Cuestionables

Además de los ebooks comprados, los empleados de Meta discutieron la posibilidad de utilizar Libgen, una plataforma que agrega enlaces a obras protegidas por derechos de autor. Esta opción fue considerada a pesar de ser ampliamente reconocida como ilegal y haber enfrentado numerosas demandas por infracción de copyright. La discusión interna reveló que algunos en Meta creían que no usar Libgen podría perjudicar la competitividad de la empresa en el desarrollo de IA. Para mitigar los riesgos legales, se propusieron medidas como eliminar datos marcados como “robados” o “pirateados” y no divulgar públicamente el uso de estos datasets.

Estrategias para Evitar Infracciones de Propiedad Intelectual

Ante la creciente preocupación por las implicaciones legales, el equipo de IA de Meta también implementó estrategias para evitar “prompts riesgosos en términos de propiedad intelectual”. Esto implicaba configurar los modelos para que se negaran a responder preguntas que pudieran infringir los derechos de autor, como reproducir fragmentos de libros protegidos o revelar los materiales utilizados en su entrenamiento. Además, se sugiere que Meta pudo haber extraído datos de Reddit, posiblemente imitando el comportamiento de aplicaciones de terceros, lo que plantea nuevas preguntas sobre la ética y la legalidad de la adquisición de datos.

Necesidad de Más Datos y Consideraciones Finales

A pesar de contar con vastos datasets propios, como las publicaciones de Facebook e Instagram, la transcripción de videos y los mensajes de Meta for Business, la dirección de Meta consideró “anular” decisiones anteriores sobre conjuntos de entrenamiento para asegurar que sus modelos tuvieran suficientes datos. Esto incluía reconsiderar el uso de contenido de Quora, libros licenciados y artículos científicos. Ante la creciente presión legal, Meta ha reforzado su equipo de defensa con litigantes de la Corte Suprema, lo que subraya la importancia que la empresa otorga a este caso.

La controversia en torno al uso de material protegido por derechos de autor para entrenar modelos de IA subraya la necesidad de establecer marcos legales y éticos claros en este campo. Mientras que empresas como Meta buscan innovar y competir en el mercado de la IA, deben equilibrar sus ambiciones con el respeto a la propiedad intelectual y la transparencia en sus prácticas. La resolución de casos como Kadrey v. Meta sentará un precedente crucial sobre los límites de la “fair use” y la responsabilidad de las empresas en la era de la inteligencia artificial.