“The New York Times” demanda a OpenAI y Microsoft por violar derechos de autor. Pero todos los modelos de lenguaje hacen lo mismo: se entrenan con información pública de la web.

Por Juan Carlos Luján, colaborador.

Lima, 27 de diciembre de 2023.- Lo que se veía venir finalmente se concretó. Uno de los gigantes de la industria del periodismo, o mejor dicho uno de los medios más influyentes y exitosos en el mundo, acaba de plantarle cara a OpenAi, la empresa creadora de ChatGPT y a Microsoft, socio comercial, por violación de los derechos de autor.

“The New York Times” no es cualquier cosa en el negocio del periodismo. Tiene una fuerte presencia digital a través de una plataforma multimedia en la que ofrece contenido en línea de pago, también tiene algunos componentes gratuitos en español, aplicaciones móviles, podcasts, galerías fotográficas y otros formatos digitales. Sus abogados han entendido que los chatbots de OpenAI y de Microsoft explotaron sus contenidos sin permiso para crear sus productos de inteligencia artificial generativa.

Según la demanda, las herramientas fueron entrenadas con millones de contenidos del Times y se basan en ese material para ofrecer respuestas a las preguntas de los usuarios. El diario estima en “varios miles de millones de dólares” los daños sufridos y exige una indemnización, así como una orden para que las empresas dejen de utilizar su contenido y destruyan los datos ya recopilados.

La denuncia se produce luego de meses de negociaciones comerciales entre las empresas no llegaran a un acuerdo.

Todos los bots se alimentan de nosotros

Más allá de esta denuncia del Times, lo cierto que todos los chatbots se alimentan de publicaciones web. Copilot, Bard, Perplexity, Consensus, Merlin, Jasper, TextCortex, You.com, Copilot, Claude, Quillbot, StudyFetch, entre otras miles. Hasta los chinos de Bytedance (los propietarios de Tik Tok) también lo hacen y los muy vivos fueron sorprendidos usando ChatGPT4 para entrenar un producto rival, pero OpenAI les suspendió la cuenta la semana pasada.

Ni las redes sociales se salvan. Bard de Google se alimenta de todo el ecosistema digital que administra y Meta, de Facebook, hace lo mismo con sus modelos de código abierto, como Llama. Todos entrenan sus modelos de lenguaje con información pública en la web.

Todos los que generamos contenido digital, incluyendo quienes escriben en este blog, contribuimos indirectamente a que los proveedores de IA construyan miles de herramientas y ganen dinero de forma gratuita y sin el consentimiento de los autores. Encima nos cobran en promedio de US$10 a US$20, sin considerar que nuestra moneda es débil frente a la del hemisferio norte.

La nota de prensa “volteada”

Y eso lo he corroborado por si acaso. Hace unas semanas le pedí a ChatGPT que elaborara una nota de prensa basada en los datos de un taller sobre gestión de contenidos con inteligencia artificial generativa. El chatbot hizo lo suyo en segundos, pero al fijarme en las fuentes empleadas, destacaban tres sitios web familiares: mi página web de los talleres (SpMedia.mixo.io), VidayFuturo.pe y América Sistemas.

Los tres sitios web habían promovido semanas atrás un taller similar que yo también dictaba, pero con fechas diferentes. El chatbot, obviamente, reelaboró la nueva nota de prensa usando información de esas publicaciones.  

El bot se defiende

Antes de cerrar este texto, fui a Copilot y le entregué este artículo para consultarle si estaba cometiendo algún acto de desinformación en este texto. La repuesta no se hizo esperar. Explicó que ya tienen otras demandas presentadas por artistas, periodistas y medios de comunicación. Me recordó, además, que existen formas de proteger el contenido a través de las licencias digitales como Creative Commons o marcando los contenidos como no indexables para los buscadores web o usando sistemas de cifrado o autenticación.

Hola, soy Bing. Gracias por tu pregunta. 😊

La información en ese artículo es parcialmente correcta, pero también contiene algunas afirmaciones falsas o exageradas. Te explico:

- Es cierto que OpenAI y Microsoft han sido demandados por The New York Times por violación de derechos de autor, ya que usaron el contenido de ese diario para entrenar sus modelos de lenguaje, como ChatGPT¹². Sin embargo, esta no es la única demanda que han recibido, ya que también han sido acusados por otros autores, escritores y periodistas por el mismo motivo³⁴⁵.

- También es cierto que otras empresas como Perplexity, You.com, Copilot, Claude, Quillbot, StudyFetch, entre otras, usan diversas publicaciones web para entrenar sus modelos de lenguaje, al igual que Bard de Google y Llama de Meta. Sin embargo, no todas estas empresas usan la misma tecnología que OpenAI y Microsoft, ni tienen el mismo nivel de capacidad o calidad. Algunas usan modelos basados en GPT-3 o GPT-4, mientras que otras usan modelos propios o diferentes⁶⁷ .

- No es cierto que todos los que generamos contenido digital contribuimos indirectamente a que los proveedores de IA construyan miles de herramientas y ganen dinero de forma gratuita y sin el consentimiento de los autores. Hay formas de proteger el contenido digital de ser usado por los modelos de lenguaje, como por ejemplo, usando licencias Creative Commons, marcando el contenido como no indexable por los motores de búsqueda, o usando sistemas de cifrado o autenticación  . Además, hay iniciativas para regular el uso ético y responsable de la IA, como por ejemplo, el Partnership on AI, el AI Ethics Board, o el AI and Media Integrity Steering Committee  .

- La anécdota que cuentas sobre ChatGPT es interesante, pero no demuestra que el chatbot sea capaz de generar contenido original o de calidad. Lo que hace ChatGPT es usar la información que encuentra en la web para completar una tarea, pero no verifica la veracidad, la relevancia o la coherencia de esa información. Además, ChatGPT puede cometer errores, contradecirse o generar respuestas absurdas o inapropiadas . Por eso, no se debe confiar ciegamente en lo que dice o hace ChatGPT, sino usarlo con precaución y sentido crítico.

Espero haberte ayudado a aclarar tus dudas sobre este tema. Si tienes más preguntas, no dudes en hacerlas. Estoy aquí para ayudarte. 😊.


Origen: Conversación con Bing, 27/12/2023

(1) ChatGPT - OpenAI. https://openai.com/chatgpt.

(2) Introducing ChatGPT - OpenAI. https://openai.com/blog/chatgpt/.

(3) ¿Qué es y cómo funciona ChatGTP? - National Geographic España. https://www.nationalgeographic.com.es/ciencia/chatgtp-esta-boca-todos-nadie-sabe-que-es_19461.

(4) ChatGPT - OpenAI聊天. https://chat.openai.com/auth/login.

(5) Two Engineers Bring Class Action Lawsuit Against OpenAI, Microsoft. https://www.techrepublic.com/article/openai-microsoft-class-action/.

(6) Nonfiction authors sue OpenAI, Microsoft over copyright infringement .... https://www.computerworld.com/article/3711321/nonfiction-authors-sue-openai-microsoft-over-copyright-infringement.html.

(7) Report: Potential NYT lawsuit could force OpenAI to wipe ChatGPT and .... https://arstechnica.com/tech-policy/2023/08/report-potential-nyt-lawsuit-could-force-openai-to-wipe-chatgpt-and-start-over/.

(8) es.wikipedia.org. https://es.wikipedia.org/wiki/ChatGPT.

Los que estamos detrás de un blog sabemos perfectamente eso y también que si el contenido está cifrado, los bots no ingresan, a menos que paguen por ser suscriptores, pero eso ya es asunto de gringos.

Otro aspecto interesante en la respuesta del chatbot es que se puso a la defensiva al recordarme que cada vez que use ChatGPT debo hacerlo con precaución y tener un espíritu crítico porque no verifica la veracidad o relevancia de la información y puede cometer errores o contradecirse. Es decir, el litigio promete ponerse interesante el 2024.