La inteligencia artificial almacena cada prompt que envías. Conoce los riesgos de exposición de datos personales y las configuraciones para navegar con seguridad.

El uso de la inteligencia artificial (IA) se ha integrado de forma masiva en nuestra rutina diaria, facilitando tareas que van desde la redacción de correos electrónicos hasta la programación de código complejo. Sin embargo, esta adopción explosiva —que llevó a ChatGPT a alcanzar los 900 millones de usuarios activos semanales a inicios de este año— abre un interrogante crítico sobre la seguridad de nuestra información: ¿qué sucede realmente con los datos que ingresamos en estos chats?

Para muchos usuarios, la interacción con un chatbot puede percibirse como una conversación volátil y privada. No obstante, la realidad técnica es distinta. Interactuar con grandes modelos de lenguaje (LLM) implica una red de procesamiento y almacenamiento que puede comprometer secretos comerciales o datos personales si no se gestiona correctamente.

De acuerdo con un análisis reciente de ESET, compañía líder en detección proactiva de amenazas, los datos recorren tres capas fundamentales. Primero, el almacenamiento e historial en los servidores de la empresa matriz (como OpenAI) para permitir el acceso multidispositivo. Segundo, el entrenamiento de modelos, donde la IA utiliza las conversaciones de versiones gratuitas para «aprender» y mejorar sus respuestas. Finalmente, existe una capa de revisión humana, donde especialistas anonimizan fragmentos de diálogos para evaluar la calidad y seguridad de la herramienta.

Mario Micucci, Investigador de Seguridad Informática de Eset Latinoamérica, advierte sobre el peligro de compartir información corporativa sensible: “Si un empleado introduce un fragmento de código propietario o un plan estratégico de marketing, es lógico pensar que, al entrenar el modelo con información propia, esta podría de alguna forma ser ‘utilizada’ para otros usuarios”. El experto señala que los modelos de lenguaje pueden memorizar partes de sus datos de entrenamiento, los cuales podrían ser extraídos mediante técnicas especializadas bajo ciertas condiciones.

Diferencias entre ChatGPT, Gemini y Claude

No todos los modelos operan bajo las mismas reglas de privacidad. Google Gemini, integrado en la infraestructura de Google, utiliza las conversaciones para mejorar servicios, incluyendo revisión humana. No obstante, para usuarios de Google Workspace corporativo, las políticas establecen que los datos no se usan para entrenar modelos globales.

Por su parte, Anthropic, con su modelo Claude, promueve una «IA Constitucional» centrada en la seguridad automatizada y la retención mínima de datos. Aunque en su versión gratuita los datos pueden usarse para mejoras, ofrece procesos de exclusión (opt-out) más directos para clientes comerciales y usuarios de API.

“La gran similitud entre todos estos modelos es que ninguno funciona como una ‘bóveda’ completamente aislada por defecto. Ya sea en OpenAI, Google o Anthropic, el proceso de aprendizaje automático depende de datos”, remarca Micucci. La distinción clave reside en el tipo de contrato: mientras las versiones gratuitas contribuyen al sistema, las empresariales tratan la privacidad como un servicio premium.

¿Cómo proteger nuestra identidad digital?

El riesgo no es solo interno. Eset advierte que los ciberdelincuentes tienen un interés creciente en las credenciales de acceso a estas plataformas. En 2024, se hallaron más de 225.000 registros de inicio de sesión de ChatGPT a la venta en la Dark Web, obtenidos principalmente mediante malware del tipo infostealer.

Para mitigar estos riesgos, la primera recomendación es la anonimización manual: nunca introducir nombres reales, valores financieros específicos o claves de acceso. En segundo lugar, es vital la gestión de cuentas mediante contraseñas robustas y la activación obligatoria de la autenticación de dos factores (2FA). Finalmente, se debe explorar la configuración de privacidad para desactivar manualmente el historial de chat y el entrenamiento de modelos, una opción disponible en los controles de datos de la mayoría de las herramientas líderes.

*En la creación de este texto se usaron herramientas de inteligencia artificial.