Cómo proteger la privacidad de los datos al utilizar y entrenar modelos de lenguaje

El otro día hice una pregunta en voz alta y me respondieron “no sé, pregúntale a ChatGPT”.

La inteligencia artificial generativa ha captado la atención de la industria tecnológica y del público en general. Desde la generación automática de textos hasta la creación de imágenes y videos, los avances en modelos de lenguaje a gran escala —o LLMs, de Large Language Models— han transformado cómo interactuamos con la tecnología. Sin embargo, el uso y entrenamiento de estos modelos plantea nuevos desafíos en términos de privacidad de los datos, un tema cada vez más relevante en la agenda regulatoria global.

Exploraremos los principales riesgos de privacidad que surgen al entrenar y utilizar LLMs y las mejores prácticas que las empresas pueden adoptar para proteger los datos personales, cumpliendo así con normativas emergentes como la nueva ley de protección de datos en Chile.

Nueva ley de protección de datos personales y su impacto en el uso de LLMs

Las leyes de protección de datos, como la reforma a la ley chilena que entrará en vigor en unos meses y el Reglamento General de Protección de Datos (GDPR) en Europa, están configurando un nuevo entorno regulatorio para las empresas que desarrollan y usan modelos de IA.

Una característica clave de la nueva ley chilena es que otorga a los usuarios el derecho a oponerse al uso de sus datos para tomar decisiones automatizadas, incluidas aquellas basadas en la elaboración de perfiles. Esto es especialmente relevante para los LLMs que, entre otras cosas, tienen la capacidad de generar perfiles basados en grandes volúmenes de información. Bajo este contexto, es recomendable que las empresas que implementen estas tecnologías se aseguren de estar preparadas para cumplir con estos requisitos regulatorios y proteger los derechos de los usuarios.

¿De dónde provienen los riesgos?

El entrenamiento de los modelos de lenguaje a gran escala requiere de cantidades enormes de datos. Estos datos provienen de fuentes diversas, incluyendo sitios web, libros y bases de datos públicas, pero también pueden contener información sensible o personal.

La probabilidad de incorporar datos personales o privados aumenta cuando las empresas adaptan modelos haciendo reentrenamientos con datos internos de la empresa o información proporcionada directamente por sus usuarios. Este tipo de ajuste, conocido como fine-tuning, puede poner en riesgo la privacidad y exponer datos confidenciales en futuras interacciones con el modelo.

Por lo tanto, los riesgos que surgen son los siguientes:

Recolección de datos sin consentimiento: Muchos de los datos utilizados para entrenar LLMs provienen de scrapping de sitios web, lo que puede incluir contenido protegido por derechos de autor o información personal recopilada sin el conocimiento o autorización de los propietarios.
Exposición de datos sensibles: Los modelos de lenguaje, al generar texto basado en patrones previos, podrían producir información que revele datos personales inadvertidamente. Esto también se conoce como "regurgitar" información personal o sensible capturada durante su entrenamiento si se le ingresa el prompt adecuado, lo que compromete la privacidad de los usuarios.
Imposibilidad de rectificar o eliminar datos: Aunque los usuarios tienen derecho a solicitar la eliminación o corrección de sus datos, esto es particularmente complicado con los LLMs. Esto se debe a que los modelos no almacenan datos directamente, sino que aprenden patrones, lo cual dificulta eliminar o modificar información específica después del entrenamiento.

Cómo proteger la privacidad durante el entrenamiento de LLMs

Como vimos, el entrenamiento de modelos de lenguaje a gran escala presenta varios riesgos, especialmente cuando se trata de datos personales. Para que las empresas puedan cumplir con las regulaciones de privacidad y evitar problemas a futuro deben seguir una serie de buenas prácticas desde el inicio del proceso de entrenamiento. Algunas recomendaciones claves incluyen:

Es fundamental elegir cuidadosamente las fuentes de datos. No todos los datos disponibles son adecuados, ya que algunos pueden estar protegidos por derechos de autor o contener información personal obtenida sin consentimiento. Aquí es donde las empresas deben ser muy selectivas y asegurarse de que los datos cumplan con las normativas vigentes.
En Soyio desarrollamos tecnología para gestionar los consentimientos de los usuarios y mantener un registro actualizado de los datos que tienen autorización para ser utilizados para el entrenamiento de IA. Si te interesa conocer más contáctanos a hola@soyio.id
Otro aspecto crucial es la anonimización y limpieza de los datos antes de usarlos para el entrenamiento. Al eliminar identificadores personales y garantizar que la información procesada esté libre de datos sensibles, se reduce significativamente el riesgo de exposición. Esta limpieza de los datos no solo protege a los usuarios, sino que también mejora la calidad del modelo al evitar introducir sesgos o errores. En el caso de que las empresas decidan reentrenar modelos con datos internos, deben ser aún más cautelosas. Cuando se utilizan datos propios o proporcionados por los usuarios, es muy importante tener mecanismos que minimicen la cantidad de datos personales que se procesan y asegurar que no se integren de manera que puedan ser reutilizados o filtrados posteriormente.
Finalmente, una buena práctica es restringir el acceso a estos datos. Solo el personal estrictamente necesario debería tener acceso a la información durante el entrenamiento. Implementar controles de acceso, como autenticación multifactor y permisos basados en roles, garantiza que la información sensible esté protegida de accesos no autorizados. Una forma de asegurar esto desde el diseño es utilizar aprendizaje federado, esta técnica permite entrenar los modelos en los dispositivos que generan los datos y así evitar transferir los datos a servidores centralizados.

¿Y si los LLMs ya están en uso?

Una vez que los modelos han sido entrenados y comienzan a ser utilizados en soluciones tecnológicas, los riesgos cambian, pero no desaparecen. De hecho, es en esta fase cuando las empresas deben ser especialmente cuidadosas con la información que manejan, ya que los usuarios podrían proporcionar datos sensibles en sus interacciones con los modelos.

Algunas medidas que se pueden implementar incluyen:

Controlar la información que los usuarios proporcionan, sobretodo si es que estos se utilizarán para reentrenar y perfeccionar el modelo. Es muy fácil que un usuario revele datos personales sin darse cuenta durante una interacción con un LLM. Para prevenir esto se pueden utilizar filtros que detecten y anonimicen automáticamente este tipo de información antes de que sea almacenada para ese fin.

Aunque los datos no se utilicen para reentrenar el modelo, de todas maneras es importante garantizar una separación adecuada entre la información entregada por cada usuario al interactuar con el modelo. Esta medida está más relacionada con la implementación del software que con el modelo en sí, pero es fundamental para evitar que cualquier dato personal compartido por un usuario sea accesible por personas no autorizadas.

Además, es importante contar con sistemas que monitoricen constantemente el comportamiento del modelo. Esto ayuda a detectar posibles fugas de información o accesos no autorizados, además de reaccionar de manera rápida ante cualquier actividad sospechosa, como la manipulación de prompts que puedan desencadenar la generación de información sensible.

Relacionado con esto, también es relevante tomar medidas para evitar que el modelo reproduzca datos sensibles que fueron utilizados durante su entrenamiento. Esto es un reto técnico, pero hay formas de ajustar los algoritmos para reducir la posibilidad de que el modelo "regurgite" información personal.

Por último, realizar auditorías regulares sobre la seguridad y privacidad de los modelos es una práctica que asegura que las medidas implementadas estén funcionando correctamente. Estas auditorías permiten identificar posibles puntos débiles y reforzar las áreas que lo necesiten.

Los derechos de los usuarios frente a los desafíos de la IA

Uno de los principales retos que plantea el uso de modelos de IA como los LLMs es la dificultad de ejercer los derechos de protección de datos tradicionales. Derechos como el acceso, la rectificación o la eliminación de datos se vuelven complicados de ejercer, ya que los LLMs no almacenan la información en su forma original. En lugar de mantener los datos tal como fueron entregados, los modelos los transforman en parámetros y patrones matemáticos, lo que hace prácticamente imposible rastrear y eliminar datos personales específicos una vez que han sido usados en el proceso de entrenamiento.

Esta limitación técnica se convierte en un desafío considerable para el ejercicio pleno de los derechos especificados en normativas como el GDPR o la nueva ley de protección de datos en Chile. Sin embargo, hay medidas que las empresas pueden adoptar mientras este problema sigue siendo una cuestión abierta.

Por una parte, es hacer lo posible para evitar que los modelos sean entrenados con datos personales utilizando las medidas mencionadas previamente.

Pero por otro lado, una de las acciones más relevantes que pueden tomar es garantizar el derecho de oposición a decisiones automatizadas. Este derecho, exigido por la nueva ley chilena, permite a los usuarios solicitar que sus datos no sean utilizados para tomar decisiones que puedan afectarles de manera significativa sin una intervención humana. Aunque no es posible aplicar todos los derechos sobre los datos en los modelos de IA, las empresas pueden implementar mecanismos que aseguren que los usuarios no queden sujetos a decisiones automatizadas sin su consentimiento o sin una revisión adecuada.

Para lograr esto es muy importante que las empresas estén preparadas para gestionar eficientemente estas solicitudes llevando un registro de los consentimientos que sus usuarios han otorgado y también para desactivar estas funcionalidades de forma granular a los usuarios que lo soliciten, asegurando que no sean activadas nuevamente sin su consentimiento.

En Soyio desarrollamos tecnologías para facilitar a las empresas la gestión de los consentimientos que sus usuarios han otorgado, modificado o revocado, de forma granular y simplificando el lenguaje. Esto aumenta la confianza de tus usuarios y facilita a todos tus equipos internos el cumplimiento de la regulación. Si te interesa recibir más información, contáctanos.

El ejercicio de los derechos es un reto que sigue en evolución, sobretodo en el ámbito de los modelos de lenguaje LLMs, y mientras se desarrollan soluciones más avanzadas, las empresas deben centrarse en cumplir con las normativas actuales y ofrecer transparencia y control sobre el uso de los datos en procesos automatizados.

Cómo proteger la privacidad de los datos al utilizar y entrenar modelos de lenguaje

Nueva ley de protección de datos personales y su impacto en el uso de LLMs

¿De dónde provienen los riesgos?

Cómo proteger la privacidad durante el entrenamiento de LLMs

¿Y si los LLMs ya están en uso?

Los derechos de los usuarios frente a los desafíos de la IA

Jazmine Maldonado

Desbloquea la privacidad como ventaja competitiva

Sigue leyendo

Privacidad por diseño: el futuro del UX ético

¿Es Chile un país privado?

De SQL a NoSQL: Por qué y cómo migramos nuestra app sin morir en el intento