Cada vez que damos una instrucción a un LLM, como ChatGPT o Gemini, los datos que enviamos acaban en centros de datos y son utilizados para mejorar sus productos, y sabe Dios para que más. Ya hemos hablado sobre lo que es el capitalismo cognitivo y cómo los grandes emporios tecnológicos utilizan los datos y la información, a veces públicos y a veces privados, para obtener beneficios económicos, perpetuando desigualdades económicas y sociales. Además, a nadie le interesa que se utilicen sus datos privados, sea cual sea la motivación detrás. Es aquí donde entran el aprendizaje federado y los modelos locales de IA.
¿Qué es el aprendizaje federado?
El aprendizaje federado es una técnica de entrenamiento de IA que se centra en la privacidad de los datos de los usuarios. El funcionamiento es sencillo. Cuando usamos un LLM como ChatGPT, los datos que enviamos al modelo de lenguaje llegan a los centros de datos de OpenAI, donde se utilizan para mejorar los productos de la empresa. Las IAs que utilizan aprendizaje federado funcionan de una manera diferente. En este caso, los modelos de IA que se utilizan se alojan en los servidores locales o en data centers privados en la nube (claramente los servidores locales son más seguros que los centros de datos en la nube). Por lo tanto, se descarga una copia del modelo en el dispositivo local. Con el uso continuado del modelo, este va "aprendiendo" y mejorando en los servidores locales sin que los datos enviados salgan de los mismos. Después, cuando se va a mejorar el modelo de IA, se envía a la compañía la "mejora" que ha habido a nivel local; es decir, el modelo mejora a nivel local y se envía la diferencia entre el modelo que había llegado y el que ahora opera en los servidores, manteniendo los datos en todo momento en los servidores locales. De esta manera, se consigue mejorar los modelos sin comprometer los datos.
Pero no es oro todo lo que reluce. Es cierto que el aprendizaje federado ha servido para proteger la privacidad de los datos en lugares donde los datos son especialmente sensibles. Por ejemplo, se ha utilizado en bancos y hospitales, entrenando, desde el principio, modelos de IA predictiva (que no son IA generativa como los LLMs). Sin embargo, en los LLMs que utilizan aprendizaje federado esto ha ocurrido de manera diferente. El aprendizaje federado se utiliza en el fine-tuning, es decir, en el proceso de mejora que soluciona pequeños problemas o perfeccionan los modelos. Esto quiere decir que los datos de los usuarios de estos modelos de IA generativa están protegidos, pero no lo han estado los datasets con los que ha sido entrenada. Por lo tanto, estos modelos que implementan el aprendizaje federado mantienen los mismos problemas radicales: han sido entrenados con una cantidad de datos ingente, sean públicos o privados, de los que las empresas tecnológicas se benefician económicamente; los modelos perpetúan, bajo una capa de neutralidad, los mismos sesgos que tenían los datos con los que han sido entrenados; y mantienen las mismas desigualdades económicas y sociales.
Pero, ¿a quién protege el aprendizaje federado? Si buscamos algún ejemplo en el que el aprendizaje federado está al alcance de cualquier usuario lo encontraremos en el teclado predictivo de Google. Más allá de eso, el aprendizaje federado es ajeno al día a día de los individuos. Si lo que deseamos es encontrar LLMs que usen aprendizaje federado la tarea se complica. Utilizaré dos ejemplos concretos: Sherpa.AI (española) y TensorOpera AI (estadounidense, Silicon Valley). Ambas son empresas privadas de IA basada en el Saas (software como servicio). Sus clientes son, exclusivamente, empresas que busquen implementar LLMs (e IAs predictivas) en sus negocios. No existe ningún LLM que use aprendizaje federado, al menos que yo haya encontrado, que este destinado para los consumidores individuales, y mucho menos uno gratuito. Por lo tanto, se genera una brecha clara: las empresas, y aquellas personas con gran poder adquisitivo que pueden tratarse a sí mismos como empresas, tienen acceso a la privacidad de datos, los individuos no. Así, las empresas de un sector se benefician y ayudan a empresas de otros sectores, despreciando a los ciudadanos.
Si lo buscamos es una forma de que los individuos mantengan el control de los datos, el aprendizaje federado se descarta y es aquí donde se introducen los modelos locales de IA.
Modelos locales - H2O.ai
Los modelos locales de IA (entre ellos los LLM) son modelos que, en vez de utilizarse en la nube y con conexión a Internet, se descargan en los dispositivos o servidores propios. De esta manera, el modelo de IA pierde la conexión con la empresa y los datos no salen nunca de tu dispositivo. Para explicar mejor cómo funcionan los modelos locales, y sus limitaciones, utilizare un ejemplo:
H2O.ai.
H2O.ai es una empresa estadounidense de Machine-Learning y software de código abierto centrada en la privacidad de los datos. En el campo de los LLM utiliza modelos de código abierto como Llama (Meta) o Mistral, además de sus propios GPTs. Lo que permite H2O.ai, al ser un servicio de Machine-Learning es adaptar y personalizar los LLMs de código abierto, según tus intereses y posteriormente descargarlos para utilizarlos de manera local. Ya he comentado anteriormente cuáles son los problemas, relacionados con los datos, de los LLM entrenados con cantidades masivas de datos, sean de código abierto o no. Utilizaré ahora, para explicar los beneficios y las limitaciones de los modelos locales, las opciones que brinda H2O.ai.
H2O LLM Studio - Es un "estudio"/taller de LLMs de código abierto. Permite mejorar LLMs de código abierto y personalizarlos mediante herramientas sencillas y luego descargarlo (permitiéndote utilizar tus datos de manera local para adaptarlo o entrenarlo). Es gratuito.
H2O GPT - Es una plataforma, que ejecutas de manera local, que permite utilizar los LLMs de código abierto en tu ordenador o servidor. Permite que los datos no salgan nunca de tu dispositivo o servidor. Es gratuito.
H2O GPTe - La "e" es de Enterprise. Es un servicio de pago que permite a las empresas implementar herramientas de IA en sus servidores locales y que las administren, mejoren y revisen los técnicos y desarrolladores de H2O. También mantiene los datos en los servidores.
H2O Personal GPT - Es una aplicación descargable para dispositivos móviles que permite utilizar modelos de lenguaje comprimidos de código abierto (aunque la aplicación no es de código abierto) de manera local. No son LLMs sino SMLs (Modelos de Lenguaje Pequeños). Es gratuita.
Como se puede apreciar, el uso de H2O GPTe no se diferencia en nada a los LLMs que usan aprendizaje federado, en lo que a nosotros nos respecta, por lo que no merecerá más atención. Ahora bien, la opción más accesible para cualquiera es H2O Personal GPT. Sin embargo, esta opción es ínfima en cuanto a capacidades respecta. La capacidad de respuesta de los modelos que se pueden usar a través de H2O Personal GPT son muy limitados. Tienen una capacidad de tokens (la cantidad que se puede procesar entre preguntas y respuestas) mínima y su velocidad es de, aproximadamente una o dos palabras por segundo en teléfonos de gama media. Además, la cantidad de datos con los que se han entrenado estos modelos es muy poca, por lo que la calidad de las respuestas es mala. El único beneficio de usar esta aplicación es la privacidad de los datos, por lo que será utilizada en casos muy concretos donde haya que mantener la privacidad y el prompt o la tarea sean muy sencillas. A su vez, tanto el H2O LLM Studio como el H2O GPT merecen la misma consideración, con la pequeña diferencia de que el Studio ofrece ciertas herramientas concretas para mejorar los modelos. Personalmente, considero que estos son la mejor opción. Son de código abierto, permiten cambios y mejoras, son gratuitos y mantienen tus datos en privado. No obstante las limitaciones existen. Si una empresa desea implementar un modelo de lenguaje personalizado, sin pagar por el servicio del GPTe, deberá tener a disposición un equipo de desarrolladores de software. A parte de la brecha que supone el tener que contratar a desarrolladores, comparado con los individuos para los cuales es imposible, estos trabajos suelen tener gran inestabilidad laboral, creando el llamado cognitariado. Si nos centramos en el uso de los modelos por los individuos, no por las corporaciones, aparecen dos nuevos problemas. El primero, aunque menor, es que es necesario un conocimiento que no todos tienen para utilizar el Studio o para cambiar el código del modelo. Por lo tanto, la mayoría de la gente queda con una única opción viable: usar H2O GPT sin modificar el código. Para que los datos se mantengan privados se debe descargar y ejecutar el modelo de IA de manera local, lo que necesita gran capacidad computacional. Utilizar H2O GPT, sin comprimir los modelos tanto como en el Personal GPT, de manera viable, funcional y beneficiosa tiene unos requisitos mínimos (los requisitos que aquí expongo son los necesarios para que el modelo merezca la pena, pero no servirán para su máxima capacidad. Además, utilizaré mi ordenador como comparación, pues se encuentra en una gama media y aceptable): procesador de gama media-alta, como un Intel Core i7 12700F 2.1GHz (entre 250 y 400 euros), el mío es Intel Core i5 9400F 2.9 GHz (150 euros); mínimo 64 GB de RAM ( unos 350 euros, la mitad si queremos sólo 32 GB de RAM, lo que limitará las capacidades), yo tengo 16 GB (90 euros); y una tarjeta gráfica con 24 GB de VRAM, como la GeForce RTX 3090 (entre 1.000 y 1.300 euros, las más baratas), yo tengo una GeForce GTX 1660 Super con 6GB de VRAM (400 euros). Las cuentas nos salen así: 650 euros de inicio (con lo que no se puede usar H2O GPT), entre 775 y 1.400 euros más (entre 1425 y 2050 euros de inicio) si queremos los mínimos para usar los LLMs y unos 6.000 euros de más si se quiere usar los mejores modelos. Además, otra comparación, consecutivamente, es la siguiente: LLM de unos 30B (mil millones en España) de parámetros como Gemini Flash 2.5 (que se puede usar en cualquier dispositivo al no ser local), modelos de 13B de parámetros como Llama 2 o de 8B como Llama 3 (menos capacidad de razonamiento que Gemini 2.5 Flash) y modelos de 70B de parámetros como Llama 3. Lo común entre personas que utilizan LLMs locales es usar modelos como el Llama 2 de 13B de parámetros. Esta comparación nos muestra una mezcla entre la brecha de conocimiento y la brecha de poder adquisitivo, donde podrán proteger sus datos usando IAs únicamente aquellos con dinero, capacidad computacional y conocimientos suficientes como para reunir todos estos requisitos. Así, la privacidad de datos se conseguirá con conocimientos, tiempo y mínimo 2.000 euros, algo que no demasiado pueden tener.
Por lo tanto, las conclusiones se muestran obvias, la protección de datos es un lujo de unos pocos. Mientras las empresas tecnológicas de inteligencia artificial protegen, en búsqueda de rédito económico, a otras empresas el individuo queda desprotegido. Solo algunos que cumplan ciertas características podrán conseguir la querida protección. Las dichas características, además, son propias de algunas dicotomías: educación superior/conocimientos - educación obligatoria/no conocimientos; ricos - pobres, tiempo libre - no tiempo libre, norte global - sur global, países desarrollados - países en vías de desarrollo... En estos casos, las características tienen muchas más posibilidades de ser obtenidas en la primera parte de las dicotomías. Es por ello que las empresas tecnológicas no sólo perpetúan sesgos y desigualdades mediante sus modelos de lenguaje y los datos utilizados sino que los perpetúan y agrandan de manera directa. Todo esto, en la realidad social, se traduce en: relaciones de dominación, desigualdades económicas y sociales, falta de privacidad, sesgos cognitivos y trabajos precarios (como el cognitariado).
Enrique Jurado
Bibliografía y enlaces
WOW! qué super post. Muy completo. Tengo una duda: ¿qué sistema sería más conveniente, completo, etc para detectar errores provocados por el propio sistema? Y me explico: cuando un error se comete de manera sistemática, la máquina lo normaliza e incorpora a su sistema como una parte más pero sin la connotación de error; ejemplo muy sencillo: los autocorrectores ya no responden si masivamente se comete una falta de ortografía, sino que la terminan por validar. Si un sistema se queda de puertas hacia dentro, ¿puede verse abocado, en caso de un error, a una espiral sin salida? Dicho de otra manera: ¿cómo evitar la propia burbuja epistemológica en un sistema demasiado cerrado y endogámico?
ResponderEliminarRaimundo Díaz Valentín
Hola Raimundo. Muy buena pregunta. Si te soy sincero, no tengo la respuesta, pero me puedo permitir especular. Imagino que cada situación concreta requeriría una explicación y una actuación diferente. Como se ha explicado, los modelos locales también son partícipes de la perpetuación de sesgos por los datos con los que han sido entrenados. Estos sesgos pueden convertirse dentro un modelo local, al igual que en los modelos como ChatGPT o Gemini, en lo que en los humanos llamaríamos sesgos cognitivos. Por otro lado, las burbujas epistemológicas ocurren también en los dos tipos de modelos, realizando juicios de valor erróneos o creando relaciones entre conceptos que no existen. Las diferentes opciones, a mi juicio, de combatir este problema son tres. En los modelos cerrados controlados por los emporios tecnológicos la revisión de estos problemas y su solución recae en ellos. Esto supone la confianza en que ellos lo van a arreglar, o que haya grandes grupos de personas que presionen públicamente para que se arregle. Al utilizar modelos de código abierto la responsabilidad para arreglarlo cae en la comunidad que utiliza los modelos y modifica su código. Al utilizar un modelo local no sólo te beneficias de la protección de datos sino que asumes las responsabilidades que ello conlleva. Ahora eres tú, como individuo, dueño de tus datos y del modelo que estas utilizando. La revisión de los errores recae en el individuo que se hace dueño del modelo y tiene la responsabilidad, si el así lo considera, de intentar solucionarlo mediante la modificación del código o el uso de prompts estratégicos. Si un individuo decide construirse una casa desde cero, en vez de comprar una, él es responsable de la buena construcción y de que todo se realiza de manera correcta. Con los LLMs locales ocurre lo mismo, la responsabilidad recae en el individuo. Es un pequeño acto rebelde que traspasa el dominio del modelo. Por lo tanto, las acciones que yo recomiendo son: la revisión de todas las respuestas del modelo, el uso de prompts estratégicos y bien redactados, el uso de técnicas como el Self-consistency para identificar errores y sesgos y la creación de comunidades digitales de usuarios de modelos de IA locales basadas en el apoyo mutuo. Espero haber respondido a tu duda.
Eliminar