Saltar al contenido
Enrique Tomás Martínez Beltrán
InicioInvestigaciónPublicacionesTemasDocenciaBlog
ENES
Contacto
InicioInvestigaciónPublicacionesTemasDocenciaBlog
ENES
Contacto

Enrique Tomás Martínez Beltrán

Investigación en aprendizaje federado, IA confiable y ciberdefensa, con foco en sistemas robustos, con preservación de privacidad y útiles en operaciones de seguridad.

  • Política de privacidad
  • Términos del servicio
  • Accesibilidad
  • GitHubse abre en una pestaña nueva
  • LinkedInse abre en una pestaña nueva
  • Google Scholarse abre en una pestaña nueva
  • ResearchGatese abre en una pestaña nueva
  • ORCIDse abre en una pestaña nueva
  • Scopusse abre en una pestaña nueva
  • DBLPse abre en una pestaña nueva
  • Web of Sciencese abre en una pestaña nueva

Enrique Tomás Martínez Beltrán. Todos los derechos reservados.

Volver arriba

Este sitio carga analítica opcional de Google y proveedores externos de analítica solo si aceptas. Puedes rechazarla y seguir usando la web con normalidad.

  1. Inicio
  2. Notas de investigación sobre aprendizaje federado, ciberseguridad y ciberdefensa
  3. Aprendizaje federado sin compartir datos brutos
Aprendizaje federadoPrivacidadIADistributed SystemsCiberseguridad

Aprendizaje federado sin compartir datos brutos

Entrenamiento colaborativo de modelos con restricciones de privacidad

Enrique Tomás Martínez Beltrán

Investigador predoctoral en aprendizaje federado y ciberseguridad

29 de enero de 20248 min de lectura
  • LinkedInse abre en una pestaña nueva
  • Xse abre en una pestaña nueva
Aprendizaje federado sin compartir datos brutos

Muchos modelos de aprendizaje automático útiles requieren datos de más de una organización o dispositivo. Eso plantea una pregunta práctica: ¿cómo entrenar modelos respetando privacidad, confidencialidad y soberanía del dato? El Aprendizaje Federado (FL) es una respuesta a ese problema.

¿Qué es el Aprendizaje Federado?

El Aprendizaje Federado es un paradigma de aprendizaje automático que permite entrenar un modelo a través de múltiples dispositivos descentralizados o servidores que guardan muestras de datos locales, sin intercambiar dichas muestras. En lugar de centralizar los datos en una única ubicación, el FL permite que los modelos se entrenen de manera colaborativa manteniendo los datos crudos distribuidos localmente.

El Principio Central

La idea fundamental detrás del aprendizaje federado es simple pero muy poderosa:

  1. Entrenamiento Local: Cada participante entrena un modelo con sus propios datos locales.
  2. Agregación del Modelo: Únicamente se comparten las actualizaciones del modelo (nunca los datos brutos).
  3. Modelo Global: Un servidor central agrega todas estas actualizaciones para crear un modelo global mejorado.
  4. Distribución: El modelo mejorado se envía de vuelta a todos los participantes para la siguiente ronda de entrenamiento.

Este proceso se iterará hasta que el modelo converja a un nivel de rendimiento satisfactorio.

¿Por qué es Importante el Aprendizaje Federado?

Preservación de la Privacidad

Los enfoques tradicionales de machine learning requieren que los datos estén centralizados, lo que plantea riesgos de privacidad significativos:

  • Brechas de Datos: Los repositorios de datos centralizados son objetivos muy atractivos para los ciberataques.
  • Cumplimiento Normativo (Compliance): El GDPR, CCPA, y otras normativas de privacidad hacen que compartir datos sea complejo y legalmente arriesgado.
  • Confianza del Usuario: Los usuarios están cada vez más concienciados del uso de sus datos.

El aprendizaje federado aborda y resuelve estas preocupaciones al mantener los datos en instancias locales mientras, en paralelo, habilita un aprendizaje colaborativo.

Aplicaciones del Mundo Real

El aprendizaje federado se está usando en distintos sectores donde centralizar datos no siempre es viable:

Ámbito de la Salud

  • Imágenes Médicas: Diversos hospitales pueden colaborar para obtener diagnosis exactas sin poner en riesgo historiales médicos.
  • Descubrimiento de Fármacos: Ayuda a que las empresas farmacéuticas aúnen ideas preservando descubrimientos privados.
  • Ensayos Clínicos: Los ensayos multi-sede pueden compartir lo aprendido pero blindar la confidencialidad de cada paciente.

Servicios Financieros

  • Detección de Fraude: Múltiples bancos pueden mejorar sus sistemas antiesfafa de forma colaborativa sin compartir las transacciones de sus clientes.
  • Puntuación Crediticia (Credit Scoring): Las instituciones financieras pueden crear evaluaciones de riesgo compartiendo inferencia, pero custodiando sólidamente las operaciones y métricas crudas.

Aplicaciones Móviles

  • Texto Predictivo: Los teclados de un smartphone pueden aprender a sugerir frases basándose en el historial tipográfico local, sin llegar jamás a compartir e infectar los mensajes personales de todos.
  • Sistemas de Recomendación: Las apps pueden proporcionar sugerencias a medida y fuertemente personalizadas sin comprometer las preferencias crudas del usuario subiéndolas a un servidor maestro.

Análisis Técnico en Profundidad

Arquitecturas de Aprendizaje Federado

Existen múltiples tipos de arquitecturas en la estructura FL, cada una se amolda mejor a un escenario distinto:

1. Aprendizaje Federado Horizontal (HFL)

También conocido como aprendizaje federado basado en muestras, el HFL se emplea cuando los participantes cuentan con datos definidos bajo las mismas features (características) pero diferentes muestras.

Snippet
Participante A: [datos_usuario1, datos_usuario2, datos_usuario3]
Participante B: [datos_usuario4, datos_usuario5, datos_usuario6]
Participante C: [datos_usuario7, datos_usuario8, datos_usuario9]

Caso de Uso: Múltiples hospitales con bases de datos con la misma estructura pero pacientes diferentes.

2. Aprendizaje Federado Vertical (VFL)

También conocido como aprendizaje federado basado en características (features), el VFL entra en juego cuando los participantes tienen las mismas muestras, pero diferentes features.

Snippet
Participante A: [features_usuario1_A, features_usuario2_A, features_usuario3_A]
Participante B: [features_usuario1_B, features_usuario2_B, features_usuario3_B]

Caso de Uso: Un banco y una cooperativa de comercio colaborando conjuntos de datos (diferentes atributos) sobre unos mismos clientes cruzados para analizar su comportamiento.

3. Aprendizaje Federado por Transferencia (FTL)

El FTL fusiona el aprendizaje federado clásico con diversas técnicas del Transfer Learning (aprendizaje por transferencia) para cubrir de forma fluida los posibles escenarios en que existan lagunas entre las distribuciones de los datos participantes.

El Algoritmo de Federated Averaging (FedAvg)

El algoritmo FL más empleado a día de hoy es, sin duda, FedAvg (Federated Averaging), propuesto por Brendan McMahan et al. en 2017:

Python
# Pseudocódigo simplificado de FedAvg
def federated_averaging(global_model, client_models, client_weights):
    """
    Agrega modelos locales usando una ponderación por promedios
    
    Args:
        global_model: Parámetros del modelo global maestro en esta ronda
        client_models: Lista de parámetros de lo aprendido por cada participante
        client_weights: Lista referida a los pesos que se aplican para ponderar cada participante (basado habitualmente en volumen de tuplas locales)
    """
    aggregated_model = {}
    
    for param_name in global_model.keys():
        weighted_sum = 0
        total_weight = sum(client_weights)
        
        for i, client_model in enumerate(client_weights):
            weighted_sum += client_weights[i] * client_model[param_name]
        
        aggregated_model[param_name] = weighted_sum / total_weight
    
    return aggregated_model

Retos Técnicos y Soluciones

Sobrecarga Adicional de Comunicaciones

Desafío: entrenar modelos de forma federada exige comunicación frecuente entre participantes y coordinador. Si algunos nodos tienen conectividad limitada, las actualizaciones pueden volverse lentas, costosas o inestables.

Soluciones:

  • Compresión de modelo: cuantización y pruning reducen el tamaño de las actualizaciones.
  • Comunicación dinámica o selectiva: compartir solo deltas o pesos relevantes evita tráfico innecesario.
  • Actualizaciones asíncronas: permiten que dispositivos con ritmos distintos contribuyan sin bloquear toda la federación.

Heterogeneidad en los Sistemas (Agentes)

Desafío: un teléfono, un gateway IoT y un servidor edge tienen capacidades muy distintas de cómputo, energía y conectividad.

Soluciones:

  • Agregación adaptativa: ponderar contribuciones según calidad, disponibilidad o capacidad del nodo.
  • Agregación robusta: usar mediana, trimmed mean u otras defensas para reducir el efecto de outliers o participantes maliciosos.
  • FL personalizado: permitir modelos adaptados a cada contexto local cuando un único modelo global no representa bien todos los datos.

Ciberamenazas y Ataques hacia la propia Privacidad

Desafío: las actualizaciones de modelo pueden filtrar información sobre los datos locales si no se protegen adecuadamente. Ataques como model inversion o gradient leakage muestran que "no compartir datos brutos" no basta por sí solo.

Soluciones:

  • Privacidad diferencial: añadir ruido controlado a gradientes o métricas para limitar filtraciones.
  • Agregación segura: usar protocolos criptográficos para que el coordinador observe solo resultados agregados.
  • Cifrado homomórfico: operar sobre datos cifrados en escenarios donde el coste computacional sea asumible.

Mi propia Línea Investigativa en FL

Como investigador predoctoral en aprendizaje federado, mi trabajo se centra en estas líneas:

Aprendizaje Federado Descentralizado (DFL)

El esquema tradicional con un coordinador central puede convertirse en cuello de botella o punto único de fallo. Mi trabajo explora infraestructuras de aprendizaje federado descentralizado (DFL), donde los participantes colaboran mediante topologías peer-to-peer o semidescentralizadas.

Beneficios de este enfoque:

  • Tolerancia a fallos: no existe un único servidor cuya caída detenga toda la red.
  • Escalabilidad: resulta más natural incorporar o retirar participantes.
  • Privacidad: se reduce la concentración de actualizaciones en una única entidad.

Ciberseguridad en dispositivos IoT

En proyectos como DEFENDIS, FL puede apoyar estrategias para identificar amenazas en dispositivos IoT:

  • Device fingerprinting: identificación mediante huellas de hardware y comportamiento.
  • Detección continua de anomalías: modelos locales que detectan desviaciones en sensores o gateways.
  • Seguridad distribuida: arquitecturas donde la defensa no depende de una única entidad central.

Nuevas Técnicas a favor de la Preservación de Privacidad del Usuario Final

También exploro mecanismos no intrusivos para reducir exposición de datos personales u organizacionales:

  • Local Differential Privacy (LDP).
  • Secure Multi-Party Computation (SMPC).
  • FL combinado con garantías de privacidad diferencial.

Direcciones y Vertientes hacia el Futuro

La evolución del Federated Learning se está moviendo hacia varias líneas relevantes:

1. El Aprendizaje Federado a nivel de Borde (Edge AI)

Con la expansión del edge computing, los modelos podrán adaptarse en móviles, sensores, gateways y equipos autónomos sin enviar datos brutos a la nube.

2. Segmentación de Repositorios (Cross-Silo FL)

Organizaciones con restricciones legales o competitivas pueden colaborar mediante federaciones cross-silo, compartiendo aprendizaje sin exponer datos brutos.

3. Grandes Modelos de Lenguaje (LLMs) y FL

FL puede ser relevante para adaptar o evaluar modelos grandes en entornos donde los datos no pueden centralizarse, especialmente si se combina con técnicas de eficiencia, privacidad y control de calidad de actualizaciones.

4. Foundation models

La combinación de modelos fundacionales con entrenamiento o adaptación federada puede habilitar personalización privada sin exponer datos sensibles de usuarios u organizaciones.

Involúcrate y empieza a experimentar con FL

Si quieres experimentar con FL, estos recursos son buenos puntos de partida:

Frameworks de Código Abierto (Open Source)

  • TensorFlow Federated (TFF): framework de Google para investigación en aprendizaje federado.
  • PySyft: biblioteca del ecosistema OpenMined para machine learning privado.
  • FedML: framework con implementaciones de FL para investigación y prototipado.
  • Flower: framework flexible para construir sistemas federados en Python.

Recursos Didácticos Vitales de Aproximación Rápida

  • Papers fundacionales: por ejemplo, Communication-Efficient Learning of Deep Networks from Decentralized Data y trabajos recientes sobre DFL.
  • Tutoriales prácticos: muchos frameworks ofrecen notebooks y guías paso a paso.
  • Conferencias y workshops: ICML, NeurIPS y talleres específicos de FL, privacidad y aprendizaje distribuido.

Conclusión Final

El aprendizaje federado no elimina todos los riesgos de privacidad, pero cambia una premisa importante: permite colaborar en entrenamiento y evaluación sin convertir la centralización de datos brutos en la opción por defecto. Su valor real aparece cuando se combina con seguridad, privacidad diferencial, agregación robusta y una evaluación honesta de las amenazas del sistema. Para mi trabajo, la parte más interesante aparece cuando FL se cruza con seguridad, descentralización y aprendizaje automático confiable.


Si trabajas en aprendizaje federado, sistemas con preservación de privacidad o aplicaciones de ciberseguridad, estoy abierto a discutir problemas de investigación relacionados.


Este post forma parte de mi trabajo doctoral en curso sobre aprendizaje federado, privacidad y seguridad. Para una visión más formal, puedes revisar también la sección de publicaciones académicas.

Investigación relacionada

NEBULA: una plataforma para aprendizaje federado descentralizado

13 de marzo de 2025

NEBULA: una plataforma para aprendizaje federado descentralizado

Guía completa sobre NEBULA como plataforma para aprendizaje federado descentralizado, desde conceptos básicos hasta aplicaciones avanzadas en salud, IoT y ciberseguridad, con ejemplos prácticos.

Aprendizaje federado descentralizado: fundamentos y aplicaciones

15 de septiembre de 2023

Aprendizaje federado descentralizado: fundamentos y aplicaciones

Introducción al aprendizaje federado descentralizado, desde sus fundamentos matemáticos hasta aplicaciones en ciberseguridad y otros dominios.