Los modelos de aprendizaje profundo se utilizan en muchos campos, desde diagnósticos de atención médica hasta pronósticos financieros. Sin embargo, estos modelos requieren un uso computacional tan intensivo que requieren el uso de potentes servidores basados en la nube.
Esta dependencia de la computación en la nube plantea importantes riesgos de seguridad, especialmente en sectores como el de la atención sanitaria, donde los hospitales se muestran reacios a utilizar herramientas de inteligencia artificial por motivos de privacidad.
Para abordar este problema crítico, los investigadores del MIT han desarrollado un protocolo de seguridad que aprovecha las propiedades cuánticas de la luz para garantizar que los datos enviados hacia y desde un servidor en la nube estén seguros durante los cálculos de aprendizaje profundo.
Al codificar datos en la luz láser utilizada en los sistemas de comunicación de fibra óptica, el protocolo explota los principios fundamentales de la mecánica cuántica, haciendo imposible que los atacantes copien o intercepten información sin ser detectados.
Además, la técnica garantiza la seguridad sin comprometer la precisión de los modelos de aprendizaje profundo. En las pruebas, el investigador demostró que su protocolo puede mantener una precisión del 96 por ciento y al mismo tiempo garantizar fuertes medidas de seguridad.
“Los modelos de aprendizaje profundo como GPT-4 tienen capacidades sin precedentes, pero requieren recursos computacionales masivos. Nuestro protocolo permite a los usuarios acceder a estas poderosas herramientas sin comprometer la privacidad de sus datos o la naturaleza patentada de los propios modelos. Hace que los modelos sean utilizables”, dice Kfir. Sulimany, un postdoctorado del MIT. en el Laboratorio de Investigación en Electrónica (RLE) y autor principal de un artículo sobre este protocolo de seguridad.
A Soleimani se une en el artículo Srikrishna Vidalmani, postdoctorado en el MIT. Ryan Hamerly, NTT Research Inc. Soy un ex postdoctorado. Prahlad Iyengar, estudiante de posgrado en Ingeniería Eléctrica e Informática (EECS); y el autor principal Dirk Englund, profesor de EECS, Grupo de Fotónica Cuántica e Inteligencia Artificial e investigador principal de RLE. La investigación se presentó recientemente en la conferencia anual sobre criptografía cuántica.
Una vía de doble sentido para la seguridad en el aprendizaje profundo
El escenario de computación basado en la nube en el que se centraron los investigadores involucra dos partes: un cliente que contiene datos confidenciales, como imágenes médicas, y un servidor central que controla el modelo de aprendizaje profundo.
El cliente quiere utilizar un modelo de aprendizaje profundo para hacer predicciones, como por ejemplo si un paciente tiene cáncer, basándose en imágenes médicas, sin revelar información sobre el paciente.
En este escenario, se deben enviar datos confidenciales para generar predicciones. Sin embargo, los datos del paciente deben permanecer seguros durante este proceso.
Además, el servidor no quiere revelar ninguna parte del modelo propietario que una empresa como OpenAI ha invertido años y millones de dólares en construir.
“Ambas partes tienen algo que quieren ocultar”, añadió Vidalmani.
En la computación digital, un mal actor puede copiar fácilmente los datos enviados desde un servidor o cliente.
Por otra parte, la información cuántica no se puede replicar por completo. Los investigadores aprovechan esta característica, conocida como principio de no clonación, en su protocolo de seguridad.
Para el protocolo de los investigadores, el servidor utiliza luz láser para codificar los pesos de una red neuronal profunda en un campo óptico.
Una red neuronal es un modelo de aprendizaje profundo que consta de capas de nodos o neuronas interconectados que realizan cálculos sobre datos. Los pesos son componentes del modelo que realizan operaciones matemáticas en cada entrada, una capa a la vez. La salida de una capa se envía a la siguiente capa hasta que la última capa produce una predicción.
El servidor pasa el peso de la red al cliente, quien aplica operaciones para lograr un resultado basado en sus datos privados. Los datos se almacenan en el servidor.
Al mismo tiempo, el protocolo de seguridad permite al cliente medir solo un resultado y evita que el cliente se haga pasar por el peso debido a la naturaleza cuántica de la luz.
Una vez que el cliente envía el primer resultado a la siguiente capa, el protocolo está diseñado para cancelar la primera capa para que el cliente no pueda aprender nada más sobre el modelo.
“En lugar de medir toda la luz procedente del servidor, el cliente sólo mide la luz necesaria para impulsar la red neuronal profunda y proporciona el resultado a la siguiente capa”, explicó Soleimani.
Debido al teorema de no clonación, el cliente inevitablemente aplica pequeños errores al modelo al medir sus resultados. Cuando el servidor recibe luz residual del cliente, el servidor puede medir los errores para determinar si se filtró alguna información. Es importante destacar que esta luz residual no expone los datos del cliente.
Un protocolo práctico
Los equipos de telecomunicaciones modernos normalmente dependen de fibras ópticas para transmitir información debido a la necesidad de soportar grandes cantidades de ancho de banda a largas distancias. Como el equipo ya incorpora láseres ópticos, los investigadores pueden codificar datos en luz para sus propios protocolos de seguridad sin ningún hardware especial.
Cuando probaron su enfoque, los investigadores descubrieron que podía garantizar la seguridad para el servidor y el cliente y al mismo tiempo permitir que la red neuronal profunda alcanzara una precisión del 96 por ciento.
La pequeña cantidad de información sobre el modelo que se filtra cuando el cliente realiza operaciones equivale a menos del 10 por ciento de lo que un adversario necesita para recuperar cualquier información oculta. Trabajando en la otra dirección, un servidor malicioso puede obtener sólo el 1 por ciento de la información necesaria para robar datos del cliente.
“Puede estar seguro de que es seguro en ambos sentidos: del cliente al servidor y del servidor al cliente”, afirma Soleimani.
“Hace unos años, cuando desarrollamos nuestra demostración de inferencia de aprendizaje automático distribuido entre el campus principal del MIT y el Laboratorio Lincoln del MIT, se me ocurrió que podíamos hacer algo completamente nuevo para proporcionar seguridad en la capa física, que se puede aprovechar de años de experiencia. trabajo en criptografía cuántica, que también se demostró en este banco de pruebas”, afirma Englund. “Sin embargo, hubo muchos desafíos teóricos profundos que tuvieron que superarse para ver si esta perspectiva de aprendizaje automático distribuido con privacidad garantizada se podía hacer realidad. Esto no fue posible hasta que Kfir se unió a nuestro equipo. Esto ocurrió, porque Kfir entendía de manera única lo empírico como lo componente teórico para desarrollar un marco unificador bajo el cual se realizó este trabajo”.
En el futuro, los investigadores quieren estudiar cómo se puede aplicar este protocolo a una técnica llamada aprendizaje federado, donde varias partes utilizan sus datos para entrenar un modelo central de aprendizaje profundo. También se puede utilizar en operaciones cuánticas, en lugar de estudiar operaciones clásicas para esta tarea, lo que puede proporcionar ventajas tanto en precisión como en seguridad.
Este trabajo fue apoyado, en parte, por el Consejo de Educación Superior de Israel y el Programa de Liderazgo STEM de Zuckerman.