MotionInput: el software que permite interactuar con una computadora sin tocarla

Paris Baker, de 31 años y madre de dos hijos, fue una gimnasta acrobática de élite que representó a Gran Bretaña y ganó la plata en los campeonatos europeo y mundial. A los 26 años, Paris recibió un diagnóstico de enfermedad de la neurona motora (EMN), que causa debilidad muscular que empeora gradualmente con el tiempo y conduce a la discapacidad. De las muchas cosas que cambiaron en su vida, un elemento esencial fue perder la capacidad de jugar videojuegos con sus hijos.

Eso fue hasta que descubrió MotionInput.

Desarrollado por académicos y estudiantes del departamento de Ciencias de la Computación del University College London (UCL), en colaboración con Intel, Microsoft e IBM, UCL MotionInput V3 permite una computación verdaderamente sin contacto. Con MotionInput y una cámara web común, un usuario puede controlar una PC haciendo gestos con las manos, la cabeza, la cara y el cuerpo completo o usando el habla. El software analiza estas interacciones y las convierte en señales de mouse, teclado y joystick haciendo pleno uso del software existente.

Intel tiene una relación estrecha con UCL para asesorar proyectos de ciencias de la computación, dice Phillippa Chick, directora de cuentas globales, salud y ciencias de la vida, Intel UK. «Trabajamos con el profesor Dean Mohamedally, el profesor Graham Roberts y la Sra. Sheena Visram en proyectos de tutoría, así como en la estructura de apoyo para los estudiantes. Esta idea fue propuesta por primera vez por el equipo de UCL, en el verano de 2020, como una serie de proyectos estudiantiles de UCL Computer Science IXN [Industry Exchange Network] y surgió de la necesidad de ayudar a los trabajadores de la salud durante COVID-19 cuando era necesario mantener las computadoras compartidas limpias y libres de gérmenes». El equipo trajo a Atia Rafiq, médico médico de cabecera del NHS, para mejorar los requisitos clínicos que necesitan los trabajadores de atención médica de primera línea.

MotionInput puede abrir un mundo de casos de uso mediante el uso de manos u ojos simultáneamente con el habla. Cada juego ahora puede ser accesible, el progreso de los movimientos de los pacientes se puede registrar en fisioterapia y, en un entorno hospitalario, los cirujanos pueden tomar notas a través de gestos con las manos y el habla sin tener que tocar una computadora. La solución no requiere conectividad ni un servicio en la nube, lo que hace que sea mucho más fácil de implementar.

«Tiene una gran oportunidad de impactar positivamente las vidas de las personas con afecciones crónicas que afectan el movimiento», dice Phillippa.

Intel proporciona a los estudiantes de UCL tutoría y tecnología, incluidas capacidades de hardware y software como el kit de herramientas OpenVINO™ de Intel. El kit de herramientas facilita el desarrollo de aplicaciones basadas en IA y ayuda a aumentar su rendimiento.

Los modelos previamente entrenados proporcionados por OpenVINO™ permitieron un desarrollo más rápido de los diversos componentes y características de MotionInput, lo que permitió a los estudiantes avanzar sin entrenar sus propios modelos, generalmente un proceso largo e intensivo en computación.

Costas Stylianou, especialista técnico en Ciencias de la Salud y la Vida de Intel UK, explica que la optimización significa que MotionInput V3 «tiene varias mejoras de orden de magnitud en la eficiencia y una arquitectura para apoyar el crecimiento de las aplicaciones informáticas sin contacto como ecosistema». El desarrollo de ingeniería de software y arquitectura para V3 fue dirigido por los estudiantes de UCL, Sinead V. Tattan y Carmen Meinson. Juntos dirigieron a más de 50 estudiantes de UCL en varios cursos en ciencias de la computación de UCL para construir sobre el trabajo. El equipo también trabajó con mentores de Microsoft e IBM, en particular el Prof. Lee Stott y el Prof. John McNamara.

La solución emplea una combinación de modelos de aprendizaje automático y visión por computadora para permitir una interacción receptiva. Es personalizable al permitir al usuario elegir entre una variedad de módulos, tales como:

  • Navegación facial: el usuario puede usar su nariz u ojos y un conjunto de expresiones faciales para desencadenar acciones como clics en el botón del mouse, o con el habla diciendo «clic».
  • Gestos con las manos: se puede reconocer y asignar una selección de gestos con las manos a comandos y atajos de teclado específicos, movimientos del mouse, detección multitáctil nativa y lápices digitales con profundidad en el aire.
  • Mirada con modos de cuadrícula e imán: para alinear el cursor en escenarios de accesibilidad, se implementa un método de calibración automática para el seguimiento ocular que obtiene la estimación de la mirada, incluido el modo de cuadrícula y el modo magnético.
  • Seguimiento de cuerpo completo: los usuarios pueden establecer ejercicios físicos y etiquetar regiones en su espacio circundante para jugar juegos de computadora existentes.
  • Teclas de acceso rápido de voz y subtítulos en vivo: Ask-KITA (Know-It-All) permite a los usuarios interactuar con la computadora desde un conjunto de comandos de voz, subtítulos en vivo y atajos de teclado que anulan.
  • Joypad en el aire: Los usuarios pueden jugar juegos con los botones habituales del joypad ABXY en el aire con controles de disparo analógicos.

«Lo que hace que este software sea tan especial es que es totalmente accesible», dice Phillippa. «El código no requiere equipos costosos para funcionar. Funciona con cualquier cámara web estándar, incluida la de su computadora portátil. Es solo un caso de descarga y estás listo para comenzar».

Debido a que MotionInput permite la navegación facial utilizando la nariz, los ojos y la boca, agrega Costas, «es ideal para las personas que sufren de EMN».

¿Qué sigue para MotionInput?

«El proyecto continuará y busca colaborar con los sectores de la industria. Los académicos y mentores están investigando qué se puede hacer para ampliar los casos de uso y mejorar continuamente la experiencia del usuario», dice Phillippa. «Nos encanta trabajar con los estudiantes y el personal docente de UCL, ya que es inspirador ver lo que pueden hacer con la tecnología».

O como dice Paris, mientras juega un videojuego con sus hijos, «El potencial de UCL MotionInput para cambiar vidas es ilimitado».

Salir de la versión móvil