
MADRID, 21 (Portaltic/EP)
Microsoft ha presentado Magma, un nuevo modelo de base diseñado para realizar tareas de Inteligencia Artificial (IA) multimodal tanto en formato digital como en físico, ya que es capaz de procesar información visual y de lenguaje para planificar y ejecutar acciones en consecuencia, desde la navegación de una interfaz de usuario hasta la manipulación de robots.
La compañía tecnológica continúa innovando en materia de IA, concretamente, con el desarrollo del que define como el primer modelo de base capaz de "interpretar y fundamentar entradas multimodales dentro de su entorno".
Se trata de Magma, el nuevo modelo multimodal de Microsoft que, teniendo como base un objetivo descrito, es capaz de formular planes y ejecutar acciones para lograrlo de forma independiente, tanto en entornos digitales como físicos.
Esto se debe a que el modelo es capaz de unificar la inteligencia verbal, espacial y temporal, para "navegar por tareas y entornos complejos", tal y como ha explicado Microsoft en una publicación sobre el funcionamiento del modelo en GitHub.
En concreto, según ha matizado la compañía, Magama es "una extensión" de los modelos de visión-lenguaje (VL). Esto se debe a que no sólo conserva la capacidad de comprensión entre la visión y el lenguaje, sino que también está equipado con la capacidad de planificar y actuar en case al mundo "visual-espacial", es decir, dispone de inteligencia espacial.
De esta forma, según ha subrayado Microsoft, dispone de las habilidades necesarias para completar tareas que van desde la navegación de una interfaz gráfica de usuario (IU) hasta la manipulación de robots.
Para ello, la tecnológica ha detallado que el modelo está preentrenado en grandes cantidades de conjuntos de datos VL heterogéneos, que incluyen tanto imágenes, como vídeos y datos robóticos.
Sin embargo, en estos conjuntos de datos, los objetivos visuales accionables, por ejemplo, botones sobre los que se puede hacer clic en una IU, están etiquetados como Set-of-Mark (SoM). Igualmente, los movimientos de los objetos en los vídeos, como es el trazo de un brazo robótico, están etiquetados como Trace-of-Mark (ToM).
Teniendo esto en cuenta, las etiquetas SoM y ToM en los datos de entrenamiento a gran escala facilitan la adquisición de inteligencia espacial de Magma, de manera que, posteriormente, consigue crear "resultados de vanguardia", ya se a la hora de navegar a través de un 'software' como para manejar robots.
Con todo ello, Magma es un proyecto de IA de Microsoft aún en desarrollo en colaboración con investigadores KAIST (Instituto Avanzado de Ciencia y Tecnología de Corea), la Universidad de Mayrland, la Universidad de Wisconsin-Madison y la Universida de Washington.
|