Microsoft presenta Magma, su nuevo modelo base multimodal capaz de controlar desde interfaces de 'software' a robots

viernes, 21 de febrero de 2025, 16:43 h (CET)

MADRID, 21 (Portaltic/EP)
Microsoft ha presentado Magma, un nuevo modelo de base diseñado para realizar tareas de Inteligencia Artificial (IA) multimodal tanto en formato digital como en físico, ya que es capaz de procesar información visual y de lenguaje para planificar y ejecutar acciones en consecuencia, desde la navegación de una interfaz de usuario hasta la manipulación de robots.

La compañía tecnológica continúa innovando en materia de IA, concretamente, con el desarrollo del que define como el primer modelo de base capaz de "interpretar y fundamentar entradas multimodales dentro de su entorno".

Se trata de Magma, el nuevo modelo multimodal de Microsoft que, teniendo como base un objetivo descrito, es capaz de formular planes y ejecutar acciones para lograrlo de forma independiente, tanto en entornos digitales como físicos.

Esto se debe a que el modelo es capaz de unificar la inteligencia verbal, espacial y temporal, para "navegar por tareas y entornos complejos", tal y como ha explicado Microsoft en una publicación sobre el funcionamiento del modelo en GitHub.

En concreto, según ha matizado la compañía, Magama es "una extensión" de los modelos de visión-lenguaje (VL). Esto se debe a que no sólo conserva la capacidad de comprensión entre la visión y el lenguaje, sino que también está equipado con la capacidad de planificar y actuar en case al mundo "visual-espacial", es decir, dispone de inteligencia espacial.

De esta forma, según ha subrayado Microsoft, dispone de las habilidades necesarias para completar tareas que van desde la navegación de una interfaz gráfica de usuario (IU) hasta la manipulación de robots.

Para ello, la tecnológica ha detallado que el modelo está preentrenado en grandes cantidades de conjuntos de datos VL heterogéneos, que incluyen tanto imágenes, como vídeos y datos robóticos.

Sin embargo, en estos conjuntos de datos, los objetivos visuales accionables, por ejemplo, botones sobre los que se puede hacer clic en una IU, están etiquetados como Set-of-Mark (SoM). Igualmente, los movimientos de los objetos en los vídeos, como es el trazo de un brazo robótico, están etiquetados como Trace-of-Mark (ToM).

Teniendo esto en cuenta, las etiquetas SoM y ToM en los datos de entrenamiento a gran escala facilitan la adquisición de inteligencia espacial de Magma, de manera que, posteriormente, consigue crear "resultados de vanguardia", ya se a la hora de navegar a través de un 'software' como para manejar robots.

Con todo ello, Magma es un proyecto de IA de Microsoft aún en desarrollo en colaboración con investigadores KAIST (Instituto Avanzado de Ciencia y Tecnología de Corea), la Universidad de Mayrland, la Universidad de Wisconsin-Madison y la Universida de Washington.

Noticias relacionadas

El racismo y el abuso sexualizado siguen utilizándose en un 48% para atacar a los atletas en redes sociales

La Asociación Mundial de Atletismo (World Athletics) publicó este jueves las conclusiones de un estudio realizado durante los Juegos Olímpicos de Paris 2024 con el objetivo de identificar y proteger a los atletas de los mensajes abusivos enviados a través de las plataformas de las redes sociales, siendo el racismo, con un 18%, y el abuso sexualizado (30%) los principales problemas.

Pesadillas fiscales y sueños monetarios

Menuda semana tras el breve descanso. Precios del petróleo, cifras de inflación, titulares fiscales y debates sobre la reunión del BCE de la próxima semana. Nos visitaron fantasmas del pasado, del presente y, potencialmente, del futuro próximo.

IAG pide más control en los pasaportes en los aeropuertos

El consejero delegado de International Airlines Group (IAG), Luis Gallego, destacó este viernes “el buen funcionamiento” de los aeropuertos españoles en comparación con otros de Europa, entre los que citó los de Londres, Ámsterdam y Frankfurt, según dijo una conferencia con periodistas en relación con los resultados del ‘holding’ de Iberia y Vueling en el primer semestre.

Microsoft presenta Magma, su nuevo modelo base multimodal capaz de controlar desde interfaces de 'software' a robots

Lo más leído

Noticias relacionadas

El racismo y el abuso sexualizado siguen utilizándose en un 48% para atacar a los atletas en redes sociales

Pesadillas fiscales y sueños monetarios

IAG pide más control en los pasaportes en los aeropuertos