MIT desarrolla DAAAM: sistema que otorga a robots memoria espacial similar a la humana

Un robot debe razonar sobre el tiempo y el espacio como los humanos
Luca Carlone explica el objetivo central del sistema DAAAM desarrollado en el MIT.

DAAAM combina visión por computadora y mapeo 3D para que robots construyan memoria espaciotemporal similar a la humana, procesando información en tiempo real. El sistema es 21-53% más preciso que métodos anteriores y multiplica por diez la velocidad al describir múltiples objetos simultáneamente desde imágenes seleccionadas.

  • DAAAM es 21-53% más preciso que métodos anteriores en tareas de memoria espacial
  • El sistema multiplica por diez la velocidad al procesar múltiples objetos simultáneamente
  • Desarrollado por Nicolas Gorlo y Lukas Schmid bajo la dirección de Luca Carlone en el MIT
  • Combina visión por computadora y mapeo tridimensional para crear memoria espaciotemporal

Investigadores del MIT crearon DAAAM, un sistema que permite a robots recordar entornos complejos y responder preguntas en lenguaje natural sobre ubicaciones de objetos, con precisión 53% superior a métodos existentes.

En los laboratorios del Instituto Tecnológico de Massachusetts, un equipo de investigadores acaba de resolver un problema que ha perseguido a la robótica durante años: cómo hacer que una máquina recuerde dónde dejó las cosas. El sistema se llama DAAAM —acrónimo de Describe Anything, Anywhere, Anytime, at Any Moment— y funciona combinando visión por computadora con mapeo tridimensional para crear algo parecido a la memoria espacial humana. En las pruebas, superó a los métodos existentes por un margen que oscila entre 21 y 53 por ciento.

La necesidad es concreta. Imagina una fábrica donde una trabajadora recuerda exactamente en qué contenedor dejó una pieza parcialmente ensamblada la noche anterior y puede volver directamente a buscarla. Un robot trabajando a su lado, hasta ahora, no podía hacer lo mismo. Construía mapas tridimensionales precisos del espacio, sí, pero sin las descripciones detalladas que hacen útil esa información. O bien capturaba descripciones ricas de objetos individuales, pero tan lentamente que resultaba impracticable en entornos reales. DAAAM resuelve ese dilema fusionando dos campos que habían avanzado por caminos separados.

Mientras el robot recorre un espacio, el sistema adjunta descripciones detalladas a cada objeto que detecta. Puede registrar que un edificio es el Stata Center del campus del MIT y describir su arquitectura característica. Puede notar que hay cinco bicicletas en un estacionamiento y que la roja tiene una rueda pinchada. Toda esa información se almacena en una representación tridimensional organizada espacialmente por regiones, permitiendo al robot recordar que esa bicicleta roja está junto al Stata Center. Es, en esencia, un nuevo tipo de memoria: una que ancla el lenguaje en el mundo físico.

La velocidad fue el obstáculo que DAAAM tuvo que superar. Los sistemas anteriores capaces de capturar descripciones detalladas necesitaban varios segundos para anotar apenas unos pocos objetos, un ritmo insuficiente cuando un robot puede encontrar cientos de elementos en minutos de exploración. El equipo, liderado por Luca Carlone, profesor asociado del Departamento de Aeronáutica y Astronáutica del MIT, resolvió esto agrupando objetos cercanos mientras el robot avanza y utilizando un método de optimización para seleccionar fotogramas clave: imágenes que ofrecen la vista más clara de varios objetos simultáneamente. Eso permite describir múltiples elementos a la vez y acelera el procesamiento hasta multiplicarlo por diez.

Nicolas Gorlo, estudiante de posgrado del MIT que encabezó la investigación junto con Lukas Schmid, ahora profesor en la Universidad de Tecnología de Núremberg, explicó que el sistema anota cada objeto una sola vez. Eso hace posible su funcionamiento en entornos de gran escala y en tiempo real. Al agrupar objetos en regiones, puede responder una amplia gama de consultas sobre dónde están las cosas y qué hay en cada lugar. Una vez construida esa memoria espacial, el desafío pasa a ser recuperar información eficientemente de una base de datos extensa. Los investigadores utilizaron un modelo de lenguaje de gran tamaño que recurre a distintas herramientas de búsqueda y recuperación, una estrategia diseñada para reducir alucinaciones. El sistema puede responder una consulta con precisión en apenas unos segundos.

Carlone explicó la visión más amplia detrás del trabajo: "Si queremos que los robots trabajen codo a codo con los humanos e interactúen mejor con ellos, deben hablar el mismo idioma. El robot debe razonar sobre el tiempo y el espacio de la misma manera que los humanos". Lo que DAAAM hace es convertir un mapa tradicional en un mapa basado en lenguaje que es más fácil para el robot pensar y consultar usando lenguaje natural. Es como ChatGPT, pero anclado en el mundo real y capaz de responder cualquier pregunta sobre el entorno: ¿Dónde dejé mi billetera? ¿Dónde está el componente que empezamos a ensamblar anoche?

La investigación fue presentada recientemente en la Conference on Computer Vision and Pattern Recognition y publicada en arXiv. Sus aplicaciones potenciales se extienden más allá de la robótica industrial. Sistemas de realidad aumentada podrían usar esta tecnología para asistir a técnicos de mantenimiento en la detección de anomalías. Viajeros y peatones podrían beneficiarse de herramientas de navegación mejoradas. Lo que DAAAM demuestra es que un sistema de inteligencia artificial puede acercarse a recordar dónde quedó un objeto, siempre que esa memoria esté vinculada a observaciones reales, mapas tridimensionales y lenguaje natural. Es un paso hacia máquinas que no solo ven el mundo, sino que lo entienden de la manera en que lo hacemos nosotros.

Si queremos que los robots trabajen codo a codo con los humanos, deben hablar el mismo idioma. El robot debe razonar sobre el tiempo y el espacio de la misma manera que los humanos.
— Luca Carlone, profesor asociado del Departamento de Aeronáutica y Astronáutica del MIT
Anotamos cada objeto solo una vez, por lo que nuestro marco puede funcionar en entornos muy grandes en tiempo real.
— Nicolas Gorlo, estudiante de posgrado del MIT
A Conversa do Hearth Outra perspectiva sobre a história
Inventor

¿Por qué es tan difícil para los robots recordar dónde están las cosas?

Model

Porque hasta ahora tenían que elegir entre dos caminos: construir mapas precisos del espacio sin descripciones útiles, o capturar descripciones ricas pero tan lentamente que no funcionaba en la práctica. Era como tener un mapa perfecto pero sin nombres, o nombres pero sin mapa.

Inventor

¿Qué hace diferente a DAAAM?

Model

Combina ambas cosas y lo hace rápido. Mientras el robot se mueve, adjunta descripciones a los objetos que ve, todo organizado en un mapa tridimensional. Anota cada objeto una sola vez, lo que permite procesar cientos de elementos en minutos.

Inventor

¿Cómo responde preguntas si tiene tanta información almacenada?

Model

Usa un modelo de lenguaje grande que puede buscar de varias formas. Si le preguntas por una escultura cerca de un edificio, puede buscar por la palabra "escultura" o por la ubicación del edificio. Responde en segundos.

Inventor

¿Esto significa que los robots finalmente entienden el espacio como nosotros?

Model

Es un paso importante en esa dirección. No es comprensión en el sentido profundo, pero es memoria espacial anclada en observaciones reales y lenguaje natural. Un robot puede ahora recordar dónde dejaste algo, como lo haría una persona.

Inventor

¿Qué tan mejor es que lo que existía antes?

Model

Entre 21 y 53 por ciento más preciso, dependiendo de la tarea. Y diez veces más rápido al describir múltiples objetos. Eso es la diferencia entre algo que funciona en teoría y algo que funciona en una fábrica real.

Inventor

¿Dónde se verá esto primero?

Model

Probablemente en fábricas, donde un asistente robótico podría buscar componentes específicos basándose en instrucciones en lenguaje natural. Pero también en realidad aumentada para técnicos, o en sistemas de navegación para personas.

Quer a matéria completa? Leia o original em Infobae ↗
Fale Conosco FAQ