La robótica tradicional se ha centrado durante décadas en la repetición exacta de movimientos en entornos controlados . Los robots destacan en líneas de montaje, pero su desempeño fuera de la fábrica suele ser limitado. Si un objeto no está en la posición esperada o la cámara cambia de ángulo, su capacidad de reacción es mínima .

Inspirados en la observación humana, un grupo de investigadores ha explorado cómo los robots pueden aprender a través de videos de personas realizando tareas . La idea no es replicar gestos, sino comprender la interacción con los objetos, un enfoque que podría transformar la robótica y la manera en que las máquinas se entrenan.

Un avance inédito de la robótica: ¿Cómo consiguieron que un robot aprenda a voltear un huevo?

Investigadores de la Universidad de Illinois Urbana-Champaign, en colaboración con Columbia University desarrollaron un método denominado Tool-as-Interface , centrado en la herramienta utilizada y no en la mano humana.

Esto permite que un robot aprenda la trayectoria y orientación del objeto, independientemente de las diferencias morfológicas entre humanos y máquinas. El estudio, publicado en arXiv , detalla cómo la reconstrucción en 3D de la escena se realiza con el modelo MASt3R y cómo la técnica 3D Gaussian splatting genera vistas adicionales del mismo momento.

De este modo, el robot puede «ver» la acción desde distintos ángulos, manteniendo estabilidad aunque la cámara se mueva, sin necesidad de sensores costosos ni entornos controlados. Gracias a este enfoque, el robot logra ejecutar tareas como voltear un huevo en la sartén , observando únicamente videos de personas.

Este procedimiento asegura estabilidad, incluso si la cámara se mueve, sin necesidad de sensores caros ni entornos controlados.

Borrando al humano del video: un paso clave para no confundir al robot

Un paso clave del sistema es eliminar la mano humana de la grabación. Gracias al modelo Grounded-SAM, el algoritmo segmenta y enmascara el cuerpo humano, dejando solo la herramienta interactuando con los objetos.

Esta estrategia supera lo que los autores llaman la «brecha de encarnación», la diferencia entre la forma humana y la estructura robótica. Al centrar el aprendizaje en la herramienta, las políticas pueden aplicarse a brazos robóticos con distintos grados de libertad sin repetir todo el entrenamiento.

Las interesantes pruebas que realizaron en esta investigación

Los investigadores pusieron a prueba al robot con cinco tareas que combinan velocidad, precisión y adaptabilidad:

  • Martillear un clavo de plástico.
  • Sacar albóndigas de una sartén con una cuchara.
  • Voltear un huevo en la sartén.
  • Equilibrar una botella de vino en un soporte inestable.
  • Patear una pelota con un palo de golf robótico.

En muchos casos, estas acciones son demasiado rápidas o impredecibles para la teleoperación tradicional. Por ejemplo, el robot pudo voltear un huevo en 1,5 segundos y adaptarse automáticamente cuando se añadían más albóndigas durante la tarea.

Los resultados frente a métodos clásicos fueron contundentes: un aumento del 71% en la tasa de éxito y reducción del 77% en el tiempo de recolección de datos. En la tarea del clavo, los sistemas tradicionales fallaron en 13 intentos, mientras que Tool-as-Interface completó los 13 con éxito .

Implicaciones y retos futuros en robótica

Este enfoque abre la posibilidad de entrenar robots con videos caseros, grabados con teléfonos móviles. Con más de 7.000 millones de cámaras en el mundo, cada cocina, taller o almacén puede convertirse en un entorno de aprendizaje. La técnica no requiere hardware adicional costoso, lo que la hace más accesible.

Sin embargo, el sistema presenta limitaciones: funciona mejor con herramientas rígidas , depende de una correcta sujeción en el brazo robótico y de un modelo de estimación de poses que aún puede fallar.

Los investigadores planean mejorar la percepción del robot y extender el método a objetos flexibles como pinzas blandas o esponjas.

Este estudio representa un cambio de paradigma en la robótica, donde los robots aprenden de manera más natural, observando y replicando interacciones con su entorno , en lugar de seguir instrucciones rígidas.

Como señala Haonan Chen, autor principal, el aprendizaje se inspira en la forma en que los niños adquieren habilidades, observando y luego imitando, permitiendo máquinas más versátiles capaces de operar en escenarios reales.