En Vedette
Nouvelles
Automatisation
Pour traduire la vision et le langage en action
Un nouveau modèle vision-langage-action.
octobre 16, 2023
par GC Staff
Robotic Transformer 2 (RT-2), de Google Deepmind, est un nouveau modèle vision-langage-action (VLA) qui apprend à la fois des données web et robotiques, et traduit ces connaissances en instructions généralisées pour le contrôle robotique.
Ce travail s’appuie sur Robotic Transformer 1 (RT-1), un modèle formé à des démonstrations multitâches, qui peut apprendre des combinaisons de tâches et d’objets vus dans les données robotiques. Plus précisément, notre travail a utilisé des données de démonstration de robots RT-1 qui ont été collectées avec 13 robots sur 17 mois dans un environnement de cuisine.
RT-2 montre des capacités de généralisation améliorées et une compréhension sémantique et visuelle au-delà des données robotiques auxquelles il a été exposé. Cela comprend l’interprétation de nouvelles commandes et la réponse aux commandes de l’utilisateur en effectuant un raisonnement rudimentaire, tel que le raisonnement sur les catégories d’objets ou les descriptions de haut niveau.
Une série d’expériences qualitatives et quantitatives ont été effectuées sur plus de 6 000 essais robotiques. Pour explorer les capacités émergentes de RT-2 à effectuer des tâches, il a été d’abord nécessaire de combiner les connaissances à partir des données à l’échelle du Web et l’expérience du robot, puis à définir trois catégories de compétences : la compréhension des symboles, le raisonnement et la reconnaissance humaine.
Chaque tâche nécessitait une compréhension des concepts sémantiques visuels et la capacité d’effectuer un contrôle robotique pour fonctionner sur ces concepts. Des commandes telles que « recueille le sac sur le point de tomber de la table » ont fait en sorte que le robot effectue une tâche de manipulation sur des objets ou des scénarios jamais vus dans les données robotiques.
Dans toutes les situations, il a été observé une augmentation des performances de généralisation (amélioration de plus de 3 fois) par rapport aux lignes de base précédentes, telles que les modèles RT-1 précédents et les modèles comme Visual Cortex (VC-1), qui étaient pré-entraînés sur de grands ensembles de données visuels.
https://www.deepmind.com
Print this page