
Des chercheurs du MIT ont conçu un système qui permet à des robots interactifs d’apprendre des tâches complexes qui autrement les gêneraient avec trop de règles déroutantes. L’une de ces tâches consiste à mettre une table à dîner sous certaines conditions.
Dans leur travail, les chercheurs ont compilé un ensemble de données sur la façon dont huit objets – une tasse, un verre, une cuillère, une fourchette, un couteau, une assiette, une petite assiette et un bol – pouvaient être placés sur une table dans différentes configurations. Un bras robotisé a d’abord observé des démonstrations humaines choisies au hasard qui sont celles qu’il faut effectuer quand vient le temps de dresser une table. Ensuite, les chercheurs ont configurer le bras de manière à ce qu’il puisse dresser automatiquement une table dans une configuration spécifique, dans des expériences réelles et en simulation en fonction de ce qu’il avait vu.
Le système mis au point par les chercheurs est construit sur la « logique temporelle linéaire » (LTL), un langage qui permet un raisonnement robotique sur les résultats actuels et futurs. Les chercheurs ont défini des modèles en LTL qui modélisent diverses conditions temporelles, telles que ce qui doit se produire maintenant, doit finalement se produire et doit se produire jusqu’à ce que quelque chose d’autre se produise. Les observations du robot sur trente démonstrations humaines pour dresser la table ont donné une distribution de probabilité sur vingt-cinq formules LTL différentes. Chaque formule codait une préférence – ou spécification – légèrement différente pour le dressage de la table. Cette distribution de probabilité devient ce que les chercheurs ont appelé sa « croyance. »
Apprendre à dresser une table en observant des démonstrations présente plein de spécifications incertaines. Les articles doivent être placés à certains endroits, selon le menu et l’endroit où les invités sont assis, et dans certaines commandes, selon la disponibilité immédiate d’un article ou les conventions sociales. Pour réussir, le robot a dû évaluer les nombreux ordres de placement possibles, même lorsque des articles ont été volontairement retirés, empilés ou cachés. Normalement, tout cela dérangerait trop les robots. Mais le robot des chercheurs n’a commis aucune erreur au cours de plusieurs expériences en mode réel, et seulement une poignée d’erreurs sur des dizaines de milliers de tests simulés.
Les chercheurs espèrent modifier le système pour aider les robots à changer leur comportement en fonction d’instructions verbales, de corrections ou d’une évaluation par l’utilisateur des performances du robot. « Supposons qu’une personne montre à un robot comment mettre une table à un seul endroit. La personne peut dire “faites la même chose pour tous les autres endroits” ou “placez plutôt le couteau devant la fourchette” », explique Ankit Shah, un étudiant diplômé du Département d’aéronautique et d’astronautique, au MIT, membre du Interactive Robotics Group. Nous voulons développer des méthodes permettant au système de s’adapter naturellement pour gérer ces commandes verbales, sans avoir besoin de démonstrations supplémentaires. »
http://news.mit.edu
Print this page