Apprentissage par renforcement profond de la fixation binoculaire en utilisant de la détection d'anomalies
François De La Bourdonnaye  1@  , Thierry Chateau  1@  , Jochen Triesch  2@  , Céline Teulière  1@  
1 : Institut Pascal - Clermont Auvergne  (IP)  -  Site web
SIGMA Clermont, Université Clermont Auvergne : UMR6602, Centre National de la Recherche Scientifique : UMR6602
24 avenue des Landais / 63171 Aubiere Cedex -  France
2 : Frankfurt Institute for Advanced Studies  -  Site web

Par leur capacité à apprendre des comportements visuo-moteurs complexes, les algorithmes d'apprentissage par renforcement profond ont attiré l'attention de la communauté robotique. Pour programmer de façon efficace un tel algorithme, le signal de récompense envisagé doit être informatif dans le sens où il doit discriminer les valeurs des états voisins. Pour cela, des informations à priori sont souvent utilisées. Ce papier propose une méthode pour apprendre à fixer un objet sans ce type d'information. A la place, une récompense informative utilisant très peu d'information supervisée est calculée. Le calcul de la récompense est fondé sur un méchanisme de détection d'anomalies. Celui-ci estime une position d'objet pixellique avec une méthode faiblement supervisée. Cette position estimée est bruitée, ce qui rend le signal de récompense bruité également. Nous proposons une méthode d'apprentissage pour éliminer partiellement ce bruit. La fixation binoculaire est apprise dans un environnement simulé sur un ensemble d'objets aux couleurs et formes variées. La politique apprise est comparée avec une autre entraînée à partir d'une récompense lisse et informative. Nous observons des perfomances similaires, montrant qu'une étape d'encodage de l'environnement peut remplacer des informations à priori.


Personnes connectées : 1 Flux RSS