ORASIS 2017 - Sciencesconf.org

sciencesconf.org:orasis2017:131026

Apprentissage par renforcement profond de la fixation binoculaire en utilisant de la détection d'anomalies

François De La Bourdonnaye 1, @ , Thierry Chateau 1, @ , Jochen Triesch 2, @ , Céline Teulière 1, @

1 : Institut Pascal - Clermont Auvergne (IP) - Site web

SIGMA Clermont, Université Clermont Auvergne : UMR6602, Centre National de la Recherche Scientifique : UMR6602

24 avenue des Landais / 63171 Aubiere Cedex - France

2 : Frankfurt Institute for Advanced Studies - Site web

Par leur capacité à apprendre des comportements visuo-moteurs complexes, les algorithmes d'apprentissage par renforcement profond ont attiré l'attention de la communauté robotique. Pour programmer de façon efficace un tel algorithme, le signal de récompense envisagé doit être informatif dans le sens où il doit discriminer les valeurs des états voisins. Pour cela, des informations à priori sont souvent utilisées. Ce papier propose une méthode pour apprendre à fixer un objet sans ce type d'information. A la place, une récompense informative utilisant très peu d'information supervisée est calculée. Le calcul de la récompense est fondé sur un méchanisme de détection d'anomalies. Celui-ci estime une position d'objet pixellique avec une méthode faiblement supervisée. Cette position estimée est bruitée, ce qui rend le signal de récompense bruité également. Nous proposons une méthode d'apprentissage pour éliminer partiellement ce bruit. La fixation binoculaire est apprise dans un environnement simulé sur un ensemble d'objets aux couleurs et formes variées. La politique apprise est comparée avec une autre entraînée à partir d'une récompense lisse et informative. Nous observons des perfomances similaires, montrant qu'une étape d'encodage de l'environnement peut remplacer des informations à priori.

Type :	:	Article long (6-8 pages)
Thématiques	:	vision active (stratégie de perception et d’action)
Thématiques	:	apprentissage faiblement supervisé
Mots-Clés	:	apprentissage autonome ; apprentissage par renforcement profond ; détection d'anomalies semi ; supervisée ; fixation binoculaire ; auto ; encodeurs convolutifs

Personnes connectées : 1

Flux RSS