Nous présentons une approche de type sacs de caractéristiques, fondée sur des descripteurs de position relative, pour la reconnaissance d'images. D'une part, étant donnée une décomposition initiale de l'image en un ensemble d'objets sémantiques, une description à partir de la Décomposition en Histogrammes de Forces (FHD) est introduite, modélisant à la fois la forme et les relations spatiales entre les objets composant l'image. D'autre part, une méthodologie originale d'apprentissage est présentée, afin de construire un vocabulaire homogène de formes et de configurations spatiales pour des tâches de classification d'images. Un avantage de cette stratégie est sa compatibilité avec les approches par sacs de caractéristiques classiques, permettant une représentation hybride d'informations locales et structurelles. Les résultats de classification obtenus sur un jeu de données d'images de scènes naturelles montrent l'intérêt de cette approche.