Ce travail porte sur l'utilisation des réseaux de neurones convolutifs profonds pour la classification dense des images d'observation de la Terre. En particulier, nous entraînons une variante de l'architecture SegNet sur des images aériennes en zone urbaine et étudions différentes stratégies de segmentation sémantique. Nos contributions sont les suivantes : 1)~nous étudions la capacité de transfert des caractéristiques apprises sur des images classiques aux images aériennes en utilisant un réseau entièrement convolutif; 2)~nous réalisons la fusion de données hétérogènes (optique et Lidar) en utilisant un nouveau module neuronal dit de correction résiduelle. Nous démontrons la pertinence de ces contributions sur le jeu de données ISPRS Vaihingen 2D Semantic Labeling.