Mon sujet de thèse était:
« Compréhension de scènes urbaines par combinaison d’information 2D/3D »
Ces travaux ont été effectués sous la direction de Sylvie Chambon et Vincent Charvillat en collaboration avec Pierre Gurdjos de l’équipe VORTEX du laboratoire IRIT et Mariana Spangenberg de l’entreprise imajing.
En bref
- Géométrie d’une scène urbaine
- Segmentation en super pixels
- Cohérence photométrique inter-images (IQA – Image Quality Assessment)
- Classification en zone plane/non plane
Résumé
Cette thèse traite du problème de segmentation sémantique d’une séquence d’images calibrées acquises dans un environnement urbain. Ce problème consiste, plus précisément, à partitionner chaque image en régions représentant les objets de la scène (façades, routes, etc.). Ainsi, à chaque région est associée une étiquette sémantique. Dans notre approche, l’étiquetage s’opère via des primitives visuelles de niveau intermédiaire appelés super pixels, lesquels regroupent des pixels similaires au sens de différents critères proposés dans la littérature, qu’ils soient photométriques (s’appuyant sur les couleurs) ou géométriques (limitant la taille des super pixels formés).
Contrairement à l’état de l’art, où les travaux récents traitant le même problème s’appuient en entrée sur une sur-segmentation initiale sans la remettre en cause, notre idée est de proposer, dans un contexte multi-vues, une nouvelle approche de constructeur de super pixels s’appuyant sur une analyse tridimensionnelle de la scène et, en particulier, de ses structures planes. Pour construire de « meilleurs » super pixels, une mesure de planéité locale, qui quantifie à quel point la zone traitée de l’image correspond à une surface plane de la scène, est introduite. Cette mesure est évaluée à partir d’une rectification homographique entre deux images proches, induites par un plan candidat au support des points 3D associés à la zone traitée. Nous analysons l’apport de la mesure UQI (Universal Quality Image) et montrons qu’elle se compare favorablement aux autres métriques qui ont le potentiel de détecter des structures planes. On introduit ensuite un nouvel algorithme de construction de super-pixels, fondé sur l’algorithme SLIC (Simple Linear Iterative Clustering) dont le principe est de regrouper les plus proches voisins au sens d’une distance fusionnant similarités en couleur et en distance, et qui intègre cette mesure de planéité.
Ainsi la sur-segmentation obtenue, couplée à la cohérence inter-images provenant de la validation de la contrainte de planéité locale de la scène, permet d’attribuer une étiquette à chaque entité et d’obtenir ainsi une segmentation sémantique qui partitionne l’image en objets plans.
En images

