216
pages
Français
Documents
Obtenez un accès à la bibliothèque pour le consulter en ligne En savoir plus
Découvre YouScribe et accède à tout notre catalogue !
Découvre YouScribe et accède à tout notre catalogue !
216
pages
Français
Documents
Obtenez un accès à la bibliothèque pour le consulter en ligne En savoir plus
oN d’ordre,D.U.: 2085
EDSPIC: 505
UNIVERSITÉBLAISEPASCAL-CLERMONTFERRANDII
ÉCOLEDOCTORALE
SCIENCESPOURL’INGENIEURDEFERRAND
THÈSE
pourobtenirlegradede
Docteurd’Université
Spécialité: VISION POUR LA ROBOTIQUE
Présentéepar
JULIEN MICHOT
Recherchelinéaireetfusiondedonnéespar
ajustementdefaisceaux
Applicationàlalocalisationparvision
ThèsepréparéeauCEASaclay,
soutenuepubliquementle9décembre2010
Jury:
Rapporteurs: Pr.Ernest HIRSCH LSIIT
Pr.Éric MARCHAND IRISA-INRIA
Examinateur: Dr.Pierre GURDJOS IRIT
Président: Pr.Malik MALLEM IBISC
Encadrants: Pr.Adrien BARTOLI ISIT
Dr.François GASPARD CEA-LIST
Directeurdethèse: Pr.Jean-Marc LAVEST IUT CLERMONT-FERRAND
tel-00626489, version 1 - 26 Sep 2011tel-00626489, version 1 - 26 Sep 2011“Danslesmontsdelavérité,tunegrimpesjamaisenvain:
oubientuarrivesdèsaujourd’huiàgagnerdelahauteur,
oubientuexercestesforcespourpouvoirmonterplushaut
demain.”
FriedrichNietzsche,Humain,trophumainII.
tel-00626489, version 1 - 26 Sep 2011tel-00626489, version 1 - 26 Sep 2011Remerciements
Je tiens tout d’abord à remercier Malik Mallem d’avoir accepté d’être le président de
mon jury de thèse, ainsi qu’Ernest Hirsch, Éric Marchand et Pierre Gurdjos pour avoir eu la
gentillessed’évaluermestravauxderecherche.
Je remercie également mes responsables de thèse : Jean-Marc Lavest, Adrien Bartoli et
François Gaspard, pour avoir partagé leur formidable connaissance du domaine et de m’avoir
faitdécouvrirunethématiquederechercheparticulièrementintéressante.
Mes remerciements vont aussi vers mes anciens collègues de travail : stagiaires, doctorants,
postdocs, ingénieurs et chercheurs du laboratoire LVIC, sans oublier les secrétaires Annie et
Élodie, pour leur sympathie et pour avoir formé un environnement de travail très agréable. Je
remercieparticulièrementlesdocteursPierreLotheetAlexandreEudesavecquij’aipuavoirde
stimulantséchangesscientifiquesettechniques.
Merciaussidem’avoirsupportédurantlarédactiondecemémoire!!!
JeremerciedepluslespartenairesduprojetGyroviz,etnotammentlasociétéSofresudquia
financé cette thèse, pour m’avoir donné l’opportunité d’expérimenter mes travaux de recherche
enmefournissantdiversesséquencesdedonnéesavecunevéritéterrain(qu’iln’estsouventpas
aiséd’obtenir).
JesuiségalementtrèsreconnaissantenversmesparentsBrigitteetPascalainsiquemesdeux
sœursCélineetÉmiliequim’onttoujourssoutenudurantmesétudesetquim’ontdonnélegoût
dessciencesenaiguisantmacuriositéetenseignélesensdesvaleurshumaines.
Je remercie enfin ma chère et tendre, Minh Nguyet, pour sa formidable joie de vivre
communicativeetpouravoirmagnifiquementégaillécettefindethèse.
tel-00626489, version 1 - 26 Sep 2011tel-00626489, version 1 - 26 Sep 2011Résumé
Lestravauxprésentésdanscemanuscritconcernentledomainedelalocalisationetlarecon-
struction 3D par vision artificielle. Dans ce contexte, la trajectoire d’une caméra et la structure
3D de la scène filmée sont initialement estimées par des algorithmes linéaires puis optimisées
parunalgorithmenon-linéaire,l’ajustementdefaisceaux.
Cettethèseprésentetoutd’abordunetechniquederecherchedel’amplitudededéplacement
(recherche linéaire), ou line search pour les algorithmes de minimisation itérative. La technique
proposée est non itérative et peut être rapidement implantée dans un ajustement de faisceaux
traditionnel.Cettetechniqueappeléerecherchelinéairealgébriqueglobale(G-ALS),ainsiquesa
variante à deux dimensions (Two way-ALS), accélèrent la convergence de l’algorithme d’ajuste-
mentdefaisceaux.L’approximationdel’erreurdereprojectionparunedistancealgébriquerend
possible le calcul analytique d’une amplitude de déplacement efficace (ou de deux pour la vari-
ante Two way-ALS), par la résolution d’un polynôme de degré 3 (G-ALS) ou 5 (Two way-ALS).
Nosexpérimentationssurdesdonnéessimuléesetréellesmontrentquecetteamplitude,optimale
endistancealgébrique,estperformanteendistanceeuclidienne,etpermetderéduireletempsde
convergencedesminimisations.
Une difficulté des algorithmes de localisation en temps réel par la vision (SLAM monocu-
laire)estquelatrajectoireestiméeestsouventaffectéepardesdérives:dérivesd’orientation,de
position et d’échelle. Puisque ces algorithmes sont incrémentaux, les erreurs et approximations
sont cumulées tout au long de la trajectoire, et une dérive se forme sur la localisation globale.
De plus, un système de localisation par vision peut toujours être ébloui ou utilisé dans des
conditions qui ne permettent plus temporairement de calculer la localisation du système. Pour
résoudre ces problèmes, nous proposons d’utiliser un capteur supplémentaire mesurant les
déplacements de la caméra. Le type de capteur utilisé varie suivant l’application ciblée (un
odomètre pour la localisation d’un véhicule, une centrale inertielle légère ou un système de
navigation à guidage inertiel pour localiser une personne). Notre approche consiste à intégrer
ces informations complémentaires directement dans l’ajustement de faisceaux, en ajoutant un
terme de contrainte pondéré dans la fonction de coût. Nous évaluons trois méthodes permettant
de sélectionner dynamiquement le coefficient de pondération et montrons que ces méthodes
peuvent être employées dans un SLAM multi-capteur temps réel, avec différents types de
contrainte, sur l’orientation ou sur la norme du déplacement de la caméra. La méthode est
applicable pour tout autre terme de moindres carrés. Les expérimentations menées sur des
séquences vidéo réelles montrent que cette technique d’ajustement de faisceaux contraint réduit
les dérives observées avec les algorithmes de vision classiques. Ils améliorent ainsi la précision
delalocalisationglobaledusystème.
Motsclés:ajustementdefaisceaux,visionmonoculaire,localisation,reconstruction3D,fusion
multi-capteur.
tel-00626489, version 1 - 26 Sep 2011tel-00626489, version 1 - 26 Sep 2011Abstract
The works presented in this manuscript are in the field of computer vision, and tackle the
problem of real-time vision based localization and 3D reconstruction. In this context, the tra-
jectory of a camera and the 3D structure of the filmed scene are initially estimated by linear
algorithmsandthenoptimizedbyanonlinearalgorithm,bundleadjustment.
Thethesisfirstpresentsanewtechniqueoflinesearch,dedicatedtothenonlinearminimiza-
tion algorithms used in Structure-from-Motion. The proposed technique is not iterative and can
be quickly installed in traditional bundle adjustment frameworks. This technique, called Global
Algebraic Line Search (G-ALS), and its two-dimensional variant (Two way-ALS), accelerate the
convergence of the bundle adjustment algorithm. The approximation of the reprojection error
by an algebraic distance enables the analytical calculation of an effective displacement ampli-
tude (or two amplitudes for the Two way-ALS variant) by solving a degree 3 (G-ALS) or 5 (Two
way-ALS) polynomial. Our experiments, conducted on simulated and real data, show that this
amplitude,whichisoptimalforthealgebraicdistance,isalsoefficientfortheEuclideandistance
andreducestheconvergencetimeofminimizations.
One difficulty of real-time tracking algorithms (monocular SLAM) is that the estimated
trajectory is often affected by drifts : on the absolute orientation, position and scale. Since
these algorithms are incremental, errors and approximations are accumulated throughout the
trajectoryandcauseglobaldrifts.Inaddition,atrackingvisionsystemcanalwaysbedazzledor
used under conditions which prevented temporarily to calculate the location of the system. To
solvetheseproblems,weproposetouseanadditionalsensormeasuringthedisplacementofthe
camera. The type of sensor used will vary depending on the targeted application (an odometer
for a vehicle, a lightweight inertial navigation system for a person). We propose to integrate
this additional information directly into an extended bundle adjustment, by adding a constraint
term in the weighted cost function. We evaluate three methods (based on machine learning or
regularization) that dynamically select the weight associated to the constraint and show that
these methods can be used in a real time multi-sensor SLAM, and validate them with different
types of constraint on the orientation or on the scale. Experiments conducted on real video
sequencesshowthatthistechniqueofconstrainedbundleadjustmentreducesthedriftsobserved
withtheclassicalvisionalgorithmsandimprovestheglobalaccuracyofthepositioningsystem.
Keywords:bundleadjustment,monocularvision,localization,3Dreconstruction,multi-sensor
datafusion.
tel-00626489, version 1 - 26 Sep 2011tel-00626489, version 1 - 26 Sep 2011