Recherche linéaire et fusion de données par ajustement de faisceaux : application à la localisation par vision

216

pages

Français

Documents

Écrit par
Julien Michot

Publié par
Thesee

Lire un extrait

Obtenez un accès à la bibliothèque pour le consulter en ligne En savoir plus

Découvre YouScribe et accède à tout notre catalogue !

Je m'inscris

Découvre YouScribe et accède à tout notre catalogue !

Je m'inscris

216

pages

Français

Documents

Lire un extrait

Obtenez un accès à la bibliothèque pour le consulter en ligne En savoir plus

Publié par

Thesee

Nombre de lectures

Langue

Français

Poids de l'ouvrage

10 Mo

Sous la direction de Jean-Marc Lavest
Thèse soutenue le 09 décembre 2010: Clermont Ferrand 2
Les travaux présentés dans ce manuscrit concernent le domaine de la localisation et la reconstruction 3D par vision artificielle. Dans ce contexte, la trajectoire d’une caméra et la structure3D de la scène filmée sont initialement estimées par des algorithmes linéaires puis optimisées par un algorithme non-linéaire, l’ajustement de faisceaux. Cette thèse présente tout d’abord une technique de recherche de l’amplitude de déplacement (recherche linéaire), ou line search pour les algorithmes de minimisation itérative. La technique proposée est non itérative et peut être rapidement implantée dans un ajustement de faisceaux traditionnel. Cette technique appelée recherche linéaire algébrique globale (G-ALS), ainsi que sa variante à deux dimensions (Two way-ALS), accélèrent la convergence de l’algorithme d’ajustement de faisceaux. L’approximation de l’erreur de reprojection par une distance algébrique rend possible le calcul analytique d’une amplitude de déplacement efficace (ou de deux pour la variante Two way-ALS), par la résolution d’un polynôme de degré 3 (G-ALS) ou 5 (Two way-ALS). Nos expérimentations sur des données simulées et réelles montrent que cette amplitude, optimale en distance algébrique, est performante en distance euclidienne, et permet de réduire le temps de convergence des minimisations. Une difficulté des algorithmes de localisation en temps réel par la vision (SLAM monoculaire) est que la trajectoire estimée est souvent affectée par des dérives : dérives d’orientation, de position et d’échelle. Puisque ces algorithmes sont incrémentaux, les erreurs et approximations sont cumulées tout au long de la trajectoire, et une dérive se forme sur la localisation globale. De plus, un système de localisation par vision peut toujours être ébloui ou utilisé dans des conditions qui ne permettent plus temporairement de calculer la localisation du système. Pour résoudre ces problèmes, nous proposons d’utiliser un capteur supplémentaire mesurant les déplacements de la caméra. Le type de capteur utilisé varie suivant l’application ciblée (un odomètre pour la localisation d’un véhicule, une centrale inertielle légère ou un système de navigation à guidage inertiel pour localiser une personne). Notre approche consiste à intégrer ces informations complémentaires directement dans l’ajustement de faisceaux, en ajoutant un terme de contrainte pondéré dans la fonction de coût. Nous évaluons trois méthodes permettant de sélectionner dynamiquement le coefficient de pondération et montrons que ces méthodes peuvent être employées dans un SLAM multi-capteur temps réel, avec différents types de contrainte, sur l’orientation ou sur la norme du déplacement de la caméra. La méthode est applicable pour tout autre terme de moindres carrés. Les expérimentations menées sur des séquences vidéo réelles montrent que cette technique d’ajustement de faisceaux contraint réduit les dérives observées avec les algorithmes de vision classiques. Ils améliorent ainsi la précision de la localisation globale du système.
-Ajustement de faisceaux
-Vision monoculaire
-Localisation
-Reconstruction 3D
-Fusion multi-capteur
The works presented in this manuscript are in the field of computer vision, and tackle the problem of real-time vision based localization and 3D reconstruction. In this context, the trajectory of a camera and the 3D structure of the filmed scene are initially estimated by linear algorithms and then optimized by a nonlinear algorithm, bundle adjustment. The thesis first presents a new technique of line search, dedicated to the nonlinear minimization algorithms used in Structure-from-Motion. The proposed technique is not iterative and can be quickly installed in traditional bundle adjustment frameworks. This technique, called Global Algebraic Line Search (G-ALS), and its two-dimensional variant (Two way-ALS), accelerate the convergence of the bundle adjustment algorithm. The approximation of the reprojection error by an algebraic distance enables the analytical calculation of an effective displacement amplitude (or two amplitudes for the Two way-ALS variant) by solving a degree 3 (G-ALS) or 5 (Two way-ALS) polynomial. Our experiments, conducted on simulated and real data, show that this amplitude, which is optimal for the algebraic distance, is also efficient for the Euclidean distance and reduces the convergence time of minimizations. One difficulty of real-time tracking algorithms (monocular SLAM) is that the estimated trajectory is often affected by drifts : on the absolute orientation, position and scale. Since these algorithms are incremental, errors and approximations are accumulated throughout the trajectory and cause global drifts. In addition, a tracking vision system can always be dazzled or used under conditions which prevented temporarily to calculate the location of the system. To solve these problems, we propose to use an additional sensor measuring the displacement of the camera. The type of sensor used will vary depending on the targeted application (an odometer for a vehicle, a lightweight inertial navigation system for a person). We propose to integrate this additional information directly into an extended bundle adjustment, by adding a constraint term in the weighted cost function. We evaluate three methods (based on machine learning or regularization) that dynamically select the weight associated to the constraint and show that these methods can be used in a real time multi-sensor SLAM, and validate them with different types of constraint on the orientation or on the scale. Experiments conducted on real video sequences show that this technique of constrained bundle adjustment reduces the drifts observed with the classical vision algorithms and improves the global accuracy of the positioning system.
-Bundle adjustment
-Monocular vision
-Localization
-3D reconstruction
-Multi-sensor data fusion
Source: http://www.theses.fr/2010CLF22085/document

Voir

Publié par

Thesee

Langue

Français

Poids de l'ouvrage

10 Mo

Localisation

oN d’ordre,D.U.: 2085
EDSPIC: 505
UNIVERSITÉBLAISEPASCAL-CLERMONTFERRANDII
ÉCOLEDOCTORALE
SCIENCESPOURL’INGENIEURDEFERRAND
THÈSE
pourobtenirlegradede
Docteurd’Université
Spécialité: VISION POUR LA ROBOTIQUE
Présentéepar
JULIEN MICHOT
Recherchelinéaireetfusiondedonnéespar
ajustementdefaisceaux
Applicationàlalocalisationparvision
ThèsepréparéeauCEASaclay,
soutenuepubliquementle9décembre2010
Jury:
Rapporteurs: Pr.Ernest HIRSCH LSIIT
Pr.Éric MARCHAND IRISA-INRIA
Examinateur: Dr.Pierre GURDJOS IRIT
Président: Pr.Malik MALLEM IBISC
Encadrants: Pr.Adrien BARTOLI ISIT
Dr.François GASPARD CEA-LIST
Directeurdethèse: Pr.Jean-Marc LAVEST IUT CLERMONT-FERRAND
tel-00626489, version 1 - 26 Sep 2011tel-00626489, version 1 - 26 Sep 2011“Danslesmontsdelavérité,tunegrimpesjamaisenvain:
oubientuarrivesdèsaujourd’huiàgagnerdelahauteur,
oubientuexercestesforcespourpouvoirmonterplushaut
demain.”
FriedrichNietzsche,Humain,trophumainII.
tel-00626489, version 1 - 26 Sep 2011tel-00626489, version 1 - 26 Sep 2011Remerciements
Je tiens tout d’abord à remercier Malik Mallem d’avoir accepté d’être le président de
mon jury de thèse, ainsi qu’Ernest Hirsch, Éric Marchand et Pierre Gurdjos pour avoir eu la
gentillessed’évaluermestravauxderecherche.
Je remercie également mes responsables de thèse : Jean-Marc Lavest, Adrien Bartoli et
François Gaspard, pour avoir partagé leur formidable connaissance du domaine et de m’avoir
faitdécouvrirunethématiquederechercheparticulièrementintéressante.
Mes remerciements vont aussi vers mes anciens collègues de travail : stagiaires, doctorants,
postdocs, ingénieurs et chercheurs du laboratoire LVIC, sans oublier les secrétaires Annie et
Élodie, pour leur sympathie et pour avoir formé un environnement de travail très agréable. Je
remercieparticulièrementlesdocteursPierreLotheetAlexandreEudesavecquij’aipuavoirde
stimulantséchangesscientiﬁquesettechniques.
Merciaussidem’avoirsupportédurantlarédactiondecemémoire!!!
JeremerciedepluslespartenairesduprojetGyroviz,etnotammentlasociétéSofresudquia
ﬁnancé cette thèse, pour m’avoir donné l’opportunité d’expérimenter mes travaux de recherche
enmefournissantdiversesséquencesdedonnéesavecunevéritéterrain(qu’iln’estsouventpas
aiséd’obtenir).
JesuiségalementtrèsreconnaissantenversmesparentsBrigitteetPascalainsiquemesdeux
sœursCélineetÉmiliequim’onttoujourssoutenudurantmesétudesetquim’ontdonnélegoût
dessciencesenaiguisantmacuriositéetenseignélesensdesvaleurshumaines.
Je remercie enﬁn ma chère et tendre, Minh Nguyet, pour sa formidable joie de vivre
communicativeetpouravoirmagniﬁquementégaillécetteﬁndethèse.
tel-00626489, version 1 - 26 Sep 2011tel-00626489, version 1 - 26 Sep 2011Résumé
Lestravauxprésentésdanscemanuscritconcernentledomainedelalocalisationetlarecon-
struction 3D par vision artiﬁcielle. Dans ce contexte, la trajectoire d’une caméra et la structure
3D de la scène ﬁlmée sont initialement estimées par des algorithmes linéaires puis optimisées
parunalgorithmenon-linéaire,l’ajustementdefaisceaux.
Cettethèseprésentetoutd’abordunetechniquederecherchedel’amplitudededéplacement
(recherche linéaire), ou line search pour les algorithmes de minimisation itérative. La technique
proposée est non itérative et peut être rapidement implantée dans un ajustement de faisceaux
traditionnel.Cettetechniqueappeléerecherchelinéairealgébriqueglobale(G-ALS),ainsiquesa
variante à deux dimensions (Two way-ALS), accélèrent la convergence de l’algorithme d’ajuste-
mentdefaisceaux.L’approximationdel’erreurdereprojectionparunedistancealgébriquerend
possible le calcul analytique d’une amplitude de déplacement efﬁcace (ou de deux pour la vari-
ante Two way-ALS), par la résolution d’un polynôme de degré 3 (G-ALS) ou 5 (Two way-ALS).
Nosexpérimentationssurdesdonnéessimuléesetréellesmontrentquecetteamplitude,optimale
endistancealgébrique,estperformanteendistanceeuclidienne,etpermetderéduireletempsde
convergencedesminimisations.
Une difﬁculté des algorithmes de localisation en temps réel par la vision (SLAM monocu-
laire)estquelatrajectoireestiméeestsouventaffectéepardesdérives:dérivesd’orientation,de
position et d’échelle. Puisque ces algorithmes sont incrémentaux, les erreurs et approximations
sont cumulées tout au long de la trajectoire, et une dérive se forme sur la localisation globale.
De plus, un système de localisation par vision peut toujours être ébloui ou utilisé dans des
conditions qui ne permettent plus temporairement de calculer la localisation du système. Pour
résoudre ces problèmes, nous proposons d’utiliser un capteur supplémentaire mesurant les
déplacements de la caméra. Le type de capteur utilisé varie suivant l’application ciblée (un
odomètre pour la localisation d’un véhicule, une centrale inertielle légère ou un système de
navigation à guidage inertiel pour localiser une personne). Notre approche consiste à intégrer
ces informations complémentaires directement dans l’ajustement de faisceaux, en ajoutant un
terme de contrainte pondéré dans la fonction de coût. Nous évaluons trois méthodes permettant
de sélectionner dynamiquement le coefﬁcient de pondération et montrons que ces méthodes
peuvent être employées dans un SLAM multi-capteur temps réel, avec différents types de
contrainte, sur l’orientation ou sur la norme du déplacement de la caméra. La méthode est
applicable pour tout autre terme de moindres carrés. Les expérimentations menées sur des
séquences vidéo réelles montrent que cette technique d’ajustement de faisceaux contraint réduit
les dérives observées avec les algorithmes de vision classiques. Ils améliorent ainsi la précision
delalocalisationglobaledusystème.
Motsclés:ajustementdefaisceaux,visionmonoculaire,localisation,reconstruction3D,fusion
multi-capteur.
tel-00626489, version 1 - 26 Sep 2011tel-00626489, version 1 - 26 Sep 2011Abstract
The works presented in this manuscript are in the ﬁeld of computer vision, and tackle the
problem of real-time vision based localization and 3D reconstruction. In this context, the tra-
jectory of a camera and the 3D structure of the ﬁlmed scene are initially estimated by linear
algorithmsandthenoptimizedbyanonlinearalgorithm,bundleadjustment.
Thethesisﬁrstpresentsanewtechniqueoflinesearch,dedicatedtothenonlinearminimiza-
tion algorithms used in Structure-from-Motion. The proposed technique is not iterative and can
be quickly installed in traditional bundle adjustment frameworks. This technique, called Global
Algebraic Line Search (G-ALS), and its two-dimensional variant (Two way-ALS), accelerate the
convergence of the bundle adjustment algorithm. The approximation of the reprojection error
by an algebraic distance enables the analytical calculation of an effective displacement ampli-
tude (or two amplitudes for the Two way-ALS variant) by solving a degree 3 (G-ALS) or 5 (Two
way-ALS) polynomial. Our experiments, conducted on simulated and real data, show that this
amplitude,whichisoptimalforthealgebraicdistance,isalsoefﬁcientfortheEuclideandistance
andreducestheconvergencetimeofminimizations.
One difﬁculty of real-time tracking algorithms (monocular SLAM) is that the estimated
trajectory is often affected by drifts : on the absolute orientation, position and scale. Since
these algorithms are incremental, errors and approximations are accumulated throughout the
trajectoryandcauseglobaldrifts.Inaddition,atrackingvisionsystemcanalwaysbedazzledor
used under conditions which prevented temporarily to calculate the location of the system. To
solvetheseproblems,weproposetouseanadditionalsensormeasuringthedisplacementofthe
camera. The type of sensor used will vary depending on the targeted application (an odometer
for a vehicle, a lightweight inertial navigation system for a person). We propose to integrate
this additional information directly into an extended bundle adjustment, by adding a constraint
term in the weighted cost function. We evaluate three methods (based on machine learning or
regularization) that dynamically select the weight associated to the constraint and show that
these methods can be used in a real time multi-sensor SLAM, and validate them with different
types of constraint on the orientation or on the scale. Experiments conducted on real video
sequencesshowthatthistechniqueofconstrainedbundleadjustmentreducesthedriftsobserved
withtheclassicalvisionalgorithmsandimprovestheglobalaccuracyofthepositioningsystem.
Keywords:bundleadjustment,monocularvision,localization,3Dreconstruction,multi-sensor
datafusion.
tel-00626489, version 1 - 26 Sep 2011tel-00626489, version 1 - 26 Sep 2011

Voir