Sous la direction de Jean-Thierry Lapresté
Thèse soutenue le 22 novembre 2010: Clermont Ferrand 2
Ce mémoire présente les travaux réalisés dans le cadre de ma thèse. Celle-ci a été menée dans le groupe GRAVIR (1) du LASMEA (2) au sein de l’équipe ComSee (3) qui se consacre à la vision par ordinateur. Ces travaux s’inscrivent dans le cadre d’un projet de l’Agence Nationale pour la Recherche s’intitulant « Logiciels d’Observation des Vulnérables ». Son but est de concevoir des logiciels détectant des piétons en danger et d’améliorer ainsi la sécurité routière. Ma thèse a pour but de détecter et de reconnaître les piétons dans les images. Celles-ci proviennent d’une caméra embarquée dans un véhicule circulant en milieu urbain. Ce cahier des charges implique de nombreuses contraintes. Il faut notamment obtenir un système fonctionnant en temps réel pour être capable de détecter les piétons avant un éventuel impact. De plus, ces piétons peuvent être sujets à de nombreuses variations (taille, type de vêtements...), ce qui rend la tâche de reconnaissance d’autant plus ardue. La caméra étant mobile, aucune information ne pourra être extraite du fond. Dans ma thèse, nous mettons en oeuvre différentes méthodes de vision par ordinateur, toutes basées apprentissage, qui permettent de répondre à ces attentes. Le problème se traite en deux phases. Dans un premier temps, une étape de traitement hors ligne nous permet de concevoir une méthode valide pour reconnaître des piétons. Nous faisons appel à une base d’apprentissage. Tout d’abord, un descripteur d’images est employé pour extraire des informations des images.Puis, à partir de ces informations, un classifieur est entraîné à différencier les piétons des autres objets. Nous proposons l’utilisation de trois descripteurs (ondelettes de Haar, histogrammes de gradients et descripteur binaire). Pour la classification, nous avons recours à un algorithme de Boosting (AdaBoost) et à des méthodes à noyaux (SVM, RVM, moindres carrés). Chaque méthode a été paramétrée, testée et validée, tant au niveau description d’images que classification.La meilleure association de toutes ces méthodes est également recherchée. Dans un second temps, nous développons un système embarqué temps réel, qui soit capable de détecter les piétons avant une éventuelle collision. Nous exploitons directement des images brutes en provenance de la caméra et ajoutons un module pour segmenter l’image, afin de pouvoir intégrer les méthodes de description et classification précédentes et ainsi répondre à la problématique initiale.1. acronyme de « Groupe d’Automatique, VIsion et Robotique ».2. acronyme de « LAboratoire des Sciences et Matériaux Et d’Automatique ».3. acronyme de « Computers that See ».
-Reconnaissance d’objets
-Détection
-Apprentissage
-Classification
-Description d’images
-Base d’apprentissage
-Caméra embarquée
-Temps-réel
-Piétons
This thesis has been realized in the group GRAVIR (4) of the LASMEA (5) with the team Com-See (6), which works on computer vision. My research was involved in a projet of the « Agence Nationale pour la Recherche »nammed « Logiciels d’Observation des Vulnérables ». Its goal was to create softwares to detect endangered pedestrians and thus to improve road safety. My thesis aims to detect and to recognize pedestrians in images. These come from a camera embedded into a vehicle, which is driven in urban areas. These specifications involve many constraints. We have to obtain a real-time system for detect pedestrians before a possible collision. Moreover, pedestrians should be very variable (size, clothes, ...), which make the recognition more complicated. As the camera is moving, no information could be taken from the background. In my thesis, we implement several methods of computer vision, all based on a learning stage, which answer to all theses expectations. The problem is solved in two steps. Firstly, a off-line stage allows us to design a method able to recognize pedestrians. We use a learning database. First of all, an image descriptor is used to extract informations of the images.Then, from these informations, a classifior is trained to differentiate pedestrians to others objects. We suggest to use three descriptors (Haar wavelets, histograms of oriented gradients and binary descriptor). For the classification task, we use a Boosting algorithm (AdaBoost) and kernel methods (SVM, RVM, least squares). We define all the parameters, and each method - of description or classification - is then tested and validated. The best association of these methods is also searched. Secondly, we realize an embedded real-time system, which is able to detect pedestrians before a possible collision. We directly use raw images coming from the camera et add a segmentation stage, so as to insert previous description and classification méthods and thus to answer to the initial problem.4. for « Groupe d’Automatique, VIsion et Robotique ».5. for « LAboratoire des Sciences et Matériaux et d’Automatique ».6. for « Computers that See ».
-Object recognition
-Detection
-Learning
-Classification
-Image description
-Learning database
-Embedded camera
-Real-time
-Pedestrians
Source: http://www.theses.fr/2010CLF22071/document
Voir