139
pages
Français
Documents
Obtenez un accès à la bibliothèque pour le consulter en ligne En savoir plus
Découvre YouScribe en t'inscrivant gratuitement
Découvre YouScribe en t'inscrivant gratuitement
139
pages
Français
Documents
Obtenez un accès à la bibliothèque pour le consulter en ligne En savoir plus
ACADÉMIED’AIX-MARSEILLE
UNIVERSITÉD’AVIGNONETDESPAYSDEVAUCLUSE
THÈSE
présentéeàl’Universitéd’AvignonetdesPaysdeVaucluse
pourobtenirlediplômedeDOCTORAT
SPÉCIALITÉ: Informatique
ÉcoleDoctorale 380«SciencesetAgronomie»
Laboratoire Informatiqued’Avignon(EA931)
Traitementautomatiqued’informationsappliqué
auxressourceshumaines
par
RémyKessler
Soutenuepubliquementle10juillet2009devantunjurycomposéde:
M. Pierre-FrançoisMarteau Professeur,VALORIA,Vannes Rapporteur
M. PatrickGallinari Professeur,LIP6,Paris Rapporteur
M. MathieuRoche MaîtredeConférence,LIRMM,Montpellier Examinateur
M. DjamelAbdelkaderZighed Professeur,ERIC,Lyon Examinateur
M. GerardoSierra Professeur,GIL/UNAM,México Examinateur
M. JuanManuelTorres-Moreno HDR,LIA,Avignon Directeurdethèse
M. MarcEl-Beze Professeur,LIA,Avignon Co-Directeurdethèse
LaboratoireInformatique d’Avignon
tel-00453642, version 1 - 5 Feb 20102
tel-00453642, version 1 - 5 Feb 2010Résumé
Depuislesannées90,Internetestaucœurdumarché dutravail.D’abordmobilisée
sur des métiers spécifiques, son utilisation s’étend à mesure qu’augmente le nombre
d’internautes dans la population. La recherche d’emploi au travers des «bourses à
l’emploi électroniques» est devenu une banalité et le e-recrutement quelque chose de
courant. Cette explosion d’informations pose cependant divers problèmes dans leur
traitementenraisondelagrandequantitéd’informationdifficileàgérerrapidementet
efficacement pour les entreprises. Nous présentons dans ce mémoire, les travaux que
nousavons développésdans le cadre duprojetE-Gen,quia pourbutla créationd’ou-
tilspourautomatiserlesfluxd’informationslorsd’unprocessusderecrutement.Nous
nous intéressons en premier lieu à la problématique posée par le routage précis de
courriels. La capacité d’une entreprise à gérer efficacement et à moindre coût ces flux
d’informations, devient un enjeu majeur de nos jours pour la satisfaction des clients.
Nousproposonsl’applicationdesméthodesd’apprentissageafind’effectuerlaclassifi-
cationautomatiquedecourrielsvisantleurroutage,encombinant techniquesprobabi-
listes et machines à vecteurs de support.Nous présentons par la suite les travaux qui
ont été menés dans le cadre de l’analyse et l’intégration d’une offre d’emploi par In-
ternet. Le temps étant un facteur déterminant dans ce domaine, nous présentons une
solution capable d’intégrer une offre d’emploi d’une manière automatique ou assistée
afindepouvoirladiffuserrapidement.Basésurunecombinaisondesystèmesdeclas-
sifieurs pilotés par un automate de Markov, le système obtient de très bons résultats.
Nous proposons également les diverses stratégies que nous avons mises en place afin
defournirunepremièreévaluationautomatiséedescandidaturespermettantd’assister
les recruteurs.Nousavons évalué une palettedemesuresdesimilarité afin d’effectuer
un classement pertinent des candidatures. L’utilisation d’un modèle de relevance feed-
back a permis de surpassernos résultatssur ce problème difficile et sujet à une grande
subjectivité.
Motsclés
TraitementAutomatiqueduLangageNaturel,ApprentissageAutomatique,Recherche
d’Information,Ressourceshumaines,modèlesprobabilistes,mesuresdesimilarité.
3
tel-00453642, version 1 - 5 Feb 20104
tel-00453642, version 1 - 5 Feb 2010Abstract
Sincethe90s,Internetisat theheartofthelabormarket.Firstmobilized onspecific
expertise, its use spreads as increase the number of Internet users in the population.
Seeking employmentthrough"electronic employment bursary"has become a banality
and e-recruitment something current. This information explosion poses various pro-
blems intheirtreatmentwith thelarge amount ofinformation difficult to manage qui-
ckly and effectively for companies. We present in this PhD thesis, the work we have
developedundertheE-Genproject,which aims tocreate toolsto automate theflowof
informationduringarecruitmentprocess.Weinterestedfirsttotheproblemsposedby
theroutingofemails.Theability ofacompanietomanageefficientlyandatlowercost
this information flows becomes today a major issue for customersatisfaction. We pro-
pose the application of learning methodsto perform automatic classification of emails
to theirrouting,combining technical and probabilistic vectormachines support.After,
we present work that was conducted as part of the analysis and integration of a job
ads via Internet. We present a solution capable of integrating a job ad from an auto-
matic orassisted in orderto broadcast it quickly. Based on a combination of classifiers
systems driven by a Markov automate, the system gets very good results. Thereafter,
we present several strategies based on vectorial and probabilistic models to solve the
problemof profiling candidatesaccording toa specificjoboffer toassistrecruiters.We
have evaluated a range of measures of similarity to rank candidatures by using ROC
curves. Relevance feedback approach allows to surpass our previous results on this
task,difficult,diverseandhiglysubjective.
Keywords
Natural Language Processing, Machine-Learning, Information Retrieval, Human
Ressources,StatisticalApproaches,similarity measures.
5
tel-00453642, version 1 - 5 Feb 20106
tel-00453642, version 1 - 5 Feb 2010Remerciements
Enpremier lieu, je tiens à remercier les membres de mon jury.Djamel Zighed,pré-
sident du jury,mes rapporteursPierre-François Marteau et Patrick Gallinari mais éga-
lement Mathieu Roche et Gerardo Sierra, examinateurs, pour le temps qu’ils ont bien
voulu consacrer à monmanuscrit. Je tiens à leurexprimermes remerciements les plus
sincères pour les remarques qu’ils m’ont adressées et les discussions que nous avons
euesquim’ontpermisd’apporter,jel’espère,plusdeclartéàcedocument.
JeremercieparlasuitemondirecteurdethèseJuan-ManuelTorresMorenopources
années de confiance et de franchise, pources nombreuses discussions que nous avons
eutoutesplusenrichissanteslesunesquelesautres.Jenesauraisexprimerenquelques
mots la reconnaissance qu’il mérite ni de l’investissement dont il a fait preuve dans
cettethèse.
Je remercie vivement mon autre directeur de thèse, Marc El-Bèze pour sa disponi-
bilité et ses conseils. Je resterais sans douteencore longtemps en admiration devant la
pertinenceetlajustessedesesremarques.
J’adresse des remerciements particuliers à monsieur De Boutray dont le profond
intérêtpourlarecherche m’apermisdesaisirlesnuancessémantiquesprofondesqu’il
existeentre"avoirdutravail"et"êtreautravail".UnepenséepourEva,Tim,Frédéricet
NicolasqueFoxRivern’apasencorerelâchés..
Je remercie les membres du Laboratoire Informatique d’Avignon et du CERI, pour
leuraccueil, leurgentillesseetleursconseilspendanttoutescesannées.Voiciuneliste,
en m’excusant par avance des oublis, des personnes que je souhaite remercier tout
particulièrement : Philou, ThV, Jef, Driss, Christian, Christophe, Fred, Pierrot, Patrice,
Thierry, Nathalie, Franck, Jocelyne, Simone, Florian, Boris, Eric SJ, Rodrigo, Yann et
Tania. Une pensée particulière pour ma voisine de bureau, la "chica linda" Sylvia, qui
parmi ses nombreuses qualités, aura réussi à me faire retenir deux mots d’espagnols
ainsi que mon voisin de bureau virtuel Nicolas Béchet pour l’ensemble du travail ac-
compliensemble.
Je souhaite exprimer ma profonde gratitude à mes grands parents, mon parrain
Jean-Luc, Véronique,Jean-Claude, Sylvie et Renée pourleur soutienindéfectible. Plus
particulièrement, je remercie ma mère qui m’a toujours encouragé dans mes études
ainsiquemonpèred’avoireulagentillessedepartagercemomentdefiertéavecmoi.
7
tel-00453642, version 1 - 5 Feb 2010Je veuxenfinremercier les amis qui a leur façon ont contribué à la réussitede cette
thèse,Eric, Olivier, Jean, Lolo, Arnaud, Jean-Christophe et Pascale, Franck et Mélanie,
Elodie,Jean-Loup,BastienetplusparticulièrementLionel,pourcesnombreusessoirées
en Avignon en tête à tête devant nos ordinateurs.Ta gentillesse n’a d’égal que dans ta
générosité.
Pourterminercesremerciements,jedédiecettethèseàmafemmeLaetitiaetàmon
filsMickaël.Jelaremercied’avoirtoujoursétéprésente,danslesbonsmomentscomme
dans les difficiles et d’avoir toujours cru en moi. Grâce à ses encouragements et son
amour,cettethèseestàprésentterminée.Quant àMickaël,gardecesourireenjôleuret
negrandispastropvite...
ÀMickaël...
8
tel-00453642, version 1 - 5 Feb 2010
À
L
a
e
t
i
t
i
a
.
.
.Tabledesmatières
1 Introduction 15
1.1 LeTraitementAutomatiquedelaLangue . . . . . . . . . . . . . . . . . . 15
1.2 L’Apprentissageautomatique . . . . . . . . . . . . . . . . . . . .