Exploration de corpus pour l'analyse de sentiments

icon

28

pages

icon

Français

icon

Documents

Écrit par

Publié par

Le téléchargement nécessite un accès à la bibliothèque YouScribe Tout savoir sur nos offres

icon

28

pages

icon

Français

icon

Documents

Le téléchargement nécessite un accès à la bibliothèque YouScribe Tout savoir sur nos offres

Exploration de corpus pour l’analyse de sentiments
Sigrid Maurel
Paris, 22 juin 2009
S. Maurel (CELI France) Exploration de corpus 22/06/2009 1 / 28 Plan
1 Introduction
2 Méthode statistique
3 Méthode symbolique
4 Méthode hybride
5 Évaluation
6 Conclusion
S. Maurel (CELI France) Exploration de corpus 22/06/2009 2 / 28 Introduction
1 Introduction
2 Méthode statistique
3 Méthode symbolique
4 Méthode hybride
5 Évaluation
6 Conclusion
S. Maurel (CELI France) Exploration de corpus 22/06/2009 3 / 28 Introduction
Introduction
Contexte
classification d’opinions positives et négatives, présentes dans
des textes de différents domaines
corpus : tourisme, DEFT’07, jeux vidéo et imprimantes
CELIFrance
entreprise privée à Grenoble, spécialisée dans le « Sentiment
Analysis » et l’« Opinion Mining » (analyse des opinions)
développement de trois méthodes pour classer les textes de
forums sur Internet
statistique
symbolique
hybride
S. Maurel (CELI France) Exploration de corpus 22/06/2009 4 / 28 Introduction
Difficultés
Les difficultés rencontrées
langage familier et phonétique typique sur Internet
fautes d’orthographes nombreuses, absence de ponctuation
exemple de texte du corpus du tourisme :
BaLadeur, posté le 13-10-2006 à 11:23:43:
Je partage l’avis d’Aston sur de nombreux points. Villandry
est quelconque mais son jardin transformé en potager géant
vaut le détour. Chenonceau est certainement le plus photo-
génique donc le plus connu et il le mérite largement Si tu
recherche la ...
Voir icon arrow

Publié par

Nombre de lectures

85

Langue

Français

Exploration.SaMruleC(LEIrFnaec)edcorpuspourl’analyseSigridMaurelParis,22juin2009xElprotaoindeocrupsedsentiments220//602901/82
123456IntroductionMéthodestatistiqueMéthodesymboliqueMéthodehybrideÉvaluationConclusion.SaMruleC(LEIrFnaec)xEpnalPolaritnodeocrups220//602902/82
123456IntroductionMéthodestatistiqueMéthodesymboliqueMéthodehybrideÉvaluationConclusion.SaMruleC(LEIrFnaec)nIrtdoEuxclpitoorntaoindeocrups220//602903/82
corpus:tourisme,DEFT’07,jeuxvidéoetimprimantesclassificationd’opinionspositivesetnégatives,présentesdansdestextesdedifférentsdomainesContexteCELIFranceentrepriseprivéeàGrenoble,spécialiséedansle«SentimentAnalysis»etl’«OpinionMining»(analysedesopinions)développementdetroisméthodespourclasserlestextesdeforumssurInternetstatistiquesymboliquehybrideIntroductionnoitcudortnI82/49002/60/22suprocednoitarolpxE)ecnarFILEC(leruaM.S
DifficultésLesdifficultésrencontréesnIrtdocuitnolangagefamilieretphonétiquetypiquesurInternetfautesd’orthographesnombreuses,absencedeponctuationexempledetexteducorpusdutourisme:BaLadeur,postéle13-10-2006à11:23:43:Jepartagel’avisd’Astonsurdenombreuxpoints.Villandryestquelconquemaissonjardintransforméenpotagergéantvautledétour.Chenonceauestcertainementleplusphoto-géniquedoncleplusconnuetilleméritelargementSiturecherchelamonumentalitécommeaVersailles,lamagnifi-cenceenplus,ilfautabsoluementvoirChambort.Enfins’ilfautnevisiterqu’unevilleceseraTours..SaMruleC(LEIrFnaec)xElprotaoindeocrups220//602905/82
CorpusLescorpusutilisésSnIrtdocuitnosuggestionsdedestinationstouristiquesdanslesdifférentesrégionsenFranceetailleursdanslemondelescorpusdeDEFT’07:critiquesdelivresetfilms,testsdejeuxvidéo,relecturesd’articlesscientifiquesetnotesdedébatsparlementaires,certainscontiennentdessentimentsmoyenssolutionsdeproblèmepourdesjeuxvidéoconseilsd’achatpourdesimprimantes.aMruleC(LEIrFnaec)xElprotaoindeocrups220//602906/82
123456IntroductionMéthodestatistiqueMMéthodesymboliqueMéthodehybrideÉvaluationConclusion.SaMruleC(LEIrFnaec)téohedtstaEsixtpilqouretaoindeocrups220//602907/82
éMhtdoetstasiituqeLaméthodestatistiquedistributionnelleSexploitationducorpuspouridentifierunéchantillondetermesdistinctifsreprésentationstructuréedesconceptsclésdudomaineprocessusdedécouverteendeuxphases,particulièrementefficacefaceàdegrandscorpussensationdessujets,desconceptsdiscutésetdesrelationsentrecesconcepts.aMruleC(LEIrFnaec)xElprotaoindeocrups220//602908/82
LogOddsRatioSéMhtdoetstasiituqeOLRutilisationde2corpus:corpusd’étudesetcorpusderéférencelecorpusd’étudesestuncorpusdynamique,généréàpartird’unerequêtedemots-cléscomparaisondefréquencedestermesextraitsentrelescorpuslamesuredetermesspécifiquesestuneversionmodifiéeduLogOddsRatio.aMruleC(LEIrFnaec)xElprotaoindeocrups220//602909/82
LogOddsRatioLogOddsRatioSéMhtdoetstasiituqeOLRTermSpec=kTTeerrmmGDFFDGCCDDooccss+TermDF(1k)TermDF:fréquenced’untermedanslecorpusdudomaine;TermGF:fréquencedanslecorpusgénéralDCDocs:nombrededocumentsdanslecorpusdudomaine;GCDocs:nombredanslecorpusgénéralexpérimentationsavec3valeursdek:0,0.5,1.aMruleC(LEIrFnaec)xElprotaoindeocrups220//6029001/82
RandomIndexingSéMhtdoetstasiituqeIRapprochebaséesurlaco-ocurrencedesmots,lesensd’unmotétantdéfiniparsoncontextecalculd’unvecteurdesenspourchaquemot,deuxvecteursprochesontunsensprochereprésentationdelasémantiquedestermesdansunespaceàNdimensionscréationd’unematricetermes-contextes,générationdeclustersdetermes.aMruleC(LEIrFnaec)xElprotaoindeocrups220//6029011/82
Voir icon more
Alternate Text