Co-classification sous contraintes

icon

16

pages

icon

Français

icon

Documents

Le téléchargement nécessite un accès à la bibliothèque YouScribe Tout savoir sur nos offres

icon

16

pages

icon

Français

icon

Documents

Le téléchargement nécessite un accès à la bibliothèque YouScribe Tout savoir sur nos offres

Co classification sous contraintes
Ruggero G. Pensa, Celine´ Robardet, Jean Franc ¸ois Boulicaut
INSA Lyon, LIRIS CNRS UMR 5205
Batimentˆ Blaise Pascal
F 69621 Villeurbanne cedex, France
ruggero.pensa@insa lyon.fr
celine.robardet@insa lyon.fr
jean francois.boulicaut@insa lyon.fr
Resum´ e´ : La co classification est une technique de classification conceptuelle
importante. Dans le cas de donnees´ categorielles,´ il s’agit de calculer des col
lections de bi clusters, i.e., des clusters d’objets et de couples atttributs valeurs
associes´ (propriet´ es´ booleennes).´ En marge du besoin classique d’optimiser une
´ ´fonction objectif sur la qualite des groupements, l’amelioration de la pertinence
´ ˆdes bi clusters calcules reste une tache difficile. Tout d’abord, il faudrait pou
voir exprimer l’inter´ etˆ subjectif de l’analyste, e.g., la definition´ declarati´ ve de ses
attentes au regard de sa connaissance du domaine. Ensuite, memeˆ si de telles
specifications´ existent, par exemple au moyen de contraintes sur les bi clusters,
l’exploitation de ces contraintes lors du processus heuristique de classification
reste un probleme` ouvert. A notre connaissance, la classification sous contraintes
n’a et´ e´ que peu etudi´ ee´ et n’a concerne´ des types de contraintes simples. Tout
d’abord, nous considerons´ la co classification plutotˆ qu’une classification mono
dimensionnelle. Ensuite, nous etudions´ de nouveaux types de contraintes utiles a`
l’analyse de donnees´ ordonnees,´ par exemple ...
Voir icon arrow

Publié par

Nombre de lectures

105

Langue

Français

Co-classication sous contraintes Ruggero G. Pensa, Ce´line Robardet, Jean-Franc¸ois Boulicaut
INSA Lyon, LIRIS CNRS UMR 5205 Baˆtiment Blaise Pascal F-69621 Villeurbanne cedex, France ruggero.pensa@insa-lyon.fr celine.robardet@insa-lyon.fr jean-francois.boulicaut@insa-lyon.fr R´sum´e : La co-classication est une technique de classication conceptuelle e importante. Dans le cas de donne´es cate´gorielles, il s’agit de calculer des col-lections de bi-clusters, i.e., des clusters d’objets et de couples atttributs-valeurs associe´s(proprie´te´sbool´eennes).Enmargedubesoinclassiquedoptimiserune fonctionobjectifsurlaqualit´edesgroupements,lam´eliorationdelapertinence des bi-clusters calcule´s reste une taˆche difcile. Tout d’abord, il faudrait pou-voirexprimerlint´ereˆtsubjectifdelanalyste,e.g.,lade´nitionde´clarativedeses attentes au regard de sa connaissance du domaine. Ensuite, meˆme si de telles specications existent, par exemple au moyen de contraintes sur les bi-clusters, ´ l’exploitation de ces contraintes lors du processus heuristique de classication reste un probleme ouvert. A notre connaissance, la classication sous contraintes nae´t´equepeue´tudie´eetnaconcerne´destypesdecontraintessimples.Tout d’abord, nous consid e´rons la co-classication plutoˆt qu’une classication mono-dimensionnelle. Ensuite, nous e´tudions de nouveaux types de contraintes utiles a lanalysededonne´esordonn´ees,parexempledansletemps.Enn,nousmontrons quenotrecadreg´en´eriquedeco-classicationapartirdemotifslocauxpeuteˆtre exploit´epourlaco-classicationsouscontraintes.Nousre´alisonsunevalidation expe´rimentalesurdeuxjeuxdedonn´eesdexpressiondegenes.
1 Introduction Denombreusestechniquesdefouillededonn´eesonte´te´de´velopp´eespourassis-terlad´ecouvertedeconnaissancesapartirdegrandesmatricesboole´ennes.Cetype dedonne´espermetdenregistrerquellessontlesproprie´t´essatisfaites(attributsou colonnes) par un certain nombre d’objets (lignes). Par exemple, dans la matrice r (Table 1), l’objet t 2 satisfait seulement les proprie´te´s g 2 et g 5 . L’une des applications quimotivenosrecherchesconcernelanalysededonn´eesboole´ennespourl´etudedu transcriptome (e.g., des matrices qui codent la sur-expression de genes dans un cer-tainnombredeconditionsexp´erimentales(Besson et al. , 2005)). Les processus de fouille s’appuient souvent sur des techniques de classication (“clustering”) qui four-nissent des motifs globaux, i.e., des regroupements prenant leur sens dans l’ensemble
uoasovsng-pa5=n,Quandmaxtrainte.tnefcoiecteobunnuR´1–G.FIamalopruatstseluria,malaPourria.Krn-maodGodentiecfeocelte,e´velus´estpl1b)eFig.na(ddeRed-cilniinras,tenssantcoboiuuneterilecaetsimilamaximal(.gc4e)tssuak(liFtuasedergiF.fc(serntseatmbnodemeelruemliustlrse´obsenousslesrvonsacdxam(pag-,)2=t21ean.Dessloneciatneam-xag”ped.1a)pourunecontronbm,1elepts-xagparaecomyendremoQ.)2=pag-xamruopmaduurlevalanduapse´iccunassnalucuneconationdaivne1nornositsesuielteob00/1ec0dsonsaraicesvpoursredlaueg-pamxa3)b.Tacfmbnoes.Lneyomserpmocsedsc-teur8,pourmax-ag=p,3ujqsua82on”s´etritduensslbisnemed(tafnu
Voir icon more
Alternate Text