Sous la direction de Gabriella Salzano
Thèse soutenue le 16 octobre 2009: Paris Est
Les récentes évolutions dans les technologies de l’information et de la communication, avec le développement de l’Internet, conduisent à l’explosion des volumes des sources de données. Des nouveaux besoins en recherche d’information émergent pour traiter l’information en relation aux contextes d’utilisation, augmenter la pertinence des réponses et l’usabilité des résultats produits, ainsi que les possibles corrélations entre sources de données, en rendant transparentes leurs hétérogénéités. Les travaux de recherche présentés dans ce mémoire apportent des contributions à la conception d’une Nouvelle Approche de Recherche d’Information (NARI) pour la prise de décision. NARI vise à opérer sur des grandes masses de données cataloguées, hétérogènes, qui peuvent être géo référencées. Elle est basée sur des exigences préliminaires de qualité (standardisation, réglementations), exprimées par les utilisateurs, représentées et gérées à l’aide des métadonnées. Ces exigences conduisent à pallier le manque de données ou leur insuffisante qualité, pour produire une information de qualité suffisante par rapport aux besoins décisionnels. En utilisant la perspective des utilisateurs, on identifie et/ou on prépare des sources de données, avant de procéder à l’étape d’intégration des contenus. L’originalité de NARI réside dans la métaphore de l’écart d’impédance (phénomène classique lorsque on cherche à connecter deux systèmes physiques hétérogènes). Cette métaphore, dont R. Jeansoulin est à l’origine, ainsi que l’attention portée au cadre réglementaire, en guident la conception. NARI est structurée par la dimension géographique (prise en compte de divers niveaux de territoires, corrélations entre plusieurs thématiques) : des techniques d’analyse spatiale supportent des tâches de la recherche d’information, réalisées souvent implicitement par les décideurs. Elle s’appuie sur des techniques d’intégration de données (médiation, entrepôts de données), des langages de représentation des connaissances et des technologies et outils relevant du Web sémantique, pour supporter la montée en charge, la généralisation et la robustesse théorique de l’approche. NARI est illustrée sur des exemples relevant de la santé
-Recherche d'information
-Impédance
-Qualité des données
-Besoins préliminaires
-Métadonnées
-Information géographique
-Standardisation
-Applications en santé
The recent developments in information and communication technologies along with the growth of the Internet have lead to the explosion of data source volumes. This has created many growing needs such as in information retrieval to: treat the information according to its usage context, to increase the relevance of answers and the usability of results, and to increase the potential correlations between results, which can be done by making the heterogeneities and source distribution transparent. Our contributions consist in designing a NARI (New Approach to Information Retrieval) for decision-making. NARI is designed to operate on large amounts of catalogued and heterogeneous data that can be geo-referenced. It is based on quality preliminary requirements expressed by users, which are represented and managed using metadata. These requirements lead to the lack of data or their insufficient quality in relation to decision-making needs. Using the users’ perspective, we identify and/or prepare the data sources, before integration step processing. NARI’s originality relies on the metaphor of the impedance mismatch (classical phenomenon when we try to connect two physical heterogeneous systems), due to R. Jeansoulin. This metaphor, as well as the attention paid to regulatory framework (standardization), guides the design of NARI. The geographical dimension structures NARI, taking into account various territorial levels, correlations between several themes. Thus, it takes advantage of spatial analysis techniques, by automating information retrieval tasks, often implicitly made by policy makers. NARI is based on data integration techniques (mediation, data warehouses), knowledge representation languages and a set of Semantic Web technologies and tools, adapted to support the scalability, robustness and generalization theory of the approach. NARI is illustrated on examples relevant to the health domain
-Information retrieval
-Impedance
-Data quality
-Early requirements
-Metadata
-Geographic information
-Standardization
-Health applications
Source: http://www.theses.fr/2009PEST1037/document
Voir