TEXTML Server au service des médias et de l’édition Livre blanc octobre 2002
Table des matières
I - Introduction..................................................................................... 3 XML, le langage idéal pour l’édition 3 Définition du XML 3 Pourquoi choisir les technologies basées sur le XML pour des solutions d’édition 4 II - Les défis pour l’industrie des médias et de l’édition ...................... 4 Convergence des médias 4 Réduire les coûts et trouver de nouveaux revenus 5 III - Les solutions IXIASOFT pour l’industrie des médias et de l’édition...... 5 Introduction à TEXTML Server 5 Exemples d’architecture 6 TEXTML Server dans de multiples contextes 6 Architecture I: Architecture d’édition de contenu éditorial avec TEXTML Server 6 Architecture II: Collecte, création, gestion et édition de contenu éditorial avec TEXTML Server 8 Étude de cas 10 Eurocortex et son gestionnaire de contenu intelligent ICM 10 IV - Conclusion ................................................................................. 11
Livre blanc IXIASOFT 2 I - Introduction Le récent ralentissement de l’économie mondiale, qui a particulièrement affecté le secteur des affaires électroniques, a forcé les entreprises à trouver de nouvelles façons de générer des revenus et de réduire leurs coûts. C’est notamment le cas dans l’industrie des médias et de l’édition. Les récentes innovations en technologie de l’information offrent aux ...
TEXTML Server au service des médias et de l’édition
Livre blanc
octobre 2002
Table des matières
I - Introduction..................................................................................... 3XML, le langage idéal pour l’édition 3 Définition du XML 3Pourquoi choisir les technologies basées sur le XML pour des solutions d’édition 4II - Les défis pour l’industrie des médias et de l’édition ...................... 4Convergence des médias 4Réduire les coûts et trouver de nouveaux revenus 5III - Les solutions IXIASOFT pour l’industrie des médias et de l’édition...... 5Introduction à TEXTML Server 5 Exemples d’architecture 6 TEXTML Server dans de multiples contextes 6Architecture I: Architecture d’édition de contenu éditorial avec TEXTML Server 6Architecture II: Collecte, création, gestion et édition de contenu éditorial avec TEXTML Server 8Étude de cas 10 Eurocortex et son gestionnaire de contenu intelligent ICM 10IV - Conclusion ................................................................................. 11
Livre blanc IXIASOFT
2
I - Introduction
Le récent ralentissement de l’économie mondiale, qui a particulièrement affecté le secteur des affaires électroniques, a forcé les entreprises à trouver de nouvelles façons de générer des revenus et de réduire leurs coûts. C’est notamment le cas dans l’industrie des médias et de l’édition.
Les récentes innovations en technologie de l’information offrent aux entreprises une occasion unique de se renouveler. Mais elles présentent également un danger pour la survie des entreprises qui ne misent pas sur ces nouvelles technologies.
Ce Livre blanc traite des défis technologiques que l’industrie des médias et de l’édition doit relever. Il décrit également comment les technologies liées au langage XML peuvent ouvrir de nouvelles voies aux entreprises qui veulent bâtir des infrastructures solides leur permettant de créer, gérer et distribuer du contenu de presse.
XML, le langage idéal pour l’édition
XML est désormais omniprésent dans le monde de l’édition. De nombreuses applications de production de contenu éditorial génèrent déjà de gros volumes de documents XML au sein de systèmes informatiques client-serveur dédiés. Dans cette section, nous allons présenter le XML et expliquer pourquoi les sociétés des médias et de l’édition devraient sérieusement examiner la possibilité de l’utiliser.
Définition du XML
XML signifie « langage de balisage extensible ». Développé par le World Wide Web Consortium, il est devenu rapidement la norme pour définir des formats d’échange de données dans le monde d’Internet. Un langage de balisage est un ensemble de descriptions de données (balises) et de règles qui simplifient et améliorent le processus d’échange de données entre des systèmes informatiques différents.
Le XML s'apparente au HTML (langage de balisage hypertexte) dans le sens où tous deux utilisent des balises pour structurer l’information. Cependant, la similarité s’arrête là. HTML informe les navigateurs, comme Internet Explorer ou Netscape, sur la façon de présenter l’information sur une page Web; XML, quant à lui, définit la structure hiérarchique de l’information sans tenir compte de sa présentation. Le XML donne aussi aux utilisateurs la liberté de créer leurs propres balises, tandis que le HTML utilise des balises prédéfinies.
Le XML se révèle extrêmement efficace pour la gestion de contenu semi-structuré. Il permet aux utilisateurs de créer des balises personnalisées (titres, sous-titres, images, texte, légendes, par exemple) et de spécifier leurs relations hiérarchiques.
Livre blanc IXIASOFT
3
Pourquoi choisir les technologies basées sur le XML pour des solutions d’édition Le XML présente plusieurs caractéristiques intéressantes pour la création et l’édition de contenu éditorial. En effet, il permet aux entreprises du secteur de rationaliser leurs méthodes de travail, il leur apporte de nouvelles perspectives commerciales et leur permet d'augmenter la rentabilité des services qu'elles offrent. Voici les principaux avantages qu’offre le XML à l’industrie de l’édition: yLe XML est extensible – Il ne se base pas sur un ensemble de balises fixes. On peut créer de nouvelles balises au besoin. yLe XML permet l’édition pour de multiples supports – Le même fichier structuré peut servir à produire des données sur CD, sur Internet ou imprimées. yLe XML dissocie contenu et présentation – Par le biais d'une transformation XSLT, le même document peut être publié sur différents supports sans modifier le contenu original du document. yLe XML est un langage à métadonnéesOn peut utiliser des données sur des – données pour décrire des sites Internet, pour décrire un ensemble de pages similaires ou pour sélectionner le contenu structuré à distribuer à chaque abonné. yLe XML supporte les documents multilingues et le UnicodeUn avantage de – taille pour des applications destinées à être utilisées partout dans le monde. yLe XML est ouvertXML est une norme du W3C appuyée par les leaders de – l’industrie du logiciel. yLe XML peut englober différents types de donnéesLes documents XML – peuvent contenir tous les types de données existants, des données multimédia (image, son, vidéo) jusqu'aux composants actifs (applets Java). yLe XML est simpleXML est simple à comprendre pour les utilisateurs et – facilement exploitable par les ordinateurs. yLeXML est au cœur des services Web– Les services Web jouent un rôle des plus significatifs dans la réutilisation et la syndication de contenu via Internet ou des appareils portatifs apportant ainsi de nouveaux revenus aux maisons d’édition.
II - Les défis pour l’industrie des médias et de l’édition
Convergence des médias
Que ce soit dans le domaine des "médias traditionnels" et/ou des "nouveaux médias", la convergence des médias est un concept qui ne cesse de gagner en popularité. La convergence des médias consiste à fusionner des opérations jusqu'alors réservées à chaque type de production média, comme l'impression, la télédiffusion, la radiodiffusion ou la publication sur Internet.
Ce besoin de convergence est lié en grande partie au fait que les lecteurs souhaitent accéder au contenu qui les intéresse n’importe quand et de n’importe où. Les entreprises de média désirant se démarquer devront négocier un important virage technologique afin de réunir leurs différents environnements de production et de distribution.
Livre blanc IXIASOFT
4
Selon Gartner (Stamford, Conn.), la convergence des technologies dans les médias repose sur la gestion des actifs multimédias (accès aux données via Internet) et la gestion de contenu multisupport (une seule source de contenu pour différents supports de diffusion). La clé d’accès à la gestion des actifs multimédias et du contenu multisupport est le langage XML. Le XML est une norme pour l’échange des données qui vous permet de créer de l’information une fois et de la diffuser sur différents supports selon le public cible. Cette publication de contenu multisupport permet à un éditeur, par exemple, de réutiliser du contenu destiné à être imprimé et de le diffuser via Internet, la télévision interactive, des appareils portatifs ou d’autres supports électroniques.
Réduire les coûts et trouver de nouveaux revenus
Un processus d'édition consiste à développer et illustrer un document ou un script et à créer un produit fini. Au cours des 10 dernières années, la technologie informatique a transformé le processus de production de communication imprimée sous toutes ses formes. Elle a aussi ouvert le chemin à l’invention de nouveaux moyens de diffusion tels que les CD-ROM et Internet, offrant ainsi de nouvelles voies à l’industrie de l’édition. Les rédacteurs et les éditeurs doivent maintenant relever de nouveaux défis pour augmenter leur part de marché et leur rentabilité. Les nouvelles technologies informatiques, comme les systèmes de base de données XML, permettront aux maisons d’édition : yde réduire leurs coûts en utilisant la production et la diffusion par Internet; yd'attirer de nouveaux lecteurs en rendant l’information aussi omniprésente que l'est Internet; yd’augmenter leur productivité en donnant aux éditeurs les outils qui leur permettront de gérer plusieurs publications; yde renforcer la position des publications existantes en diffusant les mises à jour en temps réel, partout et à tout moment;yde générer des revenus additionnels en créant de nouveaux produits et en offrant des méthodes de distribution diversifiées.
III - Les solutions IXIASOFT pour l’industrie des médias et de l’édition
Introduction à TEXTML Server
XML ouvre de nouvelles voies aux entreprises du domaine des médias et de l’édition. Le volume de contenu XML à gérer augmente de façon spectaculaire et crée un besoin vital de stockage, d’indexation et de recherche efficace de ce contenu. TEXTML Server est tout à fait adapté à cette tâche, car il a été conçu spécifiquement pour le XML et pour s’intégrer aux systèmes informatiques existants. Aucun autre produit sur le marché n’offre la puissante combinaison de la recherche plein texte et multicritère de TEXTML Server.
De plus, la capacité de TEXTML Server à indexer de façon dynamique l’information permet les mises à jour instantanées, une caractéristique absolument indispensable aux yeux des entreprises du monde de l’édition dont la survie dépend de l'actualisation des informations diffusées.
Livre blanc IXIASOFT
5
Architecture multiniveauOn peut considérer TEXTML Server comme un bloc fonctionnel conçu pour les applications qui doivent traiter de gros volumes d’information XML ou toute autre application contenant de l’information peu structurée ne pouvant être manipulée efficacement par des systèmes de base de données classiques. Basée sur le langage XML, TEXTML Server est extrêmement polyvalent et se prête à une vaste gamme d’applications.
Exemples d’architecture
TEXTML Server dans de multiples contextes Dans la section suivante nous donnerons deux exemples d’architecture de système.
Architecture I: Architecture d’édition de contenu éditorial avec TEXTML Server
Dans l’architecture suivante, le système : yCollecte et gère des nouvelles à partir de sources multiples et variées, yLivre les nouvelles du service de presse, yUtilise la technologie de pointe sans surcharger le système.
Livre blanc IXIASOFT
6
Dans cette architecture, TEXTML Server est utilisé comme dépôt de données central pour le contenu XML et le moteur d’édition. Les flux de données XML arrivent dans TEXTML Server où ils sont indexés et stockés dynamiquement dans leur format natif. Le contenu est alors distribué sur Internet selon des paramètres personnalisés. La structure des index est configurable. On évite ainsi de surcharger les bases de données en indexant des documents XML à structure complexe. On peut donc sélectionner et regrouper logiquement les valeurs spécifiques des éléments et des attributs, régler la profondeur des relations des éléments que l’on souhaite indexer et appliquer des critères rationnels à l’indexation de valeurs.
On peut aussi créer et gérer des index à l’aide d’un document de définition d’index, qui est lui-même un document XML, servant à déclarer une structure d’index. La structure d’index est écrite soit manuellement (selon la DTD de définition d’index fournie) soit par l’intermédiaire de la Console d’administration de TEXTML Server (TEXTML ServerAdministrationConsole). Les administrateurs peuvent utiliser l’interface graphique fournie avec la Console pour créer plus facilement les documents de définition d’index. La Console permet également à l’utilisateur d’entrer des expressions Xpath qui correspondent aux éléments et aux attributs devant être indexés, selon les besoins de l’application.
On peut créer des index pour rechercher des mots (en mode plein texte), des chaînes de caractère, des valeurs/intervalles numériques, et des valeurs/intervalles de dates et d'heures. Le serveur génère des index riches, qui peuvent indiquer l’emplacement de chaque occurrence, et offre ainsi de puissantes capacités de recherche.
Les index permettent aussi le tri des documents en fonction de n’importe quel élément ou attribut basé sur leur structure XML. On peut en outre créer des index en fonction des propriétés des documents, ce qui permet à l’utilisateur d’effectuer des recherches en fonction de valeurs contenues dans les propriétés du document considéré, par exemple, le nom du document (DocumentName), l’auteur du document (CreatedBy), la date de création du document (CreationDate), la personne ayant modifié le document (ModifiedBy), la date de la modification (ModificationDate), le type Mime du document (MimeType).
On peut aussi reconfigurer dynamiquement la structure des index sans gêner l’exécution des autres transactions utilisateurs par le serveur. Les modifications à la structure d’index sont effectuées de sorte que seuls les index pertinents sont mis à jour, ce qui accélère l’indexation et optimise les ressources du serveur.
Livre blanc IXIASOFT
7
Les index de TEXTML Server sont entièrement dynamiques et en synchronisme constant avec les bases documentaires. Un agent configurable déclenche le processus d’indexation et de désindexation selon les besoins de l’application. Le processus peut être lancé en fonction des compteurs suivants : nombre de documents ajoutés à la base documentaire, quantité (en Ko) d’information ajoutée, moment de la journée ou temps écoulé depuis la dernière mise à jour. Il est également possible de déclencher le processus manuellement.
Architecture II: Collecte, création, gestion et édition de contenu éditorial avec TEXTML Server Dans l’architecture suivante le système : yCollecte les nouvelles de sources multiples et variées, yCrée un contenu éditorial avec de nombreux auteurs, yGére le flux de production (création, contrôle des versions), yLivre des nouvelles du service de presse, yUtilise la technologie de pointe sans surcharger le système. Cette architecture décrit un environnement d’édition et de conception de contenu ou un environnement de production. Pour ce scénario, vous devez d’abord convertir votre documentation en XML, si cela n’a pas déjà été fait. IXIASOFT est associé avec des fournisseurs d’outils qui facilitent ce processus tels que DataJunction, ITEMFIELD, DataExchanger. Ceux-ci peuvent être utilisés pour mapper l’information classique tandis que les éditeurs de document XML tels que XML Spy, XMetaL, FrameMaker 7.0 ou i4i peuvent être utilisés pour concevoir un nouveau contenu directement en XML.
Livre blanc IXIASOFT
8
La publication de contenu se passe en 3 étapes principales : ycréation de contenu, ystockage, yédition.
La création de contenu et le flux de travail
Le contenu peut alimenter une application d’édition XML de deux façons : soit en convertissant le contenu existant en XML, soit en créant le contenu directement en XML.
L’utilisateur peut modifier le contenu d’un document en utilisant l’éditeur de son choix, sauvegarder les changements (ce qui met à jour les index) et extraire immédiatement le document mis à jour.
Le privilège d’édition est accordé à un seul utilisateur (document «checked out») de la base documentaire; toutefois, l’information peut être recherchée et lue par les autres utilisateurs. Si un processus d’approbation est établi pour la modification d’un document, le document restera dans la base documentaire de production tant que l’approbation finale pour l’envoi du document à la base documentaire en ligne ne sera pas donnée.
Le contrôle des versions offre la capacité de créer et de gérer des versions différentes d’un même document. Les demandes de contrôle des versions dépendent toujours de l’application; le contrôle des versions n’est donc pas incorporé au serveur. Il revient au développeur de l’application de décider de ce que sera la nouvelle version d’un document (par exemple, les corrections d’orthographe pourraient donner lieu à une nouvelle version); nous recommandons aussi qu’une base documentaire séparée soit déployée spécialement pour la gestion des versions. Stockage
TEXTML Server est conçu pour gérer efficacement des millions de documents XML, il est donc très bien adapté aux applications d’envergure et à l’échelle des entreprises. Il peut stocker différents formats de fichier binaire et indexer tout document XML bien formé. TEXTML Server permet aussi de verrouiller un document ou une base documentaire complète.
Les fournisseurs de contenu qui créent du nouveau contenu peuvent sauvegarder leurs documents directement dans une base documentaire TEXTML Server installée localement ou sur leur réseau. Ceci facilite la collaboration entre de multiples concepteurs qui fournissent un contenu directement à un dépôt de donnée centralisé peu importe l’endroit où ils se trouvent. Édition
TEXTML Server est idéal pour l’édition de contenu XML. Comme le dépôt de données est centralisé, les requêtes provenant d’une multitude d’applications peuvent être lancée sur le même contenu. Les résultats peuvent être personnalisés et présentés via une transformation XSLT. De plus, d’autres types de documents, tels que des images, des fichiers vidéos ou des fichiers son peuvent être stockés et extraits de TEXTML Server par le biais d’une requête.
Livre blanc IXIASOFT
9
Étude de cas
Eurocortex et son gestionnaire de contenu intelligent ICM
Eurocortex S.A. est une entreprise française de technologie de l’information spécialisée dans la gestion de contenu éditorial. Ils comptent parmi leurs clients le Groupe L’Express/L’Expansion, le Progrès de Lyon, le Groupe Bayard Presse, le Nouvel Observateur, et l’AFPA.
Afin d’augmenter l’efficacité de sa solution, Eurocortex a décidé d’implémenter TEXTML Server à même l’architecture du gestionnaire de contenu.
Le gestionnaire de contenu intelligent, appelé ICM, est une solution complète de gestion de documents qui combine toutes les fonctions nécessaires à l’obtention d’une chaîne de production de gestion de documents optimisée : convertisseurs intégrés, tâches récurrentes automatisées et édition multimédia. ICM permet un affichage personnalisé et sécuritaire de toute l’information qui circule dans l’organisation. L’information peut provenir des sources suivantes : ybases de données existantes (ou TEXTML Server), yapplications tierces reliées à ICM par le biais d’une API dédiée, ydocuments semi ou non structurés (image, son, ou fichiers vidéo, documents Office, documents Quark Xpress, fichiers HTML).
Livre blanc IXIASOFT
10
Livre blanc IXIASOFT
TEXTML Server agit à trois niveaux distincts : yImportation
11
L’avènement du XML a permis aux entreprises d’édition classiques de développer de nouvelles sources de revenus en améliorant constamment l’infrastructure de diffusion de contenu existant. Le contenu qui jadis n’était destiné qu’à l’impression peut maintenant être réutilisé pour différents outils de diffusion, selon les besoins des clients. TEXTML Server est l’outil idéal pour gérer de gros volumes de contenu XML; c’est une technologie essentielle pour les éditeurs à la fine pointe de la technologie.
Le module importation permet de rassembler du contenu provenant de sources externes : son, image, vidéo et autres fichiers (Quark, Word, Excel, PDF, HTML). Le nombre de sources possible est illimité et chaque source peut être traitée à l’aide de « règles d’importation » spécifiques. TEXTML Server permet non seulement le stockage de des documents en format XML il indexe aussi automatiquement les documents Word et PDF.
IV - Conclusion
yÉdition Ce module permet l’édition directe du contenu provenant d’un système d’information et de sources externes par le biais d’une interface conviviale. Les utilisateurs peuvent naviguer ou exécuter des opérations de maintenance telles que l’ajout, la modification ou la suppression de données en toute sécurité. Le module d’édition est accessible par le biais d’un client Web léger ou d’un client lourd sous Windows. C’est aussi avec ce module que les utilisateurs ont accès de façon transparente à TEXTML Server. yGénération
Le module génération de ICM permet de générer le contenu dans un grand éventail de formats tels que HTML, JSP, ASP, XML, et WML. Ce module alimente aussi automatiquement TEXTML Server. Donc l’application Web générée par ICM sera constituée de fichiers (HTML, ASP, ou JSP) reliés de façon dynamique à TEXTML Server. Ceci permettra aux utilisateurs d’effectuer des recherches plein texte puissantes.