esJADT 2002 : 6 Journées internationales d’Analyse statistique des Données Textuelles
Thermodynamique et Statistique Textuelle: concepts et
François Bavaud et Aris Xanthos
Section d’Informatique et de Méthodes Mathématiques et Section de Linguistique Lettres
Université de Lausanne CH 1015 Lausanne Switzerland
Statistical Language modelling is currently dominated by Information Theory, based upon Shannon’s entropy. Yet,
ever since Zipf and Mandelbrot, thermodynamic considerations (energy, temperature) have traditionnally consti
tuted a source of inspiration in Textual Statistics. We briefly recall elements of thermodynamics and statistical
physics, which we illustrate on textual problems such as the "heating" of texts, the unsupervised recovering of
missing blanks, the estimation of textual temperature, the additive and multiplicative mixture of models, as well as
the definition of indices of textual richness.
Keywords: Markov chains, Gibbs distribution, energy, entropy, unsupervised segmentation, temperature.
La Théorie de l’Information, basée sur l’entropie de Shannon, s’impose en tant que formalisme dominant en
modélisation du Langage. Cependant, les considérations thermodynamiques (énergie, température) ont également
joué un rôle essentiel en Statistique textuelle dès les travaux de Zipf et de Mandelbrot. Comme le démontre la mé
canique statistique, dont nous rappelons brièvement quelques principes, ces deux formalismes sont ...