Abstract : In
natural language processing, two main approaches are used : machine
learning and data mining. In this context, cross-referencing data mining
methods based on patterns and statistical machine learning methods is
apromising but hardly explored avenue. In this thesis, we present three
major contributions: the introduction of delta-free patterns, used as
statistical model features; the introduction of a semantic similarity
constraint for the mining, calculated using a statistical model; and the
introduction of sequential labeling rules, created from the patterns
and selected by a statistical model.
Résumé : En
traitement automatique des langues, deux grandes approches sont
utilisées : l'apprentissage automatique et la fouille de données. Dans
ce contexte, croiser les méthodes de fouille de données fondées sur les
motifs et les méthodes d’apprentissage automatique statistique est une
voie prometteuse mais à peine explorée. Dans cette thèse, nous
présentons trois contributions majeures : l'introduction des motifs
delta libres,utilisés comme descripteurs de modèle statistiques;
l'introduction d'une contrainte de similarité sémantique pour la
fouille, calculée grâce à un modèle statistique; l'introduction des
règles séquentielles d'étiquetage,crées à partir des motifs et
sélectionnées par un modèle statistique.