Abstract :
Semantic information retrieval (SIR) aims to propose models that allow
us to rely, beyond statistical calculations, on the meaning and
semantics of the words of the vocabulary, in order to better represent
relevant documents with respect to user’s needs, and better retrieve
them.The aim is therefore to overcome the classical purely statistical
(« bag of wordsé») approaches, based on strings’ matching and the
analysis of the frequencies of the words and their distributions in the
text.To do this, existing SIR approaches, through the exploitation of
external semantic resources (thesauri, ontologies, etc.), proceed by
injecting knowledge into the classical IR models (such as the vector
space model) in order to disambiguate the vocabulary or to enrich the
representation of documents and queries.These are usually adaptations of
the classical IR models. We go so to a « bag of concepts » approach
which allows us to take account of synonymy. The semantic resources thus
exploited are « flattened », the calculations are generally confined to
calculations of semantic similarities.In order to better exploit the
semantics in RI, we propose a new model, which allows to unify in a
coherent and homogeneous way the numerical (distributional) and symbolic
(semantic) information without sacrificing the power of the analyzes of
the one for the other. The semantic-documentary network thus modeled is
translated into a weighted graph. The matching mechanism is provided by a
Spreading activation mechanism in the graph. This new model allows to
respond to queries expressed in the form of key words, concepts or even
examples of documents. The propagation algorithm has the merit of
preserving the well-tested characteristics of classical information
retrieval models while allowing a better consideration of semantic
models and their richness.Depending on whether semantics is introduced
in the graph or not, this model makes it possible to reproduce a
classical IR or provides, in addition, some semantic functionalities.
The co-occurrence in the graph then makes it possible to reveal an
implicit semantics which improves the precision by solving some semantic
ambiguities. The explicit exploitation of the concepts as well as the
links of the graph allow the resolution of the problems of synonymy,
term mismatch, semantic coverage, etc. These semantic features, as well
as the scaling up of the model presented, are validated experimentally
on a corpus in the medical field.
Résumé : La
recherche d’information sémantique (RIS), cherche à proposer des modèles
qui permettent de s’appuyer, au delà des calculs statistiques, sur la
signification et la sémantique des mots du vocabulaire, afin de mieux
caractériser les documents pertinents au regard du besoin de
l’utilisateur et de les retrouver. Le but est ainsi de dépasser les
approches classiques purement statistiques (de « sac de mots »), fondées
sur des appariements de chaînes de caractères sur la base des
fréquences des mots et de l’analyse de leurs distributions dans le
texte. Pour ce faire, les approches existantes de RIS, à travers
l’exploitation de ressources sémantiques externes (thésaurus ou
ontologies), procèdent en injectant des connaissances dans les modèles
classiques de RI de manière à désambiguïser le vocabulaire ou à enrichir
la représentation des documents et des requêtes. Il s’agit le plus
souvent d’adaptations de ces modèles, on passe alors à une approche «
sac de concepts » qui permet de prendre en compte la sémantique
notamment la synonymie. Les ressources sémantiques, ainsi exploitées,
sont « aplaties », les calculs se cantonnent, généralement, à des
calculs de similarité sémantique. Afin de permettre une meilleure
exploitation de la sémantique en RI, nous mettons en place un nouveau
modèle, qui permet d’unifier de manière cohérente et homogène les
informations numériques (distributionnelles) et symboliques
(sémantiques) sans sacrifier la puissance des analyses. Le réseau
sémantico-documentaire ainsi modélisé est traduit en graphe pondéré. Le
mécanisme d’appariement est assuré par une propagation d’activation dans
le graphe. Ce nouveau modèle permet à la fois de répondre à des
requêtes exprimées sous forme de mots clés, de concepts oumême de
documents exemples. L’algorithme de propagation a le mérite de préserver
les caractéristiques largement éprouvéesdes modèles classiques de
recherche d’information tout en permettant une meilleure prise en compte
des modèles sémantiques et de leurs richesse. Selon que l’on introduit
ou pas de la sémantique dans ce graphe, ce modèle permet de reproduire
une RI classique ou d’assurer en sus certaines fonctionnalités
sémantiques. La co-occurrence dans le graphe permet alors de révélerune
sémantique implicite qui améliore la précision en résolvant certaines
ambiguïtés sémantiques.L’exploitation explicite des concepts ainsi que
des liens du graphe, permettent la résolution des problèmes de
synonymie, de term mismatch et de couverture sémantique. Ces
fonctionnalités sémantiques, ainsi que le passage à l’échelle du modèle
présenté, sont validés expérimentalement sur un corpus dans le domaine
médical.