Un plongeon dans la recherche documentaire
Après notre premier article intitulé "à quoi sert un moteur de recherche" , voici la seconde partie dédiée à la recherche. Dans ce second volte, nous allons nous atteler à en découvrir les arcanes de la recherche…
La recherche, les données structurées et non structurées
Aujourd’hui, les données se regroupent en deux grandes familles : les données structurées et les données ‘non structurées’. Les données structurées s’entendent comme des données pouvant être associées à un contexte et à une structure et une logique de représentation de type relationnel. Pour les données non structurées que sont tous les documents sur support numérique et qui représentent jusqu’à 85% des informations de l’entreprise il faut être prudent avec la dénomination. En effet, ces données sont produites par l’homme et ont du sens mais leur « logique formelle de manipulations nous échappe » (…) « Tout simplement parce que la signification des données relève de leur usage ».[1]
D’un point de vue, données et documents à conserver, les deux familles ont toujours existées mais les données non structurées sont les données qui sont aujourd’hui devenus un enjeu majeur des entreprises.
La recherche et la ‘Fouille de texte’ ou Text-mining
Plusieurs grandes familles de méthodes d’analyse automatiques se retrouvent dans l’étiquette text-mining. L’analyse statistique, l’analyse sémantique, l’analyse grammaticale, …
Même si les frontières ne sont pas toujours évidentes, on assumera ici que l’analyse statistique du texte considère essentiellement un texte comme un ensemble non-ordonné de « mots » (représentation en sac de mots ou Bag-of-Word). Bien qu’a priori extrêmement simplificatrice, cette approche donne des résultats souvent étonnants, et à l’immense avantage de ne pas nécessiter beaucoup de connaissance a priori sur le corpus.
L’analyse sémantique se base généralement sur des connaissances externes au corpus, comme des mots-clefs pertinents, des ontologies, … Ces référentiels, plus ou moins spécialisés et plus ou moins raffinés, permettent une adhérence plus fine au corpus s’il est raisonnablement homogène. Plus consommatrice en temps humain (constitution et mise à jour des référentiels), l’analyse sémantique permet d’enrichir automatiquement le document, et donne des résultats directement interprétables.
Nous nous concentrerons essentiellement sur l’analyse statistique par la suite, en donnant quelques éléments concernant l’enrichissement des documents.
De l’utilité d’un moteur de recherche pour l’analyse d’un corpus textuel
L’appréhension d’un corpus documentaire dans un format numérique permet l’assistance d’outils de traitements automatiques. Le principal outil, et la pierre angulaire d’un grand nombre de techniques modernes d’analyse textuelle est le moteur de recherche.
En effet, pour passer d’un document destiné à la lecture humaine à un document analysable par une machine, plusieurs étapes sont nécessaires.
Il s’agit :
- De la détection de la/les langue(s) utilisées dans le document
- De la tokenisation, ou découpage d’un texte en unité de sens
- Du traitement de la ponctuation, de l’accentuation, de la mise en page (majuscules, paragraphes, …) et des mots vides (stop words)
- De la lemmatisation, permettant de regrouper les différentes formes d’un même mot (pluriels, conjugaison…)
Ces étapes sont regroupées dans un moteur de recherche dans la phase d’analyse du texte, préliminaire à l’indexation. Par la suite, afin de permettre sa fonction principale, à savoir la recherche, l’indexation va transformer cette suite de mots en en vecteur de fréquences d’apparitions, puis l’ « inverser » afin de permettre de retrouver des documents à partir de termes ou de combinaisons de termes.
L’amélioration des résultats de recherche dans des grands corpus nécessite le tri des résultats. Pour cela, les moteurs de recherche calculent une pertinence en utilisant tf-idf (term-frequency inverse-document-frequency) ou une variante, consistant essentiellement à surpondérer un terme très présent dans un document d’autant plus qu’il est rare dans le corpus (et vice-versa).
Dès lors, au-delà de la fonction de recherche classique, il est également possible d’utiliser un moteur pour effectuer un certain nombre de traitements (clustering documentaire, enrichissement via thésaurus externes ...).
La recherche mise en œuvre chez Spark Archives
Spark Archives a adopté la plateforme de recherche Elastic, et en a fait un élément central de sa solution d’archivage. Au-delà des fonctions de recherche, cette plate-forme permet de disposer simplement de deux fonctionnalités avancées, que sont la recherche par similarité documentaire, et l’enrichissement à partir de référentiel de type thésaurus, définis au sein de l’application.
La recherche par similarité documentaire permet de trouver à partir d’un document un ensemble de documents proches, partageant des concepts communs. L’utilisation de la pertinence comme critère de tri permet de limiter rapidement la navigation au sein du corpus existant, mais offre une recherche de découverte.
L’enrichissement apporte la capacité à tagguer les documents à partir de référentiels existants (on peut par exemple penser à un référentiel de fournisseurs, si le corpus est en partie au moins composé de contrats, factures, …). Limitant les besoins de saisie humaine, il est une condition sine qua non à l’utilisation simplifiée d’un SAE, que ce soit lors de la création de nouvelles archives, ou de leur recherche.
De façon plus prospective, des réflexions sont en cours afin d’utiliser les possibilités de classification et de clustering documentaires offertes par la capacité d’un moteur de recherche de simplifier le calcul de distance entre documents. Les objectifs sont multiples, allant du traitement semi-automatique des vracs numériques à la classification au sein d’un référentiel documentaire. La mise à disposition de ces capacités au sein d’un SAE permet de repositionner l’archivage électronique comme central non seulement dans la conservation, mais aussi dans l’exploitation de l’information disponible.
De la recherche à l’exploitation et à la visualisation des données
On l’aura compris, un SAE se doit d’avoir un moteur de recherche puissant en capacité de permettre une exploitation de ses données structurées et non structurées. Vient ensuite la volonté de valoriser ces données afin qu’elles deviennent encore plus accessibles aux utilisateurs. En une phrase, « une image vaut mille mots » prend ainsi aujourd’hui tout son sens. A ce titre, la recherche avec facettes graphiques est une première dapproche qui couvre une majorité des besoins des utilisateurs. Découvrez dans notre prochain article la nouvelle fonctionnalité de navigation multidimensionelle dans les archives via les facettes graphiques de Spark Archives.
Herwann Perrin Responsable Produit Spark Archives
Jérôme Besnard Responsable R&D Spark Archives
Nous contacter :
[1] Dans un passage célèbre des Recherches philosophiques, Wittgenstein écrit : « Pour une large classe des cas où il est utilisé – mais pas pour tous –, le mot “signification” peut être expliqué de la façon suivante : La signification d’un mot est son usage dans le langage. »
Add new comment