Le cahier des charges "Corporate Search, Moteurs de recherche, recherche documentaire et knowledge management" a été rédigé par des experts indépendants. Il a pour vocation de vous aider à mener à bien votre projet au sein de votre organisation. Les critères technologiques présentés répertorient tous les paramètres à prendre en compte pour arbitrer vos choix. Vous pourrez ainsi réaliser votre cahier des charges et de comparer les solutions disponibles sur le marché.
TÉLÉCHARGER CE CAHIER DES CHARGES
Sommaire du Guide
1 CONTEXTE DU PROJET
1.1. Périmètre et objectifs du projet
1.2. Contexte technique
2 ANALYSE DES DONNÉES
2.1. Connecteurs
2.2. Indexation
2.2.1. Linguistique
2.2.2. Formats et récupération du texte intégral
2.2.3. Autres fonctions d’analyse des contenus
2.2.4 Sémantique et linguistique
3 RECHERCHE
3.1. Recherche en langue naturelle
3.2. Opérateurs linguistiques
3.3. Recherche dans les métadonnées
3.4. Opérateurs booléens
3.5. Tri
3.6. Aide à la recherche, à l’interprétation des résultats
3.7. Pertinence des résultats
4 FRONT-OFFICE
4.1. Interface de recherche
4.2. Présentation des résultats
4.3. Personnalisation par l’utilisateur final
4.4. Gestion des documents par l’utilisateur final
5 BACK-OFFICE
5.1. Réglages
5.2. Sécurité
5.3. Gestion des rôles des utilisateurs finaux
5.4. Gestion des sources
TÉLÉCHARGER CE CAHIER DES CHARGES
Qu'est-ce qu'une solution de Knowledge Management ou moteur de recherche d'entreprise?
Le cabinet Gartner estime à 5 heures par semaine le temps perdu par
les professionnels de l’information à regrouper les données dont ils ont
besoin pour accomplir leur travail. La capacité à utiliser efficacement
les données massives et à en faire un axe stratégique constitue sans
doute l’une des qualités majeures des entreprises pour les années à
venir. Le «Cognitive Search», tel que le nomme le cabinet Forrester, ou
encore les «Insight Engines» selon Gartner, qui englobe le Search,
l’analyse approfondie (Deep Content Analytics) permettant d’employer
le Natural Language Processing (NLP) et autres moyens d’analyses de
contenu, font tous partie des plateformes d’accès unifié à l’information
qui promettent un point d’accès unique pour faire émerger des
informations pertinentes et exploitables par les collaborateurs.
Nous avons conçu ce guide pour vous donner un aperçu des critères
essentiels que ces plateformes de recherche intelligente « d’enterprise
search » doivent réunir pour mener à bien vos projets de recherche et
d’exploitation des informations d’entreprise.
TÉLÉCHARGER CE CAHIER DES CHARGES
Introduction du cahier des charges Corporate Search, Moteurs de recherche, recherche documentaire et knowledge management
Historique et enjeux actuels
Pour chacun d’entre nous, moteur de recherche est synonyme de
recherche d’informations sur Internet, donc synonyme de Google,
Yahoo, Altavista, MSN… Toutefois, bien avant la généralisation du réseau
Internet, quelques éditeurs commercialisaient des logiciels de recherche
de documents. Pendant longtemps, et parfois encore, la bataille se
gagnait sur le terrain technologique voire scientifique.
Une des grandes batailles fut menée dès les années 1980 : la bataille
du « texte intégral » (full text). Il s’agissait de remplacer toute une
génération de bases documentaires. Ces dernières utilisaient l’indexation
des documents, comme par exemple la pose par un documentaliste
d’index généralement issus d’un thésaurus. La recherche dans ces bases
documentaires n’était donc pas à la portée de n’importe qui. Il fallait
connaître le thésaurus, le langage de requête et donc les documents.
Le « texte intégral » fut la première étape de vulgarisation des moteurs
de recherche. L’idée était « d’indexer » tous les mots du documents et
non plus uniquement les « mot- clés » des documents extraits par un
documentaliste. Les difficultés commençaient : pour passer à une échelle
industrielle il fallait régler les problèmes de performance en termes de
temps et d’espace. D’autres difficultés liées à la richesse du langage sont
apparues :« bruit » et « silence » (precision et recall). Le débat s’est donc déplacé
sur un plan quasiment idéologique : faut-il une approche vectorielle, un
fichier inverse, des analyseurs linguistiques… il semble que la bataille
technologique se soit arrêtée lorsque le leader mondial du bayesien a
racheté le leader mondial du sémantique.
L’enjeu se déplace maintenant également au niveau du système
d’information. En effet, l’accès à l’information d’entreprise doit apporter
une vision globale, prendre en compte toutes les sources d’information de
l’entreprise : bases de données, bases de contenus, portails, messagerie,
etc. Il faut par conséquent gérer les droits d’accès de toutes ces sources.
Il faut également prendre en compte les métiers de l’entreprise, les rôles
des collaborateurs…
Conduite d’un projet de recherche d’informations
La conduite d’un projet de gestion de contenu suit les principes de la
conduite de projets informatiques.
Certains points sont cependant accentués :
• Une équipe équilibrée
La maîtrise d’ouvrage est généralement assurée par l’équipe
documentation de l’entreprise. Il peut s’avérer pertinent d’y
adjoindre une autre entité fonctionnelle (la DRH par exemple)
afin de diversifier la vision de la solution à mettre en oeuvre.
Cette diversité de points de vue permet également de résoudre
les divergences avec la maîtrise d’oeuvre.
• Un prototype
Avant le choix définitif pour tel ou tel éditeur, un prototype sur
des documents de l’entreprise peut être demandé pour chaque
technologie. Ceci permettra également de valider l’adhésion de la
maîtrise d’ouvrage.
Les trois composantes essentielles d’une plateforme d’accès unifié à l’information
Les plateformes d’accès unifié à l’information doivent être en mesure
de traiter de l’information en provenance de nombreuses sources, sous
tous types de formats, à la fois structurée ou non structurée, interne
ou externe, issue d’une plateforme ou d’une interface utilisateur.
Une bonne plateforme d’accès à la l’information doit réunir ces trois
composantes essentielles :
• Une plateforme sémantique puissante et agile, permettant
l’indexation et l’analyse de données dans un contexte où
les sources peuvent être multiples, avec des contenus non
structurés, du multilinguisme, d’importants volumes de data et
des mises à jour fréquentes.
• Des interfaces simples et intuitives permettant un accès unifié à
toutes sources d’informations. Les plateformes les plus avancées
permettent en outre de réaliser des interfaces simplifiées de
type Google, ou au contraire plus sophistiquées, avec des
vues analytiques afin de fournir ainsi aux utilisateurs une vue
d’ensemble de toute l’information utile disponible en provenance
des différentes sources de l’entreprise. La capacité à paramétrer
ces interfaces et de les faire évoluer doit également entrer en
ligne de compte dans votre comparatif, de même que la capacité
de la plateforme à refléter les besoins des utilisateurs, grâce
à des intégrations fines ou modulaires (composants Angular et
services Web)
• Un socle technologique (GRID) performant, ouvert et évolutif.
La scalabilité de la solution doit faire l’objet d’une attention
particulière. La solution d’enterprise search doit effectivement
supporter de multiples applications répondant à des attentes
diverses depuis une infrastructure unique. Que la plateforme soit
déployée en local, sur des plateformes hébergées ou les deux de
manière hybride, elle doit pouvoir évoluer sans surcoût excessif.