Demander un devis

Pour demander un devis, contactez-nous en nous exposant vos besoins et attentes ainsi que vos deadline. Un devis vous sera renvoyé dans les plus brefs délais.

EN
+33 (0)6 13 79 84 50

Du Lundi au Vendredi - De 09h à 18h

Une évolution vers un web intelligent : IA et TAL - Partie 2

juill. 2 2013

Nathalie AussenacSuite à son premier article sur Graphemeride concernant l'intelligence artificielle et le traitement automatique des langues (TAL) comme passerelle vers un web du futur, Nathalie Aussenac Gilles revient nous parler de manière plus concrète des acteurs et des enjeux de ce domaine. Nathalie Aussenac-Gilles est chercheuse CNRS en traitement automatique des langues et traitement des connaissances.

Quels sont les enjeux et les acteurs actuels dans ces domaines ?

Les enjeux sont multiples et nous sommes dans une période très stimulante où les travaux sur le web sémantique et le traitement automatique des langues doivent relever de nouveaux défis.

  • Fouille de documentsPour le TAL, un des enjeux est le traitement massif de documents et de données textuelles, pour produire des modèles de description du langage basés sur l’étude des voisinages de termes dans des corpus très volumineux. D’autres enjeux sont de traiter des problèmes difficiles comme le calcul des références entre phrases (identifier à qui fait référence un pronom, un déictique comme "ce", etc. ) dans des paragraphes, le traitement des ambiguïtés inhérentes à la langue (polysémies, synonymies, etc.) ou encore la mise à disposition d’analyseurs faciles à utiliser, "robustes" car capable de traiter des phrases mal formées comme les textes des forums, des blogs ou des tweets.
  • Les enjeux pour la société sont la fouille de document scientifiques pour aider à la découverte de nouvelles connaissances, le traitement massif de contenus textuels pour les traduire et les rendre accessibles en plusieurs langues (et sortir du monopole de l’anglais) mais aussi faciliter la recherche d’informations précises, de points de vue, d’opinions.

Pour tous ces derniers traitements, l’enjeu concerne aussi la représentation des connaissances car il est nécessaire de caractériser la nature des informations et connaissance véhiculées par les contenus, de ne pas rester au niveau des mots mais bien de leur signification dans une phrase et un texte donné, donc de passer au niveau des concepts.

  • Enfin, un autre grand défi pour le web sémantique est l’interopérabilité de services et d’applications afin de recouper des données et de faire communiquer ces services. Une version familière de ce type de problème se trouve sur les sites marchands qui comparent les prix de différents fournisseurs sur le web. Ces comparateurs ont besoin d’accéder à des bases de données ayant chacune leur modèle et leur structure, de passer par une traduction vers un format pivot et de connaître donc les équivalences entre les propriétés des produits d’un site à l’autre. Ce passage peut se faire techniquement dans le monde des bases des données. Mais l’utilisation des langages du web sémantique consiste à utiliser un formalisme unique, à déclarer explicitement le modèle de connaissance reconnu comme facilitant ces échanges ou transformations, et à anticiper de futures applications.

Google snippet - Web sémantique

MeteoCe phénomène rejoint celui des données ouvertes (données rendues publiques par les scientifiques, les administrations, les acteurs du web ou encore certaines entreprises), dont un des défis est de les rendre accessible sous forme de données liées, c’est-à-dire représentées selon les langages du web sémantique. L’étape suivante est de typer ces données en fonction de classes (ou concepts) déclarées dans une ontologie : je ne vois plus un chiffre avec une unité, je sais que c’est la température observée aujourd’hui à Toulouse. Les rapprochements possibles qu’autorise le typage des données dans un format unique sont infinis et ouvrent des perspectives applicatives immenses.

Peut-on s'attendre à voir apparaître un "Google killer" intelligent utilisant les connaissances disponibles sur le web ?

Google killer, soit c’est un autre moteur de recherche "encore plus fort que Google" soit c’est une alternative innovante qui permet de se passer de moteur et donc de Google.

On a cru un moment que les tags et annotations partagées, les sites de partage et les communautés d’intérêt permettraient de se passer de moteur. Au contraire, avec les années, le poids de Google augmente : on est prêt à relancer les requêtes et demandes plutôt que de stocker des résultats, les étiqueter en vue de les réutiliser. Il y a là un paradoxe : plus la quantité d’information disponible sur le web augmente, plus on est prêts à renouveler des recherches régulièrement, sans doute pour y retrouver des informations récentes.

A défaut de tuer Google, les approches sémantiques sont en passe d’y être intégrées, et d’apporter un plus aux rapprochements produits par le moteur. Et les techniques de traitement automatique des langues accompagnent cette évolution.

Google et les informations sémantiques

Quelques initiatives concrètes représentant une avancée vers un web plus intelligent?

La mise en ligne d’ontologies mais surtout de données publiques sous forme de données liées ouvre la possibilité de définir des applications utilisant ces connaissances.

Des applications phares sont récompensées chaque année par les conférences du domaine. Sur cette vidéo en anglais, on peut voir exposée une application développée à EURCOM-Nice et qui a gagné le concours 2013 : EventMedia

  • Cette application exploite les données librement accessibles sur le web au sujet de morceaux de musique, leurs compositeurs et interprètes, sur des événements musicaux comme des concerts faisant intervenir ces interprètes, des données géographiques etc. pour faciliter la recherche d’événements à venir ou passés au sujet d’un groupe particulier par exemple, sa discographie, écouter un morceau etc. Or ces données ne sont pas nécessairement taggées et décrites sémantiquement au départ. Les ressources actuelles permettent de générer les annotations et représentations à associer aux documents du web nécessaires pour élaborer de telles applications.
  • L’autre application phare est Watson , le projet d’IBM pour permettre à un ordinateur de répondre précisément à des questions au cours d’un dialogue "presque naturel" avec un utilisateur, dans le cadre du jeu "Jeopardi". La part d’intelligence artificielle, et surtout de traitement automatique des langues, dans ce système, est conséquente. Les techniques utilisées réalisent une combinaison astucieuse et optimisée de connaissances linguistiques et de statistiques.

Projet Watson

Le web dans 10 ans ? Comment sera-t-il ?

Il est important que le web reste libre, ouvert et émerge de la contribution de ces acteurs, qu’il demeure un réseau social où la parole et l’expression sont ouverts ainsi que l’accès à l’information. Ce n’est pas trivial de le répéter à l’heure où une partie des données déposées sur le web sont "revendues" par des moteurs, où les usages sont notés, enregistrés parfois à l’insu des internautes et exploités à des fins publicitaires, mais aussi à des fins de filtrage d’accès.

Donc un web moins envahi par les pubs, les fenêtres intempestivement ouvertes ou les zones commercialisées.

Un web plus fiable, qui permet de connaitre la valeur de confiance à associer à chaque document, qui permet aussi de guider l’accès aux contenus pour en favoriser une découverte pédagogique. Pour cela, les travaux sur la fiabilité et la qualité des sources, les travaux aidant à identifier l’authenticité et la qualité des informations présentées seront déterminants. Ces travaux doivent aussi aider à repérer les sources des documents et informations affichées, reconstituer leur propagation, leurs évolutions etc... La "traçabilité" du web est un élément déterminant pour identifier les contenus de confiance, savoir s’ils ont été produits automatiquement ou par des utilisateurs, et dans ce cas lesquels.

Enfin, nous sommes à un tournant avec une sorte de bataille dont on ne sait pas encore qui va sortir gagnant.

  • D’un côté, des approches comme celle de Google, essaient de fouiller (par essentiellement des statistiques) les grands volumes de données produites par les internautes, les réseaux sociaux, les données libres, et de produire ainsi des applications restituant des contenus associés à des mots clés ou à d’autres contenus
  • D’un autre, les approches associées au web sémantique requièrent la volonté par les producteurs ou utilisateurs de ces données, de faciliter des rapprochements par la représentation du sens. Cela a un coût de modélisation plus élevé, mais qui se justifie pour parvenir à des applications de qualité, répondant à des besoins précis, dont on maîtrise mieux les sources, la fiabilité et l’utilisation. Ces approches sont souvent combinées et leur association est de plus en plus puissante.
  • Enfin, d’autres acteurs mettent toute la valeur dans le lien social, dans les connexions que permet le web, et qui favorisent la diffusion des informations, les échanges, et sont autant de sources de connaissances, d’indices de la notoriété de leurs auteurs et de leur valeur.

L’évolution du web est à la fois marquée par des évolutions technologies et des innovations en matière de modèles économiques pour en valider les contenus. Sa structure souple a laissé des initiatives, au départ généreuses et au service de l’échange, devenir d’énormes entreprises commerciales. La vigilance est donc de mise pour maintenir le droit à tous de participer, partager, échanger librement et sans entrave commerciale.

Nathalie Aussenac Gilles

Nathalie Aussenac-Gilles

Chercheur en représentation des connaissances auprès du CNRS.

Commentaires

Bonjour,
Je reviendrai juste sur le dernier paragraphe, le Web devient de plus en plus social, avec la mise en place de l'authorank, Google veut attribuer plus ou moins de poids aux contenus de son auteur, mais comment juger de sa pertinence ?
Je m'explique, un auteur peut très bien n'avoir aucune notoriété sur le Web mais être vraiment "callé" dans son domaine, donc gardons un peu de bon sens et pensons par nous mêmes non ? :)
Sinon merci beaucoup l'article, ce n'est pas un sujet forcément évident...

L'hypothese faite par Google dans ton raisonnement, Marvin, c'est qu'un auteur calé, expert, sera reconnu dans des écrits et obtiendra donc des signaux sociaux en rapport avec son expertise.

Une valeur importante est en effet un web fiable ! La fiabilité passe par une vérification des profils, un peu comme dans la vie réelle lorsque quelqu'un prends la parole, on sait qui il est et quelle portée doit avoir son message.
Pour ce qui est du Google Killer, entièrement d'accord avec vous, ce n'est pas prêt de changer et Google tends à répondre à tous les besoins en insérant directement dans ses pages de résultats les données recherchées par l'utilisateur.

Ajouter un commentaire