L'Intelligence Humaine au Service de la Machine

Vincent Vanhoucke

Figure
Figure 1: Le "Turc" de Wolfgang von Kemplen
En 1809, la rumeur veut que Napoléon ait subi une de ses défaites les plus embarassantes...aux mains d'une machine: le "Turc" de Wolfgang von Kemplen était un automate joueur d'échecs, qui a pendant plus d'un demi siècle fasciné l'occident en battant les meilleurs joueurs sans intervention humaine apparente. Bien entendu, l'automate n'était qu'un leurre, et dissimulait un maître d'échecs qui jouait en même temps qu'il animait la machine.
Le concept de l'homme au service de l'intelligence mécanique, par opposition à l'intelligence artificielle au service de l'humain, est aujourd'hui de plus en plus réalité. L'homme est aujourd'hui très souvent mis en situation de contribuer individuellement à l'immense automate virtuel que constitue l'Internet. Principale nouveauté de cette révolution de l'intelligence collective: la délocalisation au travers du réseau des ressources humaines, au service d'une tâche communautaire. En un mot, le "Turc" est sorti de sa boite.
Amazon, le géant du commerce en ligne a lancé son propre "Mechanical Turk", version 2005: un réseau distribué d'agents au service de tâches que l'intelligence artificielle ne sait aujourd'hui résoudre, mais qui sont de plus en plus nécessaires aux industries de l'information. Le "Mechanical Turk" est un maillon de la "chaine de montage numérique", distribué partout ou l'Internet est disponible, qui permet à quiconque de soumettre une "tâche à intelligence humaine", et aux agents qui s'enregistrent auprès d'Amazon d'être payés pour accomplir cette tâche. Contrôler la qualité et la pertinence d'un inventaire en ligne, lorsque celui-ci provient d'un vaste réseau de petits fournisseurs et recouvre des millions de produits? C'est un problême qu'aucun distributeur n'a eu jusque là à résoudre à une pareille échelle. Le système permet à une société de démultiplier ses ressources très rapidement, de manière économique, pour toutes les activités laborieuses qu'elle ne peut automatiser.
L'idée d'employer des agents humains comme partie intégrante du processus de prestation de services en ligne paraît anachronique. Elle évoque l'image des "calculateurs" humains qui étaient utilisés pour les tâches de comptabilité ou de calcul scientifique, ou des standardistes qui effectuaient le routage d'appels avant l'avènement de l'ère informatique. Pourtant, tous les grands noms de l'Internet ont en leur sein des armées d'opérateurs, tre\`s souvent en Inde, qui exécutent des tâches telles que le contrôle de qualité (par exemple l'élimination de la pornographie téléchargée sur les site webs), la détection de fraude (élimiantion d'inventaire illégal ou mal représenté), ou l'enrichissement contextuel des informations (catégorisation des produits, annotation d'images).
La structure de coût de telles opérations dépend de la tâche à accomplir: pour le traitement d'images, qui necessite un haut débit, les coûts de bande passante dominent souvent l'équation si l'entreprise utilise des agents en pays émergeant. Si les tâches requièrent un niveau de comprehension linguistique élevé, ou une connaissance culturelle spécifique, un réseau distribué permet d'utiliser au mieux des ressources locales sans avoir a soutenir une infrastructure. D'autres tâches à un niveau de spécialisation moindre, telles que la catégorisation d'inventaire en ligne, sont exécutées de manière beaucoup plus efficace par des agents spécialisés, dont l'efficacité s'améliore grandement avec l'expérience. La clef du succes d'une telle entreprise tient essentiellement à la mise en place de méchanismes de contrôle rigoureux, ainsi qu'une structure de paiement qui récompense la qualité autant que la productivité.
L'innovation d'Amazon a été d'imaginer que ce processus pouvait être élargi et distribué au travers de l'Internet, de façon à en faire profiter les sociétés qui n'ont pas la masse critique nécessaire pour démarrer leur propre opération. Dans la même mouvance, de plus en plus de sociétés se tournent également vers le modéle distribué, que ce soit pour le support technique, la saisie de données ou les centres d'appels. Ce "crowdsourcing", transforme radicalement la structure de coût du système et ouvre de nouvelles options. Vous faites peut-être déjà partie d'un tel reseau distribué sans le savoir: si votre fournisseur de courriel vous offre l'option d'identifier les courriels indésirables (spam ou "pourriel"), votre contribution est transmise à l'intelligence artificielle qui filtre ces emails et les autres utilisateurs en bénéficient indirectement.
Un autre géant de l'intelligence en ligne, Google, a été fondé sur le principe d'aller piocher de manière automatisée dans la connaissance humaine collective de l'Internet. L'indispensable moteur de recherche est basé sur un principe très simple: une page web est considérée ïntéressante" si d'autres pages web ïntéressantes" pointent vers elle. Ce réseau de pointeurs est entièrement déterminé par l'expertise humaine qui a construit ce réseau de références, et la société a jusqu'à présent été très efficace dans son combat contre les systèmes automatisés qui tentent de reproduire ces relations référentielles à des fins frauduleuses.
Cette tendance est le pendant commercial de la montée en puissance de l'internet "participatoire", un des aspects les plus marquants du mouvement dit "Web 2.0". Avant même que les grandes entreprise n'aient envisagé tirer profit de l'intelligence distribuée du réseau, des milliers de communautés se sont formées autour de sites webs qui encouragent la collaboration sur des tâches variées. Ces projets, tels que le développement de logiciel libre, ou l'encyclopédie en ligne Wikipedia, fédèrent les contributions de dizaines de milliers d'utilisateurs. L'intelligence humaine est disponible partout, la difficulté restant néanmoins de parvenir à la fédérer autour d'une tâche commune. A cet effet, toutes ces communautés ont un point en commun: elles se sont dotées, parfois de manière intentionnelle, mais souvent à travers la culture développée par les utilisateurs, d'un système de valeur qui "récompense" le contributeur de manière virtuelle. Que ce soit une mention du nom du contributeur sur le site web, ou bien un simple système de points qui s'incrémente en fonction du niveau de contribution (points de "karma", "credits", et autres "étoiles"...), ces communautés développent leur héros et castes virtuelles.
La connaissance qui émerge de ces groupes est souvent étonnante: un site web qui traque la circulation des billets de banque au travers de leur numéros de série (tous entrés manuellement dans une base de donnée par ses utilisateurs, dont quelques fanatiques qui en font leur principal hobby) a récemment contribué à une étude épidémiologique importante sur le mode de propagation des virus à l'échelle globale.
La psychologie derrière le succès des systèmes de récompense fictifs est un sujet qui commence à sérieusement interesser la communauté universitaire: l'université de Carnegie Mellon a lancé une expérience destinée à résoudre l'un des problèmes d'intelligence artificielle les plus difficiles à l'heure actuelle: l'annotation et l'indexation automatique d'images sur le web. Jusqu'à présent, l'idée d'utiliser des humains pour cette tâche semblait impossible, de part le coût exorbitant d'une telle entreprise et de la difficulté du contrôle de qualité à vaste échelle. Le professeur Luis von Ahn a eu la brillante idée de transformer cette tâche en un jeu, appleé le "jeu de télépathie (ËSP Game"). Le jeu, disponible sur le réseau à http://espgame.org, est extrèmement ludique. Il est également conçu de manière à récompenser les utilisateurs en leur attribuant des points, tout en controllant de manière automatique la pertinence des annotations collectées au travers du jeu. Résultat le plus frappant de cette expérience: le jeu est si populaire qu'au rythme actuel d'annotation, il suffirait, d'après l'auteur, de moins de trois mois pour indexer toutes les images présentes sur le web avec au moins un terme descriptif. Cette expérience de psychologie de masse constitue probablement un grand pas en avant pour l'indexation multimédia, et l'intérêt suscité par le projet fait déjà des émules: Google n'a pas tardé à lancer sa propre version du jeu, appelée "Google Image Labeler".
L'intégration des bases de données en ligne, soit au travers d'une architecture ouverte (popularisée sous le terme de "mash-up"), soit au travers d'une analyse de la méta-information par des moteurs de recherche spécialisés, donne également lieu à des façons innovantes d'extraire une utilité nouvelle de l'information contribuée par les utilisateurs. Dans ce cas, la contribution de l'intelligence humaine est passive: l'utilisateur génère une base de connaissance qui n'est pas directement pour le profit du systême d'intelligence artificielle, mais le systême utilise simplement les données utilisateurs du web pour son apprentissage. L'analyse de cette meta-information est une industrie bourgeonnante à potentiel énorme. De Farecast, qui analyse les prix des billets d'avion vendus en ligne pour vous suggérer quand acheter, à Hitwise qui analyse le trafic des moteurs de recherche pour guider les campagnes de marketing, la quantité de données générée est astronomique, et seules des techniques avancées d'intelligence artificielle sont à même d'en extraire la substance. Netflix, le populaire service de recommendation de DVD, à très bien saisi la valeur compétitive de cette information: le "Netflix prize" est un prix d'un million de dollars pour quiconque est capable d'améliorer leur système de recommendation de 10%. A ce jour, 18536 équipes de recherche dans 151 pays ont répondu à l'appel!
Pour l'ingénieur en technologies de l'information, ce n'est pas un abandon du rêve de l'intelligence artificielle, bien au contraire. Depuis le "langage philosophique" de John Wilkins, au XVIIe siècle, les chercheurs en quête d'une représentation intelligente du savoir ont tenté de codifier la réalité en termes de règles grammaticales ou logiques. Cette approche n'a que rarement porté ses fruits, et aujourd'hui, c'est une autre approche, fondée sur des principes probabilistes, qui domine le sujet. Les systèmes d'intelligence artificielle les plus performants sont des agents de raisonnement purement statistiques, qui utilisent peu de règles à priori. Ces agents, une fois plongés dans un écosystème, de préférence aussi proche que possible de la réalité, sont capables d'apprendre les lois de cet environnement de manière automatique, y compris ses imperfections et ses ambiguités. La numérisation de notre activité est une aubaine unique pour l'apprentissage de ces systêmes: au plus l'Internet sera un miroir de l'activité humaine, au plus l'on se rapprochera d'une intelligence artificielle qui s'intégre réellement dans notre environnement.

Web 2.0 Marketing:
Intelligence et Personnalisation
La création de contenu utilisateur, pendant essentiel de la révolution "Web 2.0", transforme la relation de l'entreprise avec ses clients: l'utilisateur est intégré à la chaîne de valeur, et l'interface homme/machine s'adapte de plus en plus aux besoins individuels de chacun. C'est une opportunité unique pour le développement d'outils intelligents qui interagissent directement avec le client, ce qui change radicalement la donne en terme de marketing. La prolifération des "moteurs de recommandation" en est un excellent exemple: qu'il s'agisse de l'achat de DVDs (Netflix), de billets d'avion (Farecast), d'un logement (Zillow), ou de livres (Amazon), les systèmes intelligents pavent la route du client en ligne. L'occasion de transformer un client en contributeur, et ainsi de l'associer à la réussite du produit, explique en grande partie pourquoi le marché a été jusqu'ici si réceptif au message du Web 2.0, ceci en dépit des échecs retentissants de la première vague des ".com". Le niveau d'attente de ces clients impliqués n'en est que rehaussé. Pour tirer le meilleur parti de ces relations, l'entreprise doit s'adapter, et présenter un front ïntelligent" à tous les niveaux, ce qui implique souvent plus de contacts humains personnalisés, et moins d'automatisation du rapport clientèle. Pour prendre un exemple concrêt, imaginez être un agent immobilier, et que vos clients viennent vous voir avec l'historique complêt du prix de vos propriétés, les recommandations des propriétaires précédents, ainsi que des prévisions d'évolution à moyen terme en fonction des prix historiques des bâtiments dans le voisinage et autres critères macro-économiques: c'est exactement le scénario qui tourmente les professionels de l'immobilier depuis l'arrivée du moteur de prévision Zillow sur le marché américain. Leur valeur ajoutée se voit réduite à néant dans une profession qui, historiquement, a toujours utilisé l'asymétrie de l'information à son avantage. Votre propre équipe commerciale est désormais en compétition avec un moteur de recherche qui s'humanise très rapidement...qui va gagner?


Du point de vue de l'entreprise, les opportunités engendrées par l'intelligence émergente de la toile sont innombrables, et la combinaison des algorithmes automatiques et de l'apport humain offre un chemin de convergence entre les progrès en intelligence artificielle et la réalité économique. Un aspect des plus intéressants est l'émergence d'un vaste marché de tâches complexes intégrées à la chaîne de valeur de l'entreprise qui ne demandent qu'à être augmentées par des systèmes intelligents. La plupart de ces "tâches à intelligence humaine" peuvent être facilitées ou grandement simplifiées par l'utilisation d'intelligence artificielle en complément de l'agent humain. Par exemple, les centres d'appels ont d'abord été partiellement automatisé par des systèmes de reconnaissance vocale. Forts de cette intégation technologique, ils se tournent désormais vers d'autres techniques telles que l'identification du locuteur pour la détection automatique d'usurpation d'identité.
Un des aspects les plus fascinants de ce renouveau culturel et économique de l'intelligence artificielle est qu'il ne ressemble pourtant absolument pas aux visions de cybernetique, réseaux de neurônes ou machines de guerres savantes popularisées depuis l'aube du XXe siècle. L'intelligence artificielle d'aujourd'hui a laissé place à ce que certains appellent "l'intelligence augmentée", qui utilise l'humain comme fondation, et crée une valeur ajoutée par l'agrégation de ses connaissances ou l'analyse de ses choix et actions. Cette révolution est encore très jeune, et son impact économique encore sous-évalué. Appréhender son potentiel est aujourd'hui une opportunité unique pour une entreprise de se démarquer et transformer radicalement sa relation avec ses clients.



File translated from TEX by TTH, version 3.77.
On 01 Jun 2007, 10:53.