mardi 18 octobre 2011

Google ou la numérisation participatif

Un des grands projets de Google et qui fait souvent polémique et de numériser tous les livres du monde et de les proposer à la lecture (plus ou moins gratuitement). 
Lancé en 2004, Google Books a déjà numérisé 15 millions de livres (ça fait une différence avec la bibliothèque du quartier non?). Mais le produit Google n'est pas infaillible dans sa tâche, il arrive parfois que le script mis en place n'arrive pas à déchiffrer une page, une phrase ou un mot scanné. 
C'est à ce moment que nous entrons en jeu
En 2009, Google rachète reCaptcha. Un captcha sert à différencier un humain d'une machine dans le but d’empêcher le spam essentiellement. Lorsqu'un captcha apparaît, on nous invite à saisir les mots qui y apparaissent.
Il faut savoir que seul le mot clairement lisible (ici Montréal) est nécessaire pour valider le captcha ! 
Le deuxième mot provient de la librairie Google et fait partie des mots que le script maison n'a pas réussi à déchiffrer. Au bout de plusieurs réponses identiques, le mot est appris par le script et ainsi il s'améliore.
C'est ainsi que nous participons tous à l'effort collectif de la numérisation de masse lancé par Google.
Ils sont vraiment rusés chez Google !
Source rue89

Aucun commentaire:

Enregistrer un commentaire