středa, února 03, 2010

víte, proč furt jak tataři přepisujete čísla a písmenka na webu? captcha, baby!

Je to prostě VŠUDE kolem nás a tenhle postarší článek z Figara Vám, tedy aspoň těm frankofonním, řekne proč.

Google

Des millions d'internautes aident à la numérisation massive de livres. Sans le savoir.

Ils sont malins, les dirigeants de Google. Pour accélérer leur programme de numérisation de livres, ils font travailler bénévolement des millions d'internautes. Vous, moi, n'importe qui. Comment ? Chaque fois que vous vous inscrivez sur un service en ligne, que vous remplissez un formulaire sur le Web ou déposez un commentaire sur un blog, on vous demande de reproduire dans une case les mots ou les lettres représentés dans une image. Le but : confirmer que vous êtes bien un humain et non un robot, pour éviter le spam. C'est ce qu'on appelle un « captcha ». Et chaque fois, il y a de grandes chances pour que vous travailliez sans le savoir pour Google. Le géant américain a en effet racheté le mois dernier la société reCaptcha, spécialisée dans cette technologie. Pas pour se protéger du spam, mais pour en exploiter les résultats et identifier ainsi les mots que les programmes de reconnaissance de caractères n'arrivent pas à décrypter.

«Captcha»

Quand ces logiciels analysent un texte imprimé, il leur arrive de confondre le «l» avec un «1», le «0» avec un «O», etc. En général, le correcteur orthographique intégré rétablit les bonnes lettres. Mais quand le texte est mal imprimé ou que le document est froissé ou taché, la capacité de déduction du logiciel est vite prise à défaut. Il écrit «nomye_a» au lieu de «rangement»,«1orsgd0n» au lieu de «lorsqu'on» ou… abandonne purement et simplement, se contentant d'insérer l'image du mot inconnu au milieu du texte reconnu. Et c'est là que vous intervenez, auxiliaires inconscients de ce grand œuvre. À vous de jouer les correcteurs. Toutes les images de ces mots sont transmises au « captcha », qui les soumet à votre sagacité quand vous avez fini de remplir le questionnaire en ligne. Mais pour que le système fonctionne, chaque mot non reconnu est accompagné d'un mot connu. Vous devez taper les deux mots de l'image : Google part du principe que si vous avez saisi correctement le mot connu, c'est que vous avez aussi déchiffré le mot inconnu. Votre formulaire est donc validé ou publié, et Google récupère votre contribution, qu'il compare à celle d'autres internautes. C'est ainsi que vos corrections font avancer la numérisation des livres par Google, qui dépasse désormais les 10 millions d'ouvrages.

Environ 200 millions de ces « captcha » sont identifiés chaque jour par des humains dans le monde entier. Des opérations qui prennent une dizaine de secondes à chacun. Et qui, en s'additionnant, permettent à Google d'économiser l'équivalent de 150 000 heures de travail. Astucieux, n'est-ce pas ? Un nouveau modèle économique voit le jour.