Assiste.com - Sécurité informatique - Vie privée sur le Web - Neutralité d'Internet Assiste.com - Sécurité informatique - Vie privée sur le Web - Neutralité d'Internet

Captcha

Captcha : « Tests de Turing » contre les robots tentant de se faire passer pour des humains et s'inscrivant/publiant automatiquement quelque part.

cr  01.04.2012      r+  11.07/2023      r-  18.04.2024      Pierre Pinard.         (Alertes et avis de sécurité au jour le jour)

Captcha est l'acronyme de Completely Automated Public Turing test to tell Computers and Humans Apart (Test de Turing publique, totalement automatisé, pour discriminer humains et ordinateurs).

Captcha est la mise en œuvre des Tests de Turing appliquée à la lutte contre les robots (programmes s'exécutant automatiquement) qui tentent de se faire passer pour des humains, par exemple en recherchant tous les forums et blogs du monde, en s'y inscrivant automatiquement et en y insérant des publicités ou en y propageant une doctrine, une idéologie... ou en indexant massivement un site Web pour tromper les moteurs de recherche et optimiser un classement (spamdexing).

Vous pouvez utiliser un test de Turing pour protéger votre boîte e-mail en vous assurant que celui qui vous envoie un courrier est bien un humain et non pas un robot (un spammeur). Ceci est traité avec les tests de Turing dans le dossier Spam.

Lorsque vous entrez sur un site Web ou un forum de discussion, un réseau social, etc., il vous est souvent demandé de reproduire un texte déformé apparaissant sur un fond perturbé. Il s'agit d'un test de Turing. Ces tests de Turing sont simples, trop simples parfois, ce qui a conduit les spammeurs à développer des outils pour les briser automatiquement - voir, par exemple :

Il faut donc développer des tests de Turing plus durs (tout en pensant aux solutions d'accessibilité pour les handicapés).




Les « Challenge messages » (ou « Captcha ») sont des contre-mesures au spam et au spamdexing dont la mise en œuvre est simple. Elle doit permettre de s'assurer, dans plusieurs cas de figure, que l'interlocuteur est un humain et non pas une machine (un robot). " Challenge messages " (ou " Captcha ") est un développement des tests de Turing dans lesquels on essaie de discriminer entre le robot et l'humain (et, accessoirement, en matière de spam de boîtes eMail, de s'assurer que l'auteur d'un courriel est autorisé à faire parvenir un courriel).

La demande de mot de passe est un challenge qui permet de passer ou d'échouer à un test, mais qui ne permet pas de discriminer entre le robot et l'humain.

Le principe qui anime les captchas est un système d'authentification dans lequel le challenge consiste à faire échouer un robot et permettre à un humain de passer le test. C'est un dérivé des tests de Turing. L'authentification par mot de passe, lorsque la saisie du mot de passe se fait sur un clavier virtuel avec disposition aléatoire des touches de ce clavier, oblige à une manipulation physique (souris ou écran tactile) et ajoute donc un test de Turing à l'intérieur d'un système d'authentification.

Les « Challenge messages » (ou « Captcha ») sont utilisés contre :

  • Le Spam

  • Le Spam viral

  • Les inscriptions automatisées dans les forums

  • Les inscriptions automatisées dans les services d'emails gratuits (Yahoo!, Microsoft...) où certains robots tentent d'attaquer le service en créant des milliers de comptes à la minute.

  • Les votes informatisés (sondages, etc.)

  • Les robots d'indexation lorsque le contenu ne doit pas être public ou ne doit pas être indexé

  • Les attaques par dictionnaire ou en force brute

  • Etc.

Contre le Spam et le Spam viral, les « Challenge messages » (ou « Captcha ») sont de petits dispositifs de protection simples, utilisés au niveau des serveurs de messagerie ou dans les procédures d'inscription sur un site ou un forum ou un blog, etc.

Les FAI (Fournisseur d'Accès Internet) qui offrent un service de messagerie en ligne agissent activement contre les robots. Lorsqu'un expéditeur vous envoie un courriel pour la première fois alors que vous êtes protégé par ce système, il reçoit automatiquement une demande d'authentification sous la forme d'une devinette dont la réponse est très simple à trouver pour un humain, mais est difficile et, croyait-on, impossible à trouver pour une machine. Les emails de cet expéditeur seront acceptés uniquement s'il arrive à résoudre le « Challenge message » (ou « Captcha »). Toutefois, de nombreux « Challenge messages » (ou « Captcha ») ont été contournés (percés) par les cybercriminels et des « Challenge messages » (« Captcha ») plus élaborés remplacent désormais les premiers types, trop faibles.


Exemple d'un captcha minimaliste. La déformation des lettres, sur un fond uniforme, n'est pas de nature à tromper un logiciel d'analyse et reconnaissance de caractères (OCR).
Exemple d'un Captcha (Test de Turing) minimaliste. La déformation des lettres, sur un fond uniforme, n'est pas de nature à tromper un logiciel d'analyse et reconnaissance de caractères (OCR). Ce captcha (Test de Turing) est percé depuis longtemps et ne sert à rien.


Un QCM - Questionnaire à Choix Multiples - sera soumis ou un texte sera affiché, très déformé, de manière à ne pas pouvoir être lu, croyait-on, par un outil de reconnaissance automatique de caractères - OCR - mais serait lisible pour un humain. Ce type de « Challenge messages » (« Captcha ») a également été rapidement percé par les cybercriminels.


Exemple d'un captcha (Test de Turing) minimaliste. Le brouillage des lettres, sur un fond uniforme, n'est pas de nature à tromper un logiciel d'analyse et reconnaissance de caractères (OCR). Ce captcha (Test de Turing) est percé depuis longtemps et ne sert à rien.
Exemple d'un captcha (Test de Turing) minimaliste. Le brouillage des lettres, sur un fond uniforme, n'est pas de nature à tromper un logiciel d'analyse et reconnaissance de caractères (OCR). Ce captcha (Test de Turing) est percé depuis longtemps et ne sert à rien.


Des chercheurs de l'University of California à Berkeley ayant développés des programmes capables de résoudre automatiquement les énigmes de ces challenges et ayant atteint un taux de réussite de 83%, les nouveaux challenges sont beaucoup plus complexes pour la machine tout en restant simple pour l'humain. Ainsi, des séries de photos sont présentées et il faut chercher l'intrus (ou une série de photos est présentée sur un même thème et il faut dire de quel thème il s'agit). Pour éviter les robots, les photos constituant la série soumise sont des photos extraites au hasard d'une immense base de photos du même thème (et il existe des centaines de thèmes) et, d'autre part, chaque photo est présentée déformée aléatoirement, ce qui empêche toute création d'une base de signatures qui permettrait une robotisation des réponses tandis que le cerveau humain est capable d'appliquer une correction intuitive à cette déformation.

Dans l'exemple ci-dessous, ce sont des ponts (bridge en anglais). Ici, la réponse est donc "bridge" ou "bridges". Vous voyez et sentez, intuitivement, la convergence entre ces photos. Un utilitaire d'analyse de photographies n'arrivera pas, aussi puissant soit-il et aussi puissante que soit la machine sur laquelle il est installé, à détecter les objets présents sur chaque photo puis à déduire quel est le dénominateur commun. La robotisation du décryptage de ce challenge est impossible, mais les cybercriminels ont trouvé des contre-mesures.


Exemple d'un captcha (Test de Turing) bloquant pour les robots. Il faut trouver le point commun entre plusieurs images. Les cybercriminels soumettent en temps réel ces captcha (Test de Turing) à des internautes tentant de s'inscrire sur des sites pornographiques qu'ils opèrent. Ce type de captcha (Test de Turing) est percé depuis longtemps et ne sert à rien.
Exemple d'un captcha (test de Turing) bloquant pour les robots. Il faut trouver le point commun entre plusieurs images. Les cybercriminels soumettent en temps réel ces captchas (test de Turing) à des internautes tentant de s'inscrire sur des sites pornographiques qu'ils opèrent. Ce type de captcha (test de Turing) est percé depuis longtemps et ne sert à rien.


Dans l'exemple ci-dessous, la réponse est 3 mots au choix parmi ceux que vous voyez. Vous, être humain en train de lire ceci, vous voyez les mots. Tentez de soumettre ceci à un utilitaire de reconnaissance automatique de caractères (un programme d'OCR) : il ne comprendra probablement rien, mais les cybercriminels ont trouvé des contre-mesures.


Exemple d'un captcha minimaliste. La déformation des lettres, sur un fond uniforme, n'est pas de nature à tromper un logiciel d'analyse et reconnaissance de caractères (OCR).
Exemple d'un captcha (test de Turing) bloquant pour les robots. Il faut trouver au moins 3 mots parmi plusieurs déformés et présentés sur un fond torturé. Les cybercriminels soumettent en temps réel ces captcha (test de Turing) à des internautes tentant de s'inscrire sur des sites pornographiques qu'ils opèrent. Ce type de captcha (test de Turing) est percé depuis longtemps et ne sert à rien.




The CAPTCHA Project est un projet commencé en 2000 par la branche "School of Computer Science" de la prestigieuse Université de Carnegie Mellon. Il est conduit par un groupe de professeurs et d'étudiants sous le nom d'ALADDIN (Center for ALgorithm ADaptation Dissemination and INtegration) et est supporté par le National Science Foundation (NSF). Le terme de CAPTCHA a été inventé en 2000, pour nommer leur projet, par :

  • Luis von Ahn (professeur assistant au Computer Science Department de Carnegie Mellon, Genius Award (MacArthur Fellowship) 2006, prix Grace Murray Hopper en 2011, prix "New Faculty" Microsoft).

  • Manuel Blum (professeur au Computer Science Department de Carnegie-Mellon)

  • Nicholas J. Hopper (professeur au Computer Science Department de Carnegie-Mellon)

  • John Langford (actuellement (2016) chercheur principal au Microsoft Research - en 2000 il était étudiant au Carnegie Mellon où il obtiendra son Doctor of Philosophy (Ph.D.) en 2002 (après un double baccalauréat en Physique et en Informatique en 1997. Il passera par Yahoo!, Toyota Technological Institute et l'IBM's Watson Research Center).

CAPTCHA est une marque déposée de l'Université de Carnegie Mellon. Le site http://www.captcha.net/ est un site de la Carnegie Mellon.

The CAPTCHA Project donna naissance à une industrialisation sous le nom de reCaptcha, avec certains des acteurs du projet de Carnegie Mellon. Les travaux gratuits sur la difficulté de lecture par les ordinateurs sont utilisés, inversement, dans les projets de numérisation des livres. Les possibilités offertes par les « Challenge messages » (« Captcha ») n'ont pas échappé à Google qui rachète reCaptcha le 16.09.2009 (annonce) :




The CAPTCHA Project a donné naissance à reCaptcha qui a été acquis par Google le 16.09.2009 (annonce). Google offre ce service de protection d'accès et d'inscription gratuitement.

Le Challenge message (Captcha) offert par Google
Le Challenge message (Captcha) offert par Google

C'est encore l'un de ces services gratuits de Google lui servant de tag de tracking pour surveillance et le profiling. Ce « service » est au service de sa régie publicitaire (Google Adsense) et, probablement, au service d'autres entités (officines gouvernementales ou plus ou moins obscures) révélées par Snowden avec Prism et Cie.

En plus, comme à son habitude, Google a organisé un buzz mensonger autour de reCaptcha en prétendant que la plupart des mots difficiles à lire provenaient de leur projet de numérisation, extrêmement controversé, de livres papier (ce projet est une violation des copyrights et une appropriation des bases de connaissances mondiales sous une forme dont l'avenir rend Google détenteur !).

Le buzz tourne autour du fait que cela aide Google à comprendre les mots illisibles, grâce à du crowdsourcing. Or les mots doivent être lisibles, difficilement certes, mais lisibles pour que les internautes puissent s'inscrire et que le système puisse authentifier qu'il s'agit d'un humain et non d'un robot (principe des Tests de Turing). Il n'est donc JAMAIS possible de soumettre aux internautes des mots dont on ne connaît même pas le sens, car leur graphie est illisible, ce qui conduirait, inexorablement, à l'échec du discernement entre humain et robot, puisque l'on ne pourrait comparer la saisie de l'internaute à une valeur attendue. Tous les internautes seraient considérés comme des robots ! C'est un bras d'honneur fait par Google à la communauté des internautes, au monde de l'écriture, au monde du livre, au monde du droit d'auteur, au monde de l'édition, à la culture, etc.

S'il n'y arrive pas après plusieurs tentatives qui ne peuvent aboutir, l'internaute change de CAPTCHA, mais ses « erreurs d'interprétation », et celles des millions d'autres internautes, sont statistiquement utilisées pour décrypter les livres qui ne passent pas à la reconnaissance automatique de caractères. Google gagne de l'argent gratuitement :

Si le service est gratuit, c'est que vous êtes le service !

Il en va de même avec les images issues de Google Street View (Le scandale Google Street View), contenant du texte (panneaux indicateurs, plaques commémoratives, plaques des noms des rues et places, etc.) dont Google laisse entendre que reCaptcha aide à l'enrichissement de Street View. Là aussi, Google utilise à leur insu, et gratuitement, les internautes, pour leur faire déchiffrer ce qui va effectivement enrichir Street View et Google Maps et ..., la société Google. C'est, là aussi, du crowdsourcing, et vous êtes un service gratuit utilisé par Google, et non pas l'inverse.

Voir, par la même occasion, le scandale du WarDriving pour StreetView.







Les Challenge message (Captcha) sont une contre-mesure aux robots d'inscriptions. Les cybercriminels ont trouvé des contre-mesures à ces contre-mesures et la plupart des Captchas sont cassés :

Cherchez, avec un moteur de recherches : captcha broken

  1. Ils « externalisent » la solution au problème que leur posent les Captchas. Ils recopient en temps réel le Challenge message (Captcha) et le mettent sur des sites pornographiques gratuits sur lesquels des centaines de milliers de personnes tentent de s'inscrire à chaque instant (ce qui se passe en dessous de la ceinture représente plus de 50% de l'occupation globale du Web !). Ce sont des humains qui, à leur insu, résolvent ces Challenge message (Captcha) pour le compte des cybercriminels. Ce sont des attaques utilisant le principe du crowdsourcing ! La résolution d'un Challenge message (Captcha), par un visiteur de ce type de sites, lui donne le droit de naviguer sur ce site durant quelques heures ou quelques jours.

    Il existe quantité de « solutions » pour les spammeurs, contre les Challenge message (Captcha) :
    Cherchez par exemple, avec un moteur de recherches : captcha ("trivially-broken" OR "trivially broken")

  2. Dito avec des sites de partages d'œuvres soumises à droit d'auteur et piratées (sites de téléchargements). La résolution d'un Challenge message (Captcha), par un utilisateur du site de téléchargement, lui donne le droit de télécharger durant quelques heures ou quelques jours. Il vient de résoudre, à son insu, un Challenge message (Captcha) pour le compte des cybercriminels.

  3. Dito avec des sites de jeu en ligne opérés par les cybercriminels. La résolution du Challenge message (Captcha) donne le droit de jouer durant un certain temps.

  4. Les cybercriminels soumettent les Challenge message (Captcha) à des employés humains de sociétés de solution des CAPTCHAs, qu'ils ont créés et qu'ils opèrent, dans des pays sous-développés. Les spammeurs payent environ 0,80 $ à 1,20 $ par tranche de 1000 Challenge message (Captcha) résolus, au Bangladesh, en Chine, en Inde, et dans de nombreux autres pays en développement. [1] D'autres sources citent un taux aussi bas que 0,50 $ par tranche de 1 000 Challenge message (Captcha) résolus.

    Cherchez, avec un moteur de recherches : captcha ("cheaply-broken" OR "cheaply broken")

  5. Contre les Captchas « primaires », il ne faut pas longtemps à un bon programmeur pour écrire une solution à base d'OCR (reconnaissance de caractères) et lire le Captcha directement à l'écran.

  6. Des services de résolution de Captcha se louent, comme, par exemple, cette API (existe encore en 2023) :
    http://www.imagetyperz.com/Forms/NewAPI.aspx

    • Recaptcha Automated Validation

    • Recaptcha Solving Old Method

    • Confident Captcha API

    • Fun Captcha API / Rotate Captcha API




C'est la course aux armements ! Puisque les contre-mesures trouvées par les cybercriminels pour contrer la contre-mesure au spam et au spamdexing utilisent des humains, il faut une solution qui ne peut qu'être le fait de l'internaute devant son ordinateur : une gestuelle physique, une interaction physique entre lui-même et son ordinateur. Le « Glisser-déposer » (« Drag and drop ») et les claviers virtuels sont la solution. Les captchas à trier sont des captchas qui résistent.




Ailleurs dans Assiste et sur le Web Ailleurs dans Assiste et sur le Web Ailleurs dans Assiste et sur le Web Captcha

  1. #Captcha#

  2. #Captcha#