Une équipe de chercheurs en informatique a découvert que des milliers de sites web exfiltrent des e-mails d’internautes à partir de leurs pages de prise de contact. Les données sont collectées avant même que les visiteurs cliquent sur « envoyer ».
C’est les vacances, vous réservez une chambre dans un hôtel de la chaîne Marriott via Internet. Vous allez sur le site, trouvez la page de réservation et commencez à remplir le formulaire. Vos nom, prénom, e-mail… et puis bon, Marriott, c’est un peu cher. Vous vous dites qu’un camping suffira bien, avant d’abandonner la procédure de réservation et de quitter le site Marriott.com. Or, alors même que vous n’avez rien validé, que vous pensez n’avoir envoyé aucune donnée, votre e-mail a été collecté par le simple fait que vous l’avez saisi dans le formulaire en ligne !
Collecte par des sociétés tierces
En scrutant le comportement des pages de saisie de coordonnées sur pas moins de 100.000 sites internet parmi les plus en vue en Europe et aux Etats-Unis (sites d’hôtelleries, de médias, de commerce en ligne…), ils ont constaté que des milliers d’entre eux récupèrent des données personnelles avant que l’internaute ait cliqué sur « envoyer » : 1.844 sites européens et 2.950 côté web américain. Et évidemment, sans que l’internaute ait donné un quelconque accord pour cela.
Pour être exact, la collecte n’est pas effectuée par les sites eux-mêmes mais par les sociétés tierces spécialisées dans le ciblage marketing et publicitaire et dont les « trackers » prolifèrent partout sur le web. Des sociétés comme Taboola, Adroll, AddThis, SaleCycle, FullStory ou encore, plus connues, Criteo, Facebook (qui capte notamment les numéros de téléphone) ou Yahoo.
Parfois, les données sont exfiltrées quand le formulaire est complet mais n’a pas été validé ; dans d’autres cas, il suffit qu’un champ soit rempli et que le visiteur passe à la ligne suivante pour que la donnée fuite ; ou, encore, dès qu’un caractère a été tapé, il y a collecte !
Pour Asuman Senol, doctorante à la KU Leuven spécialiste de question de traçage en ligne et coauteur de cette étude, l’annonce de Google de mettre fin aux cookies tiers dans Chrome d’ici 2023 (des trackers qui permettent actuellement à un site de suivre un internaute partout où il va sur Internet) et la recherche d’une donnée d’identité stable font de l’e-mail une cible privilégiée.
En revanche, la responsabilité des sites sur lesquels a lieu cette fuite via les formulaires de contacts est loin d’être évidente. « Les sites web intègrent des scripts tiers pour diverses raisons : analyse de trafic, marketing, authentification… Dans certains cas, les développeurs ne savent pas exactement quel type de données récupèrent des sociétés tierces », estime la chercheuse. D’ailleurs, le cas spécifique de la collecte des mots de passe est accidentel, dû essentiellement à un bout de code présent dans l’infrastructure de développement React et utilisé par Yandex Metrica (un service d’analyse web gratuit).
Un « inspecteur de fuite »
sciencesetavenir