Légalité de l'OSINT : Partie 1 - Les Google Dorks

Comme son nom l’indique, le renseignement en sources ouvertes (ou OSINT¹) consiste à obtenir un renseignement depuis une source accessible au public.

Initialement la pratique s’est déployée au sein des services de renseignement et de l’armée. Les médias presse et radio ainsi que les publications émanant des universités, des laboratoires de recherche ou d’autres services publics pouvaient constituer des sources d’informations utiles à leur activité. Avec l’avènement d’internet, la recherche en sources ouvertes s’est largement démocratisée et de nombreux professionnels ont commencé à pratiquer l’OSINT sans le savoir, au premier rang desquels les journalistes².

Aujourd’hui l’OSINT est une activité clairement identifiée – voire revendiquée – par ceux qui la pratiquent et semble ne plus définir que la recherche d’informations librement accessibles sur internet.

La notion de « libre accès », au cœur de la pratique de l’OSINT, mérite d’être interrogée par le droit : le libre accès technique ne doit pas être confondu avec le libre accès juridique. C’est précisément cet écart que la présente série d’articles se propose d’aborder, en évoquant la légalité de plusieurs des pratiques de l’OSINT.

1. Les Google Dorks

Tandis que la majorité des sites web déploient tous leurs efforts pour se rendre le plus visible possible sur Google, d’autres, préférant l’ombre à la lumière, ne s’y trouvent que par une erreur de leur propre fait. Que risque alors l’internaute qui prendrait une porte ouverte pour une invitation ?

Comme tout moteur de recherche, Google parcourt le web et index un grand nombre de sites en fonction de plusieurs critères (notamment le sujet, la pertinence et la date de publication) afin de proposer les résultats les plus pertinents quand une recherche est effectuée par un internaute.

Or, il est fréquent que Google index des sites web qui ne devraient pas l’être, le plus souvent en raison d’une erreur de configuration du serveur par son administrateur.

Ce fait est bien connu et a donné naissance aux « Google Dorks », ces recherches précises effectuées sur Google en combinant plusieurs des 42 opérateurs de recherche permettant de spécifier, par exemple, l’extension d’un fichier, le domaine indexé ou sa date de publication³.

Mais en accédant à des serveurs dans ces conditions, les internautes s’exposent aux infractions relatives aux atteintes aux systèmes de traitement automatisés de données⁴ (STAD).

Qu’est-ce qu’une atteinte à un système de traitement automatisée de données ?

En 1988 est adoptée la loi Godfrain⁵, qui réprime les atteintes aux systèmes de traitement automatisé de données. Ces dispositions, aujourd’hui codifiées aux articles 323-1 à 323-8 du Code pénal, ont été enrichies au fil des années, si bien que les atteintes peuvent prendre de nombreuses formes :

l’accès ou le maintien frauduleux dans tout ou partie d’un STAD ;
l’entrave ou le fait de fausser son fonctionnement ;
l’introduction frauduleuse de données ;
l’extraction, la détention, la transmission, la suppression ou la modification frauduleuses de ses données.

Les peines prévues pour une personne physique vont de 3 ans à 7 ans d’emprisonnement et de 100 000 à 300 000 euros d’amende. La peine est portée à 10 ans d’emprisonnement et 300 000 euros d’amende si l’infraction est commise en bande-organisée ou si elle a eu pour effet d’exposer autrui à un risque immédiat de mort, de mutilation ou d’infirmité permanente. La tentative de ces délits est également réprimée.

Éléments constitutifs de l’accès et du maintien frauduleux

Dans le cadre de l’OSINT, le principal risque est d’abord un risque d’accès ou de maintien frauduleux dans un STAD sur lequel est stockée une donnée pertinente.

La condition matérielle de ces infractions, à savoir l’accès ou le maintien pose peu de difficultés dans la mesure où, comme l’a affirmé la Cour d’appel de Paris en 1994, « l’accès frauduleux, [au sens de la loi], vise tous les modes de pénétration irréguliers d’un [STAD], que l’accédant travaille déjà sur la même machine mais à un autre système, qu’il procède à distance ou qu’il se branche sur une ligne de communication⁶ ». Une simple requête HTTP est donc susceptible de caractériser un accès et sa répétition, un maintien.

L’élément intentionnel des infractions – le caractère frauduleux de l’accès ou du maintien – a suscité plus de discussions et relève d’une appréciation in concreto : l’internaute avait-il conscience de se trouver sur un serveur sans y être autorisé ?

Si des mesures de protection techniques ont été instaurées, la preuve du caractère frauduleux résulte de leur seul contournement qu’il s’agisse de l’utilisation de codes d’accès⁷, d’adresses mails appartenant à autrui⁸ ou d’un keylogger⁹ matériel ou logiciel¹⁰.

La réponse est moins aisée en l’absence de protection d’un STAD dès lors que ce défaut de protection résulte d’une négligence ou d’un oubli de l’administrateur du serveur. La situation n’est pas inédite et de nombreux serveurs se retrouvent inopportunément indexés par des moteurs de recherche, ce dont les OSINTeurs savent tirer profit.

La jurisprudence en la matière est principalement constituée de deux arrêts de la Cour d’appel de Paris rendus à 12 ans d’intervalle dans des affaires similaires et critiquables pour des raisons diamétralement opposées. Une jurisprudence qui se révèle in fine d’une aide très limitée pour éclairer les OSINTeurs.

CA Paris, 2022 : l’exclusion absolue de la fraude par la technique

Dans cette première affaire un journaliste avait accédé, depuis un moteur de recherche, à une partie du site de l’enseigne Tati contenant plusieurs fichiers clients. Après avoir informé les administrateurs du site de l’existence de cette faille, constatant qu’aucun correctif n’avait été apporté, il rédigeait le 15 mai 2000 un article¹¹ dans lequel il faisait état d’un « défaut d’installation de leur serveur », d’une « petite faille de rien du tout [qui] a fini par devenir une grosse faille » rendant accessibles des « renseignements très personnels » relatifs aux clients de l’enseigne à « n’importe quel pirate du dimanche ».

Condamné en première instance, le prévenu était renvoyé – sur appel du parquet – devant la Cour d’appel de Paris des chefs d’accès et de maintien frauduleux.

La Cour d’appel¹² l’a intégralement relaxé au motif qu’« à défaut de toute indication contraire et de tout obstacle à l’accès », il n’avait aucune raison de considérer les données comme confidentielles et ne saurait donc être condamné sur le fondement de l’accès ou du maintien frauduleux.

La relaxe du chef d’accès frauduleux est logique dans la mesure où cet accès était le fruit du simple usage d’un moteur de recherche. Le prévenu n’avait donc aucune raison de penser que ces fichiers étaient confidentiels en cliquant sur le lien indexé par son moteur de recherche, excluant ainsi toute fraude.

En revanche, la relaxe du chef de maintien frauduleux paraît, elle, bien plus discutable dans la mesure où le journaliste avait bien conscience d’accéder à des fichiers confidentiels, ce qu’il avait reconnu sans détour dans son article.

Dans cet arrêt, la Cour d’appel semblait donc restreindre l’appréciation du caractère frauduleux à la seule question technique : hors protection, point de fraude. Or, rien dans le texte d’incrimination ne vient limiter la juridiction qui reste libre de prendre en compte tous les éléments nécessaires pour caractériser la fraude.

Or, 12 ans plus tard, c’est la même Cour d’appel – mais autrement composée – qui allait rendre une décision aussi surprenante qu’en parfaite symétrie avec celle-ci.

CA Paris, 2014 : la caractérisation absolue de la fraude par la technique

Dans cette affaire, les faits étaient remarquablement similaires : un journaliste, dans le cadre d’une enquête, était parvenu à accéder par une « recherche complexe » depuis Google à une partie du serveur de l’ANSES non protégée et sur laquelle se trouvaient 7,7 gigaoctets de données confidentielles. Après en avoir extrait une partie, il les a exploitées dans son article. Ce qui a conduit l’agence nationale à porter plainte et l’enquête, conduite par la DCRI, s’est conclue par le renvoi du journaliste devant le tribunal correctionnel pour y répondre des chefs d’accès et de maintien frauduleux dans un STAD ainsi que de vol de données (chef de prévention audacieux, sur lequel je ne m’étendrai pas ici).

Relaxé en première instance, il était condamné par la Cour d’appel pour maintien frauduleux et vol de données informatiques mais était relaxé sur le fondement de l’accès¹³. La Cour de cassation rejetait finalement le pouvoir interjeté contre cet arrêt en adoptant sa motivation¹⁴.

La relaxe du chef d’accès frauduleux est motivée par l’absence de protection du serveur, librement accessible par un moteur de recherche, conformément à la jurisprudence établie précédemment. Il a en revanche été déclaré coupable du chef de maintien frauduleux, sur la base d’un raisonnement qui ne saurait prospérer qu’en empruntant un raccourci logique et en procédant par déduction hâtive¹⁵.

En effet, pour motiver la condamnation, la Cour relève qu’en garde-à-vue le journaliste avait reconnu l’existence, à la racine du site, d’un mécanisme d’authentification (login et mot de passe). Or, pour la Cour d’appel, cette mesure de protection présente à la racine, aussi défaillante fut-elle, devait conduire le journaliste à réaliser qu’il était présent sur un serveur sans droits et qu’il devait immédiatement cesser d’y naviguer puisqu’il « avait conscience de son maintien irrégulier dans le système de traitement automatisé de données visité ».

La Cour d’appel déduisait de l’existence d’un mécanisme d’authentification le caractère confidentiel des données présentes sur le site : s’il existait un tel mécanisme à la racine du site c’est donc qu’il devait protéger les données présentes sur celui-ci, seules les personnes dûment authentifiées ne pouvant y accéder.

Ce faisant, la Cour confondait 3 choses distinctes : l’authentification, les droits d’accès et le statut des données.

L’authentification ne sert à rien d’autre qu’à identifier un internaute, qu’il s’agisse de son identité civile ou d’un pseudonyme. À cette identité, on peut attribuer des droits d’accès spécifiques à certaines parties du site ou certains fichiers. Dès lors, si c’est le cas, ces fichiers deviennent confidentiels pour toute personne ne disposant pas du droit d’accès sur ceux-ci.

Mais le mécanisme d’authentification en lui-même ne dit rien du statut des données dès lors que l’internaute n’a aucun moyen de savoir si des droits d’accès sont associés à cette authentification et quelles données sont protégées par ces droits d’accès.

Ainsi, le client d’un site de e-commerce peut s’identifier pour accéder aux parties du site qui lui sont réservées (historique de commandes, moyens de paiement, etc.) mais le site a intérêt à ce qu’il soit identifié même pour consulter les parties publiques du site, afin de déterminer ses centres d’intérêt et lui adresser des recommandations de produit ciblées.

L’authentification n’est donc pas synonyme de données protégées. En affirmant le contraire, la Cour d’appel a rendu une décision qui est à la fois techniquement infondée et inapplicable en pratique.

Conclusion

À s’en tenir au dernier état de la jurisprudence, chaque internaute accédant depuis Google à des données situées sur un site sur lequel existe un mécanisme d’authentification encourt des poursuites.

Cette jurisprudence doit à l’évidence être combattue, mais un éventuel revirement ne conduirait pas pour autant à la disparition du délit de maintien frauduleux. Plusieurs éléments peuvent conduire à caractériser la fraude.

On pense d’abord à la nature des données présentes sur le site. Si un internaute a accès à des données confidentielles et qu’il en prend connaissance, des juges pourraient en déduire qu’il avait nécessairement conscience de se maintenir frauduleusement sur ce serveur s’il y poursuivait sa navigation.

Certes, dans la première affaire que nous avons évoquée, les juges avaient considéré que « même s’agissant de données nominatives, l’internaute y accédant [sans outrepasser de mesure de protection] ne peut inférer de leur seule nature qu’elles ne sont pas publiées avec l’accord des intéressés ». Mais cette décision ne devrait pas être prise comme référence, ce d’autant plus au regard de l’arrêt de la Cour d’appel de Paris de 2014.

Quelles données pourraient alors constituer une preuve que l’internaute savait se trouver sur un serveur sans autorisation ? Il est difficile de répondre de manière définitive et générale à cette question, d’autant plus que l’appréciation se fera in concreto, en prenant en compte la nature des données ainsi que le profil de l’internaute. Néanmoins on peut raisonnablement supposer que le caractère frauduleux du maintien puisse se déduire d’une navigation prolongée après la découverte de données sensibles¹⁶ ou de données sur lesquelles est apposée la mention « confidentiel ».

L’adresse du site pourrait également constituer une indication de son caractère confidentiel. Imaginons par exemple l’URL suivante : « agence-securite-nucleaire.gouv.fr/intranet/access-restreint/codes-dacces-flamanville ». Il n’est pas impossible que les parties de l’URL « intranet » et « accès restreint » soient considérées comme des indications du caractère confidentiel du site.

À côté de ces éléments qui relèvent du site lui-même, les outils utilisés par l’internaute pour masquer son adresse IP pourraient également être mobilisés pour démontrer qu’il avait conscience du caractère frauduleux de sa présence (et donc de son maintien) sur le site. Des magistrats pourraient ainsi relever l’utilisation d’un VPN ou de logiciels rajoutant une surcouche aux fins d’anonymisation (Tor ou i2P) voire l’utilisation de systèmes d’exploitation dédiés à la sécurité (Tails, Qubes Os ou Kali Linux), sous réserve bien sûr que l’internaute soit malgré tout identifié. Tous ces outils ne sont bien sûr pas équivalents et on ne saurait déduire automatiquement de leur seul usage la preuve du caractère frauduleux du maintien (ni même de l’accès).

L’appréciation du caractère frauduleux du maintien repose sur de nombreux critères et s’il y a lieu de se réjouir de la formation accrue des magistrats à la délinquance cyber celle-ci a nécessairement pour corollaire une plus fine appréciation de chaque situation.

Vous êtes renvoyé devant le tribunal pour des atteintes au STAD ?

Contactez un avocat

Entretien téléphonique de 20 min. gratuit

OSINT pour Open Source INTelligence. ↩︎
Des journalistes formés à l’OSINT exercent aussi bien dans des organes de presse traditionnels que dans des collectifs plus spécialisés, Bellingcat étant un exemple particulièrement remarquable de ce dernier groupe. ↩︎
Par exemple, la recherche « ‘password’ filetype:pdf inurl:gouv.fr » permet de rechercher les fichiers de type PDF dont le nom est « password » et qui se trouvent sur un site du gouvernement français. ↩︎
Qui recouvre aussi bien les systèmes clients (ordinateur, smartphone, tablette, objets connectés etc.) que les serveurs ou les réseaux de communisation tels que le réseau WiFi. ↩︎
Loi n°88-19 du 5 janvier 1988 relative à la fraude informatique. ↩︎
Paris, 5 avr. 1994. ↩︎
TGI Paris, 16 déc. 1997. ↩︎
TGI, Le Mans, 7 nov. 2003. ↩︎
Crim., 16 janvier 2018, n°16-87,168. ↩︎
La liste n’est évidemment pas exhaustive et il ne fait aucun doute que des injections SQL ou des attaques XSS constitueraient également un accès frauduleux. ↩︎
http://www.kitetoa.com/Pages/Textes/Les_Dossiers/Admins/Admin1/tati2zebdd.shtml ↩︎
Paris, 30 octobre 2002. ↩︎
Paris, 5 février 2014, n°13/04833. ↩︎
Crim., 20 mai 2015, n°14-81.336. ↩︎
La critique est d’autant plus libre que l’auteur de ces lignes concède avoir lui-même succombé à un tel raisonnement, avant d’être contacté et (justement) repris par le premier intéressé dans cette affaire. Qu’il en soit remercié. ↩︎
On vise ici la catégorie de données personnelles mentionnées à l’article 9 du RGPD c’est-à-dire les données portant notamment sur la santé, les opinions politiques ou convictions religieuses, révélant des prétendues origines raciales ou ethniques ou sur l’orientation sexuelle. ↩︎