Ce que tout dirigeant devrait savoir sur le moissonnage de données par les IA

Vous avez passé des années à construire votre site internet. À rédiger des articles, à publier vos expertises, à documenter vos savoir-faire. Ce contenu, c’est de la valeur : il attire des clients, positionne votre marque, témoigne de vos compétences.

Aujourd’hui, des programmes informatiques parcourent ce contenu automatiquement, à votre insu, pour nourrir des modèles d’intelligence artificielle commerciaux. Dans la grande majorité des cas, vous n’avez ni été consulté, ni rémunéré, ni même informé.

Ce n’est pas de la science-fiction. C’est ce qui se passe en ce moment, à grande échelle, et le contentieux judiciaire qui en découle commence à dessiner un cadre juridique que tout entrepreneur devrait connaître. La CNIL vient de publier un dossier technique sur les moyens de s’y opposer. Cet article vous en donne les clés et les limites — sans jargon inutile et sans minimiser les enjeux — pour que vous puissiez décider en connaissance de cause.

Ce qui se passe concrètement

Imaginez un robot aspirateur, mais pour le web. Il part d’une adresse internet, lit le contenu de la page, suit tous les liens qu’il y trouve, lit ces nouvelles pages, et ainsi de suite — de manière automatique, rapide, et à une échelle industrielle. C’est ce qu’on appelle le crawling. Ensuite, un second programme extrait et structure les informations pertinentes : textes, données, images. C’est le scraping, ou « moissonnage » en français.

Le résultat ? Des bases de données colossales qui servent à entraîner les grands modèles de langage — ChatGPT, Gemini, Claude, Mistral et leurs concurrents. Votre site, s’il est public, en fait probablement partie, que vous le sachiez ou non, que vous l’ayez autorisé ou non.

Ce qui distingue fondamentalement cette pratique de l’indexation classique par Google, c’est le déséquilibre des bénéfices. Quand Google crawle votre site, vous y gagnez en visibilité : vos pages apparaissent dans les résultats de recherche, des utilisateurs cliquent et viennent chez vous. L’échange a une logique commerciale réciproque. Quand un robot d’OpenAI, d’Anthropic ou de Meta crawle votre site pour entraîner un LLM, votre contenu est absorbé dans un produit commercial qui répondra directement aux questions des utilisateurs — sans qu’ils aient besoin de visiter votre site, sans que vous soyez cité, sans que vous soyez rémunéré.. et qui sera peut-être mieux référencé par Google, in fine !

Les chiffres sont là : selon les données publiées par Chartbeat et analysées par le Reuters Institute for the Study of Journalism début 2026, le trafic provenant de Google vers les sites d’éditeurs a chuté de 33 % à l’échelle mondiale entre novembre 2024 et novembre 2025, directement corrélé au déploiement des résumés générés par IA dans les résultats de recherche. Les dirigeants de médias de 51 pays anticipent en moyenne une nouvelle baisse de 43 % de leur trafic issu des moteurs de recherche dans les trois prochaines années. Vous contribuez au modèle. Vous en payez le coût en audience perdue.

Pourquoi c’est votre problème en tant qu’entrepreneur

Votre propriété intellectuelle est en jeu

Vos articles, vos méthodes, vos analyses, vos cas pratiques peuvent être ingérés par un modèle d’IA qui les restituera reformulés à vos concurrents ou à vos propres clients. Le précédent le plus marquant en France est la décision de l’Autorité de la concurrence de mars 2024 : une amende de 250 millions d’euros a été infligée à Google pour avoir entraîné son IA Bard — devenue Gemini — sur des contenus d’éditeurs et d’agences de presse sans les en informer et sans leur fournir de mécanisme d’opposition, en violation des engagements pris au titre des droits voisins. Il ne s’agit pas d’une sanction CNIL ou d’un jugement au titre du droit d’auteur : c’est une sanction concurrentielle, ce qui souligne que la captation de valeur sans contrepartie est désormais dans le viseur des autorités de régulation.

Aux États-Unis, le New York Times a assigné OpenAI et Microsoft en décembre 2023 pour violation massive du droit d’auteur. En mars 2025, le juge a rejeté la demande de rejet de la plainte : le procès ira à son terme, avec en jeu des milliards de dollars de dommages potentiels. En décembre 2025, le New York Times a ouvert un second front en assignant cette fois Perplexity pour scraping illicite de ses contenus.

Les entreprises d’IA elles-mêmes sont dans le viseur — y compris les plus « éthiques »

Un point que beaucoup ignorent : Reddit a assigné Anthropic — la société qui développe l’assistant Claude, présenté comme le champion de l’IA « responsable » — en juin 2025 devant le tribunal de Californie. Le grief : Anthropic aurait scrappé les données des utilisateurs de Reddit, y compris des publications supprimées, pour entraîner ses modèles, sans licence et en violation des conditions d’utilisation de la plateforme, alors même qu’OpenAI et Google avaient, eux, conclu des accords de licence payants avec Reddit. En mars 2026, un juge fédéral a renvoyé l’affaire en juridiction d’État, estimant que les violations alléguées — rupture de contrat, enrichissement sans cause, intrusion dans un système informatique — vont au-delà du simple droit d’auteur et constituent des causes d’action autonomes. L’affaire est en cours.

Ce cas illustre une réalité que le discours marketing sur l’IA « éthique » tend à masquer : le respect des règles de collecte dépend davantage des contraintes juridiques et commerciales que des déclarations de principe.

Vos données personnelles et celles de vos clients

Si votre site contient des témoignages clients, des noms, des coordonnées ou des informations sur des collaborateurs — même publiés avec leur accord — le moissonnage entraîne un traitement de données personnelles soumis au RGPD. La CNIL reconnaît certes la base légale de l’intérêt légitime pour certaines collectes à des fins d’IA, mais sous réserve de garanties fortes que peu d’acteurs du marché documentent réellement. En tant qu’éditeur, votre responsabilité peut être engagée si vous n’avez pas pris les précautions raisonnables pour informer vos utilisateurs et encadrer l’accès à leurs données.

La performance — et la survie — de votre site

Le cas de l’entreprise Triplegangers, en janvier 2025, est particulièrement instructif. Cette PME de sept salariés, spécialisée dans les modèles 3D, a vu son site mis hors ligne pendant plusieurs jours par les robots d’OpenAI qui généraient des dizaines de milliers de requêtes simultanées pour télécharger l’intégralité de son catalogue de 65 000 produits — avec des effets identiques à une attaque par déni de service, et une majoration immédiate de sa facture d’hébergement cloud. La cause directe : l’absence d’un fichier robots.txt correctement configuré. Dans la logique des crawlers, l’absence de ce fichier vaut autorisation implicite. Ce n’est pas un système d’opt-in : c’est un système d’opt-out, dont la charge repose entièrement sur vous.

Ce que vous pouvez faire — et ce que vous devez savoir sur les limites

Les protections disponibles se divisent en deux catégories. Il faut les connaître honnêtement, y compris dans leurs faiblesses.

Les méthodes déclaratives : nécessaires mais insuffisantes seules

Ces méthodes consistent à laisser des instructions lisibles par les robots sur les droits d’accès que vous leur accordez. Elles n’empêchent pas techniquement l’accès, mais constituent un signal juridique opposable.

Le fichier robots.txt est le standard le plus ancien (1994) et le plus adopté — environ 81 % des domaines en sont équipés selon CommonCrawl. Accessible à l’adresse votresite.fr/robots.txt, il permet d’interdire nominativement l’accès à des robots identifiés : GPTBot (OpenAI), ClaudeBot (Anthropic), CCBot (CommonCrawl), et plusieurs dizaines d’autres répertoriés publiquement. Sa mise en place est simple, gratuite, et ne dégrade pas l’expérience de vos visiteurs.

Le protocole ai.txt, proposé par l’entreprise Spawning, complète le robots.txt en permettant d’interdire la collecte par type de contenu (texte, images, vidéos, code), spécifiquement pour les robots d’entraînement d’IA.

Le protocole TDMRep, développé sous l’égide du W3C, permet d’indiquer de manière structurée vos conditions de collecte, avec possibilité de renvoyer vers une politique détaillée en format lisible par machine.

La limite fondamentale de ces méthodes doit être dite clairement : elles reposent entièrement sur la bonne foi de ceux qui crawlent. Cloudflare a documenté en août 2025 que des crawlers contournaient délibérément les directives robots.txt en usurpant l’identité du navigateur Chrome pour passer inaperçus — comportement observé sur des dizaines de milliers de domaines. Selon la société TollBit, la part des bots ignorant les robots.txt est passée de 3,3 % à 12,9 % au premier trimestre 2025, représentant 26 millions de scrapes non autorisés en mars 2025 seulement. Ces chiffres sont en hausse.

Les méthodes bloquantes : plus efficaces, mais pas infaillibles

Les restrictions d’accès — compte utilisateur obligatoire, paywalls — sont efficaces mais ont un coût direct sur votre audience et votre acquisition.

Les CAPTCHAs créent une friction pour les robots basiques, mais les modèles d’IA modernes les résolvent de mieux en mieux, et des services commerciaux de résolution de CAPTCHAs par des opérateurs humains à bas coût existent explicitement pour contourner ce type de protection.

L’analyse du trafic et le fingerprinting — examen des signatures techniques des connexions — sont les méthodes les plus robustes. Elles nécessitent des compétences techniques ou le recours à des services spécialisés comme Cloudflare. Un point critique que la CNIL elle-même omet dans son dossier : ces techniques collectent des données sur tous vos visiteurs, robots comme humains, ce qui génère ses propres obligations de conformité RGPD.

La réalité d’ensemble : aucune de ces méthodes n’est infaillible. L’écosystème des outils de contournement progresse au même rythme que celui des outils de protection, alimenté par les mêmes avancées en IA. La course aux armements penche structurellement du côté de ceux qui disposent des plus grandes ressources techniques — c’est-à-dire les crawlers, pas les éditeurs.

Ce que l’AI Act change pour vous dès maintenant

C’est un levier réglementaire que beaucoup d’entrepreneurs ignorent encore. L’AI Act européen (Règlement UE 2024/1689) est en vigueur depuis août 2024. Depuis août 2025, les fournisseurs de modèles d’IA à usage général — OpenAI, Anthropic, Google, Mistral — ont l’obligation légale de publier une politique de respect du droit d’auteur et un résumé suffisamment détaillé des contenus utilisés pour l’entraînement de leurs modèles. Ces obligations sont supervisées par l’AI Office européen.

Ce que cela signifie concrètement pour vous : vous avez désormais un droit à l’information sur l’utilisation de vos données dans les modèles commerciaux. Si un fournisseur ne respecte pas ces obligations de transparence, il s’expose à des sanctions de l’AI Office. Ce cadre renforce la portée juridique de votre robots.txt et de vos CGU — ils deviennent des éléments d’un dossier opposable dans le cadre d’une plainte ou d’un contentieux.

Ce que votre avocat doit évaluer avec vous

Votre contenu est-il protégeable ? Tous les contenus ne bénéficient pas de la même protection. Des articles de fond originaux, des méthodes structurées, des bases de données organisées peuvent relever du droit d’auteur ou de la protection sui generis des bases de données. Des listes de prix ou des données purement factuelles le sont beaucoup moins. Un audit de votre patrimoine numérique permet d’identifier ce qui mérite une protection renforcée — et de constituer les preuves d’antériorité nécessaires à tout recours futur.

Vos CGU sont-elles réellement opposables ? Vos conditions générales d’utilisation sont votre premier rempart contractuel. L’affaire Reddit c. Anthropic a précisément établi — en mars 2026 — que la violation des conditions d’utilisation interdisant le scraping commercial constitue une cause d’action autonome, distincte du droit d’auteur, qui peut prospérer devant les tribunaux. Encore faut-il que vos CGU interdisent explicitement ce type d’usage, et qu’elles soient rédigées pour produire cet effet juridique. La plupart des CGU actuelles sont soit muettes sur ce point, soit insuffisamment précises.

Êtes-vous en conformité RGPD en tant qu’éditeur ? Si votre site publie des données personnelles de tiers — témoignages clients, coordonnées, photos de collaborateurs — avez-vous informé ces personnes que leurs données pourraient être collectées par des tiers à des fins d’entraînement d’IA ? Ce point sera au cœur des prochains contentieux RGPD en Europe.

La voie contractuelle : possible, mais avec les yeux ouverts. Des accords de licence entre acteurs de l’IA et éditeurs existent. OpenAI a conclu des partenariats avec Le Monde (mars 2024) et avec l’Associated Press (juillet 2023) ; Google a signé séparément son propre accord avec l’AP pour son IA Gemini. Ces exemples montrent qu’une monétisation est possible — mais ils concernent des acteurs disposant d’un poids de négociation considérable. Reddit, qui avait justement tenté d’établir un cadre de licence, a dû assigner Anthropic en justice quand celui-ci a refusé de signer. La négociation est une option, pas une garantie.

Une lecture de négociateur : nommer les asymétries

Ce qui se joue ici est une négociation profondément asymétrique, dont il faut avoir conscience avant de décider de sa stratégie.

D’un côté, des entreprises valorisées entre 30 et 300 milliards de dollars, avec des équipes juridiques et techniques de premier plan, qui ont collecté de la valeur dans le contenu du web avant même que les règles du jeu soient établies. De l’autre, des entrepreneurs isolés, souvent sans expertise technique ni veille juridique, qui découvrent après coup que leur travail a alimenté des produits commerciaux sans leur consentement.

La réalité structurelle est que le cadre technique actuel — robots.txt, ai.txt, TDMRep — repose sur le volontariat des acteurs les plus puissants, et que ce volontariat est documentairement fragile. Le cadre juridique — RGPD, droits voisins, AI Act, droit d’auteur — est en construction active, avec des décisions judiciaires majeures attendues dans les deux à trois prochaines années. Ce sont ces décisions qui fixeront les règles du jeu. La question pour vous n’est pas d’attendre qu’elles tombent : c’est de ne pas arriver sans dossier quand elles tomberont.

Trois postures pratiques :

Documenter maintenant. La preuve d’antériorité de votre contenu — date certaine, dépôts, horodatages — est indispensable à tout recours futur. Elle est simple à constituer et quasi gratuite. Ne pas le faire, c’est s’enlever toute capacité d’action ultérieure.

Configurer immédiatement vos protections de base. Un robots.txt bien configuré, des CGU à jour, une mention explicite d’interdiction du scraping : ce sont des mesures à coût quasi nul, sans impact sur votre audience, et qui constituent un signal juridique immédiatement opposable. L’absence de robots.txt, comme l’a appris Triplegangers à ses dépens, vaut autorisation tacite dans la logique des crawlers.

Agir collectivement plutôt qu’individuellement. Les éditeurs qui ont obtenu des résultats — financiers ou judiciaires — l’ont fait groupés : associations professionnelles, syndicats de presse, groupements sectoriels. Votre capacité individuelle à faire pression sur une entreprise valorisée à plusieurs dizaines de milliards de dollars est quasi nulle. Votre capacité collective est une autre affaire.

Ce qu’il faut retenir, sans détour

Le moissonnage de données par les IA n’est pas une tendance à surveiller. C’est un phénomène massif, en cours, qui affecte dès aujourd’hui la valeur de ce que vous produisez en ligne, vos obligations juridiques potentielles et la fréquentation de votre site.

Les outils de protection disponibles sont utiles mais insuffisants face aux acteurs qui choisissent de ne pas les respecter. Le contentieux judiciaire en cours — NYT contre OpenAI et Microsoft, NYT contre Perplexity, Reddit contre Anthropic — dessine un cadre juridique qui va considérablement évoluer dans les deux à trois prochaines années. L’AI Act ajoute une couche réglementaire qui donne de nouveaux droits aux éditeurs de contenu.

La bonne question n’est pas « est-ce que cela me concerne ? » Elle est : « qu’est-ce que je constitue comme dossier aujourd’hui, pour être en position d’agir demain ? »

Vous souhaitez faire le point sur la protection de votre contenu, la solidité de vos CGU face au scraping, ou votre conformité RGPD en tant qu’éditeur ? Contactez-moi.

Cet article s’appuie sur le dossier « S’opposer à la collecte de données par des robots moissonneurs » (LINC/CNIL, juin 2026) ; les données du Reuters Institute for the Study of Journalism et de Chartbeat (janvier 2026) ; la décision de l’Autorité de la concurrence française (mars 2024, amende Google/droits voisins) ; les affaires NYT c. OpenAI-Microsoft (en cours), NYT c. Perplexity (en cours), Reddit c. Anthropic (renvoi en juridiction d’État, mars 2026) ; le rapport technique Cloudflare sur le contournement des robots.txt (août 2025) ; et les données TollBit sur le taux de non-respect des directives de scraping (T1 2025).

FAQ — Vos questions sur le scraping IA, vos droits et la protection de votre site

1. Est-ce que les robots des entreprises d’IA ont le droit de scraper mon site internet sans me demander ?

En l’état actuel du droit français et européen, la réponse n’est pas tranchée pour tous les cas, mais elle tend vers le non dès lors que votre contenu est original ou contient des données personnelles. Si votre site ne comporte pas de fichier robots.txt interdisant l’accès, les crawlers considèrent que vous l’autorisez tacitement. C’est un système d’opt-out, pas d’opt-in : la charge de l’opposition repose entièrement sur vous. En revanche, si vos conditions générales d’utilisation interdisent explicitement le scraping commercial, vous disposez d’une base contractuelle opposable — comme l’a démontré l’affaire Reddit contre Anthropic, renvoyée en jugement en 2026.

2. Qu’est-ce que le fichier robots.txt et comment est-ce qu’il protège mon site contre les robots moissonneurs d’IA ?

Le fichier robots.txt est un fichier texte placé à la racine de votre site — accessible à l’adresse votresite.fr/robots.txt — qui liste les programmes automatisés auxquels vous autorisez ou interdisez l’accès à tout ou partie de vos pages. C’est le standard le plus ancien (1994) et le plus adopté pour encadrer le moissonnage. Vous pouvez y nommer précisément les robots des grandes entreprises d’IA : GPTBot pour OpenAI, ClaudeBot pour Anthropic, Google-Extended pour Google. Sa mise en place est gratuite, ne dégrade pas l’expérience de vos visiteurs humains, et constitue un signal juridique opposable. Sa limite : il repose sur la bonne foi des crawlers, qui peuvent choisir de l’ignorer.

3. Comment est-ce que je peux savoir si des robots d’IA ont déjà collecté les données de mon site internet ?

Plusieurs indices vous permettent de le vérifier. Consultez d’abord les journaux d’accès de votre serveur (logs) : ils enregistrent toutes les connexions, y compris celles des robots, identifiés par leur User-Agent. Des pics inhabituels de requêtes, une consommation anormale de bande passante, ou la présence de noms comme GPTBot, ClaudeBot ou CCBot dans ces logs sont des signaux clairs. L’entreprise Spawning propose également la plateforme Have I Been Trained, qui permet de vérifier si votre site figure dans des bases de données d’entraînement connues. Enfin, si votre site a subi des ralentissements inexpliqués, une analyse des logs s’impose.

4. Est-ce que mon contenu en ligne est protégé par le droit d’auteur face aux entreprises qui entraînent leurs IA dessus ?

Oui, si votre contenu présente un caractère original au sens du droit d’auteur — ce qui est le cas de la grande majorité des articles, analyses, méthodes ou contenus rédigés avec un effort intellectuel personnel. La protection est automatique : elle naît dès la création, sans dépôt obligatoire. La question n’est donc pas « suis-je protégé ? » mais « puis-je le prouver et l’opposer ? » Le New York Times a fondé sa plainte contre OpenAI et Microsoft sur exactement ce fondement, et en mars 2025 le juge a refusé de rejeter l’affaire, lui permettant d’aller en procès. L’issue finale fixera un précédent majeur pour l’ensemble du secteur.

5. Quelle est la différence entre un robot d’indexation de moteur de recherche et un robot qui collecte des données pour entraîner une IA ?

La différence est fondamentale, et elle tient à la finalité et au partage des bénéfices. Un robot d’indexation — comme Googlebot — crawle votre site pour le référencer dans les résultats de recherche : en échange, vous gagnez en visibilité, des utilisateurs cliquent et viennent chez vous. Un robot d’entraînement d’IA — comme GPTBot ou ClaudeBot — collecte votre contenu pour construire un modèle commercial qui répondra directement aux questions des utilisateurs, sans les rediriger vers vous. Vous contribuez au modèle sans bénéficier de la contrepartie en trafic. C’est cette asymétrie qui est au cœur des contentieux juridiques actuels.

6. Est-ce que le RGPD me protège contre la collecte de mes données personnelles par les robots moissonneurs d’IA ?

En théorie, oui. Si votre site publie des données personnelles — noms, photos, témoignages, coordonnées — leur collecte par un robot d’IA constitue un traitement de données personnelles soumis au RGPD. Les entreprises qui procèdent à cette collecte doivent disposer d’une base légale, informer les personnes concernées et leur permettre d’exercer leurs droits. En pratique, cette protection est difficile à faire valoir individuellement face à des acteurs qui opèrent depuis l’étranger et dont les bases d’entraînement ne sont pas publiquement documentées. La CNIL peut en revanche être saisie, et l’AI Act oblige désormais les fournisseurs de modèles à publier un résumé des données utilisées pour l’entraînement.

7. Comment est-ce que je peux bloquer les robots d’OpenAI, d’Anthropic ou de Google qui collectent des données pour entraîner leurs IA ?

Vous disposez de plusieurs niveaux de protection cumulables. En premier lieu, configurez un fichier robots.txt en interdisant nommément GPTBot (OpenAI), ClaudeBot (Anthropic), Google-Extended (Google/Gemini) et CCBot (CommonCrawl). En complément, ajoutez un fichier ai.txt via le générateur de Spawning pour interdire la collecte par type de contenu. Si vous souhaitez aller plus loin, un service CDN comme Cloudflare propose des outils de détection et de blocage des bots au niveau réseau, plus robustes car actifs même face aux robots qui ignorent les directives déclaratives. Enfin, mettez à jour vos CGU pour interdire explicitement tout scraping à des fins d’entraînement de modèles d’IA.

8. Est-ce que mettre à jour mes conditions générales d’utilisation suffit à empêcher le scraping de mon site par des entreprises d’IA ?

Non, cela ne suffit pas à empêcher techniquement le scraping. En revanche, des CGU rédigées correctement constituent une base contractuelle opposable devant les tribunaux. L’affaire Reddit contre Anthropic, engagée en juin 2025 et dont la procédure se poursuit en 2026, repose précisément sur cette logique : Reddit a établi que la violation de ses conditions d’utilisation interdisant le scraping commercial constitue une rupture de contrat et un enrichissement sans cause, indépendamment du droit d’auteur. Un juge fédéral a confirmé en mars 2026 que ces causes d’action peuvent prospérer. Des CGU silencieuses sur ce point vous privent de ce recours.

9. Quels sont les risques concrets pour mon entreprise si je ne fais rien pour protéger mon site contre le moissonnage d’IA ?

Les risques sont de trois ordres. D’abord, un risque patrimonial : votre contenu original, vos méthodes, votre expertise alimentent des produits commerciaux sans votre consentement ni rémunération. Ensuite, un risque de performance : un crawler agressif peut saturer votre serveur — comme cela est arrivé à Triplegangers en janvier 2025, mis hors ligne par les robots d’OpenAI pendant plusieurs jours, avec une facture d’hébergement majorée. Enfin, un risque juridique en tant qu’éditeur : si votre site héberge des données personnelles de tiers sans que vous ayez pris les précautions raisonnables d’encadrement, votre responsabilité RGPD peut être engagée.

10. Est-ce que le fait de bloquer les robots d’IA va nuire à mon référencement sur Google ou sur ChatGPT ?

Bloquer les robots d’entraînement n’affecte pas votre référencement Google classique, à condition de ne pas confondre les robots. Googlebot — le crawler d’indexation de Google — est distinct de Google-Extended, qui collecte des données pour entraîner Gemini. Vous pouvez bloquer l’un sans bloquer l’autre. En revanche, bloquer les « AI search crawlers » — ceux qui alimentent les réponses en temps réel des agents conversationnels — peut réduire vos chances d’être cité comme source dans les réponses de ChatGPT, Perplexity ou Gemini. C’est un choix stratégique à peser : visibilité dans les réponses IA versus contrôle de l’utilisation de votre contenu.

11. Qu’est-ce que l’AI Act européen prévoit pour protéger les entrepreneurs dont le contenu est utilisé pour entraîner des IA ?

L’AI Act (Règlement UE 2024/1689), en vigueur depuis août 2024, impose depuis août 2025 aux fournisseurs de modèles d’IA à usage général — OpenAI, Anthropic, Google, Mistral — des obligations concrètes : publier une politique de respect du droit d’auteur, fournir un résumé suffisamment détaillé des contenus utilisés pour l’entraînement, et documenter leurs pratiques de collecte. Ces obligations sont supervisées par l’AI Office européen. Pour vous en tant qu’éditeur, cela signifie que vous avez désormais un droit à l’information opposable, et que le non-respect de ces obligations par un fournisseur peut fonder une plainte ou renforcer un dossier contentieux.

12. Combien coûte la mise en place d’une protection de base contre les robots moissonneurs d’IA pour un site de PME ?

La protection de base est quasi gratuite. Configurer un fichier robots.txt et un fichier ai.txt prend moins d’une heure et ne nécessite aucune dépense technique particulière — votre développeur web ou votre prestataire CMS peut le faire. Mettre à jour vos CGU pour interdire le scraping représente une heure de conseil juridique. Si vous souhaitez aller plus loin avec un CDN de type Cloudflare, les offres de base commencent gratuitement avec des fonctionnalités de protection contre les bots, et les offres professionnelles avec détection avancée se situent autour de 200 euros par mois selon la taille de votre trafic. Le vrai coût, c’est celui de ne rien faire : une saturation serveur peut coûter bien plus cher.

13. Est-ce que Perplexity ou d’autres moteurs de recherche basés sur l’IA respectent vraiment les fichiers robots.txt des sites internet ?

Pas systématiquement, et c’est documenté. Cloudflare a publié en août 2025 un rapport technique établissant que Perplexity utilisait des crawlers déguisés en navigateur Chrome pour contourner les restrictions des sites l’ayant explicitement bloqué via robots.txt — comportement observé sur des dizaines de milliers de domaines. Perplexity a contesté ces allégations. Par ailleurs, selon la société TollBit, la part des bots ignorant les robots.txt est passée de 3,3 % à 12,9 % au premier trimestre 2025. Ces chiffres illustrent pourquoi les méthodes déclaratives seules ne suffisent pas, et pourquoi les mesures bloquantes techniques leur sont nécessairement complémentaires.

14. Quelle est la différence entre les droits voisins de la presse et la protection du droit d’auteur pour les entrepreneurs face au scraping d’IA ?

Les droits voisins sont une protection spécifique aux éditeurs et agences de presse, distincte du droit d’auteur classique. C’est sur ce fondement qu’a été infligée à Google l’amende de 250 millions d’euros prononcée par l’Autorité de la concurrence française en mars 2024. Les entrepreneurs et PME ordinaires ne bénéficient pas des droits voisins au sens de la presse, mais ils bénéficient du droit d’auteur sur leurs créations originales, et de la protection sui generis des bases de données si elles résultent d’un investissement substantiel. Ces deux voies sont distinctes, mais complémentaires, et nécessitent une analyse au cas par cas de votre patrimoine numérique.

15. Comment est-ce que je peux prouver que mon contenu existait avant qu’une IA soit entraînée dessus si je veux engager une procédure ?

La preuve d’antériorité est l’un des éléments les plus importants à constituer dès maintenant. Plusieurs méthodes sont disponibles, du plus simple au plus formel. D’abord, les métadonnées de vos fichiers et les horodatages de publication sur votre CMS constituent un premier indice, mais ils peuvent être contestés. Plus robuste : l’enregistrement d’une œuvre auprès d’un service d’horodatage électronique certifié ou d’un tiers de confiance (INPI, huissier de justice). Vous pouvez également vous envoyer vos propres contenus par lettre recommandée avec accusé de réception — méthode simple et peu coûteuse. L’archivage sur Internet Archive (Wayback Machine) constitue également une preuve recevable de l’existence d’un contenu à une date donnée.

16. Est-ce qu’une petite entreprise ou un indépendant peut vraiment obtenir réparation si une entreprise d’IA a utilisé son contenu sans autorisation ?

L’action individuelle d’un petit éditeur contre une entreprise d’IA est difficile et coûteuse : asymétrie des ressources, charge probatoire complexe, juridictions souvent américaines. En revanche, deux voies sont plus accessibles. D’abord, la plainte collective via une association professionnelle ou un syndicat sectoriel : plusieurs procédures groupées ont abouti en Europe, notamment dans le secteur de la presse. Ensuite, la saisine de la CNIL lorsque des données personnelles sont en jeu : la CNIL peut instruire et sanctionner sans que vous ayez à supporter les frais d’un procès. L’AI Act ouvre également la voie à des plaintes auprès de l’AI Office européen pour non-respect des obligations de transparence.

17. Est-ce qu’un avocat en droit des affaires peut vraiment m’aider face aux problèmes liés au scraping de mon site par des robots d’IA ?

Oui, et son intervention est utile à plusieurs stades. En amont, pour auditer votre patrimoine numérique, sécuriser vos CGU, vérifier votre conformité RGPD en tant qu’éditeur et constituer un dossier d’antériorité. En cas d’incident, pour qualifier juridiquement les faits — atteinte au droit d’auteur, violation contractuelle, traitement illicite de données personnelles — et identifier la voie de recours la plus adaptée à votre situation et vos ressources. Dans un contexte où le cadre juridique est en construction rapide, anticiper avec un conseil spécialisé est bien moins coûteux que de réagir après coup.

18. Est-ce que le fait que mon contenu soit gratuit et librement accessible en ligne signifie que les entreprises d’IA peuvent l’utiliser comme elles veulent ?

Non. « Accessible librement » ne signifie pas « libre de droits ». La gratuité d’accès et l’accessibilité publique d’un contenu n’emportent aucune cession de droits sur ce contenu. C’est un raccourci fréquent dans le discours des entreprises d’IA, mais il n’a aucun fondement juridique solide. Votre article publié gratuitement sur votre site reste protégé par le droit d’auteur dès lors qu’il est original. L’argument de la « disponibilité publique » a précisément été rejeté dans le cadre du procès du New York Times contre OpenAI, qui se poursuit en 2026. La distinction à retenir : accessible ne veut pas dire utilisable à toutes fins.

19. Qu’est-ce que le protocole TDMRep et est-ce qu’il offre une vraie protection aux éditeurs de sites internet contre le scraping d’IA ?

TDMRep — TDM Reservation Protocol — est une norme communautaire du W3C qui permet à un éditeur d’indiquer de manière lisible par machine s’il autorise ou non le moissonnage de ses données, et à quelles conditions. Il peut être intégré dans le code HTML de votre site, dans les en-têtes HTTP ou dans un fichier dédié. Sa force : il est plus précis que le robots.txt car il permet de distinguer les autorisations par section de site et de pointer vers une politique de collecte détaillée. Sa limite : son adoption reste très faible — moins de 0,002 % des sites l’ont implémenté à ce jour — et comme toutes les méthodes déclaratives, il ne bloque pas techniquement les robots qui choisissent de l’ignorer. Il vaut surtout comme signal juridique supplémentaire.

20. Comment est-ce que les entreprises d’IA comme OpenAI ou Anthropic identifient leur robot lorsqu’il crawle mon site, et comment puis-je les reconnaître dans mes logs ?

Les grandes entreprises d’IA publient généralement le nom et l’identifiant de leurs robots — appelé User-Agent — sur leur site. Ainsi, le robot d’entraînement d’OpenAI s’identifie comme GPTBot, celui d’Anthropic comme ClaudeBot, celui de CommonCrawl comme CCBot. Ces noms apparaissent dans les journaux d’accès de votre serveur. Certaines entreprises publient également les plages d’adresses IP de leurs robots, ce qui permet un blocage complémentaire au niveau réseau. Le problème documenté est que certains acteurs utilisent des agents non déclarés ou changent d’identité lorsqu’ils détectent un blocage — ce que Cloudflare a établi concernant Perplexity en août 2025.

21. Est-ce qu’il existe des partenariats rémunérateurs entre des entreprises d’IA et des éditeurs de contenu, et comment peuvent-ils bénéficier aux entrepreneurs ?

Oui, ces partenariats existent, mais ils concernent pour l’instant presque exclusivement les grands éditeurs disposant d’un fort pouvoir de négociation. OpenAI a conclu des accords avec Le Monde (mars 2024) et l’Associated Press (juillet 2023) ; Google a signé séparément son propre accord avec l’AP pour Gemini. Dans ces accords, l’éditeur autorise l’utilisation de son contenu pour l’entraînement ou les réponses en temps réel, en échange d’une rémunération et d’une attribution visible. Pour les PME et indépendants, la voie contractuelle directe avec les géants de l’IA est aujourd’hui pratiquement inaccessible. La voie réaliste passe par des organisations collectives — associations de presse, groupements professionnels — capables de négocier au nom de leurs membres.

22. Qu’est-ce qui se passe concrètement si un robot d’IA ne respecte pas mon fichier robots.txt et continue de scraper mon site malgré tout ?

Si un robot identifié continue de scraper votre site malgré un robots.txt explicitement restrictif et des CGU claires, vous disposez de plusieurs recours. Techniquement, vous pouvez bloquer les adresses IP des robots concernés — OpenAI publie les siennes — ou recourir à un service CDN pour filtrer automatiquement leur trafic. Juridiquement, la violation délibérée du robots.txt et des CGU peut constituer une rupture de contrat, un acte de concurrence déloyale ou, dans certains cas, une intrusion informatique au sens de l’article 323-1 du Code pénal français. La documentation précise des tentatives d’accès via vos logs serveur est indispensable pour tout recours.

23. Est-ce que les images, vidéos et podcasts publiés sur mon site sont autant exposés au scraping que mes textes ?

Oui, et parfois davantage. Les images sont particulièrement ciblées pour entraîner des modèles génératifs comme Midjourney, Stable Diffusion ou DALL-E, les vidéos et podcasts pour les modèles audio et multimodaux. Le protocole ai.txt de Spawning permet précisément de distinguer les autorisations par type de contenu — texte, image, audio, vidéo, code — là où le robots.txt classique ne fait pas cette distinction. Si vous publiez des photographies originales, des créations audiovisuelles ou des enregistrements, leur protection mérite une attention spécifique, notamment via un dépôt auprès d’organismes de gestion collective compétents.

24. En tant qu’entrepreneur, dois-je informer mes clients et partenaires que leurs données publiées sur mon site pourraient être collectées par des robots d’IA ?

C’est une question que votre politique de confidentialité doit désormais traiter explicitement. Si votre site publie des données personnelles de tiers — témoignages clients nominatifs, photos de collaborateurs, coordonnées de partenaires — vous avez l’obligation de les informer des finalités de traitement de leurs données, y compris du risque de collecte par des tiers à des fins d’entraînement d’IA. Une politique de confidentialité muette sur ce point peut vous exposer à une mise en cause RGPD. La CNIL attend des éditeurs qu’ils prennent les précautions raisonnables pour limiter cette exposition, dont la mise en place d’un robots.txt est la première.

25. Quelle est la différence entre bloquer un robot d’entraînement d’IA et bloquer un agent conversationnel qui agit pour le compte d’un utilisateur humain ?

C’est l’une des questions les plus complexes et les plus actuelles du droit du numérique. Un robot d’entraînement collecte massivement votre contenu pour construire un modèle commercial : vous pouvez le bloquer sans pénaliser aucun utilisateur réel. Un agent conversationnel — Claude, ChatGPT, Gemini en mode recherche — peut accéder à votre site à la demande d’un utilisateur humain pour répondre à une question en temps réel. Bloquer cet agent revient à bloquer l’utilisateur humain qui l’a mandaté. Les grands fournisseurs publient des User-Agents distincts pour ces deux usages — permettant théoriquement un blocage sélectif — mais la frontière technique peut être poreuse. C’est un arbitrage stratégique, pas uniquement technique.

26. Est-ce que le scraping de mon site par des robots d’IA peut avoir des conséquences sur mes assurances professionnelles ou ma responsabilité civile ?

C’est un angle encore peu exploré mais réel. Si votre site héberge des données personnelles de clients ou de partenaires qui sont ensuite collectées sans que vous ayez pris les précautions raisonnables — absence de robots.txt, CGU silencieuses, absence d’information des personnes concernées — vous pourriez faire face à une mise en cause de votre responsabilité civile de la part de ces tiers. Certaines polices de responsabilité civile professionnelle couvrent les incidents liés à la protection des données, mais leurs conditions varient considérablement. C’est un point à vérifier explicitement avec votre assureur, et à anticiper dans votre documentation de conformité RGPD.

27. Comment est-ce que la médiation commerciale peut aider à résoudre un litige avec une entreprise d’IA sur l’utilisation de mon contenu ?

La médiation commerciale est une option pertinente, notamment pour des litiges de moindre ampleur où le procès serait disproportionné. Elle présente l’avantage de la rapidité, de la confidentialité et du coût maîtrisé. En pratique, son efficacité dépend de la volonté de l’entreprise d’IA concernée de s’y engager — ce qui est plus probable pour des acteurs exposés médiatiquement que pour des entreprises établies sans dépendance commerciale à votre égard. La médiation peut également être utile en amont d’un litige pour négocier un accord de licence ou obtenir la suppression de données de bases d’entraînement. Dans tous les cas, elle doit être préparée avec un conseil juridique qui maîtrise les enjeux spécifiques au secteur.

28. Quels secteurs d’activité sont particulièrement exposés au risque de scraping d’IA et doivent prioriser la protection de leur contenu en ligne ?

Tous les secteurs dont la valeur repose sur l’expertise publiée en ligne sont exposés, mais certains sont plus ciblés. Les professions du droit et du conseil — avocats, experts-comptables, consultants — dont les articles, modèles et analyses sont particulièrement utiles pour entraîner des LLMs à répondre à des questions professionnelles. Les agences de création — rédaction, design, photographie — dont les productions sont directement utilisées pour entraîner des modèles génératifs. Les médias et éditeurs de contenus spécialisés. Et les e-commerçants disposant de catalogues produits riches en descriptions et images, comme l’a démontré le cas Triplegangers. Si votre valeur est en ligne et accessible publiquement, votre exposition est réelle.

29. Est-ce qu’il existe une obligation légale pour les entreprises d’IA de supprimer mes données de leurs modèles si je le demande, et comment puis-je exercer ce droit ?

C’est une question à la frontière du droit et de la technique, et la réponse honnête est : pas encore clairement, et techniquement très difficile. Le RGPD confère un droit à l’effacement, mais son application aux données incorporées dans les poids d’un modèle d’IA entraîné n’est pas encore tranchée par les juridictions européennes. Supprimer une donnée d’une base d’entraînement est une chose ; modifier les poids d’un modèle déjà entraîné pour « désapprendre » une information est une opération bien plus complexe, dont la faisabilité technique réelle est débattue. L’AI Act commence à aborder ce sujet, et des décisions des autorités de protection des données sont attendues. En attendant, exercer votre droit d’opposition auprès du fournisseur et saisir la CNIL en cas de non-réponse reste la voie la plus concrète.

30. Quelles sont les trois actions prioritaires qu’un entrepreneur doit prendre cette semaine pour protéger son site contre le scraping d’IA ?

Trois actions concrètes, par ordre de priorité et d’urgence.

Première action — immédiate et gratuite : vérifiez si votre site dispose d’un fichier robots.txt et s’il interdit nommément les principaux robots d’entraînement d’IA : GPTBot, ClaudeBot, Google-Extended, CCBot. S’il est absent ou incomplet, faites-le configurer sans attendre.

Deuxième action — cette semaine : faites relire vos conditions générales d’utilisation pour vérifier qu’elles interdisent explicitement le scraping et l’utilisation de vos contenus à des fins d’entraînement de modèles d’IA. Si elles sont muettes sur ce point, elles ne vous protègent pas.

Troisième action — ce mois-ci : constituez un dossier d’antériorité sur vos contenus les plus stratégiques. Horodatage, capture d’écran datée, lettre recommandée à vous-même, vérification de leur présence dans Internet Archive. Ce dossier peut ne jamais servir — ou valoir beaucoup si le droit évolue dans votre sens, ce que les procédures en cours laissent présager.

Pour toute question spécifique à votre situation, n’hésitez pas à me contacter. Une heure d’analyse préventive vaut mieux qu’un contentieux subi.

Vos données en ligne : qui les prend, pourquoi, et ce que vous pouvez faire