• Marie-Hélène Gostiaux

Récupération massive et utilisation de données issues du web: qu'est-il légal de faire ?

Dernière mise à jour : avr. 8

#webscraping #growthhacking #GDPR #RGPD #IPLaw #cnil

Publié initialement sur LinkedIn le 05/03/2021 https://www.linkedin.com/pulse/récupération-massive-et-utilisation-de-données-issues-gostiaux/

La récupération massive de données issues d'annuaires ou de sites ayant constitué une base de données importante, notamment lorsque cette récupération est automatisée via un outil de web scraping1, est une pratique répandue de growth hacking2 qui doit faire l'objet d'une vigilance accrue.

A retenir

  • Si des données sont publiquement accessibles, sous réserve d'y accéder de manière licite (respect de la loi dite « Godfrain », articles 323-1 à 323-4 du Code pénal - cf. affaire Bluetouff), cela ne signifie pas nécessairement qu'elles sont librement réutilisables :

  1. lire les conditions générales d'utilisation du site en question pour connaître vos droits et restrictions : à titre d'exemple, Linkedin prévoit l'interdiction du web scraping dans la version de ses CGU du 11/08/2020 ; d'autres sites vont interdire la copie et réutilisation d'éléments/données du site sur le fondement du droit d'auteur, d'autres encore concèdent un droit d'utilisation à des fins non-commerciales, etc. ;

  2. quand bien même les conditions générales d'utilisation du site ne prévoient pas littéralement de restrictions contractuelles, il convient de respecter les droits de propriété intellectuelle (droit d'auteur, droit des marques, dessins et modèles...), y compris les cas prévus à l’article L.342-3 du Code de la propriété intellectuelle (cf. analyse ci-dessous) ;

  3. s'il s'agit de données à caractère personnel (portant sur des personnes physiques identifiées ou identifiables), respecter la règlementation sur la protection des données. La collecte indirecte auprès d'une source externe qui ne vous garantit pas l'origine des données (et a fortiori lorsque la collecte est faite à son insu) est prohibée. Si vous intégrez ces données dans vos propres traitements, vous ne serez pas en mesure de justifier d'une collecte licite des données. Il va de soi que vous ne pouvez pas contacter les personnes concernées (sur lesquelles portent les données) directement dans le cadre de prospection commerciale, dès lors que vous n'avez pas obtenu leur consentement, ni les avez informées. La CNIL peut sanctionner l'entreprise en cas de contrôle jusqu'à 4% du CA annuel mondial consolidé ou 20 millions d'euros (notamment pour manquements à l'obligation de consentement, à l'obligation d'information et de respect des droits des personnes).

Pour aller plus loin

Qu'est-il autorisé de faire ?

L'article L.342-3 du Code de la propriété intellectuelle dispose :

"Lorsqu'une base de données est mise à la disposition du public par le titulaire des droits, celui-ci ne peut interdire :

1° L'extraction ou la réutilisation d'une partie non substantielle (cf. analyse de l'arrêt ci-dessous), appréciée de façon qualitative ou quantitative, du contenu de la base, par la personne qui y a licitement accès ;

2° L'extraction à des fins privées d'une partie qualitativement ou quantitativement substantielle du contenu d'une base de données non électronique sous réserve du respect des droits d'auteur ou des droits voisins sur les oeuvres ou éléments incorporés dans la base ;

3° L'extraction et la réutilisation d'une base de données dans les conditions définies au 7° de l'article L. 122-5, au 1° de l'article L. 122-5-1 et à l'article L. 122-5-2 (du Code de la Propriété Intellectuelle - ces articles visent notamment la consultation strictement personnelle de l'œuvre par des personnes atteintes d'une ou de plusieurs déficiences des fonctions motrices, physiques, sensorielles, mentales, cognitives ou psychiques) ;

4° L'extraction et la réutilisation d'une partie substantielle, appréciée de façon qualitative ou quantitative, du contenu de la base, sous réserve des bases de données conçues à des fins pédagogiques et des bases de données réalisées pour une édition numérique de l'écrit, à des fins exclusives d'illustration dans le cadre de l'enseignement et de la recherche, à l'exclusion de toute activité ludique ou récréative, dès lors que le public auquel cette extraction et cette réutilisation sont destinées est composé majoritairement d'élèves, d'étudiants, d'enseignants ou de chercheurs directement concernés, que la source est indiquée, que l'utilisation de cette extraction et cette réutilisation ne donne lieu à aucune exploitation commerciale et qu'elle est compensée par une rémunération négociée sur une base forfaitaire ;

5° Les copies ou reproductions numériques de la base réalisées par une personne qui y a licitement accès, en vue de fouilles de textes et de données incluses ou associées aux écrits scientifiques dans un cadre de recherche, à l'exclusion de toute finalité commerciale. La conservation et la communication des copies techniques issues des traitements, au terme des activités de recherche pour lesquelles elles ont été produites, sont assurées par des organismes désignés par décret. Les autres copies ou reproductions sont détruites.

Toute clause contraire au 1° ci-dessus est nulle.

Les exceptions énumérées par le présent article ne peuvent porter atteinte à l'exploitation normale de la base de données ni causer un préjudice injustifié aux intérêts légitimes du producteur de la base."

Qu'est-ce qu'une "partie non substantielle appréciée de façon qualitative ou quantitative, du contenu de la base" ? Ou a contrario une partie substantielle ?

« On entend par base de données « un recueil d’œuvres, de données ou d’autres éléments indépendants, disposés de manière systématique ou méthodique, et individuellement accessibles par des moyens électroniques ou par tout autre moyen ». (TGI Paris, 1er sept. 2017, CJUE, Cour, 15 janv. 2015, C-30/14)

La Cour d'Appel cite un arrêt de la Cour de Justice de l'Union européenne (CJUE, Cour, 9 nov. 2004, C-203/02) laquelle a précisé la notion de partie quantitativement ou qualitativement substantielle :

  • "la notion de partie quantitativement substantielle se réfère au volume de données extrait et/ou réutilisé de la base, et doit être apprécié par rapport au volume du contenu total de la base."

  • "La notion de partie qualitativement substantielle se réfère à l’importance de l’investissement lié à l’obtention, à la vérification ou à la présentation du contenu de l’objet de l’acte d’extraction et/ou de réutilisation, indépendamment du point de savoir si cet objet représente une partie quantitativement substantielle du contenu général de la base de données protégée."

En l'espèce, la Cour d'Appel semble avoir statué sur l'aspect qualitatif plutôt que quantitatif de la sous-base concernée, puisque celle-ci représentait environ 10% des annonces de la base de données de la société LBC, part évaluée par les juges du fond à "10% des investissements substantiels engagés par la société LBC pour la constitution, la vérification et la présentation du contenu de sa base de données", et qui se rapporte au contenu intégral de la sous-base de données *immobilier*.

Pour résumer les apports de cet arrêt récent #LeBonCoin (CA Paris, pôle 5 - ch. 1, 2 févr. 2021, n° 17/17688) :

👉 La Cour rappelle les conditions pour appliquer ce droit sui generis : investissements substantiels + atteinte substantielle au droit

👉 Les juges du fond s'inscrivent dans le respect de la jurisprudence communautaire en distinguant les différents investissements réalisés : investissements liés à la constitution, à la vérification et à la présentation de la sous-base.

👉 Le fait que cette extraction ait été opérée à partir d'une indexation (contrat de pige immobilière entre Entreparticuliers.com et Directannonces), et non dans la sous-base d'origine directement, est inopérant pour les juges du fond : "les notions d’extraction et de réutilisation ne sont pas circonscrites aux cas d’extraction et de réutilisation opérées directement à partir de la base d’origine" (CJUE, C-203/02, 9 novembre 2004 The British Horseracing Board)

👉 Peu importe qu'il s'agisse d'une "sous-base", accessible après plusieurs clics, cela n'empêche pas de caractériser les extractions prohibées d'une partie substantielle de l’annonce selon la Cour d'Appel.

👉 Le statut d'hébergeur de la société LBC France n'impacte pas une potentielle qualification en tant que producteur de base de données. On peut donc être hébergeur ET producteur de base de données, les deux qualifications n'étant pas incompatibles.

👉 Aux termes d'un traité d'apport partiel d'actifs, la société à l'origine de la création du Bon Coin avait consenti à LBC France une licence d’exploitation des droits incluant notamment la marque leboncoin.fr et les noms de domaine leboncoin.fr et leboncoin.com et se réservait le bénéfice des droits sui generis du producteur de base de données, conférant seulement à la société LBC la tâche d'exploiter le site. Pour autant, la société LBC est bien producteur de base de données selon la Cour car c'est bien elle qui a réalisé les investissements substantiels liés à la sous-base ultérieurement.

  • On peut constater que ce droit se rapproche davantage du parasitisme économique que du droit de la propriété intellectuelle en tant que tel, dans la mesure où il s'agit d'un droit économique destiné à protéger les investissements du producteur, et finalement éviter qu'un tiers tire profit, sans rien dépenser, de ses efforts et de son savoir-faire.

  • Il faut noter qu'une action en concurrence déloyale est possible parallèlement à une action sur le fondement de ce droit sui generis.

  • L'action en concurrence déloyale peut être plus aisée que celle fondée sur le droit sui generis de producteur des bases de données. En effet, fondée sur la responsabilité civile, l'action en concurrence déloyale requiert de démontrer une faute (celle du concurrent ayant reproduit votre base), un préjudice (préjudice financier du fait des plaintes, des collaborateurs mobilisés, préjudice en termes d'image) et le lien de causalité entre les deux. S'agissant de la violation du droit du producteur de base de données, il faudra démontrer, en plus du préjudice et de la faute (extraction illicite d'une partie substantielle de la base), les différents investissements sur une partie qualitativement ou quantitativement substantielle de la base pour se prévaloir du droit.

Publié également sur https://www.linkedin.com/pulse/r%25C3%25A9cup%25C3%25A9ration-massive-et-utilisation-de-donn%25C3%25A9es-issues-gostiaux/?trackingId=Ksxetrv1k4ZBD8uMlgcO0w%3D%3D


1. Le "web scraping" est une pratique qui consiste à extraire le contenu de sites Web via un logiciel ou un script, pour collecter automatiquement les données présentes sur des annuaires ou sites spécialisés.

2. Le "growth hacking" peut se définir comme un ensemble de techniques marketing au service d'une stratégie permettant d'assurer à l'entreprise une croissance forte et à faible coût.