La protection des données personnelles face aux algorithmes prédictifs
L’adoption récente du règlement (UE) 2016/679 mais aussi de la loi pour une République numérique, sont venus renforcer – et élargir – le périmètre de protection des données personnelles. Mais l’avènement de nouveaux outils algorithmiques prédictifs, en permettant un traitement inédit des traces numériques produites par les individus, soulève de nouveaux risques en termes de traçabilité du traitement des données mais aussi de discrimination et d’influence sur les personnes. L’application de tels outils décisionnels automatisés conduit ainsi à remettre en question les modalités d’application des dispositions légales et contribue à bouleverser la définition même de donnée personnelle.
Jean-Marc Deltorn 1, Laboratoire de recherche (EA 4375) du Centre d’études internationales de la propriété intellectuelle, Université de Strasbourg
La récente adoption au niveau européen du Règlement européen sur la protection des données personnelles 2 et, au niveau national, la promulgation de loi pour une République numérique 3, ont consacré l’importance d’un contrôle accru sur les procédés de traitement automatique mis en œuvre pour capter, manipuler et utiliser les données à caractère personnel. La protection de ces données bien particulières, droit fondamental inscrit aux articles 16 du Traité sur le fonctionnement de l’Union européenne et 8 de la Charte des droits fondamentaux de l’Union européenne, s’avère de fait nécessaire, sinon urgente, face à l’évolution des modes d’interaction des individus avec les outils numériques connectés. Or, au cœur de ce changement, de nouvelles formes de procédés décisionnels automatisés permettent depuis peu un traitement inédit des données de masse, données brutes, hétérogènes, dynamiques, caractéristiques des Big Data. Bien que le Big Data ne se réduise pas au seules données personnelles 4, et que l’immense majorité des traces produites par les individus, directement (que ce soit un « clic » sur un lien internet, un « like » sur un réseau social) ou indirectement (sous forme de métadonnées) ne constituent pas, individuellement, des signaux identifiants, force est de constater que les capacités de corrélation des procédés d’analyse statistique font dès à présent entrer dans l’espace des données personnelles un ensemble de données fragmentées, en apparence anodines, qui en étaient jusqu’alors exclues.
Ces nouveaux objets algorithmiques posent ainsi des problèmes d’interprétation et d’application des dispositions légales en vue de la protection des données à caractère personnel. Capables de détecter les plus ténues des corrélations dans les données produites par les utilisateurs des réseaux, ils contribuent à bouleverser la définition même de donnée personnelle, que ce soit en terme d’information susceptible d’identifier un individu, ou bien qu’il s’agisse de reconnaître certains caractères jugés sensibles, tels que l’origine ethnique, les opinions politiques ou religieuses ou encore les données concernant la santé de ces personnes. Les transformations successives des données brutes en données signifiantes, au sein de modèles statistiques opaques, rendent largement inopérantes les dispositions relatives au devoir d’explication du processus de traitement et à la traçabilité des données.
Après avoir décrit les caractéristiques propres aux algorithmes d’apprentissage, moteur du traitement des données de masse, nous montrerons en quoi l’extension du domaine d’interprétation de la notion de donnée personnelle qu’ils imposent force à repenser l’équilibre entre protection des droits fondamentaux et libre circulation des données (I). Nous soulignerons ensuite l’impact des modèles prédictifs sur les modalités d’application du droit positif et des nouvelles dispositions du règlement 2016/679 et de la loi pour une République numérique, à la fois en termes de biais statistique et d’absence d’interprétabilité (II).
I. De la trace à la donnée personnelle au filtre de l’algorithme
La production de données de masse n’aurait que peu d’impact sur les individus si elle ne s’accompagnait d’un processus de traduction en une information interprétable, susceptible d’alimenter les processus de décisions. Les outils d’analyse statistique forment le principe actif de cette opération de transcription des données brute en signes utilisables, avec en première ligne aujourd’hui, le recours aux algorithmes d’apprentissage (1). Le pouvoir d’analyse de ces nouveaux procédés permet en effet, en transcrivant les traces numériques sans valeur individuelle, par croisements et corrélations, de produire des profils de plus en plus précis, et de faire entrer, in fine, ces traces dans le régime des données à caractère personnel (2).
1. Le recours aux méthodes statistiques d’analyse des données de masse
La nature inédite, tant sur le plan quantitatif que qualitatif, des signaux émis par les individus le long de leurs activités numériques, sur la toile, au travers de leurs communications électroniques ou par l’intermédiaire d’objets connectés, pose de nouvelles contraintes quant aux modalités de leur traitement (a). Analyser et interpréter cette masse de données requiert ainsi l’utilisation d’outils algorithmiques bien particuliers, capables d’un degré d’autonomie remarquable, dont les procédés d’apprentissage statistique forment aujourd’hui la figure de proue (b).
1. Les défis du traitement des données de masse
L’exploitation de la masse de données numériques produites par les utilisateurs est considérée aujourd’hui comme une opportunité en termes d’innovation économique et stratégique, une forme inédite de création de valeur. « [N]ouvel or noir de l’internet et nouvelle monnaie du monde digital » 5, ces données personnelles représentent en effet la matière première à partir de laquelle il est possible d’analyser, de classer les activités, de suivre les comportements et de prédire les centres d’intérêt d’utilisateurs largement dépendants d’un réseau numérique de plus en plus dense et omniprésent. Les informations qui en sont extraites permettent ainsi de délivrer, en temps réel, des offres de plus en plus personnalisées 6, d’augmenter l’efficacité des entreprises 7 et des services publics 8. Des opérations si rapides et transparentes qu’elles échappent largement au filtre critique des utilisateurs, peu conscients de la valeur ajoutée de ces traces égrenées au fil de leur trajet numérique, ni de l’étendue de leur utilisation.
Quelles sont alors ces « traces » ? Leur contenu est des plus hétérogènes (de labels identifiants aux métadonnées les moins signifiantes) 9, elles sont issues de tout type de plateformes (fixes et mobiles, de l’internet des objets) et forment un flot en apparence intarissable dont la collecte, quasi-systématique, est catalysée par un accroissement des capacités de stockage et de traitement de l’information. Une fois stockées, mémorisées, l’exploitation d’une telle masse de donnée « brutes », en apparence incohérentes et individuellement anodines, aux fins de représenter des comportements humains complexes et changeants, sans connaître a priori les règles qui les régissent, requiert la mise en œuvre de procédés de traitements automatisés élaborés.
2. Le recours aux algorithmes d’apprentissage
Soumises à des contraintes inédites de volume, de variété et de vitesse, ces méthodes ne reposent plus aujourd’hui sur la prescription de relations issues d’une observation attentive, de l’analyse d’experts dont l’expérience serait finalement capturée sous forme de règles pour être automatisée. Elles sont le fait de familles d’algorithmes qui tirent des données elles-mêmes les modèles permettant de représenter l’objet étudié. Capables de passer de la trace à l’information, en réduisant le recours à une intermédiation humaine supposée faillible et inapte à traiter les données de masse, ces algorithmes, dits « d’apprentissage automatique », sont à présent le principal instrument d’interprétation des données à grande échelle. Leur développement récent, fulgurant, s’est fait sous l’impulsion conjointe de nouvelles approches algorithmiques 10, de l’augmentation des capacités de calcul, notamment distribué et, surtout, de l’accès à de vastes bases de données à partir desquelles ils sont susceptibles d’apprendre 11. Leur particularité est en effet de contourner l’exigence de modèles prédéfinis en construisant, par induction, lors d’une phase d’entrainement, au moyen d’exemples donc, une représentation interne du problème à résoudre. Les capacités de ces algorithmes permettent en effet d’identifier des corrélations auparavant insoupçonnées, mais pourtant déjà statistiquement présentes dans les données qui lui sont proposées. Apprendre à reconnaître un piéton dans une image reviendra alors, non pas à définir manuellement un archétype du piéton en termes interprétables par la machine, mais à proposer à l’algorithme d’apprentissage des exemples d’images en lui indiquant à chaque instance si, oui ou non, elles contiennent bien un piéton.
De ce croisement de données brutes, hétérogènes, individuellement « a-signifiantes » 12, l’automate compare, extrait des patrons, déduit des règles. À force d’itérations, cas après cas, par confrontation systématique entre les prédictions issues de l’algorithme et les catégories attendues 13, et par correction des paramètres constitutifs de son modèle, l’algorithme d’apprentissage aboutit, une fois l’entrainement achevé, à une représentation interne du problème et de sa solution : un modèle final (permettant, par exemple, de déduire la présence d’un piéton dans une image) appris des données, de manière empirique, dont la règle émergente n’est pas, directement, en tant que telle, le fait de l’homme 14. Lors de son utilisation ultérieure, soumis à des données inconnues, le modèle sera alors capable d’assigner une catégorie (p. ex. : « piéton ») ou une grandeur réelle (p. ex. : « la probabilité de présence d’un piéton ») aux données initiales et de fournir un résultat en accord avec les distributions statistiques apprises des exemples lors de l’apprentissage.
Le succès sans précédent de ces méthodes, dans les domaines les plus variés, de la vision par ordinateur à la reconnaissance de la parole, de l’analyse statistique du langage à l’interprétation de données comportementales ou médicales, leur alloue un rôle central dès lors que des exemples sont disponibles en quantité suffisante pour leur permettre un apprentissage satisfaisant. L’accès à de vastes réserves de données a donc contribué à une explosion d’applications pratiques, encore favorisées par l’ouverture de plateformes open-source et de services distribués 15. C’est donc tout naturellement que l’efficacité de ces algorithmes a été mise à profit pour extraire une information utile à partir des signaux bruts les plus élémentaires produits par les utilisateurs au fil de leurs pérégrinations sur la toile ou, simplement, de leur activité quotidienne via les objets connectés. De fait, les algorithmes d’apprentissage automatique constituent à présent le fer de lance de l’analyse prédictive appliquée aux données de masse.
2. Les données d’utilisateurs au filtre de l’algorithme
Toute donnée ne saurait être qualifiée de « personnelle ». L’article 2 de la loi du 6 janvier 1978, dite « informatique et liberté » 16, fondement actuel du droit positif relatif à la protection des données personnelles, les définit comme « toute information relative à une personne physique identifiée ou qui peut être identifiée, directement ou indirectement, par référence à un numéro d’identification ou à un ou plusieurs éléments qui lui sont propres ». De même, dans une formulation proche, pour l’article 4 §1 du Règlement (UE) 2016/679 (ci-après, le « Règlement » qui entrera en application le 25 mai 2018), il s’agira de « toute information se rapportant à une personne physique identifiée ou identifiable ». Seul le traitement de ces données, c’est à dire « toute opération ou tout ensemble d’opérations portant sur de telles données, quel que soit le procédé utilisé » (article 2 de la loi du 6 janvier 1978) est soumis aux impératifs de contrôle juridique 17. En outre certaines données, particulièrement sensibles, font l’objet d’un régime plus strict encore : elles sont définies aux articles 8 de la loi du 6 janvier 1978 et 9 §1 du Règlement et leur utilisation interdites à l’exception du consentement exprès des personnes concernées ou si justifiée par un intérêt public. Or, alors même que l’immense majorité des données produites par les individus apparait inoffensive, insignifiante, et ne semblerait pas justifier a priori une intégration dans le régime de la donnée personnelle, force est de constater que les algorithmes d’inférence permettent aujourd’hui d’extraire des caractéristiques individuelles de ces traces anonymes (a) qui peuvent servir à leur tour à identifier et contrôler les individus (b).
1. De la trace au trait, du trait à la personne
Comment un « clic » pourrait-il dire qui je suis ? La transformation de la trace en caractéristique individuelle s’opère au travers de multiples croisements d’informations. Premier croisement, par collecte et utilisation d’un ensemble de données élémentaires produites par un individu (si la visite d’un seul site internet, l’achat d’un seul objet, dira peu d’une personne, par contre l’historique de navigation ou des achats sera bien plus révélateur ; de même, un seul lieu visité ne permettra qu’un faible niveau d’identification à la différence de l’ensemble des trajets individuels 18). Second croisement, par agrégation de traces hétérogènes : chaque fragment est en effet potentiellement porteur d’une parcelle d’information différente et complémentaire. Un site visité, le texte d’un commentaire qu’on y a laissé, une vidéo interrompue après quelques secondes ou vue dans son intégralité, le trajet de la souris sur la page, participeront à construire une image globale, même si kaléidoscopique, de l’utilisateur 19. L’intégration de ces diverses caractéristiques contribue ainsi à faire émerger des profils plus riches, des définitions plus précises, que ceux dérivés d’un seul type de données 20. C’est une des forces des algorithmes d’apprentissage, et une raison de leur essor, que de pouvoir dénouer l’écheveau de cet ensemble hétéroclite pour identifier en son sein des structures stables, des corrélations insoupçonnées. De ces traces brutes surgit donc l’empreinte qui permettra d’associer, troisième croisement, par recoupement avec la signature caractéristique d’un type de comportement préalablement appris, les fragments à une catégorie d’individus, voire à un individu unique.
Des expériences récentes ont tenté d’évaluer l’étendue des interprétations possibles de ces traces supposément anodines. Les préférences dans les réseaux sociaux (manifestées en particulier, par les « likes » accessibles publiquement dans les pages Facebook) permettent ainsi, à elles seules, non seulement de remonter au sexe (homme ou femme) des individus avec un taux de succès dépassant les 90%, mais aussi à leur orientation politique (85%), sexuelle (83% environ), religieuse (82%) ou encore à leur origine ethnique (95%), soit à des niveaux de précision dépassant ceux obtenus par les humains 21. Ces résultats ont été corroborés par une analyse automatique des informations laissées sur d’autres plateformes, notamment Youtube 22 et Twitter 23 permettant d’identifier, là encore avec une précision remarquable, les préférences politiques des utilisateurs. Les informations récoltées sur un individu donné sont alors propagées par le biais de son réseau de connections (soit directement, par l’intermédiaire de ses relations sur un réseau social, de ses contacts e-mails, etc., soit indirectement, via les similarités entre attributs ou entre individus) et viennent enrichir à leur tour la description d’autres individus 24.
Des traits de personnalité, des données sensibles au sens de l’article 8 de la loi du 6 janvier 1978 et de l’article 9 §1 du Règlement, sont ainsi obtenus sur des utilisateurs sans qu’ils ne manifestent à aucun moment la volonté d’en révéler la teneur. Outre les orientations politiques, religieuses et ethniques, les données de santé sont, dans ce registre, particulièrement convoitées 25. Là encore, l’apparente innocuité d’une utilisation usuelle des applications numériques et l’absence de prise de conscience du contenu dérivable de ces traces, en autorise une exploitation subreptice. L’historique de navigation, aisément accessible aux tiers lors de la visite de sites internet, est ainsi particulièrement révélateur des préoccupations de santé d’un individu 26. De même, les métadonnées, souvent écartées du régime des données à caractère personnel, seront autant d’indices qui participeront à établir un profil de santé de l’individu 27. Aux États-Unis, la chaine de magasins Target, inféra ainsi correctement, grâce à l’analyse automatique de ses achats, qu’une adolescente du Minnesota était enceinte : la conjonction de suppléments minéraux, d’huiles hydratantes, entre autres critères, avait suffi à faire entrer la cliente dans la catégorie des femmes enceintes. Target lui fit alors parvenir des publicités pour des produits pour nourrissons, à la surprise des parents de la jeune fille qui n’étaient pas encore au courant 28. À ces données de navigation ou de consommation s’ajoutent de plus en plus de signaux reçus à partir d’objets connectés (p.ex. de mesure de l’activité physique) qui contribuent encore à la construction d’un profil de santé général. Le cabinet de consultants Deloitte reconnaît ainsi utiliser « thousands of non-traditional third-party data sources, such as consumer buying history to predict a life insurance applicant’s health status with an accuracy comparable to a medical exam » 29, soulignant si nécessaire, la réalité du risque d’utilisation d’un substitut (virtuel) de notre état de santé réel 30.
Mais, pourrait-on objecter, ce ne sont là que des profils agrégés, qui concernent des classes d’individus, et non des individus identifiables. Or, même lorsque ces informations identifiantes ne sont pas immédiatement disponibles, la superposition de facettes de personnalité, permet d’y accéder. Il suffit en effet d’intersecter un nombre suffisant de catégories auxquelles un individu est supposé appartenir, de profils plus ou moins précis, pour qu’émerge un sous-ensemble plus étroit, jusqu’à finalement pouvoir sélectionner une seule et unique personne, par accrétion de traits de personnalité qui finalement l’identifient en propre. Le contrôle de la granularité de ces profils composites permet ainsi de passer de la trace anonyme au trait de personnalité, puis du trait à la personne 31.
2. De la trace à la prédiction, de la prédiction au contrôle
Si une composante centrale du traitement automatisé des données d’utilisateur repose sur la création de profils, la finalité de leur utilisation s’étend bien au-delà. Les applications de traitement automatique vont en effet tirer parti du profilage pour recommander des produits ou des services 32, proposer des messages publicitaires ciblés 33, ou offrir un contenu adapté aux préférences supposées des utilisateurs 34. Le traitement des données à caractère personnel est ainsi un moyen d’adapter la construction de contenu aux individus, soit en se conformant aux préférences de profils auxquels ils se rapprochent, soit en anticipant leurs préférences par une analyse comportementale 35. Or, l’utilisation de données personnelles pour infléchir les comportements individuels n’est pas l’apanage du seul marketing comportemental 36. On en trouve des applications dans la promotion de meilleures habitudes de santé 37, d’incitation à la diminution de consommation d’énergie 38. Au-delà encore, la possibilité d’une manipulation comportementale à partir de la connaissance de profils d’individus a été démontrée 39. La réception par des individus de messages publicitaires au contenu proche, mais différents, de leur identité initiale, modifie progressivement la perception qu’ils ont d’eux-mêmes. Ce changement d’identité, mesuré après exposition aux messages, se traduit par un ajustement durable de leur comportement (manifesté entre autre par les achats, l’adhésion à des services) en ligne avec la catégorie induite. Or ces effets ne s’appliquent que lorsque le message est suffisamment similaire au profil initial des destinataires. Il est ainsi possible à partir de l’estimation d’un profil individuel précis d’induire de manière contrôlée un changement de comportement par la simple proposition de contenus.
L’efficacité de ce type de ciblage comportemental souligne à la fois le pouvoir des détenteurs des profils de personnalités, capables à travers eux d’une véritable « manipulation algorithmique » 40, mais aussi la nécessité d’un contrôle strict de la finalité de l’utilisation des données, susceptible, ici, d’atteindre à l’élaboration d’une opinion, à la construction d’une identité. L’encadrement du filtrage personnalisé des informations, autant que la prise de décision assistée sur la base de profils de personnalité, constitue donc un enjeu majeur pour le maintien d’une société plurale et le respect de la liberté d’opinion.
3. Les limites à l’impartialité : des biais statistiques aux hypothèses du modèle
La quantification des comportements humains par l’intermédiaire d’outils de prédiction algorithmique pourrait donner l’illusion d’une métrique objective. Le fait que la décision émerge d’un objet mathématique, comme la construction d’un modèle par un processus d’apprentissage indépendant d’une intervention humaine (dans la définition de sa représentation interne, tout du moins), participent à une impression de neutralité du processus de décision automatique. Là où une analyse statistique humaine serait, du simple fait de sa subjectivité, sujette à un regard critique, l’algorithme est paré d’une « rationalité algorithmique » 41 qui tend à accorder un caractère de certitude positive aux résultats qui en découlent. Or l’application pratique de ces procédés, loin d’une impartialité mécanique, reflète autant les choix des responsables du traitement que les contraintes imposées par les données dont elles dépendent. Ni dénués d’arbitraire ni exempts de malfaçons, ces procédés reflètent la nature des échantillons sur lesquels ils sont construits et les hypothèses sur leur distribution statistique (a), mais sont aussi contraints par l’utilisation de variables de substitution (b).
1. La reproduction (algorithmique) des préjugés
Les propriétés des modèles issus d’un apprentissage automatique dérivent directement des caractéristiques présentes dans les exemples utilisés lors de la phase d’entrainement. La mise en œuvre de cet apprentissage est soumise à un ensemble de choix exogènes à l’algorithme et dont la responsabilité incombe directement aux individus en charge de l’apprentissage automatique. Cette « injection de subjectivité » dans le procédé de décision se manifeste notamment par la sélection d’hypothèses statistiques. Il est ainsi commun de supposer que l’échantillon d’entrainement et les données sur lesquelles seront ensuite appliquées le modèle forment deux distributions indépendantes et identiquement distribuées. C’est à dire, d’une part, que les caractéristiques de ces deux ensembles sont régis par les mêmes modes de fonctionnement et que, d’autre part, ils représentent toutes deux équitablement une même distribution parente. Si ces deux conditions sont remplies on peut s’attendre raisonnablement à ce que le modèle transfère convenablement les propriétés déduites lors de l’entrainement aux décisions futures. Or l’une et l’autre de ces hypothèses ne résistent pas, dans bien des cas, à l’analyse critique des modes d’application des algorithmes prédictifs.
La stationnarité du phénomène décrit par la distribution d’entrainement n’est pas acquise, loin s’en faut. Les populations sont en effet susceptibles d’évoluer, soit par un changement contextuel (un apprentissage de comportements de consommation en période de croissance économique ne s’appliquera sans doute pas en période de crise), soit que les individus adaptent délibérément leur mode d’interaction avec la machine face au traitement algorithmique (par exemple lorsque la population prend conscience d’être observée. 42). Le modèle n’est plus alors représentatif des données à partir desquelles il est sensé émettre ses prédictions, qui sont alors manifestement infondées.
Le déséquilibre numérique entre la distribution d’entrainement et les données réelles est aussi source de biais statistique. Ce peut être par insuffisance du nombre d’exemples disponibles pour l’une ou l’autre des catégories concernées (la représentation qui s’en déduit est alors dominée par un bruit statistique). C’est aussi le cas en présence d’un décalage quantitatif entre les échantillons représentatifs des différents profils. Si une classe d’individus est, en proportion, bien plus représentée lors de l’apprentissage du modèle que lors des tests ultérieurs, les règles apprises tendront à favoriser la distribution dominante dans l’ensemble d’entrainement 43. Ce désavantage relatif d’une population par rapport à l’autre est ainsi source de discriminations dont le traitement des données personnelles n’est pas exempt. Ainsi le sexe de l’utilisateur (déduit de l’historique de navigation, des contacts, des préférences sur les réseaux sociaux) détermine la nature des publicités sélectionnées par Google : les hommes se voyant proposer davantage d’offres d’emplois à responsabilité, mieux rémunérés, que les femmes 44.
2. Des décisions par indirection
Un autre type de biais résulte de l’utilisation de grandeurs de substitution, en lieu et place d’indicateurs directs. Que l’on observe dans les données d’entrainement une apparente cooccurrence de paramètres (p. ex. un code postal, un mot clé, et une orientation religieuse déduite de données brutes 45), un moteur de recommandation proposera alors aux individus des contenus destinés aux groupes religieux inférés dès que le code postal ou le mot clé est détecté. Entrer, dans un moteur de recherche, un prénom commun dans les communautés afro-américaines, conduit ainsi à afficher des messages proposant des offres de prêts pour liberté conditionnelle (« bail bonds ») ou des services de recherche d’historique criminelle 46. Des requêtes basées sur des prénoms caractéristiques de populations caucasiennes donnent quant à eux lieu à des publicités d’offre de crédit par des banques ayant pignon sur rue 47. C’est donc une indirection (l’association entre un prénom et une origine ethnique, puis entre ethnicité et population carcérale) qui conduit à la proposition du message publicitaire : l’information sensible, n’est pas directement accessible mais est intégrée au cœur même du modèle de recommandation. Le danger est alors d’assimiler ces corrélations (un certain niveau de salaire et le sexe d’un individu, son origine ethnique, religieuse, etc.) à des relations de causalité. Or l’algorithme d’apprentissage n’est seulement capable de mettre à jour des corrélations : la construction d’une relation causale entre les paramètres requiert quant à elle un contexte interprétatif extérieur à la machine.
Ainsi, l’apprentissage automatique peut produire une représentation biaisée en terme social ou ethnique qui sera reflétée dans les décisions prises au moyen du modèle. Dans ce cas, le biais statistique n’est pas nécessairement le fait de choix conscients du responsable du traitement (consistant par exemple dans l’utilisation d’une base de données, de la sélection de caractéristiques pour représenter ces données ou de leur classification) mais résulte de l’acquisition d’échantillons d’entrainement non représentatifs de la distribution réelle. Ainsi, le simple fait d’entrainer un système d’apprentissage sur des données issues de l’internet focalisera le modèle sur la population la plus représentée sur la toile, bien que cette représentation soit loin d’être égalitaire 48.
Alors même que les traces numériques laissées par les individus participent à l’attribution de scores de solvabilité 49, à la classification des réfugiés 50, ou à la décision de libération conditionnelle ou du risque de récidive 51, les procédés de décision automatisés (en particulier lorsque leurs modèles dépendent d’échantillons réels) pourront propager les biais statistiques déjà présents dans les données d’entrainement. De fait, « data mining and classifier induction can lead to similar problems as for human decision makers, including basing their decisions upon discriminatory generalizations. This can be particularly harmful since data mining methods are often seen as solidly based upon statistics and hence purely rational and without prejudice » 52. En présentant les prédictions comme résultant d’un processus supposé indépendant de toute influence subjective, ils seront gratifiés d’une aura d’autorité, sans fondement réel mais qui contribuera à réifier les préjugés. Par ailleurs l’attribution automatique de labels reproduisant les biais présents dans le modèle pourra servir à entrainer de nouvelles générations d’algorithmes, participant ainsi au renforcement, voire à l’amplification du préjugé initial.
Puisque de tels risques semblent aujourd’hui bien réels, puisque « unthinking reliance on data mining can deny members of vulnerable groups full participation in society » 53, un contrôle des biais inhérents à la construction de modèles par apprentissage automatique semble donc nécessaire.
II. Les modalités de contrôle des traitements prédictifs : du code à la norme juridique
Le droit à la protection des données personnelles est actuellement assuré par un ensemble d’instruments juridiques. Au niveau national, la n°78-17 du 6 janvier 1978 relative à l’informatique, aux fichiers et aux libertés, modifiée par la loi n°2004-801 du 6 août 2004 pour transposer les dispositions de la directive 95/46/CE, forme aujourd’hui le principal cadre de protection des données à caractère personnel. La loi pour une République numérique, promulguée, le 7 octobre dernier, illustre de plusieurs mesures le principe du droit à la libre disposition de ses données personnelles (établissant, par exemple, la confidentialité des correspondances électroniques). Au niveau communautaire, le texte principal est à présent le règlement européen 2016/679 adopté le 27 avril 2016, après plus de quatre années de discussions. Il abrogera la directive 95/46/CE et entrera en vigueur à compter du 25 mai 2018, date à partir de laquelle il sera d’application directe dans l’ensemble des États Membres de l’Union Européenne 54.
Le droit à la protection des données à caractère personnel tel qu’établi par ces textes vise à garantir le respect des droits et des libertés fondamentales 55. La Convention 108 soulignait, il y a plus de 35 ans déjà, que « dans certaines conditions, l’exercice d’une complète liberté de traiter les informations risque de nuire à la jouissance d’autres droits fondamentaux (par exemple les droits à la vie privée, à la non-discrimination et à un procès équitable) ou à d’autres intérêts personnels légitimes (par exemple en matière d’emploi ou de crédit à la consommation). C’est pour maintenir un juste équilibre entre les différents droits et intérêts des personnes que la Convention impose certaines conditions ou restrictions au traitement d’informations. » 56. Le Règlement, au premier point de ses considérants, le souligne de même : « La protection des personnes physiques à l’égard du traitement des données à caractère personnel est un droit fondamental. » C’est donc à cette mesure qu’il faut envisager la protection des données personnelle : un droit fondamental dont les abus se manifesteront par des atteintes à la vie privé, des discriminations, des limites à la liberté d’expression.
Comment l’introduction de ces nouveaux procédés de traitement automatique que sont les algorithmes d’apprentissage statistique s’articule-t-elle avec le respect de ces droits ? Le Règlement souligne en son introduction la nécessité de permettre aux personnes physiques « d’avoir le contrôle des données à caractère personnel les concernant. » À cette fin, et pour permettre de maintenir la confiance dans l’économie numérique, « [l]a sécurité tant juridique que pratique devrait être renforcée pour les personnes physiques, les opérateurs économiques et les autorités publiques ». Pour être effective, la mise en œuvre de ce contrôle doit donc être examinée à l’aune des spécificités de l’objet algorithmique auquel elle s’applique. Cette examen critique doit être mené tant sur le plan technique (1) que juridique (2) et devra amener à repenser les moyens de protection des données personnelles (3).
1. Une réponse technique fragile
Face à la rapidité d’évolution des objets techniques (en particulier dans les univers numériques et algorithmiques), l’utilisation de la technologie comme moyen de garantir la protection des individus a été avancée comme une alternative à la lenteur (relative) d’adaptation des normes juridiques. En application du principe selon lequel « code is law » 57, l’intégration de garde-fous, contre les atteintes aux droits, directement dans l’architecture informatique fait partie de ces solutions.
L’adoption de précautions techniques visant à protéger les données à caractère personnel a, dans ce sens, été inscrite dans les dispositions de l’article 25 §1 du Règlement. Elles imposent au responsable du traitement l’implémentation du principe de « protection des données par défaut » (« privacy by design »), à savoir l’application de « mesures techniques et organisationnelles appropriées, telles que la pseudonymisation », afin de protéger les données personnelles. La mise en application pratique de ces mesures est cependant laissée à la libre décision du responsable du traitement 58. Or, en l’absence de recommandations claires sur les modalités d’implémentation des principes de « protection des données par défaut », le risque est grand (et avéré, d’ailleurs, au vu des nombreux incidents concernant les atteintes à la vie privée des individus, dont Google, Facebook, AOL, Twitter, Microsoft, etc. ont été l’objet 59) que leur mise en œuvre ne remplit qu’imparfaitement les conditions de l’article 25 §1. Un ensemble de normes techniques relatives à la protection des données personnelles proposées par l’organisation internationale de normalisation ISO, notamment un « cadre privé » (ISO/IEC 29100) et un code de bonnes pratiques (ISO/IEC 27018) pourraient néanmoins servir de guide en la matière. En particulier, la norme ISO/IEC AWI 20889, en cours de développement, aura vocation à proposer un jeu de techniques d’anonymisation éprouvées, dans la lignée de celles prévues par les dispositions de l’article 25 du Règlement 60.
Mais, bien que de telles mesures de protection constituent un progrès certain, et contribuent à la protection des données, elles ne sont pourtant pas infaillibles : aux nouvelles techniques d’anonymisation répondent des contremesures de désanonymisation ou de ré-identification qui les rendent sinon obsolètes du moins en réduisent significativement l’efficacité 61.
Outre les contraintes liées au stockage sécurisé et anonyme des données, des tentatives sont aussi menées pour intégrer dans les mécanismes de formation des modèles prédictifs des principes, éthiques cette fois, afin de minimiser les risques de discrimination liées à la dépendance aux données d’entrainement. Or, là encore, les modèles issus de l’apprentissage automatique ne sont pas à l’abri d’attaques directes (par une modification des propriétés du modèle lui-même, via les données d’entrainement – ou de réentrainement -, pour en affecter les prédictions) 62, ou encore indirectes par ingénierie-inverse et contre-attaque afin d’en contourner les contraintes (en modifiant cette fois non plus les exemples d’entrainement mais les données en phase de test) 63. Enfin, les données d’entrainement originelles, même fois une traitées par le procédé d’apprentissage et effacées, ne sont pas non plus protégées contre les attaques dédiées : il est ainsi possible d’extraire du modèle prédictif lui-même une information sur les exemples utilisés pour sa construction, compromettant ainsi l’anonymat (et érodant encore l’application pratique d’un « droit à l’oubli ») des données personnelles auxquels ils correspondent 64.
2. Une réponse juridique nécessaire, mais limitée
Les réponses juridiques, autre volet de protection, sont donc incontournables pour complémenter un contrôle technique, comme nous l’avons vu, potentiellement lacunaire. Le Règlement du 27 avril 2016 et la loi pour une République numérique en sont des exemples récents, qui viennent étendre les dispositions de la loi informatique et liberté. Ce cadre juridique doivent cependant être analysé au regard des spécificités des traitements prédictifs. L’évolution de la notion de donnée personnelle face aux nouvelles facultés des algorithmes d’apprentissage (a), l’inintelligibilité des modèles qui en découlent (b) et les conséquences sur le principe de finalité d’utilisation des données personnelles (c) seront discutées en ce sens.
1. Un éclatement de la notion de données personnelles
Les capacités de corrélation des algorithmes d’apprentissage permettent, on l’a vu, d’étendre la notion de donnée personnelle au-delà des identifiants traditionnellement associés, de manière univoque, à la personne physique (nom de famille, nom d’utilisateur) vers de nouvelles entités. Ce seront, d’abord, des collections de traces élémentaires, individuellement inaptes à identifier un individu, mais qui, une fois regroupées créent une empreinte unique, caractéristique d’un individu. Ce seront aussi des constructions dérivées, des profils obtenus à partir de ces traces qui, bien qu’individuellement anonymes, permettront par agrégation et recoupement de parvenir à une identification. C’est donc aujourd’hui essentiellement à partir de données brutes que se construisent, indirectement, des informations relatives aux individus. Faut-il alors assimiler toute interaction avec la machine, toute trace numérisée, comme un identifiant en puissance ? Toute donnée brute est-elle une « donnée à caractère personnel » ? Même si la capacité d’identification des procédés d’inférence statistique peut se suffire de traces de plus en plus infimes, imposer un contrôle sur ces données élémentaires au fondement du droit positif ou du Règlement serait aussi superflu que chimérique et nuirait, par inapplicabilité pratique de la règle, à l’effectivité de son principe de protection.
Pour éviter une telle dérive, il est utile de revenir au sens de « donnée à caractère personnel » tel qu’entendu par la loi informatique et liberté et par le Règlement. Selon les dispositions de l’article 4 §1 du Règlement (dans une formulation équivalente à celle de la loi du 6 janvier 1978), une personne physique est « identifiable » lorsqu’elle « peut être identifiée, directement ou indirectement, notamment par référence à un identifiant, tel qu’un nom, un numéro d’identification, des données de localisation, un identifiant en ligne, ou à un ou plusieurs éléments spécifiques propres à son identité physique, physiologique, génétique, psychique, économique, culturelle ou sociale ». La liste, non limitative, établit un périmètre à géométrie variable, certes, mais dont le dénominateur commun est l’existence d’« éléments spécifiques propres à [l’]identité » d’un individu. C’est donc dans l’objectif ultime du traitement de l’information issue des données brutes, et non dans la trace elle-même, qu’il faut trouver une assise à l’interprétation : dès lors qu’une information a pour fonction de permettre l’identification d’un individu, elle le rend identifiable, et entre donc, en tant que telle, dans la définition de l’article 4 §1 ; elle devient – à ce stade seulement – une « donnée à caractère personnel ». La collecte de données brutes ne devrait pas entrer dans le régime de protection par le Règlement dans la mesure où elles servent seulement à mesurer une activité d’ensemble. En revanche, la construction d’un jeu de traces – aussi élémentaires soient-elles –, l’élaboration d’un ou de plusieurs profils – à granularité variable – en vue de suivre, retrouver ou cibler un individu produira une information à caractère personnel protégée au titre de la loi du 6 janvier 1978 et du Règlement 65.
2. Un modèle opaque
Si, sur ce principe, la définition de la donnée personnelle résiste aux effets de l’algorithme, l’opacité de ce dernier (les transformations opérées au sein des modèles prédictifs) entrave néanmoins l’exercice pratique de la protection. Une opacité qui se manifeste par le fait que toute donnée brute est susceptible de participer à des collections identifiantes, mais aussi par le fait que le passage de la trace à l’information à caractère personnel se fait dans la machine (c’est à dire de manière délocalisée, hors du contrôle de l’utilisateur). Comme il est aisé de s’égarer dans les méandres des agrégations de signaux élémentaires et de leurs recoupements successifs, il est aussi difficile pour l’individu d’appréhender le devenir de ces traces laissées en filigrane au cours de son trajet numérique. Un tel régime d’incertitude pourrait alors conduire à une perte de confiance dans l’utilisation des moyens numériques.
Autre victime potentielle de la création de modèles dérivés des données : l’application du « droit à l’oubli » récemment introduit dans le Règlement (v. article 17). S’il est déjà techniquement difficile d’effacer l’ensemble des données relatives à un individu 66, que dire des données dérivées, des informations construites à partir de ces données et ayant, à leur tour, servi à la construction d’autres modèles ? Puisque ces modèles contiennent, « en creux », une image de l’individu, comment les déconstruire pour en retirer les composantes propres à un individu ?
Le droit de l’utilisateur d’exiger une explication sur le traitement des données dont il est la source, a été judicieusement inclus dans les dispositions du Règlement et de la loi pour une République numérique 67. L’application de ce droit est là encore mise en difficulté par la nature des procédés statistiques mis en œuvre et les difficultés d’interprétation a posteriori des modèles auto-générés. Le recours aux algorithmes d’apprentissage est en effet préconisé lorsqu’on ne peut formuler de règle précise décrivant le phénomène que l’on souhaite prédire ou représenter. C’est au procédé lui-même de formuler, par induction, une représentation interne, un modèle. Or, ce langage intérieur s’exprime dans un espace propre à la machine, qui n’a pas fonction à être humainement interprétable. Bien sûr, les manifestations de ce modèle nous sont accessibles, puisque la machine est conçue pour émettre une prédiction (un profil individuel, une probabilité d’appartenance à une catégorie) dans un contexte prédéfini, mais, dès que la dimension du problème à résoudre (le nombre de paramètres décrivant le profil, la complexité de la topologie utilisée pour représenter le modèle) s’élève, l’enchainement déterministe permettant d’arriver à une prédiction échappe, lui, à toute traduction. À cette opacité du modèle s’ajoute la difficulté d’interpréter le résultat, non pas en tant que tel, mais en relation avec les données d’entrée. Les procédés de décision automatique sont en effet des systèmes de détection de corrélations entre paramètres, ce ne sont pas des moyens d’expliciter les éventuelles relations causales entre ces paramètres 68. Véritable « Boîte noire », le modèle l’est par construction : l’objectif de l’algorithme d’apprentissage automatique est en effet en premier lieu de minimiser une erreur de prédiction et de produire un modèle susceptible de généralisation à de nouveaux cas, non pas de fournir une représentation interprétable 69.
3. Un principe de finalité mis à mal
La possibilité d’un contrôle sur les finalités d’utilisation des données est aussi contrariée par la redistribution, non pas des données elles-mêmes, mais de catégories dérivées, voire des modèles qui en sont déduits (et qui ne concernent alors plus directement l’individu mais un ensemble agrégé, implicitement anonyme donc). Cette indirection nuit à l’établissement d’un lien univoque entre la donnée initialement prélevée et la finalité de son utilisation. La construction de profils de navigation, à partir des données individuelles, la liste des préférences, des lieux fréquemment visités obtenus à partir de métadonnées, pourront être en principe librement échangées. D’autant plus qu’il est admis que « le principe de finalités déterminées n’exclut pas la liberté de réutilisation statistique : dans le cadre juridique actuel, la finalité statistique est toujours présumée compatible avec la finalité du traitement » 70. Or, comme nous l’avons montré, la possibilité d’une ré-identification ultérieure des individus à partir de ces informations secondaires, agrégées, individuellement anonymes, a été établie 71 : une information nominative n’est pas requise pour remonter, indirectement, par le biais de comportements représentatifs à l’identité d’une personne physique. La « réutilisation statistique » des données permet ainsi un contournement du principe de finalité et l’exercice du droit « de ne pas faire l’objet d’une décision fondée exclusivement sur un traitement automatisé, y compris le profilage, produisant des effets juridiques la concernant ou l’affectant de manière significative de façon similaire » (cf. article 22 §1 du Règlement et, similairement, article 10 de la loi du 6 janvier 1978), dont l’application repose sur la reconnaissance de ce lien causal, en est alors également limitée.
Ces traitements successifs, au sein d’un modèle obscur, ajoutent ainsi à la difficulté de suivre les usages des données lorsque celles-ci sont décomposées, recomposées, dans des profils de groupe. Il faut donc reconnaître avec C. Castets-Renard que, malgré une volonté de transparence déjà présente dans les dispositions de la loi « informatique et liberté » et consacrée dans le Règlement et la loi pour une République numérique, « la traçabilité des échanges de données est toutefois impossible à contrôler, si bien qu’il est difficile de garantir une véritable imputabilité de responsabilité à l’ensemble de la chaine de sous-traitance » 72. En conséquence, « la définition d’une chaine de responsabilité allant du concepteurs de logiciels et d’objets connectés aux utilisateurs finaux et complétant la responsabilité du responsable du traitement » 73, apparaît alors comme une ambition difficile à mettre en œuvre en pratique.
3. Un engagement pour la protection d’un droit fondamental
Devant ces limites, techniques et juridiques, comment éviter, alors, que l’utilisation de procédés de décision automatique ne conduise à des abus ? Comment éviter qu’elle n’entraine, aussi, un sentiment de résignation face à une dépossession en apparence inéluctable des empreintes numériques produites par les individus ? Malgré les contraintes techniques qui, nous l’avons vu, s’opposent à l’intelligibilité du traitement par les algorithmes prédictifs, l’enjeu du contrôle des données personnelles, droit fondamental, impose de sonder plus avant les moyens pratiques de protection des personnes. Ils devront impliquer une interprétation large de la notion de donnée personnelle (a), mais aussi la mise en place de mesures de protection et d’information adaptées (b).
1. Une nécessaire extension de la notion de donnée personnelle
L’émergence de nouvelles capacités techniques impose un exercice d’interprétation de l’objet protégé par la règle de droit. Ainsi, au risque de dépassement et d’obsolescence de la notion traditionnelle de donnée personnelle (par une utilisation d’agrégats de signaux numériques, par conjonction de profils), faut-il y opposer une interprétation large. La donnée personnelle ne doit plus être en effet conçue comme une propriété singulière, statique, attachée à l’individu, mais comme une variable fluide, une propriété émergente du processus de traitement. Lorsque des paramètres latents, des traits secondaires, qui par recoupement permettent de suivre un individu à la trace, de le réidentifier, sont produits dans un modèle, ils forment alors un faisceau identifiant, une donnée personnelle 74. Puisque les signaux initiaux sur lesquels se construisent ces identifiants peuvent tout recouvrir (on l’a vu : un historique de navigation combiné, ou pas, à un ensemble de contacts, suffiront à décrire un individu dans ses traits les plus intimes), c’est bien la finalité du modèle par lequel ils sont interprétés qui dicte alors le sens de ces variables (par exemple, au travers d’une fonction d’objectif, lors de leur entrainement : maximiser la segmentation des individus en catégories indépendantes) 75. Inclure des identifiants tels que les adresses SSID, MAC, ou encore IP 76 dans le domaine des données personnelles, semble le minimum requis lorsque les appareils auxquels ces données s’attachent révèlent nécessairement d’autres paramètres (par exemple de géolocalisation) qui suffiront sans peine à identifier une personne unique. C’est bien là la position de la CNIL 77, dont il faut louer la cohérence en la matière, mais qui faisant pourtant encore récemment débat 78.
2. La mise en place de garde-fous techniques et d’une information du public
Mais des procédures techniques doivent aussi être instaurées pour anticiper et se prémunir d’éventuelles dérives dans l’interprétation des décisions issues des algorithmes prédictifs. Une telle démarche concerne notamment la validation du corpus d’entrainement sur lesquels se base le modèle d’inférence. C’est là, nous l’avons montré, que les biais statistiques déjà présents dans les échantillons utilisés lors de l’apprentissage, seront transférés dans les résultats issus du modèle et conduiront à une éventuelle propagation des discriminations. Ces approches peuvent être menées en amont de l’apprentissage, dans une phase de prétraitement des données pour y détecter la présence de biais statistiques 79, mais aussi lors de l’apprentissage, pour identifier l’émergence de discriminations 80. Elles peuvent enfin s’appliquer dans une phase de validation post-traitement pour évaluer le modèle une fois son entrainement achevé 81. Ces procédures, s’avèrent en particulier nécessaires lorsque des analyses statistiques ont pour vocation de déduire des traits personnels (composantes qui, bien qu’elles puissent donner lieu à des estimations d’ensemble, restent, au plan des prédictions individuelles, éminemment arbitraires) et devraient s’intégrer dans le cahier des charges des responsables du traitement des données avant la mise en ligne de toute application. C’est en ce sens qu’il faudrait interpréter les nouvelles dispositions de l’article 35 du Règlement : d’une part, la réalisation d’une analyse d’impact pour les traitements présentant des risques au regard des droits et libertés des personnes concernées, et d’autre part l’obligation de conserver une documentation de l’ensemble des traitements effectués.
L’opacité intrinsèque des procédés d’apprentissage statistique devrait aussi s’accompagner par un effort de transparence des responsables du traitement. Les nouvelles dispositions du Règlement vont partiellement dans ce sens, en imposant au responsable du traitement de maintenir un registre des opérations menées sur les données personnelles (v. article 30). Mais ces dispositions apparaissent d’abord dirigées vers une responsabilisation accrue des acteurs et une meilleure traçabilité des données (le registre devant en effet contenir les informations relatives à la finalité du traitement, mais aussi au destinataires des données ainsi qu’au transfert vers des pays tiers). Or, afin de satisfaire aux conditions des articles 13 §2(f) et 14 §2(g) du Règlement relatives à l’information des individus sur les traitements dont ils ont fait l’objet, il serait judicieux et prudent d’ajouter un archivage des modèles eux-mêmes ainsi que des données ayant permis leur construction. Conserver une archive du corpus d’entrainement, des caractéristiques utilisées pour décrire ces données, des paramètres d’entrainement du système, contribuerait ainsi largement à la possibilité d’un audit et à l’analyse a posteriori du processus de traitement. Encourager les efforts d’interprétation des modèles pourrait servir autant les intérêts des utilisateurs que ceux des concepteurs de tels systèmes 82.
Une autre possibilité consistera à fournir aux utilisateurs eux-mêmes des moyens techniques de contrôle de leurs données personnelles. Les systèmes de gestion des informations personnelles entrent dans ce cadre 83. Ils ont pour objectif de centraliser les données en un espace numérique sécurisé, mais aussi de limiter leur collecte aux seules données exigées par la finalité de l’application qui en fait la demande. Une intégration, en amont de la collecte, du principe de « minimisation des données » inscrit aux article 6 §3 de la loi du 6 janvier 1978 et 5 §1(c) du Règlement et dictant que les données collectées doivent être « adéquates, pertinentes et limitées » au regard de la finalité du traitement. Un principe souvent ignoré aujourd’hui 84.
Par ailleurs, des mesures de communication devraient participer à lever le voile sur une chaine de traitement algorithmique maintenue, sous prétexte de complexité, dans un hermétisme source d’une asymétrie d’information préjudiciable aux utilisateurs. Ainsi, au sentiment, par les individus, d’une utilisation systématique des données dont ils sont la source (et qu’ils perçoivent comme insignifiantes) doit s’opposer une politique d’information sur leur valeur réelle et sur l’étendue de leur utilisation. Il faudra, en outre, opposer au principe d’une neutralité des outils mathématiques, à l’idée, sans véritable fondement empirique, qu’aucun problème ne saurait échapper à l’oracle algorithmique 85, une information sur les limites intrinsèques de ces procédés. Enfin, il faudra renforcer l’échange divers corps de métiers : statisticiens, informaticiens, juristes, sociologues et spécialistes d’éthique. Car c’est dans cet échange, interdisciplinaire, reflet de la nature hybride des algorithmes d’apprentissage, qu’une interprétation intégrée de ces objets pourra se construire et qu’une protection juridique effective sera mise en œuvre.
Conclusion
Confronté à l’évolution rapide des pratiques dans l’espace numérique, la protection des données à caractère personnel, droit fondamental inscrit dans le Traité sur le fonctionnement de l’Union européenne et consacré par la Charte des droits fondamentaux de l’Union européenne, est aujourd’hui un impératif qui doit se traduire par des mesures concrètes. L’adoption récente, dans ce sens, du règlement (UE) 2016/679, mais aussi de la loi pour une République numérique, marque un tournant en plaçant la protection des données personnelles au cœur de leur mission et en venant renforcer – et élargir – le périmètre de protection établi dans les textes antérieurs.
Mais l’évolution technologique crée des brèches dans ce régime de protection qu’il est nécessaire d’identifier au plus tôt pour, conscient des nouveaux défis qu’elles posent et de leurs dérives éventuelles, interpréter et, au besoin, adapter l’application des normes juridiques à leur nouvelle aune. Tel semble être le cas des dernières générations de procédés de décision automatique basés sur les algorithmes d’apprentissage. Leur application quasi-systématique au traitement des données produites par les individus les place à présent au centre d’une nouvelle économie de la donnée personnelle. Leur dépendance en un entrainement empirique des règles de décision, sur la base des données elles-mêmes, sans requérir une définition explicite et préalable par les responsables du traitement, leur ouvre des possibilités analytiques et d’automatisation inédites. Ces mêmes propriétés sont aussi porteuses de nouveaux risques en termes de discrimination et d’influence sur les personnes, alors même que l’opacité des solutions qui en dérivent s’oppose à leur contrôle autant qu’à leur interprétation.
L’application des algorithmes prédictifs aux traces numériques laissées par les individus au travers de leur activité quotidienne conduit ainsi à un changement de perspective sur la notion de donnée à caractère personnel. Le filtre de l’algorithme, par l’intermédiaire d’un modèle appris, permet ainsi, à partir d’agrégation de données numériques brutes, corrélées et assemblées en profils de personnalités, de recueillir sur un individu, à son insu, des informations personnelles, y compris les plus sensibles. L’impossibilité pratique de suivre le trajet de ces traces au sein des procédés décisionnels, fait non seulement obstacle à l’établissement d’une chaîne de responsabilité des participants au traitement des données personnelles qui en découlent, mais s’oppose, également, à l’application du principe de finalité du traitement. Autant de spécificités et contraintes techniques qui affectent la possibilité même d’une mise en œuvre effective des mesures de protection, d’audit ou d’information, édictées dans les lois et règlements récemment adoptés.
Face à ces nouveaux enjeux et pour répondre au manque de transparence des processus, l’objet technique doit être examiné en détail. Ce n’est en posant un regard critique sur les liens entre sa structure, ses modalités d’implémentation et la variété de ses utilisations, qu’une appréhension des conséquences sociales, éthiques et juridiques pourra émerger.
Notes:
- jmdeltorn@etu.unistra.fr. Je tiens à remercier F. Macrez pour ses conseils lors de la rédaction de ce travail. ↩
- Règlement (UE) 2016/679, signé le 27 avril 2016 et publié le 4 mai au Journal officiel de l’Union européenne. ↩
- Loi n° 2016-1321 du 7 octobre 2016 pour une République numérique, publiée au Journal officiel le 8 octobre 2016. ↩
- Selon l’article 4 §1 du Règlement (UE) 2016/679, il s’agit là de « toute information se rapportant à une personne physique identifiée ou identifiable ». ↩
- Meglena Kuneva, Commissaire Européen à la consommation, Keynote Speech, Roundtable on Online Data Collection, Targeting and Profiling (31 mar. 2009), citée dans Personal data : the emergence of a new asset class, World Economic Forum, jan. 2011, p.5. ↩
- J. Bobadilla, et al. Recommender systems survey. Knowledge-Based Systems, vol. 46, 2013, p. 109-132. V. Salonen, Ville et H. Karjaluoto. Web personalization: The state of the art and future avenues for research and practice. Telematics and Informatics, vol. 33, n° 4, 2016, p. 1088-1104. Pour un panorama en chiffre du phénomène « Big data » : M. Chen, S. Mao et Y. Liu. Big data: a survey. Mobile Networks and Applications, vol. 19, n° 2, 2014, p. 171-209. ↩
- En terme d’optimisation logistique en temps-réel, de contrôle qualité, du suivit de satisfaction des clients, et de marketing ciblé, etc. (R. Kitchin, Big Data, new epistemologies and paradigm shifts. Big Data & Society, vol. 1, n°1, 2014, p. 1-12). ↩
- Par exemple, pour l’amélioration de la circulation urbaine ou la mesure des consommation d’énergie, mais aussi les services d’éducation à distance, le contrôle épidémiologique et l’optimisation des services de santé publique (G.-H. Kim, S. Trimi et J-H. Chung. Big-data applications in the government sector. Communications of the ACM, vol. 57, n° 3, 2014, p. 78-85). ↩
- Il s’agira (sans ordre particulier, et seulement à titre d’exemple) des caractéristiques techniques de la plateforme à partir de laquelle on se connecte au réseau (caractéristiques qui permettront de la ré-identifier sans nécessaire recours aux « cookies »), de contenus audio, vidéo, ou de textes et commentaires, lus ou postés ici et là, de coordonnées géographiques, de la durée d’une communication ou du temps passé sur une page internet, de l’historique de navigation, de liste des contacts et des liens dans les réseaux sociaux, des préférences (des « likes » ou équivalents) qu’on y a distribué, etc. ↩
- Notamment les progrès dus à « l’apprentissage profond » (Y. LeCun, Y. Bengio et G. Hinton. Deep learning. Nature, vol. 521 n° 7553, 2015, p. 436-444). ↩
- Pour une discussion sur les succès récents du « Big data », v. dans ce sens K. Kelly, The three breakthroughs that have finally unleashed AI on the world. Wired Online Edition, 27 October 2014. Le succès des méthodes « d’apprentissage », qui reposent sur l’accès à des données d’entrainement réelles, est largement dépendant de la collecte et du partage en ligne de vaste bases de données (X.-W. Chen et X. Lin, Big data deep learning: challenges and perspectives, in IEEE Access 2, 2014, p. 514-525). Le choix d’une architecture adaptée – une nécessité pour réduire les temps de calcul – s’appuie sur les progrès des architectures GPU (« Graphical processing units ») et sur le développement récent d’une informatique « dématérialisée » (une analyse détaillée de l’influence des infrastructures distribuées sur le « Big analytics » est proposée par I.A.T. Hashem et al., The rise of « big data » on cloud computing: Review and open research issues. Information Systems, vol. 47, 2015, p. 98-115). ↩
- Le terme est emprunté à Antoinette Rouvroy (A. Rouvroy, Des données et des Hommes. Droits et libertés fondamentaux dans un monde de données massives. T-PD-BUR(2015)09REV, Strasbourg, Conseil de l’Europe, janv. 2016), dont les travaux apportent un éclairage précieux sur l’articulation entre règles juridiques et objets numériques, en particulier en relation à la notion de « gouvernementalité algorithmique ». ↩
- Ces « catégories » (encore dénommées « classes » ou « labels ») assignent une interprétation aux données fournies à l’algorithme. Dans le cadre d’un apprentissage « supervisé », ces catégories et leurs valeurs sont préalablement définies par des humains et attribuées à des exemples utilisés pour entrainer le modèle. L’algorithme construit alors un modèle en apprenant à assigner les bonnes catégories aux données d’entrées tout en maintenant une capacité de généralisation maximale. D’autres approches, dites « non supervisées » laissent la machine découvrir d’elle-même ces catégories à partir du contenu des données d’entrainement. ↩
- Sans nier pour autant la nécessaire intervention de l’homme dans la chaîne d’apprentissage : selon les cas, il choisit l’origine des données d’entrainement, propose les exemples et les labels associés et définit la « fonction d’utilité », l’objectif à satisfaire, mais il n’en est pas moins absent de la formulation du modèle appris par l’algorithme. ↩
- Dont les services cognitifs d’IBM Watson, disponibles sur des interfaces programmatiques, la bibliothèque logicielle d’apprentissage automatique TensorFlow de Google, la mise en open source par Facebook du design de son serveur Big Sur pour l’utilisation de réseaux neuronaux profond sur des GPU, les bibliothèques d’apprentissage profond du système de recommandation DSSTNE d’Amazon ou PaddlePaddle de Baidu, etc. ↩
- Loi n° 78-17 du 6 janvier 1978 relative à l’informatique, aux fichiers et aux libertés. ↩
- L’article 4 §2 du Règlement dispose dans le même sens que constitue un « traitement » : « toute opération ou tout ensemble d’opérations effectuées ou non à l’aide de procédés automatisés et appliquées à des données ou des ensembles de données à caractère personnel ». ↩
- Les travaux de Yves-Alexandre de Montjoye ont montré dans ce sens la facilité avec laquelle il était possible, sur la base de données anonymisées, de ré-identifier 90% des individus à partir de seulement 4 points spatio-temporels : Y.A. De Montjoye, L. Radaelli et V. Kumar Singh, Unique in the shopping mall: On the reidentifiability of credit card metadata. Science vol. 347 n° 6221, 2015, p. 536-539 ↩
- Pour une description des informations extraites des métadonnées sur les réseaux sociaux: M. Smith, et al. Big data privacy issues in public social media. 6th IEEE International Conference on Digital Ecosystems and Technologies (DEST), 2012, p. 1-6. ↩
- La construction de profils d’individus est définie à l’article 4 §4 du Règlement comme « toute forme de traitement automatisé de données à caractère personnel consistant à utiliser ces données à caractère personnel pour évaluer certains aspects personnels relatifs à une personne physique, notamment pour analyser ou prédire des éléments concernant le rendement au travail, la situation économique, la santé, les préférences personnelles, les intérêts, la fiabilité, le comportement, la localisation ou les déplacements de cette personne physique ». ↩
- M. Kosinski, D. Stillwell et T. Graepel. Private traits and attributes are predictable from digital records of human behavior. Proceedings of the National Academy of Sciences, vol. 110, n° 15, 2013, p. 5802-5805. W. Youyou, M. Kosinski et D. Stillwell. Computer-based personality judgments are more accurate than those made by humans. Proceedings of the National Academy of Sciences, vol. 112, n° 4, 2015, p. 1036-1040. ↩
- M. Kandias et al., Which side are you on? A new Panopticon vs. privacy. Security and Cryptography (SECRYPT), 2013 International Conference on. IEEE, 2013, p. 1-13. ↩
- M. Pennacchiotti, Marco et A.-M. Popescu, A Machine Learning Approach to Twitter User Classification. ICWSM vol. 11 n° 1, 2011, p. 281-288. ↩
- A. Mislove, et al., You are who you know: inferring user profiles in online social networks. Proceedings of the third ACM international conference on Web search and data mining, 2010, p. 251-260. ↩
- H.K. Patil et R. Seshadri. Big data security and privacy issues in healthcare. 2014 IEEE international congress on big data. IEEE, 2014, p. 762-765. ↩
- T. Libert, Privacy implications of health information seeking on the web. Communications of the ACM, vol. 58, n° 3, 2015, p. 68-77. T. Glenn et S. Monteith. Privacy in the digital world: medical and health data outside of HIPAA protections. Current psychiatry reports, vol. 16, n° 11, 2014, p. 1-11. ↩
- J. Mayer, Jonathan et P. Mutchler, MetaPhone: the sensitivity of telephone metadata. Web Policy, 2014. ↩
- K. Hill, How Target Figured Out A Teen Girl Was Pregnant Before Her Father Did. Forbes, Inc., 16 fév. 2012. Charles Duhigg (Psst, You in Aisle 5, New-York Times, 19 fév. 2012) décrit le procédé suivit par Target pour développer un modèle des futures grossesses. Une base de données d’entrainement a d’abord été constituée à partir de clientes enregistrées en ligne pour organiser la « fête prénatale » (« baby shower ») de leur futur enfant. Leurs achats ont ensuite été analysés pour former un modèle prédictif et établir un « score de grossesse », utilisé ultérieurement pour classer les clientes du magasin. Une stratégie de sélection particulièrement attrayante pour l’enseigne de grande distribution puisque, selon Duhigg : « [w]hen consumers change their routines they are susceptible to forming new shopping habits. […] As a Target statistician explained, if Target could identify pregnant consumers in their second trimester, “there’s a good chance we could capture them for years.” ». ↩
- Robinson Civil rights, big data and our algorithmic future, Soc. Just. & tech. 2014 [https://bigdata.fairness.io/predictive-policing] ↩
- V. aussi dans ce sens : N.P. Terry, Protecting patient privacy in the age of big data. UMKC Law Rev. Vol. 81, 2012, p. 385-417. ↩
- Facebook, par exemple, génère ainsi plus de 1300 catégories dans lesquelles sont projetés ses utilisateurs en fonction des attributs de personnalité déduits de leur activité sur le réseau social et sur les données collectées à partir des sites internet qui lui sont affiliés (J. Angwin, T. Parris Jr. et S.Mattu, ProPublica, What Facebook knows about you, 28 sept. 2016 [https://www.propublica.org/article/breaking-the-black-box-what-facebook-knows-about-you]). ↩
- R. Buettner, Predicting user behavior in electronic markets based on personality-mining in large online social networks. Electronic Markets : The International Journal on Networked Business. Springer, 2016, p. 1-19. ↩
- Traitement automatique dont il a été montré qu’il surpassait les performances des professionnels du marketing (P. Sundsøy, et al., Big Data-Driven Marketing: How machine learning outperforms marketers’ gut-feeling. In International Conference on Social Computing, Behavioral-Cultural Modeling, and Prediction, Springer International Publishing, 2014, p. 367-374), la publicité ciblée par ces méthodes étant environ trois fois plus effective que les approches classiques, à une fraction du coût (A. Farahat et M. Bailey, How Effective is Targeted Advertising ?. Soc. Sc. Res. Net., 31 dec. 2012 [http://ssrn.com/abstract=2242311]). ↩
- C. Lin, et al. Personalized news recommendation via implicit social experts. Information Sciences, vol. 254, 2014, p. 1-18. L. Castañeda L, N.M. Villegas et H.A. Müller, Exploiting social context in personalized web-tasking applications. In Proceedings of 24th annual int. conf. on Computer Science and Software Engineering, 3 nov. 2014, p. 134-147. ↩
- Dans ce registre se place la personnalisation des contenus d’information (C.K. Hsieh et al., Immersive Recommendation: News and Event Recommendations Using Personal Digital Traces. Proceedings of the 25th International Conference on the World Wide Web, 11 avr. 2016, p. 51-62). International World Wide Web Conferences Steering Committee.), mais aussi l’adaptation des prix en fonction du pouvoir d’achat présumé des individus. L’enseigne Office Depot a ainsi reconnu varier les prix sur son site internet en fonction de la géolocalisation et de l’historique de navigation des individus ? De même, la banque Capital One Financial a admis proposer des cartes de crédits différentes selon le profil estimé des visiteurs sur leur site (sur ce sujet, v. J. Valentino-Devries et al., Websites Vary Prices, Deals Based on Users’ Information, Wall Street Journal, 24 déc. 2012). Pour une analyse de l’adaptation des prix par traçage des adresses IP, notamment par les compagnies aériennes, v. Le Monde 24 juin 2013, SOS Conso : Pourquoi les prix des trains et des avions varient d’une minute à l’autre (suite), [http://sosconso.blog.lemonde.fr/2013/01/24/pourquoi-les-prix-des-trains-et-des-avions-varient-dune-minute-a-lautre-suite/]. ↩
- M.C. Kaptein, 2011. Adaptive Persuasive Messages in an E-commerce Setting: the use of Persuasion Profiles. Proceedings of ECIS 2011, Helsinki, 9 juin 2011. ↩
- D. Lupton, Health promotion in the digital era: A critical commentary. Health Promotion International, vol. 30, n° 1, 2015, p. 174-183. ↩
- T. Dillahunt, et al., Motivating environmentally sustainable behavior changes with a virtual polar bear. Proceedings Pervasive Workshop, 2008, pp. 58-62. ↩
- C.A. Summers, R.W. Smith et R. Walker Reczek. An Audience of One: Behaviorally Targeted Ads as Implied Social Labels. Journal of Consumer Research, 2016, p. ucw012. Dans le même sens : M. Kaptein, et al. Personalizing persuasive technologies: Explicit and implicit personalization using persuasion profiles. International Journal of Human-Computer Studies, vol. 77, 2015, p. 38-51. ↩
- L’expression est notamment utilisée par Ryan Calo : Digital Market Manipulation. George Washington Law Review, vol. 82, 2014, p. 995-1051. ↩
- A. Rouvroy et T. Berns. Le nouveau pouvoir statistique. Multitudes, vol. 1, 2010, p. 88-103. ↩
- P.S. Bayerl et B. Akhgar. Online Surveillance Awareness as Impact on Data Validity for Open-Source Intelligence? International Conference on Global Security, Safety, and Sustainability. Springer, 2015, p. 15-21. L’effet des révélations d’Edward Snowden en juin 2013 sur la formulation des requêtes dans les moteurs de recherche est analysé dans : A. Marthews, Alex et C. Tucker. Government surveillance and internet search behavior. Soc. Sc. Res. Net., 29 avr. 2015, [http://papers.ssrn.com/sol3/papers.cfm?abstract_id=2412564]. Pour une mesure du changement du partage de données privées dans les réseaux sociaux, v. A. Acquisti, L. Brandimarte et G. Loewenstein, Privacy and human behavior in the age of information, Science, vol. 347, n° 6221, 2015, p. 509-514. ↩
- « [T]he classification “rules” […] that predict the minority class tend to have a much higher error rate than those that predict the majority class. The second observation is that test examples belonging to the minority class are misclassified more often than test examples belonging to the majority class. » (G.M. Weiss et F. Provost. The effect of class distribution on classifier learning: an empirical study. Technical Report ML-TR-44, Dept. of Computer Science, Rutgers University, 2 aout 2001, p. 1-26. V. en particulier section 2.2). ↩
- A. Datta, M.C. Tschantz et A. Datta. Automated experiments on ad privacy settings – A Tale of Opacity, Choice, and Discrimination. Proceedings on Privacy Enhancing Technologies, 2015, vol. 1, p. 92-112. Il faut souligner ici que la responsabilité de la sélection de la publicité n’incombe pas nécessairement à Google seul : divers acteurs interviennent en effet entre l’accès au moteur de recherche par un individu donné et la présentation finale du message publicitaire. Un écosystème complexe de distribution de publicités en ligne qui rajoute à l’opacité du processus algorithmique de décision. ↩
- v. M. Kosinski, 2013, supra, not. n° 20. ↩
- Latanya Sweeney, professeur à Harvard, a ainsi montré que « black identifying names are up to 25 per cent more likely to be served with an arrest-related ad. » (L. Sweeney. Discrimination in online ad delivery. Comm. of the ACM, vol. 56, n°5, 2013, p. 44-54. ↩
- K. Crawford et J. Schultz. Big data and due process: Toward a framework to redress predictive privacy harms. Boston College Law Rev., vol. 55, 2014, p. 93-128. V. aussi : M. Fertik, The rich see a different internet than the poor. Scientific American. 1ier janv. 2013 Jan 1, vol. 308, n° 2 [http://www.scientificamerican.com/article/rich-see-differentinternet-than-the-poor/]. ↩
- N.B. Weidmann, et al. Digital discrimination: Political bias in Internet service provision across ethnic groups. Science, vol. 353, n° 6304, 2016, p. 1151-1155. ↩
- Facebook est par exemple titulaire d’une famille de brevets (US9100400 « Authorization and authentication based on an individual’s social network », Publié le 4 aout 2015 ; EP2296342, délivré le 20 juin 2012) permettant d’attribuer un tel score à un individu en fonction de son réseau social (c’est à dire en évaluant les scores de ses « amis », des « amis de ses amis », etc.). ↩
- À partir de sa plateforme i2 Enterprise Insight Analysis IBM a développé un outil de décision automatique qui pourrait, selon le groupe, « help governments separate real refugees from imposters, untangle terrorist cells, or even predict bomb attacks » (P. Tucker, Refugee or Terrorist? DefenseOne, 2016 [http://www.defenseone.com/technology/2016/01/]). Bien sûr, IBM le souligne, il ne s’agit là que d’un « score », une aide à la décision (v. IBM i2 Enterprise Insight Analysis for Defense Intelligence, IBM Analytics – Solution brief, 2015, p. 1-7 [http://www.ibm.com/analytics/us/en/industry/government/defense-intelligence/]). ↩
- R. Berk, Balancing the Costs of Forecasting Errors in Parole Decisions, Albany Law Review, vol. 74, 2010, p. 1071-1085. R. Berk, et al. Forecasting murder within a population of probationers and parolees: a high stakes application of statistical learning. Journal of the Royal Statistical Society: Series A, vol. 172, n° 1, 2009, p. 191-211. ↩
- T. Calders, Toon et I. Žliobaitė. Why unbiased computational processes can lead to discriminative decision procedures. Discrimination and Privacy in the Information Society. Springer, 2013, p. 43-57. ↩
- S. Barocas et A.D. Selbst. Big data’s disparate impact. California Law Review, 2016, vol. 104, p. 671-731. ↩
- Pour une synthèse des changements introduits par le nouveau règlement, v. C. Castets-Renard, Brève analyse du règlement général relatif à la protection des données personnelles. Dalloz IP/IT, juil. 2016, p. 334. D’autres textes communautaires concernent aussi la protection des données personnelles : notamment, La Convention 108 pour la protection des personnes à l’égard du traitement automatisé des données à caractère personnel, adoptée par le Conseil de l’Europe le 28 janvier 1981, mais aussi la directive « vie privée et communications électroniques » 2002/58/CE du 12 juillet 2002, modifiée par la directive 2006/24/CE du 15 mars 2006 sur la conservation des données. ↩
- L’article 8 §1 de la Charte des droits fondamentaux de l’Union européenne, comme l’article 16 §1 du traité sur le fonctionnement de l’Union européenne, disposent ainsi que « [t]oute personne a droit à la protection des données à caractère personnel la concernant. ». ↩
- Point 25, du Rapport explicatif à la Convention 108 pour la protection des personnes à l’égard du traitement automatisé des données à caractère personnel, Strasbourg, 28 janv. 1981. ↩
- Le principe du « Code Is Law », proposé par Lawrence Lessig (Code and other laws of cyberspace, Basic books, New-York, 1999), soutient que la régulation des comportements est davantage déterminée par les règles informatique par lesquelles ils s’expriment que par les normes juridiques en vigueur. ↩
- Alors même qu’un fondement clair au concept de « privacy by design » fait défaut : des scientifiques et informaticiens européens on d’ailleurs noté le recours fréquent à des définitions récursives : « privacy by design means applying privacy by design » qui ne permettent pas de déterminer « what exactly this privacy matter is nor how it can be translated into design.» (S. Gürses Gürses, C. Troncoso et C. Diaz. Engineering privacy by design. Computers, Privacy & Data Protection, vol. 14, n°3, 2011). Pour des exemples d”applications de ce principe : R.J. Bayardo et R. Agrawal, Data privacy through optimal k-anonymization. 21st International Conference on Data Engineering (ICDE’05), 2005, p. 217-228. M. Mun, et al. Personal data vaults: a locus of control for personal data streams. Proceedings of the 6th International Conference. ACM, 2010. ↩
- I. S. Rubinstein et N. Good, Privacy by Design: A Counterfactual Analysis of Google and Facebook Privacy Incidents. Berkeley Tech. Law Journal, vol. 28, n° 2, 2013, p. 1333-1413. ↩
- Les techniques d’anonymisation ou de « dé-identification » des données consistent à empêcher (autant que possible) leur lien avec un individu donné. Les normes ISO/IEC AWI 20889 (« Privacy enhancing data de-identification techniques », 29 sept. 2015), ISO/IEC 29100 (« Cadre privé », 5 dec. 2011), ISO/IEC 27018 (« Code de bonnes pratiques pour la protection des informations personnelles identifiables (PII) dans l’informatique en nuage public agissant comme processeur de PII », 29 juil. 2014) sont disponible sur le site [http://iso.org/]. ↩
- La désanonymisation consiste ainsi à croiser des données anonymes avec d’autres informations associées à une personne pour en réidentifier la source. L’application aux données de localisation des achats a été démontrée par Y.-A. de Montjoye (v. supra, not. n° 17). Pour une application à des données constituées de préférences et recommandations : A. Narayanan et V. Shmatikov, How To Break Anonymity of the Netflix Prize Dataset, 18 oct. 2006, p. 1-24 [https://arxiv.org/abs/cs/0610105]. Plus généralement : P. Ohm, Broken promises of privacy: Responding to the surprising failure of anonymization. UCLA law review, vol. 57, 2010, p. 1701-1777. Le floutage des visages (ou des noms dans les documents), autre approche commune d’anonymisation des individus dans l’univers des images a aussi montré ses limites face aux attaques par des algorithmes d’apprentissage : les images pixélisées, floutées ou soumises à un algorithme standard de cryptage JPEG ne résistent pas à une tentative d’identification : les visages de 83% des individus sont ainsi révélés après traitement (S.J. Oh, et al., Faceless Person Recognition: Privacy Implications in Social Media. European Conference on Computer Vision (ECCV), Springer, 8 oct. 2016, p. 19-35). ↩
- I.J. Goodfellow, J. Shlens et C. Szegedy. Explaining and harnessing adversarial examples. 5th International Conference on Learning Representations (ICLR 2015), 7-9 mai 2015, p. 1-11. V. aussi: N. Papernot, et al. The limitations of deep learning in adversarial settings. IEEE European Symposium on Security and Privacy (EuroS&P), 21 mars 2016, p. 372-387. ↩
- F. Tramèr et al. Stealing Machine Learning Models via Prediction APIs, arXiv preprint n° 1609.02943, 2016. ↩
- M. Fredrikson M, S. Jha et T. Ristenpart, Model inversion attacks that exploit confidence information and basic countermeasures. Proceedings of the 22nd ACM SIGSAC Conference on Computer and Communications Security, 12 oct. 2015, p. 1322-1333. ↩
- À titre d’exemple : alors que la qualification de l’adresse IP en tant que « donnée personnelle » ne fait pas consensus (p. ex. : CA Rennes, ch. com., 28 avr. 2015, n° 14/05708 : « L’adresse IP n’est pas l’adresse d’une personne physique mais l’adresse du réseau local de la machine d’un utilisateur » ; contra : TGI Paris, 3e ch., 24 juin 2009, n° 2008/01221), son association à d’autres données peut lui accorder le statut de donnée à caractère personnel. C’est tout du moins là la position des parlementaires européens, par la voix de Viviane Reding : « Dans la mesure où les adresses IP permettent d’identifier précisément les utilisateurs lorsqu’elles sont associées à d’autres informations reçues par les serveurs, elles constituent des données à caractère personnel au sens de la directive 95/46/CE. » (18 avr. 2013, question écrite E-000956/13 [http://www.europarl.europa.eu/sides/getAllAnswers.do?reference=E-2013-000956&language=FR]). ↩
- R.L. Bolton III, The right to be forgotten: Forced amnesia in a technological age. J. Marshall J. Info. Tech. & Privacy Law, vol. 31, 2015, p. 133-285. J. Ausloos, The ‘Right to be Forgotten’–Worth remembering ? Computer Law & Security Review, vol. 28, n° 2, 2012, p. 143-152. ↩
- Selon les articles 13 §2(f) et 14 §2(g) du Règlement UE 2016/679, le responsable du traitement doit informer la personne de « l’existence d’une prise de décision automatisée, y compris un profilage, [et] des informations utiles concernant la logique sous-jacente, ainsi que l’importance et les conséquences prévues de ce traitement pour la personne concernée. » L’article 12 §1 précise en outre que cette information doit être communiquée « d’une façon concise, transparente, compréhensible et aisément accessible, en des termes clairs et simples ». Ce même principe est inscrit à l’article 4 la loi pour une République numérique, qui introduit l’article L.311-3-1 au livre III du Code des relations entre le public et l’administration. Cet article dispose en effet qu’« une décision individuelle prise sur le fondement d’un traitement algorithmique comporte une mention explicite en informant l’intéressé. Les règles définissant ce traitement ainsi que les principales caractéristiques de sa mise en œuvre sont communiquées par l’administration à l’intéressé s’il en fait la demande. ». ↩
- Pour un commentaire général sur l’interprétation des résultats des algorithmes d’apprentissage, v. J. Burrell, How the machine ‘thinks’: understanding opacity in machine learning algorithms. Big Data and Society, Janv.-Juin 2016, p. 1-12. Une discussion, plus approfondie, sur les limites d’interpretabilité des modèles statistiques est proposée dans G. Shmueli, To explain or to predict ? Statistical science, vol. 25, n° 3, 2010, p. 289-310, et dans Z.C. Lipton, The Mythos of Model Interpretability. IEEE Spectrum, 2016, p. 96-100. ↩
- À quelques exceptions près, cependant. Par exemple, les « arbres de décisions » permettent de suivre pas à pas, dans une structure hiérarchique, les variables identifiées comme étant les plus à même de catégoriser les données d’entrainement. Des méthodes de guidage de l’entraintement (S. Tan, K.C. Sim et M. Gales, Improving the interpretability of deep neural networks with stimulated learning. IEEE Workshop on Automatic Speech Recognition and Understanding (ASRU) 13 dec. 2015, p. 617-623), d’analyse a posteriori (M.T. Ribeiro, S. Singh et C. Guestrin, Why Should I Trust You?: Explaining the Predictions of Any Classifier. KDD 2016, San Francisco, arXiv preprint arXiv:1602.04938, 16 fev. 2016) ou de « visualisation » des modèles sont aussi parfois utilisées (par exemple dans le cas de l’apprentissage profond : J. Yosinsky et al., Understanding Neural Networks Through Deep Visualization, Deep Learning Workshop, 31st International Conference on Machine Learning (ICML), Lille, France, 2015, p. 1-12). ↩
- Étude annuelle 2014 du Conseil d’État – Le numérique et les droits fondamentaux, sept. 2014, p. 18 [http://www.ladocumentationfrancaise.fr/rapports-publics/144000541/]. ↩
- V. Y.A. De Montjoye, 2015, supra, not. n° 17, pour la ré-identification d’individus à partir de listes d’achats. L’identification à partir de métadonnées de localisation a aussi été démontrée récemment (L. Rossi, J. Walker et M. Musolesi. Spatio-temporal techniques for user identification by means of GPS mobility data. EPJ Data Science, vol. 4, n° 11, 2015, p.1-16), nos mouvements seraient ainsi prévisibles « à 93% », indiquant que « despite our deep-rooted desire for change and spontaneity, our daily mobility is, in fact, characterized by a deep-rooted regularity » (C. Song, et al. Limits of predictability in human mobility. Science, vol. 327, n° 5968, 2010, p. 1018-1021). Une régularité qui pourrait permettre le développement d’outils de prédiction. ↩
- C. Castets-Renard, supra, not. n° 53. ↩
- Étude annuelle 2014 du Conseil d’État, supra, not. n° 69. ↩
- C’était déjà là la position du groupe G29, organe consultatif de l’Union européenne sur la protection des données personnelles et de la vie privé, dans son avis du 4/2007 : l’identité d’une personne ne passe pas nécessairement par la connaissance d’éléments d’identité avérés mais peut ressortir d’un faisceau d’autres éléments (« Avis 4/2007 sur le concept de données à caractère personnel », document 01248/07/FR – WP 136, 20 juin 2007). ↩
- La décision de la CNIL n°2011-035, concernant la collecte de données par Google, souligne ainsi dans ses motifs que la collecte conjointe de données de localisation et d’une adresse MAC « permet de déterminer in fine la position géographique des utilisateurs du système Latitude » et, qu’en conséquence, « la finalité de la collecte des adresses MAC combinée aux autres informations collectées conduit […] à considérer que ces données combinées entre elles, constituent des données à caractère personnel. » ↩
- L’adresse MAC (Media Access Control) est numéro unique identifiant une carte réseau. L’identifiant SSID (Service Set Identifier) identifie quant à lui un réseau sans fil Wi-Fi. Enfin, l’adresse IP (Internet Protocol), constitue un numéro d’identification unique attribué à chaque appareil connecté au réseau internet. ↩
- v. décision de la CNIL précitée (supra, not. n° 74) : « les données SSID et MAC, combinées aux données de localisation collectées par les véhicules « Google Cars », sont des données à caractère personnel. ». ↩
- v. CA Rennes, ch. com., 28 avr. 2015, n° 14/05708 (supra not. n° 64). De même : « l’adresse IP ne permet pas d’identifier le ou les personnes qui ont utilisé cet ordinateur puisque seule l’autorité légitime pour poursuivre l’enquête (police ou gendarmerie) peut obtenir du fournisseur l’accès d’identité de l’utilisateur. » (CA Paris, 13e ch., sect. B, 27 avr. 2007). Dans son arrêt du 19 octobre 2016 la Cour de justice de l’UE a tranché en la matière : l’adresse IP devra être considérée comme une donnée à caractère personnel (au sens directive 95/46/CE et donc du Règlement) : « une adresse IP dynamique enregistrée par un fournisseur de services de médias en ligne à l’occasion de la consultation par une personne d’un site Internet que ce fournisseur rend accessible au public constitue, à l’égard dudit fournisseur, une donnée à caractère personnel au sens de cette disposition, lorsqu’il dispose de moyens légaux lui permettant de faire identifier la personne concernée grâce aux informations supplémentaires dont dispose le fournisseur d’accès à Internet de cette personne » (CJUE, Aff. C-582/14, Patrick Breyer c. Bundesrepublik Deutschland,19 oct. 2016). Dans le même sens, v. C. cass., 1re civ., arrêt n°1184, 3 nov. 2016, Cabinet Peterson c. Groupe logisneuf : « les adresses IP, qui permettent d’identifier indirectement une personne physique, sont des données à caractère personnel, de sorte que leur collecte constitue un traitement de données à caractère personnel et doit faire l’objet d’une déclaration préalable auprès de la CNIL. ». ↩
- F. Kamiran, et T. Calders. Data preprocessing techniques for classification without discrimination. Knowledge and Information Systems, vol. 33, n° 1, 2012, p. 1-33. Voir aussi, dans le même sens : M. Feldman,et al. Certifying and removing disparate impact. KDD, 2015, p. 259-268. ↩
- R. Zemel, et al. Learning fair representations. ICML, 2013, p. 325-333. M.B. Zafar, et al. Fairness Constraints: A Mechanism for Fair Classification. 2nd Workshop on Fairness, Accountability, and Transparency in Machine Learning, 2015. ↩
- S. Hajian, et al. Discrimination-and privacy-aware patterns. Data Mining and Knowledge Discovery, vol. 29, n° 6, 2015, p. 1733-1782. ↩
- Dans ce sens: « Understanding why machine learning models behave the way they do empowers both system designers and end-users in many ways: in model selection, feature engineering, in order to trust and act upon the predictions, and in more intuitive user interfaces. » (M.T. Ribeiro, S. Singh et C. Guestrin, Model-Agnostic Interpretability of Machine Learning. arXiv preprint n° 1606.05386, 2016). ↩
- Voir L’opinion 9/2016 du Contrôleur européen de la protection des données intitulée : « EDPS Opinion on Personal Information Management Systems », 20 oct. 2016, disponible sur le site [http://edps.europa.eu/]. M. Vescovi, et al. My data store: toward user awareness and control on personal data. Proceedings of the 2014 ACM International Joint Conference on Pervasive and Ubiquitous Computing, 13 sept. 2014, p. 179-182. ↩
- V. p. ex. la récente mise en demeure de Microsoft par la CNIL à propos de la collecte disproportionnée de données par le système d’exploitation Windows 10, notamment l’extraction de la liste des applications téléchargées et installées sur le système par un utilisateur et du temps passé sur chacune d’elles (CNIL, décision n° 2016-058, 30 juin 2016). ↩
- Approche d’autant plus critiquable lorsque ces applications touchent à la prédiction de traits humains ou autres caractéristiques subjectives. ↩
excellent réflexion , très pertinente et claire montrant bien combien le RGPD est , déjà , inadapté au traitement des données personnelles relevant de l’intelligence artificielle , du big data ; le mot algorithme n’est pas utilisé une seule fois dans ses articles… ; l’article 13-f- est très imprécis et flou , idem pour l’article 22 ; il est en retard d’une guerre …
il faudra donc concevoir une interprétation spécifique du règlement pour son application par les autorités de contrôles nationales , le comité européen , le juge y compris européen, les codes de conduite , la certification
dans l’immédiat il demeure beaucoup trop d’incertitudes et de difficultés d’application et de mise en œuvre du règlement ce qui a pour effet paradoxal d’augmenter le niveau de risque juridique du responsable du traitement de bonne foi