Un laboratoire du Cnrs aurait aussi fiché les opinions politiques de près de 200 000 personnes ! #fichagepolitique ?

11-08-2018 les-crises.fr 29 min #144529

Nous avons  largement démonté l'étude préliminaire, puis  l'étude finale comportant d'énormes failles méthodologiques du EU DisinfoLab sur l'affaire Benalla.

Ce billet reprend une partie de l'étude sur  le fichage politique, axée sur le rôle d'un des laboratoires du CNRS, pour une meilleure visibilité (inutile de le relire si vous avez déjà lu l'étude sur le fichage politique de jeudi). Contacté par nos soins, ni lui ni le CNRS ne nous a répondu...

  1.  Visibrain, ou Big Brother à la maison
  2.  Que prévoient les conditions d'utilisation Twitter ?
  3.  Un laboratoire du CNRS aurait aussi fiché les opinions politiques de près de 200 000 personnes !
  4.  Réglementation et Discussion
  5.  Plainte

I. Visibrain, ou Big Brother à la maison

Eu DisinfoLab a utilisé un outil très puissant (et coûteux) permettant d'analyser Twitter - il s'agit ici du logiciel  Visibrain, qui sert normalement à des analyses marketing pour les grandes entreprises :

L'essentiel est dans le graphique précédent. Si vous voulez en savoir plus sur ce logiciel, vous pouvez  dérouler ici une analyse détaillée : (elle est affichée par défaut)

et permet de réaliser en fait automatiquement les graphiques que présente Nicolas Vanderniest :

En fait, ce logiciel (dont nous allons détailler les caractéristiques, car c'est très important) donne accès... à tous les tweets de Twitter, en temps réel (sources :  1,  2,  3) :

On peut largement filtrer, en particulier par "métiers et centres d'intérêts" ( source) :

On compte explicitement dans les Métiers "journaliste" ou... "militants politiques" ( source) :

Ah, quel est le métier le plus visé... ?

De même pour les centres d'intérêts ( source) :

Comme on n'arrête pas le progrès, on peut même analyser les émojis ( source) :

On peut aussi chercher dans les biographies - en particulier pour trouver les "journalistes, militants et activistes" ( source) :

Oh des journalistes avec plus de 10 000 abonnés...

On pourra alors en faire des panels pour les suivre de très près ( source) :

De même, le logiciel déterminera généralement votre localisation et votre genre (sources :  1 et  2) :

Ce logiciel Big Brother vous facilite la vie en vous permettant d'exporter toutes les données qui vous intéressent sous Excel ( source) :

Vous pouvez aussi exporter tous les followers, en les croisant ( source) :

Et, si vous le souhaitez (et payez), vous pouvez même avoir accès à l'historique Twitter depuis 2006 ( source) !

Car bien sûr le logiciel est payant - comptez quelques milliers d'euros par mois pour récolter quelques centaines de milliers de tweets...

Comme vous le savez peut-être, le 25 mai 2018, le règlement européen général sur la protection des données (RGPD) est entré en application pour augmenter la protection des données des citoyens.

Eh bien c'est à peine le 27 juin dernier que Twitter a décidé de donner accès à ses archives à Visibrain ( source) :

II. Que prévoient les conditions d'utilisation Twitter ?

À ce stade, vous devez commencer à être effrayé de la masse d'informations mise à disposition - et de ce qu'on peut en faire...

Si vous vous demandez ce que prévoit Twitter à ce sujet, voici une sélection des conditions ( source {3}) :

Bonne nouvelle vous conservez vos droits sur tout votre contenu !

Mais bon... :

Twitter et ses clients en font ce qu'ils en veulent et vous ne pouvez vous y opposer !

Car tout est public ( source) :

Et donc ils vous conseillent :

Car en plus de l'utilisation du site Twitter :

ils utilisent d'autres interfaces (API) pour diffuser en masse les contenus, moyennant rémunération. C'est le cas avec Visibrain.

Twitter insiste (source) :

d'autant plus que c'est Twitter qui vend l'accès aux API qu'il a développées pour permettre de telles recherches... ( source) :

Donc Twitter indique qu'il vend vos contenus, par exemple "aux ONG", aux "Nations-Unies", par exemple pour lutter contre le "complotisme anti-vaccins" (dans les pays "à majorité musulmane") ou lutter contre "les épidémies" telles "la grippe".

C'est beau...

Bon, ok, dans l'écrasante majorité des cas, ce sera des entreprises telles Boeing pour savoir ce que les twittos disent d'elles (voire des "chercheurs" voulant connaitre vos opinions politiques) - mais on imagine qu'il ne faut pas se plaindre, puisqu'on vous dit que ça permet à des gens de ne pas mourir... Et Twitter est sympa ( source) :

Il ne vend pas vos messages privés ! (les messages publics étant bien entendu vendus, eux). Car attention, Twitter a des "valeurs fondamentales" ( source) :

Et la "confidentialité" en fait partie. Ils font donc très attention dans leurs "prises de décision" - comme, par exemple, quand ils autorisent Visibrain à accéder à l'historique Twitter depuis 2006... Mais c'était prévu ( source) :

En conclusions, certains d'entre vous se diront peut-être : "Mais où le mal, ce sont des données publiques ?". Eh bien nous illustrons le problème dans la partie suivante...

III. Un laboratoire du CNRS aurait aussi fiché les opinions politiques de près de 200 000 personnes !

Dans le cadre de nos recherches, nous sommes tombés sur  cet article des Décodeurs du Monde du 4 décembre 2017 :

Adrien Sénécat nous indique qu'ils ont pu croiser "une dizaine de bases de données sur la période électorale", lors de l'évènement  Datapol :

Ils ont réalisé une première étude sur "les fausses informations" (définies selon les critères méthodologiques du... Décodex). Puis une seconde qu'ils titrent "Les partisans de Marine Le Pen partagent plus de sources peu fiables que les autres" :

"Un autre enseignement intéressant est apparu en croisant les données du Décodex avec celles du Politoscope. [...] À partir de cette typologie et des données anonymisées du Politoscope, les participants à Datapol ont donc pu regarder dans quelle mesure les différentes communautés politiques partagent plus ou moins de liens vers les différents types de sources d'information identifiées dans le Décodex."

L'infographie du Monde est ainsi construite :

  • chaque candidat figure sur une tranche ;
  • plus un point est éloigné du 0, plus la communauté proche du candidat correspondant a partagé le type de sources en question :

"Il apparaît ainsi que les partisans de Marine Le Pen et François Asselineau sont ceux qui, en moyenne, ont partagé le plus de liens vers des sources considérées comme peu fiables dans le Décodex. Une analyse qui mériterait d'être affinée par un travail approfondi, mais qui a le mérite d'apporter des données pour accréditer un comportement identifié par de nombreux observateurs pendant la campagne."

Avant de continuer sur notre axe, signalons quelques interrogations méthodologiques. D'abord, rappelons que la population des personnes inscrites sur Twitter n'est clairement pas représentative de la population générale (avec 49 % de CSP+ chez les 25-49 ans par exemple -  source).

En fait le graphique a utilisé une présentation "douteuse". On a l'impression en regardant le graphique que les "communautés pro-Le Pen" et "pro-Asselineau" auraient inondé Twitter de liens vers des sites classés "très peu fiables". Or, les Décodeurs indiquent dans l'article que "lorsqu'un point est proche du cercle de rayon 1, cela veut dire que le type de contenus correspondant a été partagé dans les mêmes proportions que la moyenne. Lorsqu'il est proche du trois, cela veut dire qu'il a été trois fois plus partagé." Ils représentent donc un simple écart à la moyenne, d'un phénomène marginal, d'où les forts écarts observés, qui sont en fait peu représentatifs. Ceci apparaît en fait clairement quand on observe la courbe verte peu visible de la diffusion de sites "fiables" : il y a assez peu d'écarts entre les candidats en réalité.

Illustrons. Nous avons reconstitué à la main les données du diagramme des Décodeurs. On peut dès lors reconstituer simplement ce que donnerait un graphique plus honnête représentant la diffusion de liens vers les sites classés par le Décodex :

Ce graphique donne donc une impression fort différente au lecteur de l'activité des personnes sur Twitter...

Mais en réalité, le fond de notre problématique est : mais comment savent-ils qui est partisan de qui ?

Revenons donc au Politoscope de  L'Institut des Systèmes Complexes Paris-Île-De-France (ISC-PIF, du CNRS). L'article insiste bien : "Dans le cadre de ce projet, l'équipe de l'Institut des systèmes complexes Paris Ile-de-France, un laboratoire du CNRS, a analysé sur la durée de la campagne les messages de milliers d'internautes sur Twitter. L'un des intérêts du Politoscope est qu'il identifie la proximité d'un utilisateur de la plate-forme avec tel candidat au fil du temps". Voilà ce qu'on trouve sur le site dédié du  Politoscope qui  explique ceci :

En fait,  dans cette étude méthodologique, ils expliquent qu'ils sont partis de 3 700 comptes Twitter de figures politiques françaises, dont ils recueillent ainsi les tweets, mais surtout toutes les informations lors de retweets de ceux-ci ou de réponses (cf schéma précédent):

Et partant de là - vous le voyez venir -, quand l'échantillon de tweets est suffisamment important, ils peuvent (eux-aussi) inclure un compte dans une "communauté politique" :

Et ils font alors des statistiques :

Et on apprend alors (discrètement) combien de comptes ils ont ainsi classé politiquement durant la présidentielle : 187 619 !

Si on cumule chaque ligne, on arrive à un total 375 000 personnes, car leur méthode est assez frustre (ils n'analysent pas le contenu des tweets par exemple). Ainsi une personne peut-elle est comptée comme pro-Poutou une semaine, puis pro-Arthaud la suivante, puis pro-Mélenchon la suivante, selon ses retweets (car cette sensibilité politique a plusieurs candidats possibles proches). Mais on voit que les auteurs indiquent que les communautés définies comme pro-Le Pen et pro-Fillon sont très stables... (sic.)

Et le plus fort est que leur opération ne s'est pas terminée avec la présidentielle - la base a doublé depuis :

Le Politoscope en est à plus de 126 millions de "tweets politiques", émanant de plus de 6 millions de comptes Twitter ! (dont une seule fraction est analysée politiquement comme on l'a vu)

L'avantage de ce laboratoire du CNRS, cependant, est qu'ils ne diffusent pas la base publiquement - mais évidemment, la simple existence d'un tel fichier pose de très lourds problèmes - sachant que n'importe quel gros utilisateur de Visibrain (ou de l'API de Twitter directement) peut faire de même, et largement perfectionner les attributions politiques s'il le souhaite...

Après, certains diront que ce sont juste des chercheurs animés de bonnes intentions. Ce qui est vrai.

Mais on répondra : "mais quelle est la réelle valeur ajoutée de ces travaux ?". Bien sûr on apprend des choses, mais est-ce vraiment si important ? Cela vaut-il le risque que de tels fichiers soient constitués - et donc peut-être utilisés un jour (ou simplement piratés) ? Êtes-vous à l'aise avec le fait qu'un tel fichier existe ?

Big Brother ?

Espérons en tout cas que ce laboratoire répondra rapidement à nos interrogations, qui restent à prendre au conditionnel...

IV. Réglementation et Discussion

Rappelons que  le Code pénal précise ceci :

Article 226-16
Le fait, y compris par négligence, de procéder ou de faire procéder à des traitements de données à caractère personnel sans qu'aient été respectées les formalités préalables à leur mise en oeuvre prévues par la loi est puni de cinq ans d'emprisonnement et de 300 000 euros d'amende.

Article 226-18
Le fait de collecter des données à caractère personnel par un moyen frauduleux, déloyal ou illicite est puni de cinq ans d'emprisonnement et de 300 000 euros d'amende.

Art. 226-19
Le fait, hors les cas prévus par la loi, de mettre ou de conserver en mémoire informatisée, sans le consentement exprès de l'intéressé, des données à caractère personnel qui, directement ou indirectement, font apparaître les origines raciales ou ethniques, les opinions politiques, philosophiques ou religieuses, ou les appartenances syndicales des personnes, ou qui sont relatives à la santé ou à l'orientation ou à l'identité sexuelle de celles-ci, est puni de cinq ans d'emprisonnement et de 300 000 € d'amende.

Art. 226-22
Le fait, par toute personne qui a recueilli, à l'occasion de leur enregistrement, de leur classement, de leur transmission ou d'une autre forme de traitement, des données à caractère personnel dont la divulgation aurait pour effet de porter atteinte à la considération de l'intéressé ou à l'intimité de sa vie privée, de porter, sans autorisation de l'intéressé, ces données à la connaissance d'un tiers qui n'a pas qualité pour les recevoir est puni de cinq ans d'emprisonnement et de 300 000 € d'amende.

La divulgation prévue à l'alinéa précédent est punie de trois ans d'emprisonnement et de 100 000 € d'amende lorsqu'elle a été commise par imprudence ou négligence.

L'article 8 de  la loi n°78-17 du 6 janvier 1978 (CNIL) apporte toutefois un bémol :

I. - Il est interdit de traiter des données à caractère personnel qui révèlent la prétendue origine raciale ou l'origine ethnique, les opinions politiques, les convictions religieuses ou philosophiques ou l'appartenance syndicale d'une personne physique ou de traiter des données génétiques, des données biométriques aux fins d'identifier une personne physique de manière unique, des données concernant la santé ou des données concernant la vie sexuelle ou l'orientation sexuelle d'une personne physique.

II. - Dans la mesure où la finalité du traitement l'exige pour certaines catégories de données, ne sont pas soumis à l'interdiction prévue au I :

1° Les traitements pour lesquels la personne concernée a donné son consentement exprès, sauf dans le cas où la loi prévoit que l'interdiction visée au I ne peut être levée par le consentement de la personne concernée ;

Les traitements portant sur des données à caractère personnel rendues publiques par la personne concernée ;

Il y a bien sûr deux types de données. Celles publiées par l'utilisateur, et celles déduites par des algorithmes à partir des précédentes.

C'est ainsi que, par exemple, Samuel Laurent a pu dire ceci, interpellé à propos des fichiers DisinfoLab :

Ce n'est évidemment pas faux - pour la partie publique (et peut-on véritablement parler de "chercheurs" pour des personnes non universitaires ?).

Mais, première objection : quand ce jeune étudiant indique son nom et sa couleur politique, pour agir sur Twitter avec ses... 23 abonnés ;

À t-il bien véritablement donné son accord pour que de nombreux analystes créent des fichiers avec son nom et ses opinions politiques ?

Il l'a certes dit publiquement sur Twitter, mais si c'est public, cela reste discret. Et un tweet s'oublie vite dans le fil, et le compte peut s'effacer. Mais ce n'est pas possible si des chercheurs créent des fichiers en permanence, non purgés.

Avec ce raisonnement, on pourrait d'ailleurs ficher plein de personnes : on vous reconnait en train de participer à une manifestation France Insoumise, vous sortez du local Les Républicains, vous avez défendu Macron dans l'affaire Benballa lors d'une discussion au bistro (surtout, ne prenez pas la route !). C'était public - peut-on vous ficher avec vos opinions politiques ?

Et par ailleurs, on peut vraiment se demander si "la finalité du traitement exige" une telle utilisation des données.

Au-delà, il faut bien comprendre que cette notion légale de "données rendues publiques", acceptable en 1976, ne l'est plus aujourd'hui. En effet, par exemple avec Twitter, il y a différentes façons de connaitre vos opinions politiques :

  • vous l'avez dit en dur dans votre biographie ou votre libellé de compte, comme l'étudiant ci-dessus (public) ;
  • vous l'avez dit dans un tweet le soir du 1er tour de la présidentielle (public) ;
  • vous relayez surtout un dirigeant politique (inférence très probable) ;
  • vous parlez en général de vos opinions de nature politique, sans être partisan - "il faut libérer les énergies, on paie trop d'impôts pour trop de fonctionnaires, etc." (inférence probable)
  • vous parlez beaucoup de vous sur Twitter, vous suivez et retwittez beaucoup de personnes. Et c'est là que le Big Data peut inférer vos opinions politiques avec une précision que vous n'imaginez probablement pas. (inférence possible)

Ainsi, désormais, les pouvoirs publics ne doivent pas seulement s'occuper des données non publiques, mais également de la collecte et surtout la diffusion de masses de données publiques, en particulier sur les réseaux sociaux.

Twitter est ainsi gravement fautif - finalement bien plus que DisinfoLab ou le ISC-PIF du CNRS. Après tout, si vous donnez des millions de données à des chercheurs, certains finiront immanquablement par les utiliser ainsi...

Bref c'est bien les conditions d'utilisation de l'API de Twitter qu'il faut viser dans le combat pour la protection des données de la population ( source) :

Quand on pense que la CNIL a été créée en 1978 après une vive émotion dans l'opinion publique suite à un projet gouvernemental visant à identifier chaque citoyen par un numéro et interconnecter, via ce numéro, tous les fichiers de l'administration - on se rend compte de l'énorme baisse de notre vigilance, et des risques pour les Libertés publiques...

IV. Plainte

Nicolas Vanderbiest a déclaré :

et :

Pour vérifier cela, j'ai porté plainte à la CNIL. - comme beaucoup d'entre vous l'ont fait. Nous soutenons en effet que l'identifiant Twitter (pseudo ou pas) est bien évidemment une donnée personnelle.

J'ai également mandaté mon avocat afin de prévenir le Procureur de la République de ces faits particulièrement graves.

Nous allons évidemment saisir également la CNIL belge et la CNIL irlandaise (siège de Twitter), ainsi que les services Protection des données de la Commission européenne.

Si des gens veulent nous aider pour agir à l'international, ou pour prévenir d'autres utilisateurs concernés et afin de grouper les plaintes, ou si vous êtes spécialiste de ce sujet de protection des données et pouvez nous aider, vous pouvez  nous écrire ici.

 les-crises.fr

 Ajouter un commentaire