Analyse critique d'une politique globale de, par et pour la donnée

Article rédigé dans le cadre du colloque Les biens communs saisis par le droit tenu à l’Université de Nanterre en avril 2022.

S’il fallait retracer la longue histoire de la rationalisation de l’information[1] des sociétés complexes, on remarquerait que ce processus est indissociable de deux phénomènes socialement structurants. Premièrement, la complexification de groupes humains, que les civilisés appellent souvent « développement », qui va de l’émergence de l’agriculture donnant lieu aux premières cités-États, à l’avènement d’une civilisation industrielle mondialisée, en passant par l’érection d’États modernes sur des bases coloniales, s’accompagne de façon quasiment systématique et continue d’un accroissement de la quantité d’information à la fois détenue et en circulation au sein de ces groupes[2]. Deuxièmement, la capacité des individus d’une société à accéder et à participer à l’information est intrinsèquement liée à sa forme d’organisation politique, en particulier son niveau de domination : plus une société est égalitaire et démocratique, plus l’information y circule librement, et réciproquement.

On comprend dès lors qu’un enjeu du processus de modernisation, aboutissant à l’ère dite de l’information, réside précisément dans les choix des méthodes de conservation, de traitement et de communication de l’information à très grandes échelles. En particulier, avec l’explosion de la quantité d’information depuis l’avènement de la société industrielle et notamment depuis la moitié du siècle dernier, il est désormais difficilement imaginable que celle-ci puisse être gérée de manière démocratique. Le destin funestement oligopolistique d’Internet, désormais devenu le jouet de quelques mégastructures disposant des machines informatiques les plus puissantes, est particulièrement révélateur à ce sujet. Pourtant, certains tiennent à qualifier l’information de bien commun, dans une forme de pensée magique à volonté performative. Si cela est probablement dû à un manque de rigueur dans la définition à la foi de l’information – a priori réduite à ce que produisent les médias d’information, voire par métonymie abusive aux médias eux-mêmes – et de la notion de bien commun, notion floue s’il en est, on peut néanmoins se demander ce que cela supposerait à l’heure des big data et du tout numérique. La gouvernance des données pourrait-elle s’apparenter à la gestion d’un bien commun ? Quelles sont les motivations et les implications des politiques d’ouverture des données ? Quels leviers pour éviter la sur-concentration des données et ses conséquences ?

C’est à cette série d’interrogations que je m’attacherai de donner ici quelques éléments de réponse. N’étant ni un spécialiste de la notion de bien commun, ni un expert du droit, il me semble important de préciser d’abord d’où je parle. Issu d’une formation d’ingénieur généraliste, spécialisé en mathématiques appliquées et statistiques, j’ai travaillé pendant trois ans, de 2017 à 2020, comme consultant data scientist. Embauché par une société de conseil, mon métier était de conseiller était de mettre en œuvre pour des clients – principalement des acteurs de l’énergie et des administrations publiques – des stratégies de valorisation de données, tournant essentiellement autour d’algorithmes et de modèles d’apprentissage statistique. Ayant grandi à Paris et sans autre attache territoriale, sans ouverture artistique ou culturelle particulière mais bon élève avec une appétence pour les mathématiques, j’ai finalement suivi sans grande originalité la voie pour laquelle j’étais pratiquement « programmé » : devenir un consultant ou, autrement dit, un expert du vide. Néanmoins, mission après mission, je finis par comprendre qu’il ne suffisait pas de mettre mes connaissances scientifiques au service du public pour que mon activité quotidienne aille dans le sens que je me faisais d’un « intérêt général », bien au contraire. Suite à ma démission, j’ai rédigé un rapport intitulé D’un peu de lucidité sur les ravages du techno-libéralisme, visant à faire état des causes et des effets de l’automatisation algorithmique et statistique. La présente contribution au colloque Les biens communs saisis par le droit actualise et enrichit une partie des réflexions entamées dans ce rapport. Ayant depuis mis un pied dans la recherche en sciences sociales, je poursuis la démarche réflexive que j’ai entamée il y a déjà plusieurs années et qui s’apparente plus à de la recherche-action qu’à un travail de recherche purement académique.

La donnée n’est généralement pas assimilable à un bien commun

Aujourd’hui, la quasi totalité de l’information est conservée, traitée et communiquée par le biais du numérique et des nouvelles technologies d’information et de communication (NTIC). Pour désigner de l’information brute, à laquelle aucune interprétation n’a été assignée, on parle désormais davantage de données informatiques. Dans le CNRTL, on trouve deux définitions de la donnée qui correspondent à notre objet : « ce qui est connu et admis, et qui sert de base, à un raisonnement, à un examen ou à une recherche » et « ensemble des indications enregistrées en machine pour permettre l’analyse et/ou la recherche automatique des informations ». La première dévoile le sens historique du terme, utilisé au moins depuis le tournant positiviste du XIXème siècle, en particulier en matière de gouvernement : toute administration s’appuie sur des données, faits connus ou admis, pour prendre ses décisions. La seconde définition, plus contemporaine, insiste sur les liens entre la donnée, son support et ses usages : il s’agit, à partir de la moitié du XXème siècle, d’encoder l’information sur des machines permettant progressivement d’automatiser des requêtes et des analyses.

Cependant, le développement exponentiel des NTIC au cours des dernières décennies a rendu le stockage, le transfert et le traitement de données massives tellement anodin que les supports de mémoire et de calcul sont presque devenus de l’ordre de l’imaginaire : après l’ère de la dématérialisation, voici venue celle du cloud computing. La donnée n’est plus proprement localisable, tantôt sur la machine de l’utilisateur, tantôt sur un serveur à l’autre bout du monde. Les calculs peuvent être distribués sur des machines distinctes, séparées par un océan, au fond du quel repose un câble gigantesque dont seules les abysses connaissent encore de la couleur. La donnée n’est pas non plus localisée, puisque l’action de la répliquer, légèrement moins fastidieuse que du temps de Gutenberg, est devenue machinale. Par conséquent, la donnée n’est pas non plus une ressource, contrairement au matériaux composant les infrastructures qu’elle nécessite. De plus, comment dessiner les frontières d’une communauté qui serait responsable de tel ou tel ensemble de données dans l’objectif d’en réserver l’usage au bien commun ? Si certaines données sont bien sûr de la responsabilité de l’État, de la justice ou d’autres instances publiques, il ne faut pas confondre leur caractère public avec la notion de commun, pour laquelle une communauté et ses intérêts doivent pouvoir être identifiés.

L’impossibilité de plus en plus flagrante à rattacher une donnée à une localité ou à une communauté est un symptôme évident de la modernité. A ses débuts en Mésopotamie, la comptabilité permettait probablement une gestion libre et démocratique de l’information : chaque don d’un individu à un autre était matériellement consigné dans une reconnaissance de dette validée par un tiers, facilement identifiable par le groupe. Dans notre modernité, la participation à l’information est relative et l’accessibilité y est particulièrement inégale. De plus, puisque la donnée est détachée de toute communauté, comment définir un socle de valeurs communes permettant de régir son recensement, ses usages, sa conservation ? En conséquence, la donnée n’est-elle pas devenue, dans sa massification, une interprétation du monde ? En effet, si une donnée est ce qui est connu ou admis, ou une indication enregistrée sur une machine, le choix en lui-même des indications à enregistrer n’est pas neutre, en ceci qu’aucun ensemble de données ne peut représenter une réalité complexe de manière exhaustive et non biaisée. Inexistants ou négligeables à petite échelle, ces biais ont tendance non seulement à se multiplier lorsqu’il s’agit d’encoder numériquement une réalité complexe, mais également à s’amplifier à chaque traitement, chaque modélisation entre un premier niveau de données et les données résultant de cette opération.

La recherche académique est probablement le cas s’approchant le plus d’une communauté identifiable dont la gestion de l’information pourrait s’apparenter à celle d’un commun. La méthode scientifique, l’organisation en disciplines, la revue par les pairs, les systèmes de publication sont a priori de plutôt bonnes garanties d’un objectif commun pour la communauté scientifique : conserver, traiter et communiquer des données afin de faire progresser le savoir humain, ou l’ « esprit humain » selon la formule d’Auguste Comte. Mais cela ne fait pour autant pas de la recherche un monde à part, en vase clos, qui serait défait de tout lien avec les autres activités de la société. Si la sociologie des sciences a montré une chose depuis le programme fort de David Bloor en 1976 d’une part et les études micro-sociologiques menées par l’école de Bath d’autre part, c’est bien que la recherche scientifique est socialement et culturellement construite : la production de connaissances ainsi que leur acceptation ou leur rejet sont dépendants de facteurs sociaux et culturels. En particulier, les activités de recherches sont généralement dépendantes de financements et de pouvoirs politiques. Enfin, comment l’usage des données scientifiques, au même titre que toute donnée publique, pourrait-il correspondre à une orientation morale commune, voire universelle ? En gardant à l’esprit la massification exponentielle de ces données comme de toutes les autres, des asymétries structurelles sont inévitables dans leur accès et leur traitement. Les instances publiques ou privées disposant de la plus grande puissance de calcul et de stockage, sans devenir nécessairement propriétaires des données, pourront peser aussi bien dans leur production – par des humains ou par des machines – que dans leur interprétation et leurs usages. Dans cette configuration, est-il raisonnable d’espérer des politiques publiques à même de réguler ou d’encadrer la communication et le traitement de données à grande échelle ?

L’information comme nouveau carburant des systèmes auto-propagateurs

La première chose à constater, en ce qui concerne les politiques publiques en matière de traitement de l’information, est que les États sont intégralement dépendants de structures privées, et notamment de multinationales. Les entreprises de la Silicon Valley, imprégnées de l’idéal cybernétique développé au milieu du XXème siècle, ont été les premières à se ruer sur ce qu’elles considèrent comme un nouvel or noir. Bien entendu, l’essor fulgurant des entreprises d’informatiques, à l’instar d’IBM, n’aurait pu se faire sans le soutien sans faille des États-Unis d’Amérique, pour lequel elles mettent en place, dans les années 1930, des dispositifs à cartes perforées de plus en plus performants à destination du recensement et de la production de statistiques sur les populations, dispositifs notamment réutilisés et perfectionnés pendant la Seconde Guerre Mondiale par l’Allemagne nazie. Dès les débuts de la cybernétique (κυβερνητική est l’idée de gouvernail en grec), popularisée par le mathématicien américain Nobert Wiener à la fin de années 1940, gouvernement et multinationales travaillent ensemble dans l’idée d’élaborer des politiques de plus en plus aiguillées par la donnée et les statistiques, en apparence du reste.

Cette idée d’aide à la décision en vue de maintenir un ordre social, basée sur une concentration de toujours plus d’information et qui s’est progressivement muée en automatisation d’un certain nombre de tâches s’est largement diffusée à travers les États du monde entier, avec ce qui fut ensuite appelé « révolution informatique ». Ce qui a surtout évolué dans la seconde moitié du siècle dernier, c’est le poids des États, en net déclin par rapport à celui des multinationales de l’informatique, qui sont désormais propriétaires non seulement des infrastructures de calcul et de stockage de l’information, des outils logiciels massivement utilisées pour traiter et communiquer l’information mais aussi des plus grands registres de données et ont même privatisé une partie conséquente de la recherche scientifique. Si les intérêts des États et des multinationales étaient un temps simplement convergents, la dépendance toujours croissante des premiers à ces dernières a des conséquences clairement identifiables dans les politiques publiques de gestion de l’information.

Visant à annihiler tout projet alternatif à une croissance économique basée sur l’innovation technologique, le modèle techno-capitaliste s’est lentement mais sûrement diffusé au cœur de l’administration publique, et ceci à tel point que certains agents de la fonction publique – au départ les responsables de service, mais plus seulement – sont devenus les meilleurs avocats des logiques d’efficacité, de rentabilité, de rationalisation, à grand renfort de novlangue néo-managériale. Entre 2017 et 2020, j’ai pu constater la profondeur avec laquelle un État comme la France peut être convertie aux thèses et aux méthodes du privé. La croyance en la possibilité de gouverner des dizaines de millions de vies de façon purement rationnelle, c’est-à-dire à représenter la réalité par de grands registres de données et automatiser les prises de décision en résolvant un grand nombre d’équations s’est répandue comme une traînée de poudre. C’est depuis quelques décennies l’idéologie de ceux qui prétendent ne pas en avoir, et s’accaparent le camp de la rationalité. Combien de fois aura-t-on entendu dans des débats télévisés – de piètre qualité – la phrase « On peut tout contester, sauf les chiffres ! » ? Et chacun de venir avec ses propres chiffres, sa propre interprétation du réel.

En tant qu’agent du techno-capitalisme, l’État start-up fait globalement un triple usage des données qui sont à sa disposition. L’application la plus courante, correspondant à l’idée qu’il faut dégraisser l’administration des agents dont les tâches présentent une « faible valeur ajoutée », selon le langage marchand qui s’y applique désormais, consiste à automatiser les décisions prises par ceux-ci, par exemple sur la base d’un historique de données. On peut parler de projets d’hyper-rationalisation. Le deuxième usage des technologies de l’information est ni plus ni moins l’usage historique, à savoir le maintien de l’ordre social. Néanmoins la puissance des outils contemporains ouvre la porte à un niveau et une ampleur de méthodes coercitives vertigineuses, notamment en matière de détection automatique de comportement suspect ou frauduleux dans les espaces physiques ou virtuels (le ministère de l’intérieur parle régulièrement de « continuum sécuritaire »). Le troisième type d’applications consiste à faire à la fois une démonstration de puissance et la promotion du bien-fondé de l’innovation technologique, et en particulier des méthodes de rationalisation de l’information. Algorithmes d’aide au diagnostic, détection de pollution en tout genre, prévention et lutte contre le réchauffement climatique, etc. La réappropriation positive de la technique par l’État ou des citoyens (« data for good ») est porteuse d’un double message, en contradiction avec plus d’un siècle de philosophie des techniques : ce serait pratiquement criminel de se passer de technologies si prometteuses, car la technologie est neutre, tout dépend de ce que l’on en fait.

En réalité, ces trois types d’applications s’entremêlent bien souvent dans les projets sélectionnés par la Direction Interministérielle de la Transformation Publique. Typiquement, la Direction Générale de l’Alimentation utilise depuis 2019 d’un algorithme de ciblage des contrôles d’hygiène auprès des établissements de restauration, basé sur l’historique des contrôles et des commentaires sur les plateformes en ligne. Sous couvert d’étendre les plages horaires de son centre d’appel, Le Centre Nationale du Chèque Emploi Associatif dispose d’un robot censé répondre aux questions les plus récurrentes des appelants. Dans le cadre du plan « Foncier innovant », la Direction Générale des Finances Publiques a mandaté l’entreprise Capgemini pour mettre au point un outil de détection aérienne des piscines de particuliers non déclarées, cette dernière ayant finalement sous-traité la modélisation à Google. Ce ne sont que quelques exemples caractéristiques de ce que l’État propose comme politique publique de la donnée, par la donnée et pour la donnée.

Le fait qu’un certain nombre de jeu de données soient mis en accès libre (open data) ne change en fin de compte pas grand chose à la trajectoire idéologique dépeinte ci-dessus, pour plusieurs raisons. D’abord, l’open data concerne aujourd’hui de très faibles volumes de données, présentant relativement peu d’intérêt. En effet, ses promoteurs y voient essentiellement la possibilité d’une création d’activité économique, pour les start-up typiquement, continuant d’alimenter le discours de la neutralité de la technique et de la main invisible du marché. Mais il est peu concevable que l’État mène une ouverture de données dans une optique de transparence, où des données à caractère stratégique pourraient être partagées et faire l’objet d’une production et de traitement collectif de l’information. Quand bien même ce serait le cas, comme pour les données scientifiques, un accès public ne garantit en aucun cas un socle moral commun pour les usages et encore moins un équilibre dans les moyens de traitement.

Mais les conséquences de l’accélération du processus de rationalisation de l’information sont quant à elles bien identifiables. Celui-ci est, on l’a vu, inhérent à la modernisation des sociétés, qui connaît peut-être son apogée à la croisée de deux autres phénomènes majeurs : celui de la sacralisation de l’expertise et des professions hyper-spécialisées et celui de la machinisation de toutes les activités, tous deux trouvant leur origine dans la sortie des société paysannes et le début des sociétés industrielles. En conséquence, la société s’oriente désormais simultanément vers la production massive de machines expertes (apprentissage machine, réseaux de neurones, intelligence artificielle) et vers la formation d’experts des machines, ou du dialogue avec ces dernières. Dans l’hybridation des rôles de l’homme et des machines, qu’on pourrait comprendre comme l’état intermédiaire d’un horizon transhumaniste, se dissout la capacité humaine à vivre sans elles. La rationalisation de l’information produit deux effets a priori contradictoires : l’homogénéisation des goûts, des pratiques et des savoirs d’une part, et d’autre part l’atomisation et la polarisation de la société. La perte de savoirs, de savoir-faire, d’autonomie et la difficulté croissante à s’organiser collectivement ont petit à petit réduit la capacité des humains modernes à la subsistance en dehors du monde artificiel que la société industrielle a érigé. Étant donné que les institutions ne sont vraisemblablement pas la clé au problème, d’autres stratégies sont à envisager pour contourner les conséquences de la concentration de l’information par les systèmes auto-propagateurs.

La « gouvernance des données » est avant tout d’ordre matériel

Il a été mentionné plus haut qu’une des raisons pour lesquelles il paraît évident que les données informatiques ne sont pas assimilables à un bien commun réside dans le fait que les outils et les infrastructures sur lesquelles reposent la conservation, le traitement et la communication informatique relèvent de hautes technologies, par opposition à ce qu’Ivan Illich désignait par des techniques conviviales. Or, l’existence de ces hautes technologies n’est rendue possible que par la société industrielle et sa très caractéristique division internationale du travail. Ainsi, on peut parler de gouvernance des données, d’open data ou encore de logiciel libre sans mentionner une seule fois l’extraction de cobalt ou de cuivre, les méga-usines du continent asiatique, la pose de câbles transocéaniques ou la production massive d’énergie pour alimenter les serveurs de calculs. Mais c’est passer à côté du sujet. Comme le montrent bien Julie Lainae et Nicolas Alep dans leur petit livre Contre l’alternumérisme, aucune initiative libriste, d’informatique écoresponsable ou de démocratie 4.0 ne sauraient s’affranchir de cette organisation socio-technique instaurant des rapports asymétriques de pouvoir en tout et pour tout, et qui est à la racine du problème qui nous préoccupe.

Pour autant, cela ne veut pas dire qu’il est inenvisageable de bricoler des choses à petite échelle, en marge des réseaux voire en reconstituant des réseaux locaux d’information. En effet, une première étape sur la voie de la déconcentration de l’information est la mise à distance de qu’on pourrait appeler des trous noirs de la donnée : multinationales du web, États, start-up… Néanmoins, il est bon de garder à l’esprit que les outils mobilisés, par leur complexité, sont difficile à maintenir dans une communauté à petite échelle (on n’extrait pas du néodyme dans son jardin). Or, si la relocalisation de l’information est nécessaire à la fois pour éviter les effets néfastes susmentionnés et pour accompagner un mouvement nécessaire de réappropriation des savoirs, notamment de savoirs ancrés et vernaculaires, cela peut et doit aussi se faire via une variété de supports. C’est a minima à l’échelle locale, typiquement celle de la commune (et pas de la métropole), qu’il est intéressant d’avoir une politique de production collective et de libre circulation de l’information.

Finalement, ce qui doit être consacré comme bien commun, plus que la donnée ou l’information, qui revêtent tant de visages et à la fois semblent désincarnées, peut-être sont-ce les savoirs, les savoirs qu’on peut localiser et rattacher à une communauté. Le monde est en crise permanente et il semble que ces savoirs nous font chaque jour un peu plus défaut, puisque toute solution moderne semble passer par un nouveau cycle d’innovation, engendrant de nouvelles nuisances. Paradoxalement, l’explosion de la quantité d’information et de savoirs universels aura causé la disparition d’innombrables savoirs communs. En tentant à tout prix de dissocier le rationnel du sensible, la civilisation industrielle a condamné toute sorte de diversité. Un effort créatif est désormais nécessaire pour, partout où cela est possible, réinjecter de la diversité dans nos vies. Pour ne plus dissocier « ce qui est admis, connu » et la poésie du monde.

[1] Ici, l’information peut être comprise comme l’ensemble des connaissances susceptibles d’êtres conservées, traitées ou communiquées. Par rationalisation, j’entends l’ensemble des procédés de mise en convention d’une représentation matérielle ou immatérielle pouvant aboutir à l’abstraction d’un savoir : langage, écriture, informatique, etc.

[2] Il ne s’agit en aucun cas d’aborder la question de l’information dans une perspective évolutionniste mais bien de l’envisager comme une composante structurelle de la civilisation.

S'inscrire à la newsletter

Analyse critique d’une politique globale de, par et pour la donnée

Nos vœux pour 2022

Retour sur un passage TV chez Public Sénat

S'inscrire à la newsletter

Analyse critique d’une politique globale de, par et pour la donnée

Nos vœux pour 2022

Retour sur un passage TV chez Public Sénat

Articles similaires