Don : soutien financier
Flux RSS RSS (flux d'abonnement)

L’invasion des LLM

mercredi 13 novembre 2024

12 novembre 2024

LLM = Large language model = couramment, les IA [1].

D’ici quelques jours, je vais fermer mes comptes Twitter et Facebook. Le 15.11, le site d’Elon Musk, X, ouvre les tweets à quiconque désire entraîner un modèle de langage avec ces milliers de téraoctets de données ; peut-être 100 pétaoctets depuis 2008 ? C’est-à-dire, si l’on veut comparer avec quelque chose pour avoir un ordre d’idées, 1/4000ème du volume des données générées quotidiennement, tout média compris, sur internet, ce qui peut paraître petit en comparaison, mais reste énorme, inimaginable, face à l’ensemble des sites web qui existent, Twitter seul pèse (depuis 2008) 1/4000ème de ce que produisent en un jour ces 2 milliards de sites, c’est une très grosse part. L’humanité n’a jamais autant produit de texte.

Facebook le fait depuis 2013, pour ses propres besoins, qui étaient surtout au départ de la description (difficile) d’image, et depuis 2018 de façon plus directement orientée sur la reconnaissance et la génération de langage humain, et aussi de façon plus efficace suite à la révolution des modèles de langage en 2017 [2].

Me dire seulement maintenant qu’il faut arrêter de participer à la manipulation massive de contenu m’est un peu tardif. Mais nous sommes retenus par des éléments affectifs qui nous lient aux personnes que l’on connaît sur ces réseaux depuis l’époque où l’idée était de publier, et lire les textes, sans aucune intervention machinique. Retenus, liés également par des phénomènes économiques, ces plateformes ont déplacé les lieux d’échange, d’achat de valeur, et aussi de capital symbolique. Il peut sembler que disparaître de Facebook, c’est un peu disparaître tout court.

Si l’on pouvait déjà critiquer et déplorer les plateformes et la capacité de nuisance des algorithmes, il est plus que temps de ne plus participer à ce moissonnage de données qui ne sert qu’à renforcer un environnement délétère, où le contenu trompeur sera généré à grande échelle, avec une puissance de calcul, de fabrication, inédite sans doute dans l’histoire de la planète, alors même que la quantité de contenus inutiles, blessants ou destructeurs est déjà incommensurable.

Cependant, pourquoi s’en préoccuper si nous-mêmes ne générons pas de contenu trompeur, ou ne produisons pas de contenu sensationnel ni particulièrement suivi, si nous ne faisons que lire et regarder ? C’est qu’un compte utilisateur dans cette situation sert de référent et de cible. Nous voyons passer ces informations choquantes, polarisantes, le fait de les ignorer est un indicateur important pour un algorithme, au même titre que de les commenter. Par ailleurs, le simple défilement est surveillé et le temps de balayer l’écran, Facebook sait très bien si l’on a vu l’image, lu le texte, en détail ou pas, etc. L’information passive est une information précieuse. Les silences ou interactions faibles sont des données cruciales pour le big data et le calcul statistique à grande échelle, car elles confirment la diversité des profils et valident des tendances. Précisément : s’il n’y avait que des grands comptes politiques et des trolls harceleurs, avec personne à manipuler ou à chasser, cela ne fonctionnerait pas.

Bref, les IA envahissent le monde et soumettent les humains, et c’est ni plus ni moins que le scénario décrit depuis longtemps par la science-fiction. La seule différence c’est que les robots ne sont pas humanoïdes mais immatériels, séries de règles statistiques. En revanche, ils sont bien le fruit de l’imagination humaine, servent des intérêts humains, de domination, de pouvoir, comme dans les histoires [3]. Et ce qui se profile, après le Brexit, Trump, Bolsonaro, Milei, Orban, Bardella, après Musk à la tête de X, avec ces esprits mégalomaniaques et libertariens pour qui la démocratie parlementaire, représentative, sont autant d’obstacles à la liberté du 1% et au "business", ce qui vient incite à ne plus vouloir participer à une récolte de données permettant d’accroître leur emprise. Comme dans les films, les livres, les attaques de robots sont parfois combattues par les humains, mais dans la réalité la mise en place d’une rébellion n’est pas à l’ordre du jour, car aussi comme dans les histoires il s’agit bien de se rebeller, se révolter contre le capitalisme qui produit ces robots pour augmenter ses profits, son pouvoir, détruire la démocratie qui est toujours pourtant là, capable de le réguler, peut-être un jour de le renverser ? Mais où sont les partis ouvriers, où est la langue ouvrière ?

Pour continuer à me suivre, je suis déjà présent sur deux réseaux non-datatoxiques : Mastodon et BlueSky. Le plus simple d’usage, proche de Twitter, est BlueSky. Mastodon peut paraître plus difficile à cause des « instances », qui fonctionnent en réalité comme nos mails [4].

Image : Yasutaro Mitsui with his steel humanoid robot, Tokyo, Japan, 1932 ; in Nihon robotto soseiki, Haruki Inoue, éd. NTT Shuppan ; Shohan (1920-1938)

Notes

[1Ce qu’on appelle couramment IA de génération de texte (IA conversationnelles) sont des programmes statistiques basés sur des "grands modèles de langage". IA est un terme qui a changé au cours du temps. Aujourd’hui, l’acronyme désigne un programme (que ce soit pour le son, l’image, le texte, ou tout autre application) qui a été entraîné pour devenir autonome dans ses réponses, sans dépendre d’un algorithme logique déterminé par une conception, mais en basant des choix sur son apprentissage, chaque choix étant un tirage de probabilités. Il y a vingt-cinq ans, en école d’ingénieur, je me souviens que le premier cours sur l’IA concernait un programme qui jouait au Morpion contre l’utilisateur, simplement en stockant les quelques milliers de combinaisons pour choisir la plus avantageuse par comparaison des suites possibles du coup. Un tel modèle est aussi efficace au format papier, on peut l’imprimer, d’ailleurs il existe, enfin, il existait en 2014.

[2En 2017, des chercheurs de chez Google inventent les « transformers » et publient GPT-2, qui permet de relever enfin le défi de la compréhension des textes longs et complexes.

[3Tout comme la prophétie de robotique domestique décrite dans les années 20 ou 30 avec des robots humanoïdes ne s’est pas accomplie exactement comme ça, mais plutôt avec des lave-linge, lave-vaisselle, mixeur électrique, thermostat, etc.

[4Un mail @gmail.com peut écrire à un mail @orange.fr ou @proton.me ; pour Mastodon c’est la même chose, qu’on s’inscrive sur mastodon.social ou piaille.fr, on peut suivre des comptes sur ces deux réseaux, et sur d’autres. On les trouve par une syntaxe exactement équivalente au mail prenom@lemail.fr ou machin@email.com, avec simplement un autre arobase devant ; exemple : @jsene@piaille.fr ou @jsene@mastodon.social ; la seule contrainte est qu’une instance peut ne pas interagir avec une autre, cela permet par exemple de bannir un instance hostile qui pourrait se créer, car bien que non datatoxiques, ces plateformes ne sont pas étanches au monde extérieur qui sévit puissance 1000 sur le réseau X.

Partager cet article

Je crée du contenu sur le web depuis 2001. Ici, il n'y a pas de vidéo, mais comme tout créateur de contenu, j'accepte le soutien mensuel, ou ponctuel.

Rien à voir, mais vous pouvez faire trembler la page.