Du nouveau du côté de l'intelligence artificielle et de la multiplication des matrices

… en forme d’hommage à la mémoire de Paolo Santacroce et de Silvio Griguolo

Nature, une des journaux Scientifiques les plus consultés, vient de publier un article intéressantissime: grâce à une technique qui est du domaine de l’ intelligence artificielle (IA), Alhussein Fawzi et 12 autres chercheurs de DeepMind((Une société anglaise, privéee, parente de Google. Ceux-là même qui ont publié le meilleur algorithme connu (AlphaFold) pour construire la structure 3D des protéines à partir de la liste des acides aminés)) ont trouvé une nouvelle méthode pour multiplier deux matrices((Les matrices sont des tableaux de nombres, avec lesquels on peut faire des opérations courantes. Leur manipulation fait l’objet du Calcul matriciel)). Si vous ne connaissez pas la multiplication des matrices, il vous suffira de savoir que c’ est une opération mathématique extrêmement courante qui opère sur des tableaux de nombres. Voyez ce lien pour un exemple de multiplication de petites matrices. Cette découverte, c’est quasiment comme si on disait : on a inventé une nouvelle technique pour l’ addition de deux nombres. Je trouve ça quelque peu dérangeant (vexant?) mais il faut se rendre à l’évidence: notre imagination a des limites que l’ IA n’ a pas.

Pour déterminer l’ impact de ses articles, Nature utilise depuis quelque temps Altmetric (Alternate metric, ou mesure alternative) qui est une mesure de l’impact des publications scientifiques un peu plus “étoffé” que les indices traditionnels (par exemple, le Citation index). Par “étoffé” je veux dire que Altmetric déborde du cadre “étriqué” de la littérature scientifique en “faisant son petit Google”, c.à.d en en allant fouiller dans les coins et les recoins du web. Donc, un article qui a une vie intense en dehors de la littérature scientifique, dans le vrai monde, en quelque sorte, reçoit un score élevé.

Altmetric attribue des scores qui évoluent dans le temps. Le champion du moment où j’écris, c’est l’ article de Alhussein Fawzi et de ses collègues sur la nouvelle méthode de multiplication des matrices((On peut le trouver ici. La référence complète est Fawzi, A., Balog, M., Huang, A. et al. Discovering faster matrix multiplication algorithms with reinforcement learning. Nature 610, 47–53 (2022). https://doi.org/10.1038/s41586-022-05172-4)) découvert en utilisant une méthode d’intelligence artificielle, avec un score de 3518 (il est suivi assez loin derrière par trois articles du domaine de la biologie s.l., comme toujours, à 2112, 1682 et 1469). La technique en question s’ appelle Apprentissage par renforcement (reinforcement learning) est une des trois techniques de l’appentissage automatique (machine leaning).

Je ne sais pas s’il est possible d’ estimer le nombre de multiplications de matrices que tous les ordinateurs du monde font tous les jours, mais ça doit être énorme. En fonction de la taille des matrices et du matériel utilisé, l’ accélération par rapport aux meilleurs algorithmes du moment est de 4 à 24%. Ça pourrait être mesurable au niveau du Net pour certaines applications qui demandent énormément de calculs, comme les prévisions météo. Il n’ y a pas si longtemps que le temps de calcul était un facteur limitant pour les prévisions: si le temps de calcul pour une prévision à 24 heures est de 20 heures, ça limite évidemment la qualité et la fréquence des mises à jour. Indépendamment de la qualité des modèles, il était utopique d’imaginer une prévision à 7 jours((Pour les curieux: allez voir une description du Centre de calcul de ECMWF, le centre européen de prévision qui tient pour le moment le haut du pavé en matière de prévisions météo au niveau mondial.))!

Extrait de la Figure 5 de Fawzi et al., 2022. Elle montre l’ accélération obtenue dans certaines conditions en fonction de la taille de la matrice((Librement disponible: https://www.nature.com/articles/s41586-022-05172-4/figures/5)).

J’ avais deux amis qui étaient professeurs à la Faculté d’ architecture l’université IUAV de Venise((J’ y donnais de temps à autre un cours sur l’impact des désastres naturels sur l’ agriculture et la sécurité alimentaire)) vers le milieu des années 1990. Ils utilisaient énormément de méthodes d’ analyse avancées où le calcul matriciel joue un rôle de base. Paolo Santacroce((Un des deux polymathes que j’ ai rencontrés; son site web existe toujours ici)) qui enseignait des sujets comme l’ histoire des villes et des paysages, était le directeur d’un important projet régional de sécurité alimentaire de la FAO dans la Corne de l’ Afrique; son collègue Silvio Griguolo était un professeur d’ Analyse mathématique et d’ Analyse numérique((Celle-ci s’intéresse à l’application pratique, à la mise en oeuvre de l’ Analyse mathématique)). Dans le cadre de son projet, le premier voulait appliquer des méthodes de classification numérique((Un ensemble de méthodes qui, de façon plus ou moins contrôlée, prennent un paquet de donnéees et y créent un peu d’ ordre: les billes bleues d’un côté, les rouges de l’ autre, ensuite, subdiviser les billes par taille, composition – verre, argile – etc. Si la transparence est un critère, une méthode de classification doit reconnaître que les billes de verre sont transparentes et celles d’argile non, et ne pas créer des catégories inutiles: verre et transparence sont en fait le même critère de classification.)) à des piles d’images satellitaires, par exemple 360 images d’indices de végétation((Un indice de végétation est un nombre qui mesure la quantité de végétation vivante dans un pixel)) (10 ans, 3 images par mois). Les méthodes étaient bien connues, mais la quantité de données conduisait à des matrices énormes((La corne de l’ Afrique (de l’ Ouganda au Soudan et à la Somalie) est un rectangle qui fait approximativement 2700 km du nord au sud et 3300 km d’ ouest en est, soit un peu moins de 9 millions de km². Si les pixels de nos images font 1 km de côté, nous aurons donc environ 9 millions de pixels et 9 millions de profils temporels d’ indices de végétation. En termes matriciels, nos donnéees sont une matrice – un “cube” – de 2700 x 3300 x 360)) que les logiciels standard mettaient des heures à traiter. Notez que ces méthodes sont maintenant considérées le plus souvent comme faisant partie de l’ IA. Nous pratiquions l’IA avant la lettre((Pas vraiment: en fait, on fait remonter le concept d’ IA à un article de Turing de 1950)) et nous ne le savions pas.

Artificial intelligence — Intelligence artificielle. Source: Wikimedia commons. Author: Oksana Latysheva.

Santacroce a embauché Griguolo qui connaissait les meilleurs algorithmes((Un algorithme est une méthode de calcul)) et il en est résulté une nouvelle version d’ un logiciel développé précédemment par Griguolo mais qui était utilisable sur les énormes matrices de Santacroce (ADDATI et puis ADDAWIN((Il se fait que le site web de ces logiciels a survécu. Il en existe une version italienne et une en anglais))). Ces logiciels “vieillots” continuent d’ ailleurs à être utilisés, même si les méthodes sous-jacentes ont été absorbées par des logiciels standard d’ analyse spatiale ou statistique qu’utilisent tous les télédétecteurs, comme ArcInfo et R.

Je ne sais pas ce que Griguolo aurait pensé de cette nouvelle méthode de multiplication des matrices. Il était un spécialiste des méthodes de la classification numériques et pratiquait régulièrement les Réseaux de neurones artificiels ou Réseaux neuronaux (RN), une autre méthode qui est maintenant catégorisée comme technique d’ IA. A partir d’ un grand ensemble de donnéees, les RN permettent d’ estimer les valeurs d’une variable en fonction des autres, mais sans qu’il soit possible de savoir exactement comment ces résultats sont obtenus((Voici un exemple agronomique. On nourrit un programme de RN d’un million de données “agricoles” belges des dix dernières années. Il s’ agit de donnéees dont on pense qu’elles sont liées d’ une manière ou d’une autre aux rendements de la pomme de terre: statistiques historiques des rendements; pluie, humidité, ensoleillement et autres variables de toutes les stations météo disponibles; historique du prix de la pomme de terre; dose et prix des engrais; dates des traîtements cupriques préventifs, etc. Le programme de RN va digérer tout ça dans ses neurones informatiques et puis nous dire que cette année, la pomme de terre donnera 37 tonnes par hectare à Galhausen. La récolte sera précoce et les frites seront bonnes. Mais on ne saura pas si c’est grâce au bon engrais, à l’ insolation généreuse ou à d’ autres facteurs.)). Les RN font partie d’un ensemble de méthodes qu’on appelle Boîtes noires ou Boîtes opaques et que certains voient avec un peu de méfiance.

Pour expliquer les RN, Griguolo écrivait ceci en 2004((S. Griguolo, 2004. Neural Classifiers for Land Cover Recognition: merging radiometric and ancillary information, in L. Diappi (ed.), Evolving Cities: Knowledge Engineering in Planning Processes, Aldershot UK, Ashgate, pp.11-44. The high number of connections among neurones generates an extremely complex circulation of electric signals in the brain: we cannot yet tell exactly how it works. Maybe we could, if the neurones were fewer in number, and not so interconnected… but, as Mather (1999) ironically remarks, if our brain had fewer neurones it would also be too stupid to deal with the problem.)): Le nombre élevé de connexions entre les neurones génère une circulation extrêmement complexe de signaux électriques dans le cerveau : nous ne pouvons pas encore dire exactement comment cela fonctionne. Peut-être le pourrions-nous, si les neurones étaient moins nombreux et moins interconnectés… mais, comme le remarque ironiquement Mather (1999), si notre cerveau avait moins de neurones, il serait également trop stupide pour s’occuper du problème ((Traduit avec www.DeepL.com/Translator (version gratuite))).

Ce qui veut dire, en substance, que même dans l’ intelligence artificelle, c’ est encore d’intelligence humaine qu’il s’agit.

0 0 votes

Article Rating

This site uses Akismet to reduce spam. Learn how your comment data is processed.

2 Comments

Oldest

Newest Most Voted

Inline Feedbacks

View all comments

Wergosum

1 year ago

A more detailed and more technical description of the new algorithm is given in Quanta Magazine.

10 months ago

Ils (DeepMind) ont refait le coup avec un algorithme de tri, autre opération informatique sans doute même plus fréquente que l’ inversion de matrice: Faster sorting algorithms discovered using deep reinforcement learning. C’ est dans Nature

Mankowitz, D.J., Michi, A., Zhernov, A. et al. Faster sorting algorithms discovered using deep reinforcement learning. Nature618, 257–263 (2023). https://doi.org/10.1038/s41586-023-06004-9

et c’ est en accès libre ici et ici.

Wergosum's Random Blog

A real person's blog: some science (climate, disasters, food…), some fun, some generic comments… and some inconsistencies too!

Du nouveau du côté de l’intelligence artificielle et de la multiplication des matrices

… en forme d’hommage à la mémoire de Paolo Santacroce et de Silvio Griguolo