Wergosum's Random Blog | Du nouveau du côté de l’intelligence artificielle et de la multiplication des matrices

… en forme d’hommage à la mémoire de Paolo Santacroce et de Silvio Griguolo

Nature, une des journaux Scientifiques les plus consultés, vient de publier un article intéressantissime: grâce à une technique qui est du domaine de l’ intelligence artificielle (IA), Alhussein Fawzi et 12 autres chercheurs de DeepMind¹ ont trouvé une nouvelle méthode pour multiplier deux matrices². Si vous ne connaissez pas la multiplication des matrices, il vous suffira de savoir que c’ est une opération mathématique extrêmement courante qui opère sur des tableaux de nombres. Voyez ce lien pour un exemple de multiplication de petites matrices. Cette découverte, c’est quasiment comme si on disait : on a inventé une nouvelle technique pour l’ addition de deux nombres. Je trouve ça quelque peu dérangeant (vexant?) mais il faut se rendre à l’évidence: notre imagination a des limites que l’ IA n’ a pas.

Pour déterminer l’ impact de ses articles, Nature utilise depuis quelque temps Altmetric (Alternate metric, ou mesure alternative) qui est une mesure de l’impact des publications scientifiques un peu plus “étoffé” que les indices traditionnels (par exemple, le Citation index). Par “étoffé” je veux dire que Altmetric déborde du cadre “étriqué” de la littérature scientifique en “faisant son petit Google”, c.à.d en en allant fouiller dans les coins et les recoins du web. Donc, un article qui a une vie intense en dehors de la littérature scientifique, dans le vrai monde, en quelque sorte, reçoit un score élevé.

Altmetric attribue des scores qui évoluent dans le temps. Le champion du moment où j’écris, c’est l’ article de Alhussein Fawzi et de ses collègues sur la nouvelle méthode de multiplication des matrices³ découvert en utilisant une méthode d’intelligence artificielle, avec un score de 3518 (il est suivi assez loin derrière par trois articles du domaine de la biologie s.l., comme toujours, à 2112, 1682 et 1469). La technique en question s’ appelle Apprentissage par renforcement (reinforcement learning) est une des trois techniques de l’appentissage automatique (machine leaning).

Je ne sais pas s’il est possible d’ estimer le nombre de multiplications de matrices que tous les ordinateurs du monde font tous les jours, mais ça doit être énorme. En fonction de la taille des matrices et du matériel utilisé, l’ accélération par rapport aux meilleurs algorithmes du moment est de 4 à 24%. Ça pourrait être mesurable au niveau du Net pour certaines applications qui demandent énormément de calculs, comme les prévisions météo. Il n’ y a pas si longtemps que le temps de calcul était un facteur limitant pour les prévisions: si le temps de calcul pour une prévision à 24 heures est de 20 heures, ça limite évidemment la qualité et la fréquence des mises à jour. Indépendamment de la qualité des modèles, il était utopique d’imaginer une prévision à 7 jours⁴!

Extrait de la Figure 5 de Fawzi et al., 2022. Elle montre l’ accélération obtenue dans certaines conditions en fonction de la taille de la matrice⁵.

J’ avais deux amis qui étaient professeurs à la Faculté d’ architecture l’université IUAV de Venise⁶ vers le milieu des années 1990. Ils utilisaient énormément de méthodes d’ analyse avancées où le calcul matriciel joue un rôle de base. Paolo Santacroce⁷ qui enseignait des sujets comme l’ histoire des villes et des paysages, était le directeur d’un important projet régional de sécurité alimentaire de la FAO dans la Corne de l’ Afrique; son collègue Silvio Griguolo était un professeur d’ Analyse mathématique et d’ Analyse numérique⁸. Dans le cadre de son projet, le premier voulait appliquer des méthodes de classification numérique⁹ à des piles d’images satellitaires, par exemple 360 images d’indices de végétation¹⁰ (10 ans, 3 images par mois). Les méthodes étaient bien connues, mais la quantité de données conduisait à des matrices énormes¹¹ que les logiciels standard mettaient des heures à traiter. Notez que ces méthodes sont maintenant considérées le plus souvent comme faisant partie de l’ IA. Nous pratiquions l’IA avant la lettre¹² et nous ne le savions pas.

Artificial intelligence — Intelligence artificielle. Source: Wikimedia commons. Author: Oksana Latysheva.

Santacroce a embauché Griguolo qui connaissait les meilleurs algorithmes¹³ et il en est résulté une nouvelle version d’ un logiciel développé précédemment par Griguolo mais qui était utilisable sur les énormes matrices de Santacroce (ADDATI et puis ADDAWIN¹⁴). Ces logiciels “vieillots” continuent d’ ailleurs à être utilisés, même si les méthodes sous-jacentes ont été absorbées par des logiciels standard d’ analyse spatiale ou statistique qu’utilisent tous les télédétecteurs, comme ArcInfo et R.

Je ne sais pas ce que Griguolo aurait pensé de cette nouvelle méthode de multiplication des matrices. Il était un spécialiste des méthodes de la classification numériques et pratiquait régulièrement les Réseaux de neurones artificiels ou Réseaux neuronaux (RN), une autre méthode qui est maintenant catégorisée comme technique d’ IA. A partir d’ un grand ensemble de donnéees, les RN permettent d’ estimer les valeurs d’une variable en fonction des autres, mais sans qu’il soit possible de savoir exactement comment ces résultats sont obtenus¹⁵. Les RN font partie d’un ensemble de méthodes qu’on appelle Boîtes noires ou Boîtes opaques et que certains voient avec un peu de méfiance.

Pour expliquer les RN, Griguolo écrivait ceci en 2004¹⁶: Le nombre élevé de connexions entre les neurones génère une circulation extrêmement complexe de signaux électriques dans le cerveau : nous ne pouvons pas encore dire exactement comment cela fonctionne. Peut-être le pourrions-nous, si les neurones étaient moins nombreux et moins interconnectés… mais, comme le remarque ironiquement Mather (1999), si notre cerveau avait moins de neurones, il serait également trop stupide pour s’occuper du problème ¹⁷).

Ce qui veut dire, en substance, que même dans l’ intelligence artificelle, c’ est encore d’intelligence humaine qu’il s’agit.

Une société anglaise, privéee, parente de Google. Ceux-là même qui ont publié le meilleur algorithme connu (AlphaFold) pour construire la structure 3D des protéines à partir de la liste des acides aminés[↩]
Les matrices sont des tableaux de nombres, avec lesquels on peut faire des opérations courantes. Leur manipulation fait l’objet du Calcul matriciel[↩]
On peut le trouver ici. La référence complète est Fawzi, A., Balog, M., Huang, A. et al. Discovering faster matrix multiplication algorithms with reinforcement learning. Nature 610, 47–53 (2022). https://doi.org/10.1038/s41586-022-05172-4[↩]
Pour les curieux: allez voir une description du Centre de calcul de ECMWF, le centre européen de prévision qui tient pour le moment le haut du pavé en matière de prévisions météo au niveau mondial.[↩]
Librement disponible: https://www.nature.com/articles/s41586-022-05172-4/figures/5[↩]
J’ y donnais de temps à autre un cours sur l’impact des désastres naturels sur l’ agriculture et la sécurité alimentaire[↩]
Un des deux polymathes que j’ ai rencontrés; son site web existe toujours ici[↩]
Celle-ci s’intéresse à l’application pratique, à la mise en oeuvre de l’ Analyse mathématique[↩]
Un ensemble de méthodes qui, de façon plus ou moins contrôlée, prennent un paquet de donnéees et y créent un peu d’ ordre: les billes bleues d’un côté, les rouges de l’ autre, ensuite, subdiviser les billes par taille, composition – verre, argile – etc. Si la transparence est un critère, une méthode de classification doit reconnaître que les billes de verre sont transparentes et celles d’argile non, et ne pas créer des catégories inutiles: verre et transparence sont en fait le même critère de classification.[↩]
Un indice de végétation est un nombre qui mesure la quantité de végétation vivante dans un pixel[↩]
La corne de l’ Afrique (de l’ Ouganda au Soudan et à la Somalie) est un rectangle qui fait approximativement 2700 km du nord au sud et 3300 km d’ ouest en est, soit un peu moins de 9 millions de km². Si les pixels de nos images font 1 km de côté, nous aurons donc environ 9 millions de pixels et 9 millions de profils temporels d’ indices de végétation. En termes matriciels, nos donnéees sont une matrice – un “cube” – de 2700 x 3300 x 360[↩]
Pas vraiment: en fait, on fait remonter le concept d’ IA à un article de Turing de 1950[↩]
Un algorithme est une méthode de calcul[↩]
Il se fait que le site web de ces logiciels a survécu. Il en existe une version italienne et une en anglais[↩]
Voici un exemple agronomique. On nourrit un programme de RN d’un million de données “agricoles” belges des dix dernières années. Il s’ agit de donnéees dont on pense qu’elles sont liées d’ une manière ou d’une autre aux rendements de la pomme de terre: statistiques historiques des rendements; pluie, humidité, ensoleillement et autres variables de toutes les stations météo disponibles; historique du prix de la pomme de terre; dose et prix des engrais; dates des traîtements cupriques préventifs, etc. Le programme de RN va digérer tout ça dans ses neurones informatiques et puis nous dire que cette année, la pomme de terre donnera 37 tonnes par hectare à Galhausen. La récolte sera précoce et les frites seront bonnes. Mais on ne saura pas si c’est grâce au bon engrais, à l’ insolation généreuse ou à d’ autres facteurs.[↩]
S. Griguolo, 2004. Neural Classifiers for Land Cover Recognition: merging radiometric and ancillary information, in L. Diappi (ed.), Evolving Cities: Knowledge Engineering in Planning Processes, Aldershot UK, Ashgate, pp.11-44. The high number of connections among neurones generates an extremely complex circulation of electric signals in the brain: we cannot yet tell exactly how it works. Maybe we could, if the neurones were fewer in number, and not so interconnected… but, as Mather (1999) ironically remarks, if our brain had fewer neurones it would also be too stupid to deal with the problem.[↩]
Traduit avec www.DeepL.com/Translator (version gratuite[↩]

0 0 votes

Article Rating

This site uses Akismet to reduce spam. Learn how your comment data is processed.

2 Comments

Oldest

Newest Most Voted

Inline Feedbacks

View all comments

Wergosum

2 years ago

A more detailed and more technical description of the new algorithm is given in Quanta Magazine.

Ils (DeepMind) ont refait le coup avec un algorithme de tri, autre opération informatique sans doute même plus fréquente que l’ inversion de matrice: Faster sorting algorithms discovered using deep reinforcement learning. C’ est dans Nature

Mankowitz, D.J., Michi, A., Zhernov, A. et al. Faster sorting algorithms discovered using deep reinforcement learning. Nature618, 257–263 (2023). https://doi.org/10.1038/s41586-023-06004-9

et c’ est en accès libre ici et ici.