Roberto Busa (1913-2011)

Après de longs débats (essentiellement intérieurs), la rédaction de l’Esprit de l’escalier a arrêté son choix pour « l’homme de l’escalier 2011». L’an dernier, à pareille époque, j’avais expliqué pourquoi il me semblait plus raisonnable, autant que plus conforme à l’idée même de l’esprit d’escalier, de consacrer un défunt. Aujourd’hui, cependant, en plus d’honorer la mémoire d’un grand disparu, nous aurons la satisfaction de réparer une injustice. L’homme de l’escalier 2011 est un géant de l’informatique, quelqu’un dont le travail de pionnier a ouvert une voie nouvelle dans l’histoire des technologies de l’information. Il est mort en 2011, et je vous prie de chasser la pensée qu’il pourrait s’agir de Steve Jobs, qui n’est pas trop notre genre : nous saluerons ici Roberto Busa. Le Père Roberto Busa, s.j. Tout le monde s’accorde à reconnaître en lui le pionnier de ce qu’on appelle désormais les Digital Humanities– en français l’« informatique appliquée aux sciences humaines ». Roberto Busa s’est éteint le 9 août dernier, à l’âge de 97 ans, dans une indifférence quasi générale. Il est notre homme de l’année. Il n’y a plus qu’à le faire connaître.

« Il était né seulement pour faire des comptes, le computer, de l’anglais to compute, calculer, compter. Mais le père Busa insuffla dans ses narines le don de la parole ». La formule, lue dans L’Osservatore Romano après sa mort, est frappée d’un lyrisme réservé à ce type de publication, mais elle fait assez bien saisir ce que représente Roberto Busa. Il fut le premier, ou l’un des tous premiers, à comprendre que les nouveaux outils utilisés pour manier des chiffres, pour faire des statistiques à des fins scientifiques, guerrières ou commerciales pouvaient également servir la culture et les humanités. Il fut incontestablement le premier, en tous cas, à mettre cette idée en pratique. Busa fut l’artisan d’une première et monumentale réalisation : la confection de l’Index thomisticus, c’est-à-dire de la première concordance intégrale réalisée grâce à l’informatique sur l’œuvre complète d’un auteur. L’auteur était saint Thomas d’Aquin, et l’on se fera une idée du caractère gigantesque de l’entreprise en considérant que le corpus thomasien compte environ 10,5 millions de mots. Les œuvres connues d’Aristote en comptent un million, celles de Platon un demi million. Dans l’Index thomisticus, chacun des mots écrits par Thomas est répertorié, avec son contexte et la référence précise. Il est, le cas échéant, relié à son lemme (la forme principale du mot, qui peut être décliné s’il s’agit d’un nom, conjugué s’il s’agit d’un verbe, etc.). L’Index propose évidemment les statistiques de fréquence, qui sont d’une grande utilité pour les lexicographes. Le travail mené par le P. Busa, avec la collaboration d’IBM, commença en 1948. Le premier volume imprimé sortit en 1974, et l’ensemble des 56 volumes achevé en 1980. Il s’agit probablement du plus grand ouvrage publié à ce jour. Et comme Roberto Busa ne cessa jamais d’accompagner, sinon de précéder, les innovations constantes dans le domaine informatique, il veilla également à ce que l’Index fut, dès que possible, édité sous forme de CD-Rom, avant de donner son accord à sa mise en ligne, effective en 2005. Au long d’une vie de travail incessante, il posa les fondements de l’hypertexte, de l’analyse linguistique et de la lexicographie informatisée, et réalisa des avancées décisives dans le domaine de l’« intelligence artificielle » et de la traduction automatique.

Roberto Busa est né en 1913 en Vénétie. Il entra dans la Compagnie de Jésus à l’âge de 20 ans, et son rêve était d’être missionnaire. Un jour son supérieur lui demanda s’il aimerait devenir professeur. « En aucune façon ! », répondit le jeune jésuite. « Fort bien, s’entendit-il répondre. C’est quand même ce que vous allez faire. » Et c’est ainsi que Busa se retrouva, pendant la guerre, à faire une thèse sur « la métaphysique de la présence » chez saint Thomas d’Aquin. Son premier travail fut, comme il se devait, de repérer les occurrences des mots praesens et praesentia dans les œuvres de saint Thomas. Or, devait-il raconter plus tard, il se rendit compte bien vite que ces mots n’avaient, pour son sujet, qu’un intérêt périphérique : ce qui concerne la présence était surtout lié à l’usage… de la préposition in ! Bien entendu, ce mot est extrêmement fréquent, et aucune concordance imprimée ne prend la peine d’en répertorier les occurrences. Busa fit donc le travail lui-même, à la main. 10 000 fiches et quelques années plus tard, en 1946, il put soutenir sa thèse.

Ce travail ancra deux convictions chez le vaillant chercheur. D’une part, l’idée que tout essai d’interprétation doctrinale d’un auteur doit être précédée d’un travail lexicographique visant à cerner les particularités de son « système verbal ». D’autre part, la conviction que les mots grammaticaux (les prépositions par exemple, ou les conjonctions), loin d’être des mots « vides », manifestent « la logique profonde de l’être, qui commande les structures de base de l’esprit humain ». Les concordances traditionnelles, comme celles qui existent depuis le Moyen âge pour la Bible latine, ne répertorient que les mots dits « signifiants » (verbes, noms, adjectifs, adverbes…). Fort de ses nouvelles convictions, Busa comprit que les chercheurs avaient besoin d’un répertoire de tous les mots de saint Thomas, chacun donné avec la phrase dans laquelle il figure. L’idée de l’Index thomisticus était née.

L’immensité de la tâche imposait le recours à une machine. En 1948, Busa esquisse son projet lors du Congrès international de philosophie, qui se tient à Barcelone. Il lance un appel pour connaître toutes les informations susceptibles d’aider à la réalisation du travail qu’il décrit : transcrire sur des fiches chaque phrase du corpus ; à partir de chaque fiche, faire autant de fiches qu’il y a de mots dans la phrase, en indiquant sur chacune le mot sélectionné, et la phrase complète ; pour chaque mot, indiquer le lemme (chaque nom latin se décline en 6 cas, au singulier et au pluriel ; chaque verbe peut avoir des dizaines de formes différentes, etc.), en déjouant le piège des homographes (distinguer par exemple amor, l’amour, de amor, je suis aimé) ; puis classer l’ensemble par lemme, faire le tri alphabétique, dresser des tables de valence…

Quelques mois plus tard, Busa débarque dans les locaux d’IBM, à New York. Son entrevue avec Thomas J. Watson Sr., le président et fondateur de la firme, a été souvent racontée. Busa était convaincu que le système des cartes perforées exploité par IBM était la solution de son problème. Il savait aussi que son projet ne ressemblait à rien de ce qu’IBM avait fait jusque là. L’existence de l’Index thomisticus se jouait ce jour-là. Busa se souvient :

Je savais, le jour où je devais rencontrer Thomas J. Watson, qu’il avait sur son bureau un rapport disant que les machines d’IBM ne pourraient jamais faire ce que je demandais. J’avais vu dans la salle d’attente une petite affiche imprimée qui disait : « Ce qui est difficile, nous le faisons tout de suite ; pour l’impossible nous demandons un peu plus de temps. » (IBM a toujours aimé les slogans).

J’ai pris l’affiche avec moi avant d’entrer dans le bureau de Watson. Assis en face de lui, et sensible à l’énorme puissance qui émanait de son esprit, j’eus l’inspiration de lui dire : « Ce n’est pas juste de dire non avant d’avoir essayé. » J’ai sorti l’affiche et lui ai montré son propre slogan. Il donna son accord pour qu’IBM coopère… « mais promettez-moi de ne pas transformer IBM [International Business Machines] en International Busa Machines. » Je l’avais déjà informé que, mes supérieurs m’ayant donné le temps, l’encouragement, leur bénédiction et beaucoup d’eau bénite, mais malheureusement pas d’argent, je pourrais récompenser IBM n’importe comment sauf financièrement. C’était providentiel !

IBM exploitait un système inspiré du principe du piano mécanique et celui des métiers à tisser Jacquard : des fiches cartonnées, perforées à certains endroits, permettaient toutes sortes d’opérations mécaniques de tri et de comptage. On s’en servait déjà pour les recensements, et depuis peu – on est juste après la Seconde guerre mondiale – pour répertorier les prisonniers ou les victimes de guerre. L’exploitation mécanique d’un texte immense, composé de phrases d’inégale longueur, rédigées dans une langue complexe, représentait un saut technique gigantesque. Il n’était plus question de perforer des fiches selon un modèle standard (nom, prénom, âge, sexe, etc., par exemple), mais d’adapter les fiches et leur traitement électro-mécanique à des données d’un genre entièrement nouveau, et pour des usages eux-mêmes inédits. [On peut regarder ici, grâce aux archives de l'INA, une présentation de la carte perforée au JT, en 1960).

Busa maniant une carte perforée

La persévérance de Busa et la collaboration d’ingénieurs d’IBM aussi doués que dévoués parvint rapidement à des résultats remarquables. On fit des essais concluant sur les poèmes de saint Thomas, puis sur un des Chants de la Divine Comédie : la dimension régulière des vers se prêtait facilement au traitement par fiches. Il faut garder en tête qu’il n’existait à l’époque ni ordinateurs, ni programmation, ni bien sûr de système de reconnaissance optique des caractères. La saisie devait être effectuée à la main, ainsi que l’identification des lemmes, et tout le travail de vérification (Busa aimait répéter un adage de saint Thomas: Quia parvus error in principio magnus est in fine – une petite erreur au début devient grande à la fin…).

Ce n’est que quelques années plus tard (en 1954) que Busa, apprenant l’existence du système des bandes magnétiques mis au point par la Remington Rand – le fabricant d’armes qui s’était lancé dans les machines à écrire, puis qui commercialisa le premier ordinateur aux États-Unis – comprit que cette invention allait permettre d’accélérer et d’optimiser la fabrication de la concordance. L’essentiel du travail se ferait désormais par ce qu’on appelerait un jour l’ordinateur. Busa et son équipe se transportaient dans les endroits successifs où IBM leur allouait du temps d’ordinateur, en Italie d’abord puis dans le Colorado. En même temps que l’Index thomisticus, Busa mit en chantier et mena à bien divers travaux sur des textes en diverses langues, y compris le grec ancien, le russe, l’araméen et l’hébreu : en 1958 fut publiée son édition assistée par ordinateur des manuscrits de la Mer morte. Busa fonda une école pour former le personnel nécessaire pour ce type de tâches et, tout en poursuivant son activité d’enseignement, promut divers projets comparables au sien en Europe. C’est le début de l’informatique appliquée à la linguistique.

Roberto Busa joua un rôle décisif dans l’invention de ce qu’on appelle désormais l’hypertexte. C’est un des aspects où l’informatique représente un saut qualitatif, et non seulement quantitatif, dans l’édition de textes : elle permet d’enrichir le texte par diverses « balises » qui signalent, par exemple, que certains mots sont une citation d’un auteur et non les propres mots du rédacteur du texte, que tel nom propre est un nom de lieu ou de personne, ou qu’il existe pour tel passage telle ou telle variante dans un autre manuscrit. Dans le domaine des études médiévales, un grand travail issu de cette technique fut l’étude d’un cadastre florentin du XVe siècle (Les Toscans et leurs familles. Une étude du Catasto florentin de 1427, par D. Herlihy et Ch. Klapisch-Zuber, 1978). À la même époque paraissaient les 56 volumes de l’Index thomisticus. Busa n’était plus seul : de par le monde, des chercheurs de toutes disciplines recourraient désormais à l’informatique pour mener à bien des travaux dont la possibilité même n’aurait pu être envisagée sans cet outil.

Jusqu’aux années 1980, toute entreprise du type de celles que promouvait Roberto Busa était nécessairement une entreprise collective. Il fallait des dizaines de personnes, chercheurs, ingénieurs, informaticiens, techniciens de tous ordres, pour concevoir les projets, effectuer la programmation nécessaire, faire fonctionner les machines. La révolution de la micro-informatique, au début des années 1980, l’apparition du traitement de texte et des bases de données qu’un chercheur peut gérer directement, ont permis de réduire la dimension des équipes. À partir des années 1990, le développement du Web, en même temps que la standardisation progressive des outils d’encodage des textes, font du partage l’objectif ultime de l’informatisation. Il est significatif que, sur ce plan également, l’Index thomisticus ait continué de figurer à l’avant-garde. Lorsqu’un chercheur espagnol du nom d’Enrique Alarcón (Université de Navarre) prit contact avec Busa pour lui soumettre son projet de mise en ligne de l’Index – qui représentait un nouveau défi technique sans précédent – le jésuite donna son accord enthousiaste. Ainsi put naître le projet Corpus thomisticum, en plein essor, et qui propose déjà aux chercheurs du monde entier, gratuitement, une version en ligne de l’Index thomisticus qui surpasse en maniabilité et en possibilité de requêtes la version imprimée et la version publiée en CD-Rom.

L’œuvre de Roberto Busa, tout au long de sa vie d’une prodigieuse fécondité, permet de dégager plusieurs caractéristiques importantes de ce qu’on appelle aujourd’hui les Digital humanities, l’informatique appliquée aux sciences humaines. (Pour une définition à la fois précise et prudente des Digital humanities, voir la proposition d’Elena Pierazzo, du King’s College de Londres).

Tout d’abord, il apparaît de façon frappante que l’informatique est et reste un outil. L’intelligence humaine et l’implication d’un personnel fortement qualifié restent non seulement indispensables, mais décisifs. Ce sont des personnes qui conçoivent des projets, et qui mettent au point les instruments – par exemple, la programmation – nécessaires pour les mener à bien. Certaines opérations ne peuvent, et ne pourront sans doute jamais, être entièrement automatisées (on pense à Busa et à son escadron de jésuites pour mener à bien la lemmatisation de chaque mot du corpus thomasien : dans de nombreux cas, seule une connaissance parfaite du latin et de la pensée thomiste permet de déterminer à quel mot on a affaire). La lecture d’un manuscrit ancien restera sans doute à jamais l’apanage de l’esprit humain. Et seuls la curiosité humaine et le désir de savoir peuvent alimenter le perfectionnement constant des machines et de leurs fonctionnalités.

De ce fait, et c’est une deuxième leçon, la gratuité est évidemment un mythe. Il y a du temps de travail, des machines sophistiquées à acquérir, à faire fonctionner, à entretenir, beaucoup d’énergie nécessaire, pour mener à bien n’importe quel projet. Seul l’usager qui navigue sur le Web et explore le résultat de travaux mis en ligne par d’autres peut avoir l’impression de ne rien dépenser. Et ce fut un des nombreux talents de Roberto Busa que de savoir lever des fonds pour ses projets, sans avoir peur de frapper aux portes de bureaux réputés inaccessibles, comme il le fit lorsqu’il se présenta, jeune prêtre italien inconnu de 36 ans, devant le président d’IBM.

Lorsqu’on pense aux presque quarante ans nécessaires pour réaliser l’Index thomisticus, on peut dégager une troisième leçon, que soulignait Busa lui-même : c’est l’intérêt des projets à long terme, des projets de grande envergure, à mener parfois sur plusieurs décennies, par des équipes hautement qualifiées. La tendance actuelle dans la recherche est de favoriser le court terme, de produire des travaux immédiatement « monnayables » sous forme de postes ou de reconnaissance universitaire. Peu d’universités au monde sont encore capables de mener un projet comme celui du Thesaurus linguae latinae, basé à l’université de Munich, et qui date… de la fin du dix-neuvième siècle (ce gigantesque dictionnaire du latin est aujourd’hui complété aux deux-tiers). C’est probablement un des enjeux majeurs, pour l’avenir des sciences humaines, que de rompre avec la logique de l’individualisme et du court-termisme, pour qu’il soit possible de rêver d’autres outils aussi utiles et performants que l’Index thomisticus.

Roberto Busa est resté actif jusqu’aux toutes dernières semaines de sa vie. Il est mort à l’institut jésuite de l’Aloisianum, à Gallarate (Lombardie). Au séminaire, il avait été camarade d’Albino Luciani, futur pape Jean-Paul 1er, avant d’entrer dans la Compagnie de Jésus en 1933. Il avait été ordonné prêtre en 1940, et servit durant la guerre comme aumônier militaire, puis d’un groupe de partisans. Il enseigna notamment à l’université du Sacré Cœur de Milan, à la Grégorienne de Rome, au Politecnico de Milan et à l’Aloisianum. Outre l’Index thomisticus, il est l’auteur de plus de 400 publications. Ses derniers travaux portaient sur la traduction automatique.

Un prix portant son nom est décerné chaque année par l’Alliance of Digital Humanities Organisations. Chercheur toujours enthousiaste, infatigable pionnier, d’une disponibilité qui surprenait souvent les jeunes collègues, il était avant tout un prêtre qui fit honneur à la grande tradition intellectuelle de son ordre. J’indique ci-après quelques articles de qualité qui permettront de mieux connaître l’ampleur de son œuvre et la dette que des milliers de chercheurs, et peut-être des millions d’utilisateurs de l’Internet, ont sans le savoir contracté avec lui. Je laisse au père Roberto Busa le mot, ou plutôt les mots de la fin.

« Le premier [de deux aspects importants de l’engagement humain requis pour son travail] était une extrême attention à porter aux détails. Le dogme était que nul ne pouvait se permettre, ni permettre à quelqu’un d’autre, de négliger une erreur ou un défaut ou un simple doute, sous prétexte qu’il s’agissait d’une petite chose sans importance apparente. Personne ne peut se payer le luxe d’ignorer un seul écrou mal serré sur une machine, au risque de faire capoter tout le travail. Le second aspect était le besoin de s’armer d’une patience et d’une persévérance inépuisables pour affronter les pièges, les accidents, les pannes de machine, les erreurs et les événements imprévus, qui ont fait ressembler l’analyse linguistique à une course d’obstacles. C’est la raison pour laquelle l’usage des ordinateurs en linguistique exige une grande quantité d’effort et de dur labeur. Sans eux, les ordinateurs ne feraient que produire, « en temps réel », des monuments de gâchis. »

« Puisque l’homme est enfant de Dieu et que la technologie est enfant de l’homme, je pense que Dieu regarde la technologie comme un grand-père regarde son petit-fils. »

« Un esprit qui sait comment écrire des programmes est indubitablement intelligent. Mais un esprit qui sait écrire des programmes qui peuvent en écrire d’autres témoigne d’un degré plus haut d’intelligence. Le cosmos n’est rien d’autre qu’un ordinateur géant. Le programmeur en est aussi l’auteur et le producteur. Nous disons de Dieu qu’il est mystère, parce que nous ne pouvons Le rencontrer dans nos affaires quotidiennes. Mais les Évangiles nous disent qu’il y a deux mille ans Il descendit du Ciel sur la terre. »

TRÈS BONNE ANNÉE À TOUS LES VISITEURS, LECTEURS,
COMMENTATEURS ET AUTRES AMATEURS DE CE BLOG!

Bibliographie

Principales ressources utilisées pour ce billet :

Roberto Busa, « The Annals of Humanities Computing: the Index thomisticus », in Computers and the Humanities 14 (1980), p. 83-90. L’histoire de l’Index thomisticus racontée par son auteur, avec son regard rétrospectif – y compris les autocritiques – et prospectif.

Thomas N. Winter, « Roberto Busa, S.J., and the Invention of the Machine-Generated Condordance », Digital commons, University of Nebraska. Article centré sur les aspects techniques et historiques du projet, mettant en évidence le rôle pionnier de Roberto Busa.

Roberto Busa dans l’histoire des Digital humanities, dans A Companion to Digital Humanities, ed. Susan Schreibman, Ray Siemens, John Unsworth. Oxford: Blackwell, 2004.

Autres sources intéressantes, dont les obituaries parus dans diverses publications :

Stefano Lorenzetto, « Stop, Reader ! Fr Busa is dead », dans L’Osservatore Romano (version complète en italien).

« Pioneering the computational linguistics and the largest published work of all time » : la collaboration entre Busa et IBM, sur le site d’IBM Italie (avec 9 photographies).

Ernesto Priego, « Father Roberto Busa: one academic’s impact on HE and my career ».

Roberto Bonzio, « Father Busa, pioneer of computing in humanities with Index Thomisticus, dies at 98 ».

Andrea Tornielli, « Father Busa, the Jesuit priest who invented the hypertext.

Et la seule « nécrologie » en français que j’aie pu trouver, merci aux experts de l’Université catholique de Louvain !

About these ads