Toute recherche scientifique digne de ce nom doit ouvrir son code informatique

Temps de lecture 7 min

TenSafeFrogs - CC by Voici un récent article du Guardian qui tourne paradoxalement autour du logiciel libre et des formats ouverts mais sans véritablement les nommer.

Nous avons cependant jugé qu’il avait son intérêt dans la mesure où la science et la recherche ont désormais de plus en plus recourt à l’informatique pour traiter des données et en tirer analyses et conclusions^[1].

Or comment voulez-vous que l’on puisse valider les résultats si les applications utilisées sont propriétaires ou si les chercheurs eux-mêmes ne mettent pas le code de leur programme à disposition ?

L’article s’appuie sur la récente affaire dite du « Climategate » qui a fait grand bruit outre-Manche (et étrangement peu de cas chez nos grands médias français).

Quand recherche sérieuse rime avec libération du code informatique

If you’re going to do good science, release the computer code too

Darrel Ince – 5 février 2010 – The Guardian
(Traduction Framalang : Kovalsky et Olivier)

Les programmes informatiques prennent chaque jour plus de place dans le travail scientifique. Mais partie prenante dans les conditions de l’expérience vous devez pouvoir les vérifier comme en atteste la bataille qui se joue autour des données sur le changement climatique.

On retiendra de l’affaire concernant la révélation publique des e-mails et des documents de l’Unité de Recherche Climatique de l’Université d’East Anglia qu’ils mettent en lumière le rôle du code informatique dans la recherche climatique. Il y a notamment une série de « README » produite par un programmeur de l’UEA connu sous le nom de « Harry ». Ces notes sont celles de quelqu’un qui lutte avec du code ancien non-documenté, et des données manquantes. Et pourtant, on parle bien d’un élément de l’une des trois bases de données climatiques principales dont se sont servis les chercheurs du monde entier pour en tirer analyses et conclusions.

Beaucoup de scientifiques du climat ont refusé de publier leur programme informatique. À mes yeux, ça n’est ni scientifique, ni responsable, parce que les logiciels scientifiques sont réputés pour leur manque de fiabilité.

L’Histoire nous a appris à ne pas faire une confiance aveugle aux logiciels scientifiques. Par exemple le Professeur Les Hatton, un expert international en tests logiciels, résident de l’Université du Kent et de Kingston, a mené une analyse approfondie de plusieurs millions de lignes de code scientifique. Il a montré que les logiciels présentaient un nombre exceptionnellement élevé d’erreurs détectables.

Par exemple, les erreurs de communication entre les modules de logiciels qui envoient les données d’une partie d’un programme à une autre se produisent à une fréquence de 1 pour 7 communications en moyenne dans le langage de programmation Fortran, et de 1 pour 37 communications dans le langage C. C’est d’autant plus inquiétant qu’une seule et unique erreur est susceptible d’invalider un programme informatique. Plus grave encore, il a découvert que la précision des résultats chute de six chiffres significatifs à un chiffre significatif après traitement par certains programmes.

Les travaux d’Hatton et d’autres chercheurs indiquent que les logiciels scientifiques sont souvent de mauvaise qualité. Il est stupéfiant de constater que cette recherche a été menée sur des logiciels scientifiques commerciaux, produits par des ingénieurs logiciels soumis à un régime de tests, d’assurance qualité et à une discipline de contrôle des modifications plus connue sous le nom de gestion de configuration.

À l’opposé, les logiciels scientifiques développés dans nos universités et nos instituts de recherches sont souvent produits, sans assurance qualité, par des scientifiques qui n’ont pas de formation en ingénierie logicielle et donc, sans aucun doute, l’occurence des erreurs sera encore plus élevée. Les fichiers « Harry ReadMe » de l’Unité de Recherche Climatique sont une preuve flagrante de ces conditions de travail. Ils résument les frustrations d’un programmeur dans sa tentative de conformer ses séries de données à une spécification.

Le code informatique est au coeur d’un problème scientifique. La science se définit par sa potentielle remise en cause : si vous érigez une théorie et que quelqu’un prouve qu’elle est fausse, alors elle s’écroule et on peut la remplacer. C’est comme cela que fonctione la science : avec transparence, en publiant chaque détail d’une expérience, toutes les équations mathématiques ou les données d’une simulation. Ce-faisant vous acceptez et même encouragez la remise en question.

Cela ne semble pas être arrivé dans la recherche climatique. De nombreux chercheurs ont refusé de publier leur programme informatique, même ceux qui sont encore utilisés et qui ne sont pas sujet à des accords commerciaux. Le Professeur Mann, par exemple, refusa tout d’abord de fournir le code, employé pour construire en 1999 le graphique en cross de hockey, qui a démontré que l’impact de l’homme sur le réchauffement climatique est un artefact unique de la dernière décennie (il l’a finalement publié en 2005).

La situation n’est pas aussi désastreuse pour tous les travaux académiques. Certaines revues, économiques et économétriques par exemple, imposent que l’auteur soumette ses données et ses programmes au journal avant publication. Un cas fondamental en mathématiques a également fait parler de lui : la preuve « par ordinateur » de la conjoncture des quatre couleurs par Appel et Haken. Cette démonstration a partagé la communauté scientifique puisque pour la première fois le problème de la validation du théorème s’est trouvé déplacé vers le problème de la validation de l’algorithme d’exploration et de sa réalisation sous forme de programme. Bien que critiquée pour son manque d’élégance, la preuve n’en était pas moins correcte et le programme informatique, publié et donc vérifiable.

Des organismes et des individus, ralliés à l’idée du quatrième paradigme, attachent beaucoup d’importance au problème de l’informatique scientifique à grande échelle et à la publication des données. C’était l’idée de Jim Gray, un chercheur expérimenté de Microsoft, qui a identifié le problème bien avant le Climategate. Actuellement, la recherche consacrée aux mécanismes qui pourraient faire du Web un dépôt pour les publications scientifiques est très active, elle englobe également les logiciels et la formidable quantité de données qu’ils consomment et génèrent. Un certain nombre de chercheurs mettent au point des systèmes qui montrent le progrès d’une idée scientifique, des premières ébauches d’idées jusqu’à la publication papier^[2]. Les problèmes rencontrées avec la recherche climatique apporteront un élan à ce travail pour qu’il soit accéléré.

Donc, si vous publiez des articles de recherche qui s’appuient sur des programmes informatiques, si vous prétendez faire de la science mais que vous refusez de publier les programmes en votre possession, je ne peux vous considérer comme un scientifique. J’en irais même jusqu’à dire qu’à mes yeux les publications basées sur ces programmes seront nulles et non avenues.

Je trouve incroyable qu’une faute de frappe puisse être à l’origine d’une erreur dans un programme, un programme qui pourrait à son tour être à l’origine de décisions portant sur des milliards d’euros, et le pire, c’est que la fréquence de ces erreurs est élevée. Les algorithmes (ou copules gaussiennes), sur lesquels se sont appuyées les banques pour s’assurer que les crédits sub-prime étaient sans risque pour eux, ont été publiées. La facture était salée. La facture du changement climatique sera aussi élevée. Raison de plus pour qu’aucune erreur dans les calculs ne soit tolérée là non plus.

Notes

[1] Crédit photo : TenSafeFrogs (Creative Commons By)

[2] Voir à ce sujet l’article du Framablog : Première démonstration « open source » d’un théorème mathématique.

10 Responses

Christophe-Marie

7 mars 2010 |

Ça n’est pas toujours si simple. Prenons la situation qui est la mienne : je fais une thèse supposée déboucher sur un algorithme. Bien que moi-même favorable à la publication de mon code, je n’ai pas le droit de le faire car ce travail appartient à l’entreprise qui finance mes recherches (qui, malgré mes efforts pour les convaincre, reste pour l’instant frileuse). Parfois, la recherche a besoin de fonds pour se faire, et ce n’est pas une question de mauvaise volonté…
aKa

7 mars 2010 |

@Christophe-Marie : Je comprends bien. Le titre du billet est une affirmation péremptoire qui se voulait fidèle à l’article traduit. Comme une base de discussion pour d’éventuels commentaires justement.
Mc Rack

7 mars 2010 |

Les thèses financées acceptent rarement les licences libres.
Mais pour la publicité du code, des licences propriétaires existent,
avec différents degrés de liberté, qui vont de l’utilisation non-commerciale à l’interdiction de compilation/utilisation + copie exacte (texte) avec référence.
Elessar

7 mars 2010 |

Je pense qu’on pourrait dire : « toute recherche scientifique à vocation publique doit ouvrir son code ». Évidemment, la recherche privée, c’est privé, donc public si l’employeur le veut bien, mais s’il ne le veut pas, ça n’a pas vocation publique, justement.
Gato

8 mars 2010 |

Ce n’est pas « si simple ». Il y a également une part de compétition dans le domaine de la recherche publique, ne serait-ce que pour obtenir des financements. Si on dispose d’un logiciel « original », on peut vouloir ne pas publier le code pour garder une certaine avance sur ses concurrents. A partir du moment où le code est publié, il devient assez difficile de contrôler la copie de ce code : même si il n’est pas réutilisé tel quel, on peut toujours s’en inspirer fortement pour faire son propre soft équivalent.

Ensuite, on peut cadenacer son code et les algorithmes de sorte que personne ne puisse le réutiliser de quelconque manière que ce soit, mais c’est à mon avis encore pire que de ne pas le publier.

Outre le code, on pourrait également contraindre les mathématiciens ou physiciens théoriciens à détailler leurs démonstrations. C’est en effet très rarement le cas, la grosse majorité se contentant de donner quelques résultats intermédiaires tout en ne détaillant pas les parties délicates.
Boutor

8 mars 2010 |

Gato : "Outre le code, on pourrait également contraindre les mathématiciens ou physiciens théoriciens à détailler leurs démonstrations. C’est en effet très rarement le cas, la grosse majorité se contentant de donner quelques résultats intermédiaires tout en ne détaillant pas les parties délicates."

Ça serait une très bonne chose. Et les jeunes scientifiques (en thèse) qui refont les démonstrations gagneraient du temps. Ça a été mon cas. ;o)
vulcain

8 mars 2010 |

Article intéressant.
Le soucis c’est que certains de mes professeurs ont des sous entendus que même dans des publications, certains ne révèlent pas ou mal leur techniques, alors pour vérifier leur résultats..

Logique cela soit aussi le cas pour l’outil informatique …
Il faut faire changer les mentalités peu à peu.
professeurtournesol

11 mars 2010 |

Gato : "Outre le code, on pourrait également contraindre les mathématiciens ou physiciens théoriciens à détailler leurs démonstrations. C’est en effet très rarement le cas, la grosse majorité se contentant de donner quelques résultats intermédiaires tout en ne détaillant pas les parties délicates."

C’est faux. La plupart des articles de mathématiques fournissent des démonstrations complètes des résultats avancés. Merci d’aller jeter un oeil au serveur de prépublication arXiv pour vous en convaincre.

Pour la physique théorique les choses sont différentes. Mais dans une certaine mesure ce n’est pas le boulot des physiciens théoriciens d’écrire des démonstration (dans une certaine mesure seulement).

Bien à vous

tryphon
David MENTRÉ

17 mars 2010 |

Au passage, le théorème des quatre couleurs et le programme associé ont été prouvé entièrement dans l’assistant de preuve Coq par Georges Gonthier, un ancien chercheur de l’INRIA maintenant chez Microsoft Research : http://research.microsoft.com/en-us…

Coq est un logiciel libre (LGPL 2.1) : http://coq.inria.fr/what-is-coq
clovis simard

26 octobre 2010 |

Bonjour,

Vous êtes invité à visiter mon Blog.

Mon Blog présente une nouvelle théorie mathématique de la conscience : LE CODE D’EINSTEIN
Par la présente, j’aimerais si vous le voulez bien que les gens de votre communauté me fassent parvenir des commentaires.

Cordialement

Clovis Simard