Ce bref constat sur les enjeux et l'offre actuelle en matière d'exploration numérique des modèles nous amènent à proposer 5 objectifs, en partie liés :
Ouvrir les biologistes / modélisateurs au traitement statistique de leurs simulations et à une exploration raisonnée du comportement de leurs modèles.
A travers des actions de formation ou d'information qu'il faudra définir (conférences, séminaires, écoles chercheur, groupes de travail, site web…), il s'agit de montrer que bien des méthodes existent déjà, et que la plupart sont accessibles au non spécialiste. Il s’agit également de montrer les points communs, les différences et les complémentarités entre analyser des données expérimentales et des données de simulation (la notion d’inférence, par exemple, est très différente).
Initier de nouveaux fronts de recherches en statistique ou en renouveler de plus anciens.
De nombreuses méthodes d'analyse de données réelles peuvent être adaptées de façon pertinente à l’analyse de données simulées. Mais la spécificité de la simulation est qu'on a (en principe) accès à toutes les variables d'état, aussi précisément que souhaité et avec la possibilité de faire de nombreux réplicats (si les temps d'exécution sont raisonnables, ce qui n'est pas toujours le cas). Cette abondance de données est assez inédite dans le monde de la biologie et se situe à un niveau de complexité un peu intermédiaire entre celle que le statisticien manipule d'ordinaire et celle du monde réel. Ces données simulées sont donc a priori bien adaptées au développement de nouvelles méthodes de planification, d’échantillonnage ou d’analyse, notamment pour traiter le cas de sorties non scalaires.
Augmenter les synergies entre équipes nationales voire internationnale sur ce thème
en favorisant la mise en place de projets communs, que ce soit au plan théorique ou plus opérationnel.
Contribuer à la réflexion méthodologique en modélisation.
C'est un objectif à plus long terme : compte tenu de la grande diversité des types de modèles et de leurs objectifs, il s'agit de dégager progressivement une véritable méthodologie de construction et de compréhension des modèles, ou tout au moins un guide de "bonne pratique" à l'usage du modélisateur.
Rendre ces méthodes accessibles au modélisateur.
C'est un enjeu opérationnel fort du programme : il s'agit de raccourcir le parcours du combattant entre une méthode et son usage effectif pour un modèle particulier. Très concrètement nous proposons, pour les méthodes aujourd'hui non accessibles aux modélisateurs, de développer une bibliothèque de programme. Cela pourrait se faire sous la forme de "modules" normalisés pour lesquels une certaine charte graphique et sémantique serait respectée, et qui normaliserait les graphes, mais aussi les formats d'entrées-sorties des modèles afin d'éviter au modélisateur d'écrire une sortie spécifique pour chaque méthode. Cette normalisation devrait également faciliter le travail du statisticien qui souhaite développer une méthode, et lui assurer une diffusion plus rapide. Elle devrait également permettre de capitaliser l'expérience acquise dans ce domaine par les différentes équipes, en un ensemble cohérent et visible de toute la communauté scientifique. Voir l'annexe pour une proposition plus détaillée.
Les grands thèmes méthodologiques à aborder
Comprendre les propriétés d'un modèle est un terme très vague. Sachant que l'imagination reste de mise dans ce domaine, un certain nombre de questions sont récurrentes. Pour certaines, les méthodes existent déjà, notamment pour des sorties scalaires. Pour d'autres, elles sont peut-être à inventer :
- La cohérence numérique. Avant même de chercher à explorer les propriétés du modèle il faut s'assurer que les choix techniques liés à sa résolution numérique n'influencent pas les résultats, et si c'est le cas vérifier que ces choix ont un sens vis-à-vis de la question posée et qu'ils sont bien inclus dans le descriptif du modèle. Car ils en font alors partie intégrante. Un exemple classique est le choix du pas de temps ou d'espace dans les modèles discrets. Mais dans la pratique, l'analyse de la cohérence numériques est difficile à mener car on touche à la structure même du modèle.
- Les analyses de sensibilité : il s’agit de déterminer l'influence des paramètres sur les sorties du modèle. [mentionner la distinction entre sensibilités locale et globale ?] Il est surprenant de voir à quel point il n'est pas si aisé de désigner a priori le tiercé des paramètres les plus influents, même sur des modèles assez simples…
- La recherche de singularités, les analyses de stabilité, c'est-à-dire la recherche d'extrema, mais aussi des points d'équilibre (ou des cycles) avec leur stabilité.
- L'analyse des conditions initiales et la propagation des erreurs. Quelle est l'influence des conditions initiales sur les résultats, et comment se propage dans le temps un éventuel décalage avec la réalité ?
- L'analyse qualitative du comportement. De manière plus générale, on souhaiterait relier les grands traits du comportement du modèle à des partitions dans l'espace des paramètres.
- La recherche des comportements "robustes". Et si tout ce qui a été décrit précédemment devient caduc parce que je change légèrement la forme d'une fonction de croissance ? Il s'agit donc d'une analyse de sensibilité un peu particulière, la sensibilité aux choix des équations. [cela rentre dans le cadre de l’analyse de sensibilité, et par ailleurs la robustesse couvre aussi la robustesse par rapport aux paramètres ; on peut laisser mais je trouve la dernière phrase de cet item inutile, un peu maladroite] Remarquons au passage qu'un modèle, ce sont essentiellement des équations et des paramètres, et que la limite entre les deux est finalement assez floue. Il pourra être techniquement intéressant de prendre des formulations assez générales afin de "paramétrer" une certaine souplesse dans l'écriture du modèle, et de pouvoir ensuite tester la robustesse des sorties à cette souplesse via une analyse de sensibilité classique.
- Les analyses d'incertitude. Compte tenu des incertitudes sur les paramètres, de la variabilité naturelle des variables d’entrée, et des composantes stochastiques qui peuvent être présentes dans le coeur du modèle, il s'agit d’utiliser le modèle pour faire de la prédiction, sous forme de distributions de probabilité associées à ses différentes variables de sortie
- La "méta" modélisation, c'est à dire l'émulation de modèles complexes et trop coûteux en temps calcul par des modèles simplifiés et aussi fidèles que possibles. Ceci pour pouvoir par exemple effectuer des analyses de sensibilité ou d'incertitude dans des délais raisonnables. Mais aussi parce qu'il peut être intéressant de montrer qu'un modèle considéré comme complexe ne l'est peut-être pas tant que cela (nombreux paramètres sans effet, sorties monotones, peu d'interactions…) et qu'il serait nécessaire de le simplifier. Egalement, on constate une tendance des communautés scientifiques à développer de grands modèles de "connaissances" hyper détaillés, par agrégation de sous-modèles. Il faudra donc souvent les simplifier pour les rendre utilisables dans un contexte donné.
- Les plans d'expériences. Contrairement à ce que l'on pourrait penser, il n'est pas si facile de produire des plans de grandes dimensions qui conservent toutes les "bonnes" propriétés comme l'orthogonalité des facteurs ou une exploration homogène de l'espace. Et ceci, que ce soit pour les plans factoriels ou pour les plans aléatoires. La théorie actuelle des plans d'expérience, bien adaptée aux expérimentations réelles dont elle est issue, ne semble pas aujourd'hui répondre à toutes les contraintes des expériences numériques. C'est une question sur laquelle il sera sans doute indispensable de se pencher dans le cadre de ce réseau.
La question de l'optimisation, qui inclut en particulier le calage du modèle par l'identification des paramètres, sort a priori du domaine de ce programme dans la mesure où elle demande une très grande interaction entre le modèle et l'algorithme d'optimisation. Dans la pratique, et pour une question de rapidité, il est en effet quasi obligatoire que modèle et algorithme soient programmés dans le même environnement, alors que nous considérons ici des modèles "boites noires" indépendants des traitements statistiques qu'on leur applique. Mais optimisation et sensibilité sont tellement liées que des retombées de ce programme pourront être utilisées en optimisation. Par ailleurs, certains algorithmes d'optimisation comme les algorithmes génétiques se prêtent bien à une séparation modèles/calculs.
L'enjeu méthodologique (ou recherche) du réseau, est de choisir de faire avancer les thèmes qui nous paraissent les plus cruciaux (et il y en a sans doute d'autres).