[VIDEO] La preuve que le confinement ne fonctionne pas selon un chercheur au MIT ? (non)


Découvrez la vidéo-résumé :



La période des restrictions et des confinements semblait derrière nous: les bars, les restaurants, les cinés ont rouvert. Mais aujourd'hui, la 4ème vague fait rage et la question d'un confinement à la rentrée se pose déjà. C'est un débat difficile : le confinement nous a tous beaucoup marqué, à divers degrés. Mais ce qui nous a fait tenir, et ce qui nous fera peut-être accepter une nouvelle vague de restrictions, c'est la conviction qu'on ne souffre pas pour rien, parce que, le confinement, ça marche. Pourtant, une analyse relayée dans un tweet suggère le contraire.


Son auteur n'est pas n'importe qui. C'est un data scientist (spécialiste de la collecte et de l'analyse de données) au MIT. Il a rassemblé des données sur les morts du COVID dans différents Etats américains et la sévérité des mesures mises en place dans chaque Etat.


Note : La sévérité des mesures contre le COVID-19 est ici mesurée par un index, une 'note' continue de sévérité des restrictions de 1 à 100, mais pour simplifier les explications, je vais parfois parler de confinement/ non-confinement.


Stupeur: le data scientist ne trouve aucune corrélation entre sévérité des mesures de restrictions contre le Covid-19 et morts du COVID-19.

Là où des restrictions plus sévères ont été mises en place, il n'y a pas moins de morts du COVID. Il n'y en a pas plus non plus. Il semble n'y avoir aucune relation, comme on le voit sur le graphique ci-dessous que Yougang Gu (le data scientist) a produit.



L'auteur affirme que ceci suggère l'inefficacité des mesures de restriction (comme le confinement) sur la propagation du virus.



Je ne sais pas dans quelle mesure vous trouvez cette démonstration convaincante, mais, si c'est le cas, ne faites pas cette erreur chez vous ! Vous avez sans doute déjà entendu que corrélation n’est pas causalité. Ce n'est pas parce qu'une variable A change en même temps qu'une variable B qu' A cause B. Pour reprendre l'expression d'un vulgarisateur célèbre, ce n'est pas parce que quand il pleut (A) il y a plus de grenouilles (B), qu'il pleut des grenouilles (A cause B). Mais absence de corrélation n’est pas non plus absence de causalité ! En effet, de ces données, on ne peut déduire que le confinement est inefficace pour deux raisons.


Premièrement, le problème est celui de la poule ou de l'oeuf. La causalité va dans les deux sens: le confinement cause (peut-être) une réduction des morts, mais les morts incitent à confiner. On appelle ça un biais de causalité inverse, ou de simultanéité en économétrie.






Ici, on est dans un cas particulier du biais de simultanéité où les effets vont vraisemblablement en sens contraire. La sévérité des mesures réduit (peut-être) le nombre de morts, mais le nombre de morts augmente la sévérité des mesures.





Si ces deux effets s'annulent un peu près, on peut se retrouver dans une situation où le confinement est efficace, mais où il n'y a pas de corrélation entre sévérité des mesures contre le covid-19 et morts de la maladie- comme sur le graphique qu'on vient de voir.


Mais ce n'est pas la seule relation qu'on pourrait observer si le confinement est efficace. Bien sûr, si le confinement est extrêmement efficace, on pourrait trouver qu'il y a moins de morts dans les Etats qui ont mis en place des mesures plus sévères. Mais cela implique de supposer que l'effet "la sévérité des mesures réduit les morts" est plus fort que l'effet "les morts augmentent la sévérité des mesures" !


A l'inverse, si l'effet "les morts augmentent la sévérité des mesures" est plus fort que l'effet "sévérité des mesures réduit les morts" (s'il existe), on peut même se retrouver dans une situation où le confinement est efficace, mais où on trouve une corrélation positive entre sévérité et morts: les Etats qui ont mis en place les mesures les plus sévères sont ceux où il y a le plus de morts du COVID-19.




En fait, parce qu'on ne sait pas qui de la poule ou de l'oeuf, absolument tout ce que les données que le data-scientist mobilise pourraient montrer est compatible avec l'hypothèse de l'efficacité du confinement. Et cette première analyse néglige une couche supplémentaire de complexité.


Deuxièmement, je me plaçais ici dans un cadre sans variable omise, mais il faut considérer d'autres facteurs qui puissent brouiller la relation qu'on observe entre confinement et morts du COVID. Une variable omise est une variable qui est liée aux deux variables dont on étudie la relation.




Comment est-ce qu'une variable omise peut créer une absence de corrélation ? Imaginez que vous montez en vélo une pente de plus en plus raide en pédalant de plus en plus vite pour maintenir votre vitesse. Il n'y aura alors pas de corrélation entre vos efforts et votre vitesse: vos efforts montent, votre vitesse ne change pas. Il y aura toutefois un lien de causalité entre les deux: si vous n'aviez pas fait plus d'efforts pour compenser la pente, vous iriez moins vite. Néanmoins, cet impact n'est pas visible car la pente agit en variable omise. Elle augmente vos efforts, et réduit votre vitesse, et masque donc l'impact de vos efforts sur la vitesse.


Dans le cas des confinements, il existe potentiellement de nombreuses variables omises, mesurables ou non. On peut par exemple penser à la compétence politique des dirigeants des Etats. Peut-être que les Etats qui ont dû mettre en place des confinements sont aussi ceux qui géraient mal la pandémie, si bien qu'ils auraient eu plus de morts que ceux qui n'ont pas confiné de toute façon, même sans confinement. Ceci peut créer une relation positive entre morts et sévérité des mesures (des mesures plus sévères là où il y a plus de morts) qui masquerait un éventuel effet négatif des morts sur le confinement (des mesures plus sévères réduisent le nombre de morts).




On voit à quel point l'analyse devient très vite très complexe. Tout peut se passer quand on analyse la corrélation entre deux variables hors d'un laboratoire ou d'une expérience. On peut avoir corrélation sans causalité, ou causalité sans corrélation. Personnellement, une règle de décision que j'utilise est : si je regarde la corrélation entre deux variables mesurées en dehors d'un laboratoire/expérience/quasi-expérience, je ne peux rien dire du lien causal qui les unit. Il y a des exceptions, une petite partie de la recherche empirique consiste à les trouver, mais en premier mode de raisonnement, je crois que ça fonctionne très bien.


Sur twitter, à l’époque où cet article n’était qu‘un thread, on m'a demandé "De quelle manière peut-on déterminer l'efficacité des mesures restrictives alors ?"


Idéalement, il faudrait faire une expérience où on tire au sort les régions confinées et les régions non confinées dans un pays donné. Imaginons alors qu'on observe un écart de mortalité entre les régions. Ce sera la preuve d'un effet du confinement: par le tirage au sort, le fait d'avoir été confiné ou non sera le seul facteur qui distingue les régions confinées des régions non confinées. En pratique, et pour des raisons politiques évidentes, on ne peut faire cela. On utilise alors des méthodes statistiques plus ou moins sophistiquées qui permettent en théorie d'isoler l'effet des politiques - on, c'est ici les épidémiologistes et chercheurs en évaluation des politiques publiques (économie, science politique) qui publient dans des revues de spécialistes.


Que disent les études ? Si on se concentre sur l'effet du confinement sur les morts du COVID, cette étude relayée par Didier Raoult a fait parler d'elle, et elle ne trouve pas d'efficacité du confinement. Néanmoins, de nombreuses études trouvent à l'inverse des indices de l'efficacité du confinement, comme celle-ci, celle-ci, ou celle-ci. Ces deux dernières études ont le mérite d'employer la méthode du contrôle synthétique, dont on a de bonnes raisons théoriques (mathématiques) et empiriques de penser qu'elle peut donner des résultats similaires à ceux d'une expérience contrôlée, le cas idéal que je décris dans le paragraphe précédent. Le contrôle synthétique est parfois classé dans la liste des méthodes quasi-expérimentales : ce n'est pas une expérience, mais c'est pas mal quand même. Si ceci pique votre curiosité, je parlerai un peu plus de ce type de méthodes dans le dernier article de la série sur JMJ, et dans un billet dédié.


Deux précautions s'imposent toutefois. D'une part, même s'il s'avère que le confinement est efficace, cela ne suffit pas à savoir s'il faut en mettre un en vigueur à la rentrée. Il s'agit d'une autre question bien plus large. Elle dépasse d'ailleurs le cadre de la science qui traite de ce qui est, non ce qui devrait être. D'autre part, il faut bien garder en tête que si j'ai été formé à l'évaluation des politiques publiques, je ne suis pas expert de l'effet des politiques de santé, ni même de santé publique en général. Il faut donc prendre mon analyse de la littérature scientifique avec le recul qu'elle mérite. Je note toutefois qu'une revue de littérature publiée dans un journal à comité de lecture trouve également des indices de l'efficacité du confinement. Dans tous les cas, le coeur de mon article n'est pas de débattre de l'efficacité des mesures de restriction. J'écris surtout sur ce sujet car il s'agit d'un bel exemple du fait que si corrélation n'est pas causalité, absence de corrélation n'est pas non plus absence de causalité. C’est une erreur assez courante: même un ‘prix nobel’ l’a faite.