Corruption des médecins : a-t-on débunké Roussel et Raoult ? (½)

Les propos sur ce blog n'engagent que leur auteur, Louis FREGET, et non tous les auteurs de l'étude en question. Toutes les citations sont traduites de l'anglais par moi-même. Les passages soulignés sont des liens hypertexte.


Pour la première fois sur ce blog, je vais vous parler un peu de mes recherches. Dans ce billet, je vais vous présenter une étude de réplication sur laquelle j'ai travaillé par intermittence depuis environ un an. Je suis un des deux principaux auteurs du papier, avec le philosophe expérimental Florian Cova qui y a au moins autant contribué que moi. Mais nous ne sommes pas les seuls auteurs. J'ai eu la chance de travailler sur ce projet avec deux médecins (Michael Rochoy et Valentin Ruggeri), une doctorante en philosophie (Céline Schöpfer), et un biostatisticien (Matthieu Mulot). Je suis ravi de cette collaboration. J'en ai appris beaucoup. (1)


Une étude de réplication est une étude dans laquelle on tente de reproduire et de tester la robustesse des résultats d'une autre étude déjà parue. On peut faire cet exercice en réutilisant la base de données qui existe déjà, et le code informatique qui est nécessaire pour reproduire les résultats des analyses statistiques de l'article - on peut par exemple alors vérifier qu'il ne contient pas d'erreurs. On peut aussi collecter de nouvelles données pour mener des analyses comparables. Ici, nous avons été en quelque sorte forcé de récolter à nouveau les données car les auteurs de l'article original n'ont pas répondu aux demandes de notre équipe de chercheurs - ni à celles d'aucune autre à notre connaissance- de partager leurs données.


La réplication est une pratique très courante en sciences. Elle est pratiquée par des chercheurs, et elle est souvent un passage obligé pour des étudiants se formant à la recherche. Elle est devenue particulièrement importante alors que le sciences médicales et sociales traversent ce qu'on appelle une crise de la réplication : on ne parvient pas systématiquement à reproduire les résultats de certaines études. Nous en parlions un peu dans cet épisode du Couarail Sceptique avec Olivier (l'Economiste Sceptique). Dans certaines disciplines, les chiffres sont terrifiants : seules 11% des études en oncologie sont reproductibles, et en général les taux de reproduction dépassent rarement 50%.

Cette crise n’est pas la preuve qu’il ne faut pas croire la recherche scientifique. Elle implique simplement qu’il ne faut en général pas croire une seule étude, mais plutôt chercher un faisceau d’études qui ont la même conclusion. Les causes de cette situation sont multiples. Elles tiennent aux flous de certains protocoles, au fait que les résultats peuvent changer quand les contextes et les populations changent, à des erreurs de code informatique et de manipulations expérimentales, et beaucoup plus rarement à des manipulations intentionnelles des données. Qu'on ne parvienne pas à reproduire les résultats d'une étude ne dit pas nécessairement quelque chose de la compétence et de l'honnêteté de ses auteurs.


Ici, justement, nous ne parvenons pas à reproduire toutes les conclusions de l'étude que nous répliquons.


"Dites moi qui vous paie, Docteur, et je vous dirais quelle molécule vous défendez dans la presse"


L'étude que nous répliquons a été très commentée dans la presse française. Soumise en mai 2020, il s'agit d'une étude dans laquelle Yanis Roussel et le Dr Raoult affirment que les conflits d'intérêt des médecins avec Gilead, société qui a promu le Remdesivir, un traitement potentiel contre le COVID-19 prédisent parfaitement l'opinion qu'ils ont exprimé publiquement sur un autre traitement concurrent et encore plus célèbre, l'hydroxychloroquine (HCQ) : plus les médecins ont reçu d'argent de Gilead, moins ils sont enclins à recommander l'usage de l'HCQ. Dites moi qui vous paie, et je vous dirais quelle molécule vous défendez publiquement.


Plus formellement, l'étude porte sur les médecins et chercheurs membres du Comité des Maladies Infectieuses et Tropicales (CMIT). Roussel et Raoult (2020) trouvent une corrélation parfaite entre les attitudes des membres du CMIT vis à vis de l'HCQ et leurs conflits d'intérêt avec Gilead Sciences - la société qui a promu le Remdesivir (REM), un autre traitement potentiel contre le COVID-19. Roussel et Raoult le soulignent dans leur article "sans surprise, nous avons montré une corrélation, mais nous avons été impressionné par le niveau de la corrélation". Dans un autre article, intitulé "la guerre contre l'hydroxychloroquine", Roussel, Raoult et Chabrière sont encore plus fermes : "Nous avons pu montrer dans une étude qu'il y avait, en France, une corrélation inverse presque parfaite entre le niveau de financement reçu par Gilead au cours des six dernières années (déclaré sur le site de transparence du gouvernement) et les positions officielles prises à l'égard de l'hydroxychloroquine." Les auteurs sont ici trop modestes. On peut en effet calculer qu'avec la méthode qu'ils utilisent, la corrélation n'est pas quasi-parfaite mais parfaite.


Si ce résultat est solide, il est intéressant et important, même si je reviens dans l'article suivant sur l'importance de la distinction entre causalité et corrélation dans ce contexte. Je ne l'apprends sans doute à aucun de mes lecteurs : L'hydroxychloroquine (HCQ) et son utilisation comme traitement contre le COVID-19 ont été au centre de débats passionnés, et elle semble aujourd'hui désavouée. Si cette corrélation existe, elle est cohérente avec la thèse que l'hostilité de certains médecins à l'égard de l'HCQ puis la baisse de la popularité de la molécule a peu avoir avec les preuves relatives de l'(in)efficacité de la molécule, mais qu'elle a en partie été orchestrée par des sociétés pharmaceutiques rivales comme Gilead cherchant à promouvoir leurs propres traitements. Une telle influence serait un problème majeur de santé publique.


Cependant, l'étude de Roussel et Raoult a été très contestée pour sa méthodologie. Pour vérifier si les conclusions de l'étude étaient robustes à ces critiques, nous avons demandé aux auteurs de partager leurs données mais ils n'ont pas répondu. Qu'à cela ne tienne : il était possible de recollecter les données. Les données de financement des médecins sont en ligne sur eurodocs.eu. Il suffisait de les télécharger et de les appareiller à la liste des médecins membres du CMIT. Roussel et Raoult (2020) expliquent qu'ils ont cherché et codé les interventions des médecins sur Google News. Nous pouvions faire de même. Nous avions alors une base de donnée en main pour tenter de voir si en addressant les critiques, le résultat changeait.


Les deux critiques centrales de l'étude de Raoult et Roussel, et comment nous avons tenté de les adresser


Les critiques se sont concentrées sur deux points. Le premier concerne la mesure des opinions publiques exprimées par les infectiologues. Le deuxième concerne la méthode très originale que les deux auteurs utilisent pour mesurer la force de la relation entre attitudes des médecins envers la prescription de l'HCQ contre le COVID-19 et les financements qu'ils ont reçu par l'industrie pharmaceutique. Il a été soupçonné qu'elle puisse grandement accroître la corrélation entre les deux variables. Il ne s'agit pas là de pinaillage technique. S'il s'avère que ces critiques sont fondées, alors elles peuvent emporter la conclusion de l'étude.



De l'art de mesurer le difficilement mesurable


D'une part, pour mesurer le degré d'approbation des médecins, Roussel et Raoult utilisent une échelle, une note qui va de 1 (très favorable), à 5 (très défavorable) :


1= 'Très favorable', défini comme 'ayant exprimé un appel à la généralisation de l'utilisation de l'hydroxychloroquine, ou rapportant une utilisation réussie du traitement dans la structure du médecin'.


2= Favorable", défini comme "ayant reconnu un effet positif de l'hydroxychloroquine, tout en attendant la confirmation des résultats pour prendre position".


3= Neutre", défini comme "exprimant le besoin de plus d'études pour faire un commentaire sur l'efficacité du traitement".


4= Défavorable", défini comme "dans l'attente de plus de résultats, exprimant des commentaires négatifs sur l'hydroxychloroquine".


5= Très défavorable", défini comme "l'expression d'une colère à l'égard de la médiatisation de l'hydroxychloroquine, ou une opposition stricte à la généralisation de l'utilisation de l'hydroxychloroquine".




Plusieurs critiques ont été formulées contre cette échelle, en particulier par le biostatisticien Hans-Peter Piehpo.


Premièrement, cette échelle mélange pommes et poires. Nous ne comprenons pas quel type exact d'attitudes cette échelle a été construire pour mesurer. Pour citer un passage de notre article que je traduis en français : "dans certains cas, les catégories semblent évaluer si les médecins croient en l'efficacité de l'HCQ contre le COVID-19 ("avoir reconnu un effet positif de l'hydroxychloroquine", "exprimer le besoin de plus d'études pour faire tout commentaire sur l'efficacité du traitement") et s'ils promeuvent son utilisation dans la lutte contre le COVID-19 ("avoir exprimé un appel à la généralisation de l'utilisation de l'hydroxychloroquine"). A d'autres moments, elles évaluent l'attitude des médecins face à la médiatisation du débat sur l'HCQ ("expression de la colère face à la médiatisation de l'hydroxychloroquine"). Enfin, à d'autres moments, le critère est simplement très imprécis ("expression de commentaires négatifs sur l'hydroxychloroquine") : le fait d'informer le public sur les effets secondaires négatifs potentiels de l'HCQ est-il considéré comme des "commentaires négatifs" ?


Ainsi, les catégories de codage de Roussel et Raoult mélangent plusieurs dimensions et critères d'appréciation : être contre la médiatisation du débat sur l'HCQ n'est pas la même chose que d'affirmer que l'HCQ est inefficace. Et faire des "commentaires négatifs" sur HCQ (par exemple, en soulignant ses effets secondaires négatifs potentiels) n'est pas la même chose qu'être contre la médiatisation du débat scientifique, ou être contre son utilisation dans le traitement du COVID-19. Plutôt que des attitudes à l'égard du HCQ, on pourrait dire que les catégories de codage de Roussel et Raoult sont plus susceptibles de mesurer des attitudes à l'égard de Didier Raoult et de la manière dont il a fait avancer son traitement contre le COVID-19. Cependant, on peut toujours juger négativement le comportement de Didier Raoult (par exemple, en pensant qu'il aurait dû attendre plus de données avant d'affirmer publiquement que le HCQ était efficace pour traiter le COVID-19), tout en ayant des attitudes neutres ou positives envers l'efficacité du HCQ."


Deuxièmement, les catégories utilisées par Roussel et Raoult ne sont pas symétriques : alors que la définition des attitudes négatives pointe vers les états émotionnels des médecins ("exprimer de la colère"), il n'en va pas de même pour la définition des attitudes positives. Au contraire, les attitudes positives sont plus souvent définies en termes de données scientifiques ("rapporter une utilisation réussie du traitement dans l'établissement du médecin") que les attitudes négatives.


Troisièmement, Roussel et Raoult n'expliquent jamais la procédure qu'ils ont utilisée pour mettre une note d'opposition à l'HCQ à chaque médecin. On ne sait pas s'ils avaient conscience ou non des financements des médecins au moment où ils leur attribuaient un degré d'opposition à l'HCQ- cela aurait pu les biaiser inconsciemment. D'autre part, Lorsqu'on utilise une nouvelle échelle pour mesurer un phénomène complexe à mesurer, il est toujours rassurant de vérifier si deux personnes qui utilisent cette échelle arrivent indépendamment à des scores proches. Est-ce ce que Roussel et Raoult ont fait ici ? Est-ce que les deux auteurs ont codé les données séparément puis comparé leurs réponses ? Si oui, ils auraient dû indiquer le degré d’accord inter- codeurs, par exemple en indiquant la corrélation entre les notes du premier et du deuxième codeur. Si ce n'est pas le cas, cela pose problème, car cela signifie que nous n'avons aucune estimation de la validité de leur procédure de codage. De plus, les auteurs ne spécifient pas comment ils ont fixé la note quand un médecin s'était exprimé plusieurs fois.


Pour pallier ces trois problèmes, nous avons amélioré la méthodologie du papier de Roussel et Raoult dans deux mesures.


D'une part, une fois les données des interventions des médecins recueillies, il a été demandé à chaque codeur de coder les interventions qu'il avait lui-même recueillies. Ensuite, un autre codeur codait à nouveau les mêmes interventions. Un troisième codeur a réglé les désaccords. Durant toutes ces étapes, les codeurs n'avaient pas conscience des financements des médecins.


D'autre part, nous avons changé quelque peu l'échelle de Raoult et Roussel :


2 = " Très favorable " est défini comme " ayant exprimé un appel à la généralisation de l'utilisation de l'hydroxychloroquine/remdesivir, rapportant une utilisation réussie du traitement dans la structure du médecin, ou affirmant que le traitement fonctionne contre le COVID-19 ".


1 = "Favorable" est défini comme "ayant exprimé des attitudes positives (c'est-à-dire des espoirs, une probabilité d'efficacité) concernant l'utilisation de l'hydroxychloroquine/remdesivir, tout en attendant d'autres résultats pour prendre position".


0 = 'Neutre' est défini comme 'exprimant le besoin de plus d'études pour faire un commentaire sur l'efficacité du traitement'.


-1 = "Défavorable" est défini comme "ayant exprimé des attitudes négatives (c'est-à-dire suspicion, probabilité d'inefficacité) sur l'utilisation de l'hydroxychloroquine/remdesivir, dans l'attente de plus de résultats pour prendre position".


-2 = "Très défavorable" est défini comme "ayant exprimé un appel à l'interdiction de l'utilisation de l'hydroxychloroquine/remdesivir, ou rapportant une utilisation infructueuse du traitement dans l'établissement du médecin, ou affirmant que le traitement ne fonctionne pas contre le COVID-19".


Notre échelle diffère de celle du papier original à plusieurs égards. Tout d'abord, nous avons essayé de rendre nos catégories de codage symétriques ("Très défavorable" reflète "Très favorable", tandis que "Défavorable" reflète "Favorable"). Ensuite, nous avons essayé d'évacuer les termes émotionnels (tels que "exprimer de la colère"). Ceux-ci auraient pu rendre notre codage plus subjectif. Enfin, mais c'est le plus important, nous avons essayé d'être plus précis sur la norme selon laquelle une opinion sur l'utilisation de l'HCQ devrait être considérée comme 'positive' ou 'négative' : leur efficacité dans le traitement et/ou la prévention du COVID-19.


Il semble que notre échelle mesure bien quelque chose. On peut par exemple noter que la corrélation entre la note du premier et du deuxième codeur est forte, elle dépasse 80%.


Lorsque nous rencontrions plusieurs opinions différentes des médecins, nous avons choisi l'opinion la plus extrême exprimée. Ceci nous permettait de nous rapprocher de la méthodologie de Roussel et Raoult qui ne donnent qu'une note ronde aux médecins (-2, -1, 0, 1, 2). Dans l'annexe néanmoins, nous refaisons tourner les mêmes modèles statistiques mais avec le score d'opinion moyen, et ceci ne change rien aux conclusions que je présente dans le prochain article. Mais avant de les découvrir, je vous recommande de lire la deuxième sous-section de ce billet.


Une méthode qui gonfle artificiellement la corrélation ?


Certains chercheurs comme Piehpo (2020) ont soulevé le fait que les méthodes statistiques de l'article pourraient avoir tendance à gonfler artificiellement les corrélations. Alors que Roussel et Raoult disposent de données sur les opinions de 44 médecins, ils calculent une corrélation basée sur... 5 observations.


Pourquoi ? Roussel et Raoult font un choix très particulier. Les deux chercheurs auraient tout à fait pu utiliser les données individuelles des 44 médecins pour vérifier si ceux qui sont le plus opposés à l'usage de l'HCQ ont reçu plus de financements de Gilead. Néanmoins, ils ont choisi de calculer la moyenne des financements pour chacun des cinq notes possible sur cette échelle, puis d'estimer la corrélation entre ces 5 financements moyens et le degré d'opposition à l'HCQ. Or, on perd beaucoup d'informations en passant de 44 à 5 observations.



(tableau issu de l'article original)


Dans notre article, nous comparons les deux méthodes (méthode Raoult avec les financements moyens pour chaque note, et méthode standard avec corrélation calculée avec les données individuelles des médecins). Nous montrons que ce choix contribue à gonfler très largement la corrélation entre financements par Gilead et opinion des médecins sur l'HCQ, en transformant une faible corrélation en une très forte corrélation.


Nous nous intéressons aux autres facteurs qui peuvent expliquer, ou, du moins prédire l'attitude des médecins vis à vis de l'HCQ (prestige académique de la recherche, affiliation ou non à l'IHU de Marseille que dirigeait alors le Dr Raoult...). Nous tentons aussi de comprendre si ces autres facteurs peuvent expliquer une potentielle relation entre opinion et financements. Est-ce que, s'il s'avère que les médecins anti-HCQ reçoivent plus de financements que les médecins pro-HCQ, ceci peut s'expliquer par le fait que les deux groupes de médecin ont d'autres caractéristiques qui les distinguent ?


Je parle de tout ceci dans mon deuxième article de blog. Cliquez ici pour le découvrir.


(1) En particulier, je dois à Florian l'analyse contenue dans la sous-section de cet article qui s'appelle "mesurer l'immesurable". Les économistes ne sont pas formés en psychométrie, et ça me semble bien dommage.