Item List

Des quasi-expériences pour sauver la planète: l’eau sale, et la taxe carbone

Connaissez-vous le point commun entre le choléra, la théorie du ruissellement, la taxe carbone, les politiques pour permettre des économies d’énergie ou l'interdiction des signes religieux ostentatoires ? Tous ces sujets peuvent être étudiés à l'aide de quasi-expériences. A l'heure du péril écologique, ces méthodes constituent un outil très puissant pour trouver les moyens les moins douloureux de réduire les émissions de CO2. Comprendre ce qu'est une quasi-expérience ne fera pas repousser vos cheveux si vous avez de la calvitie. Cela ne résoudra pas vos problèmes de sommeil ou de libido. Je pense pourtant que cet article vaut quelques minutes de votre temps, et ce, pour quatre raisons : 1. Les quasi-expériences sont un outil puissant pour sauver la planète (enfin, l'humanité) : elles permettent de connaître l’effet des politiques environnementales. Cet article est l'occasion de reparler d'environnement (et d'énergie !), et il est important pour comprendre la future interview qui paraitra bientôt sur ce blog d'un spécialiste de la politique basée sur les preuves appliquée à l'environnement. 2. Plus généralement, cette méthode est très utile pour savoir l'*effet* de toute politiques publique, ce qui est intéressant pour tout citoyen comme vous et moi. D'ailleurs, cet article parle aussi de la théorie du ruissellement, et de l'impact de l'interdiction des signes religieux ostentatoires. 3. Il y a cette croyance chez certains sceptiques (défenseurs des sciences) qu'on ne peut prouver une causalité que lors d'une expérience aléatoire. La réalité est plus nuancée. 4. On va parler de voyage interdimensionnel. Un exemple d'une approche quasi-expérimentale à la taxe carbone Si je vous dis   « politiques pour lutter contre le réchauffement climatique », la taxe carbone vous viendra sans doute vite à l’esprit. Jean-Marc Jancovici défend avec beaucoup d’éloquence la mesure et une majorité d'économistes sont d'accord avec lui sur ce point. D'un point de vue théorique, la taxe carbone a bien des avantages dont je parlerai dans un autre article. Mais empiriquement, connaître les effets de la taxation carbone est plus compliqué qu'on pourrait le penser. Imaginons pour l'exemple qu'en France, en janvier 2024, une taxation carbone massive entre en vigueur. Si les émissions continuent à augmenter après que cette loi prenne effet, comment savoir si la taxe a été efficace ? Peut-être que les émissions auraient été encore plus hautes sans la taxe. Il ne s'agit pas d'une interrogation purement théorique. La croissance économique étant aujourd'hui riche en CO2, il est tout à fait possible que les émissions continuent à augmenter, même si ce serait un rythme moins soutenu que sans la taxe. Et dans une économie en récession, les émissions pourraient baisser à cause de la récession et non de la taxe. Ce type de question se pose quant à l'efficacité de toute politique environnementale. Sans évaluation rigoureuse, le risque est alors d'avancer à l'aveugle, en espérant finir par trouver un peu au hasard un cocktail de politiques assez efficaces pour réduire finalement le volume total des émissions. On perdrait alors du temps et la possibilité de savoir s’il aurait pu exister des moyens moins douloureux d’obtenir la même réduction du volume d’émissions. Pour le dire en termes plus formels, pour savoir l'effet de la taxe carbone sur les émissions dans un pays, il ne suffit pas de comparer le niveau des émissions après la réforme au niveau des émissions avant la réforme. Il faudrait idéalement comparer l'ampleur des émissions dans ce pays après la réforme au contrefactuel, c'est-à-dire au niveau des émissions dans ce même pays dans un monde parallèle où la réforme n'aurait pas été mise en place. Ce n'est possible qu'à l'aide d'une machine à voyager dans des univers parallèles. Problème: le développement de cette technologie est encore à un stade... embryonnaire. Rassurons-nous. Il existe des méthodes possibles pour approximer ce contrefactuel. En théorie, on pourrait faire une expérience où on tire au sort les entreprises qui auront à payer une taxe carbone, et les entreprises qui en seront exemptés dans un premier temps. Imaginons alors qu'on observe un écart d'émissions entre les deux groupes. Ce sera la preuve d'un effet de la taxation carbone: par le tirage au sort, le fait d'avoir été soumis à la taxe carbone ou non sera le seul facteur qui distingue les entreprises soumises à la taxe des entreprises qui en sont exemptées. En pratique, la mesure serait impossible à justifier politiquement. Néanmoins, il existe une solution de secours, certes un peu moins fiable, mais qui permet d’obtenir des indices précieux. Comme je l'expliquais dans mon article sur l'efficacité du confinement, lorsqu'on ne peut pas faire d'expériences, on peut adopter une approche dite quasi-expérimentale. La diffusion de ces méthodes en science économique est une facette de ce qu’on appelle parfois la révolution de crédibilité. Plus fiables, ces méthodes sont devenues populaires en économie et dans d'autres disciplines comme en sociologie, en science-politique à l’américaine ou même en médecine (voir cet autre exemple). Dans notre exemple fictif, une méthode quasi-expérimentale possible serait le différence-en-différence (DiD). Ce n'est pas la méthode reine des approches quasi-expérimentales, mais elle est flexible et facile à implémenter. Le DiD est né en santé publique, Snow l'a utilisé en 1856 pour montrer que le choléra se diffusait par l'eau sale. Cette technique a connu une nouvelle popularité dans les années 1990. Etudiant les effets du salaire minimum sur l'emploi, les économistes David Card et Alan B. Krueger (1994) ont utilisé cette méthode mais en la modernisant. Cette modernisation était nécessaire pour pouvoir savoir si les résultats du DiD sont significatifs statistiquement, et appliquer la méthode à de larges bases de données de panel, c'est-à-dire qui suivent plusieurs individus, entreprises, ou pays au cours du temps. Mais il n'est pas nécessaire de comprendre le détail de ces sophistications pour saisir l'esprit de la méthode. Le voici : pour reprendre notre exemple, on peut supposer qu'un pays dont les émissions auraient évolué au même rythme que la France quelques années avant la mise en place de la taxe carbone permettait d'approcher le contrefactuel de la France. Ce serait notre pays contrôle, comme un groupe contrôle. On pourrait alors estimer l'effet de notre taxe carbone en supposant que sans cette réforme, les émissions auraient continué à croître au même rythme que dans le groupe contrôle, comme avant la réforme. Si les émissions se mettent à augmenter plus vite dans le groupe contrôle qu’en France à partir de janvier 2024 comme dans la vidéo précédente, ce sera un indice que la réforme aura réduit les émissions en France. C'est là toute l'intuition de la méthode du DiD. Une hypothèse clef est celle des tendances parallèles : en l'absence de la taxe carbone, la France aurait suivi une trajectoire comparable en terme d'émissions à celle du pays contrôle. On peut vérifier que les tendances en termes d'émissions étaient comparables avant la mise en place de la politique. C'est même absolument nécessaire. Néanmoins, on ne peut pas vérifier que ce parallélisme se serait poursuivi après la mise en place de la taxe : faute de machine à voyager entre les mondes, on ne peut pas observer le niveau des émissions en 2024 dans une France qui n'aurait pas mis en place cette taxe carbone. Néanmoins, si aucune autre loi n'est entrée en vigueur en même temps que celle instaurant la taxation, cette hypothèse paraît raisonnable. Il serait surprenant que les trajectoires d'émission des deux pays se mettent à diverger pour une autre raison que la réforme... exactement au moment de la réforme, surtout s'il n'y a pas d'autre politique avec des effets comparables implémentée au même moment. Ce serait un sacré hasard ! C'est possible, mais improbable. Dans notre exemple, il faudrait imaginer que les entreprises se seraient mises à polluer significativement moins que les entreprises du pays contrôle précisément à partir de janvier 2024, date de l'entrée en vigueur de la politique, et non en décembre ou en novembre, et ce, pour une raison qui n'aurait rien avoir avec la politique de taxation carbone. Bien sûr, les comportements et les mentalités peuvent se mettre à diverger entre pays qui connaissaient des tendances similaires pour une raison que le chercheur ne sait pas saisir et mesurer. Cependant, il faut insister sur la discontinuité. Si un tel changement de 'culture' se produit, il serait sans doute incrémental. Il serait surprenant qu'il soit exactement synchronisé à l'implémentation de la politique, et qu'on n'en détecte pas de traces juste avant qu'elle prenne effet. Pour paraphraser Charles Darwin, on pourrait dire que "le [social] n'aime pas les discontinuités". Une difficulté toutefois avec cette approche est la possibilité d'effets d'anticipation: les agents peuvent changer leurs comportements en anticipation de la politique. Une solution ici serait d'estimer l'effet à partir de l'annonce de la mise en place de la taxe plutôt que de sa mise en vigueur. On notera aussi que toute notre stratégie repose sur l'existence d'un pays dont les émissions ont évolué au même rythme que celle de la France. Mais que faire si on n'en trouve pas ? Il existe de nombreuses solutions, l'une d'elle est celle du contrôle synthétique. Que faire en l’absence de tendances parallèles ? La méthode du contrôle synthétique Dans une contribution particulièrement intéressante, Andersson (2019) utilise la méthode du contrôle synthétique pour évaluer les effets de la mise en place d’une taxe carbone en Suède. Elle montre que les effets de la mesure ont été notables. La taxe carbone suédoise a réduit les émissions du pays, sans vraisemblablement réduire le PIB par habitant. Ce résultat est cohérent avec une vaste littérature économétrique sur les conséquences de la taxation carbone qui montre son efficacité pour réduire les émissions (quoique parfois limitée) et ses effets relativement contenus sur l’activité (source). Pour savoir que les émissions ont bien baissé à cause de la taxe carbone, l’économiste utilise justement la méthode du contrôle synthétique. Cette méthode a été introduite en économie/science-politique américaine, puis elle s’est diffusée dans d’autres disciplines comme la santé publique et l’épidémiologie. Ici, il s’agit de comparer les émissions en Suède à celles d’un groupe contrôle créé par le chercheur et dont la tendance était la même en termes d’émissions de CO2 que la Suède avant l’introduction de la taxe. Comme dans le différence-en-différence, si les tendances de la Suède et de ce groupe de contrôle cessent de coïncider juste après la taxe, c’est un vrai indice de l’effet de la taxe. Comment crée-t-on ce groupe de contrôle synthétique ? Ici, la méthode du contrôle synthétique permet de combiner les tendances des pays européens pour créer un groupe de contrôle valide. Pour comprendre comment, il faut bien avoir en tête ce qu'est une moyenne pondérée. Si vous vous figurez mal ce que c'est, rassurez-vous : vous en avez déjà croisé. A l'école, votre moyenne scolaire était (est) une moyenne pondérée. En effet, on pourrait aussi appeler les coefficients assignés à chaque matière des poids. Peut-être vous êtes vous déjà venu à l'esprit qu’avec assez de notes dans assez de matières, on peut obtenir n'importe quelle moyenne pourvu qu'on ajuste habilement les coefficients. Remplacez les notes dans différentes matières par les émissions dans différents pays et vous obtiendrez la méthode d'Andersson. Le chercheur compare l’évolution des émissions de CO2 à une moyenne pondérée des émissions des pays de l’OCDE (développés), moyenne dont les poids ont été ajustés pour coller à la série des émissions suédoises avant l’introduction de la taxe. Sur ce graphique issu de l'article, on voit le groupe contrôle synthétique en pointillé et les émissions effectives de la Suède en trait plein : Après 1990, date de la mise en place de la taxe, on voit nettement que les émissions de la Suède continuent à augmenter, mais bien moins vite que celles du groupe contrôle. Malgré l'échantillon plutôt réduit qui empêche de détecter des petits effets, cette différence entre la Suède et la Suède synthétique est statistiquement significative. Il existe plusieurs façons d'augmenter encore la fiabilité de ce résultat. Un problème possible naît de ce qu'on appelle l'overfitting. Dans la langue de Molière et de Kaaris, qui nous rappelle que "Les hommes mentent mais pas les chiffres", on parle aussi de sur-apprentissage. Il est possible que les tendances divergent mécaniquement, simplement parce que les poids ont été ajustés sur une période antérieure à la mise en vigueur de la politique. Néanmoins, on peut employer ce qu'on appelle des tests placebo pour addresser ce biais. Par exemple, on peut ajuster les poids sur une période qui se finit bien avant la mise en place de la politique. Ceci revient à supposer que la taxe a été instaurée à une date bien inférieure à sa vraie date. Alors que la taxe carbone suédoise a été implémentée en 1990, Andersson la fixe artificiellement à 1980, et 1970 et constate que les tendances ne divergent pas avant que la taxe ait été mise en place. Et ceci n’est qu'un test dans la batterie de ceux que l’auteur mène pour vérifier la robustesse de leur résultat. Le contrôle synthétique n'est toutefois pas la seule manière de trouver des tendances comparables. Théorie du ruissellement, économies d'énergie, et port du voile : les techniques de matching et autres modernités Si plusieurs pays finissent par mettre en place une taxe carbone, on peut aussi combiner le DiD avec des techniques de matching. Elles consistent à utiliser des algorithmes qui fouillent des grandes bases de données pour trouver un pays (ou un ménage, une entreprise) qui a une tendance similaire avant l'introduction de la politique. C'est la solution qu'emploie cette étude très médiatisée sur la 'théorie du ruissellement', l'impact des politiques de baisse de la fiscalité sur les plus riches sur les inégalités et l'activité économique. Ici, la méthode des chercheurs pour trouver un contrefactuel pour chaque baisse de taxe revient (très schématiquement) à dire leur logiciel statistique : "pour chaque baisse de taxe dans un pays donné, fouille la base de données, et débrouille-toi pour me trouver un pays qui avait une tendance similaire en termes de politiques fiscales et de l'évolution de certaines variables (PIB par tête, ouverture commerciale, vote pour les partis de gauche)". Cette étude suggère que les baisses de taxe sur les riches augmentent les inégalités, mais ne semblent pas causer une hausse de la croissance, ou une baisse du chômage. Néanmoins, il existe encore des débats très riches en économie et statistique sur la bonne méthode lorsqu'on s'intéresse non plus à l'effet d'une politique sur un seul pays mais à l'effet d’une même politique implémentée à des moments différents dans plusieurs pays. Une autre méthode consiste à utiliser certains progrès des techniques de prédiction en data science. Par exemple, Christensen et al (2021) s'intéressent à un problème épineux : alors que la transition écologique nécessite des économies d’énergie, ceux permis par des politiques ciblées sur cet objectif sont systématiquement surestimés. En employant une de ces nouvelles méthodes, les chercheurs montrent que ces échecs de prédiction s'expliquent principalement non pas par un effet rebond (je paie moins cher donc je consomme plus), mais par l'hétérogénéité de la qualité des travaux de rénovation (par exemple, certains artisans sont moins efficaces que d'autres) et par des biais systématiques dans les modèles d'ingénierie qui tentent de prédire les économies d'énergie. Il faut prendre ces derniers résultats avec plus de distance. (Quasi-)expérience ou non, une étude suffit rarement. Mon billet est centré sur l'étude d'Andersson car ses résultats sont cohérents avec le reste de la littérature. Néanmoins, les résultats fournis par des approches quasi-expérimentales donnent parfois des résultats contradictoires. Je pense par exemple aux évaluations de l'interdiction des signes religieux ostentatoires menée dans les années 1990 et 2000 en France. Il semble qu'il va falloir plus de temps et d'études pour bien comprendre l'impact de ce type de politiques sur les jeunes musulmanes.

Corruption des médecins : a-t-on débunké Roussel et Raoult ? (2/2)

Les propos sur ce blog n'engagent que leur auteur, Louis FREGET, et non tous les auteurs de l'étude en question. Toutes les citations sont traduites de l'anglais par moi-même. Les passages soulignés sont des liens hypertexte. Dans le billet précédent, je présentais les limites de l'étude de Yanis Roussel et Didier Raoult que nous avons répliqué. Il s'agit d'une étude qui trouvait une corrélation parfaite entre les attitudes des médecins français envers l'hydroxychlroquine (HCQ) comme traitements contre le COVID-19 et leurs conflits d'intérêt avec Gilead Sciences - la société qui a promu le Remdesivir, un autre traitement potentiel contre le COVID-19. Plus les médecins auraient reçu d'argent de Gilead, moins ils seraient enclins à recommander dans les médias l'usage de l'HCQ. L'étude porte sur les infectiologues français, membres du Comité des Maladies Infectieuses et Tropicales (CMIT). J'expliquais aussi comment nous tentions de contourner les limites de l'étude originale dans notre étude de réplication. Si vous ne l'avez pas déjà fait, je vous recommande chaleureusement de lire ce premier billet avant celui-ci. Place maintenant aux principaux résultats de notre étude. Je dirais qu'ils sont au nombre de trois, et qu'ils différent assez sensiblement de ceux de l'étude originale : 1. On ne parvient pas (ou très mal) à prédire l'opinion exprimée d'un médecin sur l'HCQ à partir de ses financements par Gilead. Il n'y a pas de corrélation parfaite ou "quasi-parfaite" entre conflits d'intérêt avec Gilead et attitudes des médecins à l'égard de l'HCQ comme traitement contre le COVID. Souvent, l'association n'est même pas significative statistiquement. La méthode de Roussel et Raoult amplifie considérablement la corrélation entre les deux variables. 2. S'il y a une corrélation significative (mais non quasi-parfaite) entre financements totaux (par toute l'industrie pharmaceutique) et attitudes des médecins quant à la prescription de l'HCQ, il ne semble pas y avoir de lien privilégié entre Gilead Sciences et les attitudes envers l'HCQ, par rapport aux entreprises pharmaceutiques en général. 3. L'appartenance ou non à l'IHU est de loin le meilleur prédicteur des attitudes des médecins, suggérant qu'il faut au moins autant s'intéresser aux 'conflits d'intérêts institutionnels' qu'aux conflits d'intérêt financiers. Le lecteur aguerri que vous êtes aura noté que je parle de corrélations, et que je ne fais pas d'affirmations causales. Je discute néanmoins de l'interprétation qu'on peut faire de ces résultats à la fin de l'article. Premier résultat : pas de corrélation parfaite entre conflits d'intérêt avec Gilead et attitudes des médecins vis à vis de la prescription de l'HCQ Il existe plusieurs manières d'évaluer la corrélation entre attitudes des médecins et financements par Gilead - j'en parle plus bas. Néanmoins, dans la majorité de nos tests statistiques, on ne trouve pas de corrélation significative entre conflits d'intérêt par Gilead et opinions exprimées à l'égard de l'HCQ. Même en se concentrant sur les rares cas où la corrélation est significative statistiquement, elle est très loin d'être parfaite ou "quasi-parfaite" : on ne parvient pas (ou très mal) à prédire l'opinion exprimée d'un médecin sur l'HCQ à partir de ses financements. Même à considérer qu’une corrélation entre financements par Gilead et prise de position des médecins existe, celle-ci serait faible. Nous peinons donc à reproduire la conclusion principale de l'article de Roussel et Raoult. Le graphique ci-dessous, issu de notre article, illustre bien ce résultat. En ordonnée, on trouve une note d'attitude publique vis à vis de l'usage de l'HCQ contre le COVID-19 (oui, le) de 50 membres du Comité des Maladies Infectieuses et Tropicales (CMIT) qui ont donné leur avis publiquement. En abscisse, on trouve la somme des financements de Gilead reçus par les médecins entre 2013 et 2019. La relation est très vaguement négative : les médecins qui ont reçu plus d'argent de Gilead semblent un peu moins nombreux à défendre l'HCQ. Néanmoins, les points sont très dispersés autour de la droite. On voit un nombre important de médecins qui n'ont pas reçu de financement de Gilead et ont pour autant émis des opinions neutres ou défavorables quant à l'usage de l'HCQ pour traiter le COVID, et, dans une moindre mesure, on trouve aussi des médecins qui ont reçu beaucoup de financements par Gilead et ont pourtant émis une opinion au moins modérément positive sur la molécule. Vous trouvez peut-être cette interprétation du graphique un peu approximative. Qu'à cela ne tienne : on peut mettre deux chiffres sur cette importante dispersion qu'on observe. Le premier est le coefficient de détermination ou le R^2. C'est un chiffre entre 0 et 1 qui, très (trop) schématiquement mesure la capacité d'un indicateur à en prédire un autre. Une corrélation quasi-parfaite résulterait en un coefficient de détermination proche de 1, disons 80%. Sur ce graphique, ce coefficient est de... 6%. Toutefois, utiliser la méthode très singulière des deux auteurs de l'article d'origine fait bondir ce chiffre. Le coefficient de détermination passe à 67% -le coefficient de corrélation spearman, indicateur plus indiqué pour leur méthode est de 90%-, il s'agit donc d'une corrélation quasi-parfaite. Néanmoins, avec d'autres chercheurs comme le biostasticien Paul-Hans Piehpo, nous pensons que la méthode, disons conventionnelle, celle que nous employons, est la plus fiable. Pourquoi ? La méthode de Raoult et Roussel consiste à calculer les financements moyens par rang de l'indicateur (-2, -1, 0, 1, 2), puis à calculer la corrélation avec les attitudes sur l'HCQ avec ces 5 observations agrégées plutôt qu'avec les 50 observations individuelles des médecins. C'est une pratique très surprenante, que les auteurs ne justifient pas dans l'article. Or, on perd énormément d'information en passant de 50 à 5 observations. On néglige la variabilité au sein de chaque rang : ainsi on voit sur le graphique que si certains infectiologues qui ont émis une opinion neutre ou négative sur l'HCQ ont reçu beaucoup de financement de Gilead, d'autres qui déconseillaient l'usage de l'HCQ en avaient reçu très peu ou aucun. La méthode de Roussel et Raoult conduit à surestimer considérablement la corrélation entre les deux variables. Le deuxième chiffre intéressant est la p-value. C'est elle qui nous permet de savoie si le résultat est significatif statistiquement ou non. Dans la plupart de nos calculs, elle est de 10%, ce qui signifie qu'on aurait 10% de chance d'observer une relation aussi faible (ou forte) entre conflits d'intérêt par Gilead et attitudes publiques sur l'HCQ des médecins dans un monde où on saurait qu'il n'y a pas de vraie relation entre ces deux variables. C'est supérieur au seuil de 5% où on peut dire par convention que la relation est significative. Lorsqu'on trouve un premier résultat, il est toujours intéressant de le jeter contre les murs pour vérifier s'il est solide. Est-ce que résultat tient quand on change un peu la manière dont on mesure cette corrélation ? Oui, comme je l'explique dans cette note de bas de page (1), on trouve sensiblement la même conclusion quand : - On change la manière dont on fixe le score d'approbation de l'HCQ des médecins qui se sont exprimés plusieurs fois ; - On change les méthodes statistiques - certaines sont peut-être plus adaptées quand on donne aux médecins une note ronde (-2, 1, 0, 1, 2), comme Roussel et Raoult dans leur papier original. L'annexe de l'article contient encore d'autres tests de cette nature. Ils convergent vers notre conclusion : la corrélation financement par Gilead-attitudes des médecins à l'égard est parfois significative, souvent non-significative, et elle est toujours faible. Elle n'est donc pas quasi-parfaite. Deuxième résultat : il ne semble pas y avoir de lien privilégié entre Gilead Sciences et les attitudes envers l'HCQ, par rapport aux entreprises pharmaceutiques en général. Il existe bien une corrélation significative entre financements totaux et attitudes des médecin envers l'HCQ: (R^2 : 13%, p-value<5%). Néanmoins, contrairement à dans l'étude de Roussel et Raoult, ce lien est donc nettement plus fort que celui entre financements par Gilead et attitudes des médecins. Plus encore, il n'y a pas de corrélation entre le part des financements de chaque médecin par Gilead dans les financements totaux et leurs attitudes vis à vis de l’HCQ. Ainsi, il n'y a pas de lien spécifique entre les attitudes envers HCQ et les conflits d'intérêts avec Gilead Sciences, par rapport aux entreprises pharmaceutiques en général. Cela semble peu compatible avec la thèse que Gilead aurait orchestré le déclin de l'HCQ. Troisième résultat: les 'conflits d'intérêts institutionnels' prédisent mieux les opinions que les conflits d'intérêts financiers En revanche, la corrélation entre opinions sur l'HCQ et le fait d'être affilié ou non à l'IHU de Didier Raoult est très significative (p-value <0.000) et plus large que les autres (R^2= 30%). Les membres de l'IHU ont exprimé dans les médias des opinons beaucoup plus favorables à l'égard de l' HCQ que le reste des infectiologues. Ceci suggère qu'il faut aussi considérer le rôle de facteurs plus institutionnels. Au sein d'une même unité de recherche, il peut exister des rapports de force particuliers qui désincitent à contredire le directeur d'un institut. Il peut également y avoir un effet de sélection. Qui se ressemble se rassemble : les membres de l'IHU peuvent avoir choisi cet institut car ils adhèrent aux mêmes valeurs qui poussent Didier Raoult à défendre l'usage de l'HCQ (confiance dans les études observationnelles plutôt qu'expérimentales, postulat qu'il faut plutôt juger d'une étude scientifique à l'aune des qualités individuelles de l'auteur que de celles de sa méthode, méfiance envers l'industrie pharmaceutique, ...). Enfin, il faut considérer ce que les économistes et les sociologues appellent des effets de pairs : certains comportements sont contagieux, car on imite ceux qui sont proches de nous, et il y a un coût à ne pas agir comme les membres du groupe auquel on s'identifie. Il existe des indices que les comportements des médecins sont affectés par ces effets de pair. Par exemple, cette étude trouve des indices de l'existence d'effets de pair entre médecins dans un autre contexte. Ce papier ne trouve des effets de pair qu'au sein des membres d'un même laboratoire, mais pas entre membres de laboratoires différents. C'est très intéressant, car c'est précisément le type de mécanisme qui peut expliquer la polarisation d'opinion qu'on observe dans les données. D'autre part, une expérience randomisée contrôlée menée aux Etats-Unis montre qu'une lettre indiquant à un médecin qu'il prescrit plus que la moyenne des médecins dans son Etat réduit ses prescriptions d'un neuroleptique. Est-ce là la preuve que les infectiologues sont les pantins non pas de Gilead, mais de l'industrie pharmaceutique en général ? La distinction entre corrélation et causalité Si on exclut les conflits d'intérêt institutionnels (affiliation ou non à l’IHU), la seule corrélation robuste est celle entre les financements totaux et les attitudes des médecins. Ce résultat est cohérent avec une assez large littérature sur le sujet qui trouve des corrélations entre comportements des médecins (notamment leurs prescriptions) et leurs conflits d'intérêt. En France, par exemple, cette étude concluait que les généralistes avec plus de conflits d'intérêt prescrivent plus. Cependant, on ne le dit jamais assez : corrélation n'est pas causalité. On peut ici discuter de la pertinence de deux biais, dont je parle dans presque tous mes articles : Premièrement, il peut y avoir un biais dit de simultanéité. Qui de la poule ou de l'oeuf ? Est-ce que le fait de recevoir de l'argent de l'industrie pharmaceutique cause une hausse des prescriptions des médecins en les influençant ? Ou est-ce que le médecins qui prescrivent sont plus susceptibles de croire en les vertus de la médicamentation et de contracter avec les industries pharmaceutiques, si bien qu'ils prescriraient plus de toute façon ? Dans notre cas, est-ce que certains médecins sont 'pro-gilead' parce qu'ils ont reçu des financements ? Ou est-ce que ces médecins ont reçu des financements parce qu'ils sont pro-gilead ? A moins de considérer que Gilead a une politique particulière qui attire certains médecins plutôt que d'autres, cette objection est sans doute moins pertinente dans notre cas, car on associe les opinions des médecins à la somme de l'argent qu'ils ont reçu entre 2013 et 2019, c'est-à-dire avant la crise du COVID et les débats sur la prescription de l'HCQ. Deuxièmement, il faut considérer ce qu'on appelle un biais de la variable omise. Peut-être qu'il existe des variables qui expliquent à la fois que certaines personnes reçoivent plus d'argent de l'industrie pharmaceutique et soient plus opposés à l'usage de l'HCQ. Ce ne serait alors pas les financements qui rendent les chercheurs anti-HCQ, mais le fait qu'il existe des causes communes au fait de recevoir de l'argent des entreprises pharmaceutiques et d'être anti-HCQ. Dans notre échantillon, les opposants à la prescription de l'HCQ ont souvent attaqué la rigueur méthodologique des études en sa faveur (études non-expérimentales qui empêchent de savoir si les patients avec de l'HCQ sont en meilleure santé à cause de la molécule ou parce qu'ils étaient en meilleur santé, biais du temps immortel, changement a posteriori des critères de jugement,...). Or, il est assez raisonnable de penser que les meilleurs chercheurs puissent aussi recevoir plus de financements, y compris du privé. Il existe une première réponse statistique à ce biais de la variable omise. En effet, comme on peut tester si le salaire des femmes et des hommes diffère à poste, éducation, égales, on peut utiliser les mêmes méthodes statistiques pour vérifier si l'attitude des chercheurs diffère entre chercheurs qui ont reçu beaucoup et peu de financement de l'industrie pharmaceutique à compétence égale, ou en tout cas indicateurs censés mesurés la compétence égaux. On dit qu'on contrôle par ces variables, et c'est ce qu'on fait dans notre annexe, dont je recommande la lecture préalable à qui voudrait critiquer notre article. Reste le plus dur : mesurer la compétence. Nous avons tenté de l'approximer avec plusieurs variables très imparfaites : h index (un indicateur qui mélange le nombre de publications et de citations par d'autres scientifiques), nombre de publications, âge, et statut universitaire (Docteur ou Professeur). Cependant, aucune de ces mesures de la compétence n'est significativement corrélée aux opinions exprimées dans les modèles qui incluent plusieurs variables à la fois. Si contrôler par ces variables réduit encore la significativité des liens attitudes-financements par Gilead, l'association attitude-financements totaux résiste bien (Annexe 9, table 12-13). Néanmoins, le prestige des publications est un indicateur très imparfait de la compétence des chercheurs, en particulier alors qu'il a été démontré que les études les plus citées étaient les moins reproductibles. Dans l'esprit de la jolie formule d'Idriss Aberkane sur les notes, on pourrait dire que "la [compétence scientifique ainsi mesurée] est à la [compétence] ce que le cheval de bois est au vrai cheval". Une autre variable omise pourrait être l'appartenance à l'IHU. Ses membres cumulent des financements faibles ou nuls, et ils ont aussi beaucoup de raisons d'être pro-HCQ, j'en parlais plus haut. On voyait sur le graphique au début de l'article que la faible relation négative entre financements et attitudes envers l'HCQ semble s'expliquer essentiellement par les membres de l'IHU (les triangles verts) qui cumulent absence de financement et attitudes très favorables quant à l'usage de l'HCQ. De fait, quand on exclut les chercheurs de l'IHU de l'échantillon, l'association attitudes-financement Gilead reste non significative (p=0,345), et la corrélation attitudes-financement total (par toutes les entreprises pharmaceutiques) devient non-significative (p=0,054) (2). Toutefois, ajouter quelques contrôles ne suffit pas à corriger le biais de la variable omise. On peut avoir oublié des variables, et peut-être que certaines variables omises ne peuvent être mesurées. C'est la raison pour laquelle les méthodes expérimentales ont été inventées. Ici, idéalement pour pouvoir affirmer l'existence d'un lien de causalité, il faudrait faire une expérience où on tire au sort des médecins qui recevront des financements supplémentaires et ceux qui n'en recevront pas. Imaginons alors qu'on observe un écart de comportement entre les deux groupes. Ce sera la preuve d'un effet des financements. Par le tirage au sort, le fait d'avoir reçu plus de financements ou non sera le seul facteur qui pourrait expliquer que les médecins qui ont reçu des financements supplémentaires soient plus anti-HCQ (ou pro-HCQ) que ceux qui n'en ont pas reçu. En pratique, cela semble difficile. En revanche, il existe des méthodes quasi-expérimentales, et dont il est beaucoup plus probable qu'elles puissent être employées un jour pour démêler causalité et corrélation dans ce contexte. Je parle de ces méthodes dans mon article sur l'efficacité du confinement, ou dans celui-ci sur le choléra, la taxe carbone et le port du voile. On m'a averti qu'une équipe de chercheurs travaillait actuellement en France sur le sujet avec ce type de méthodes. J'ai hâte de découvrir leurs résultats, et j'écrirai sur le sujet quand ils paraîtront. A ce stade, il est difficile de savoir si les corrélations que nous avons exhumé sont causales. On notera que d'un point de vue politique, ce type de corrélations peut suffire pour justifier qu'on régule les liens entre médecins et entreprises pharmaceutiques, régulations qu'on pourrait de toutes façons défendre sans ce type de données. Mais ce n'est pas mon sujet. Je m'intéresse dans mes recherches et sur ce blog à ce qui est, pas à ce qui devrait être - je reviens sur cette distinction dans cet article sur les discriminations à l'embauche. Conclusion Est-ce que Gilead a orchestré avec succès le déclin de l'HCQ comme traitement contre le COVID-19 ? On pourrait le croire à la lecture de la conclusion de l'étude originale, qui trouvait une corrélation parfaite entre le degré d'opposition publique à l'HCQ des infectiologues français et leurs financements par Gilead, et si on suppose que ce type de corrélation est causale. Néanmoins, notre réplication montre que la corrélation entre attitudes vis à vis de l'HCQ et financement par Gilead est en réalité faible et fragile. Et en dehors du monde contrôlé des expériences, la distinction entre corrélation et causalité n'est jamais cosmétique. Quand on contrôle par l'affiliation à l'IHU, la relation financement par Gilead-attitudes disparaît complètement. Ceci suggère qu'elle s'explique par le fait que les pro-HCQ sont concentrés dans un institut qui a reçu peu de financement par Gilead et qui est dirigé par un chercheur qui défend l'usage de l''HCQ. Plus généralement, rien ne permet d'affirmer que les médecins pro-HCQ diffèrent seulement des médecins anti-HCQ (ou neutres) par les financements qu'ils ont reçu, et que c'est donc ce facteur qui explique leurs différentes prises de position vis-à-vis de l'HCQ. C'est ce type de précaution qui m'empêche d'affirmer que la corrélation modérée que nous trouvons entre financements totaux et attitudes vis à vis de l'HCQ est causale, même si elle ne semble pas s'expliquer par les quelques variables tierces que nous avons collectées. Il ne nous reste qu'à attendre le résultat d'études quasi-expérimentales, que je documenterai sur ce blog. Quand bien même on ferait l'hypothèse (très lourde) que toutes nos corrélations seraient causales, l'effet des financements par Gilead sur les attitudes des médecins serait très faible, et celui des financements par toute l'industrie pharmaceutique au mieux modéré (3). Il faut se méfier des raisonnements monocausaux. Il y a une infinité d'autres facteurs qui peuvent déterminer les comportements des médecins. On peut penser aux résultats des études scientifiques, d'abord. Nos données montrent qu'entre août et décembre 2020, les infectiologues du CMIT ont émis des opinions significativement moins favorables à la prescription de l'HCQ et du Remdésivir qu'entre février et mai 2020. Or, cette période est justement celle où les études suggèrant l'inefficacité de ces deux molécules contre le COVID-19 commençaient à s'accumuler. On peut aussi penser aux conflits d'intérêt institutionnels dont je parlais plus haut. La seule forte corrélation que nous avons trouvé est celle entre l'affiliation à l'IHU et l'attitude à l'égard de l'HCQ comme traitement contre le COVID-19. Même si on veut faire de toutes ces corrélations des causalités, on ne peut pas nier que les conflits d'intérêt financiers semblent être une vague dans l'océan des raisons qui poussent les médecins à faire leurs choix, et que d'autres facteurs semblent jouer un rôle aussi important, voire nettement plus important. Je finis ce billet de blog comme notre article de recherche, par cette citation de chercheur que Florian Cova a déniché : "Toutefois, il est naïf de ne voir dans les conflits d’intérêts que celui du financement, il en existe bien d’autres. Un des conflits les plus importants est le conflit idéologique, certaines personnes ont une approche religieuse des théories scientifiques. Celles-ci peuvent leur avoir permis de développer leur carrière, leur pensée, la remise en cause de ces théories les met en danger de leur croyance et peut déclencher des réactions extraordinairement violentes (...) Il existe bien sûr une autre source d'influence : les variables affectives. Nous considérons avec plus de bienveillance une théorie (même une qui va à l'encontre de notre propre vision du monde) lorsqu'elle émane d'une personne que nous aimons ou respectons." L'auteur de cet extrait est Didier Raoult, dans son livre La Science est un sport de combat. ****** (1) On notera que les médecins se sont parfois exprimés plusieurs fois, et que ce graphique représente leurs opinions les plus extrêmes à l'égard de l'usage de la molécule contre le COVID. Nous avons fait ce choix pour nous rapprocher de la méthodologie de Roussel et Raoult qui ne donnent qu'une note ronde aux médecins (-2, -1, 0, 1, 2). Il est pourtant difficile de savoir quel choix faire car les auteurs ne spécifient pas comment ils ont fixé la note quand un médecin s'était exprimé plusieurs fois. Ceci implique que notre variable expliquée, l'opinion des médecins est discrète (elle ne peut prendre que 5 valeurs) et non continue. Or, dans ce cas, il peut être plus d'indiqué d'employer une autre méthode, qui porte le nom poétique et léger de régression probit ordonnée. Avec cette méthode, on trouve une p-value de 10,3% : la relation entre financement par Gilead et attitudes envers l'HCQ n'est toujours pas significative. Toujours pas de corrélation parfaite à l'horizon. De plus, nous avons mesuré cette relation en employant les opinions moyennes des médecins plutôt que les opinions plus extrêmes. Avec cette mesure des opinions qui s'éloigne de celle Raoult et Roussel, la corrélation devient significative. Elle n'est néanmoins toujours pas "quasi-parfaite" (R^2= 9%). Il faut toujours vérifier que le résultat tient quand on change un peu la manière dont on mesure la corrélation. Les économistes appellent ce type d'exercice des tests de robustesse, et les épidémiologistes des analyses de sensibilité. C'est ce que nous avons fait dans notre annexe en ligne, disponible à ce lien. C'est très important pour deux raisons. Premièrement, même quand il n'y a pas de vraie relation entre les variables, on finira toujours par trouver une relation significative en multipliant les tests. C'est ce qu'on appelle le p-hacking, et c'est une des explications de la crise de la réplicabilité dont je parlais plus tôt. Lancez 1 000 000 de fois une pièce et vous finirez par faire 10 piles de suite, mais ça ne signifiera pas que la pièce n'est pas équilibrée. Deuxièmement, les résultats peuvent changer systématiquement avec la façon dont on mesure les variables (ici opinion moyenne contre opinion extrême) ou dont on calcule la corrélation (ici, avec les MCO ou un modèle probit ordonné, pour les plus nerds d'entre vous). Une autre mesure que nous avons prise pour éviter le p-hacking est d'avoir pré-enregistré nos analyses. Nous avons listé en ligne les tests statistiques que nous allions faire avant de les mener. (2) Dans des modèles à plusieurs variables, l'appartenance à l'IHU est toujours significative, l'association financement par Gilead-attitudes ne l'est pas, et celle financement total- attitudes envers l'HCQ l'est (annexe 9). (3) J'utilise ici une définition des tailles d'effet avec des coefficients de corrélation telle qu'on peut en trouver ici.

Corruption des médecins : a-t-on débunké Roussel et Raoult ? (½)

Les propos sur ce blog n'engagent que leur auteur, Louis FREGET, et non tous les auteurs de l'étude en question. Toutes les citations sont traduites de l'anglais par moi-même. Les passages soulignés sont des liens hypertexte. Pour la première fois sur ce blog, je vais vous parler un peu de mes recherches. Dans ce billet, je vais vous présenter une étude de réplication sur laquelle j'ai travaillé par intermittence depuis environ un an. Je suis un des deux principaux auteurs du papier, avec le philosophe expérimental Florian Cova qui y a au moins autant contribué que moi. Mais nous ne sommes pas les seuls auteurs. J'ai eu la chance de travailler sur ce projet avec deux médecins (Michael Rochoy et Valentin Ruggeri), une doctorante en philosophie (Céline Schöpfer), et un biostatisticien (Matthieu Mulot). Je suis ravi de cette collaboration. J'en ai appris beaucoup. (1) Une étude de réplication est une étude dans laquelle on tente de reproduire et de tester la robustesse des résultats d'une autre étude déjà parue. On peut faire cet exercice en réutilisant la base de données qui existe déjà, et le code informatique qui est nécessaire pour reproduire les résultats des analyses statistiques de l'article - on peut par exemple alors vérifier qu'il ne contient pas d'erreurs. On peut aussi collecter de nouvelles données pour mener des analyses comparables. Ici, nous avons été en quelque sorte forcé de récolter à nouveau les données car les auteurs de l'article original n'ont pas répondu aux demandes de notre équipe de chercheurs - ni à celles d'aucune autre à notre connaissance- de partager leurs données. La réplication est une pratique très courante en sciences. Elle est pratiquée par des chercheurs, et elle est souvent un passage obligé pour des étudiants se formant à la recherche. Elle est devenue particulièrement importante alors que le sciences médicales et sociales traversent ce qu'on appelle une crise de la réplication : on ne parvient pas systématiquement à reproduire les résultats de certaines études. Nous en parlions un peu dans cet épisode du Couarail Sceptique avec Olivier (l'Economiste Sceptique). Dans certaines disciplines, les chiffres sont terrifiants : seules 11% des études en oncologie sont reproductibles, et en général les taux de reproduction dépassent rarement 50%. Cette crise n’est pas la preuve qu’il ne faut pas croire la recherche scientifique. Elle implique simplement qu’il ne faut en général pas croire une seule étude, mais plutôt chercher un faisceau d’études qui ont la même conclusion. Les causes de cette situation sont multiples. Elles tiennent aux flous de certains protocoles, au fait que les résultats peuvent changer quand les contextes et les populations changent, à des erreurs de code informatique et de manipulations expérimentales, et beaucoup plus rarement à des manipulations intentionnelles des données. Qu'on ne parvienne pas à reproduire les résultats d'une étude ne dit pas nécessairement quelque chose de la compétence et de l'honnêteté de ses auteurs. Ici, justement, nous ne parvenons pas à reproduire toutes les conclusions de l'étude que nous répliquons. "Dites moi qui vous paie, Docteur, et je vous dirais quelle molécule vous défendez dans la presse" L'étude que nous répliquons a été très commentée dans la presse française. Soumise en mai 2020, il s'agit d'une étude dans laquelle Yanis Roussel et le Dr Raoult affirment que les conflits d'intérêt des médecins avec Gilead, société qui a promu le Remdesivir, un traitement potentiel contre le COVID-19 prédisent parfaitement l'opinion qu'ils ont exprimé publiquement sur un autre traitement concurrent et encore plus célèbre, l'hydroxychloroquine (HCQ) : plus les médecins ont reçu d'argent de Gilead, moins ils sont enclins à recommander l'usage de l'HCQ. Dites moi qui vous paie, et je vous dirais quelle molécule vous défendez publiquement. Plus formellement, l'étude porte sur les médecins et chercheurs membres du Comité des Maladies Infectieuses et Tropicales (CMIT). Roussel et Raoult (2020) trouvent une corrélation parfaite entre les attitudes des membres du CMIT vis à vis de l'HCQ et leurs conflits d'intérêt avec Gilead Sciences - la société qui a promu le Remdesivir (REM), un autre traitement potentiel contre le COVID-19. Roussel et Raoult le soulignent dans leur article "sans surprise, nous avons montré une corrélation, mais nous avons été impressionné par le niveau de la corrélation". Dans un autre article, intitulé "la guerre contre l'hydroxychloroquine", Roussel, Raoult et Chabrière sont encore plus fermes : "Nous avons pu montrer dans une étude qu'il y avait, en France, une corrélation inverse presque parfaite entre le niveau de financement reçu par Gilead au cours des six dernières années (déclaré sur le site de transparence du gouvernement) et les positions officielles prises à l'égard de l'hydroxychloroquine." Les auteurs sont ici trop modestes. On peut en effet calculer qu'avec la méthode qu'ils utilisent, la corrélation n'est pas quasi-parfaite mais parfaite. Si ce résultat est solide, il est intéressant et important, même si je reviens dans l'article suivant sur l'importance de la distinction entre causalité et corrélation dans ce contexte. Je ne l'apprends sans doute à aucun de mes lecteurs : L'hydroxychloroquine (HCQ) et son utilisation comme traitement contre le COVID-19 ont été au centre de débats passionnés, et elle semble aujourd'hui désavouée. Si cette corrélation existe, elle est cohérente avec la thèse que l'hostilité de certains médecins à l'égard de l'HCQ puis la baisse de la popularité de la molécule a peu avoir avec les preuves relatives de l'(in)efficacité de la molécule, mais qu'elle a en partie été orchestrée par des sociétés pharmaceutiques rivales comme Gilead cherchant à promouvoir leurs propres traitements. Une telle influence serait un problème majeur de santé publique. Cependant, l'étude de Roussel et Raoult a été très contestée pour sa méthodologie. Pour vérifier si les conclusions de l'étude étaient robustes à ces critiques, nous avons demandé aux auteurs de partager leurs données mais ils n'ont pas répondu. Qu'à cela ne tienne : il était possible de recollecter les données. Les données de financement des médecins sont en ligne sur eurodocs.eu. Il suffisait de les télécharger et de les appareiller à la liste des médecins membres du CMIT. Roussel et Raoult (2020) expliquent qu'ils ont cherché et codé les interventions des médecins sur Google News. Nous pouvions faire de même. Nous avions alors une base de donnée en main pour tenter de voir si en addressant les critiques, le résultat changeait. Les deux critiques centrales de l'étude de Raoult et Roussel, et comment nous avons tenté de les adresser Les critiques se sont concentrées sur deux points. Le premier concerne la mesure des opinions publiques exprimées par les infectiologues. Le deuxième concerne la méthode très originale que les deux auteurs utilisent pour mesurer la force de la relation entre attitudes des médecins envers la prescription de l'HCQ contre le COVID-19 et les financements qu'ils ont reçu par l'industrie pharmaceutique. Il a été soupçonné qu'elle puisse grandement accroître la corrélation entre les deux variables. Il ne s'agit pas là de pinaillage technique. S'il s'avère que ces critiques sont fondées, alors elles peuvent emporter la conclusion de l'étude. De l'art de mesurer le difficilement mesurable D'une part, pour mesurer le degré d'approbation des médecins, Roussel et Raoult utilisent une échelle, une note qui va de 1 (très favorable), à 5 (très défavorable) : 1= 'Très favorable', défini comme 'ayant exprimé un appel à la généralisation de l'utilisation de l'hydroxychloroquine, ou rapportant une utilisation réussie du traitement dans la structure du médecin'. 2= Favorable", défini comme "ayant reconnu un effet positif de l'hydroxychloroquine, tout en attendant la confirmation des résultats pour prendre position". 3= Neutre", défini comme "exprimant le besoin de plus d'études pour faire un commentaire sur l'efficacité du traitement". 4= Défavorable", défini comme "dans l'attente de plus de résultats, exprimant des commentaires négatifs sur l'hydroxychloroquine". 5= Très défavorable", défini comme "l'expression d'une colère à l'égard de la médiatisation de l'hydroxychloroquine, ou une opposition stricte à la généralisation de l'utilisation de l'hydroxychloroquine". Plusieurs critiques ont été formulées contre cette échelle, en particulier par le biostatisticien Hans-Peter Piehpo. Premièrement, cette échelle mélange pommes et poires. Nous ne comprenons pas quel type exact d'attitudes cette échelle a été construire pour mesurer. Pour citer un passage de notre article que je traduis en français : "dans certains cas, les catégories semblent évaluer si les médecins croient en l'efficacité de l'HCQ contre le COVID-19 ("avoir reconnu un effet positif de l'hydroxychloroquine", "exprimer le besoin de plus d'études pour faire tout commentaire sur l'efficacité du traitement") et s'ils promeuvent son utilisation dans la lutte contre le COVID-19 ("avoir exprimé un appel à la généralisation de l'utilisation de l'hydroxychloroquine"). A d'autres moments, elles évaluent l'attitude des médecins face à la médiatisation du débat sur l'HCQ ("expression de la colère face à la médiatisation de l'hydroxychloroquine"). Enfin, à d'autres moments, le critère est simplement très imprécis ("expression de commentaires négatifs sur l'hydroxychloroquine") : le fait d'informer le public sur les effets secondaires négatifs potentiels de l'HCQ est-il considéré comme des "commentaires négatifs" ? Ainsi, les catégories de codage de Roussel et Raoult mélangent plusieurs dimensions et critères d'appréciation : être contre la médiatisation du débat sur l'HCQ n'est pas la même chose que d'affirmer que l'HCQ est inefficace. Et faire des "commentaires négatifs" sur HCQ (par exemple, en soulignant ses effets secondaires négatifs potentiels) n'est pas la même chose qu'être contre la médiatisation du débat scientifique, ou être contre son utilisation dans le traitement du COVID-19. Plutôt que des attitudes à l'égard du HCQ, on pourrait dire que les catégories de codage de Roussel et Raoult sont plus susceptibles de mesurer des attitudes à l'égard de Didier Raoult et de la manière dont il a fait avancer son traitement contre le COVID-19. Cependant, on peut toujours juger négativement le comportement de Didier Raoult (par exemple, en pensant qu'il aurait dû attendre plus de données avant d'affirmer publiquement que le HCQ était efficace pour traiter le COVID-19), tout en ayant des attitudes neutres ou positives envers l'efficacité du HCQ." Deuxièmement, les catégories utilisées par Roussel et Raoult ne sont pas symétriques : alors que la définition des attitudes négatives pointe vers les états émotionnels des médecins ("exprimer de la colère"), il n'en va pas de même pour la définition des attitudes positives. Au contraire, les attitudes positives sont plus souvent définies en termes de données scientifiques ("rapporter une utilisation réussie du traitement dans l'établissement du médecin") que les attitudes négatives. Troisièmement, Roussel et Raoult n'expliquent jamais la procédure qu'ils ont utilisée pour mettre une note d'opposition à l'HCQ à chaque médecin. On ne sait pas s'ils avaient conscience ou non des financements des médecins au moment où ils leur attribuaient un degré d'opposition à l'HCQ- cela aurait pu les biaiser inconsciemment. D'autre part, Lorsqu'on utilise une nouvelle échelle pour mesurer un phénomène complexe à mesurer, il est toujours rassurant de vérifier si deux personnes qui utilisent cette échelle arrivent indépendamment à des scores proches. Est-ce ce que Roussel et Raoult ont fait ici ? Est-ce que les deux auteurs ont codé les données séparément puis comparé leurs réponses ? Si oui, ils auraient dû indiquer le degré d’accord inter- codeurs, par exemple en indiquant la corrélation entre les notes du premier et du deuxième codeur. Si ce n'est pas le cas, cela pose problème, car cela signifie que nous n'avons aucune estimation de la validité de leur procédure de codage. De plus, les auteurs ne spécifient pas comment ils ont fixé la note quand un médecin s'était exprimé plusieurs fois. Pour pallier ces trois problèmes, nous avons amélioré la méthodologie du papier de Roussel et Raoult dans deux mesures. D'une part, une fois les données des interventions des médecins recueillies, il a été demandé à chaque codeur de coder les interventions qu'il avait lui-même recueillies. Ensuite, un autre codeur codait à nouveau les mêmes interventions. Un troisième codeur a réglé les désaccords. Durant toutes ces étapes, les codeurs n'avaient pas conscience des financements des médecins. D'autre part, nous avons changé quelque peu l'échelle de Raoult et Roussel : 2 = " Très favorable " est défini comme " ayant exprimé un appel à la généralisation de l'utilisation de l'hydroxychloroquine/remdesivir, rapportant une utilisation réussie du traitement dans la structure du médecin, ou affirmant que le traitement fonctionne contre le COVID-19 ". 1 = "Favorable" est défini comme "ayant exprimé des attitudes positives (c'est-à-dire des espoirs, une probabilité d'efficacité) concernant l'utilisation de l'hydroxychloroquine/remdesivir, tout en attendant d'autres résultats pour prendre position". 0 = 'Neutre' est défini comme 'exprimant le besoin de plus d'études pour faire un commentaire sur l'efficacité du traitement'. -1 = "Défavorable" est défini comme "ayant exprimé des attitudes négatives (c'est-à-dire suspicion, probabilité d'inefficacité) sur l'utilisation de l'hydroxychloroquine/remdesivir, dans l'attente de plus de résultats pour prendre position". -2 = "Très défavorable" est défini comme "ayant exprimé un appel à l'interdiction de l'utilisation de l'hydroxychloroquine/remdesivir, ou rapportant une utilisation infructueuse du traitement dans l'établissement du médecin, ou affirmant que le traitement ne fonctionne pas contre le COVID-19". Notre échelle diffère de celle du papier original à plusieurs égards. Tout d'abord, nous avons essayé de rendre nos catégories de codage symétriques ("Très défavorable" reflète "Très favorable", tandis que "Défavorable" reflète "Favorable"). Ensuite, nous avons essayé d'évacuer les termes émotionnels (tels que "exprimer de la colère"). Ceux-ci auraient pu rendre notre codage plus subjectif. Enfin, mais c'est le plus important, nous avons essayé d'être plus précis sur la norme selon laquelle une opinion sur l'utilisation de l'HCQ devrait être considérée comme 'positive' ou 'négative' : leur efficacité dans le traitement et/ou la prévention du COVID-19. Il semble que notre échelle mesure bien quelque chose. On peut par exemple noter que la corrélation entre la note du premier et du deuxième codeur est forte, elle dépasse 80%. Lorsque nous rencontrions plusieurs opinions différentes des médecins, nous avons choisi l'opinion la plus extrême exprimée. Ceci nous permettait de nous rapprocher de la méthodologie de Roussel et Raoult qui ne donnent qu'une note ronde aux médecins (-2, -1, 0, 1, 2). Dans l'annexe néanmoins, nous refaisons tourner les mêmes modèles statistiques mais avec le score d'opinion moyen, et ceci ne change rien aux conclusions que je présente dans le prochain article. Mais avant de les découvrir, je vous recommande de lire la deuxième sous-section de ce billet. Une méthode qui gonfle artificiellement la corrélation ? Certains chercheurs comme Piehpo (2020) ont soulevé le fait que les méthodes statistiques de l'article pourraient avoir tendance à gonfler artificiellement les corrélations. Alors que Roussel et Raoult disposent de données sur les opinions de 44 médecins, ils calculent une corrélation basée sur... 5 observations. Pourquoi ? Roussel et Raoult font un choix très particulier. Les deux chercheurs auraient tout à fait pu utiliser les données individuelles des 44 médecins pour vérifier si ceux qui sont le plus opposés à l'usage de l'HCQ ont reçu plus de financements de Gilead. Néanmoins, ils ont choisi de calculer la moyenne des financements pour chacun des cinq notes possible sur cette échelle, puis d'estimer la corrélation entre ces 5 financements moyens et le degré d'opposition à l'HCQ. Or, on perd beaucoup d'informations en passant de 44 à 5 observations. (tableau issu de l'article original) Dans notre article, nous comparons les deux méthodes (méthode Raoult avec les financements moyens pour chaque note, et méthode standard avec corrélation calculée avec les données individuelles des médecins). Nous montrons que ce choix contribue à gonfler très largement la corrélation entre financements par Gilead et opinion des médecins sur l'HCQ, en transformant une faible corrélation en une très forte corrélation. Nous nous intéressons aux autres facteurs qui peuvent expliquer, ou, du moins prédire l'attitude des médecins vis à vis de l'HCQ (prestige académique de la recherche, affiliation ou non à l'IHU de Marseille que dirigeait alors le Dr Raoult...). Nous tentons aussi de comprendre si ces autres facteurs peuvent expliquer une potentielle relation entre opinion et financements. Est-ce que, s'il s'avère que les médecins anti-HCQ reçoivent plus de financements que les médecins pro-HCQ, ceci peut s'expliquer par le fait que les deux groupes de médecin ont d'autres caractéristiques qui les distinguent ? Je parle de tout ceci dans mon deuxième article de blog. Cliquez ici pour le découvrir. (1) En particulier, je dois à Florian l'analyse contenue dans la sous-section de cet article qui s'appelle "mesurer l'immesurable". Les économistes ne sont pas formés en psychométrie, et ça me semble bien dommage.

Idée reçue: est-ce que la méta-analyse est le meilleur niveau de preuve ?

Il y a quelques mois, je discutais avec un zététicien (défenseur des sciences) qui contestait mes propos au nom d'une pyramide des niveaux de preuves comme celle-ci: Le but d'une pyramide des preuves est de hiérarchiser les preuves, de savoir quel type de sources il faut croire a priori sur un sujet donné. Quel est le problème de ce type de schéma ? La place de la méta-analyse. Elle figure tout en haut de la pyramide, car elle est jugée la plus fiable. Une méta-analyse est une étude qui agrège les résultats d'autres études, et les mouline pour extraire un résultat moyen. Elle peut aussi permettre de comprendre ce qui explique la variabilité des résultats grâce à des techniques comme les analyses de sous-groupe ou la méta-régression. Or, justement, la thèse "la méta-analyse constitue le meilleur niveau de preuve" me semble doublement contestable. Il y a des cas où des études seules sont bien plus fiables que des méta-analyses. Je pense que l’avis des sociétés savantes constitue un meilleur niveau de preuve. D’une part, certaines méta-analyses peuvent être de très mauvaise qualité. C’est le cas, et ça arrive souvent, si la méta-analyse ne respecte pas certains garde-fous méthodologiques (ex: en économie, les conseils de la meta-analytic society in economics, et j’en passe...). Me viens à l'esprit l'exemple de la méta-analyse en vote-counting. Dans ce type très précis de méta-analyse, on se contente de compter le nombre d’études positives et négatives. On se trouve dans une situation où on donne le même poids à des études de qualité différente. Jusqu’ici, il parait sans doute évident à beaucoup qu’une étude, et donc une méta-analyse peut être mal faite. Mais d’autre part, des méta-analyses faites selon les règles de l’art peuvent être trompeuses si elles sont trop vielles. Si une méta-analyse a été faite en 1995, et qu’entre temps les méthodes se sont améliorées et le phénomène a changé, il n’est pas du tout sûr que cette méta constitue un niveau de preuve supérieur aux études d’après 1995. Pensez aux études sur l’effet de l’Hydroxychloroquine sur le COVID-19 (oui, le). Je crois que la plupart des zététiciens jugeraient plus fiables les résultats d'un essai contrôlé randomisé en double aveugle comme discovery qu'une méta-analyse sur des études observationnelles (non-expérimentales) de mars 2020. Je crois que je n'apprends rien à une assez large part des zététiciens. Mais je ne compte pas mes échanges avec certains d’entre eux me citaient des méta de 1992, et je leur disais mais « il y a eu d’autres études depuis, avec d’autres méthodes » ... On me rétorquait alors, dogmatiquement, doctement « la méta-analyse est le meilleur niveau de preuve ». L’argument de l’évolution des méthodes est particulièrement saillant quand on ne peut pas faire d’expériences contrôlées comme c’est le cas en sciences sociales, mais aussi en épidémiologie (diffusion du choléra, effet du confinement...). En économie par exemple, une vague de nouvelles études a permis de mesurer plus finement les effets du salaire minimum à partir du début des années 1990. J'en parlerai plus en détail dans un autre post de blog. Problème: les études plus fines et rigoureuses ne trouvaient pas d'effet du salaire minimum sur le chômage. Les méta-analyses publiées depuis incluent les études les plus fiables, mais au milieu des années 1990, fallait-il croire la masse d'études moins fiables d'avant 1990 ou les quelques rares études plus fiables et plus récentes d'après 1990 ? Oui, la méta-analyse est un outil puissant. Oui, on peut créditer les zététiciens de l’avoir vulgarisé face silence des médias de masse. Oui, certains zététiciens savent ce que j’ai écrit. Mais pas tous, vu la teneur de mes échanges. Mais que faire alors ? Quels critères employer pour classer les études a priori ? Voilà mon point central: il n’y en a pas. On ne peut savoir a priori si une étude ou un groupe d’études sera plus fiable qu’une méta-analyse. Ceci dépend d’une multitude de facteurs. Seuls les experts peuvent les démêler.
Toutes choses égales par ailleurs, une méta-analyse est peut-être meilleure qu’une seule étude. Mais en science, comme ailleurs, les choses ne sont pas toujours égales par ailleurs. Bien d’autres critères peuvent complètement étouffer ce signal. On en vient donc à mon dernier point. Je pense qu’il faut abandonner l’argument de « j’ai une méta, et toi, une simple étude » quand on n’est pas un expert et qu’on ne connait pas les autres critères de pertinence. Il me semble que le meilleur proxy du consensus scientifique est l’avis d’une société d’experts (académie de médecine, GIEC, OCDE...). Et s’il y en a pas, il faut sans doute reconnaître ce que certains zététiciens n’ont pas admis, vu la teneur de mes échanges. Il n’y a pas de critères simples, et il faut être un expert d’une littérature pour la critiquer. Cet article était à l'origine un thread twitter. Il se trouve que bien des zététiciens étaient d'accord avec moi. Le thread a même conduit une illustratrice, Florence Dellerie, à modifier un peu son illustration en y ajoutant une mention. Je la remercie encore. Voici le schéma final: La mention ajoutée après notre discussion est le tiret qui contient : "Attention: cette hiérachisation est indicative, et elle a ses limites".

Interview de Philippe Quirion (CNRS, CIRED): les énergies renouvelables et Jean-Marc Jancovici

(EDIT: J'ai ajouté les deux paragraphes en gras qui présentent l'esprit de la série d'articles quelques jours après sa parution) Jean-Marc Jancovici est omniprésent dans le débat médiatique. Sur certains des sujets sur lesquels il intervient souvent, comme le coût nucléaire, le lien énergie-économie, les limites du PIB ... le polytechnicien se livre à ses propres théorisations et estimations. Pourtant, il existe une littérature scientifique qu'il ne cite jamais mais qui aborde des sujets similaires ou proches des siens. Cet article est le premier d'une série, non pas de debunking, mais de mise en perspective: qu'apprend-t-on en confrontant certains des propos de Jean-Marc Jancovici à la littérature scientifique ? Vous pouvez découvrir plus sur cette série dans cet article. Philippe Quirion est docteur en économie de l’École des Mines de Paris. Il est chercheur au CNRS en économie de l’environnement et en économie de l’énergie. Il est également membre du bureau exécutif d’un important réseau d’ONG françaises sur le changement climatique: le réseau action climat. Je n'avais pas l'intention de discuter sur ce blog des propos de Jean-Marc Jancovici sur les énergies renouvelables, pour une excellente raison: je ne suis pas compétent pour en parler. Néanmoins, en contactant des experts pour relire mes posts sur le lien économie-énergie, Philippe Quirion m'a précisé qu'il s'agissait là de son sujet d'expertise, et nous avons commencé à en parler ensemble. J'ai beaucoup appris de ces échanges. J'ai pensé qu'il serait intéressant de vous les partager. Je les ai ainsi mis sous la forme d'une interview. Un Empiriciste: Dans un de ses posts de blog, Jean-Marc Jancovici (JMJ) estime le coût d'une énergie française produite à 100% par des renouvelables et le compare à celui du nucléaire. Sa conclusion est nette : "si nous prenons en compte tous les couts système (...), le nucléaire reste imbattable comme mode de production d’électricité décarbonée face aux modes « décentralisés ». (...) la meilleure idée est donc… de refaire du nucléaire. ". Que reprochez-vous à cette analyse ? Philippe Quirion: Jean-Marc Jancovici ignore complètement les publications scientifiques sur ce sujet. Elles sont pourtant très nombreuses à étudier les systèmes énergétiques basés sur des renouvelables, par exemple Brown et al. (2018). Plutôt que de se référer à l'état de l'art, et à recourir aux complexes modélisations qui sont la norme dans la littérature scientifique, Jean-Marc Jancovici choisit de faire des règles de 3 non-pertinentes. Dans un de mes récents articles de recherche, qui construit un modèle avec des hypothèses plus raisonnables, nous trouvons ainsi qu'à l'horizon 2050, le mix électrique optimal pour la France est en majorité renouvelable (Shirizadeh, et al. 2020). Notre estimation est pourtant très optimiste quant au coût du nouveau nucléaire. Elle suppose en effet que celui-ci sera deux fois inférieur à celui des EPR actuellement en chantier en Europe. Certaines estimations donnent un mix optimal majoritairement nucléaire. Néanmoins, il faut vraiment être très pessimiste sur les renouvelables et très optimiste sur le nucléaire. C'est pour cette raison que ce type d'estimations optimistes pour le nucléaire ne font pas consensus. Ainsi, (EDIT) voici comment le GIEC synthétise la littérature sur les mix compatibles avec un réchauffement climatique à 1,5 degrés (traduction de l'intervieweur) (1): "D'ici 2050, la part de l'électricité fournie par les énergies renouvelables passe de 23 % en 2015 à entre 59 et 97 % dans des trajectoires de 1,5 °C sans dépassement ou avec un dépassement limité." Note: les trajectoires avec dépassement sont celles où la température dépasse la barre des 1.5 degrés pour un temps, avant de finalement revenir sous ce seuil. Un Empiriciste: plus précisément, quelles hypothèses contestables fait Jean-Marc Jancovici ? Philippe Quirion: Concernant le stockage de l'énergie, l'estimation de JMJ est délirante pour au moins quatre raisons. Premièrement, il est absurde de séparer l'éolien et le solaire dans les calculs comme Jean-Marc Jancovici le fait. Les deux sources d'énergie sont complémentaires : on utilise plus de solaire en été et plus d'éolien en hiver. C'est particulièrement saillant lorsqu'on considère le facteur de charge par mois. Note: le facteur de charge mesure l'intensité de l'utilisation d'une source d'énergie, c'est le rapport entre l'énergie électrique effectivement produite par une unité de production (par exemple, une centrale) et l'énergie maximale que cette unité aurait pu produire. Sur ce graphique, on voit bien qu'en terme de capacité, la variabilité d'un mix 50 solaire, 50 éolien (la courbe noire) est bien moindre que celle du solaire et de l'éolien pris séparément (les courbes bleue et rouge) : Deuxièmement, JMJ suppose qu'il faut stocker toute l'électricité produite par les renouvelables. ("Nous allons faire l’hypothèse (à nouveau caricaturale, mais cela permet de sentir les ordres de grandeur) que nous souhaitons récupérer tout kWh produit par une éolienne quand il y a du vent, ou tout panneau solaire quand il y a du soleil, et calculer en ordre de grandeur la puissance de stockage et la fraction de l’électricité qui doit faire l’objet d’un stockage."). C'est absurde. Il faut un modèle pour savoir quelle part de la production stocker. On ne peut pas choisir ce ratio "à la main", au doigt mouillé. Troisièmement, si je comprends bien le billet de blog de Jean-Marc Jancovici, il n'actualise pas. (Note: L'actualisation est une technique comptable permettant de comparer des investissements de durées différentes). Or, l'actualisation pénalise les technologies à longue durée de vie et temps de construction long comme le nucléaire. Quatrièmement, l'article de Jean-Marc Jancovici ne mentionne que les stations de transfert d’énergie par pompage (STEP) pour stocker de l'énergie. Il existe d'autres technologies, et il est justement intéressant de les combiner. Certaines ont un coût par unité d'énergie faible comme le power-to-gas, un procédé qui permet de transformer l’énergie électrique en énergie chimique. D'autres un coût par unité de puissance faible et un meilleur rendement (batteries). C'est pour cela que dans nos simulations, nous combinons trois moyens de stockage différents: Outre les questions de stockage, bien d'autres hypothèses que JMJ fait sont en marge avec les données et la littérature. Dans le désordre, - les estimations de coût (euro par KW installé) sont en marge des celles des instituts spécialisés. JMJ surestime le coût de l'éolien, mais aussi du nucléaire. -JMJ sous-estime les durées de vie de l'éolien. Dans presque tous les cas, il les fixe à 20 ou 25 ans. Toutefois, le RTE (le gestionnaire du Réseau de Transport d’Electricité français) les estime à 30 ans pour le solaire et l'éolien. C'est aussi l'estimation des développeurs américains (Wiser et al. , 2019, voir le graphique ci-dessous). - JMJ sous-estime aussi les facteurs de charge des éoliennes onshore (terrestre) et le solaire. Dans son scénario central, il fixe le facteur de charge à 20% pour l'éolien onshore. Dans tous ses scénarios, il suppose un facteur de charge à 13% pour le solaire. Les chiffres de 2020 sont déjà supérieurs à ses hypothèses. (voir le tableau ci-dessous). D'autre part, il faut considérer la dynamique. Les facteurs de charge ont crû et continueront de croître à l'avenir. Calcul de Philippe Quirion (EDIT:) à partir d’un modèle de régression linéaire estimé avec des données RTE sur la période 2012-2020. Un Empiriciste: Que penser de l’argument de JMJ selon lequel le coût de l’éolien/solaire va monter suite à la raréfaction des matières premières et non descendre comme dans les projections que vous m’avez partagées ? Est-elle pertinente ? Est-elle seule en mesure d’expliquer l’écart entre les estimations que vous m’avez fournies et celles de JMJ ? Philippe Quirion: C'est sa ritournelle du peak-oil ! On peut aussi supposer que si la voiture électrique se généralise alors le prix du pétrole devrait baisser puisque les gisements à faible coût suffiront à satisfaire la demande. C'est ce que GM, VW et Ford annoncent, mais pas Toyota ; l'avenir n'est pas écrit ! De manière plus générale, si quelqu'un savait avec certitude comment le prix du pétrole va évoluer, il serait riche -et il ne le dirait pas à tout le monde ! Pour les métaux critiques, l'argument se défend. Néanmoins, on utilise de moins en moins de matière par unité. D'autre part, il y a beaucoup de substituabilité entre matériaux. Les cours des métaux ont un impact à court terme sur éolien et PV, mais la tendance est à la baisse et il n'y a pas de raison de penser qu'elle va s'inverser. Découvrez le deuxième article de la série. EDIT: (1) « By 2050, the share of electricity supplied by renewables increases from 23% in 2015 to 59–97% across 1.5°C pathways with no or limited overshoot. » Traduction de l’intervieweur. Rapport consultable au https://www.ipcc.ch/site/assets/uploads/sites/2/2019/05/SR15_Chapter2_Low_Res.pdf (citation p.134). Sources: Brown, T. W., Bischof-Niemz, T., Blok, K., Breyer, C., Lund, H., & Mathiesen, B. V. (2018). Response to ‘Burden of proof: A comprehensive review of the feasibility of 100% renewable-electricity systems’. Renewable and sustainable energy reviews, 92, 834-847 GIEC : Rapport spécial 1.5°C, p. 134. EDIT: consultable au https://www.ipcc.ch/site/assets/uploads/sites/2/2019/05/SR15_Chapter2_Low_Res.pdf Jakob, M., Ward, H., & Steckel, J. C. (2021). Sharing responsibility for trade-related emissions based on economic benefits. Global Environmental Change, 66, 102207. Shirizadeh, B., & Quirion, P. (2020). Low-carbon options for the French power sector: What role for renewables, nuclear energy and carbon capture and storage?. Energy Economics, 105004. How Sensitive are Optimal Fully Renewable Power Systems to Technology Cost Uncertainty? B Shirizadeh, Q Perrier, P Quirion The Energy Journal 43 Wiser, R. H., & Bolinger, M. (2019). Benchmarking Anticipated Wind Project Lifetimes: Results from a Survey of US Wind Industry Professionals. Lawrence Berkeley National Lab.(LBNL), Berkeley, CA (United States).

Jean-Marc Jancovici et le meilleur modèle macroéconomique du monde

Ces derniers temps, j’entends souvent la même musique. Quand j’annonce que je suis doctorant en science économique, on me parle de Jean-Marc Jancovici (JMJ). Parfois, on me pose des questions sur ce que je pense de ses interventions. D’autres fois, on m’annonce qu’il a rendu toute la science économique obsolète. En effet, que ce soit dans ses conférences à Sciences Po, aux Mines, à l’OCDE, ou même sur des articles de son blog, JMJ annonce souvent qu’il a trouvé « le meilleur modèle macroéconomique du monde ». Rien que ça ! En dehors du fait que la science économique n’est en majorité pas de la macroéconomie, est-ce vrai ? Note: même si ce billet de blog n’est pas un article de recherche, je suis ici une convention universitaire. Lorsque je cite un article de recherche, je donne le nom du premier auteur et sa date de parution entre parenthèses. Exemple: Dans leur étude, Tartention et al. (2020) ne trouvent pas… L'expression latine “et al.” se réfère au fait que l’étude a eu plusieurs auteurs mais que je ne cite que le premier. Vous trouverez les références complètes des articles dans la bibliographie à la fin du billet. Les articles non-académiques (ex: billets de blog) sont en revanche accessibles par lien hypertexte. La traduction des citations d’articles scientifiques de l’anglais vers le français est la mienne. J’aimerais remercier deux personnes : un économiste (@mrbig_panda) et un physicien (que j'interviewe ici) (@gregdt1) pour leurs suggestions précieuses. *** Pour JMJ, énergie=économie. Le consultant ne se contente pas de dire que l’énergie est nécessaire à notre économie (EDIT), comme par exemple le fait que les hommes respirent est une condition nécessaire aux échanges économiques. Il s’agit là d’une thèse de bon sens. Non, JMJ va plus loin, et formule une hypothèse plus hardie, que je vais examiner dans cet article : il affirme que les variations de la quantité d’énergie expliquent celles du PIB ces dernières décennies. Ainsi, ce serait par exemple la réduction de l’approvisionnement énergétique (et notamment en pétrole) qui aurait causé la crise de 2008 et le ralentissement qui en a suivi (“le passage de l’approvisionnement mondial en pétrole conventionnel par un pic (...) a causé le ralentissement économique qu’on a constaté en 2008 et dont on n’est toujours pas sortis – et dont on ne sortira pas à mon avis -, qui a provoqué la crise financière et celle de subprimes.”) (Source). Il va parfois jusqu’à expliquer la baisse tendancielle de la croissance depuis 40 ans dans certains pays développés comme l'ltalie ou la France par une pénurie énergétique (“Depuis le deuxième choc pétrolier (1980), la France n’a plus jamais connu une croissance du pib par tête supérieure à 2 % par an. (...) : Il y a une raison « énergétique » (...) à ce que la croissance aille désormais en ralentissant (...) le tassement de l’énergie disponible par personne.”) (Source) C'est là ce qu'il appelle "le meilleur modèle macroéconomique du monde" - dans des slides en anglais, il parle même du "meilleur modèle macroéconomique du monde passé." C’est au nom de cette relation PIB-énergie que JMJ prédisait en 2010 qu' “on est partis pour avoir une récession en moyenne tous les trois ans “. Le “en moyenne” rend l’affirmation difficilement testable, mais il est difficile de penser que la récession due au confinement pour lutter contre le COVID qui a fini par se produire 10 ans plus tard soit dûe à une pénurie d’énergie. C’est aussi du fait de cette identité postulée entre énergie=économie que le consultant affirme en 2012 : « [l]e lien énergie-économie signifie une croissance nulle pour les cinq ans à venir en France et en Europe. (…) [La baisse de l’approvisionnement en pétrole et en gaz] va se traduire par, au mieux, une stagnation du pib mais, plus probablement, une évolution négative du pib européen (et français) dans les cinq ans qui viennent. ». Cette dernière prédiction ne s’est pas vérifiée. Entre 2012 et 2017, le PIB en dollars en parité de pouvoir d’achat, c’est-à-dire corrigé des biais liés à la variation des prix et aux variations du taux de change par rapport au dollar, a crû de 6% en France et de 9% dans l’Union Européenne (Source: Banque Mondiale). Puisqu'il n'est pas évident que la thèse énergie=économie puisse permettre de bonnes prévisions, on peut se demander quelles données l’appuient en premier lieu. Une relation revient souvent dans les interventions de JMJ. Elle est par exemple présentée sur une des slides disponibles sur le blog de Jean-Marc Jancovici : Sur cette slide, ce qui permet à JMJ de clamer qu'il a trouvé le meilleur modèle macroéconomique du monde, c’est sans doute le coefficient détermination (le R^2). Il est en effet très proche de 1. Ceci signifie grossièrement que les points du nuage sont très proches de la droite, du modèle. La consommation d’énergie une année prédit très bien le PIB de cette même année. Un statisticien pourrait faire remarquer qu’on ne peut utiliser la méthode statistique que JMJ emploie (les moindres carrés ordinaires) pour analyser le type de données en question - des séries temporelles, des données qui suivent une seule même entité comme un pays au cours du temps. En effet, lorsque les deux indicateurs suivent une tendance significative (comme ici à la hausse), employer la même méthode que JMJ tend à produire des corrélations fallacieuses ou au mieux à les gonfler artificiellement. Mais même si on écarte cette objection statistique gênante et qu’on suppose qu’il existe bien une forte corrélation entre énergie et PIB, cette relation serait pourtant moins intéressante qu’elle en a l’air. Je vous propose un autre exemple. On pourrait aussi noter que le temps de parole d’un candidat à la présidentielle est très corrélé au nombre de votes qu’il reçoit. Le temps de parole d’un candidat à la télé prédit très bien sa part de voix aux élections. Je vous présente donc le meilleur modèle de sociologie électorale du monde, une ligne droite : Pourtant, les sociologues du vote ne considèrent pas le temps de parole dans les médias comme le déterminant principal du vote. Pourquoi ? Vous l’avez peut-être deviné à ce stade : l’un des problèmes est celui de la poule ou de l’oeuf. Est-ce que les candidats reçoivent plus de votes parce qu’ils ont eu plus de temps de parole, ou alors est-ce que les médias leur donnent plus de temps de parole parce qu’ils sont plus populaires ? On pourrait construire la même objection pour le graphique de JMJ. La causalité peut aller dans les deux sens entre PIB et énergie. C’est qu’on appelle en économétrie un biais de simultanéité, dont je parle aussi dans cet article sur le confinement. Certes, quand la production d’énergie se contracte, ceci peut tout à fait contraindre la production. Mais symétriquement, une économie en récession consomme moins d’énergie. On peut construire un raisonnement analogue avec une économie en croissance. Une corrélation énergie-économie pourrait s’expliquer complètement par l’effet du PIB sur l’énergie, celui de l’énergie sur le PIB, ou par un mélange des deux. Les chercheurs qui étudient le lien économie-énergie se posent depuis des décennies la même question que nous. Et pour cause : s’il existe un lien causal universel entre énergie et PIB, cela signifie qu’on ne peut pas réduire la consommation d’énergie ou même la maintenir simplement sans impacter la croissance. L’hypothèse que le PIB cause l’énergie est appelée “hypothèse de la conservation” (conservation hypothesis) dans la littérature scientifique. Celle que l’énergie cause le PIB est parfois appelée “l’hypothèse de la croissance” (growth hypothesis) -voir par exemple Bercu et al., 2019). Ces deux hypothèses ne sont d’ailleurs pas mutuellement exclusives. Elles peuvent être vraies en même temps (ce qu’on appelle l’hypothèse de la rétroaction « feedback »), être plus ou moins vraies selon les situations, ou être fausses tous les deux (l'hypothèse de la neutralité). Il existe en effet des techniques statistiques pour tenter de tester ces hypothèses, de distinguer corrélation et causalité. Je les présente plus bas. Ces méthodes sont variées, et parfois un peu différentes de celles dont je parle d'habitude sur ce blog pour évaluer les politiques publiques, notamment environnementales, comme dans ce billet, mais elles ont en commun d’être toutes plus sophistiquées que celles qu’emploie JMJ. Les économistes ne sont pas les seuls à s'intéresser à ces questions sous cet angle. Lorsque Cicea et al. (2021) recensent les journaux qui publient des études statistiques sur le lien énergie-économie, ils obtiennent la liste suivante : On voit dans cette liste des revues de sciences environnementales comme « environmental science and pollution research ». Ces recherches sont aussi publiées dans journaux interdisciplinaires comme Energy Policy. Ces revues comportent certes des économistes dans leur comité de lecture mais aussi des ingénieurs ou physiciens, comme par exemple, le Professeur Carlos Henggeler Antunes, éditeur senior d’Energy Policy, revue qui a publié le plus d’articles sur la question qui nous intéresse. Ceci fragilise la thèse, martelée par JMJ, selon laquelle le fait que le sens de la causalité irait de l’énergie vers le PIB et seulement dans ce sens serait une évidence physique. Pourquoi des spécialistes des sciences de l’environnement s'intéresseraient-ils à la question avec des techniques statistiques très sophistiquées si les lois de la physique permettaient d’y répondre aisément ? Pourquoi des revues avec des physiciens dans leur comité de lecture accepteraient des articles de recherche dont les prémisses seraient contraires aux lois de la physique ? En réalité, et contre les affirmations de JMJ, il n’est pas ici uniquement question de physique pour trois raisons. Premièrement, aucune équation physique n’inclut le PIB comme variable. Et pour cause : la physique traite de l’énergie mais pas du lien entre énergie et richesse (PIB). Or, les deux grandeurs ne se confondent pas. Paul Romer, prix de la Banque de Suède en 2018 l’explique très pédagogiquement : «La croissance se produit quand les hommes se saisissent de ressources et les réarrangent d’une manière qui soit plus profitable. Comparer l’économie à une cuisine est une métaphore productive. Pour créer des produits de valeur, nous mélangeons des ingrédients peu chers selon une recette. Ultimement, la cuisine qu’on peut faire est limitée par la quantité d’ingrédients, et la plupart de la ‘cuisine économique’ produit des effets indésirables [la pollution]. Si la croissance économique consistait à cuisiner tout le temps la même recette, nous serions très vite à court de ressources et souffririons de niveaux inacceptables de pollution et de nuisance. L’histoire humaine nous enseigne cependant que la croissance économique résulte de meilleures recettes, et non simplement de la préparation des mêmes plats. Ces nouvelles recettes (...) génèrent en général plus de valeur économique par unité de matière première. » [texte de Romer dans The concise encyclopedia of economics (2008) sous la direction de Paul R. Henderson] Conformément à cette dernière affirmation, depuis plusieurs décennies, la quantité d’énergie nécessaire à la production d’un point de PIB mondial (et de CO2 mais ce n’est pas le sujet) n’a eu de cesse de baisser. Utilisation d’énergie (en kg d’équivalent pétrole) pour 1 000 $ de PIB (PPA constants de 2011) Source : Banque Mondiale En outre, il semble qu'en considérant l'énergie consommée (même celle nécessaire à produire les biens importés), celle-ci a eu tendance à baisser entre 2000 et 2014 en Europe et aux Etats-Unis, alors que le PIB augmentait nettement durant cette période dans ces zones géographiques. Ça ne signifie pas que cette baisse de la consommation n’a pas eu d’impact sur le PIB. Peut-être que le PIB aurait été plus haut encore en Europe et aux Etats-Unis en 2015 si la consommation d’énergie n’avait pas baissé dans ces zones entre 2000 et 2014. Mais c’est là un autre phénomène dont la simple identité économie=énergie=physique ne peut rendre compte. Source : Kulionis (2019) [Je précise que j'ai ajouté ce paragraphe quelques mois après mes échanges avec JMJ, en octobre 2021, suite à la sortie de ce très intéressant rapport de Zenon Research, dont nous parlons dans cette interview] Tout ceci ne signifie pas que le problème environnemental de la croissance économique va se résoudre de lui-même, et ce n’est pas ce que Romer pense. Mon message est ici autre : qu’il n’y ait pas de relation stable entre énergie et économie montre bien que les deux notions ne se confondent pas. La croissance économique est bien plus qu’une utilisation de plus en plus intensive d’un stock de ressources donné. C’est un processus par lequel on trouve de nouvelles façons d’agencer des matières premières d’une manière qui augmente la valeur totale des échanges. Il est possible qu’à long-terme, on ne puisse pas trouver d’agencement qui n’implique pas d’utiliser une quantité croissante de ressources non-renouvelables, et ce, même avec des politiques environnementales bien plus fermes qu’aujourd’hui. Mais c’est une autre question : celle du découplage, qui n’est pas le thème de ce billet mais plutôt de cette interview sur mon site. D’autre part, la question du lien énergie-économie n’est pas que physique car l’énergie n’est pas ‘produite’ (ou transformée) de manière aléatoire dans le temps. Si les hommes transforment l’énergie, c’est qu’ils ont eu des incitations économiques à répondre à la demande d’énergie. S’ils peuvent transformer de l’énergie, c’est parce qu’ils ont eu des incitations à inventer des moyens techniques de le faire, et à innover, c’est-à-dire à insérer ces inventions dans le tissu industriel. Enfin, le PIB ne naît pas uniquement de la combinaison de capital, de travail, et de travail-utile. Il existe aussi des facteurs qui influencent à la fois le PIB et l’énergie, comme les anticipations dont je parle plus bas, ou les institutions, règles du jeu de la vie économique. Tout ceci ne signifie pas qu’il ne faille pas se soucier de l’énergie si on veut penser l’économie (et notre avenir sur cette planète). Mais il faut le faire avec les concepts appropriés, sans se faire le ventriloque de la physique : les exemples des thérapies quantiques ou de la deuxième loi de la thermodynamique brandie comme ‘preuve’ contre l’évolution nous avertissent des dangers de sortir les lois physiques de leur contexte. Comment savoir qui de la poule ou de l’oeuf ? Cela ne devrait pourtant pas être si compliqué de prouver que l’énergie cause le PIB, et non l’inverse ! Une première piste paraît évidente. On pourrait vérifier si les variations de la consommation d’énergie précédent celles du PIB. De fait, c’est ce que JMJ fait, en notant que les variations de la quantité de pétrole extraite précèdent celles du taux de croissance du PIB [Edit : coquille j’avais écrit     »cours » au lieu de « quantité »], ou en insistant sur l’Italie, exemple d’un pays où les variations de la consommation d’énergie semblent précéder celles du PIB : (“on constate que [en Italie] lorsque le taux de croissance de l’énergie baisse, la variation sur le PIB suit en général de un à deux ans, ce qui accrédite l’idée que quand c’est l’énergie qui est contrainte le PIB est obligé de l’être aussi à la suite”). Cela semble convaincant. Après tout, les causes précèdent leurs effets, non ? Et bien en fait, cela n’a rien d’évident pour deux raisons : le biais de la variable omise et les anticipations. Les effets d’anticipation Premièrement, en sciences sociales, il faut toujours considérer les phénomènes d'anticipation. Si les hommes anticipent un phénomène, ils peuvent y réagir avant qu’il se produise. Par abus de langage, on pourrait dire que l’  effet précède alors la cause, même si la formulation est discutable. Si vous tombez d’une falaise, vous allez sans doute vous mettre à crier. Pourtant, ce n’est pas votre cri qui aura causé l’impact de votre corps sur le sol (la cause du cri). C’est l’impact anticipé de la chute qui vous aura fait crier. Dans notre cas, nombre de variables précèdent le PIB comme l’investissement résidentiel ou les cours boursiers. Il en est ainsi parce que les valeurs de ces séries varient avec les anticipations des agents, et que ce sont en partie les anticipations qui font l’économie. Si vous anticipez une crise demain, vous risquez de ne pas investir, de vendre vos actions. Si une majorité se met à penser comme vous, alors la crise se produira effectivement. Ce type de prophétie auto-réalisatrice est très important pour expliquer le cycle économique. D’ailleurs, quand on construit des indicateurs d'anticipation des consommateurs, ceux-ci précèdent le PIB et le prédisent très bien. Dans notre contexte précis, les pétroliers ont intérêt à tenter d’anticiper les retournements de la conjoncture ou a minima à réagir à la baisse de demande d’énergie. Lorsque la croissance du PIB ralentit, la demande de pétrole décroît, ce qui tend à réduire le prix du baril. Pour juguler cette baisse des prix, les offreurs ont alors tout intérêt à restreindre l’offre, en ralentissant leur vitesse d’extraction pour réduire leurs stocks stratégiques. Le fait de négliger les anticipations biaise la lecture des données de JMJ. Voici comment il commente un autre graphique où il note que les variations du tonnage de pétrole extrait précèdent nettement celles du PIB : « Chronologiquement, vous voyez que la variation de la courbe [du pétrole] a tendance à légèrement précéder la variation de la courbe du PIB. Donc, ce n'est pas : « le pétrole c'est un truc qui s'achète, j'ai une croissance qui vient de Mars, j'ai plus d'argent et donc j'achète plus de pétrole ». C'est : « le pétrole est un facteur limitant de la production parce qu'il faut des transports pour produire, et donc si j'ai moins ou plus de pétrole je suis capable de plus ou moins transporter, et donc je suis capable d'avoir une activité transformative donc économique plus ou moins importante. » [le style est très oral, parce qu’il s’agit là de la retranscription d’une conférence]. Dans cet extrait, l’emploi du «donc » montre bien que JMJ pense que le fait qu’une série en précède une autre dit quelque chose de la direction du lien de causalité qui les unit. Il y a quelques périodes bien identifiées à l’occasion desquelles des pénuries de pétrole ont bien causé un ralentissement de la croissance, puis des récessions mondiales : durant les deux grands chocs pétroliers (1973, 1979), et suite à la guerre du Golfe en 1993. Rien de nouveau sous le soleil. On notera d’ailleurs que ces pénuries sont le fruit de décisions politiques, et non d’une contrainte physique, d’une soudaine rareté des ressources. Concernant les autres périodes, certes les pics de pétrole précédent ceux du PIB, mais rien ne permet d’affirmer que ceci ne résulte pas des changements d’anticipations des producteurs de pétrole ou du ralentissement précoce de certains secteurs à la production plus riche en pétrole que la moyenne. J’aimerais également attirer votre attention sur l’astuce rhétorique contenue dans la formule « la croissance [ne] vient [pas] de Mars ». Non, la croissance ne vient pas de Mars. Mais le pétrole ne vient pas non plus de Vénus. Les pétroliers répondent à des incitations économiques. Ils n’extraient pas au hasard du pétrole. Extraction de pétrole et production s’influencent mutuellement : c’est tout le problème ! Le biais de la variable omise Deuxièmement, il est possible que la variable qui nous intéresse précède l’effet simplement parce qu’elle est liée à la cause par une variable tierce. Si, quand je me penche pour écrire, ma chaise grince, ce ne sera pas le grincement de ma chaise qui causera l’apparition de signes étranges sur mon cahier. Ma volonté d’écrire est la cause, mon écriture sur le cahier l’effet, et le couinement la variable omise. Je n’ai pas le talent de Jean-Marc Jancovici pour les analogies. Je préfère donc illustrer en contexte. Jean-Marc Jancovici relaie souvent le fait qu’en 2008, l’énergie a commencé à baisser juste avant le PIB. Il considère que c’est un indice du fait que c’est une pénurie d’énergie qui aurait entraîné la crise de 2008. C’est peu convaincant. Du fait que la consommation d’énergie a fléchi un peu avant le PIB en 2008, bien des variables omises empêchent de déduire que la crise de cette année a une cause énergétique. Par exemple, la crise de 2008 est d’abord une crise immobilière qui s’est lentement propagée à la sphère financière, puis économique. Il n’est pas exclu de penser que parce que le bâtiment est un secteur très intensif en énergie (sans doute plus que la moyenne), et que l’investissement immobilier précède empiriquement le PIB, c’est sa chute qui a causé une baisse précoce de la consommation en énergie, tandis que la croissance se maintenait dans un premier temps grâce à la contribution des autres secteurs. Je ne sais pas dans quelle mesure cet enchaînement est convaincant. Mais qu’importe ! Ce petit raisonnement illustre simplement en contexte le principe logique selon lequel sans que l’effet ne précède la cause, il est possible que la cause ne soit pas celle qu’on pense. C’est le fameux biais de la variable omise. Ces problèmes semblent insurmontables. Pourtant, la littérature scientifique propose des moyens de les contourner. La solution de la littérature Aux deux maux des variables omises et de l’anticipation, une solution est envisageable. Pour savoir si les variations de l’énergie causent bien celles de l’énergie, il faudrait mesurer la corrélation entre PIB au temps t et la consommation d’énergie à t-n, quelques périodes avant, tout en neutralisant l’effet des variables confondantes (investissement, anticipations) auxquelles on peut penser. En d’autres termes, il faudrait regarder si à investissement égal, à indicateur d’anticipations égal, … les variations de l’énergie précèdent toujours celles du PIB. Ici, le « égal » est le même égal que dans « les femmes touchent moins que les hommes à niveau d’étude et expérience égales ». Certaines techniques statistiques permettent en effet de neutraliser l’effet des variables omises, on dit qu’on contrôle par ces variables. La très vaste littérature scientifique qui étudie le lien énergie-PIB emploie justement des techniques de ce type. On peut la scinder en deux vagues. Il y a d’abord eu des études sur séries temporelles, c’est-à-dire fondées sur les données d’un seul pays (entité) au cours du temps. Puis, des études avec des données de panel, c’est-à-dire qui suivent non plus un seul mais plusieurs pays au cours du temps. Les deux types de données nécessitent des méthodes distinctes pour être analysées. Néanmoins, on considère généralement que les résultats obtenus sur panel (plusieurs pays, plusieurs années) sont plus fiables. Je garde un peu de mystère ici, mais j’expliquerai rapidement pourquoi dans quelques paragraphes. Une troisième méthode, très élégante mais avec ses limites, consiste à exploiter ce qu’on appelle des expériences naturelles. J’en parle aussi plus bas. Que dit la littérature empirique sur lien causal entre énergie et PIB ? Elle n’est pas tranchée du tout. Parfois, c’est bien la production d’énergie qui semble causer le PIB à court et moyen-terme, mais, parfois c’est l’inverse. Et puis parfois, il semble que la causalité va dans les deux sens. Comme le notent Kalimeris et al. (2016) : “les résultats de la littérature sur le lien énergie-économie ne pourraient pas être plus loin d’un consensus, puisqu’on y trouve des indices sur les quatre hypothèses possibles sur le lien énergie-économie à une fréquence presque égale.” Pourquoi les résultats sont-ils si contradictoires ? Il est possible que la nature du lien énergie-économie dépende du contexte. Cependant, un des problèmes est que nombre de paramètres qui influencent les résultats sont laissés à la discrétion du chercheur. Quelles variables omises je neutralise ? Comment est-ce que je mesure l’énergie ? Quelles méthodes d’analyse statistique j’utilise ? Est-ce que je teste l’hypothèse que la relation entre PIB et énergie est linéaire, ou celle qu’elle est non linéaire ? En effet, quand on reproduit l’exercice de JMJ mais sur une plus longue période, on remarque une relation concave, par laquelle chaque point de PIB supplémentaire augmente de moins en moins la consommation d’énergie primaire, ce qui fait écho à ma remarque plus haut sur le fait que le PIB s’appauvrit en énergie. Ceci suggère qu’il faille peut-être intégrer la possibilité d’une relation concave dans des modèles plus compliqués. Source : le physicien Greg de Temmerman - et le spécialiste des sciences de l'environnement Carey King faisait un constat similaire. Ceci soulève un problème crucial. Quand on se concentre sur une seule étude, on est incapable de distinguer quelle part du résultat est dû à la ‘vraie’ relation et quelle part est attribuable à des choix arbitraitres de spécification. En économie, comme bien d’autres disciplines, il faut analyser l’ensemble de la littérature ! C’est justement ce que permettent les méta-analyses. Une méta-analyse est une étude qui agrège les résultats d'autres études, et les mouline pour extraire un résultat moyen. Elle peut aussi permettre de comprendre ce qui explique la variabilité des résultats grâce à des techniques comme la méta-régression. C’est précisément ce qu’il nous faut. Je parle plus en détail de cette méthode dans ce billet. Que nous disent les méta-analyses ? Premièrement, les choix individuels des chercheurs comptent. Pour le savoir, les chercheurs utilisent le plus souvent une méta-régression, méthode qui permet de comprendre sous certaines hypothèses (comme toujours) comment les choix du chercheur influencent ses résultats. Chen et al. (2012) notent dans leur méta-analyse que “les différences d’indicateurs choisis, des caractéristiques du pays, et des méthodes économétriques [statistiques] agissent toutes sur la relation estimée entre PIB et énergie.” Menegaki et al. (2014) notent dans leur méta-analyse que « [ces] résultats tendent à démontrer que l’élasticité (la sensibilité) de la croissance du PIB n’est pas indépendante de la méthode [statistique] employée, de la nature des données, et de l’inclusion de variables comme le niveau du prix ou le capital dans le [modèle statistique] ». Même constat dans la méta-analyse d’Hajko (2018) « plusieurs déficiences méthodologiques questionnent la fiabilité des résultats publiés, comme par exemple : l’usage de données annuelles, des spécifications insuffisantes des modèles (biais de la variable omise)… ». La méta-analyse de Kalimeris et al. (2016) culmine dans l’incertitude en indiquant que les chercheurs n’ont pas réussi à trouver “des facteurs généraux qui déterminent la direction du lien entre PIB et énergie”. Deuxièmement, le plus souvent, quand on neutralise l’impact des choix arbitraires des chercheurs sur leur résultat, on ne parvient plus à détecter de lien stable et fondamental entre PIB et énergie. Kalimeris et al. (2016) “les résultats de la méta-analyse ne soutiennent ni l'existence d’une direction macro fondamentale, ni l’hypothèse de la neutralité”. En utilisant des méthodes plus inhabituelles de machine-learning, Hajko (2018) parvient à prédire l’essentiel de la dispersion des résultats avec les choix des chercheurs et en conclut qu’« il n’y a pas de preuve de l’existence d’une relation fondamentale entre énergie et économie. ». Bruns et al. (2014) trouvent une relation nette du PIB vers l’énergie, quand on contrôle par les prix, mais leur méta-analyse exclut les études avec données de panel (qui suivent plusieurs pays durant plusieurs périodes plutôt qu’un seul pays au cours du temps), dont on pourrait penser qu’elles sont les plus fiables. De manière assez intéressante, l’idée qu’il n’y ait pas de loi d’airain, “physique” pas une seule hypothèse vraie en tout temps et tout lieu sur la direction du lien entre énergie et PIB est un présupposé dans presque toutes les méta-analyses. Les auteurs de certaines méta-analyses comme Chen et al. (2012) ou Menegaki et al. (2014) ne cherchent plus à trouver une relation fondamentale énergie-pib auquelle ils ne croient probablement plus. Ils cherchent uniquement des modérateurs, c’est-à-dire des variables qui tendent ou distendent le lien entre énergie et PIB, et qui donc aident à comprendre pourquoi on trouve parfois que c’est l’énergie qui cause le PIB, et parfois l’inverse. Ici, les modérateurs qui comptent dans la plupart des méta-analyses semblent être les prix, et le capital. Je préfère m’arrêter ici, car je reviendrai dans un prochain article sur la question du lien entre prix et énergie, que JMJ n’étudie qu’en faisant une erreur statistique systématique. On pourrait me rétorquer que les méta-analyses en sciences sociales génèrent systématiquement ce chaos de résultats inconclusifs, et qu’il n’aurait eu rien d’informatif à en tirer, quelque soit le sujet. Mais c’est faux. Par exemple, toutes les méta-analyses sur les politiques de hausse du salaire minimum (et qui adoptent une méthodologie très comparable) montrent qu’elles n’ont en moyenne pas d’effet sur l’emploi total (Doucouliagos et al. (2009), Hafner et al. (2017), Gautié et al. (2018), Kucera (2018) ) ; la célèbre méta-analyse de Card (2017) sur l’effet des politiques actives sur l’emploi trouve une conclusion très nette, et qui n’a à ma connaissance pas été disputée par une autre méta-analyse. Ceci suggère que la diversité des résultats a quelque chose de spécifique au sujet. La littérature parle souvent du “nexus” énergie-économie : les chercheurs considèrent que lien énergie-économie est complexe et enfoui, dissimulé dans une jungle de facteurs difficilement démélâbles. Les limites de ces méta- études Malheureusement, une méta-analyse ne peut jamais dépasser tous les défauts de la littérature qu’elle analyse. En particulier, le biais de la variable omise est difficile à corriger. On peut toujours avoir oublié de contrôler par un facteur. Certaines variables omises sont peut-être immesurables (sélection par les inobservables), si bien que même si on y pensait, on ne saurait pas comment neutraliser leur effet. Utiliser des données de panel plutôt que des séries temporelles permet de contrôler par certaines variables inobservables (celles communes à tous les pays, ou celles propres à chaque pays mais qui ne varient pas dans le temps) mais pas par toutes (on ne peut pas contrôler par les variables inobservables qui sont propres à chaque pays et évoluent dans le temps) - j’expliquerai pourquoi dans un article de blog. Il existe des méthodes dites quasi-expérimentales qui permettent d'adresser de manière plus convaincante le biais de la variable omise. Ces méthodes quasi-expérimentales sont d'ailleurs un allié très puissant pour établir l'impact causal des politiques environnementales, j'en parle ici ou encore ici. Malheureusement, je n'ai pas trouvé d'étude qui emploie ce type de méthodologie sur le sujet du lien énergie-économie, à l'exception d'une expérience naturelle de Söderberg (2021). Malgré tous mes efforts, je n’ai pu accéder au papier, mais voici ce que je comprends à la lecture de l’abstract, le court résumé qui m’était accessible. L’astuce du papier est qu’il exploite les évènements de la canicule de 2003 qui ont paralysé l’économie mondiale. Cette catastrophe fournit une source de baisse du PIB dont on peut raisonnablement penser qu’elle n’est pas due à une variation à court-terme de la consommation d’énergie. Dans ce cas là, on sait qui de la poule ou de l’oeuf. L’auteur trouve ainsi que la baisse du PIB induite par la canicule a réduit l’énergie consommée mais aussi qu’il existe ce qu’on appelle un effet kuznets : la relation entre la baisse du PIB et l’énergie est plus forte pour les pays moins développés, signe que les économies développées sont moins dépendantes de l’énergie. Ces résultats sont intéressants mais j’ai deux réserves. Premièrement, même à supposer que ce travail soit fiable, il a une portée limitée. Il n’isole le sens de la direction entre PIB et énergie que dans le cadre d’une baisse de PIB induite par une canicule. Rien ne dit que les résultats soient transposables aux effets d’une baisse du PIB pour d’autres raisons. Surtout, on aurait aussi aimé avoir une expérience naturelle sur l’autre sens de la relation (énergie=> PIB). Deuxièmement, je m’interroge sur la fiabilité du résultat. La méthode statistique employée (variable instrumentale) repose sur l’hypothèse que la canicule n’a impacté la consommation d’énergie que par le canal du PIB. Cela me semble difficile à concevoir. En France, par exemple, la canicule a causé des problèmes de refroidissement des centrales, et EDF a dû réduire drastiquement la production. Il est possible que l’auteur ait trouvé un moyen de contourner ce problème, mais, sans le texte complet, il m’est impossible de statuer. Dans tous les cas, deux conclusions sont saillantes : (i) les graphiques de JMJ ne prouvent pas que « tous les modèles économiques prennent la causalité dans le mauvais sens »; (ii) la littérature scientifique, qui emploie des méthodes plus rigoureuses que JMJ, ne trouve rien de net. Il n’y aucune preuve solide qu’on puisse expliquer la baisse de la croissance du PIB dans certains pays développés depuis quelques décennies par une baisse de l’approvisionnement en énergie comme l’affirme JMJ. L’absence de preuves n’est pas la preuve de l’absence, mais en l’absence de preuves, il n’est pas prudent de clamer qu’on a trouvé le « meilleur modèle macroéconomique du monde ». Il semble que la macroéconomie attende encore son Galilée. Conclusion Malgré toute sa complexité et ses contradictions, cette littérature sur le lien énergie-PIB montre une chose : l’économie est trop complexe pour être expliquée par un seul facteur. L’hypothèse d’une relation universelle et univoque de l’énergie vers le PIB est rejetée par les données. C'est sans doute ce qui explique l’échec des prédictions de JMJ que je mentionnais au début. Les fluctuations de la quantité d’énergie consommée ne permettent pas de rendre compte de celles du PIB ces dernières décennies. Si cet article ne vous a pas convaincu qu'il s'agit là d'un résultat important, je vous renvoie à cette réponse. Néanmoins, l’énergie est bien sûr un enjeu clef du destin de nos sociétés. C’est ce qui rend la question du découplage entre énergie et économie, que nous évoquons dans cette interview, centrale. On peut créditer JMJ d’avoir insisté sur l’importance de l'enjeu énergétique dans les décennies à venir, même s’il est très loin d’être le seul. On pourrait souligner malicieusement que chez JMJ, “le bon n’est pas neuf, et le neuf n’est pas bon”, comme on l’a écrit à propos de Freud. Mais ce serait oublier qu’il est parfois bon de rappeler ce qui n'est pas neuf. Les interventions de JMJ ont au moins eu le mérite d’avoir ouvert les yeux d’une partie du public sur l’importance de la question énergétique. Découvrez nos échanges avec JMJ quant à ce billet de blog Aller plus loin, et les autres articles Je me suis concentré sur les travaux qui s’approchaient le plus de la démarche de Jean-Marc Jancovici, ceux qui tentaient d’étudier le lien empirique entre l’énergie et économie avec des données récentes, et sans faire beaucoup d’hypothèses théoriques. Ceci s'inscrit plus largement dans la ligne éditoriale de mon blog. J'écris en effet souvent sur des méthodes qui permettent avec pas ou peu d'hypothèses théoriques de connaître l'efficacité réelle des politiques publiques, comme dans ce billet où je parle de la taxe carbone et des économies d'énergie. Mais le lien énergie-économie a été abordé plus largement que ne le suggère mon article ! Il existe des travaux en histoire économique qui insistent sur le rôle de l’énergie, et notamment sur son prix relativement au travail comme prédicteur de l’ordre d’entrée des pays dans la révolution industrielle : plus le coût de l’énergie est bas relativement à celui de la main d’oeuvre, plus il est intéressant de s’industrialiser tôt. Et bien sûr, l’économie de l’énergie est un champ vaste qui inclut des modèles théoriques sophistiqués que je ne présente pas ici. Vous pouvez par exemple lire le premier article de cette série, l’interview de l’économiste de l’énergie Philippe Quirion. Il existe tout un champ de la science économique qui étudie l’innovation, son impact sur le tissu économique et ses déterminants. On peut aussi mentionner l’économie de l’environnement, champ connexe à l’économie de l’énergie, et dont j'ai parlé un peu plus sur Twitter. Les autres sciences sociales ont aussi leur mot à dire sur l’environnement. Bibliographie Bercu, A., Paraschiv, G. and Lupu, D., 2019. Investigating the Energy–Economic Growth–Governance Nexus: Evidence from Central and Eastern European Countries. Sustainability, 11(12), p.3355. Card, D., Kluve, J. and Weber, A., 2017. What Works? A Meta Analysis of Recent Active Labor Market Program Evaluations. Journal of the European Economic Association, 16(3), pp.894-931. Bruns, S., Gross, C. and Stern, D., 2014. Is There Really Granger Causality Between Energy Use and Output?. The Energy Journal, 35(4). Chen, P., Chen, S. and Chen, C., 2012. Energy consumption and economic growth—New evidence from meta-analysis. Energy Policy, 44, pp.245-255. Cicea, C., Ciocoiu, C. and Marinescu, C., 2021. Exploring the Research Regarding Energy–Economic Growth Relationship. Energies, 14(9), p.2661. Jérôme Gautié, Patrice Laroche, 2018. «Minimum Wage and the Labor Market: What Can We Learn from the French Experience? [http://hal-paris1.archives-ouvertes.fr/halshs-01842434/fr/] Kulionis, V. Energy Embodied in Trade, 1970– 2014. (Lund University, 2019) Hafner, M. 2017. « The impact of the National Minimum Wage on employment: a meta-analysis ». Rand Europe - Research Papers. Hristos Doucouliagos & T. D. Stanley, 2009. "Publication Selection Bias in Minimum‐Wage Research? » A Meta‐Regression Analysis. British Journal of Industrial Relations, 47(2), p. 406-428, June. Hajko, V., 2017. The failure of Energy-Economy Nexus: A meta-analysis of 104 studies. Energy, 125, pp.771-787. Henderson, P., 2008. The Concise encyclopedia of economics. Choice Reviews Online, 45(09), pp.45-4750-45-4750. Kalimeris, P., Richardson, C. and Bithas, K., 2014. A meta-analysis investigation of the direction of the energy-GDP causal relationship: implications for the growth-degrowth dialogue. Journal of Cleaner Production, 67, pp.1-13. Tomas Kucera, 2020. Are Employment Effects of Minimum Wage the Same Across the EU? A Meta-Regression Analysis," Working Papers IES 2020/2, Charles University Prague, Faculty of Social Sciences, Institute of Economic Studies, revised Jan 2020. Menegaki, A., 2014. On energy consumption and GDP studies; A meta-analysis of the last two decades. Renewable and Sustainable Energy Reviews, 29, pp.31-36. Soava, G., Mehedintu, A., Sterpu, M. and Grecu, E., 2021. The Impact of the COVID-19 Pandemic on Electricity Consumption and Economic Growth in Romania. Energies, 14(9), p.2394. Söderberg, M., 2021. Identification of how economic development affects energy use through a natural experiment. Journal of Environmental Economics and Policy, pp.1-15.

Jean-Marc Jancovici m’a répondu... voici ma réponse (mis à jour !)

Sur facebook, JM Jancovici a commenté le deuxième article de cette série sur ses propos. [Je mettrais cette page à jour au rythme de nos échanges]. Voici le commentaire de Jean-Marc Jancovici JMJ : « Pour une fois je vais me permettre de faire un commentaire critique sur la forme : je ne relaie personnellement jamais de texte anonyme (ce texte n'aurait donc pas du se retrouver ici tant que son auteur était anonyme, désolé pour Adrien Couzinier qui a surement cru bien faire). Or l'auteur de ce texte n'est pas connu, pas plus qu'une des deux personnes ayant contribué à son élaboration ("un économiste (@mrbig_panda)") L'auteur explique qu'il "suit (...) une convention universitaire". Aucune convention universitaire n'autorise de publier de façon anonyme. Sur le fond, si je trouve le temps je publierai sur mon site une réfutation des propos tenus, voici dès à présent quelques remarques. Dès le début, l'auteur confond un flux et sa dérivée, puisqu'il indique que pour moi l'énergie (un flux) est nécessaire à la croissance (laquelle est une dérivée, celle du PIB, qui lui est un flux). Il considère aussi que la relation quasi-linéaire que j'ai trouvée entre énergie et PIB me sert pour "démontrer" le lien de causalité, avec une excellente corrélation. Malheureusement, ce n'est pas du tout ce que j'explique. J'explique que cette quasi droite est la CONSEQUENCE logique d'un monde dans lequel l'économie compte (quand elle est bien faite, j'y viens juste en dessous) en valeur monétaire la contrepartie de flux de transformation - donc d'énergie - que le physicien compte en joules, et pas du tout une démonstration. Et comme le rapport entre la capacité physique de transformation des machines - qui utilisent l'énergie - et celle des hommes est de 200 à 1, c'est au premier ordre le parc de machines en activité qui dimensionne la production. A nouveau, cette quasi-droite est une CONSEQUENCE ATTENDUE, PAS UNE PREUVE. Elle indique que l'énergie est un facteur limitant au premier ordre du PIB. La preuve est dans la définition même de l'énergie et du PIB, et dans le rapport de 1 à 200. Inutile donc de disserter sur une chose que je n'affirme pas pendant des pages... Sur le "PIB bien fait" : lorsque cet indicateur a été créé, il comptait des choses qui changeaient vraiment la vie : des logements, des voitures, des tables, des chaises, des chemises, et des places de cinéma. Tout là dedans "se touche" (même une place de cinéma est accessible à nos sens). Avec la financiarisation et la mondialisation de l'économie, le PIB peut désormais compter : - des plus values financières qui ne créent rien de supplémentaire "physiquement" mais augmentent mécaniquement certaines transactions qui entrent dans le PIB - de la valeur ajoutée dans un pays alors que les flux physiques ont pris place dans un autre pays. Je persiste et signe dans le fait que la croissance du "PIB vrai" (les tables, les chaises, et les services "qui se touchent") a été nulle depuis 2007. En Europe la production industrielle de 2019 est à peu près la même que celle de 2007 (et dans la zone euro exactement la même), l'activité de construction est plus basse, et si on regarde le pouvoir d'achat net des français il est à peu près identique. Dit autrement, depuis 2007, quand le PIB augmente, ca ne profite pas à l'essentiel de la population. Ca se concentre dans la sphère financière. On peut donc découpler un peu avec de l'efficacité énergétique, et un peu aussi avec du PIB virtuel, venant essentiellement de plus values... Si on regarde des indicateurs qui font abstraction des effets de bord du PIB, nous sommes bien entrés en stagnation depuis 2007, nonobstant les tombereaux d'argent déversés sur l'économie, et qui, selon la théorie "orthodoxe", auraient du faire repartir cette dernière. Un peu plus bas, l'auteur de cette analyse affirme, à propos - toujours - du lien de causalité "c’est ce que JMJ fait, en notant que les variations du cours du pétrole précèdent celles du taux de croissance du PIB". Pourtant j'insiste bien quand je montre cette courbe en disant que la variation sur le pétrole n'est pas celle du prix mais du volume. Apparemment je ne le répète pas assez.... Plus bas encore, il écrit "Lorsque la croissance du PIB ralentit, la demande de pétrole décroît, ce qui tend à réduire le prix du baril". Passons sur le fait qu'à nouveau on confond un flux (la demande de pétrole) et sa dérivée (la croissance du PIB qui ralentit), mais il n'y a pas de lien entre prix et volume sur le pétrole (https://jancovici.com/publications-et-co/articles-de-presse/le-petrole-est-il-elastique/ ). Historiquement le prix a pu monter avec une consommation qui baisse, mais aussi avec une consommation qui augmente... "Les pétroliers répondent à des incitations économiques." Bien sur. Mais l'incitation ne crée pas la ressource. Notre auteur considèrerait-il que quand les hommes de l'art disent "même si on veut y'en aura pas plus" (https://theshiftproject.org/wp-content/uploads/2020/06/%C3%89tude_D%C3%A9clin-de-lapprovisionnement-de-lUE-en-p%C3%A9trole-dici-2030_TSP.pdf ) eux aussi ont tort parce qu'ils ignorent la bonne économie ? A plusieurs endroits dans le texte, l'auteur affirme sans rien démontrer. Par exemple quand il écrit que ce sont les anticipations qui explique les covariations pétrole-PIB. Je serais curieux de voir quelles expériences du monde réel - où l'on mesurerait les anticipations avec un protocole normé permettant d'avoir une quantification réfutable - permettent de conforter cette théorie. Dans le même esprit, un peu plus bas l'auteur porte la contradiction avec un argument démarrant par "Il n’est pas exclu de penser (...)". Mais en logique, "il n'est pas exclu" n'est pas "il est certain que telle explication est la bonne"... Je terminerai ce commentaire (qui ne fait pas le tour de ce qu'il y aurait à dire sur cette analyse) par où je l'ai commencé : dans un débat sérieux, l'anonymat n'est pas de mise. » Voici ma réponse (elle est une version enrichie de mon commentaire) Je vous remercie de m’avoir lu, et je vous lirai avec attention si vous donnez un peu de votre temps pour tenter de réfuter mon billet. Je vous remercie aussi de mentionner que le physicien Grégory de Temmerman a relu ce texte, et qu'il le trouve intéressant ; ceci écarte les objections selon lesquelles j'aurais décidé "d'ignorer la physique" dans les commentaires du post facebook. Quelques premières réponses à vos premières remarques : - Comme l’a dit Joëlle XX, je m’appelle Louis FREGET, si vous souhaitez connaître mon identité. Je ne comprends pas bien ce que cette information apporte à notre discussion ; le seul intérêt de connaître l’identité de quelqu’un qui ne fait pas d’argument d’autorité, mais fournit ses sources, c’est de pouvoir le juger sur ce qu’il est plutôt que sur ce qu’il il dit. C’est de faire de l’ad hominem donc, et je ne crois pas que ce soit votre démarche. J’ajoute que lorsque je parlais de convention universitaire, je parlais du format des références et rien d’autre. Mon texte était parfaitement clair à ce sujet. - lorsque je parle d’énergie qui peut expliquer la croissance, c’est un raccourci pour dire qu’une quantité croissante d’énergie transformée peut expliquer la croissance. C’est un pur raccourci de langage, qui rend ma phrase un peu imprécise, mais on ne touche pas là au fond de mon propos. On peut décliner la même remarque concernant mon explication sur lien entre le PIB et la demande de pétrole, ou de ma coquille cours/quantité - le paragraphe d’après parle très nettement de quantité, le doute n’est pas permis. Tout ceci n’est que des remarques de pure forme, et je me réjouis de ce que le reste de votre argumentation soit plus centrée sur le fond. - Les sous-parties « biais de la variable omise / anticipations » sont là pour justifier de l’usage de méthodes plus sophistiquées dans la littérature. Mon message est « Il y a des objections possibles donc il faut utiliser des méthodes plus rigoureuses». Or, pour employer une méthode qui permet de corriger un biais possible, il suffit de montrer qu’un biais est ...possible. D’ailleurs, il est impossible de savoir si un biais tord bien un résultat avant d’avoir appliqué une méthode qui permet de corriger ce biais, puis d'avoir comparé les résultats des deux méthodes-celle qui ne corrige pas le biais, et celle qui la corrige. Justement, tout le reste du texte présente des méthodes qui permettent de tenter de corriger les biais que je mentionne, notamment celui de la variable omise, et leurs résultats. Ceci permet ensuite de juger de la mesure dans laquelle les objections que je liste affectent l’estimation du lien causal énergie-économie. - Nul part je n’ai écrit que vous essayiez de prouver la causalité énergie-économie par une simple corrélation. J’écris simplement que la relation ne mérite pas nécessairement le titre de meilleur modèle macroéconomique du monde, car la non-stationarité des séries et possible simultanéité gonflent le coefficient de détermination, et que pour cette raison cette forte corrélation est moins intéressante qu’elle ne peut paraître. -Je « disserte » bien sur une de vos thèses, l’une de vos plus originales en fait. Le sujet de l’article est vos explications de la baisse de la croissance ces dernières décennies par un manque d’énergie, et notamment votre explication de la crise de 2008 par le pic de pétrole conventionnel. Supposons que le parc de machines dimensionne le PIB, ce qui est au moins en partie vrai, surtout actuellement. Même sous cette hypothèse, il est possible que la baisse de la croissance d’énergie n’explique pas la diminution de la croissance du PIB ces dernières décennies ou la crise de 2008 comme vous l’affirmez. Trouver une variable A qui dimensionne une variable B ne revient pas à dire que les variations de A expliquent celles de B. Exemple: l’oxygène que nous respirons est nécessaire à la vie humaine. La quantité d’air respirable dimensionne le nombre de personnes qui peuvent vivre sur la planète. Cela ne signifie pas pour autant que des variations de la quantité d’oxygène disponible expliquent les variations de la population ces dernières décennies. Pourtant, c’est votre raisonnement lorsque vous affirmez que parce que l’énergie est essentielle au PIB, c’est nécessairement un manque de ressources énergétiques qui explique le ralentissement de la croissance ces dernières décennies (ce qui est bien votre thèse, les citations dans mon texte et d’autres encore l’attestent) ou la crise de 2008. D’ailleurs, les commentaires sur différents réseaux montrent que beaucoup de gens qui reconnaissent vos talents de vulgarisateur et d’ ‘alerteur’ sur la gravité de la situation (comme moi je les reconnais) ne vous suivent pas sur cette thèse hardie. - sur le rôle des anticipations, je n’ai pas de preuve microéconométrique qui isole le lien des anticipations sur la croissance, mais le lien hypertexte dans la phrase renvoie à un exercice de machine-learning qui montre qu’un indicateur de confiance/ anticipation prédit bien la croissance, et, ce, mieux que tous les autres indicateurs en lice. Ceci s’explique notamment par le fait les anticipations ainsi mesurées précèdent le PIB. C’est un bon indice du rôle des anticipations dans la croissance, et cet exercice ressemble à celui que vous réclamez (indicateur et tests précis, démarche réfutable donc). A nouveau, à ce stade, mon but n’est pas de démontrer avec certitude qu’il existe un lien causal parfaitement isolé entre anticipations et croissance. A cette étape de la démonstration, je présente un doute raisonnable qui justifie que des centaines d’études usent de modèles dynamiques multivariés et ne limitent pas leur analyse de données au constat que parfois une série semble en précéder une autre. - Ce que vous appelez « le vrai PIB » me semble être une catégorie ad hoc et aux contours assez indéfinissables. Me semble difficilement tenable la thèse selon laquelle tous les échanges impliquant des biens tangibles seraient seuls créateurs d’une vraie valeur « physique », par opposition à ceux impliquant des services - intangibles donc- qui donneraient lieu à des échanges qui ne seraient qu’artifices comptables. Les services ne sont pas que financiers ! Les services d’un médecin, d’un psychologue ou d’un enseignant me semblent avoir au moins autant de la valeur que la production de « chaises, de tables et de vêtements.«  Et si le critère est que les transactions qui mènent lieu à la création de la vraie valeur sont celles qui « changent la vie » (critère qui me semble difficilement objectifiable), alors je connais des heures passées avec un prof qui ont bien plus changé une vie qu’une nouvelle paire de jeans. D’ailleurs, toutes les interactions induites par les services mettent en jeu dans notre cerveau des réactions chimiques. Donc physiques. En fait, parce que tout est physique, aucun échange économique n’implique de processus plus physiques que d’autres. Cela fait écho à mes discussions sur Twitter avec le physicien Grégory de Temmerman, où nous parlions des limites de l’approche « tout est physique », qui est une tautologie moins profonde qu’elle ne paraît. - Concernant ce passage suivant : « Plus bas encore, [l’auteur] écrit "Lorsque la croissance du PIB ralentit, la demande de pétrole décroît, ce qui tend à réduire le prix du baril" [mais] il n'y a pas de lien entre prix et volume sur le pétrole (https://jancovici.com/publications-et-co/articles-de-presse/le-petrole-est-il-elastique/ ). Historiquement le prix a pu monter avec une consommation qui baisse, mais aussi avec une consommation qui augmente... »: (1) Quand on parle de comportements, et ici on parle de celui des producteurs de pétrole, il faut bien mesurer la différence entre ce qui est, et ce que *croient* les agents. Ce sont les croyances qui déterminent en dernier ressort le comportement des agents. Même s’il n’existait aucun lien entre le prix du pétrole et la quantité demandée, les producteurs de pétrole pourraient le croire et agir en conséquence ! (EDIT: j’ajoute, après la deuxième réponse de JMJ, et en guise d’illustration, que si on a décidé d’ignorer les articles de recherche, la presse ne cesse de reporter les décisions de baisse de l’offre de l’OPEP pour faire face à des baisses anticipées de la demande. Exemple : https://www.google.fr/amp/s/www.leparisien.fr/amp/economie/vers-une-baisse-massive-de-la-production-de-petrole-10-04-2020-8297352.php) ) (2) Votre démonstration sur l’élasticité-prix de la demande de pétrole (car c’est dont il est question dans mon billet) est rendue invalide par un biais fondamental en statistiques. Vous entendez démontrer que la ‘loi’ de la demande ne se vérifie pas concernant le pétrole car il n’y a pas de corrélation prix-quantité de pétrole consommée. Vous affirmez alors avoir détruit une « base solide de nos cours d’économie ». Mais la quantité de pétrole consommée ne dépend pas que de la demande mais aussi de l’offre ! On ne peut consommer que ce qui a été produit/extrait. Ainsi, le lien quantité consommée de pétrole - prix que vous présentez dans votre article n’est pas le lien demande de pétrole- prix. C’est une autre manifestation du biais de simultanéité dont je parle dans l’article. C’est un vieux problème en statistiques appliquées. Il a été identifié par Sewal Wright, grand biostasticien et son père économiste dans les années 1920. A cause du biais de simultanéité, il faut utiliser des méthodes plus sophistiquées pour estimer une élasticité de la demande (ou de l’offre) comme vous souhaitez le faire dans votre article : variables instrumentales, modèles plus structurels avec restriction sur la valeur des paramètres... Le graphique quantité consommée de pétrole-prix ne nous apprend rien sur la relation demande de pétrole-prix, et il est normal de n’y trouver aucune relation claire. Quand on emploie des méthodes plus robustes, qui tentent d’adresser le biais de simultanéité, cette méta-analyse montre qu’on trouve une élasticité-prix faible de la demande de pétrole mais significativement négative en moyenne à long-terme. (EDIT : j'ai ajouté cette partie plus technique quelques heures après la parution de l'article) On pourrait transposer le même raisonnement au niveau de l'offre. Il faut distinguer quantité offerte et quantité produite pour la même raison : ce qui est produit ne dépend pas seulement de ce que les producteurs sont disposés à produire (l’offre), mais aussi de ce que les consommateurs sont disposés à acheter (la demande). Ainsi, une absence de relation claire entre production de pétrole et de prix ne signifie pas que l'offre de pétrole est inélastique au prix comme l'affirme l'article "le pétrole est-il inélastique ?". Comment alors interpréter rigoureusement les mouvements sur l'axe prix-consommation ? D'abord, il n'est pas sûr qu'un économiste emploie un modèle simple d'offre et de demande pour modéliser le marché du pétrole. Le modèle de l'offre et la demande suppose (entre autres) un grand nombre de producteurs qui vendent des biens similaires, sans s'entendre sur les prix. Ce n'est pas le cas du marché du pétrole, où un petit nombre d'acteurs qui concentre l'essentiel de la production interagit stratégiquement et s’entend grâce à l’OPEP. Ainsi, même le manuel de première année Core Economics propose un modèle un peu plus sophistiqué que celui de l'offre et de la demande (bien que proche du modèle séminal), modèle qui tente de rendre compte des phénomènes d'entente au sein de l'OPEP. (EDIT, Décembre 2021: on pourra aussi lire cet article de recherche.) Plus largement, il existe un champ vaste de la science économique qui étudie les marchés avec un petit nombre d’acteurs : l’économie industrielle. Ensuite, si on souhaite interpéter les variations sur l'axe prix-production/consommation de pétrole dans le cadre du modèle de l’offre et de la demande comme dans l’article, il faut à mon sens plutôt considérer que chaque point est un équilibre du marché, c'est-à-dire un prix et une quantité pour lequel l'offre et la demande sont égales. Le prix qui égalise l'offre et la demande est appelé le prix d'équilibre ; la quantité qui égalise l'offre et la demande est appelée la quantité d'équilibre. Ce prix a l'air bien stable. Comment expliquer qu'il puisse changer au cours du temps dans ce modèle? Réponse : il faut penser aux chocs. Un choc est un évènement qui déplace la courbe d’offre ou la courbe de demande. Autrement dit, un choc d’offre (de demande) est un évènement qui réduit la quantité offerte (demandée) pour un prix donné, ou qui change le prix nécessaire pour que les producteurs offrent (demandent) la même quantité - c’est la même chose graphiquement. Prenons l'exemple très fictif (!) d’un embargo sur le pétrole en 1973 par les pays de l'OPEP. Graphiquement, ce choc d'offre négatif déplace la courbe comme sur le schéma. Une des conséquences les plus directe du choc est en effet que les producteurs de pétroles offrent une tonne de pétrole a prix plus haut qu’avant. On voit ainsi sur ce schéma que suite au choc pétrolier, le prix d'équilibre est plus haut, et la quantité d'équilibre est plus basse. C'est un peu de cette manière que le manuel Core Economics interprète les déplacements sur l'axe prix-consommation de pétrole. Le prix du baril change à cause d'un choc d'offre (comme un choc pétrolier) ou de demande (comme le début de la grande dépression) : Les limites de l’approche sont cependant assez évidentes. En particulier, trouver une coïncidence temporelle n’est pas la preuve de l’action du choc, plusieurs chocs d’offre et de demande peuvent se produire en même temps, notamment du fait des comportements stratégiques des offreurs. Quand on veut dépasser l’illustration pédagogique, on comprend que les chercheurs se tournent vers des modélisations plus sophistiquées. Pour l'anecdote, on peut contourner le biais de simultanéité en utilisant la méthode des variables instrumentales, qui permet d'exploiter ces chocs - ce n'est qu'une méthode possible. Par exemple, pour isoler la demande, il faut trouver un instrument pour l’offre. Un instrument est une variable qui ‘choque’ une courbe pour en isoler une autre. Ainsi, quand la valeur de cette instrument varie, la courbe d’offre se déplace le long de la courbe de demande comme sur le graphique ci-dessus. La trajectoire des déplacements de la courbe d'offre dessine la courbe de demande (en pointillés) qu’on cherche à isoler. La deuxième réponse de JMJ j'aime beaucoup l'attitude qui consiste à dire "je prends ce qui me plait dans une convention mais pas le reste"... Confondre une grandeur et sa dérivée n'est pas un raccourci de langage. C'est une erreur (assez basique au demeurant). Confondre un prix et un volume (sur le pétrole) n'est pas une faute d'inattention. C'est une erreur (assez basique aussi). Incidemment vous n'avez pas plus compris mon propos dans votre réponse. Je n'entends pas réfuter une "loi de la demande". J'entends juste montrer qu'il n'y a pas d'élasticité de long terme entre prix et volume sur le pétrole, ce que, incidemment, tous les gens qui pratiquent l'économie réelle sur les commodités savent parfaitement. Il y a une élasticité de court terme, mais pas de long terme. Pourtant de telles élasticités de long terme sont utilisées dans des modèles économiques "de place". Une fois que vous avez écrit "il est possible que la baisse de la croissance d’énergie n’explique pas la diminution de la croissance du PIB", nos ne sommes pas plus avancés si vous n'avez pas une démonstration probante attribuant ce qui s'est passé à une cause précise. Je ne vois pas la pertinence du parallèle entre oxygène et énergie. L'oxygène atmosphérique baisse significativement quand vous montez à 2000 m d'altitude. Mais cela n'empêche pas des gens d'y vivre, parce que l'oxygène n'est pas limitant dès son premier % de baisse (alors que l'énergie est limitante sur le flux de transformation dès le premier % de baisse). Enfin une théorie que vous ne pouvez pas démontrer par des observations ne s'appelle pas une théorie, mais une hypothèse non démontrée (cas des anticipations). Quand vous serez amené à gérer des organisations, si cela arrive un jour, il vaut mieux éviter de se baser sur des hypothèses non démontrées.... Ma réponse à ce deuxième commentaire Ma mention des « cours » est une faute d’inattention quand le paragraphe suivant entier parle explicitement et sans ambiguïté du volume, personne n’a cru que je parlais du prix. Pas même les gens qui défendaient votre démarche dans les commentaires. Il en va de même pour le flux et la dérivée, ma phrase d’après est littéralement : « [JMJ] affirme que les variations de la quantité d’énergie expliquent celles du PIB ces dernières décennies.. » Qui peut alors imaginer que je confonds « flux et dérivée » et que c’est autre chose qu’un raccourci de langage ? Je ne vois vraiment pas ce « qu’écrire la croissance de l’énergie explique la croissance » aurait changé au fond de ma démonstration, surtout à la lecture de la phrase d’après. Enfin, pardon, mais je vous cite dans l’article : « on devrait voir que quand le prix monte (donc que le point se situe sur la partie droite par rapport à l’axe vertical) alors la consommation diminue (et donc que le point se situe aussi sous l’axe horizontal). Si cette « loi » était valable, donc, tous les points situés dans le cadran Nord-Est du graphique ne devraient pas y être, mais se situer dans le cadran Sud-Est. Manifestement, ce n’est pas le cas… » => comment pouvez-vous affirmer que vous ne souhaitez pas ici infirmer la loi de la demande ? Quelle autre loi pourrait prédire une baisse de la consommation quand le prix augmente ? (J’écris « pourrait », parce qu’à nouveau la loi de l’ »offre et de la demande » dont vous parlez dans votre article (oui, oui) ne prédit absolument rien sur la consommation en soi Elle fait seulement des prédictions sur les quantités demandées et offertes.) Le terme d’élasticité du volume me semble très étrange. Je ne l’ai jamais entendu. J’ai toujours entendu parler d’élasticité de la demande, et d’élasticité de l’offre. On distingue les deux élasticités parce que le simple volume produit ou consommé agrège les chocs d’offre et de demande. Je ne vois pas quelle information l’élasticité prix du volume convoierait. En tout cas, cette élasticité ne convoie aucune information « sur la loi de l’offre et la demande » dont vous parlez dans votre article car elle ne fait aucune prédiction sur le simple volume, mais sur l’offre et la demande. Mentionner qu’il n’y a aucune élasticité entre volume et prix ne prouve pas non plus qu’un choc de demande négatif ne fait pas baisser le prix, ce qui était le coeur de votre remarque ; parce qu’à nouveau, je parle d’un choc sur la demande, pas sur le volume échangé, qui dépend aussi sur l’offre. Je ne comprends toujours pas comment cette information est supposée réfuter ma thèse selon laquelle il faut envisager le rôle des anticipations. Enfin, mon point est qu’un facteur limitant d’une variable n’est pas nécessairement un facteur qui explique principalement les variations de cette variable; on peut pinailler sur l’exemple, le principe reste. Je ne sais pas bien comment vous pouvez affirmer que je suis incapable de démontrer par des observations le cas des anticipations. J’ai le fait stylisé très connu que les anticipations précédent le PIB, et le résultat de l’analyse par machine-learning. Certes, contrairement aux autres mécanismes, je mentionne que je n’ai pas « isolé » le lien, mais : Cela impliquerait des travaux macro ou microéconométriques comme la littérature sur l’énergie et économie que je cite. Vous n’avez autant que je sache jamais basé vos travaux sur de tels exercices statistiques multivariés, ou des expériences bien contrôlées. Dois-je en déduire que vous n’avez rien démontré de votre carrière ? 2. A nouveau à ce stade, je cherche simplement à montrer les limites du raisonnement « la courbe précède une autre, donc ça suggère que la série qui se produit avant précède l’autre. » . Pour ça, il suffit de démontrer qu’un doute raisonnable est possible (cf le fait stylé, le lien hypertexte) et de montrer que la méthode que vous utilisez ne permet pas de corriger un biais s’il existe. Je ne sais pas comment le dire plus clairement. Il me semble que ça fait partie de la dialectique de base quand on fait tente d’isoler des liens causaux. Autres exemples du principe qu’il suffit de montrer un biais possible et que la méthode qu‘on utilise ne permet pas de le corriger pour montrer que la démonstration est insuffisante : -lorsqu’il y a des possibles variables omises dans une relation bivariée, cela suffit à ce qu’on ajoute des contrôles pour qu’on puisse comparer les résultats avec et sans contrôles. -En médecine et dans bien d’autres domaines, la possibilité de sélection par les inobservables justifie qu’on demande une expérience ou une quasi-expérience. Je précise qu’on appelle sélection par les inobservables le fait que dans une étude observationnelle, ceux qui ont reçu le traitement/ bénéficié de la politique diffèrent de ceux qui ne l’ont pas reçu de manières qu’on ne sait pas mesurer et ajuster statistiquement. Personne ne demande alors à mesurer les inobservables, personne ne dit « vous ne pouvez pas formuler cette critique tant que vous n’avez pas identifié ces facteurs inobservables », il y a un doute possible donc on ne fait pas d’affirmation causale - comme vos propos sur le lien pétrole-PIB. Puisque vous vous permettez un conseil condescendant, je vous fais celui-ci : par pitié, renseignez-vous sur l’inférence causale et l’économétrie. C’est utile quand « on dirige des organisations », d’ailleurs, il y a toute une vague de cours de « Causal Inference for Business » mais ça l’est surtout quand on veut faire des conférence sur le lien entre deux variables mesurées hors laboratoire, sujet sur lequel il existe une vaste littérature qui nécessite des bases en économétrie pour être comprise. Mon deuxième commentaire de réponse «  j’ajoute, comme j’ai l’esprit d’escalier, en réponse à « Une fois que vous avez écrit "il est possible que la baisse de la croissance d’énergie n’explique pas la diminution de la croissance du PIB", nos ne sommes pas plus avancés si vous n'avez pas une démonstration probante attribuant ce qui s'est passé à une cause précise. » => la théorie économique fournit bien des mécanismes parfois très bien isolés pour expliquer les fluctuations de la croissance à court et moyen-terme (accélérateur financier pour la crise de 2008, effet multiplicateur d’ailleurs isolé grâce à des expériences naturelles,...) et à plus long-terme (institutions, voir les travaux d’Acemoglu et Robinson par exemple...)

Les deux paradoxes des inégalités que vous ignorez - le dernier rapport de l'OCDE

Si vous avez déjà ouvert un journal, vous avez sans doute entendu parler de L'OCDE. C'est une association internationale qui regroupe 38 pays parmi les plus riches de la planète. Elle emploie également des centaines d'experts qui documentent l'état du monde. Justement, ses derniers rapports ont enchaîné les constats glaçants. Ceux de 2011 et 2015 montraient qu'une majorité de pays de l'OCDE (développés) a connu une forte augmentation des inégalités de revenus au cours des trente dernières années. Celui de 2018 montrait que la mobilité sociale s'est grippée, celui de 2019 que la classe moyenne a été mise à mal par la hausse des coûts, l'incertitude de l'emploi et la stagnation des revenus. Les citoyens des pays de l'OCDE sont-ils conscients de cette situation, et si oui, comment la jugent-t-ils ? La réponse à ces questions est... surprenante. Le dernier rapport, celui de 2021, révèle deux tenaces paradoxes. Le premier paradoxe : dans les pays développés, les citoyens sont de plus en nombreux à se soucier de ce que les inégalités montent, mais pas à souhaiter que l'Etat intervienne pour les réduire ! Les données d'une vaste enquête internationale, l'International Social Survey Programme (ISSP) montrent que les citoyens savent que les inégalités ont monté : ces trente dernières années, ils ont ajusté leurs perceptions des inégalités à la hausse. Plus encore, les citoyens des pays développés se préoccupent de cette hausse. Depuis 30 ans, les mêmes données révèlent qu'ils sont de plus en plus nombreux à déclarer que les écarts de revenus dans leurs pays sont trop importants ! Pourtant, aussi surprenant que cela puisse paraître, la part de citoyens qui souhaiteraient que les Etats agissent pour endiguer cette hausse des inégalités ne croît pas. Les données de l'ISSP montrent que la fraction des personnes interrogées qui sont d'accord avec l'affirmation selon laquelle "il est de la responsabilité du gouvernement de réduire les différences de revenus" est restée similaire aux niveaux observés à la fin des années 80. C'est ce qu'on voit sur le graphique ci-dessous. Les citoyens des pays développés ne veulent pas plus de redistribution Pourcentage des personnes interrogées qui sont convaincus ou fortement convaincus qu'il est de la responsabilité des pouvoirs publics de réduire les écarts de revenus, moyennes dans l'OCDE. C'est là le premier paradoxe. Dans les pays développés, les inégalités montent, les citoyens s'en soucient mais ils ne sont pas plus nombreux à souhaiter que l'Etat intervienne pour les réduire. C'est en tentant d'expliquer ce premier paradoxe qu'on découvre le deuxième. Le deuxième paradoxe : informer sur les inégalités conduit à la préoccupation, mais pas vraiment à l'action Une explication naturelle du premier paradoxe pourrait être que les citoyens ne sont tout simplement pas pleinement conscients du niveau réel des inégalités, et de l'ampleur de leur augmentation. "Si les gens savaient à quel point les riches sont plus riches qu'eux, ma bonne Dame, ils se révolteraient !" Il y a en effet beaucoup de preuves que les citoyens des pays développés n'ont pas une perception réaliste du niveau des inégalités dans leurs pays. Par exemple, Alesina, Stantcheva et Teso (2018) montrent que les américains sont en moyenne trop optimistes en ce qui concerne la mobilité sociale, ils la surestiment, tandis que les Européens ont tendance à être trop pessimistes- ils la sous-estiment. Cette différence semble en partie rendre compte des différences internationales dans les préférences pour la redistribution. Alors, est-ce qu'informer les citoyens sur les inégalités les conduirait à demander une action plus ferme du gouvernement pour les réduire ? Pour le savoir, il ne suffit pas de vérifier si ceux qui sont plus informés sur les inégalités sont aussi ceux qui sont le plus en faveur de l'action de l'Etat. Peut-être que ceux qui sont plus à gauche se renseignent plus sur les inégalités, et souhaitent que l'Etat agisse plus pour réduire les inégalités, sans que l'un cause l'autre. Peut-être que les gens plus instruits sont plus susceptibles de voter à gauche, et donc de vouloir que l'Etat mène des politiques de redistribution, et de s'informer sur les inégalités. Plus généralement, il y a bien des facteurs qui distinguent les individus plus informés des inégalités de ceux qui sont moins informés sur les inégalités. Ce sont ces autres facteurs qui peuvent expliquer que des individus différemment informés sur les inégalités demandent des politiques différentes pour lutter contre elles. Non, pour savoir si des informations sur les inégalités causent bien un changement des comportements, il faut mener des expériences. On peut réunir des sujets, puis tirer au sort un groupe qu'on informera sur les inégalités, et mesurer leur volonté de redistribuer (groupe traitement). On dit qu'on donne un traitement informationnel. On peut ensuite également mesurer la volonté de redistribuer au sein du groupe auquel on n'a pas montré d'information (groupe contrôle). Imaginons alors que dans le groupe traitement, un nombre plus important de personnes souhaite que l'Etat intervienne pour redistribuer les richesses que dans le groupe contrôle. Ce sera la preuve d'un effet des informations : par le tirage au sort, le fait d'avoir été informé ou non sur les inégalités ou non sera le seul facteur qui distingue les deux groupes. Heureux hasard, de nombreux économistes, politologues, psychologues, et sociologues ont mené ce type d'expériences depuis quelques décennies. Les études se sont multipliées. Les résultats, parfois contradictoires, se sont accumulés. Difficile de faire sens de ce chaos de résultats. C'est là qu'intervient notre travail avec deux chercheurs de l'OCDE, Emanuele Ciani, et Thomas Manfredi avec qui j'ai eu la chance de travailler lorsque j'étais consultant pour l'institution. Nous avons réalisé une méta-analyse des études portant précisément sur ce sujet. Une méta-analyse est une étude qui agrège les résultats d'autres études, et les mouline pour extraire un résultat moyen. Elle peut aussi permettre de comprendre ce qui explique la variabilité des résultats grâce à des techniques la méta-régression, que nous avons appliqué dans notre étude pour comprendre quel type d'information change le plus les attitudes et les comportements. Notre méta-analyse combine les résultats de 36 expériences admnistrant 84 traitements informationnels quant aux inégalités. Ces informations pouvaient porter sur les inégalités de revenu, de patrimoine, la pauvreté, ou sur la mobilité sociale. Elles pouvaient être présentées sous forme de chiffres, de textes (récits d'ascension sociale par exemple), ou bien d'un mélange des deux. Ces informations pouvaient êtres authentiques ou fausses (faux chiffres ou récits, acteurs jouant le rôle de personnes pauvres pour influencer inconsciemment la disposition de passants à signer une pétition...). Les expériences dont nous avons collectées les résultats ont été menées partout sur la planète, quoique principalement aux Etats-Unis et en Europe, comme le montre la carte interactive ci-dessous. Carte interactive du nombre de traitements par pays dans notre méta-analyse Nos résultats montrent que fournir des informations sur les inégalités a un impact notable sur les perceptions et le degré de préoccupation des sujets des expériences quant aux inégalités, mais un effet plutôt faible sur leur demande de redistribution. C'est là le deuxième paradoxe. Informer les citoyens sur les inégalités les préoccupe mais ne les pousse pas vraiment à demander à l'Etat d'agir. Il s'agit d'effets moyens, calculés sur un échantillon d'expériences diverses, et dans l'article nous faisons beaucoup d'efforts pour savoir si les effets mesurés changent avec la nature exacte de l'expérience. Ainsi, par exemple, le faible effet des informations sur la volonté de redistribuer dépend de si on se croyait plus riche ou plus pauvre qu'on ne l'est réellement. Par plus riche ou pauvre, j'entends "riche relativement aux autres". Certaines études de notre méta-analyse demandent en effet aux participants où ils pensent qu'ils se placent dans l'échelle des revenus (faites-vous partie des 20%, des 10% les plus riches ?) puis les confrontent à la réalité. En moyenne, informer les participants qu'ils sont moins riches qu'ils ne le pensaient les conduit à demander (un peu) plus de redistribution : "Si en fait, je ne fais pas partie des riches, cela me gêne moins qu'on les taxe". Symétriquement, lorsqu'on informe certains citoyens qu'ils sous-estiment leur richesse, ils ont tendance à exiger (un peu) moins de redistribution. Comment expliquer ce deuxième paradoxe ? Pourquoi l'information sur les inégalités pousse au mécontement mais pas à l'action ? Si informer les citoyens quant au niveau des inégalités les conduit à reconnaître qu'elles sont plus élevées, et à considérer qu'elles sont trop hautes, pourquoi est-ce que les participants ne demandent pas une réponse politique à la mesure de leur mécontement ? Plusieurs hypothèses s'affrontent dans la littérature. Accord sur le constat, désaccord sur les solutions On peut être d'accord sur le fait qu'il y a un problème, mais pas sur comment le régler. Dans notre contexte, les citoyens peuvent être d'accord sur le fait que certaines politiques sont nécessaires pour réduire les inégalités, mais pas sur quelles politiques précises il faut mener. Conformément à cette hypothèse, notre méta-analyse montre que les participants sont en moyenne moins nombreux à vouloir redistribuer lorsque les répondants sont interrogés sur des politiques spécifiques. Pour ne donner qu'un exemple, Settele (2021) expose les répondants à deux estimations différentes de l'écart entre les sexes aux États-Unis, l'une plus grande (les femmes gagnent 74 % du salaire des hommes) et l'autre plus petite ( les femmes gagnent 94 % du salaire des hommes). Elle constate que le traitement a des effets très importants sur les perceptions, ainsi que sur la part de participants qui demandent une intervention de l'Etat contre les écarts de salaire entre femmes et hommes. Néanmoins, ce traitement augmente peu leur volonté déclarée de mettre en place de politiques précises, comme une règle exigeant plus de transparence salariale ou une législation plus stricte en matière d'égalité salariale. Une autre expérience (Zilinsky, 2014) menée 7 ans plus tôt sur les inégalités de revenus aux Etats-Unis montre des résultats similaires. Il est plus facile de convaincre des sujets qu'il faut faire quelque chose contre les inégalités que de les convaincre de ce qu'il faut faire. Les citoyens peuvent croire que les politiques sociales sont inefficaces pour corriger les inégalités Les citoyens peuvent croire que les politiques ont une marge de manœuvre limitée pour réduire les inégalités car les politiques sociales sont inefficaces. Kuziemko et al. (2015) montrent que le fait de fournir des informations sur l'efficacité des politiques augmente l'effet du traitement informationnel sur les préférences redistributives. Lergetporer, Werner et Woessmann (2020) confirment le résultat. L'autrice de l'expérience sur les inégalités salariales que je mentionne plus haut montre que le fait d'informer les gens sur l'important écart salarial entre les sexes n'a qu'un impact limité sur la demande de politiques concrètes visant à réduire cet écart, car une part importante des personnes interrogées pensent que ces politiques sont inefficaces. "Elles sont belles, vos politiques sociales, mais combien ça coûte?" Les citoyens peuvent aussi se soucier du coût des politiques redistributives. Hayes et Guay (2020) montrent que fournir des informations sur les coûts des politiques de réduction des inégalités réduit le soutien que ces politiques reçoivent. Mishagina et Montmarquette (2018) montrent que fournir aux répondants des informations sur les coûts du salaire minimum réduit le soutien à celui-ci. La confiance dans le gouvernement La confiance dans le gouvernement pourrait aussi compter pour expliquer le deuxième paradoxe, encore que les preuves soient contradictoires. L'expérience de Kuziemko et al. (2015) révèle deux résultats forts. D'une part, leurs résultats montrent qu'informer les participants de l'expérience sur les inégalités réduit la confiance dans le gouvernement. D'autre part, lorsque les auteurs présentent des informations qui peuvent conduire à être moins confiants dans le gouvernement, ils constatent que cette réduction de la confiance dans le gouvernement réduit encore la demande de redistribution. Néanmoins, et très paradoxalement, Lergetporer, Werner et Woessmann (2020) notent que dans leur expérience, ceux qui faisaient le plus confiance au gouvernement ne sont pas ceux dont le traitement informationnel a le plus changé le soutien à la redistribution ... Le syndrome de stockolm des inégalités Plus on subit des inégalités, plus on peut s'y habituer. C'est ce que j'ai envie d'appeler le syndrome de Stockolm des inégalités : de nouvelles informations sur les inégalités peuvent changer le niveau d’inégalités qu’on juge normal ou acceptable. Les données sont mitigées. Trump (2018) constate que le fait de fournir des informations à des américains sur le niveau élevé d'inégalité aux Etats-Unis augmente également le niveau des disparités que les gens jugent équitables. Campos-Vazquez et al. (2020) qui mènent une expérience similaire au Mexique trouvent des résultats opposés. Fournir aux personnes interrogées des informations sur l'ampleur réelle des inégalités de revenus, ou sur la mobilité sociale dans leur pays n'affecte pas le niveau d'inégalité qu'ils souhaitent. Dans l'ensemble, il s'agit encore d'une voie largement inexplorée dans ce champ de recherche, car la plupart des études ne recueillent pas d'informations sur le niveau d'inégalité souhaité par les personnes interrogées. Pas de lien entre inégalité et l'action politique Peut-être que les citoyens ne lient pas dans leur esprit inégalités et l'action politique qui permettrait de les réduire. Un moyen de le savoir est de fournir des informations sur les inégalités et également des informations sur l'impact de certaines politiques sociales sur les inégalités. C'est ce que Kuziemko et al. (2015) ont fait, en indiquant aux sujets américains de leur expérience le revenu des ménages bénéficiant du revenu minimum ou de coupons alimentaires. Conformément à cette hypothèse, informer les citoyens sur les inégalités dans leur pays et l'impact des politiques sur les inégalités augmente plus la demande de redistribution que lorsqu'on les informe uniquement sur l’ampleur des disparités dans leur pays. Est-ce là une clef de notre paradoxe ? Malheureusement, toutes les expériences ne concordent pas. Lergetporer, Werner et Woessmann (2020) mènent une expérience similaire concernant les inégalités éducatives. Ils constatent que mentionner les impacts des politiques dont ils discutent sur les inégalités scolaires n'est pas plus efficace pour augmenter la part de participants qui souhaitent que l'Etat intervienne contre les inégalités. "je ne suis ni riche, ni pauvre, alors pourquoi est-ce que je voudrais de politiques qui prennent aux riches pour donner aux pauvres ?" Peut-être que les participants ne soucient pas du bien-être de ceux qui seraient affectés par les politiques de redistribution. Pour tester cette hypothèse, on pourrait vérifier que les participants sont plus sensibles aux informations qui les aident à se sentir concernés par les bénéficiaires. Les chercheurs ont testé cette hypothèse de diverses manières, et avec parfois beaucoup d'astuce, mais les résultats sont mitigés. Pour accroître l'empathie des répondants envers les personnes pauvres, Kuziemko et al. (2015) ont mis en place un astucieux dispositif en deux étapes. D'abord, ils ont demandé aux personnes interrogés de saisir les montants en dollars dont une famille similaire à la leur (avec autant d'enfants, et de parents qui travaillent) auraient besoin pour vivre - pour payer le loyer mensuel, le transport, ... Ensuite, le sondage montrait comment le budget qu'ils avaient établi se comparait au revenu du seuil de pauvreté, en soulignant que le budget n'incluait même pas les dépenses liées à la santé, les vêtements, ou la scolarité. Surprennement, ce traitement a toutefois eu des effets plus faibles sur le niveau de soutien des politiques redistributives que de fournir aux sujets un ensemble d'informations plus générales sur les inégalités et leur évolution depuis 30 ans aux Etats-Unis. Hubers (2018) constate que la diffusion d'une vidéo sur le quotidien d'un pauvre à Singapour a de forts effets sur la demande de redistribution, même si elle ne suscite pas de hausse des préoccupations quant aux inégalités. Sands (2017) montre qu'au delà des chiffres, et des récits, l'exposition à la pauvreté dans le monde réel pourrait réduire la demande de redistribution des riches. Des passants dans des quartiers américains aisés ont été invités à signer une pétition pour une taxe d'un million de dollars, après avoir été exposés (par inadvertance) à un acteur professionnel, qui était habillé soit comme une personne pauvre, soit comme une personne riche. Lorsque l'acteur jouait le rôle d'une personne pauvre, les passants étaient moins disposés à signer la pétition que lorsque l'acteur était habillé comme les autres habitants du quartier riche. Conclusion On peut aussi penser que ces paradoxes sont les deux faces d'une même pièce. Les sondages montrent que dans les pays développés, les inégalités montent, les citoyens le savent et s'en soucient mais ils ne sont pas plus nombreux à souhaiter que l'Etat intervienne pour les réduire. En toute rigueur, ce n'est pas la preuve que cette hausse des inégalités n'a que peu augmenté la demande de redistribution. Peut-être qu'un autre facteur qu'on saurait mal mesurer, comme une droitisation des mentalités, a masqué un impact fort des inégalités sur les attitudes anti-inégalités. En pratique, les expériences à traitements informationnels donnent la même réponse que celle que les données des sondages soufflent : informer sur les inégalités conduit à la préoccupation, mais pas vraiment à demander l'action de l’Etat. In vivo, comme in vitro, savoir que les inégalités montent et penser qu'elles montent trop ne signifie pas qu'on souhaite que l'Etat règle le problème. Il semble qu'un enjeu futur dans la recherche en économie des inégalités sera de comprendre pourquoi.

Les discriminations à l'embauche, Ismaël Saidi, Raphaël Enthoven, et la science

Il est des questions auxquelles il est difficile de répondre "non". "Êtes-vous pro-science ?" est probablement l'une d'entre elles. Etre pro-science a une conséquence inattendue : ceci implique d'admettre l'existence de discriminations à l'embauche. Aujourd'hui, je vous parle d'expériences, de consensus en sciences sociales, et de l'articulation entre faits scientifiques et opinions politiques. Ces derniers jours, plusieurs sceptiques (défenseurs des sciences) non spécialisés en sciences sociales ont manifesté (ou renouvelé) leur intérêt pour ces disciplines. Ainsi, Thomas Durand (Acermendax) conclut sa réponse à l'article de Libération par "Vivement que des sociologues, des anthropologues, des historiens, des économistes vulgarisateurs et vulgarisatrices encore plus nombreux nous apportent leurs analyses pour enrichir l’art du doute ! ". Dont acte. Certaines sceptiques avec qui j'ai échangé m'ont dit et ont dit à Olivier (l'économiste sceptique) qu'ils avaient eu du mal à considérer les sciences sociales à cause de la croyance que dans ces disciplines, il n'y a pas vraiment de réponses, que tout dépend de la perspective et de l'opinion de celui qui parle. On sait bien qu'en sciences naturelles, il existe des controverses, comme en physique sur la théorie du tout. Mais est-ce que les sciences sociales, ce ne serait pas que ça ? Des controverses, des résultats inconclusifs dont l'interprétation dépend de votre chapelle et de votre orientation politique ? Cette croyance me semble infondée. L'article d'aujourd'hui est l'occasion de le montrer. Je vais commencer par présenter un résultat consensuel, bien établi. Je vais ensuite confronter les résultats de la littérature au discours de certaines figures médiatiques, ce qui montrera qu'en sciences sociales comme en sciences naturelles, les mêmes questions se posent quant à l'articulation entre science et politique. Comme bien des sceptiques l'ont déjà compris, il n'y a donc pas lieu de ne pas accorder sa confiance aux sciences sociales mais de l'accorder aux sciences naturelles, sous prétexte que les unes seraient biaisées politiquement alors que les autres non. Ce résultat consensuel est l'existence de discriminations à l’embauche pour différentes minorités. Il s'agit d'un thème assez présent dans les médias. Une intervention d'Ismael Saidi a beaucoup été commentée. Le réalisateur raconte avoir « grand[i] avec cette musique qui vous dit « ils ne nous aiment pas, « ils ne veulent pas de nous ». (…) Vous vous retrouvez face à un gosse de 14 ans qui vous dit qu’on subit de la discrimination à l’embauche. En fait, il finit par vous avouer qu’il ne connaît personne qui a vécu de la discrimination, mais on lui a dit que c’était comme ça ». La vidéo de l’intervention a été retweeté avec enthousiasme par Raphaël Enthoven. Au fond, ce propos soulève une question très légitime. Comment prouver l'existence de discriminations à l'embauche ? Cette citation mentionne l'importance des témoignages. Mais ce n'est jamais dans ce cas une preuve suffisante. En dehors des cas où l'employeur clame haut et fort "je ne veux pas de vous parce que vous êtes noir/une femme/ homosexuel/ musulman", il semble a priori difficile de savoir pourquoi on a pas été embauché. On pourrait vérifier si les taux de chômage diffèrent entre les sexes ou les ethnies. Néanmoins, ce ne serait pas nécessairement une preuve de discrimination à l’embauche. Cet écart pourrait s'expliquer par d'autres variables comme le niveau d'instruction. La cause de la non-embauche ne se situerait alors pas à l'embauche, mais en amont. Il n'y aurait pas discrimination à l'embauche. Conçues pour adresser ce biais majeur, les études de correspondance consistent à envoyer des CVs fictifs à de vrais employeurs. Ces CVs ne diffèrent que par la caractéristique du postulant dont on cherche à évaluer l'effet sur l'emploi, comme l'ethnie, le sexe, ou le fait d'être défiguré ou non. Ainsi, par exemple, dans ce cadre, le fait que les hommes soient plus appelés que les femmes pour un entretien d'embauche ne pourrait s'expliquer que par un avantage des hommes, le sexe étant la seule caractéristique qu'on a fait varier dans les CVs. De nombreuses études de correspondance ont été menées un peu partout dans le monde. Entre 2005 et 2016 seulement, 90 études utilisant cette méthodologie ont été publiés selon Baert (2018). Le niveau de preuve sur le sujet est assez élevé ! Sur ces 90 études, une écrasante majorité mesure des discriminations négatives contre les minorités étudiées. En France, par exemple, et ce n'est qu'un exemple, une récente étude de Cahuc et al. (2019) montre que les postulants d'origine nord-africaine sont significativement discriminés dans le secteur privé en France. La revue de littérature de Baert que je mentionnais plus tôt cite aussi d'autres études menées en France. Elles isolent des discriminations à l'embauche contre les postulants d'origine africaine, les musulmans, et les mères. Le LIEPP, labo de Sciences Po mène aussi en ce moment une grande étude de correspondance. Si vous voulez en savoir plus, outre cette revue de littérature, je ne peux que vous conseiller cette publication de 'notre' prix nobel d'éco Esther Duflo. Comme tout résultat scientifique, celui-ci fournit par les études de CV a une portée limitée. Certaines critiques comme celle d'Heckman et Siegelman (2019) sont purement techniques et peuvent être adressées en changeant les méthodes statistiques couramment employées. D'autres sont plus profondes. D'une part, ces études de CV ne mesurent pas l'effet sur l'embauche mais sur la probabilité de se faire appeler pour un entretien d'embauche. On ne peut pas envoyer des postulants fictifs en entretien. Or, la discrimination peut s'effectuer aussi après l’appel de l’employeur, suite à l'entretien. Une solution consiste alors à utiliser la modélisation statistique pour tenter de mesurer des taux d'embauche le plus de choses égales par ailleurs. En effet, comme on peut vérifier si le salaire des hommes et femmes diffèrent à éducation, expérience... égales, on peut vérifier si les taux d'embauche de certaines minorités diffèrent du reste de la population à niveau d’instruction, classes sociales égales... On peut aussi faire des simulations du marché du travail calibrées sur des données réelles comme le fait justement l'économiste du travail Pierre Cahuc dont je citais un article plus haut. D'autre part, ces discriminations à l'embauche ne sont qu'une faible partie du phénomène plus large des discriminations. Peut-être regarde-t-on le sujet par le petit bout de la lorgnette. Plutôt que d'essayer de mesurer un taux d'embauches à caractéristiques égales, on pourrait aussi se demander pourquoi les caractéristiques individuelles diffèrent. Par exemple, existe-t-il des mécanismes sociaux qui expliquent que femmes et hommes, natifs et immigrés aient des nombres d'années d'étude différents ? Une conclusion s'impose néanmoins. On peut tenir comme un fait scientifique l'existence de discriminations à l'embauche, au même titre que le fait que la balance bénéfique-risque des vaccins obligatoires est largement positive. Dans les deux cas, il s'agit de résultats d'expériences bien contrôlées et bien répliquées. Petite précision : je ne dis pas qu'on ne peut produire des connaissances en sciences sociales qu'avec des statistiques et en isolant des causalités. Je crois aussi en l'importance des méthodes qualitatives, et j'aimerais qu'elles se développent en science économique plus vite que c'est le cas actuellement. Plus largement, les expériences contrôlées ne sont pas le seul moyen de produire de la connaissance scientifique. Certaines disciplines scientifiques se sont développées sans, comme l'astronomie. Simplement, si on tient les expériences contrôlées comme un moyen fiable de produire des connaissances, il faut accepter tous leurs résultats. Est-ce là la preuve scientifique qu'il faut être de gauche ? La nécessité de distinguer le discours normatif et le discours positif Quelle conclusion politique en tirer ? Est-ce que ces résultats impliquent que les propos d'Enthoven et Ismael Saïdi sont débunkés par la science ? Pas vraiment. Ismaël Saidi ne nie pas l'existence des discriminations à l'embauche. Il les minore. Dans son tweet, Enthoven non plus. Il se contente d'affirmer que les mentionner participerait d'une forme de victimation. Il s'agit de jugements de valeur. Or, on peut arguer que la science n'a rien à dire dessus. Elle ne peut dire que ce qui est, pas si ce qui est bien ou mal. C'est en tout cas la différence entre un discours positif (qui dit les faits) et un discours normatif (qui assigne une valeur morale à ces mêmes faits). Je crois que cette différence entre un discours normatif et un discours positif est fondamentale. On devrait la marteler dans les débats télevisés. Je sais aussi d'expérience qu'il est possible d'avoir des discussions non normatives sur l’effet des politiques, en témoignent certaines réactions à mon billet sur l'efficacité du confinement et mes interactions avec beaucoup de chercheurs. Bien sûr, comme toute typologie, la dichotomie normatif/descriptif a ses limites. On peut tenter d'élargir la réflexion dans deux directions. Néanmoins, aucune des deux nuances que je vais présenter n'implique de préférer les sciences naturelles aux sciences sociales. D’une part, il peut exister des effets d'agenda. L'orientation politique d'un chercheur peut le conduire à s'intéresser à un sujet plutôt qu'un autre. Un économiste qui par ailleurs serait de gauche/étatiste pourrait être plus intéressé par la question des inégalités qu'un économiste qui serait par ailleurs libéral, et pour qui seuls compteraient le mérite ou la pauvreté absolue. Mais cette critique n'est pas spécifique aux sciences sociales. Certains objets d'études en sciences naturelles ont une dimension politique absolument évidente : OGMs, réchauffement climatique, effet des vaccins... On peut par exemple aussi imaginer qu'un militant écologiste devienne un chercheur en sciences du climat au moins en partie à cause de son orientation politique. Néanmoins, tout ceci n'est pas problématique tant que l'orientation politique des chercheurs ne détermine pas les réponses que les chercheurs donnent aux questions qu'ils se posent. On pourrait alors être tenté d'en faire un critère de démarcation entre sciences sociales et naturelles. En sciences sociales, l'orientation politique déterminerait la réponse aux questions mais pas en sciences naturelles. Néanmoins, les données rejettent cette hypothèse. En science économique, un sondage de Gordon et al. (2013) démontre que l'orientation politique des économistes-répondants ne prédit pas leur position sur les sujets de recherche considérés dans l’étude. Le même sondage trouve de nombreuses aires de consensus entre économistes interrogés. Une étude astucieuse tend à relativiser le rôle des biais politiques dans la production d’études et la revue par les pairs en psychologie (1). Je n'ai pas trouvé d’exercice comparable dans une discipline des sciences naturelles. Néanmoins, Carlton et al. étudient (2015) l'adhésion à la thèse de l'existence d'un réchauffement climatique causé par l'homme parmi des chercheurs dans plusieurs disciplines en sciences naturelles. Ce sondage concerne des chercheurs qui ne sont pas climatologues mais ont un champ d'expertise proche : météréologues, océanologues, physiciens, spécialistes des ressources naturelles... Même si la thèse d'un réchauffement à l'oeuvre et causé par l'homme emporte une très haute adhésion dans cette communauté, ["les chercheurs] qui pensaient que les températures avaient augmenté étaient significativement (...) plus à gauche ("more liberal" dans le texte, que j'entends au sens américain) que ceux qui ne pensaient pas qu'elles avaient augmentées." Je présente ces résultats de manière provocatrice. On trouve aussi bien sûr des indices que l’affiliation politique des chercheurs peut influencer la formation des résultats des études en sciences sociales. Je ne cherche pas à démontrer que les sciences sociales sont neutres contrairement aux sciences naturelles qui seraient biaisées politiquement. Mon propos est que la question des biais politiques se pose en sciences sociales comme en sciences naturelles. On ne peut donc pas en faire un critère de démarcation entre les deux. Je vous conseille d'ailleurs cet article du philosophe Joshua May sur l'importance (relative) des valeurs, des idéologies, dans les sciences, toutes les sciences... dont je reparlerai. D'autre part, il faut tenir compte de ce que j'ai envie d'appeler la valse entre le normatif et le positif. Souvent, lorsqu'on émet un jugement de valeur sur un fait, même le plus établi, notre discours progresse et on finit par émettre de nouvelles propositions testables empiriquement. L'existence de discriminations à l'embauche pose la question des politiques pour la réduire. Par exemple, est-ce que les politiques de discrimination positive sont efficaces ? Est-ce qu'elles permettent d'augmenter l'employabilité, les salaires, la satisfaction des minorités discriminées ? Cette interrogation est empirique, et appelle à utiliser tout un autre champ de la littérature que je connais moins. Mais quelque soit la conclusion des ces études, elles ne disent pas s'il faut implémenter ou non des politiques de discrimination positive. On pourrait être contre les politiques de discrimination positive même si elles sont efficaces parce qu'elles impliquent une rupture de ce qu'on définit comme le pacte républicain. On pourrait être pour les politiques de discrimination positive même si elles ne sont pas efficaces parce qu'on ne supporte pas l'idée qu'on ne donne pas des droits différents à des individus avec des opportunités différentes. Je serais curieux de connaître la position de Raphaël Enthoven sur ces questions épistémologiques. C'est un sujet sur lequel on l'entend peu. Est-ce qu'il reconnaît la pertinence des résultats que j'ai cité, mais leur donne l'interprétation politique que j'ai présenté ? Est-ce qu'il conteste même le résultat des études de CV ? Je serais tout aussi curieux de savoir ce qu'Ismael Saïdi pense de ce billet, même si je connais moins son travail. *** (1) En psychologie, Reineiro et al. (2020) démontrent que les chercheurs ne sont pas plus laxistes avec les études qui semblent cohérentes avec l’idéologie de gauche de la majorité d’entre eux: les études dont les conclusions paraissent plus faciles à avaler quand on est de gauche ne sont pas plus (ou moins) réplicables ou plus (ou moins) citées par les chercheurs que celles dont les conclusions peuvent plus facilement renforcer un narratif de droite. Ce résultat tient quelque soit l’orientation politique de la personne qui évalue l’ ’inclination politique’ de l’étude. Ceci tend à démontrer que l’orientation politique des chercheurs en psychologie ne les conduit pas à produire ou à citer des études de moindre qualité, pourvu qu’elles confortent leur vision du monde.

Petit retour sur mon premier article, et d'autres sources sur le post de blog

Ca y est ! Le premier article du Blog de l'Empiriciste est paru. Je tiens à vous remercier chaleureusement de votre patience (certains l’ont attendu des mois), de votre intérêt, et de certains de vos commentaires. Comme promis sur Twitter, voici en vrac un petit commentaire des commentaires de ce premier post de blog. Je veux ici répondre à des questions et objections, fournir des sources complémentaires, et préciser ici ma démarche. Rassurez-vous, Philippe Quirion est au courant de cet interview Sur Facebook, et parce que mon site vient de paraître, on a émis la possibilité que cet interview soit fausse. Rassurez-vous : j'ai été en contact avant, pendant, et après la rédaction de l'article avec Philippe Quirion. Pour preuve, il a d'ailleurs partagé l'interview sur son compte twitter. Les corrections mineures - Le lien vers le premier article que Philippe Quirion citait ne marchait pas. J'ai réglé ce problème. Les références exactes étaient disponibles dans les sources de l'article. - Un lien vers le rapport du GIEC cité a été ajouté, ainsi que la citation originale. - Bien évidemment, le GIEC ne « prévoit » pas vraiment comme je l'ai d'abord écrit. Il fait une synthèse de la littérature scientifique. C'est une erreur de transcription des propos de P. Quirion donc elle est mienne ; elle provient d'une faute d'inattention, non du fait que j'ignore l'activité du GIEC. - Concernant le calcul de l'évolution des facteurs de charge en fin d'article, j'ai précisé le terme "calcul". Philippe Quirion ne s'est pas contenté de faire la différence entre le facteur de charge entre 2020 et 2012. Il a fait une régression linéaire (une simple modélisation statistique) pour tenter de dégager une tendance. On a pu souligner que les facteurs de charge pouvait avoir une forte variabilité inter-annuelle. P. Quirion m'a répondu "Pour l'éolien, la tendance est faible et les variations interannuelles relativement importantes. La tendance n'est pas forcément significative. En revanche, pour le solaire, la tendance est forte. Les variations interanuelles sont faibles. Il y a bien une tendance à la hausse. Surtout, le coeur de cet argument était de souligner que fixer des valeurs aussi inférieures aux observations biaise les résultats.". Pour élargir la réflexion, d'autres ressources intéressantes Je vous propose deux autres ressources pour élargir la réflexion: - Une autre mise en perspective de l'article de Jean-Marc Jancovici par Emmanuel Pont. - Le physicien Greg De Temmerman que vous pouvez suivre sur twitter a commenté : "Intéressant. Je suis un peu critique sur la référence à l'article de Brown et al qui est loin de faire consensus- d'ailleurs et qui vient de la même période que les critiques à Jacobson et al". Il fournit cette étude en source. - Kevin Arnoux propose aussi une synthèse des différentes études les plus connues sur le mix électrique en France. -vous pouvez aussi découvrir le travail de Damien Salel, ingénieur spécialisé en énergie qui remet aussi en perspective les simulations de JMJ Merci pour vos contributions ! N'hésitez pas à me contacter si vous avez d'autres sources intéressantes. J'attends plutôt des liens vers des publications scientifiques (si possible publiées dans des journaux à haut facteurs d'impact) ou des contribution de spécialistes (ex: ingénieurs spécialistes en énergie), chercheurs, des docteurs en sciences de l'environnement/sciences sociales appliquées à l'environnement qui publient dans des revues avec relecture par les pairs. A défaut, des contributions d'intervenants comme Emmanuel Pont qui font référence à la littérature scientifique, et reconnaissent les limites de leur propre expertise me conviennent aussi tout à fait. Pourquoi tant insister sur la revue par les pairs ? Pourquoi insister tant sur les chercheurs, ou en tout cas sur l'importance de citer des travaux publiés dans des revues scientifiques ? On m'a rétorqué que le fait qu'un travail soit publié dans une revue d'experts respectable n'était pas la garantie qu'il était infaillible. Au risque de dissiper des fantasmes positivistes, il n'existe aucune garantie d'infaillibilité. Néanmoins, sur des sujets qui nécessitent des connaissances et compétences très spécifiques, on n'a pas trouvé meilleur système que la reconnaissance circulaire entre experts: il vaut mieux croire les travaux qui ont été relus et validés par la communauté d'experts d'un domaine, si possible via des journaux qui ont bonne réputation au sein de cette même communauté. La revue par les pairs est un principe scientifique cardinal, et je pense qu'il est difficile de se dire pro-science sans y adhérer. Oui, ce principe de reconnaissance par les pairs est imparfait, mais il semble indépassable. Qui d'autre qu'un expert pour juger votre expert ? Quand on nous parle d'un sujet qu'on ne maitrise pas, notre ignorance nous empêche de jauger seuls la validité des propos de nos interlocuteurs. C'est de là que tirent leur légitimité tous ces gages d'expertise: doctorat, poste de chercheur dans des instituts reconnus, et surtout articles validés par les pairs. Tout ceci n'est pas une garantie absolue de véracité, mais c'est une des rares garanties de compétence dont on dispose: la science est peut-être le pire mode de production de connaissances, mais c'est à l'exception de tous les autres. Pourquoi il ne suffit pas de dire que Philipe Quirion est un militant pour réfuter ses propos Beaucoup ont souligné, à raison, que P. Quirion était un militant associatif qui avait pris à de nombreuses reprises des positions fermes contre le nucléaire. On a partagé une série de critiques et de vérifications des déclarations du RAC, réseaux d’association qu’il préside. Ce n’est pas un sujet de débat illégitime, mais ce n’est pas du tout celui de l’article. Toutefois, comme la plupart d'entre-vous, je considère qu'une activité militante est toujours un fait important à signaler. Dont acte: je le mentionne très tôt, dans la troisième phrase du chapeau de l'article. Pour reprendre l'heuristique (principe d'aide à la décision) proposée par l'économiste sceptique, les militants actifs ont des incitations particulières à défendre certaines positions et présenter préférentiellement certaines informations - pour le dire de manière caricaturale, ils ont peu d'intérêt à scier la branche sur laquelle ils sont assis. Ceci s'applique aussi à Jean-Marc Jancovici d'ailleurs, mais sans doute moins à un chercheur qui ne militerait pas activement. Toutes choses égales par ailleurs, il n'est donc pas absurde de considérer que les propos d'un militant actif nécessitent a priori plus d'efforts de vérification que ceux d'un non-militant. Néanmoins, trois objections sont importantes à formuler ici. Premièrement, on est jamais tiré par un seul fil ! Philippe Quirion n'est pas uniquement militant (ce qui en soi n'aurait rien de déshonorant), il est aussi un chercheur dont le travail sur le sujet sur lequel il est interviewé est reconnu par ses pairs. Il est docteur en économie de l'énergie, chercheur au CNRS. Il publie des articles dans des revues à comité de lecture. Ceci implique qu'il a également des incitations en sens contraire de celles d'un militant non chercheur. Prononcer des absurdités, falsifier des données, ou même tenir un discours vraiment fragile scientifiquement pourrait lui valoir le discrédit de ses pairs. Or, c'est sur l'approbation par les pairs que repose toute carrière de chercheur ! Je ne suis pas en train d’écrire que ceci suffit à garantir la rigueur d‘un propos. Mon point est qu’il y a plusieurs forces contradictoires à l’oeuvre, et, si on veut examiner les incitations qui peuvent modeler un discours, il faut toutes les considérer. On a pu comparer Philippe Quirion a un autre chercheur en économie célèbre mais très politisé par ailleurs, le mari de Julia Cagé, Thomas Piketty. Je ne sais pas dans quelle mesure la comparaison est pertinente. Mais même s'il est, cela ne me fera pas regretter mon choix d'interviewé. Sur son sujet de recherche, les inégalités, T. Piketty jouit d'une authentique reconnaissance de la qualité de son travail par ses pairs. Ceci justifierait tout à fait que je l'interviewe pour parler de ses recherches. S'il lit cette interview et qu'il est intéressé par un échange, il peut m'écrire à unempiriciste@gmail.com ^^ Deuxièmement, j‘expliquais plus haut que le militantisme d’un auteur légitimait parfois des efforts de vérification supplémentaires de ses propos. Mais dire que celui qui parle est militant n’est pas la preuve qu’il a tort. La véracité des propos d'un individu dépend entièrement... de la véracité de ses propos. Si on est incapable de dépasser la mention de liens d'intérêt, si on ne sait pas pointer ce qui pourrait être gênant ou tronqué dans l'interview -comme certains commentateurs ont su le faire, l'argument du militantisme devient caduc. Troisièmement, P. Quirion montre que certaines erreurs de Jean-Marc Jancovici le conduisent à surestimer... les coûts du nucléaire ! En particulier, il pointe que JMJ fixe un coût/euro par KW du nucléaire plus élevé que les observations, et que son choix (dans l'article de blog dont il est question) de ne pas actualiser tend à pénaliser le nucléaire. Il aurait été facile pour P. Quirion d'occulter ces points. Ceci suggère qu'il a pensé en chercheur, c'est-à-dire contre lui-même. Cela ne rend pas notre interviewé infaillible pour autant: personne ne l'est, mais je considère cela comme un signal positif quant à la rigueur de sa démarche. Ceci met aussi en lumière le sujet central de cet interview: le degré de rigueur de la simulation excel de JMJ. Au delà la question du mix optimal, les limites de l’approche par les calculs de coin de table Parce que les erreurs et choix contestables de JMJ ne conduisent pas tous à réduire artificiellement son coût estimé nucléaire et à augmenter celui des renouvelables, cet interview ne prouve pas que la thèse de JMJ est indéfendable. L'article rappelle d'ailleurs qu'il existe certaines estimations dans les canons scientifiques avec des mix optimaux à majorité nucléaire. A titre personnel, je n'étais pas un militant antinucléaire, et je n'en suis pas devenu un suite à mes échanges avec P. Quirion. J'ai pourtant trouvé sa critique de l'exercice de JMJ édifiante. Je sais que je ne suis pas seul dans cet exact cas. En effet, je n’ai pas conçu cet interview pour qu’elle tranche le débat du meilleur mix énergétique à horizon 2050, débat dont la réponse dépend aussi d'arbitrages politiques. Ceci aurait nécessité un article beaucoup plus long, où par exemple P. Quirion aurait longuement présenté un modèle alternatif. Le sujet de l’interview était les limites de l’exercice mené sur le blog de Jean-Marc Jancovici. Est-ce qu’on peut vulgariser avec justesse et énoncer des conclusions fiables en remplaçant l'explication de la littérature scientifique par des calculs de coin de table ? C’est à mon sens sur la capacité à éclairer la répondre à cette question qu’il faut juger l’article. Cet interview permet, je crois, de mieux comprendre en quoi la simulation excel de JMJ diffère de la littérature : choix étrange de séparer éolien et nucléaire dans le calcul, hypothèses hardies sur le stockage, hypothèses parfois en marge des observations (ce qui est certes moins grave pour un modèle-jouet)... Je crois que c’était utile à en juger par les remerciements que j’ai reçu. C’est tout l’esprit de cette série d’articles: confronter les propos de JMJ à une littérature scientifique qui traite de sujets similaires ou proches des siens, mais qu’il ne cite pas. Ainsi, le prochain article sur le lien énergie-économie tentera de résumer une abondante littérature empirique sur ce sujet qui est cher à Jean-Marc Jancovici. Qu'est-ce que c'est que cette histoire de faire mentir les chiffres ? Est-ce que j’accuse JMJ de les faire mentir sciemment ? Non. Cet article est hébergé sur le blog d'Un Empiriciste. Comme le site l'indique maintenant: « Le Blog d'un Empiriciste est un projet complémentaire du site en construction Comment Faire Mentir les Chiffres, qui présente les biais qui peuvent fausser notre lecture des données, et nous empêcher d'entendre ce que les chiffres disent vraiment. Sur ce blog, il s'agit plutôt de savoir comment ne pas faire mentir les chiffres. On y parle surtout de comment les chercheurs en science économique, en sciences sociales et dans d'autres disciplines encore testent leurs théories. Ce blog présente les méthodes par lesquelles les chercheurs tentent d'écouter ce que les chiffres ont vraiment à dire. Mais il comportera aussi des articles sur la science économique en général (la théorie du ruissellement est-elle vraie ?), le fonctionnement des sciences (les revues scientifiques les plus réputées publient-elles les articles les plus fiables ? Que dit la recherche ?), et l'articulation entre science et société (quel pouvoir donner aux experts ?)." Quel est le projet de ce blog et site ? La citation plus haut répond assez bien à cette question. J'y reviendrai plus longuement dans le dernier article de la série, mais le propos entre guillemets montre bien que Le Blog de l’Empiriciste n’a pas du tout vocation à devenir le blog de l’anti-jancoviciste, ni un blog uniquement consacré aux énergies et à l’environnement. Après cette série, je continuerai à aborder régulièrement la question de la transition écologique, mais principalement sous l’angle de l’évaluation des politiques publiques. Si une politique comme la taxe carbone est mise en place, comment savoir si elle a été efficace ? Si les émissions montent après la politique, n’auraient-elles pas plus monté sans ? Si elles baissent, ne se seraient-elles pas réduites de toute façon ? Depuis quelques décennies, les chercheurs en sciences sociales, et particulièrement les économistes ont développé des méthodes plus rigoureuses pour répondre à ce type de question. Il s’agit d’un enjeu essentiel: pour assurer la transition écologique, il faut savoir ce qui marche, et à quel prix. *** A bientôt, et merci de l’intérêt que vous portez à mon travail. J’ai hâte de vous présenter l’article sur le lien économie-énergie et  « le meilleur modèle macroéconomique du monde » qui sortira vendredi prochain.

Politiques Publiques, Business, Médecine : 5 astuces pour généraliser ce qui a déjà marché

Ce titre sonne comme celui d'un mauvais article de développement personnel (1). Rien de fumeux aujourd'hui pourtant. Je vous parle aujourd'hui du best-seller d'un des chercheurs, des expérimentalistes les plus respectés de la planète sur un des sujets les plus importants qui soient : comment s’assurer que ce qui a fonctionné dans un contexte précis fonctionnera dans un autre ? Comment s’assurer que ce qui a marché à petite échelle fonctionnera à grande échelle ? Je vous ai un peu menti. Sur ce blog, j'ai beaucoup écrit sur la nécessité d'évaluer les politiques publiques : "quand on ne compte pas, c'est la peine des hommes qu'on ne compte plus" (2). Evaluer les politiques publiques à l'aide d'essais randomisés contrôlés randomisés ou de quasi-expériences permet de savoir si les politiques ont bien les effets qu'on leur prête - pensez par exemple aux débats sur les effets du confinement dont je parle ici. Cela permet aussi de savoir quelles politiques sont plus efficaces que d'autres. Par exemple, pour un milliard dépensé, quelles politiques sortent le plus d'enfants des difficultés de lecture ? Réduisent le plus le CO2 ? Savoir ceci est important que vous souhaitiez augmenter, ou maintenir les dépenses publiques - ou si vous êtes contraint de les réduire, à l’heure où les crises en Ukraine et écologique mettent sous pression les finances publiques. Contre un certain discours médiatico-politique qui ne s'intéresse qu'aux coûts des politiques, il arrive que certaines politiques sociales rapportent même plus aux finances publiques que ce qu'elles ont coûté - j'en parle ici. Cependant, je n'ai pas vraiment encore mentionné une difficulté majeure. C'est celle de la validité externe des évaluations de politiques publiques. On évalue toujours une politique qui a été menée une année donnée sur une population donnée. Or, comment s’assurer que ce qui a marché dans un contexte fonctionnera dans un autre ? Comment s’assurer que ce qui a marché à petite échelle fonctionnera à plus grande échelle ? Parfois, certaines politiques d'Etat ou d'entreprises aux premiers résultats prometteurs se révèlent très décevantes une fois généralisées. C'est ce que John List appelle un "effet de baisse de voltage" dans son livre sur ce sujet précis. Peu de chercheurs sont mieux placés que lui pour savoir comment éviter ces effets Voltage. John A. List (JL) est d’abord une pointure académique. Professeur à l’Université de Chicago, il est un des chercheurs en économie les plus reconnus de la planète (8ème au classement REPEC, chers aux économistes). A l’origine économiste comportemental, il s'est ensuite spécialisé dans l’évaluation des politiques ciblées sur les jeunes enfants, qui sont cruciales, car elles ont des impacts à long-terme sur le degré d’instruction, la santé, la criminalité. J'en parle ici. Mais JL ne s'est pas contenté d'évaluer des politiques. Il a aussi participé à leur élaboration. Ainsi, dans le cadre de ses recherches, il a contribué à fonder une école maternelle près de Chicago où ont été implémentées les recommandations de la littérature en économie de l’éducation. Les résultats, documentés dans plusieurs articles de recherche publiés depuis, sont nets. John A List a aussi contribué à la conception de politiques publiques lorsqu’il travaillait pour le gouvernement de Georges Bush Junior jusqu'en 2003, notamment sur les questions environnementales et d'énergie - avec humour, il prend soin de signaler qu'il n'a pas contribué aux décisions concernant la guerre d'Irak, qui elles n'étaient pas toujours basées sur les preuves. Enfin, l'économiste a pu appliquer ses compétences d’expérimentaliste pour de grandes entreprises - Uber, Chrysler, Lyft... Même si vous n'approuvez pas les politiques menées par Georges Bush fils, ou celles de start-ups comme Uber, on ne peut nier que JL a accumulé un savoir pratique et scientifique intéressant sur comment déployer des politiques à plus grande échelle. C'est précisément de ce savoir dont vous aurez besoin si vous souhaitez faire en sorte que le monde ne ressemble pas à celui que souhaitent Georges Bush ou des dirigeants de start-ups. Alors, imaginez que vous êtes un élu, un PDG, un dirigeant d’ONG, et qu’une politique que vous venez de déployer à petite échelle a donné des résultats encourageants, comment savoir si vous pourrez la généraliser avec succès ? John A. List donne 5 conseils. 1. Vérifiez que le premier résultat n’est pas ... un faux positif. Il arrive que certains résultats significatifs statistiquement le soient par pur hasard. Cela découle de la façon dont sont construits les tests statistiques. En effet, imaginons que vous testez un traitement contre la dépression par une expérience. Même si le traitement n’a aucun effet, on peut s’attendre à ce que les taux de dépression ne soient pas exactement les mêmes dans le groupe qui a reçu le traitement et le groupe contrôle. Pour tenter de départager les écarts entre groupes qui peuvent être attribués au hasard de ceux dûs à l'effet d'un traitement, on considère alors comme significatif un écart entre le groupe traitement et le groupe contrôle qu’on aurait eu qu'une probabilité de 5% d’observer si le traitement n’avait pas d’effet. Simplement, cela signifie que sur 100 expériences de méthodes dont on sait qu'elles n'ont aucun effet, 5 vont montrer un résultat significatif ! Pour s’assurer que notre résultat positif n’est pas un de ces 5 faux positifs, la solution est de répliquer (refaire) l’expérience. John A List propose ainsi une règle de décision : il faut répliquer 3 ou 4 fois des expériences avec un échantillon suffisant sur un programme avant de le déployer - vous pourrez trouver la justification statistique de ce critère à ce lien. N’est-ce pas cher de faire autant d'expériences ? En vérité, répliquer 3,4 fois est toujours moins cher que de généraliser un programme qui ne fonctionne pas. John List en donne de nombreux exemples. Durant les années 1980, le programme Drug Abuse Resistance Education (DARE) aux Etats-Unis pour réduire la consommation de drogue chez les adolescents a été déployé en grande pompe et à grand coût. A son apogée, en 2002, le programme coûtait 10 millions de dollar par an, et on estime qu'il a été déployé sur 75% du territoire américain. Pour justifier une implémentation si massive, les promoteurs de DARE brandissaient une seule expérience avec un millier de sujets à Honulu... Or, malheureusement d'autres évaluations se sont multipliées pour montrer que le programme ne fonctionnait pas. Le succès initial de DARE n’était pour John List qu’un faux positif. Quelques réplications auraient permis au gouvernement américain d’éviter de se ruiner à déployer dans tout le pays une politique inefficace. Toutefois, répliquer ne suffit pas à réussir à déployer avec succès ses idées. John List prend l'exemple de l'économiste Hunt Alcott qui a travaillé pour la société Opower. Celle-ci souhaitait savoir si recevoir un message vous montrant que vos voisins économisent plus d'énergie vous incite à réduire en retour votre propre consommation d'énergie. Hunt Alcott a mené plusieurs essais d'essais contrôlés randomisés pour le vérifier. "Plusieurs" sonne presque comme un euphémisme. Alcott a mené 111 expériences dans des villes différentes. Ces tests incluaient 8,1 millions d'américains. Malgré des premiers résultats très prometteurs, et des réplications réussies, l'entreprise n'a pas généralisé sa politique. Cela l'aurait ruiné. Que s'est-il passé ? 2. Assurez-vous que la population de l’essai est représentative. Prouver l’existence d’un lien causal ne suffit pas. Il faut le prouver dans une population représentative : l’effet de l’intervention peut varier avec les caractéristiques des individus. John List prend l’exemple des WEIRD en économie comportementale. En effet, même si les décisions humaines et leurs contextes ne sont pas solubles en éprouvette, on peut faire des expériences en laboratoire en sciences sociales. Elles consistent à placer des sujets comme vous et moi dans des situations très particulières, qu’on nomme parfois des jeux. Pour prendre un exemple que JL ne prend pas, si vous participiez à un jeu du dictateur, on vous donnerait une somme d’argent que vous auriez la possibilité de partager avec un autre individu, puis on mesurerait la part de la somme reçue que vous choisiriez de lui donner. Ces expériences d'économie comportementale ont d'abord été menées sur les populations les plus facilement accessibles aux chercheurs qui les menaient : les étudiants de grandes universités américaines. Il s'agissait donc d'une population instruite dans pays riche, occidental, démocratique - "people in Western Educated, Industrialized, Rich and Democratic (WEIRD) societes". Or, assez intuitivement, comme le rappelle le titre d'un célèbre article de Nature, la plupart des gens ne sont pas WEIRD : les mêmes jeux donnent des résultats systématiquement différents selon les pays. Ainsi, pour reprendre l'exemple du jeu du dictateur cité plus haut, il a été démontré qu'en moyenne, moins le pays est développé, plus les participants du jeux ont tendance à partager une somme élevée d'argent. Le problème de la représentativité des populations n'est pas spécifique aux sciences sociales. C’est un phénomène documenté dans la littérature médicale : il arrive que ceux qui participent à des essais cliniques soient ceux sur qui le traitement marche le mieux, avec à la clef des résultats trompeurs. Ainsi, dans les pays en développement, les carences en fer sont un fléau. Des premiers essais semblent montrer que distribuer du sel enrichi en fer et en iode permettrait d'atténuer significativement le problème. Malheureusement, une fois déployé à large échelle, le traitement n'a pas produit d'effets détectables, sauf sur les adolescents. Or, le défaut des premiers essais était justement que les chercheurs n'avaient recruté que des adolescentes, qui bénéficient nettement plus du traitement du fait de leur physiologie. Dans l’entreprise, JL cite l’exemple de Mac Donald et du flop retentissant du burger l’Arch Deluxe. La firme avait fondé sa décision sur des retours positifs d’un panel de consommateurs... Elle avait pourtant oublié que ceux qui se déplacent pour aller goûter un nouveau burger étaient plus aventureux, plus friands de nouveauté que le consommateur moyen. La solution est simple à concevoir, mais parfois difficile à mettre en place : il faut toujours tester ses traitements sur une population représentative, un échantillon aléatoire de la population. A défaut, on peut faire de plus petits essais sur des populations diverses. John List cite ainsi un programme de visites d'infirmières qui a été testé dans trois villes avec des démographies très différentes (Memphis, Denver et New-York). Les experiences dans ces trois villes qui montraient un effet important du programme ont été répliquées avec succès. En effet, une population représentative n'est pas forcément immense, et certaines populations immenses ne sont pas représentatives. C'est ce qui explique l'échec probable de la politique d'économie d'énergie présentée plus haut, si elle avait été généralisée. Les 111 essais avaient été menés dans des villes plutôt écologistes, où donc le nudge avait mieux fonctionné. Mais en fouillant de plus près les données, Hunt Alcott a découvert que le message n'avait aucun effet dans les villes qui n'étaient pas plus écologistes que la moyenne. 3. Assurez-vous que la situation est représentative. Est-ce le chef ou les ingrédients ? Ce qui fait le succès d’un programme ou d’une entreprise dans un contexte donné peut être un facteur difficile à répliquer, à multiplier. Plus généralement, des travaux de recherche (de J List) suggèrent que la représentativité de la situation est plus importante encore que celle de la population. John A. List incite ainsi à distinguer les ingrédients négociables des ingrédients non-négociables. Les ingrédients non-négociables sont les composantes d'un programme qui doivent demeurer quand on le généralise. Ainsi, JL raconte qu'une école britannique l'a un jour appelé pour mettre en place une politique similaire à celle qu'il avait déployée dans l'école qu'il a fondé avec d'autres chercheurs de l'Université de Chicago. Il s'agissait de cours rémunérés pour les parents, où on leur présentait plusieurs méthodes psychologiquement éprouvées pour développer les compétences cognitives (aide à la lecture), ou non-cognitives (maturité émotionnelle, gestion des conflits) de leurs enfants. A Chicago, l'expérience avait été un franc succès. Pourquoi pas à Londres ? Il y avait bien une raison. Dans le district dans lequel se situait l'école à Londres, il était illégal pour une école de rémunérer des parents. Malgré les réserves de l'équipe dont John List faisait partie, les directeurs de l'Ecole à Londres ont insisté pour organiser ces cours. Les résultats ont été très décevants. Faute d'incitations financières, les parents ne se sont pas rendus aux cours : rémunérer les parents était l'ingrédient non-négociable. Parfois, les ingrédients non-négociables ne sont pas clairs a priori, et il faut apprendre par l'échec, ce que JL montre avec les extensions peu fructueuses du programme social Head Start, ou la faillite de la chaîne de restaurants du cuisinier Jamie Oliver. 4. On n'échappe jamais à la théorie : prêtez attention aux externalités et aux effets d’équilibre général : Il semble parfaitement tautologique de dire que dans une expérience, le groupe contrôle est celui qui ne bénéfice pas du traitement. En théorie, c'est le cas. En pratique, ce n'est pas si évident. Le traitement peut déborder du groupe test. Il peut contaminer le groupe contrôle. Il y a un exemple classique en économie du développement que JL ne cite pas. Pourtant, il est charmant. Dans les pays en développement, les parasites comme les ankylostomes sont un fléau. Ces parasites qu'on peut attraper en marchant pieds nus ou en s'asseyant dans la boue, ou une terre humide provoquent des infections qui causent des carences en fer, de la malnutrition, des douleurs abdominales et de l'apathie. On comprend donc comment ces parasites peuvent contribuer à dégrader la santé et les niveaux d'instruction dans ces pays. Toutefois, à l'aube de l'an 2000, les jeunes n'avaient pas de solution. La plupart des expériences médicales montraient que les politiques de déparasitage n'étaient pas vraiment efficaces, notamment pour augmenter la réussite scolaire. Mais ces études se heurtaient à un biais majeur : elles ne prenaient pas en compte l'immunité collective. Même les écoliers qui ne bénéficient pas du déparatisage voient leur probabilité d'avoir un parasite réduite quand leurs camarades (ceux du groupe traitement) ont moins de chance d'en avoir et donc de leur transmettre. Ceci réduit artificiellement les différences de contamination entre le groupe contrôle et le groupe traitement, et donc l'effet mesuré de la politique. En corrigeant ces bias, les effets apparaissent bien plus importants. JL prend notamment comme autre exemple un échec retentissant d'une politique d'Uber qu'il a implémenté. Travis Kalanick, un des fondateurs de l'entreprise avait demandé à John List de l'aide pour règler un problème qui menaçait l'existence de l'entreprise. Du fait notamment de trop faibles rémunérations, les chauffeurs fuyaient l'application en masse. JL a alors testé en urgence un système de pourboire sur une minorité des chauffeurs. Cet ajout à l'application a très bien fonctionné à petite échelle. Attiré par le surplus de rémunération que permettaient les pourboires, les chauffeurs revenaient et/ou roulaient plus. La direction comme les chauffeurs y gagnaient. Une fois généralisé, le système de pourboire a toutefois perdu tous ses bénéfices pour les chauffeurs. Que s'est-il passé ? Ce que la théorie économique la plus standard prédit : le choc d'offre positif provoqué par l'introduction de pourboires a réduit les rémunérations. En français, le système de pourboire a trop bien marché. Il a attiré beaucoup de nouveaux chauffeurs. Ces nouveaux chauffeurs se sont fait concurrence, et, après un certain temps, les rémunérations des chauffeurs sont revenues à leur niveau initial. L'essai contrôlé randomisé ne protège pas des externalités. Heureusement, il arrive que les externalités jouent dans le camp de celui qui veut déployer sa politique. Je citais plus haut des phénomènes comme l'immunité de groupe. A propos de l'école maternelle de John List, on a pu mesurer que les jeunes enfants qui ont vu leurs compétences non-cognitives (contrôle des impulsions, résolutions des conflits) s'améliorer ont eu tendance à transmettre une partie de ces compétences à leurs pairs (leurs frères/soeurs, copain-ines...). Un enfant qui joue avec un autre enfant qui sait mieux se contrôler et gérer le conflit va avoir tendance à progresser lui aussi dans ces domaines, à son contact. Parfois, le meilleur allié de celui qui veut réussir à déployer ses politiques à grande échelle est... l'échelle. Parfois, non. C'est aussi pour cette raison qu'il faut considérer la structure des coûts. 5. Gare à la structure des coûts ! Dans le monde de l'entreprise, surveiller l'évolution de ses coûts tient du conseil de bon sens. De fait, JL multiplie les exemples d'entreprises qui se sont effondrées faute d'avoir réussi à prévoir comment les coûts évolueraient avec la production. Néanmoins, il rappelle aussi que le coût marginal (celui d'une nouvelle unité produite) compte aussi lorsqu’il s’agit de déployer une politique publique. Ainsi, plusieurs expériences de réduction de taille de classe qui donnaient des résultats prometteurs à petite échelle ont montré des résultats beaucoup plus décevants à plus grande échelle. Les organisateurs de ces programmes ont été dépassés par l'évolution des coûts. Réduire les classes implique d'embaucher beaucoup de nouveaux professeurs, qui n'ont parfois pas les mêmes compétences, ou ne sont simplement pas disponibles dans la région. Ceci aurait pu être compensé par une hausse des salaires qui n'avait pas été budgétée, et rendait le programme bien moins coût-efficace. Pour garder le contrôle de ses coûts dans 'son' école maternelle, JL dit avoir pris soin d'embaucher des professeurs au même salaire que celui des autres écoles publiques de Chicago. Cela lui assure que les bénéfices de son traitement ne s'expliquent pas par le fait que son programme ait attiré les meilleurs professeurs de l'Etat, et que le programme ait des coûts réalistes à plus grande échelle. Le vaccin contre la polio est ainsi pour John List l'exemple parfait d'une politique qui avait tout pour se déployer avec une grande efficacité : (1) les tests sur une population représentative d'enfants montraient qu'il était efficace sur tous ; (2) le vaccin était peu onéreux à produire, notamment grâce à des économies d'échelle, (3) les seules externalités, celles générés par l'immunité collective, étaient positives. Il est ainsi peu surprenant que le vaccin ait éradiqué la polio en quelques années. Mais que faire quand toutes ces conditions ne sont pas réunies ? Par delà les mises en garde, quelques conseils pratiques La deuxième partie est consacrée à 4 conseils plus pratiques pour implémenter des politiques qui ne souffriront pas de problèmes de mise à l'échelle. Premièrement, John A List n'échappe à son passé d'économiste comportemental : il prône la mise en place de nudges, ces subtiles incitations qui changent nos comportements en tirant certains fils de notre inconscient. Il s'agit essentiellement d'exploiter notre aversion à la perte. On se bat plus pour ne pas perdre une somme donnée que pour gagner cette même somme. La clef est alors de manipuler les perceptions pour que la même somme d'argent reçue soit perçue comme une perte potentielle plutôt que comme un gain. Ceci s'incarne par exemple dans un système d'incitation financière prospective, que JL a expérimenté avec succès dans une école comme dans des usines chinoises. Plutôt que donner un bonus de performance à l'employé, on lui donne la somme dès le début, en précisant qu'il devra la reverser s'il n'a pas atteint ses objectifs. Testée expérimentalement, la mesure a fonctionné sur les professeurs de l'école maternelle comme sur des ouvriers. Avec une emphase toute américaine, JL List écrit que ce type d'incitations fonctionne, qu'on souhaite "construire des téléviseurs ou le futur de nos enfants". Même si ce type de pratiques de gestion vous inspire moins d'enthousiasme, l'ouvrage vous dévoile au moins un des nouveaux rouages du capitalisme managérial. Et l'aversion à la perte peut aussi être employée pour servir des objectifs moins productivistes. JL l'a employée pour lutter contre la fraude fiscale. En République Dominicaine, envoyer des lettres aux plus riches en indiquant que le nom des plus grands fraudeurs sera rendu public a un impact sensible sur les recettes fiscales, que JL estime à 100 millions de dollars américains. Ici, ce que les riches fraudeurs avaient peur de perdre est immatériel : leur réputation sociale. Enfin, même en l'absence du regard de ses pairs, on peut avoir peur de perdre l'image positive qu'on a de soi : "moi, je respecte les règles". Ainsi, des expériences que JL a mené pour la compagnie aérienne Virgin montrent qu'un message confidentiel informant les pilotes de leur consommation et les encourageant à respecter la norme fixée pour eux par la compagnie suffit à les faire réduire sensiblement leur consommation de carburant, même si aucune sanction n'était prévue en cas de non-respect de la norme. John List estime que ce nudge a permis une réduction des émissions de CO2 de la compagnie de 21 500 tonnes. Deuxièmement, il faut raisonner à la marge. Pour savoir s'il faut investir 10 000 nouveaux euros dans un programme déjà en place, ce qui compte n'est-il pas si le programme rapporte en moyenne plus que ce qu'il coûte. Ce qui importe est de savoir (1) combien ces 10 000 euros de plus vont rapporter, (2) parce que tout choix est un cimetière d'alternatives, est-ce que ces 10 000 euros ne seraient pas plus efficaces investis ailleurs ? Enoncés, ces principes semblent évidents. Mais ce n'est pas parce qu'un principe est évident qu'on l'a en tête. J. A List raconte par exemple que lorsqu'il travaillait pour Lyft, la dernière vague de publicités Facebook avait rapporté à l'entreprise seulement le 5ème de ce qu'elle aurait pu gagner si elle avait investi la même somme dans des publicités Google. Qu'importe si les pubs Facebook rapportaient plus en moyenne plus que ce qu'elles coûtent ou non, ce qui compte est à la marge : ce qu'une nouvelle vague de pubs va rapporter, et si ce rendement est supérieur à celui des alternatives, comme les pubs Google. Troisièmement, "abandonner, c'est pour les gagnants": il faut ne pas céder aux biais des coûts irrécupérables. Pour savoir si un projet sera rentable, seul le futur importe. Pas le passé. Ce qui compte n'est pas le temps et l'énergie qu'on a déjà dépensés. C'est la différence entre ce que le projet va encore coûter, et encore rapporter. Si une politique ne fonctionne pas, elle ne fonctionne pas, qu'importe la sueur qu'elle a déjà faite couler. Pourtant, l'histoire est mâtinée d'exemples de grands projets qui ont continué à gober des financements alors qu'il était certain qu'ils ne seraient pas rentables. On appelle aussi ce biais l'erreur du Concorde pour cette raison, en référence à l'entêtement des gouvernements français et britannique à poursuivre ce projet alors que le fait que l'exploitation commerciale du Concorde ne pouvait être rentable était admis depuis 1973. Enfin, il s'agit de savoir développer une culture d'entreprise compatible avec la hausse de taille de la structure. Les start-ups qui valorisent une culture trop agressive, et conflictuelle, qui peut (peut-être) au début stimuler la créativité s'exposent à de grandes tensions internes, des dégâts humains, et une dégradation de la réputation de l'entreprise quand elles grandissent comme ce fût le cas pour Uber. Avec une lucidité peut-être un peu inquiète, JL demande d'ailleurs d'appliquer certains de ses conseils béhavioristes avec modération, car, employées seules, la peur de perdre et la pression de la comparaison entre les pairs ne sont pas le terreau d'un environnement de travail des plus sains ... Conclusion L’effet Voltage éblouit. Je pense que les chercheurs qui me suivent apprendront peu de l'ouvrage mais c’est un excellent précis de vulgarisation sur la science du ‘scaling’. Il se distingue par son style limpide et percutant et ses exemples inédits. Qu'on adhère à la vision du monde de ce "conservateur sur les questions économiques, et progressiste sur les questions sociales", comme il s'est présenté à l'admnistration Bush qui l'employait, ou non, l'effet Voltage illumine toute la complexité de déployer des solutions prometteuses à plus grande échelle, et des pistes pour y parvenir. C'est d'ailleurs une des autres leçons du livre. L'expérience naïve est trompeuse, c'est celle qui nous souffle que la terre est plate, mais l'expérience scientifique l'est un peu aussi. Ce n'est pourtant pas la raison à moins de raison. Cela ne doit pas nous conduire à abandonner les preuves, mais à en collecter toujours plus. Une fois la politique implémentée, il faut passer de la politique fondée sur les preuves aux preuves fondées sur la politique. C'est ce que permettent les méthodes quasi-expérimentales dont je parle dans cet autre article. Elles sont conçues pour isoler les effets probables de politiques déjà mises en place. Ceci permet qu'on continue à les évaluer sans qu'on ait à priver la moitié de la population d'une politique qui a fait ses premières preuves, ce qu'un essai contrôlé impliquerait. Les grandes entreprises de la Tech comme Netflix ou Twitter ne s'y trompent pas, elles qui sont de plus en plus nombreuses à employer ces méthodes microéconométriques - l'année dernière d'ailleurs, Twitter a tenu à féliciter le 'prix nobel' d'économie David Card, qui a beaucoup contribué à diffuser ces méthodes dans la discipline et avait été récompensé pour cette raison. L’ouvrage a simplement parfois les défauts de ses qualités. Il semble que John A. List a parfois préféré la fluidité au doute. JL mêle études de cas et résultats d’expériences contrôlées randomisées. Ce mélange est important scientifiquement et pédagogiquement, car il facilite encore la lecture. Néanmoins, ces deux types de preuves ne permettent pas de tirer le même type de conclusion. Ainsi, s’il est très documenté que certains résultats d’expérience d’économie comportementale varient selon les populations, comment être sûr que c’est bien la préférence pour la diversité plus élevée du panel de testeurs qui explique l’échec du burger Arch Deluxe ? Mac Donald a réussi à proposer d’autres burgers. Comment expliquer que la même cause n’ait pas produit les memes effets ailleurs ? La firme a-t-elle réglé les problèmes d'échantillonnage de ses tests initiaux ? Des experts en marketing avancent ainsi que l'échec d'Arch Deluxe est surtout une erreur de niveau de gamme, le burger étant trop cher et haut de gamme pour la clientèle de la firme. Plus généralement, JL préfère parfois multiplier les exemples plutôt que nous convaincre que son explication de l'effet baisse de voltage est la bonne. Me (nous) reste(nt) à découvrir ses publications scientifiques pour savoir s'il adresse toutes les critiques potentielles. Souvent, on en est réduit à croire au récit (certes très éclairé) de John A. List pour savoir pourquoi une politique A a échoué mais une politique B a réussi. Or, un autre courant de la recherche aurait pu irriger le propos du livre : la méta-science. Cette autre science de la science a fourni des méthodes quantitatives qui peuvent compléter le type d'analyse plus qualitative que JL mène dans son ouvrage. Lorsqu'on a des données sur de nombreuses politiques, on peut montrer quels facteurs prédisent systématiquement la réussite ou l'échec de politiques grâce à une méthode appelée la méta-regression. Des algorithmes bayésiens aident également à quantifier ce qui fait varier les effets d'une politique, et à prédire leur effet moyen - ils sont par exemple employés ici sur des expériences relatives au micro-crédit. D'autre part, la méta-science offre aussi le moyen de corriger un biais majeur que JL ne mentionne pas. Une des raisons pour lesquelles il faut rarement croire quelques études est que les journaux scientifiques ont plus de chance de publier les résultats significatifs, ou qui confortent les présupposés de ceux qui évaluent l'article. Or, grâce à des progès de la statistique, il est possible de corriger ce biais - sous certaines hypothèses, comme toujours. David Card dont je parlais plus haut a par exemple publié un article assez célèbre dans lequel il montre que les effets du salaire minimum sur l'emploi total tendent à disparaître, ou s'atténuent si on corrige la propension des journaux (de recherche) en économie à publier préferentiellement des études qui trouvent des effets négatifs du salaire minimum. Vérifier si les méta-analyses (les études d'études) sur lequelles on fonde sa décision corrigent les biais de publication me semble aussi un bon conseil pour savoir si on peut croire les expériences passées - il est évident que JL List le sait, d'ailleurs certaines des méta-analyses qu'il cite le font, mais il est dommage qu'il ne l'ait pas expliqué dans son livre. Savoir passer au crible des méta-analyses devient important jusque dans le secteur privé, où l'usage de celles-ci se développe dans le business analytics - voir par exemple cette méta-analyse sur des tests A/B sur les sites internets. (1) Je laisse à d'autres le soin de débattre s'il existe de bons billets de blog de développement personnel. (2) Je n'ai toujours pas trouvé l'auteur de cette citation, peut-être Soljenitsyne. Mais je l'aime beaucoup.

Pourquoi distinguer sciences naturelles et sciences sociales n'a pas de sens

On vous le dit depuis toujours : il y a d'une part les sciences sociales qui sont des sciences molles, et d'autre part, les sciences naturelles qui sont des sciences dures. Et si cette distinction n'avait pas grand sens ? Je ne suis pas le premier à l'écrire, mais aujourd'hui, je vous présente les résultats de travaux récents et de certaines de mes analyses qui montrent encore le manque d'intérêt de cette distinction. Il y a quelques mois, les résultats d'un article ont secoué le monde scientifique. En effet, ils montrent que les résultats dans une science naturelle (la biologie préclinique du cancer) sont au moins aussi reproductibles qu’en psychologie, une science sociale. Dans ce petit billet, je réalise un exercice comparable avec des données en science économique. Dans mon échantillon, la reproductibilité en science économique est comparable à celles observées dans les deux autres disciplines. Ce résultat n’est qu’un seul des clous dans le cercueil d‘une thèse qui en est déjà criblé : celle que les sciences naturelles et sciences sociales diffèrent systématiquement. L’article dont je parlais dans le paragraphe précédent est donc une étude de réplication. C'est une étude dans laquelle on tente de reproduire et de tester la robustesse des résultats d'une ou plusieurs autres études déjà parues. Ici, les auteurs ont collecté de nouvelles données pour mener des analyses comparables aux originales. Il y a sans doute peu de questions aussi importantes en sciences que celle de la reproductibilité, tout particulièrement à l'heure de la crise de la réplicabilité dont je parlais dans cet article sur la 'corruption' des médecins : on ne parvient pas systématiquement à reproduire les résultats de certaines études, en sciences biomédicales et sociales. Dans cet article a été testée la réplicabilité d'un champ de recherche dont l'importance paraît immédiatement : la biologie du cancer. Au terme d'un large projet, 50 expériences issues de 23 articles ont été répliquées, pour un total de 158 effets au total. Comment mesure-t-on la reproductibilité d'un ensemble d'études ? Lorsqu'on a répliqué plusieurs expériences comme ici, on peut d'abord représenter les effets originaux (ceux dans la première expérience) en fonction des effets répliqués. On trace ensuite une ligne à 45 degrés qui représente les cas idéaux où l'effet original est le même que l'effet répliqué. On peut alors vérifier si les points sont plutôt proches de cette ligne idéale, ou non. Voici donc le graphique issu de cette étude de réplication dans le cas des études en biologie préclinique du cancer : On notera que la plupart des points sont dans la diagonale bas-droite, signe que les résultats répliqués sont plus faibles. Pour mettre un chiffre sur ce degré de similarité, une méthode est de mesurer le coefficient de Pearson entre l'effet original et l'effet issu de la réplication. C'est un chiffre situé entre 0 et 1 qui est plus haut si l'effet original est plus proche de l'effet répliqué. En biologie préclinique du cancer, ce chiffre est de 47%. (Ce n’est pas l’indicateur que j’aurais choisi, mais c’est celui utilisé dans la littérature). Un exercice similaire avait déjà été mené en psychologie. Voici alors le même graphique mais avec des données d'expériences en psychologie : Plus intéressant encore, le coefficient de corrélation effet original - effet répliqué en psychologie est de 56% contre 47% en biologie du cancer. Ceci suggère que les résultats en psychologie, une science humaine et sociale sont au moins autant reproductibles qu'en biologie du cancer, une science naturelle. Il faut d'ailleurs noter qu'en biologie du cancer, certains auteurs ont ignoré les sollicitations des auteurs de la réplication. Il alors été impossible de reproduire les expériences des auteurs qui n'ont pas collaboré. Si les auteurs des expériences fragiles ou falsifiées ont plus de chance de ne pas répondre aux sollicitations des réplicateurs, alors la réplicabilité de la biologie du cancer est ici surestimée ! Symétriquement, les auteurs de l'étude de réplication en psychologie n'ont pas fait mention de problèmes similaires. Pour élargir la réflexion, je vous propose de refaire le même exercice avec une autre science sociale : l'économie. Ensemble, ces résultats disent quelque chose de profond de la distinction entre sciences naturelles et sciences sociales. Le laboratoire en sciences sociales et en biologie En économie, on peut aussi faire des expériences en laboratoire. Cette formule vous étonne peut-être. Les décisions humaines et leurs contextes ne sont pas solubles en éprouvette. Que peuvent donc être des expériences en laboratoire en sciences sociales ? Elles consistent à placer des sujets comme vous et moi dans des situations très abstraites, qu’on nomme parfois des jeux. Par exemple, si vous participiez à un jeu du dictateur, on vous donnerait une somme d’argent que vous auriez la possibilité de partager avec un autre individu, puis on mesurerait la part de la somme reçue que vous choisiriez de lui donner. La série "Crétin de Cerveau" de David Louapre - que je vous recommande- liste beaucoup d'expériences de ce type. Même si ces expériences impliquent de mettre des sujets dans des situations différentes de la vie courante, elles peuvent aider à mieux cerner les comportements humains. En retour, ceci éclaire des phénomènes hors laboratoires, en permettant de savoir par exemple non pas si une politique publique a marché ou non, ce qu'on peut mesurer avec d'autres méthodes mais *pourquoi* elle a marché. Ces expériences en laboratoire ont par exemple mis en lumière ces biais cognitifs dont on parle tant aujourd'hui. On peut les exploiter hors laboratoire avec des politiques dites de nudge : des touches de piano peintes sur un escalier pour inciter à monter des marches, un passage piéton en relief pour faire baisser la vitesse des automobilistes, ... Comparer les expériences de laboratoire en économie et en biologique pré-clinique me semble pertinent. Comme les expériences de laboratoire en économie, celles en biologie sont des étapes préliminaires, et il faut passer aux essais cliniques pour savoir si le traitement anti-cancer fonctionne effectivement, in vivo. Toutefois, le laboratoire permet d'observer finement certains phénomènes biologiques et par là de comprendre certains mécanismes d'action. Quid du taux de réplication en économie comportementale ?

Pour répondre à cette question, j'avais combiné les données d'une étude qui compilait les résultats de 18 réplications en économie avec celles de 8 autres réplications. Ces 8 autres études sont extraites d'un autre projet de recherche qui a permis la réplication de 21 des expériences qui peuvent impliquer des chercheurs dans d'autres sciences sociales que l'économie, mais je n'ai gardé que les 8 expériences qui impliquaient au moins un chercheur en économie. J'obtiens alors un petit total de 26 études. J'ai alors construit un graphique dans l’esprit des deux autres : Dans cet échantillon, je trouve une corrélation effet original-effet répliqué de 54%. C'est le même ordre de grandeur qu'en biologie du cancer (47%) et en psychologie (56%). Comme dans les deux autres disciplines, les effets répliqués tendent à être plus faibles que les originaux. Un indice de plus du manque d'intérêt de la distinction sciences naturelles et sciences sociales Tout ceci me conforte dans l'idée selon laquelle il n'y a pas de différence systématique entre sciences sociales et naturelles. Je ne dis pas que toutes les disciplines scientifiques sont les mêmes. Il y a une immense diversité de méthodes au sein de ce qu'on appelle les sciences. Simplement, je ne pense pas que les diviser les sciences en SHS et sciences naturelles aide à comprendre cette diversité. Les taux de réplication comparables ne sont pas le seul argument en faveur de cette thèse. Un de mes précédents billets tentait de démontrer qu'il était faux d'affirmer que seules les sciences sociales étaient politiques, ou que seuls les sciences naturelles pouvaient parvenir à des consensus. Plus généralement, on l'a beaucoup écrit et dit avant moi : la distinction entre société et nature est floue. L'épidémie du COVID est-elle un phénomène naturel, ou un phénomène social qui se nourrit de nos contacts et nos interactions sociales ? Et le réchauffement climatique, qui est le fruit de processus physiques mais déclenchés par nos actions, est-il naturel ou social ? Comment pourrait-il y avoir de vraies différences entre sciences sociales et sciences naturelles s'il n'y a pas de vraies différences entre social et naturel ? Seraient-ce les méthodes qui distinguent les sciences sociales des sciences naturelles ? Que nenni. Je parlais par exemple dans cet article d'expériences contrôlées randomisées. Les historiens n'en font à ma connaissance pas. Mais les astronomes non plus. On pourrait multiplier les exemples. Tracer la ligne des méthodes ne sépare pas les sciences naturelles des sciences sociales. Ceci crée au contraire de nouveaux groupes plus pertinents. Un autre critère souvent avancé pour séparer les sciences sociales des sciences naturelles est que les premières étudieraient des objets historiques. Cette thèse a notamment été portée par le sociologue Jean-Claude Passeron. Les énoncés en sciences sociales ne seraient toujours valides qu'en un temps et un lieu donné, par opposition aux énoncés des sciences naturelles qui seraient universels. Le sociologue Olivier Godechot a ébauché une réponse à cette thèse que je trouve très convaincante dans un thread. Je le traduis et mets en forme ici : "Un énoncé est toujours spatio-temporellement dépendant. Comme on m'a demandé d'enseigner une introduction à l'épistémologie (avec absolument aucune compétence), voici mon point de vue avec une question provocatrice... L'étude de l'extinction des dinosaures et celle de la chute de l'empire romain doivent-elles nécessiter des épistémologies différentes ? Si ma compréhension de la cosmogonie est correcte, presque toutes (et peut-être toutes) les "lois" scientifiques ne produisent que des déterminations d'objets "historiques" : elles sont conditionnelles au déroulement de notre univers depuis le big bang et pourraient ne pas se vérifier dans des univers alternatifs. Il n'y a donc aucune différence ontologique entre la production de déterminations dans les deux domaines. (Peut-être que les degrés de généralité peuvent différer, mais cela n'a pas beaucoup d'importance). Il est probable que le concept de loi soit trompeur car il pousse trop loin l'idée d'un déterminisme éternel et sans limites spatiales. Si nous acceptons l'idée que la science empirique produit des explications des choses dans un certain ensemble de conditions de portée, il n'y a pas de grandes différences en fin de compte entre les sciences naturelles et sociales." J’ajoute que les sciences naturelles incluent aussi la biologie où les mutations rebattent souvent les cartes : l’exemple de l’efficacité changeante du vaccin face aux différentes mutations du COVID l’illustre sinistrement. Tout ceci ne signifie pas qu'il faut tout mettre sur le même plan, que tous les savoirs produits par les sciences sont aussi vrais, aussi fiables. Ce serait absurde. Il y a naturellement certaines théories plus établies que d'autres. Mais je crois qu'il serait aussi absurde d'en faire un autre critère de distinction systématique entre sciences naturelles et sciences sociales : au sein de chaque discipline, on trouve des théories mieux soutenues par les données que d'autres. On pourrait par exemple facilement me convaincre que la théorie de la relativité générale constitue un sommet scientifique rarement égalé. Pour cela, on pourrait donner des exemples de prédictions très spécifiques qui se sont réalisées comme l’existence d'ondes gravitationnelles. On pourrait décliner ce type de démonstrations avec bien d’autres théories, comme celle de l’évolution. Mais on ne peut pas généraliser ces réussites à toutes les théories des sciences naturelles. Soyons provocants. Entre la théorie des cordes, qui ne fait pas (encore ?) de prédictions expérimentales qui lui permettent de faire consensus, et le consensus des chercheurs en sciences sociales sur l'existence de discrimination à l'embauche, lui fondé sur des centaines d'expériences concordantes, que faut-il considérer comme la connaissance la plus fiable ? La réponse ne me paraît pas triviale. Qu'importe : c'est à ceux qui voudraient démontrer que les théories en sciences naturelles sont par essence plus fiables que les théories en sciences sociales qu'échoit la charge de la preuve. En ce qui me concerne, je préfère plutôt occuper mon temps à essayer d’évaluer la fiabilité des théories que je croise, soit en lisant la littérature scientifique quand j’en ai les moyens, soit en tentant de savoir où se trouve le consensus des spécialistes. Je pense qu‘on fait alors beaucoup plus progresser sa compréhension du monde qu’en tentant des généralités sur des ensembles de disciplines trop hétérogènes.