Politiques Publiques, Business, Médecine : 5 astuces pour généraliser ce qui a déjà marché

Ce titre sonne comme celui d'un mauvais article de développement personnel (1). Rien de fumeux aujourd'hui pourtant. Je vous parle aujourd'hui du best-seller d'un des chercheurs, des expérimentalistes les plus respectés de la planète sur un des sujets les plus importants qui soient : comment s’assurer que ce qui a fonctionné dans un contexte précis fonctionnera dans un autre ? Comment s’assurer que ce qui a marché à petite échelle fonctionnera à grande échelle ?
Je vous ai un peu menti. Sur ce blog, j'ai beaucoup écrit sur la nécessité d'évaluer les politiques publiques : "quand on ne compte pas, c'est la peine des hommes qu'on ne compte plus" (2). Evaluer les politiques publiques à l'aide d'essais randomisés contrôlés randomisés ou de quasi-expériences permet de savoir si les politiques ont bien les effets qu'on leur prête - pensez par exemple aux débats sur les effets du confinement dont je parle ici. Cela permet aussi de savoir quelles politiques sont plus efficaces que d'autres. Par exemple, pour un milliard dépensé, quelles politiques sortent le plus d'enfants des difficultés de lecture ? Réduisent le plus le CO2 ? Savoir ceci est important que vous souhaitiez augmenter, ou maintenir les dépenses publiques - ou si vous êtes contraint de les réduire, à l’heure où les crises en Ukraine et écologique mettent sous pression les finances publiques. Contre un certain discours médiatico-politique qui ne s'intéresse qu'aux coûts des politiques, il arrive que certaines politiques sociales rapportent même plus aux finances publiques que ce qu'elles ont coûté - j'en parle ici. Cependant, je n'ai pas vraiment encore mentionné une difficulté majeure. C'est celle de la validité externe des évaluations de politiques publiques. On évalue toujours une politique qui a été menée une année donnée sur une population donnée. Or, comment s’assurer que ce qui a marché dans un contexte fonctionnera dans un autre ? Comment s’assurer que ce qui a marché à petite échelle fonctionnera à plus grande échelle ? Parfois, certaines politiques d'Etat ou d'entreprises aux premiers résultats prometteurs se révèlent très décevantes une fois généralisées. C'est ce que John List appelle un "effet de baisse de voltage" dans son livre sur ce sujet précis. Peu de chercheurs sont mieux placés que lui pour savoir comment éviter ces effets Voltage.
John A. List (JL) est d’abord une pointure académique. Professeur à l’Université de Chicago, il est un des chercheurs en économie les plus reconnus de la planète (8ème au classement REPEC, chers aux économistes). A l’origine économiste comportemental, il s'est ensuite spécialisé dans l’évaluation des politiques ciblées sur les jeunes enfants, qui sont cruciales, car elles ont des impacts à long-terme sur le degré d’instruction, la santé, la criminalité. J'en parle ici. Mais JL ne s'est pas contenté d'évaluer des politiques. Il a aussi participé à leur élaboration. Ainsi, dans le cadre de ses recherches, il a contribué à fonder une école maternelle près de Chicago où ont été implémentées les recommandations de la littérature en économie de l’éducation. Les résultats, documentés dans plusieurs articles de recherche publiés depuis, sont nets. John A List a aussi contribué à la conception de politiques publiques lorsqu’il travaillait pour le gouvernement de Georges Bush Junior jusqu'en 2003, notamment sur les questions environnementales et d'énergie - avec humour, il prend soin de signaler qu'il n'a pas contribué aux décisions concernant la guerre d'Irak, qui elles n'étaient pas toujours basées sur les preuves. Enfin, l'économiste a pu appliquer ses compétences d’expérimentaliste pour de grandes entreprises - Uber, Chrysler, Lyft... Même si vous n'approuvez pas les politiques menées par Georges Bush fils, ou celles de start-ups comme Uber, on ne peut nier que JL a accumulé un savoir pratique et scientifique intéressant sur comment déployer des politiques à plus grande échelle. C'est précisément de ce savoir dont vous aurez besoin si vous souhaitez faire en sorte que le monde ne ressemble pas à celui que souhaitent Georges Bush ou des dirigeants de start-ups.
Alors, imaginez que vous êtes un élu, un PDG, un dirigeant d’ONG, et qu’une politique que vous venez de déployer à petite échelle a donné des résultats encourageants, comment savoir si vous pourrez la généraliser avec succès ? John A. List donne 5 conseils. 1. Vérifiez que le premier résultat n’est pas ... un faux positif.
Il arrive que certains résultats significatifs statistiquement le soient par pur hasard. Cela découle de la façon dont sont construits les tests statistiques. En effet, imaginons que vous testez un traitement contre la dépression par une expérience. Même si le traitement n’a aucun effet, on peut s’attendre à ce que les taux de dépression ne soient pas exactement les mêmes dans le groupe qui a reçu le traitement et le groupe contrôle. Pour tenter de départager les écarts entre groupes qui peuvent être attribués au hasard de ceux dûs à l'effet d'un traitement, on considère alors comme significatif un écart entre le groupe traitement et le groupe contrôle qu’on aurait eu qu'une probabilité de 5% d’observer si le traitement n’avait pas d’effet. Simplement, cela signifie que sur 100 expériences de méthodes dont on sait qu'elles n'ont aucun effet, 5 vont montrer un résultat significatif ! Pour s’assurer que notre résultat positif n’est pas un de ces 5 faux positifs, la solution est de répliquer (refaire) l’expérience. John A List propose ainsi une règle de décision : il faut répliquer 3 ou 4 fois des expériences avec un échantillon suffisant sur un programme avant de le déployer - vous pourrez trouver la justification statistique de ce critère à ce lien. N’est-ce pas cher de faire autant d'expériences ? En vérité, répliquer 3,4 fois est toujours moins cher que de généraliser un programme qui ne fonctionne pas. John List en donne de nombreux exemples.
Durant les années 1980, le programme Drug Abuse Resistance Education (DARE) aux Etats-Unis pour réduire la consommation de drogue chez les adolescents a été déployé en grande pompe et à grand coût. A son apogée, en 2002, le programme coûtait 10 millions de dollar par an, et on estime qu'il a été déployé sur 75% du territoire américain. Pour justifier une implémentation si massive, les promoteurs de DARE brandissaient une seule expérience avec un millier de sujets à Honulu... Or, malheureusement d'autres évaluations se sont multipliées pour montrer que le programme ne fonctionnait pas. Le succès initial de DARE n’était pour John List qu’un faux positif. Quelques réplications auraient permis au gouvernement américain d’éviter de se ruiner à déployer dans tout le pays une politique inefficace. Toutefois, répliquer ne suffit pas à réussir à déployer avec succès ses idées. John List prend l'exemple de l'économiste Hunt Alcott qui a travaillé pour la société Opower. Celle-ci souhaitait savoir si recevoir un message vous montrant que vos voisins économisent plus d'énergie vous incite à réduire en retour votre propre consommation d'énergie. Hunt Alcott a mené plusieurs essais d'essais contrôlés randomisés pour le vérifier. "Plusieurs" sonne presque comme un euphémisme. Alcott a mené 111 expériences dans des villes différentes. Ces tests incluaient 8,1 millions d'américains. Malgré des premiers résultats très prometteurs, et des réplications réussies, l'entreprise n'a pas généralisé sa politique. Cela l'aurait ruiné. Que s'est-il passé ? 2. Assurez-vous que la population de l’essai est représentative. Prouver l’existence d’un lien causal ne suffit pas. Il faut le prouver dans une population représentative : l’effet de l’intervention peut varier avec les caractéristiques des individus. John List prend l’exemple des WEIRD en économie comportementale. En effet, même si les décisions humaines et leurs contextes ne sont pas solubles en éprouvette, on peut faire des expériences en laboratoire en sciences sociales. Elles consistent à placer des sujets comme vous et moi dans des situations très particulières, qu’on nomme parfois des jeux. Pour prendre un exemple que JL ne prend pas, si vous participiez à un jeu du dictateur, on vous donnerait une somme d’argent que vous auriez la possibilité de partager avec un autre individu, puis on mesurerait la part de la somme reçue que vous choisiriez de lui donner. Ces expériences d'économie comportementale ont d'abord été menées sur les populations les plus facilement accessibles aux chercheurs qui les menaient : les étudiants de grandes universités américaines. Il s'agissait donc d'une population instruite dans pays riche, occidental, démocratique - "people in Western Educated, Industrialized, Rich and Democratic (WEIRD) societes". Or, assez intuitivement, comme le rappelle le titre d'un célèbre article de Nature, la plupart des gens ne sont pas WEIRD : les mêmes jeux donnent des résultats systématiquement différents selon les pays. Ainsi, pour reprendre l'exemple du jeu du dictateur cité plus haut, il a été démontré qu'en moyenne, moins le pays est développé, plus les participants du jeux ont tendance à partager une somme élevée d'argent.

Le problème de la représentativité des populations n'est pas spécifique aux sciences sociales. C’est un phénomène documenté dans la littérature médicale : il arrive que ceux qui participent à des essais cliniques soient ceux sur qui le traitement marche le mieux, avec à la clef des résultats trompeurs. Ainsi, dans les pays en développement, les carences en fer sont un fléau. Des premiers essais semblent montrer que distribuer du sel enrichi en fer et en iode permettrait d'atténuer significativement le problème. Malheureusement, une fois déployé à large échelle, le traitement n'a pas produit d'effets détectables, sauf sur les adolescents. Or, le défaut des premiers essais était justement que les chercheurs n'avaient recruté que des adolescentes, qui bénéficient nettement plus du traitement du fait de leur physiologie. Dans l’entreprise, JL cite l’exemple de Mac Donald et du flop retentissant du burger l’Arch Deluxe. La firme avait fondé sa décision sur des retours positifs d’un panel de consommateurs... Elle avait pourtant oublié que ceux qui se déplacent pour aller goûter un nouveau burger étaient plus aventureux, plus friands de nouveauté que le consommateur moyen. La solution est simple à concevoir, mais parfois difficile à mettre en place : il faut toujours tester ses traitements sur une population représentative, un échantillon aléatoire de la population. A défaut, on peut faire de plus petits essais sur des populations diverses. John List cite ainsi un programme de visites d'infirmières qui a été testé dans trois villes avec des démographies très différentes (Memphis, Denver et New-York). Les experiences dans ces trois villes qui montraient un effet important du programme ont été répliquées avec succès. En effet, une population représentative n'est pas forcément immense, et certaines populations immenses ne sont pas représentatives. C'est ce qui explique l'échec probable de la politique d'économie d'énergie présentée plus haut, si elle avait été généralisée. Les 111 essais avaient été menés dans des villes plutôt écologistes, où donc le nudge avait mieux fonctionné. Mais en fouillant de plus près les données, Hunt Alcott a découvert que le message n'avait aucun effet dans les villes qui n'étaient pas plus écologistes que la moyenne. 3. Assurez-vous que la situation est représentative. Est-ce le chef ou les ingrédients ? Ce qui fait le succès d’un programme ou d’une entreprise dans un contexte donné peut être un facteur difficile à répliquer, à multiplier. Plus généralement, des travaux de recherche (de J List) suggèrent que la représentativité de la situation est plus importante encore que celle de la population. John A. List incite ainsi à distinguer les ingrédients négociables des ingrédients non-négociables. Les ingrédients non-négociables sont les composantes d'un programme qui doivent demeurer quand on le généralise. Ainsi, JL raconte qu'une école britannique l'a un jour appelé pour mettre en place une politique similaire à celle qu'il avait déployée dans l'école qu'il a fondé avec d'autres chercheurs de l'Université de Chicago. Il s'agissait de cours rémunérés pour les parents, où on leur présentait plusieurs méthodes psychologiquement éprouvées pour développer les compétences cognitives (aide à la lecture), ou non-cognitives (maturité émotionnelle, gestion des conflits) de leurs enfants. A Chicago, l'expérience avait été un franc succès. Pourquoi pas à Londres ? Il y avait bien une raison. Dans le district dans lequel se situait l'école à Londres, il était illégal pour une école de rémunérer des parents. Malgré les réserves de l'équipe dont John List faisait partie, les directeurs de l'Ecole à Londres ont insisté pour organiser ces cours. Les résultats ont été très décevants. Faute d'incitations financières, les parents ne se sont pas rendus aux cours : rémunérer les parents était l'ingrédient non-négociable. Parfois, les ingrédients non-négociables ne sont pas clairs a priori, et il faut apprendre par l'échec, ce que JL montre avec les extensions peu fructueuses du programme social Head Start, ou la faillite de la chaîne de restaurants du cuisinier Jamie Oliver. 4. On n'échappe jamais à la théorie : prêtez attention aux externalités et aux effets d’équilibre général : Il semble parfaitement tautologique de dire que dans une expérience, le groupe contrôle est celui qui ne bénéfice pas du traitement. En théorie, c'est le cas. En pratique, ce n'est pas si évident. Le traitement peut déborder du groupe test. Il peut contaminer le groupe contrôle. Il y a un exemple classique en économie du développement que JL ne cite pas. Pourtant, il est charmant. Dans les pays en développement, les parasites comme les ankylostomes sont un fléau. Ces parasites qu'on peut attraper en marchant pieds nus ou en s'asseyant dans la boue, ou une terre humide provoquent des infections qui causent des carences en fer, de la malnutrition, des douleurs abdominales et de l'apathie. On comprend donc comment ces parasites peuvent contribuer à dégrader la santé et les niveaux d'instruction dans ces pays. Toutefois, à l'aube de l'an 2000, les jeunes n'avaient pas de solution. La plupart des expériences médicales montraient que les politiques de déparasitage n'étaient pas vraiment efficaces, notamment pour augmenter la réussite scolaire. Mais ces études se heurtaient à un biais majeur : elles ne prenaient pas en compte l'immunité collective. Même les écoliers qui ne bénéficient pas du déparatisage voient leur probabilité d'avoir un parasite réduite quand leurs camarades (ceux du groupe traitement) ont moins de chance d'en avoir et donc de leur transmettre. Ceci réduit artificiellement les différences de contamination entre le groupe contrôle et le groupe traitement, et donc l'effet mesuré de la politique. En corrigeant ces bias, les effets apparaissent bien plus importants.
JL prend notamment comme autre exemple un échec retentissant d'une politique d'Uber qu'il a implémenté. Travis Kalanick, un des fondateurs de l'entreprise avait demandé à John List de l'aide pour règler un problème qui menaçait l'existence de l'entreprise. Du fait notamment de trop faibles rémunérations, les chauffeurs fuyaient l'application en masse. JL a alors testé en urgence un système de pourboire sur une minorité des chauffeurs. Cet ajout à l'application a très bien fonctionné à petite échelle. Attiré par le surplus de rémunération que permettaient les pourboires, les chauffeurs revenaient et/ou roulaient plus. La direction comme les chauffeurs y gagnaient. Une fois généralisé, le système de pourboire a toutefois perdu tous ses bénéfices pour les chauffeurs. Que s'est-il passé ? Ce que la théorie économique la plus standard prédit : le choc d'offre positif provoqué par l'introduction de pourboires a réduit les rémunérations. En français, le système de pourboire a trop bien marché. Il a attiré beaucoup de nouveaux chauffeurs. Ces nouveaux chauffeurs se sont fait concurrence, et, après un certain temps, les rémunérations des chauffeurs sont revenues à leur niveau initial. L'essai contrôlé randomisé ne protège pas des externalités. Heureusement, il arrive que les externalités jouent dans le camp de celui qui veut déployer sa politique. Je citais plus haut des phénomènes comme l'immunité de groupe. A propos de l'école maternelle de John List, on a pu mesurer que les jeunes enfants qui ont vu leurs compétences non-cognitives (contrôle des impulsions, résolutions des conflits) s'améliorer ont eu tendance à transmettre une partie de ces compétences à leurs pairs (leurs frères/soeurs, copain-ines...). Un enfant qui joue avec un autre enfant qui sait mieux se contrôler et gérer le conflit va avoir tendance à progresser lui aussi dans ces domaines, à son contact. Parfois, le meilleur allié de celui qui veut réussir à déployer ses politiques à grande échelle est... l'échelle. Parfois, non. C'est aussi pour cette raison qu'il faut considérer la structure des coûts. 5. Gare à la structure des coûts ! Dans le monde de l'entreprise, surveiller l'évolution de ses coûts tient du conseil de bon sens. De fait, JL multiplie les exemples d'entreprises qui se sont effondrées faute d'avoir réussi à prévoir comment les coûts évolueraient avec la production. Néanmoins, il rappelle aussi que le coût marginal (celui d'une nouvelle unité produite) compte aussi lorsqu’il s’agit de déployer une politique publique. Ainsi, plusieurs expériences de réduction de taille de classe qui donnaient des résultats prometteurs à petite échelle ont montré des résultats beaucoup plus décevants à plus grande échelle. Les organisateurs de ces programmes ont été dépassés par l'évolution des coûts. Réduire les classes implique d'embaucher beaucoup de nouveaux professeurs, qui n'ont parfois pas les mêmes compétences, ou ne sont simplement pas disponibles dans la région. Ceci aurait pu être compensé par une hausse des salaires qui n'avait pas été budgétée, et rendait le programme bien moins coût-efficace. Pour garder le contrôle de ses coûts dans 'son' école maternelle, JL dit avoir pris soin d'embaucher des professeurs au même salaire que celui des autres écoles publiques de Chicago. Cela lui assure que les bénéfices de son traitement ne s'expliquent pas par le fait que son programme ait attiré les meilleurs professeurs de l'Etat, et que le programme ait des coûts réalistes à plus grande échelle. Le vaccin contre la polio est ainsi pour John List l'exemple parfait d'une politique qui avait tout pour se déployer avec une grande efficacité : (1) les tests sur une population représentative d'enfants montraient qu'il était efficace sur tous ; (2) le vaccin était peu onéreux à produire, notamment grâce à des économies d'échelle, (3) les seules externalités, celles générés par l'immunité collective, étaient positives. Il est ainsi peu surprenant que le vaccin ait éradiqué la polio en quelques années. Mais que faire quand toutes ces conditions ne sont pas réunies ? Par delà les mises en garde, quelques conseils pratiques La deuxième partie est consacrée à 4 conseils plus pratiques pour implémenter des politiques qui ne souffriront pas de problèmes de mise à l'échelle. Premièrement, John A List n'échappe à son passé d'économiste comportemental : il prône la mise en place de nudges, ces subtiles incitations qui changent nos comportements en tirant certains fils de notre inconscient. Il s'agit essentiellement d'exploiter notre aversion à la perte. On se bat plus pour ne pas perdre une somme donnée que pour gagner cette même somme. La clef est alors de manipuler les perceptions pour que la même somme d'argent reçue soit perçue comme une perte potentielle plutôt que comme un gain. Ceci s'incarne par exemple dans un système d'incitation financière prospective, que JL a expérimenté avec succès dans une école comme dans des usines chinoises. Plutôt que donner un bonus de performance à l'employé, on lui donne la somme dès le début, en précisant qu'il devra la reverser s'il n'a pas atteint ses objectifs. Testée expérimentalement, la mesure a fonctionné sur les professeurs de l'école maternelle comme sur des ouvriers. Avec une emphase toute américaine, JL List écrit que ce type d'incitations fonctionne, qu'on souhaite "construire des téléviseurs ou le futur de nos enfants". Même si ce type de pratiques de gestion vous inspire moins d'enthousiasme, l'ouvrage vous dévoile au moins un des nouveaux rouages du capitalisme managérial. Et l'aversion à la perte peut aussi être employée pour servir des objectifs moins productivistes. JL l'a employée pour lutter contre la fraude fiscale. En République Dominicaine, envoyer des lettres aux plus riches en indiquant que le nom des plus grands fraudeurs sera rendu public a un impact sensible sur les recettes fiscales, que JL estime à 100 millions de dollars américains. Ici, ce que les riches fraudeurs avaient peur de perdre est immatériel : leur réputation sociale. Enfin, même en l'absence du regard de ses pairs, on peut avoir peur de perdre l'image positive qu'on a de soi : "moi, je respecte les règles". Ainsi, des expériences que JL a mené pour la compagnie aérienne Virgin montrent qu'un message confidentiel informant les pilotes de leur consommation et les encourageant à respecter la norme fixée pour eux par la compagnie suffit à les faire réduire sensiblement leur consommation de carburant, même si aucune sanction n'était prévue en cas de non-respect de la norme. John List estime que ce nudge a permis une réduction des émissions de CO2 de la compagnie de 21 500 tonnes. Deuxièmement, il faut raisonner à la marge. Pour savoir s'il faut investir 10 000 nouveaux euros dans un programme déjà en place, ce qui compte n'est pas si le programme rapporte en moyenne plus que ce qu'il coûte. Ce qui importe est de savoir (1) combien ces 10 000 euros de plus vont rapporter, (2) parce que tout choix est un cimetière d'alternatives, est-ce que ces 10 000 euros ne seraient pas plus efficaces investis ailleurs ? Enoncés, ces principes semblent évidents. Mais ce n'est pas parce qu'un principe est évident qu'on l'a en tête. J. A List raconte par exemple que lorsqu'il travaillait pour Lyft, la dernière vague de publicités Facebook avait rapporté à l'entreprise seulement le 5ème de ce qu'elle aurait pu gagner si elle avait investi la même somme dans des publicités Google. Qu'importe si les pubs Facebook rapportaient plus en moyenne plus que ce qu'elles coûtent ou non, ce qui compte est à la marge : ce qu'une nouvelle vague de pubs va rapporter, et si ce rendement est supérieur à celui des alternatives, comme les pubs Google. Troisièmement, "abandonner, c'est pour les gagnants" : il faut ne pas céder aux biais des coûts irrécupérables. Pour savoir si un projet sera rentable, seul le futur importe. Pas le passé. Ce qui compte n'est pas le temps et l'énergie qu'on a déjà dépensés. C'est la différence entre ce que le projet va encore coûter, et encore rapporter. Si une politique ne fonctionne pas, elle ne fonctionne pas, qu'importe la sueur qu'elle a déjà faite couler. Pourtant, l'histoire est mâtinée d'exemples de grands projets qui ont continué à gober des financements alors qu'il était certain qu'ils ne seraient pas rentables. On appelle aussi ce biais l'erreur du Concorde pour cette raison, en référence à l'entêtement des gouvernements français et britannique à poursuivre ce projet alors que le fait que l'exploitation commerciale du Concorde ne pouvait être rentable était admis depuis 1973. Enfin, il s'agit de savoir développer une culture d'entreprise compatible avec la hausse de taille de la structure. Les start-ups qui valorisent une culture trop agressive, et conflictuelle, qui peut (peut-être) au début stimuler la créativité s'exposent à de grandes tensions internes, des dégâts humains, et une dégradation de la réputation de l'entreprise quand elles grandissent comme ce fût le cas pour Uber. Avec une lucidité peut-être un peu inquiète, JL demande d'ailleurs d'appliquer certains de ses conseils béhavioristes avec modération, car, employées seules, la peur de perdre et la pression de la comparaison entre les pairs ne sont pas le terreau d'un environnement de travail des plus sains ... Conclusion L’effet Voltage éblouit. Je pense que les chercheurs qui me suivent apprendront peu de l'ouvrage mais c’est un excellent précis de vulgarisation sur la science du ‘scaling’. Il se distingue par son style limpide et percutant et ses exemples inédits. Qu'on adhère à la vision du monde de ce "conservateur sur les questions économiques, et progressiste sur les questions sociales", comme il s'est présenté à l'admnistration Bush qui l'employait, ou non, l'effet Voltage illumine toute la complexité de déployer des solutions prometteuses à plus grande échelle, et des pistes pour y parvenir. C'est d'ailleurs une des autres leçons du livre. L'expérience naïve est trompeuse, c'est celle qui nous souffle que la terre est plate, mais l'expérience scientifique l'est un peu aussi. Ce n'est pourtant pas la raison à moins de raison. Cela ne doit pas nous conduire à abandonner les preuves, mais à en collecter toujours plus. Une fois la politique implémentée, il faut passer de la politique fondée sur les preuves aux preuves fondées sur la politique. C'est ce que permettent les méthodes quasi-expérimentales dont je parle dans cet autre article. Elles sont conçues pour isoler les effets probables de politiques déjà mises en place. Ceci permet qu'on continue à les évaluer sans qu'on ait à priver la moitié de la population d'une politique qui a fait ses premières preuves, ce qu'un essai contrôlé impliquerait. Les grandes entreprises de la Tech comme Netflix ou Twitter ne s'y trompent pas, elles qui sont de plus en plus nombreuses à employer ces méthodes microéconométriques - l'année dernière d'ailleurs, Twitter a tenu à féliciter le 'prix nobel' d'économie David Card, qui a beaucoup contribué à diffuser ces méthodes dans la discipline et avait été récompensé pour cette raison. L’ouvrage a simplement parfois les défauts de ses qualités. Il semble que John A. List a parfois préféré la fluidité au doute. JL mêle études de cas et résultats d’expériences contrôlées randomisées. Ce mélange est important scientifiquement et pédagogiquement, car il facilite encore la lecture. Néanmoins, ces deux types de preuves ne permettent pas de tirer le même type de conclusion. Ainsi, s’il est très documenté que certains résultats d’expérience d’économie comportementale varient selon les populations, comment être sûr que c’est bien la préférence pour la diversité plus élevée du panel de testeurs qui explique l’échec du burger Arch Deluxe ? Mac Donald a réussi à proposer d’autres burgers. Comment expliquer que la même cause n’ait pas produit les memes effets ailleurs ? La firme a-t-elle réglé les problèmes d'échantillonnage de ses tests initiaux ? Des experts en marketing avancent ainsi que l'échec d'Arch Deluxe est surtout une erreur de niveau de gamme, le burger étant trop cher et haut de gamme pour la clientèle de la firme. Plus généralement, JL préfère parfois multiplier les exemples plutôt que nous convaincre que son explication de l'effet baisse de voltage est la bonne. Me (nous) reste(nt) à découvrir ses publications scientifiques pour savoir s'il adresse toutes les critiques potentielles. Souvent, on en est réduit à croire au récit (certes très éclairé) de John A. List pour savoir pourquoi une politique A a échoué mais une politique B a réussi. Or, un autre courant de la recherche aurait pu irriger le propos du livre : la méta-science. Cette autre science de la science a fourni des méthodes quantitatives qui peuvent compléter le type d'analyse plus qualitative que JL mène dans son ouvrage. Lorsqu'on a des données sur de nombreuses politiques, on peut montrer quels facteurs prédisent systématiquement la réussite ou l'échec de politiques grâce à une méthode appelée la méta-regression. Des algorithmes bayésiens aident également à quantifier ce qui fait varier les effets d'une politique, et à prédire leur effet moyen - ils sont par exemple employés ici sur des expériences relatives au micro-crédit. D'autre part, la méta-science offre aussi le moyen de corriger un biais majeur que JL ne mentionne pas. Une des raisons pour lesquelles il faut rarement croire quelques études est que les journaux scientifiques ont plus de chance de publier les résultats significatifs, ou qui confortent les présupposés de ceux qui évaluent l'article. Or, grâce à des progès de la statistique, il est possible de corriger ce biais - sous certaines hypothèses, comme toujours. David Card dont je parlais plus haut a par exemple publié un article assez célèbre dans lequel il montre que les effets du salaire minimum sur l'emploi total tendent à disparaître, ou s'atténuent si on corrige la propension des journaux (de recherche) en économie à publier préferentiellement des études qui trouvent des effets négatifs du salaire minimum. Vérifier si les méta-analyses (les études d'études) sur lequelles on fonde sa décision corrigent les biais de publication me semble aussi un bon conseil pour savoir si on peut croire les expériences passées - il est évident que JL List le sait, d'ailleurs certaines des méta-analyses qu'il cite le font, mais il est dommage qu'il ne l'ait pas expliqué dans son livre. Savoir passer au crible des méta-analyses devient important jusque dans le secteur privé, où l'usage de celles-ci se développe dans le business analytics - voir par exemple cette méta-analyse sur des tests A/B sur les sites internets. (1) Je laisse à d'autres le soin de débattre s'il existe de bons billets de blog de développement personnel. (2) Je n'ai toujours pas trouvé l'auteur de cette citation, peut-être Soljenitsyne. Mais je l'aime beaucoup.

Ce titre sonne comme celui d'un mauvais article de développement personnel (1). Rien de fumeux aujourd'hui pourtant. Je vous parle...