10 Grands principes
Pour pouvoir passer aux prochaines étapes dans notre apprentissage des biostatistiques, nous devrons mettre en place une série de concepts sur lesquels nous pourrons construire. J’ai rassemblé toute cette information ici sous forme de grands principes statistiques. Vous allez probablement vous sentir balayés par une tempête de terminologie et j’en suis désolé. J’ai essayé le plus possible de m’en tenir au strict nécessaire.
10.1 Questions et hypothèses
La chose la plus importante à considérer avant de se lancer dans un projet de statistiques est de se demander : quelle est ma question écologique? Qu’est-ce que je voudrais savoir? La question écologique (ou biologique, ou médicale, etc.), au cœur de votre démarche, doit posséder plusieurs caractéristiques. Elle doit, entre autres, être :
- pertinente (bien connectée aux connaissances actuelles),
- claire (sinon les ambiguïtés vont vous rattraper plus tard) et
- réaliste (on ne peut pas tout faire dans un seul projet).
Voici quelques exemples de questions de recherche :
- Comment le paysage adjacent influence-t-il la biodiversité dans les parcs urbains?
- Quels facteurs affectent l’abondance du tangara écarlate?
- Quels effets a la compétition sur le ventre rouge du Nord?
Une fois cette question établie, on peut construire, en se basant sur les connaissances actuelles, une ou des hypothèses de travail. Contrairement à la question écologique, l’hypothèse de travail prend position, elle dit : voici comment (au meilleur de ma connaissance) les choses devraient fonctionner.
Voici quelques exemples d’hypothèses de travail :
- La biodiversité des parcs urbains diminue avec la densité de routes
- La présence du tangara écarlate est reliée à la présence de forêts matures.
- Le risque de prédation par l’omble de fontaine entraîne une diminution de la croissance du ventre rouge du nord.
Ces hypothèses de travail peuvent ensuite être traduites en hypothèses statistiques, que l’on pourra tester à l’aide d’expériences. Nous reviendrons spécifiquement sur les hypothèses statistiques au Chapitre 12.
10.2 Populations et échantillons
Une grande partie de la complexité des biostatistiques tient au fait que nous mesurons rarement l’ensemble des individus de notre population d’intérêt. Par exemple, si on s’intéresse aux effets de la présence de forêt mature sur le tangara écarlate, nous ne pourrons pas regarder le comportement de tous les tangaras écarlates en Amérique du nord. De la même façon, notre étude sur la biodiversité des parcs urbains n’étudiera probablement pas l’ensemble des parcs urbains sur la planète.
La population, au sens statistique du terme, est l’ensemble des individus (ou des écosystèmes, ou des communautés, etc) auxquels notre question ou notre hypothèse de travail s’intéresse. Elle peut être très spécifique ou très vaste, selon l’ampleur de notre question. Si notre question est de savoir comment réagissent les invertébrés du Lac à la Tortue aux apports de phosphore, notre population à l’étude sera les invertébrés de ce lac seulement. Si notre question est plus générale : comment réagissent les invertébrés aux apports de phosphore, alors notre population d’intérêt est l’ensemble des invertébrés de la planète!
Vous voyez maintenant pourquoi il est primordial de construire une question réaliste, car cela nous permettra de cerner la population à laquelle nous devrons appliquer notre étude.
Si nous avions les capacités techniques et budgétaires d’étudier tous les individus d’une population, les choses seraient très simples en statistiques. Par exemple, si vous travaillez au MAPAQ et recevez un rapport contenant la productivité de chacun des apiculteurs du Québec, vous avez accès à toute la population d’apiculteurs. Lorsque l’on a accès aux données de toute la population, on parle alors de recensement.
Sinon, le sous-ensemble d’individus auxquels vous avez accès pour votre étude devient votre échantillon. Il peut être très petit dans certains cas (p. ex. 10 canards capturés dans un marais), ou immense dans d’autres (des millions de feuillets d’oiseaux dans la base de données eBird). Le nombre d’observations ou d’individus dans votre échantillon se nomme la taille de l’échantillon, le fameux n. On entend ici par observation une ligne dans votre tableau de données, ce qui correspond en général à un individu ou un site ou un écosystème, etc. dépendamment de ce que vous mesurez.
10.3 Conventions
Il existe une convention établie lorsque l’on discute de statistique. Les propriétés numériques (e.g. moyenne, variance, etc.) d’une population sont habituellement nommées paramètres, et désignées par une lettre grecque (σ pour l’écart type, μ pour la moyenne, etc.) alors que celles décrivant des échantillons sont habituellement nommées statistiques, et désignées par une lettre romaine (p. ex. s pour l’écart-type).
Je ne suis pas quelqu’un de particulièrement sensible à cette convention, et il est donc possible que j’en déroge à l’occasion. Les esprits plus stricts que le mien risquent par contre de vous demander d’y faire beaucoup plus attention.
10.4 La loi des grands nombres
Pourquoi faire tout un plat de la taille de l’échantillon? À cause de la loi des grands nombres. La loi des grands nombres peut être définie dans un langage simple comme ceci : plus la taille d’un échantillon est grande, plus tout ce que l’on mesure sur cet échantillon (moyenne, variance, corrélation, etc.) va ressembler à la vraie valeur de la population.
Prenons comme illustration le classique : lancer une pièce de monnaie pour jouer à pile ou face. Si notre pièce de monnaie n’est pas truquée, la chance d’obtenir pile est de 50 %, et celle d’obtenir face est aussi de 50 %. Vous êtes d’accord avec moi qu’en lançant dix fois la pièce de monnaie, il peut vous arriver d’avoir exactement 50 % de pile, mais il peut aussi vous arriver d’obtenir 20 % , 40 %, etc. Ce que la loi des grands nombres nous dit, c’est que, plus on lancera notre pièce de monnaie un grand nombre de fois, plus les pourcentages devraient ressembler aux chances réelles de la pièce, soit 50 % de pile. Inversement, plus notre échantillon est petit, plus il pourrait dévier de la vraie valeur de la population.
Cette loi s’applique à tout ce qui peut être échantillonné. Si vous pêchez des truites dans un lac et que le poids moyen de la population de truites est de 4 kg, la moyenne d’un petit échantillon de 5 truites pourrait être facilement de 2 kg ou de 6 kg. Par contre, si vous en pêchez une centaine, leur poids moyen devrait être très très proche de 4 kg.
Notez que dans la réalité, nous ne savons pas à l’avance quelle est la vraie valeur de la population, mais il est tout de même utile de savoir que plus notre échantillon compte d’observations, plus la valeur calculée sur notre échantillon se rapprochera de la vraie valeur de la population.
10.5 Contenu optionnel : l’importance de la question et de la loi des grands nombres
Voici une petite anecdote pour illustrer l’importance de bien réfléchir à la loi des grands nombres et de bien penser notre question avant de commencer à travailler. Cet exemple provient de l’excellent livre de Daniel Kahneman, Thinking Fast and Slow, qui parle du fonctionnement du cerveau humain et des pièges dans lesquels il nous fait parfois tomber.
Afin d’améliorer le système scolaire américain, des experts ont voulu poser la question : quelles sont les caractéristiques des écoles où les élèves réussissent le mieux. Leur plan était de copier le modèle de ces écoles pour créer d’autres succès. Il est rapidement apparu que parmi les meilleures écoles, beaucoup étaient de très petite taille. Beaucoup d’argent a donc été dépensé suite à cette réflexion afin de réduire la taille des écoles pour favoriser la réussite scolaire.
Vous vous en doutez peut-être à ce point, mais la chose que les experts avaient négligée était, évidemment, la loi des grands nombres. Bien sûr, il y avait beaucoup d’écoles de petite taille où les élèves réussissaient mieux, mais il y avait aussi beaucoup d’écoles de petite taille où les élèves réussissaient très mal. Leur déviation de la moyenne était dûe, en grande partie au fait qu’elles représentaient de très petits échantillons.
Un simple retournement de la question, p. ex. en se demandant quels facteurs influencent la réussite scolaire et en observant le rendement de l’ensemble des écoles auraient évité à la fondation Bill et Melinda Gates de gaspiller beaucoup d’argent1.
10.6 Caractéristiques d’un bon échantillon
Tous les échantillons ne sont pas égaux. Certaines caractéristiques peuvent faire d’eux de meilleurs, ou de moins bons échantillons. On peut résumer les qualités d’un échantillon à deux choses : sa taille et sa représentativité. Il est facile, une fois que l’on connaît la loi des grands nombres de comprendre l’importance de la taille de l’échantillon, mais qu’en est-il de la représentativité?
La représentativité d’un échantillon nous indique qu’il ressemble à la population, qu’il présente les mêmes caractéristiques que cette dernière. Si par exemple notre population compte 30 % de mâles et 70 % de femelles, un échantillon sera représentatif s’il contient environ les mêmes proportions de mâles et femelles. Si notre échantillon contient 10 mâles et 2 femelles, il sera beaucoup moins représentatif de notre population, ce qui pourrait nous amener vers des conclusions erronées par la suite. La représentativité ne se limite pas seulement aux individus. Si l’on pêche tous nos individus dans une seule fosse d’un lac, notre échantillon ne sera peut-être pas représentatif de l’ensemble du lac, qui comprend aussi des zones peu profondes. Lorsque notre échantillon n’est pas représentatif, on dit qu’il est biaisé.
Il existe (au moins) deux stratégies pour s’assurer qu’un échantillon est représentatif. La première est d’effectuer un échantillonnage aléatoire. L’échantillonnage aléatoire consiste à puiser nos échantillons le plus au hasard possible. On peut par exemple établir une grille sur la surface de notre lac ou de notre forêt et choisir nos emplacements au hasard en utilisant un générateur de nombres aléatoires2 ou en lançant un dé. Plutôt qu’une grille, on peut aussi utiliser un système qui nous indique une direction et un nombre de pas au hasard entre chaque emplacement.
La deuxième stratégie pour former un échantillon représentatif est l’échantillonnage stratifié. Ce dernier consiste à construire notre échantillon en fonction de ce que l’on connaît de la population. P. ex. si l’on sait que notre forêt est composée à 20 % de conifères et 80 % de feuillus, nous choisirions nos emplacements pour avoir p. ex. 4 emplacements dans des zones de conifères et 16 dans des peuplements de feuillus. Les échantillons doivent tout de même être pris le plus au hasard possible à l’intérieur de ce système de stratification.
Les deux techniques présentent des avantages et des inconvénients. L’échantillonnage aléatoire peut être extrêmement efficace, en particulier pour éliminer les effets confondants, c’est-à-dire des variables autres que celles qui nous intéressent qui pourraient influencer notre étude. Mais pour se faire, nous devons avoir beaucoup d’échantillons. Si nous en avons peu, il est possible que la composante aléatoire nous ait fourni un échantillon biaisé… souvent malheureusement à notre insu. L’échantillonnage stratifié n’est pas parfait non plus, car il peut nous attirer sur de fausses pistes si notre connaissance de la population était erronée, ou si elle nous force à prendre des échantillons qui ne sont pas entièrement indépendants pour respecter notre plan de stratification.
Pour qu’un échantillon soit considéré comme représentatif, il faut aussi que les observations soient indépendantes les unes des autres, afin d’éviter la pseudo-réplication. La pseudo-réplication, comme son nom le suggère, consiste à avoir l’impression que nous avons échantillonné des individus indépendants, alors que dans les faits ils ne l’étaient pas. Cette pseudo-réplication peut être parfois très directe (mesurer le même individu plusieurs fois) ou indirecte (p. ex. mesurer deux arbres voisins, qui sont en fait exposés exactement aux mêmes facteurs confondants et compétitionnent un contre l’autre). On peut souvent détecter la pseudo-réplication en regardant une carte de nos emplacements, et s’apercevoir que certains sont trop près les uns des autres.
La pseudo-réplication devrait être prise très au sérieux, car elle est très complexe à régler après coup. Puisqu’elle gonfle artificiellement notre confiance en nos résultats, elle doit être absolument évitée ou gérée correctement. Il existe des techniques statistiques pour gérer les données non indépendantes, que nous verrons plus en détails au Chapitre 16 et au Chapitre 30.
10.7 L’inférence statistique
Comme nous venons de le voir, en tant que scientifiques, nous n’avons la plupart du temps accès qu’à des échantillons plutôt qu’à la population entière pour effectuer nos analyses. Pourtant, les conclusions que nous devrons apporter ciblent la population entière. Cet acte, de produire des conclusions sur une population à partir d’un échantillon se nomme l’inférence statistique. En statistique, cela consiste le plus souvent de façon concrète à évaluer un paramètre d’une population à partir de la statistique mesurée sur un échantillon.
Pour le reste de ce livre, nous nous concentrerons à étudier des méthodes statistiques qui nous permettront d’effectuer ce passage. Vous comprendrez sans doute, après avoir pris connaissance des premières sections du présent chapitre, que nous nagerons toujours dans une certaine incertitude quant à la validité de ce passage. Notre travail sera donc de savoir comment évaluer cette incertitude face à nos conclusions, mais aussi de savoir bien la communiquer aux décideurs ou praticiens qui utiliserons nos résultats.
10.8 Erreurs et puissance
Lorsque nous tenterons d’évaluer un paramètre à partir d’une méthode d’inférence statistique, nous ferons toujours face à un certain risque d’erreur, une probabilité de nous tromper dans nos conclusions. Si p. ex. nous déterminons à l’aide d’échantillons que les mâles bruants chanteurs sont plus grands que les femelles, il se peut que cette conclusion soit fausse. Ce type d’erreur, c’est-à-dire trouver quelque chose lorsqu’il n’y avait rien à trouver, se nomme erreur de type I. À l’inverse, il aurait aussi pu arriver que l’on ne trouve pas de différence entre les mâles et les femelles, alors qu’en réalité dans la population, il existait une différence. On parlerait alors d’erreur de type II.
Tout dépendant du problème auquel on s’attaque, il peut arriver qu’un type d’erreur soit plus important à surveiller que l’autre.
Si p. ex. vous êtes un juge et que vous ne voulez surtout pas envoyer en prison un innocent qui n’a pas commis de crime. Vous seriez alors très sensible et attentif à l’erreur de type I.
Si vous êtes plutôt un médecin et qu’il vous faut tester si une femme est enceinte avant d’administrer un médicament qui pourrait nuire à sa grossesse, l’erreur clé à surveiller sera l’erreur de type II. On ne veut surtout pas administrer accidentellement un médicament à une femme parce que son test n’a pas réussi à détecter sa grossesse.
Lorsque l’on commence à réfléchir aux erreurs de type II, il est intéressant de définir le concept de puissance statistique. La puissance statistique se définit comme la probabilité de trouver un effet, dans les cas où il y en a vraiment un. Les calculs sont relativement complexes et dépassent largement le cadre de ce cours de biostatistiques. Ce qu’il est surtout important de savoir est que la puissance statistique augmente avec la taille de l’échantillon, et aussi avec la taille de l’effet que l’on tente de trouver (i.e. plus l’effet est grand, plus il sera facile à détecter). Au contraire, la puissance diminuera avec la variabilité de l’échantillon.
10.9 Les degrés de liberté
Un autre terme statistique que vous verrez souvent revenir dans les prochains chapitres est celui de degrés de liberté. Les degrés de liberté définissent le nombre d’observations qui peuvent toujours varier lorsque l’on a fixé la valeur de certains paramètres. Cette définition, plutôt abstraite, s’explique beaucoup plus facilement à l’aide d’un exemple.
Supposons que nous avons une paire de nombres à propos desquels on ne sait rien. Puisque rien n’est fixé par rapport à ces nombres, nous avons deux degrés de liberté (d.d.l.) Par contre, si nous savons que la somme de nos nombres est 5, il ne nous reste plus qu’un seul d.d.l.. Car du moment que nous connaissons un des nombre, p. ex. 2, l’autre n’est plus libre de varier, on sait automatiquement qu’il serait 3, pour que la somme arrive à 5.
En général, chaque paramètre connu à propos de nos données diminue d’autant les d.d.l. Si nous avons 10 observations et que nous connaissons la moyenne et la variance, il ne nous reste que 8 d.d.l.
Comme nous allons le voir dans les chapitres suivants, les degrés de liberté sont particulièrement importants en statistiques, puisque si nous n’avons pas suffisamment de d.d.l. (i.e. d’observations), cela peut limiter le nombre de paramètres que l’on pourra estimer. On pourrait même en arriver au point où notre test ne peut juste pas s’exécuter. Encore là, plus notre échantillon sera grand, moins ce sera risqué d’arriver!