METHODOLOGIE
 


Les grands principes  de l’analyse statistique en recherche clinique S. Branchereau

INTRODUCTION

La finalité de toute recherche dans le domaine médical c’est la suppression de la maladie. La spécificité de la recherche clinique et de l’épidémiologie c’est d’estimer si, au niveau de l’homme, les hypothèses sur les mécanismes pathologiques et les moyens d’action qui en découlent ont un réel impact sur la maladie.

Les résultats des diverses recherches se résument par des chiffres, ou par des comparaisons de chiffres : un taux de sensibilité, un taux de survie, un risque, etc … Il paraît donc indispensable que les chiffres sur lesquels vont être basées des décisions ne soient pas uniquement le fruit du fluctuation statistiques (hasard), voire le résultat d’un biais. Il faut donc que la façon d’obtenir ces résultats (méthodologie) et l’exactitude de leur valeur (statistique) puissent garantir la justesse des conclusions.

Le calcul statistique va donc permettre de définir les caractéristiques (moyenne, variance…) de la distribution du paramètre étudié (statistiques descriptives), on pourra ensuite comparer ces caractéristiques d’un groupe à l’autre (utilisation des tests : statistiques comparatives).

LA METHODE STATISTIQUE

La statistique est une méthode de raisonnement permettant d'interpréter des données que l'on trouve dans les sciences de la vie , dont le caractère essentiel est la variabilité.

1. POPULATION, ECHANTILLON :

1.1.UNE POPULATION est un ensemble d’unités sur lesquelles une caractéristique peut être relevée. Le plus souvent, en épidémiologie, les unités sont des personnes. Mais cela peut être aussi un groupe de personnes. Très souvent, la population est de grande taille ; dans de nombreux cas, les modèles statistiques que nous verrons supposent qu’elle est de taille infinie. Les questions que l’on se pose, les hypothèses que l’on formule concerne la population.

1.2.UN ECHANTILLON est une partie de la population. Il est habituellement de taille suffisamment petite pour que la caractéristique à laquelle on s’intéresse puisse effectivement être mesurée sur tous les sujets qui le composent. Les observations que l’on fait sur un échantillon servent à répondre aux questions que l’on s’est posé au niveau de la population. Il est donc important que l’échantillon soit représentatif, c’est à dire un échantillon dont la composition est conforme à celle de la population. La façon la plus simple de constituer un échantillon représentatif est de tirer au sort les sujets de l’échantillon au sein de la population.

2. VARIABLE ALEATOIRE :

Une variable aléatoire associe une valeur à chaque sujet de la population. Cette valeur peut être numérique : taille, … ou ne pas l’être : malade/non malade, groupe sanguin …

Le terme aléatoire signifie qu’on ne peut pas prédire avec certitude, avant la mesure ou l’observation, la valeur de la variable pour un sujet. La seule information dont on dispose pour chaque valeur de la variable est la probabilité de trouver un sujet qui ait cette valeur.

On parle aussi de variable aléatoire au niveau d’un échantillon. Par exemple, la moyenne ou le pourcentage sont des variables aléatoires, puisqu’elles associent à chaque échantillon une valeur (qui est la moyenne ou le pourcentage observé sur cet échantillon).

3. FLUCTUATIONS D’ECHANTILLONNAGE :

Un échantillon est un sous-ensemble, plus ou moins grand, des sujets de la population. Une des conséquences de la variabilité individuelle est une variabilité au niveau des échantillons, c’est-à-dire que la composition de deux échantillons tirés de la même population n’est, en général, pas la même. Ce phénomène, qualifié de fluctuation d’échantillonnage, est important à comprendre, car, dans le domaine biomédical, il est extrêmement fréquent de travailler sur des échantillons, l’inclusion dans une enquête de tous les sujets d’une population étant, la plupart du temps, impossible.

4. LES LOIS DE LA PROBABILITE :

4.1. LE CONCEPT DE PROBABILITE Une loi de probabilité indique la probabilité pour qu’une variable prenne une valeur donnée , par exemple que sur 100 lancers de pièces la variable « nombre de pile » égale 40, ou qu’une variable soit comprise dans un intervalle donné, par exemple que sur 100 lancers le nombre de pile soit compris entre 20 et 30. Un exemple particulièrement utilisé est celui d’intervalles symétriques autour de la valeur « moyenne », par exemple la probabilité pour que sur 100 lancers, le nombre de pile tombe dans l’intervalle allant de 40 à 60. Le calcul montre qu’il y a 95 chances sur 100 de tomber dans cet intervalle dont 5 chances sur 100 de tomber à l’extérieur. C’est là un résultat intéressant, parce qu’alors que le hasard est capable de tous les caprices, je peux quand même faire un pronostic à condition d’accepter certains risques d’erreur : ainsi je peux admettre que le nombre de pile sur 100 lancers sera compris entre 40 et 60, je ne risque que 5 fois sur 100 de me tromper. Telles sont les « lois du hasard », association de deux mots apparemment incompatibles : ce ne sont pas des lois de certitude, je ne peux pas affirmer qu’on trouvera entre 40 et 60 fois pile, mais je peux « presque » l’affirmer avec un risque d’erreur faible.

4.2. DISTRIBUTION DE PROBABILITE

La définition précédente n’est pas très opérationnelle pour faire des calculs car elle demande des simulations à chaque fois : si on voulait, par exemple, savoir quelle est la probabilité que sur 100 tirages de dés il y ait 20 fois le chiffre 4, il faudrait répéter de très nombreuses fois 100 tirages de dés pour avoir une valeur assez précise. En outre, elle s’applique mal à des populations de taille infinie. Il est donc nécessaire de disposer de «formules» pour faire le calcul. Pour représenter (on dit aussi « modéliser ») les distributions observées et permettre les calculs statistiques, on a besoin de lois de probabilité. Leur rôle est d’associer une probabilité de survenue à chaque événement possible.

Il y a plusieurs lois de probabilité permettant de s’adapter aux différentes situations que l’on rencontre selon la variable étudiée et selon la population concernée. Il faut distinguer variables qualitatives et quantitative car la façon de décrire leurs lois de probabilité est assez différente. De façon plus précise, on va considérer d’une part les variables discrètes, d’autres part les variables continues

4.2.1.Lois de probabilité discrètes

Une variable qualitative ou une variable quantitative discrète prend des valeurs que l’on peut énumérer : x 1, … x k… Définir sa distribution de probabilité consiste à donner les probabilités p 1, … p k…de chacune des valeurs possibles.

Exemples :

  • Le cas le plus simple est celui d’une variable dichotomique comme malade/non malade. Ces deux valeurs sont souvent codées x 0 = 0 pour les non malades et x 1=1 pour les malades. Les probabilités correspondantes sont p 0 et p 1, avec p 0+ p 1 = 1 ; p 1 est souvent noté p ; p 0=1- p 1 est alors noté q.
  • Considérons le nombre X d’observations présentant une certaine caractéristique (par exemple le nombre de malades) dans un échantillon de n sujets. La variable X peut prendre les valeurs entières de 0 à n. Elle suit la loi de probabilité : loi binomiale.
  • Lorsque la taille de l’échantillon est très grande et p très petit, X peut prendre de nombreuses valeurs. L’utilisation de la loi binomiale devient alors laborieuse et on lui préfère la loi de Poisson.

4.2.2. Lois de probabilité continues, densité de probabilité

Une variable quantitative continue a une infinité de valeurs possibles. On ne peut plus définir sa distribution de probabilité en donnant la liste des valeurs des probabilités p 1 d’observer chacune des valeurs.

La distribution de probabilité pour une variable quantitative continue peut être décrite par une fonction f appelée densité de probabilité. La loi normale (ou loi de Gauss, ou encore loi de Laplace-Gauss) est la loi la plus utilisée dans le domaine médical.

Elle est définie par sa densité de probabilité :

Le graphe de cette fonction est une courbe en cloche

La loi normale est définie par deux paramètres μ et σ 2. On montre que μ est sa moyenne et σ 2 sa variance. Le calcul des probabilités associées à la loi normale n’est pratiquement pas possible avec des moyens simples tels qu’une calculette de poche. C’est pourquoi il est nécessaire de recourir à des tables.

5. QUELQUES DEFINITIONS :

5.1 Variables qualitatives 

Chaque variable est caractérisé par des catégories. Ex : sexe, couleur des cheveux, présence ou non d’une maladie.

Les statistiques concernent les effectifs des sujets appartenant à chaque catégorie. On peut les classer selon deux types de catégories:

- 2 catégories :* variables dichotomiques ou binaires ex: sexe : F ; H.

- plus de deux catégories :

* catégories ordonnées : les variables ordinales 0, 1 , 2…

* catégories non ordonnées : variables nominatives : couleur des yeux : vert, bleu, marron.

5.2 Variables quantitatives mesurables.

Les variables continues : elles peuvent prendre toutes les valeurs situées dans un intervalle   ( ex : poids, taille…)

Les variables discontinues ou discrètes : elles ne peuvent prendre qu’un nombre limité de valeurs

Ex : nombre d’enfants.

La Moyenne :

La Médiane : c’est la valeur telle que la moitié des observations lui est inférieure et la moitié lui est supérieure.

1 er exemple : soit un échantillon où x = 1, 3, 4, 5, 8 m = 4,2 Med = 4

2 e exemple : soit un échantillon où où x = 1, 3, 4, 5, 24 m = 7,4 Med = 4

Ici la moyenne n’est pas un bon estimateur de la valeur centrale. Dans les 2 cas, la médiane est toujours 4 même si on ignore la valeur de la plus grande observation. Avec des distributions dissymétriques, il vaut mieux utiliser la médiane que la moyenne.

La variance et l’écart type :

L’écart type (dérivation standard : ds) décrit l’écart par rapport à la moyenne. Sur une courbe, il traduit la largeur de la courbe ( plus ou moins « étalé » ).

Deux distributions de même moyenne et d’écart type différents


La variance est la somme des carrés des écart à la moyennes.

L'écart type est la racine carré de la variance.

5.2 Intervalles de Confiances :

Le plus souvent il est impossible de travailler sur la population dans son ensemble. On est alors contraint d’extrapoler les résultats observés sur des échantillons à l’ensemble de la population. C’est un problème d’estimation. L’estimation consiste à utiliser les données observées sur l’échantillon pour connaître les valeurs théoriques de la population.

Estimer c’est donner une « fourchette », une valeur inférieure et une valeur supérieure constituant un intervalle qui a une probabilité fixée par l'expérimentateur de contenir la valeur théorique.

Ceci signifie, pour a = 0,05, que si l’on calculait les intervalles de confiance pour le paramètre à partir de N échantillons différents, 95 % des intervalles contiendraient la vraie valeur et pour 5 % d’entre eux la vraie valeur serait à l’extérieur.

Pour que l’estimation soit fiable elle doit avoir été effectuée à partir d’un échantillon représentatif de la population (tiré au sort de cette population) et de taille garantissant une précision suffisante. En effet, la taille de l’échantillon conditionne la précision de l’estimation : plus la taille augmente, plus l’estimation du paramètre par intervalle est précise (l’intervalle de confiance est plus étroit).