| INTRODUCTION
La finalité de toute recherche dans le domaine médical
c’est la suppression de la maladie. La spécificité de
la recherche clinique et de l’épidémiologie
c’est d’estimer si, au niveau de l’homme, les
hypothèses sur les mécanismes pathologiques et les
moyens d’action qui en découlent ont un réel
impact sur la maladie.
Les résultats des diverses recherches se résument
par des chiffres, ou par des comparaisons de chiffres : un
taux de sensibilité, un taux de survie, un risque, etc … Il
paraît donc indispensable que les chiffres sur lesquels vont être
basées des décisions ne soient pas uniquement le
fruit du fluctuation statistiques (hasard), voire le résultat
d’un biais. Il faut donc que la façon d’obtenir
ces résultats (méthodologie) et l’exactitude
de leur valeur (statistique) puissent garantir la justesse des
conclusions.
Le calcul statistique va donc permettre de définir les
caractéristiques (moyenne, variance…) de la distribution
du paramètre étudié (statistiques descriptives),
on pourra ensuite comparer ces caractéristiques d’un
groupe à l’autre (utilisation des tests : statistiques
comparatives).
LA METHODE STATISTIQUE
La statistique est une méthode de raisonnement permettant
d'interpréter des données que l'on trouve dans les
sciences de la vie , dont le caractère essentiel est la
variabilité.
1. POPULATION, ECHANTILLON :
1.1.UNE POPULATION est un ensemble
d’unités sur lesquelles une caractéristique
peut être relevée. Le plus souvent, en épidémiologie,
les unités sont des personnes. Mais cela peut être
aussi un groupe de personnes. Très souvent, la population
est de grande taille ; dans de nombreux cas, les modèles
statistiques que nous verrons supposent qu’elle est de taille
infinie. Les questions que l’on se pose, les hypothèses
que l’on formule concerne la population.
1.2.UN ECHANTILLON est
une partie de la population. Il est habituellement de taille suffisamment
petite pour que la caractéristique à laquelle on
s’intéresse puisse effectivement être mesurée
sur tous les sujets qui le composent. Les observations que l’on
fait sur un échantillon servent à répondre
aux questions que l’on s’est posé au niveau
de la population. Il est donc important que l’échantillon
soit représentatif, c’est à dire
un échantillon dont la composition est conforme à celle
de la population. La façon la plus simple de constituer
un échantillon représentatif est de tirer au sort
les sujets de l’échantillon au sein de la population.
2. VARIABLE ALEATOIRE :
Une variable aléatoire associe une valeur à chaque
sujet de la population. Cette valeur peut être numérique :
taille, … ou ne pas l’être : malade/non
malade, groupe sanguin …
Le terme aléatoire signifie qu’on ne peut pas prédire
avec certitude, avant la mesure ou l’observation, la valeur
de la variable pour un sujet. La seule information dont on dispose
pour chaque valeur de la variable est la probabilité de
trouver un sujet qui ait cette valeur.
On parle aussi de variable aléatoire au niveau d’un échantillon.
Par exemple, la moyenne ou le pourcentage sont des variables aléatoires,
puisqu’elles associent à chaque échantillon
une valeur (qui est la moyenne ou le pourcentage observé sur
cet échantillon).
3. FLUCTUATIONS D’ECHANTILLONNAGE :
Un échantillon est un sous-ensemble, plus ou moins grand,
des sujets de la population. Une des conséquences de la
variabilité individuelle est une variabilité au niveau
des échantillons, c’est-à-dire que la composition
de deux échantillons tirés de la même population
n’est, en général, pas la même. Ce phénomène,
qualifié de fluctuation d’échantillonnage,
est important à comprendre, car, dans le domaine biomédical,
il est extrêmement fréquent de travailler sur des échantillons,
l’inclusion dans une enquête de tous les sujets d’une
population étant, la plupart du temps, impossible.
4. LES LOIS DE LA PROBABILITE :
4.1. LE CONCEPT DE PROBABILITE Une
loi de probabilité indique la probabilité pour
qu’une variable prenne une valeur donnée ,
par exemple que sur 100 lancers de pièces la variable « nombre
de pile » égale 40, ou qu’une variable
soit comprise dans un intervalle donné, par exemple que
sur 100 lancers le nombre de pile soit compris entre 20 et 30.
Un exemple particulièrement utilisé est celui d’intervalles
symétriques autour de la valeur « moyenne »,
par exemple la probabilité pour que sur 100 lancers, le
nombre de pile tombe dans l’intervalle allant de 40 à 60.
Le calcul montre qu’il y a 95 chances sur 100 de tomber
dans cet intervalle dont 5 chances sur 100 de tomber à l’extérieur.
C’est là un résultat intéressant,
parce qu’alors que le hasard est capable de tous les caprices,
je peux quand même faire un pronostic à condition
d’accepter certains risques d’erreur : ainsi
je peux admettre que le nombre de pile sur 100 lancers sera compris
entre 40 et 60, je ne risque que 5 fois sur 100 de me tromper.
Telles sont les « lois du hasard », association
de deux mots apparemment incompatibles : ce ne sont pas
des lois de certitude, je ne peux pas affirmer qu’on trouvera
entre 40 et 60 fois pile, mais je peux « presque » l’affirmer
avec un risque d’erreur faible.
4.2. DISTRIBUTION DE PROBABILITE
La définition précédente n’est pas
très opérationnelle pour faire des calculs car elle
demande des simulations à chaque fois : si on voulait,
par exemple, savoir quelle est la probabilité que sur 100
tirages de dés il y ait 20 fois le chiffre 4, il faudrait
répéter de très nombreuses fois 100 tirages
de dés pour avoir une valeur assez précise. En outre,
elle s’applique mal à des populations de taille infinie.
Il est donc nécessaire de disposer de «formules» pour
faire le calcul. Pour représenter (on dit aussi « modéliser »)
les distributions observées et permettre les calculs statistiques,
on a besoin de lois de probabilité. Leur
rôle est d’associer une probabilité de survenue à chaque événement
possible.
Il y a plusieurs lois de probabilité permettant de s’adapter
aux différentes situations que l’on rencontre selon
la variable étudiée et selon la population concernée. Il
faut distinguer variables qualitatives et quantitative car
la façon de décrire leurs lois de probabilité est
assez différente. De façon plus précise, on
va considérer d’une part les variables discrètes,
d’autres part les variables continues
4.2.1.Lois de probabilité discrètes
Une variable qualitative ou une variable quantitative discrète
prend des valeurs que l’on peut énumérer :
x 1, … x k… Définir sa distribution de probabilité consiste à donner
les probabilités p 1, … p k…de chacune
des valeurs possibles.
Exemples :
- Le cas le plus simple est celui d’une variable dichotomique
comme malade/non malade. Ces deux valeurs sont souvent codées
x 0 = 0 pour les non malades et x 1=1 pour les malades. Les probabilités
correspondantes sont p 0 et p 1, avec p 0+ p 1 = 1 ; p 1
est souvent noté p ; p 0=1- p 1 est alors noté q.
- Considérons le nombre X d’observations présentant
une certaine caractéristique (par exemple le nombre de
malades) dans un échantillon de n sujets. La variable
X peut prendre les valeurs entières de 0 à n. Elle
suit la loi de probabilité : loi binomiale.
- Lorsque la taille de l’échantillon est très
grande et p très petit, X peut prendre de nombreuses valeurs.
L’utilisation de la loi binomiale devient alors laborieuse
et on lui préfère la loi de Poisson.
4.2.2. Lois de probabilité continues, densité de
probabilité
Une variable quantitative continue a une infinité de valeurs
possibles. On ne peut plus définir sa distribution de probabilité en
donnant la liste des valeurs des probabilités p 1 d’observer
chacune des valeurs.
La distribution de probabilité pour une variable quantitative
continue peut être décrite par une fonction f appelée
densité de probabilité. La loi normale (ou
loi de Gauss, ou encore loi de Laplace-Gauss) est la loi la plus
utilisée dans le domaine médical.
Elle est définie par sa densité de probabilité :

Le graphe de cette fonction est une courbe en cloche

La loi normale est définie par deux paramètres μ et σ 2.
On montre que μ est sa moyenne et σ 2 sa variance. Le
calcul des probabilités associées à la loi
normale n’est pratiquement pas possible avec des moyens simples
tels qu’une calculette de poche. C’est pourquoi il
est nécessaire de recourir à des tables.
5. QUELQUES DEFINITIONS :
5.1 Variables qualitatives
Chaque variable est caractérisé par des catégories.
Ex : sexe, couleur des cheveux, présence ou non d’une
maladie.
Les statistiques concernent les effectifs des sujets appartenant à chaque
catégorie. On peut les classer selon deux types
de catégories:
- 2 catégories :* variables dichotomiques
ou binaires ex: sexe : F ; H.
- plus de deux catégories :
* catégories ordonnées : les variables
ordinales 0, 1 , 2…
* catégories non ordonnées : variables
nominatives : couleur des yeux : vert, bleu, marron.
5.2 Variables quantitatives mesurables.
Les variables continues : elles
peuvent prendre toutes les valeurs situées dans un intervalle
( ex : poids, taille…)
Les
variables discontinues ou discrètes : elles
ne peuvent prendre qu’un nombre limité de valeurs
Ex : nombre d’enfants.
La Moyenne : 
La Médiane : c’est la valeur telle
que la moitié des observations lui est inférieure
et la moitié lui est supérieure.
1 er exemple : soit un échantillon
où x = 1, 3, 4, 5, 8 m = 4,2 Med = 4
2 e exemple : soit un échantillon
où où x = 1, 3, 4, 5, 24 m = 7,4 Med = 4
Ici la moyenne n’est pas un bon estimateur
de la valeur centrale. Dans les 2 cas, la médiane est toujours
4 même si on ignore la valeur de la plus grande observation.
Avec des distributions dissymétriques, il vaut mieux utiliser
la médiane que la moyenne.
La variance et l’écart type :
L’écart type (dérivation standard
: ds) décrit l’écart par rapport à la
moyenne. Sur une courbe, il traduit la largeur de la courbe ( plus
ou moins « étalé » ).
Deux distributions de même moyenne et d’écart
type différents
 
La variance est la somme des carrés des écart à la
moyennes.
L'écart type est la racine carré de
la variance.
5.2 Intervalles de Confiances :
Le plus souvent il est impossible de travailler
sur la population dans son ensemble. On est alors contraint d’extrapoler
les résultats observés sur des échantillons à l’ensemble
de la population. C’est un problème d’estimation.
L’estimation consiste à utiliser les données observées
sur l’échantillon pour connaître les valeurs théoriques de
la population.
Estimer c’est donner une « fourchette »,
une valeur inférieure et une valeur supérieure constituant
un intervalle qui a une probabilité fixée par l'expérimentateur
de contenir la valeur théorique.
Ceci signifie, pour a = 0,05, que si l’on calculait les
intervalles de confiance pour le paramètre à partir
de N échantillons différents, 95 % des intervalles
contiendraient la vraie valeur et pour 5 % d’entre eux la
vraie valeur serait à l’extérieur.
Pour que l’estimation soit fiable elle doit avoir été effectuée à partir
d’un échantillon représentatif de la population
(tiré au sort de cette population) et de taille garantissant
une précision suffisante. En effet, la taille de l’échantillon
conditionne la précision de l’estimation : plus
la taille augmente, plus l’estimation du paramètre par
intervalle est précise (l’intervalle de confiance est
plus étroit).
|