Département de pharmacie
Faculté de médecine
Université de Constantine 3




Biomathématique - Statistiques et Informatique

   Accueil                                                  Sommaire du cours                                                                         Glossaire                                                                        Contact  
Département de Pharmacie
 
Eneignants / Tuteurs
 
Organisation Pédagogique
 
Ressources
 
Projets
 
Bibliographie



ESPACE PRIVÉ
  Accées Plateforme
  Résultats des évaluations




 
Glossaire

Cliquez sur la lettre correspendante au terme à définir 
ABCDEFGHIJKLM
NOPQRSTUVWXYZ
A
Actuarielle (méthode)
Technique permettant d’estimer la proportion de survivants au cours du temps dans une population*(1) ou une cohorte* (voir courbe de survie).
Cette technique peut être appliquée non seulement à l’étude de la mort, mais à tout événement tel que la survenue d’une maladie, d’une complication ou d’une guérison.

Ajustement
Ensemble des procédures statistiques permettant d’éliminer l’effet de certaines variables, considérées comme parasites, dans l’étude de la relation entre deux autres variables (par exemple, une maladie et un facteur de risque*).
Le terme d’ajustement est réservé aux procédures utilisées dans l’analyse des résultats après le recueil des données. Aléatoire qui relève du seul hasard. Variable aléatoire : variable dont la variation dépend d’une loi de probabilité.
Échantillon aléatoire : échantillon obtenu par un sondage aléatoire.

Appariement
Procédure de constitution d’un groupe témoin* (ou non exposé) identique au groupe des cas* (ou exposés) vis-à-vis d’un ou plusieurs critères (dont le sexe et l’âge, le plus souvent).
Appariement individuel : à chaque cas est associé un (ou plusieurs) témoin(s) présentant la même valeur que le cas pour les variables à contrôler. Appariement par groupe ou par fréquence : il s’agit d’une stratification*.
Exemple : la répartition par âge des témoins peut être fixée de façon à être identique à la répartition des cas.
L’analyse des résultats doit tenir compte du fait qu’il y a eu appariement.
Association
Dépendance entre deux (ou plus) événements ou variables. Ceci n’implique pas l’existence d’une relation causale.
Voir : indépendance, causalité.
Attaque (taux d’)
Nombre de personnes ayant présenté une maladie, rapporté au nombre de personnes susceptibles de l’avoir. Un taux d’attaque est un risque*.
Exemple : 25 personnes ont été intoxiquées parmi les 500 qui ont déjeuné au restaurant d’entreprise le même jour ; le taux d’attaque est 25/500.
Aveugle
Une procédure à l’aveugle est destinée à éviter un biais* d’observation ou de mesure* en cachant volontairement une information à l’investigateur ou à la personne qui fait partie de l’étude.
Exemple : l’enquêteur qui ignore s’il interroge un cas ou un témoin interrogera les uns et les autres de façon comparable.Dans les essais* (thérapeutiques ou d’intervention), la procédure est dite « à l’aveugle » si les sujets ne savent pas à quel groupe ils appartiennent et en « double aveugle » si les personnes qui administrent le traitement et/ou qui recueillent les critères de jugement l’ignorent également.

B
Biais
Tout effet qui tend à produire une estimation* (de la fréquence d’une maladie, de l’association entre une maladie et  un facteur de risque...) différant systématiquement, en plus ou en moins, de la vraie valeur. Certains biais peuvent être contrôlés ou limités ; leur existence doit être prise en compte dans l’interprétation des résultats. On distingue, selon leur origine, de multiples biais qui peuvent être regroupés en différentes catégories :


Biais de sélection
Intervenant à la conception de l’étude dans la constitution des échantillons : groupe étudié  restreint à des volontaires, groupe témoin mal adapté (témoins hospitaliers par exemple). Dans les études en milieu de travail, un biais particulier intervient : le biais de sélection professionnelle ou healthy worker effect qui consiste en ce que les personnes en activité (ou exposées à un risque) sont (presque) toujours en meilleure santé que l’ensemble de la population (ou que les non exposés). Les biais liés aux « perdus de vue » nécessitent également une attention particulière ;

Biais d’information
Intervenant dans le recueil des données: erreur de mesure*, biais d’observation lié à l’enquêteur qui, par exemple, interroge plus soigneusement les cas que les témoins, biais de déclaration ou de mémorisation, lié à la personne interrogée;
Biais dus aux facteurs de confusion*
Dus à l’existence de facteurs de confusion non pris en compte dans l’analyse.

C
Cas-témoins (étude, enquête)
Synonyme : cas-contrôles. Voir aussi : enquête.
Méthode épidémiologique consistant à comparer les caractéristiques de sujets « atteints » (cas) à celles de sujets « non atteints » (témoins).

Caractère qualitatif
Un caractère statistique est qualitatif si ses valeurs, ou modalités, s'expriment de façon littérale ou par un codage sur lequel les opérations arithmétiques telles que moyenne, somme, etc. n'ont pas de sens. Exemples : Sexe de la personne interrogée,
Situation familiale, Numéro de son département de naissance; État du temps constaté à une station expérimentale chaque jour; Variété de la plante observée, État sanitaire, numéro de Site.

Caractère quantitatif
Un caractère statistique est quantitatif si ses valeurs sont des nombres sur lesquels des opérations arithmétiques telles que somme, moyenne, etc. ont un sens. Exemples : Taille, Poids, Salaire, Rendement, Note _a un examen, PNB/habitant, Esperance de vie, Nombre d'habitants, Taux d'infestation.

Caractère statistique (ou variable statistique)
C'est ce qui est observe ou mesure sur les individus d'une population statistique. Il peut s'agir d'une variable qualitative ou quantitative.

Causalité
Une définition opérationnelle est la suivante : un facteur est cause de la maladie si une modification de sa fréquence
(ou de sa valeur moyenne s’il est quantitatif) dans un groupe de sujets entraîne une modification de la fréquence de la maladie. Comment peut-on être certain de la causalité d’une association ? Seule la méthode expérimentale pourrait apporter cette certitude.
Pour des raisons éthiques et pratiques évidentes, une telle démonstration n’est généralement pas possible.
L’hypothèse d’une relation causale peut cependant être renforcée par un certain nombre de conditions, jusqu’’à aboutir dans certains cas à une quasi certitude. Les principaux arguments en faveur d’une relation causale sont les suivants :
– Séquence dans le temps : l’exposition au facteur présumé causal doit précéder l’apparition de la maladie ;
– Élimination d’explications par des facteurs de confusion*, susceptibles de créer l’association constatée;
– Cohérence avec les connaissances actuelles: la causalité doit être plausible du point de vue biologique;
– Force de l’association statistique: une relation très forte a peu de chances de s’expliquer par la présence d’un facteur de confusion;
– Existence d’une relation dose-effet* : le risque doit augmenter avec le niveau d’exposition au facteur ;
– Constance de l’association et reproductibilité: la même relation facteur-maladie doit se retrouver dans différentes populations et différentes conditions.

Cible
La population-cible d’un programme de santé est le sous-ensemble de la population auquel le programme est appliqué et sur lequel on mesurera les résultats pour évaluer (voir : évaluation*) le programme.

Classe modale
C'est la classe correspondant au maximum de l'histogramme (plus grand effectif par unité d'amplitude). Dans le cas d'une classe modale unique, on parle de distribution continue uni modale.

Classes statistiques
Intervalles de valeurs d'une variable statistique. L'ensemble des classes forment une partition de l'ensemble des valeurs possibles de la variable. Par exemple, si tous les salaires des employées d'une entreprise se situent entre 1000 et moins de 20000 EUR, on peut construire (par exemple) les classes :
]1000; 3000]; ]3000; 5000]; ]5000; 7000]; ]7000; 20000]
Les classes statistiques sont exclusives c'est-à-dire une valeur observée appartient à une classe et une seule.
Remarque : on peut utiliser une distribution en classes statistiques pour une variable discrète pouvant prendre beaucoup de valeurs distinctes.
Exemple : Le nombre d'insectes par unité d'échantillonnage dans le cas de pullulation.

Coefficient de variation
C'est le rapport écart-type sur la moyenne. Il est calculé pour des variables statistiques positives : taille, durée, poids. C'est un nombre sans dimension (c'est-à-dire qu'il est indépendant du choix des unîtes de mesure). Il permet de comparer la dispersion autour de la moyenne de variables statistiques ayant des échelles ou des unités de mesure différentes.

Cohorte
Ensemble de sujets nés à une même période et suivis dans le temps. De façon plus large, ensemble de sujets ayant
vécu une même expérience et suivis depuis la date de cette expérience (qui peut différer d’un sujet à l’autre). Le suivi de la cohorte est organisé de façon à repérer un ou plusieurs événements donnés, très souvent le décès avec sa cause.
En pathologie professionnelle, une cohorte est le plus souvent un ensemble de personnes ayant été exposées professionnellement à une substance donnée à une date connue.
Exemple de cohorte professionnelle : ensemble des travailleurs ayant travaillé au moins 5 ans dans un établissement donné entre le 1er janvier 1955 et le 31 décembre 1996.
Étude de cohorte : voir enquête.

Contingence
Tableau classant des observations selon les valeurs conjointes de deux (ou plusieurs) variables qualitatives. Chaque case du tableau contient un effectif. Dans le cas de deux variables, les lignes représentent les modalités de l’une des variables, les colonnes les modalités de l’autre. La constitution d’un tel tableau permet l’étude de la liaison entre les deux variables concernées ; cette liaison est testée le plus souvent par un test du Khi-2.

Contrôle
Groupe contrôle = groupe témoin. Voir : témoin, enquête. Contrôle d’une variable, d’un facteur de confusion*.
Contrôle a priori : voir stratification, appariement.
Contrôle a posteriori : voir ajustement, standardisation.

Corrélation
Terme général souvent utilisé à la place d’ « association » ou de « liaison entre variables ». En statistique, le coefficient de corrélation n’est une bonne mesure de liaison que pour les liaisons linéaires.
Coefficient de corrélation des rangs (Coefficient de Spearman) : les valeurs sont classées par ordre croissant et remplacées par leurs rangs ; le coefficient de corrélation est calculé sur les rangs et non sur les valeurs elles-mêmes. Dans le cas de deux variables ordinales X et Y mesurées sur les mêmes individus, le coefficient de corrélation entre le rang des individus pour X et le rang des individus pour Y .

Coefficient de corrélation (linéaire)
Le coefficient de corrélation entre deux variables statistiques X et Y sur les mêmes individus est le nombre r vérifiant : r = Sxy / (Sx . Sy)
Où Sxy est la covariance entre X et Y, et Sx , Sy les écarts-types de X et Y . Ce coefficient est toujours compris entre -1 et + 1.
S'il est proche de + 1 ou - 1 , X et Y sont bien corrélées linéairement, c'est-à dire qu'elles sont linéaires entre elles par une relation presque affine; le nuage de points est presque aligné le long d'une droite (croissante si r = +1, décroissante si r = -1). S'il n'y a aucun lien entre X et Y , ce coefficient est nul, ou presque nul.

Courbe cumulative
On l'utilise quand la variable quantitative est continue. Il s'agit d'une fonction continue, affine par morceaux. Pour la tracer, on relie les points (xi; F(xi)), pour les points distincts xi de la série statistique.

D
Dépistage (test de)
Examen dont l’objectif est d’identifier rapidement une maladie ou une anomalie, si possible à un stade précoce. La sensibilité d’un test de dépistage est la proportion de personnes réellement malades identifiées comme malades d’après le test. La spécificité est la proportion de personnes réellement non malades, considérées comme non malades d’après le test. Les situations possibles peuvent être résumées par un tableau à quatre cases.
Dépistage : voir prévention.

Diagramme circulaire (ou à secteurs angulaires ou camembert)
Il s'agit d'un disque divisé en sections angulaires. Chaque section correspond à une modalité de la variable qualitative et a un angle proportionnel à la fréquence de cette modalité.

Diagramme cumulatif
C'est le tracé de la fonction qui à tout x associe F(x) = proportion d'observations  ≤ x. Il s'obtient au moyen des effectifs cumulés croissants. On a une fonction dite en escalier. On l'utilise dans le cas d'une variable quantitative discrète.

Diagramme figuratif
Chaque modalité de la variable qualitative est représentée par une image (ordinateur, maison, plante, avion,...) rappelant la variable (ou la population) statistique étudiée, et de taille proportionnelle  la fréquence de cette modalité.

Différentiel
Dans une étude cas témoins, on parle d’erreur* différentielle si une erreur portant sur les expositions* se produit avec une fréquence différente selon qu’il s’agit de cas* ou de témoins*. Dans une étude de cohorte*, une erreur différentielle est une erreur sur le statut de malade ou de non-malade qui se produit avec une fréquence différente selon que le sujet est exposé ou non. Ces types d’erreur peuvent entraîner une surestimation ou une sous estimation de l’effet d’un facteur de risque*.
Une erreur est non différentielle si elle est également probable pour tous les sujets. Sous certaines conditions, les erreurs non différentielles entraînent des biais* sur les mesures d’association (entre la maladie et un facteur de risque) dont la direction et l’intensité peuvent être prédits.
Exemple : dans une étude « exposés/non exposés » portant sur les relations entre l’exposition professionnelle à des fibres minérales artificielles et certains cancers, les sujets exposés peuvent avoir fait l’objet d’une surveillance médicale particulière dont une conséquence est de réduire la probabilité d’une erreur de diagnostic. Les erreurs portant sur les diagnostics de cancer sont dans ce cas différentielles.
Voir aussi : biais, erreur.

Dispersion
Un indicateur statistique est dit de dispersion s'il s'agit d'un nombre clé caractérisant la variabilité des observations dans la série statistique. Ainsi l'étendue donne l'écart entre la plus petite et la plus grande valeur dans la série statistique; l'écart interquartile donne la plage de variation des observations situées dans le second et troisième quart de la série statistique réordonnée.

Distribution
Distribution théorique (synonyme : loi) : description des probabilités selon lesquelles une variable aléatoire* prend une valeur donnée (variable à valeurs discrètes) ou prend une valeur inférieure à x, pour x quelconque (variable continue). Les caractéristiques d’une distribution sont notamment l’espérance — ou moyenne théorique — et la variance. Les lois ou distributions les plus connues sont : la distribution binomiale, la distribution de Poisson (variables discrètes), la distribution normale, la loi de Student, la loi du Khi-2 (variables continues). Les calculs utilisant ces lois peuvent être effectués à partir de tables ou au moyen de logiciels statistiques.
Distribution empirique ou observée : description des valeurs prises par une variable* et des fréquences associées, sous la forme par exemple d’un histogramme, avec éventuellement calcul de la moyenne et de la variance observées.
Une distribution théorique ou empirique peut également être multivariée*.

Dose-effet ou dose-réponse
Relation dose-effet : relation entre le niveau d’exposition et l’importance de l’effet. Le niveau d’exposition (dose) se mesure en tenant compte de l’intensité et/ou de la durée de l’exposition à un facteur de risque ; l’effet peut être un risque* de maladie ou de décès susceptible d’apparaître en un temps donné.
Voir aussi : gradient.

E

Écart type
Racine carrée de la variance*.

Échantillon
En statistique mathématique, un échantillon est une suite de réalisations d’une variable aléatoire*. Dans la pratique, un échantillon est un sous-ensemble de la population, obtenu par sondage*. À partir des valeurs observées sur un échantillon, on cherche à obtenir des renseignements sur la population entière, par estimation* de paramètres (voir estimation*) ou à trancher entre des hypothèses (voir test*).
Redressement d’un échantillon : pondération des résultats obtenus sur l’échantillon de façon à obtenir des estimateurs* non biaisés de certains paramètres.
Exemple : si, dans la constitution de l’échantillon, les tranches d’âge les plus jeunes ont été volontairement surreprésentées, un redressement ultérieur permet d’estimer des fréquences dans la population tout entière.

Échantillon représentatif
Le plus souvent, un échantillon est dit représentatif d’une population définie s’il a été obtenu par tirage aléatoire* ou procédure équivalente (voir sondage*).
Dans un autre sens, et abusivement, est dit « représentatif » un échantillon qui ressemble à la population pour un ou plusieurs critères, quel que soit le mode de constitution de l’échantillon. Par exemple, l’échantillon sera dit « représentatif pour l’âge » si la répartition par âge est celle de la population.

Parler de « représentativité » sans autre précision est le plus souvent une simplification abusive. En effet, un échantillon représentatif pour un critère ne l’est pas automatiquement pour un autre critère, certains biais* importants peuvent donc subsister.
De façon plus générale, un « bon » échantillon est un échantillon permettant de répondre au mieux aux questions posées. Ce n’est pas toujours, ou pas seulement, un échantillon représentatif.

                    Fluctuations d’échantillonnage : voir erreur, distribution, aléatoire.

Effectif
On appelle effectif associé à une valeur de la variable, le nombre de fois où cette valeur apparaît.
Effectif total de la population statistique est le nombre d'éléments de l'ensemble de cette population.
Exemple : pour se rendre à l’université,
• 46 étudiants utilisent des vélos,
• 284 étudiants utilisent les transports en commun,
• 163 étudiants se déplacent à pied,
• 92 étudiants sont déposés par leurs parents.
L’effectif des individus qui utilisent les transports en commun est 284
Effectif total = 46 + 284 + 163 +92 = 585

Enquête
Une enquête épidémiologique est une observation organisée dans la population. On distingue classiquement trois grands types d’enquête selon le point où se place l’investigateur par rapport à l’évolution dans le temps de la maladie étudiée.

Enquête transversale
L’investigateur, au temps C, mesure simultanément l’exposition et la maladie.

Enquête cas-témoins
L’investigateur au temps B, C ou D sélectionne les groupes étudiés sur la base de la maladie; il compare un groupe de malades à un groupe de témoins du point de vue de leur exposition passée.

Enquête de cohorte
Dans cette enquête, on mesure l’exposition des sujets au point A et on étudie leur devenir du point de vue de la maladie. Ce type d’enquête est le meilleur, mais son inconvénient majeur est qu’il peut exiger un délai très long entre le début de l’étude et l’obtention des premiers résultats. Pour parer à cet inconvénient, la même étude peut être réalisée de façon historique : dans une étude de cohorte historique, l’investigateur placé au temps C ou D définit les groupes étudiés sur la base de l’exposition en A et compare leur devenir depuis cette date. Les études de cohorte historiques sont probablement le type d’étude le plus fréquemment employé pour les enquêtes de mortalité en  épidémiologie professionnelle.

Épidémiologie
Étude de la distribution et des déterminants des états de santé et des maladies dans les populations humaines. On distingue classiquement l’épidémiologie descriptive*, l’épidémiologie analytique* et l’épidémiologie évaluative*.

D’autres types d’étude peuvent être considérés comme faisant partie de l’épidémiologie : certaines études cliniques (épidémiologie clinique) ou les essais thérapeutiques (épidémiologie expérimentale).

Épidémiologie analytique
Mise en évidence et analyse des relations qui existent entre les maladies et différents facteurs (facteurs de risque*) qui pourraient avoir un rôle étiologique. Le point de départ d’un travail d’épidémiologie analytique est le test d’une hypothèse (existence d’une relation entre tel facteur et telle maladie) ou la recherche d’une meilleure précision sur les relations entre maladie et facteurs de risque (estimation d’un risque relatif*, de la relation dose-effet*…).

Les outils privilégiés de l’épidémiologie analytique sont les enquêtes cas-témoins et les enquêtes de cohortes (exposés-non exposés). Les résultats sont présentés le plus souvent sous forme de mesure des relations entre la probabilité de la survenue d’une maladie et un ou plusieurs facteurs de risque (risques relatifs*, rapport comparatif de mortalité*).

Exemple : toutes les études de cohortes en milieu professionnel dont l’objectif est de tester l’existence d’une relation entre une exposition professionnelle et une maladie, ou de préciser cette relation.

Voir aussi : enquête, causalité.

Épidémiologie descriptive
Description de la fréquence des maladies ou des états de santé dans des populations* définies et de ses variations en fonction des caractéristiques des personnes (âge, sexe...), du temps ou de l’espace. Les outils privilégiés de l’épidémiologie descriptive sont les enregistrements systématiques, les registres, les enquêtes transversales. Les résultats sont des mesures de fréquence brutes* ou spécifiques* (incidence*, prévalence*, mortalité*).

Épidémiologie évaluative
Le troisième axe de l’épidémiologie est l’évaluation des interventions ou des programmes destinés à prévenir les maladies ou leurs complications. En milieu de travail, les conditions idéales d’une évaluation sont la constitution par randomisation* de deux groupes, avec et sans intervention, avec comparaison dans les deux groupes de la situation avant intervention à la situation après intervention. L’évaluation porte sur les effets de l’intervention en termes de maladies, décès ou handicaps évités. L’évaluation peut porter aussi sur les procédures et, éventuellement, sur les coûts (comparaisons coût-efficacité).

Exemple : l’évaluation d’une intervention en milieu hospitalier comportant la généralisation d’aides à la manutention des malades peut porter sur les effets sur la santé du personnel hospitalier, et aussi sur l’acceptabilité et les conditions réelles d’utilisation du nouveau matériel.

La mise en place des instruments d’observation qui permettront une évaluation doit se faire avant le début de l’intervention, de façon à ce qu’’une comparaison « avant-après » soit possible.

Voir aussi : essai.

Erreur
Erreur de mesure : écart entre la vraie valeur et la valeur obtenue au moyen d’une mesure* ou d’un questionnaire.
Cette erreur peut être seulement aléatoire : l’écart existe, mais il n’a pas tendance à être dans un sens ou dans l’autre.
La mesure peut être biaisée (l’écart a tendance à être dans un sens donné et la valeur obtenue est en moyenne une sur- ou sous-estimation de la grandeur mesurée). Un instrument de mesure est d’autant meilleur qu’en moyenne les valeurs obtenues sont plus près de la vraie valeur. Voir aussi : biais.
Erreur de classement : erreurs de mesure dans le cas particulier où le résultat de la mesure est l’attribution d’une des catégories d’une variable à deux ou plusieurs classes (malade/non malade, exposé/non exposé).
Erreur différentielle : fait référence à des situations où les qualités d’une mesure ne sont pas les mêmes dans deux ou plusieurs groupes que l’on veut comparer. Elles peuvent être la source de biais* importants. Voir aussi : différentiel.
En statistique : élément aléatoire* d’un modèle* statistique.
Dans la théorie des tests statistiques* : l’erreur de première espèce (risque a) consiste à rejeter l’hypothèse nulle alors qu’’en réalité elle est vraie. C’est le plus souvent conclure faussement à une relation entre deux variables, alors qu’’en réalité elle n’existe pas. L’erreur de deuxième espèce (risque ‚) est celle qui consiste à ne pas mettre en évidence une relation qui existe réellement.
Espérance de vie
Nombre moyen d’années qu’’une personne peut espérer vivre si la mortalité reste stable. Espérance de vie à la naissance : nombre moyen d’années qu’’un nouveau-né peut espérer vivre si la structure de la mortalité ne se modifie pas.
Espérance de vie à l’âge x : nombre moyen d’années restant à vivre aux personnes ayant atteint l’âge x.
L’espérance de vie se calcule à partir des quotients de mortalité* et dépend donc de la structure de la mortalité à l’époque où elle est calculée. S’il s’agit d’une cohorte* ne comportant plus de survivants, la définition et le calcul sont plus simples : par exemple, l’espérance de vie à la naissance des femmes nées en 1880 est simplement la moyenne des âges au décès dans cette population.

Essai. Essai comparatif
Essai thérapeutique contrôlé : expérience consistant à comparer l’effet d’une ou plusieurs thérapeutiques, dont l’absence de traitement, en répartissant les malades par tirage au sort (randomisation*) en deux ou plusieurs groupes qui reçoivent des traitements différents.
Essai d’intervention : procédure permettant d’évaluer l’effet d’une intervention entre différents groupes dont certains sont soumis à l’intervention et les autres non. Dans un essai randomisé, la répartition en sous-groupes se fait par tirage au sort.
Exemple : essai de prévention de l’infarctus du myocarde par des méthodes d’éducation et d’information, en comparant deux villes où une intervention est menée dans deux villes témoins. Les essais, randomisés ou non, sont une forme d’expérimentation humaine, donc soumis à la loi Huriet.

Estimation. Estimateur
Estimation (méthode statistique) : estimer un paramètre (inconnu) caractéristique d’une population (fréquence d’une affection, risque relatif...) consiste à en proposer une valeur, appelée « estimation », calculée à partir d’un échantillon.
Exemple : la fréquence d’une maladie, observée sur un échantillon obtenu par tirage aléatoire simple, est une estimation de la fréquence de la maladie dans la population.
Les estimateurs ont certaines qualités :
– Absence de biais : pas d’erreur systématique (en plus ou en moins) par rapport à la vraie valeur. Voir : biais ;
– Variance minimale : entre deux estimateurs sans biais du même paramètre, on préférera celui qui a la plus petite variance, c’est-à-dire la meilleure précision. C’est celui dont on peut penser qu’il est le plus proche de la vraie valeur inconnue. La précision d’un estimateur non biaisé augmente avec la taille de l’échantillon.
Estimation par intervalle : ce qui précède concerne l’estimation ponctuelle. Si ce qui est proposé est non pas une valeur mais un intervalle (intervalle de confiance*), on parle d’« estimation par intervalle ».
Exposé-non exposé
Enquête exposé-non exposé : cas particulier d’enquête de cohorte.
Voir : enquête, risque relatif.

Exposition
La mesure ou l’estimation d’une exposition présente ou passée (à des agents physiques, chimiques ou biologiques ou à des facteurs organisationnels ou psychosociaux) peut s’effectuer de différentes manières :
– Évaluation par questionnaire auprès des personnes de l’étude (autodéclaration) ;
– Évaluation par des « experts », soit directement auprès des sujets exposés (observation par un ergonome, par    exemple– Évaluation par des « experts », soit directement auprès des sujets exposés (observation par un ergonome, par exemple), soit indirectement. Dans une évaluation indirecte d’une exposition professionnelle, l’information utilisée est le poste de travail, la profession, ou une histoire professionnelle détaillée.
L’expert évalue « au cas par cas » ou bien l’évaluation repose sur l’utilisation d’une matrice emploi-exposition*.
Dans certaines enquêtes, il est fait appel à l’expertise du médecin du travail;
– évaluation basée sur des mesures d’exposition (mesures directes de la concentration de toxiques dans l’environnement…) ;
– évaluation basée sur des mesures individuelles indirectes, telles que des marqueurs biologiques d’exposition*. En épidémiologie professionnelle, l’évaluation des expositions présentes et passées occupe une place importante. On cherche le plus souvent à évaluer un niveau d’exposition (tenant compte de l’intensité et de la durée).
Exemple : l’évaluation du niveau d’exposition à la poussière de bois peut être obtenue par un questionnaire rempli par le sujet, portant sur sa profession, les tâches accomplies et les conditions de réalisation, complété par les connaissances d’un expert en hygiène industrielle sur les niveaux associés aux tâches en question.

F

Facteur de confusion
Variable liée à la fois à la maladie et au facteur de risque*, pouvant être à l’origine d’une association observée entre maladie et facteur de risque.
Une démarche fondamentale en épidémiologie consiste à rechercher si la relation constatée entre la maladie et le facteur peut s’expliquer par la présence d’un facteur de confusion. S’il y a confusion, un ajustement* sur le facteur de confusion est nécessaire pour obtenir une estimation sans biais* de l’association entre le facteur de risque et la maladie.
Facteur de risque
Variable associée statistiquement à la survenue d’une maladie ou d’un phénomène de santé (relation de nature généralement étiologique, mais pas nécessairement).
Exemple : une pression artérielle élevée est un facteur de risque de maladie ischémique; le risque est accru en présence du facteur. Parmi les facteurs de risque, on distingue parfois les facteurs endogènes (propres à l’individu, notamment génétiques) et les facteurs exogènes (liés à l’environnement), les facteurs prédisposants (qui rendent le sujet vulnérable) et les facteurs déclenchants ou précipitants (qui déclenchent le phénomène pathologique). Ces distinctions sont parfois contestables.

Groupe à risque : groupe dont le risque* est accru pour une maladie donnée, du fait de ses caractéristiques en termes de facteur de risque.
Exemple : les vendeurs, du fait qu’ils travaillent debout, forment un groupe à risque pour les troubles de la circulation veineuse.


Fraction étiologique
Certains auteurs appellent « fraction étiologique » ce qui est appelé ici risque attribuable* dans la population.
Fréquence
On appelle fréquence associée à une valeur de la variable, le quotient de l'effectif (associé à cette valeur) par l'effectif total. Elle est souvent exprimée en pourcentage.

G
Gradient
Dans l’étude de la relation entre une maladie et un facteur reflétant une variable* ordonnée, on parle de gradient si la fréquence de la maladie varie de façon régulière en fonction des modalités du facteur.
Exemple : on parlera de gradient si la fréquence des lombalgies augmente régulièrement selon les quatre modalités retenues pour la variable « conduite de véhicule professionnel » : jamais ; moins d’une fois par jour ; tous les jours moins de 2 heures ; tous les jours plus de 2 heures.

H
Histogramme
Graphique permettant de représenter une distribution continue regroupée  en classes : rectangles juxtaposés dont les bases sont les classes, et les surfaces sont proportionnelles aux effectifs (ou fréquences) associés.

I
Indépendance
Indépendance entre événements : deux événements sont dits indépendants si la connaissance de la réalisation ou non-réalisation de l’un ne modifie pas la probabilité de réalisation de l’autre. Indépendance entre variables : deux variables sont dites indépendantes si la connaissance de la valeur prise par l’une ne modifie pas la distribution de l’autre
Exemple : pour une ethnie donnée, le groupe sanguin n’est pas lié au sexe ; la probabilité d’appartenir à l’un ou l’autre des groupes sanguins est la même qu’il s’agisse d’un homme ou d’une femme. Si deux événements ou variables sont indépendants, les probabilités* d’observation simultanée se multiplient.

Interaction
I1 y a interaction entre deux facteurs de risque* F1 et F2 d’une maladie si le rôle de l’un dans la maladie n’est pas le même, selon que l’autre est présent ou absent. Qu’il y ait ou non interaction dépend donc de la façon dont est mesurée la liaison entre la maladie et chaque facteur de risque. Dans le cas où la mesure retenue est le risque relatif*, 1’absence d’interaction se définit ainsi : le risque relatif associé à la présence simultanée de F1 et F2 est le produit des risques relatifs associés à F1 ou F2 seuls.

Intervalle de confiance
Étant donné un paramètre inconnu dans une population, on peut calculer, à partir d’un échantillon, un intervalle de confiance pour ce paramètre (voir : estimation). Intervalle de confiance à 95 % : intervalle qui a une probabilité de 0,95 de contenir la vraie valeur inconnue.


Exemple : le risque relatif * pour une maladie liée à une exposition donnée est inconnu, l’intervalle de confiance à 95 % qui en est donné à partir d’un échantillon est : 0,9 ; 3,4.

L

Létalité (taux de)
Pourcentage de décès parmi les malades.

« Log-rank » (test du)
Test statistique de comparaison de courbes de survie (ou d’apparition au cours du temps de n’importe quel événement).


Longitudinale (étude, enquête)
Enquête de cohorte*, voir enquête.

M
Marqueur
Marqueur biologique d’exposition : signe de l’exposition* présente ou passée de l’organisme à un agent extérieur (virus, agent chimique…).
Exemple : le taux d’acide delta-amino-lévulinique dans les urines est un marqueur biologique d’exposition au plomb. Marqueur biologique d’effet précoce : signe d’atteinte sur la santé à un stade moins avancé que celui de maladies établies.
Exemple : dans l’étude des effets des pesticides sur la reproduction, certaines anomalies cellulaires sont des marqueurs biologiques d’effet précoce.
Les marqueurs biologiques d’exposition et d’effet précoces occupent une place importante dans la surveillance en milieu de travail et dans les études épidémiologiques. Leur utilisation pose cependant de nombreux problèmes. Le recours à des marqueurs d’exposition permet de pallier l’absence de mesure directe d’exposition ; cependant, les résultats sont sensibles à des facteurs de variabilité* individuels (liés au métabolisme de la substance étudiée) et leur interprétation nécessite la prise en compte de cofacteurs spécifiques (prise de certains médicaments, tabagisme…).
Les marqueurs d’effets précoces permettent de repérer, avec une puissance statistique accrue, des effets précoces le plus souvent réversibles. Cependant, leur rôle prédicteur dans l’histoire naturelle de la maladie n’est pas toujours établi de façon précise.

Médiane
Dans une distribution* théorique ou observée, c’est la valeur x telle que la moitié des valeurs est inférieure à x. Dans le cas de distributions dissymétriques, la médiane peut être préférée à la moyenne (par exemple, la distribution des revenus). Dans le cas particulier des données de survie, elle présente l’avantage de pouvoir être déterminée sans attendre la survenue de la totalité des décès (ou des événements considérés).

Mesure
Toute enquête épidémiologique implique la mesure de variables destinées à refléter les phénomènes de santé étudiés et certains facteurs liés à ces phénomènes. Les mesures effectuées peuvent être de nature et d’origine variées : questionnaires administrés par un médecin ou un enquêteur spécialisé, questionnaire « autoadministré » (c’est le sujet lui-même qui le remplit), mesure biologique de concentration d’un polluant dans l’atmosphère, etc.
L’instrument de mesure choisi doit être adapté à la nature du phénomène à observer et à l’objectif de l’étude. Les conditions de recueil des mesures doivent également être définies de façon rigoureuse de façon à éviter certains biais*. Ainsi, la définition du phénomène de santé à observer (maladie, symptôme...) doit-elle être explicite, précise et constante pendant toute la durée de l’enquête. Il est également très important de s’assurer, avant l’étude, des qualités des mesures (exactitude, précision, sensibilité, spécificité...), de connaître les sources de variabilité* et de vérifier la qualité des données recueillies. La question de la reproductibilité, ou stabilité, de la mesure est souvent le point le plus difficile : le même résultat doit être observé quand la mesure est répétée, dans des conditions identiques, par le même observateur ou par des observateurs différents. Le terme de validité d’une mesure est utilisé dans un sens plus ou moins large (adéquation aux objectifs de l’étude ou ensemble des qualités de la mesure).
Voir aussi : dépistage, erreur, validation, validité, variabilité.

Mode
C'est la valeur la plus fréquente dans la série statistique. Le mode n'est pas forcément unique. Quand il existe plusieurs modes, la distribution statistique est dite multimodale.

Modèle
Représentation simplifiée d’une situation réelle ; par exemple, représentation simplifiée des relations entre une maladie et différents facteurs de risque (modèle additif, modèle multiplicatif...).
Exemples : modèle logistique, modèle linéaire ou régression.
Modèle statistique ou mathématique : représentation d’un système, d’un processus ou d’une relation en termes mathématiques.
Exemple : modélisation de l’évolution naturelle d’une maladie chronique ou de la transmission d’une maladie contagieuse.
Dans le modèle linéaire, la relation entre une variable Y et les variables X1 ... Xp est de la forme : Y = · 0 + · 1 X1 +… + · p Xp
Les valeurs des paramètres du modèle (ici, les coefficients ·) sont en général estimées (voir : estimation*) à partir des données observées. On distingue souvent des variables à expliquer, ou dépendantes, et des variables explicatives, ou indépendantes, l’indépendance étant prise ici dans un sens différent de l’indépendance* entre variables. Dans l’exemple précédent (modèle linéaire), Y est la variable à expliquer, X1 ... Xp sont les variables explicatives.

Morbidité
Écart subjectif ou objectif à un état de bien-être physiologique ou psychologique. Cet écart est apprécié différemment selon la personne ou l’institution qui en juge ; on distingue donc classiquement :
– la morbidité ressentie, appréhension par l’individu des phénomènes pathologiques ou des gênes le concernant ;
– la morbidité diagnostiquée, faisant l’objet d’un recours au système de soins (recours au médecin en particulier), classée en maladies selon la nosologie en vigueur ;
– la morbidité objective, qui serait appréciée par un examen de santé standardisé, tenant compte des connaissances, des techniques et des normes* actuelles.
Il peut exister des différences très importantes entre ces approches de la morbidité ; la plupart des gênes mineures ressenties, par exemple, ne font pas l’objet d’un recours au système de soins. Toute interprétation de données de morbidité doit aussi tenir compte de l’environnement social : le nombre de maladies professionnelles* ou d’accidents de travail déclarés dépend de la législation et de la façon dont celle-ci est appliquée. En France, la morbidité est connue, entre autres, par des registres de morbidité pour certaines affections (cancer, maladies cardiovasculaires, notamment), et par les enquêtes décennales de l’Insee sur la santé et les soins médicaux, qui portent sur un échantillon national.
Taux de morbidité : prévalence* ou taux d’incidence*.

Mortalité
L’analyse des décès occupe une part importante de la description de la mesure de l’état de santé d’une population. Le taux brut* de mortalité dans une population n’est pas un indice très informatif. On préfère les taux par âge, ou d’autres indices développés en démographie :
– quotient de mortalité par âge (risque* de décéder dans l’année qui suit, pour des personnes d’un âge donné) ;
– tables de mortalité décrivant l’évolution dans le temps des effectifs d’une cohorte* définie par son année de naissance. De telles tables, basées sur des cohortes fictives, servent de base au calcul de l’espérance de vie*. Les comparaisons entre populations utilisent des taux standardisés (voir : standardisation*) par âge :
– standardisation directe pour comparer deux populations ;
– standardisation indirecte, calculs de SMR* (standardized mortality ratio ou rapport comparatif de mortalité*) pour comparer une population à une population de référence.
Pour la mortalité infantile, on distingue principalement :
– la mortalité néonatale (décès d’enfants nés vivants, au cours des 28 premiers jours de vie) ;
– la mortalité infantile (décès d’enfants nés vivants, au cours de la première année de vie) ;
– la mortalité périnatale (mort-nés + décès au cours des 7 premiers jours de vie).
Voir aussi : décès.
Moyenne
Caractéristique de valeur centrale, pour une distribution* empirique ou théorique.
Moyenne arithmétique empirique ou observée : pour des observations X1 ... Xn, la moyenne empirique est : X =(X1 + .... + Xn) / n
Moyenne géométrique : valeur dont le logarithme est la moyenne arithmétique des logarithmes des observations. On l’utilise lorsque la distribution est dissymétrique, par exemple pour la distribution de la concentration d’un polluant dans l’atmosphère.
Moyenne théorique ou espérance mathématique : voir distribution.

Multifactoriel
Pour la plupart des affections, plusieurs facteurs de risque interviennent; la présence de l’un d’entre eux augmente le risque de survenue de l’affection, que les autres soient présents ou non. Ainsi, le risque de cancer du poumon pour un sujet donné est augmenté s’il a été exposé à l’amiante, et ceci qu’il soit fumeur ou non. En conséquence, si plusieurs expositions (à des facteurs personnels, professionnels, environnementaux...) sont présentes, la maladie ne peut pas être attribuée à une cause unique. En corollaire, savoir qu’un sujet malade est exposé à un facteur de risque reconnu pour cette maladie (par exemple un facteur personnel comme le tabagisme) n’implique pas que la maladie soit « expliquée » par ce facteur, au sens où d’autres facteurs (professionnels…) n’interviendraient pas.

Multivariée

Comportant plusieurs variables.
Analyse multivariée : ensemble des méthodes statistiques s’appliquant à l’analyse simultanée de plusieurs variables.
On distingue :
– des méthodes descriptives (analyse en composantes principales, analyse des correspondances) dont l’objectif est de résumer au mieux des informations complexes ou de fournir des indices opérationnels pour la mise en oeuvre d’autres méthodes ;
– des méthodes inférentielles dont l’objectif est de tester, en supposant vrais certains modèles, l’existence de relations entre variables dans la population (modèles* linéaires, modèle logistique*, analyse discriminante).


N
Non paramétrique
Un test* (ou une procédure d’estimation*) est dit non paramétrique s’il est valide quelles que soient les distributions* sous-jacentes. À un test paramétrique correspond, en général, un test non paramétrique répondant au même problème. Si les hypothèses sous lesquelles est construit le test paramétrique sont vérifiées, le test non paramétrique est moins puissant* (souvent de très peu).
Exemple : il existe deux tests de comparaison de valeurs moyennes ; l’un, le test de Student, suppose la normalité ; l’autre, le test de Wilcoxon-Mann-Whitney, est non paramétrique.
Normale
Loi, ou distribution, normale ou de Laplace-Gauss : distribution de probabilité dont la représentation graphique est une courbe en « cloche » symétrique autour de la moyenne* et à laquelle il est fait très souvent référence en statistique. Beaucoup de variables n’ont pas une distribution normale ; cependant, quelle que soit la distribution de départ, une moyenne empirique* tend à suivre une distribution normale quand le nombre d’observations augmente.
Ceci justifie nombre de références à la loi normale. Loi log-normale : X suit une loi log normale si log X suit une loi normale. Valeurs normales : voir norme. La loi normale n’est en aucune façon une « norme ».

Norme
Ce terme est utilisé dans deux sens différents.
– « Ce qui est habituel » : une valeur est normale si elle se situe dans un intervalle englobant un pourcentage assez élevé (mais cependant arbitraire) des observations.
– « Ce qui est souhaitable ».
Dans les deux cas, une part d’arbitraire intervient. Les normes varient en fonction de l’état des connaissances, de la fréquence des pathologies ou des expositions et des possibilités d’intervention.
Exemple : il existe des normes concernant l’exposition professionnelle et environnementale à l’amiante ; ainsi, la réglementation adoptée en France en 1996 stipule que les expositions supérieures ou égales à 25 fibres/L dans les bâtiments nécessitent la mise en oeuvre de travaux de correction.
Variable normée : dont la dispersion a été ramenée à une norme (variance égale à 1, par exemple).

Nuage de points
Ensemble de points isolés représentés dans un graphique cartésien. Une série à deux caractères quantitatifs (x1; y1); (x2; y2); …; (xn; yn) peut  être représentée par les n points M1;M2;…;Mn de coordonnées (x1; y1); (x2; y2); …; (xn; yn).

O

Odds ratio
Un des indices qui mesurent le degré de différence entre deux pourcentages P1 et P0. Par définition : OR = [P1 / (1- P1)] / [P0 / (1- P0)] Il vaut 1 si les deux pourcentages sont égaux, et varie de 0, si P1 vaut 0 (ou P0 = 1), à une valeur très grande si P1 est près de 1 (ou P0 près de 0). Si P1 et P0 sont petits, OR est pratiquement égal à P1 / P0. Si P1 et P0 sont les risques* d’une maladie en présence et absence d’un facteur de risque*, OR est une approximation du risque relatif*, d’autant meilleure que la maladie est plus rare.
Dans une enquête cas-témoins où l’on compare les pourcentages p1 et p0 d’exposés chez les malades et chez les témoins, l’odds ratio vaut : [p1 / (1- p1)] / [p0 / (1- p0)] L’intérêt de l’odds ratio est que l’on peut montrer que :[P1 / (1- P1)] / [P0 / (1- P0)] = [p1 / (1- p1)] / [p0 / (1- p0)]
On a ainsi ce résultat remarquable : alors que, dans une enquête-cas témoins, les risques P1 et P0 ne peuvent être obtenus, leur odds ratio, donc le risque relatif, peut être calculé.

P
Paramètre
En statistique, voir : distribution, modèle. Dans le sens courant, synonyme de variable*. Méthode paramétrique, non paramétrique. Voir : non paramétrique.

Percentile
Voir : quantile.

Personne-année
Unité de mesure combinant les personnes et le temps pendant lequel celles-ci sont suivies ou exposées au risque ; chaque sujet contribue pour le nombre d’années, entier ou non, pendant lequel il est observé.
Exemple : pour une étude portant sur les travailleurs d’une entreprise, entre 1955 et 2000, la contribution au nombre de personnes-années sera de :
– 45 pour un travailleur présent dans l’entreprise en 1955, suivi jusqu’en 2000 et non décédé à cette date;
– 30 pour un travailleur embauché en 1965, décédé en 1995. Le nombre de personnes-années peut être utilisé comme dénominateur dans le calcul d’un taux* annuel d’incidence* par exemple. Le numérateur est alors le nombre d’événements (maladies ou décès) survenus pendant la période d’observation.

PMR (Proportionate mortality ratio)
Rapport de mortalité proportionnelle. Voir : proportionnel.

Ponctuelle (étude, enquête)
Synonyme de transversale*. Voir aussi : enquête.

Population
Population étudiée : elle doit être définie de façon précise.
Exemple : si la population étudiée est celle des salariés d’une entreprise, il est nécessaire de préciser : salarié à telle date, avec tel type de contrat, inclusion ou non des travailleurs employés de façon précaire, etc.
Il est indispensable, pour calculer des taux*, de connaître l’effectif de la population.
Exemple : l’observation de cinq cas de tuberculose pulmonaire lors d’un dépistage systématique ne peut être interprétée que si ces cinq cas peuvent être rapportés à une population précise.
Population-cible : voir cible.
Population type ou population de référence : population dont les caractéristiques sont connues, et utilisée pour calculer des indices standardisés.
Certaines comparaisons entre pays utilisent une population type, fictive, telle que celle proposée par l’OMS.
Exemple : la fréquence d’une pathologie dans un groupe professionnel est comparée à la fréquence de la même pathologie dans la population générale, considérée comme population de référence.
Enquête dans la population : enquête dans un large ensemble de personnes, malades ou non (l’ensemble des Français, par exemple).
Population : en statistique, une population est un ensemble d’unités susceptibles d’observation (qui peuvent ne pas être des personnes physiques).

Prévalence
Rapport du nombre de personnes affectées par une maladie à l’effectif de la population* susceptible de présenter la maladie, à un instant donné (prévalence instantanée). La prévalence exprime la situation épidémiologique à un moment donné : on parle parfois de « taux de prévalence ».
Relation entre l’incidence et la prévalence : dans le cas où l’incidence et la prévalence d’une maladie sont constantes au cours du temps dans une population, on a : P _I _D où : P = prévalence ; I = taux d’incidence ; D = durée moyenne de la maladie, éventuellement jusqu’au décès. De façon générale, on peut retenir que la prévalence varie comme le produit I _D.
Ce qui précède indique bien en quoi la prévalence est un indice difficile à interpréter.
Exemple : la diminution de la prévalence de la tuberculose dans une population donnée peut avoir pour origine :
– une diminution de l’incidence I ;
– une diminution de la durée D de la maladie, soit que les traitements soient plus rapides, soit que la mortalité associée à la maladie ait augmenté.
En médecine du travail, une prévalence faible a parfois pour origine une exclusion des malades (mise en longue maladie, changement de poste...). La prévalence est, en revanche, une notion importante pour l’organisation du système de soins, le recours aux soins dépendant souvent plus de la prévalence que de l’incidence.
La prévalence au cours d’une période est le rapport :
Nombre de personnes malades à un moment quelconque de la période
Effectif de la population

Prévention
Ensemble des actions destinées à prévenir les maladies ou leurs complications. On les classe généralement en trois groupes :
– Prévention primaire: tous actes destinés à diminuer l’incidence* de la maladie;
– Prévention secondaire: tous actes destinés à réduire la durée de la maladie ou à améliorer son évolution, y compris les actions de dépistage ;
– Prévention tertiaire: tous actes destinés à diminuer la prévalence* des incapacités* chroniques dans une population (tournés vers l’amélioration de l’activité des personnes malades, par exemple).

Probabilité
Valeur numérique, entre 0 et 1, attachée à un événement résultant d’une épreuve (tirage...) caractérisant la fréquence avec laquelle l’événement se produirait si l’épreuve était répétée une infinité de fois.
Exemple : l’épreuve est le lancer d’un dé. La probabilité associée à l’événement « la valeur tirée est 5 » est 1/6.
Probabilité subjective : valeur numérique, entre 0 et 1, mesurant le degré de certitude de réalisation d’un événement.
Calcul des probabilités : une branche des mathématiques. Voir aussi : distribution.

Proportion
Rapport de deux effectifs dans lequel le numérateur est inclus dans le dénominateur.
Exemple : proportion de décès dus à une cause médicale donnée.
Voir aussi : taux.

Proportionnel
Rapport de mortalité proportionnelle (PMR).
Rapport :
% de décès observés
% de décès attendus
Pour une cause de décès particulière, les pourcentages sont rapportés à l’ensemble des décès, au numérateur pour la population étudiée, au dénominateur pour une population de référence*. Cet indice, quoique parfois difficile à interpréter, a l’avantage sur un rapport comparatif de mortalité de ne pas nécessiter la connaissance des effectifs de la population étudiée.
Exemple : les maladies cardiovasculaires représentent 52 % des décès observés dans une population, alors que le pourcentage attendu est 38 % ; le rapport de mortalité proportionnelle est 52/38.
Prospective (étude, enquête)
Enquête de cohorte*, enquête longitudinale*. Voir : enquête.

Protocole
Description de l’ensemble des étapes correspondant à une étude, y compris les documents de recueil de données (questionnaire...). Dans une étude épidémiologique, la mise au point du protocole est aussi importante et peut demander autant de temps que le recueil des données.

Puissance
Probabilité de détecter, par un test statistique, une différence ou un effet qui existe dans la population. Une étude est dite manquer de puissance si les conditions de réalisation rendent peu probable qu’une conclusion statistique puisse être avancée, même si l’effet ou la différence existe réellement. La puissance est liée, entre autres choses, à la taille de l’échantillon*. Les calculs de puissance et, corrélativement, de nombre de sujets nécessaires, font partie de la phase préalable d’une étude. Voir : test.

Q
Quantile
Les quantiles d’une variable quantitative divisent la population en groupes d’effectifs égaux. Les quartiles divisent la population en quatre groupes d’effectifs égaux, les déciles en dix, les percentiles en cent.

R
Randomisation
Détermination par tirage au sort du groupe auquel est affecté chaque sujet.
Voir : essai.
Rapport comparatif de mortalité ou ratio standardisé de mortalité (SMR)

Rapport (nombre de décès observé) / (nombre de décès attendu)
pour une cause de décès où le nombre de décès attendu est obtenu par standardisation indirecte.
Un rapport comparatif d’incidence est obtenu de la même façon, à partir de nombres de cas incidents.
Voir : standardisation.

Ratio
Rapport de deux quantités ou indices exprimés le plus souvent dans la même unité.
Exemple : sex-ratio*.
Ratio standardisé de mortalité, d’incidence : voir rapport comparatif de mortalité, standardisation.

Registre
Enquête permanente et exhaustive. On réserve en général le nom de registre à des enquêtes concernant une pathologie bien spécifiée dans une zone géographique donnée.
Exemple : registre du cancer dans un département.
Voir aussi : enquête, permanente.

Représentatif
Voir : échantillon.

Reproductibilité
Voir : mesure, variabilité.

Rétrospective (étude, enquête)
Ce terme est utilisé le plus souvent à la place de « cas-témoins » La confusion possible avec un mode de recueil rétrospectif des données (dans une étude de cohorte historique, par exemple), sans qu’il s’agisse d’étude cas-témoins, incite beaucoup d’épidémiologistes à préférer les termes « cas-témoins » ou « cas-contrôle ».
Voir : enquête.

Risque
Probabilité qu’’un sujet développe une maladie donnée pendant une période déterminée.
Le terme « risque » est utilisé dans beaucoup d’expressions : facteur de risque*, groupe à risque, etc.
Voir : incidence.
« Risque » est aussi utilisé dans un sens proche du sens courant (« toute activité comporte des risques »). On parlera en particulier de « risque chimique », « risque physique », « risque biologique ».
Il s’agit donc ici d’une exposition à un facteur de risque* et non de la probabilité de survenue d’une affection.
Risque de première espèce, de deuxième espèce : voir test statistique.

Risque attribuable
Mesure d’association entre une maladie et un facteur de risque* à deux modalités (présent ou absent). Elle est définie comme la part du risque observé qui « disparaîtrait » si le facteur de risque n’existait pas, part calculée par rapport aux exposés seuls ou par rapport à la population totale. Le risque attribuable est parfois appelé « fraction étiologique du risque ». Certains auteurs ont d’autres définitions du risque attribuable (différence des risques rl - r0, en particulier, qui est appelé ici risque en excès*).

Risque en excès ou excès de risque
Soit r1 ou r0 les risques, respectivement parmi les exposés et parmi les non exposés (r1 et r0 sont, par exemple, des taux d’incidence). Le risque en excès est : r1 - r0.
Voir aussi : risque relatif, risque attribuable.

Risque relatif
Mesure d’association entre une maladie et un facteur de risque* à deux modalités (présence ou absence). Le facteur définit deux groupes de population, exposé et non exposé. Le risque relatif est le rapport : [risque dans le groupe exposé / risque dans le groupe non exposé] = RR. Le risque relatif est estimé à partir d’un tableau d’effectifs où les sujets sont classés en malades ou non (M, nM), exposés ou non (E, nE) (tableau II). Dans certaines situations, le risque relatif peut être estimé par un odds ratio*. Ce qui précède s’étend au cas où le facteur de risque* comporte plus de deux modalités.
Exemple : le risque relatif de cancer du poumon, par rapport à une consommation nulle, est de : 7,4 pour 5 à 14 cigarettes ; 9,6 pour 15 à 24 cigarettes (fumer de 5 à 14 cigarettes multiplie le risque par 7,4).
Risque relatif ajusté : rapport des risques entre groupe exposé et groupe non exposé, à niveau constant d’un ou plusieurs autres facteurs.
Plusieurs méthodes ont été proposées pour estimer un risque relatif ajusté.

Robuste
Une procédure statistique est dite « robuste » si elle est approximativement valide en cas d’écart aux conditions strictes d’application.
Exemple : l’analyse de variance est considérée comme une procédure robuste, donc restant applicable si les conditions strictes d’application (normalité de la variable et égalité des variances entre les groupes) ne sont pas parfaitement vérifiées.

S
Sensibilité (d’un test de dépistage)
Voir : dépistage.
On parle aussi de sensibilité d’un signe clinique ou biologique (proportion de malades présentant ce signe).

Sex-ratio
Rapport entre deux taux* (d’incidence* de prévalence*, de mortalité *) concernant l’un les hommes (au numérateur), l’autre les femmes (au dénominateur).
Exemple : le sex-ratio est de l’ordre de 9 pour la mortalité par cancer du poumon en France.
Signification
Voir : test statistique.
Degré de signification : le degré de signification d’un test est p si la probabilité que les seules fluctuations d’échantillonnages conduisent des valeurs aussi éloignées de l’hypothèse nulle que celles qui ont été observées en p.

Seuil de signification
le seuil de signification est par exemple 5 % si on décide de rejeter l’hypothèse nulle dès que le degré de signification est inférieur à 5 %. Les seuils classiques sont de 5 ou 1 %. Il faut prendre garde au fait qu’un seuil ou degré de signification ne mesure pas la probabilité qu’une hypothèse soit vraie ou fausse.

SIR (standardized incidence ratio)
Rapport comparatif d’incidence, voir : rapport comparatif de mortalité.

Statistique Descriptive
Ensemble des méthodes et techniques permettant de présenter, de décrire, de résumer des données nombreuses et variées.
Statistique Descriptive univariée : consiste en la description de chacun des caractères statistiques, un par un, et non des liens éventuels existant entre eux.
Statistique Descriptive multivariée : La Statistique Descriptive multivariée consiste en la description d'un nombre k > 1 de variables mesurées ou observées simultanément sur les mêmes individus. Elle permet de mettre en évidence le type de lien existant éventuellement entre ces variables. Si k = 2, on parle de Statistique Descriptive bivariée.

SMR (standardized mortality ratio)
Rapport comparatif de mortalité*.
Sondage
Synonyme : échantillonnage.
Sélection d’un échantillon à partir d’une population constituée d’unités statistiques*.
Plan de sondage : description complète du processus de sélection.
On distingue différents types de sondage selon le mode de sélection :
– sondage aléatoire : toutes les unités statistiques ont une probabilité non nulle d’être retenues et font partie ou non de l’échantillon selon le résultat d’un tirage au sort. Dans un sondage aléatoire simple, les unités statistiques ont toutes la même probabilité d’être sélectionnées. Dans un sondage aléatoire stratifié, la population est subdivisée en sous-groupes, le tirage s’effectue dans chaque sous-groupe avec un taux de sondage propre au sous-groupe.
Exemple : sondage stratifié par âge ; le taux de sondage est 1/10 pour les moins de 40 ans, 1/20 au-delà ; – sondage systématique : une procédure systématique remplace le tirage au sort.
Exemple : toutes les personnes se présentant à la visite de médecine du travail et nées entre le 10 et le 15 du mois font partie de l’échantillon.
Systématique est parfois synonyme d’exhaustif* ;
– sondage par quota : pas de tirage au sort, mais des contraintes sur les effectifs par sous-groupes, le mode de sélection étant par ailleurs laissé à la liberté de l’enquêteur.
Exemple : l’échantillon doit comporter 30 hommes cadres supérieurs de moins de 40 ans ; 50 agriculteurs, anciens agriculteurs de plus de 60 ans ;

– sondage en grappe : les unités statistiques constituent des groupes, ou grappes. Le tirage s’effectue sur ces groupes, dont tous les éléments appartiennent à l’échantillon.
Exemple : les unités statistiques sont des familles ; on tire un ensemble de familles dont on interroge tous les membres;
 – sondage à deux degrés : un premier tirage est effectué dans une liste d’unités statistiques dites « unités primaires ». Pour chaque unité primaire, un tirage d’unités secondaires est effectué.
Exemple : tirage au sort d’entreprises, puis tirage au sort de sujets interrogés dans chaque entreprise ;
– sondage raisonné : la sélection s’effectue selon des critères de choix justifiés. Ceci concerne plus souvent le choix des unités primaires; par exemple on peut tenir à inclure dans l’enquête telle entreprise, ou à exclure telle autre où le recueil des données ne pourrait pas être effectué dans des conditions satisfaisantes.
Voir aussi : échantillon.

Spécificité (d’un test de dépistage)
Voir : dépistage.
On parle aussi de spécificité d’un signe clinique ou biologique (proportion de non-malades ne présentant pas le signe).

Spécifique
Restreint à une pathologie ou à une sous-population définie par l’âge, le sexe ou toute autre caractéristique.

Standardisation
Les mesures de mortalité ou de morbidité (incidence, prévalence) doivent être standardisées de façon à permettre des comparaisons entre populations éliminant l’effet de facteurs de confusion* tels que l’âge ou le sexe.
Les méthodes de standardisation les plus classiques sont la standardisation directe et la standardisation indirecte. On considérera ici à titre d’exemple une standardisation par rapport à l’âge. Dans la standardisation directe, on calcule le taux que l’on observerait dans la population étudiée si elle avait la même structure d’âge qu’une population de référence*.
Dans la standardisation indirecte, on calcule un nombre d’événements (décès ou maladies) attendu dans la population étudiée, en appliquant à chaque classe d’âge les taux spécifiques d’une population de référence. Le nombre d’événements attendu est comparé au nombre d’événements observé.
Le rapport : Nombre d'événements observé /Nombre d'événements attendu est un rapport comparatif de mortalité* (SMR) ou un rapport comparatif d’incidence* (SIR) selon qu’il s’agit de mortalité ou de morbidité.

Stratification
Prise en compte, dans la planification du recueil de données, de variables dont l’importance est connue à l’avance.
Dans un échantillon stratifié par âge, par exemple, les effectifs par âge ont été fixés de façon à ce que l’effet de l’âge, au moment de l’analyse, n’interfère pas avec la relation que l’on cherche à étudier entre la maladie et un autre facteur de risque. Les procédures de stratification (y compris l’appariement*) permettent le contrôle a priori des facteurs de confusion*, le contrôle a posteriori relève de méthodes de standardisation ou d’ajustement*. Beaucoup d’épidémiologistes considèrent actuellement qu’il est préférable de ne stratifier que sur les facteurs les plus importants (sexe, âge) et de tenir compte des autres par ajustement plutôt que par stratification.
Voir aussi : sondage.

Survie (courbe de)
Courbe qui donne la variation du pourcentage de survivants dans une population* ou une cohorte*. Au temps t = 0, le pourcentage est de 100 %. On peut étudier d’autres événements que la mort.

T

Taux
Le plus souvent, mesure de fréquence d’un phénomène dans une population par unité de temps.
Exemple : taux d’incidence* annuel.
Le terme de taux est cependant parfois utilisé dans un sens un peu différent, par exemple : taux de mortalité périnatale, taux d’attaque* ; il s’agit dans ces cas de proportion* et non de taux, au sens strict. Voir aussi : brut, spécifique, standardisation. Taux comparatif (de mortalité, d’incidence), voir aussi : rapport comparatif, standardisation.

Témoin (groupe témoin ; enquête cas-témoins)
Voir : enquête.
Dans une étude cas-témoins, on compare un groupe de cas à un groupe de témoins, du point de vue de l’exposition passée à des facteurs de risque*. Les cas sont des malades, les témoins des personnes non malades. Les témoins doivent être représentatifs de la population* d’où sont issus les cas. Pratiquement, il est souvent difficile de définir le groupe témoin idéal. Une étude cas-témoins est parfois le complément d’une étude de cohorte*. On parle alors d’étude cas-témoins au sein d’une cohorte. On examinera, par exemple, plus en détail l’exposition professionnelle, non pas de tous les travailleurs de la cohorte, mais seulement de ceux qui sont décédés d’une cause donnée et d’un échantillon témoin.

Test statistique
Règle de décision entre deux hypothèses au vu des observations obtenues pour un échantillon*. Les hypothèses portent souvent sur la valeur d’un paramètre (voir distribution*). La règle de décision est basée sur un résumé des observations (par exemple, la moyenne empirique). Selon la valeur prise par ce résumé, appelé aussi « statistique » ou « critère de test », la décision se fera en faveur de l’une ou l’autre des hypothèses. Cette procédure est sujette à erreur, du fait des fluctuations d’échantillonnage (voir erreur*). Les situations possibles sont présentées classiquement comme suit (tableau III). H0 et H1 sont les hypothèses « nulle » et « alternative » erreur ou risque de première espèce, et ‚, erreur ou risque de deuxième espèce, sont des probabilités conditionnelles*. = P (rejeter H0 / H0 vrai) ; ‚ = P (accepter H0 / H1 vrai). La quantité 1-‚ est appelée puissance* du test. Le risque · est le plus souvent fixé à 5 % (voir signification*). De ce point de vue, les deux hypothèses H0 et H1 ne jouent pas le même rôle : H1 correspond à ce qui serait l’hypothèse nouvelle, que l’on retiendra si les observations sont incompatibles avec l’hypothèse courante H0.
Exemple : dans la recherche de l’existence d’une association entre une maladie et un facteur de risque*, H0 est l’hypothèse « d’absence de relation » que l’on rejettera si la relation observée est trop forte pour pouvoir être expliquée par le seul hasard. Test unilatéral, bilatéral : lié à la forme de l’alternative H1. Test non paramétrique : voir non paramétrique. Test de dépistage, test biologique : voir dépistage.

Transversale (étude, enquête)
Voir : enquête.
Une enquête transversale permet d’étudier la morbidité* et les facteurs de risque* à une date donnée. Une telle enquête est mal adaptée à l’étude des liens entre maladie et facteurs de risque car il est le plus souvent difficile d’interpréter les liaisons observées.

V
Validation
Étude des qualités d’une mesure* ou de la validité* d’une étude.
Exemples :
– mise au point d’un questionnaire ou d’une échelle de mesure ;
– comparaisons entre les résultats d’une étude et des do

Validité
Pour une étude ou une mesure, le terme de validité recouvre les notions de conformité à la réalité et d’absence de défauts importants tels que des biais*.

Variabilité
Variations possibles dans les valeurs que peut prendre un paramètre, entre sujets (variabilité intersujets) ou pour un même sujet en fonction du temps ou d’autres variables (variabilité intrasujet). L’imperfection de la mesure peut être une source de variabilité (variabilité de la mesure) ainsi que l’observateur ou l’opérateur qui fait la mesure. La mesure de la variabilité fait l’objet de calculs statistiques spécifiques.
Exemple : la même image radiologique peut donner lieu à des interprétations différentes selon la personne qui fait la lecture ; on parlera de « variabilité interobservateurs ».


Variable
Caractéristique dont la valeur peut fluctuer. On appelle variable statistique ou caractère, la chose que l'on étudie et qui est commune à tous les individus de la population de référence. L'ensemble des résultats s'appelle série statistique.
En statistique le sens est plus précis : une variable est une variable aléatoire*, que sa distribution* soit connue ou non. On distingue les variables selon leur nature :
– variable qualitative : par exemple, le groupe sanguin ;
– variable dichotomique ou à deux classes : variable qualitative à deux possibilités, par exemple le sexe ;
– Une variable est dite quantitative si elle est représentée par un nombre :
variable quantitative à valeurs discrètes : C’est une variable qui ne prend que des valeurs isolées, par exemple, le nombre d’enfants (seuls des nombres entiers sont possibles)
 variable quantitative continue : C’est une variable qui peut prendre toutes les valeurs comprises entre 2 nombres, par exemple, le poids, la taille ;
– variable à expliquer, explicative, dépendante, indépendante : voir modèle ;
– variables indépendantes : voir indépendance ;
– variable indicatrice : prend la valeur 0 ou 1 selon qu’’un caractère est présent ou non.

Variance
Caractéristique de dispersion, pour une distribution* empirique ou théorique