pmc.ucsc.edu

pmc.ucsc.edu

II Rappels sur l'infrence statistique Objet du cours Au cours du cours de Statistiques de 1e anne, vous avez appris matriser les deux volets du travail interprtatif du statisticien : Statistique descriptive Statistique inductive

Induction - Dduction Dduction Induction Gnral Gnral (principes) Particulier

(applications) Particulier La dmarche statistique est inductive Induction On parle aussi d'infrence statistique Population

chantillon Le problme de l'induction La population prsente une grande variabilit. Cela va empcher de conclure avec certitude sur la population partir des donnes acquises sur un chantillon. Mais on a tout de mme acquis de l'information! L'apport des probabilits Variabilit Incertitude Donnes sur l'chantillon Information

La thorie des probabilits permet de valoriser l'information tout en prenant en compte l'incertitude Comparez : Cette voiture peut encore rouler un bon nombre de kilomtres Je vends une bonne centaine de voitures de ce type chaque anne, et je peux dire que vous avez 95% de chances de rouler entre 20.000 et 40.000 km sans panne majeure. L'apport des probabilits Les probabilits vous ont permis : d'estimer des paramtres d'une population ainsi

que leurs intervalles de confiance de tester des hypothses (par exemple, si les moyennes de deux chantillons sont gales) II-a) Rappels sur les intervalles de confiance d'une estimation Stratgie de l'estimation chantillon Population

Sondage N lments Estimation n lments Paramtres ,s2,... Probabilits Paramtres

,2,... Cnp chantillons de taille n Constitution des tous les chantillons possibles Variables alatoires X,S2,... Exemple de la moyenne Sur un chantillon, on peut calculer une moyenne

Mn X 1 X 2 ... X n n Quelle information nous donne-t-elle sur la moyenne de la population ? Exemple de la moyenne Une population une moyenne et une variance . Tirer un lment et regarder la valeur de la variable X est une preuve alatoire.

X1 est donc une variable alatoire avec une distribution de probabilit de moyenne et de variance . Mn X 1 X 2 ... X n n Mn est donc aussi une variable alatoire. Quelle est sa distribution de probabilit ? Distribution d'chantillonnage

distribution d'chantillonnage (d'un paramtre statistique) = distribution de probabilit de ce paramtre statistique Exemple de la moyenne En toute gnralit, on peut pas dire grand chose a priori sur la distribution d'chantillonnage de M n car la distribution de probabilit des X i est peine connue (on ne dispose que de la moyenne et de la variance) Cependant, grand n, nous sommes sauvs par le

thorme central limite ! Thorme central limite Lorsque n est suffisamment grand, (en pratique n>30), la distribution de probabilit de Mn est une distribution normale de moyenne et de variance /nn. C'est valide quelque soit la distribution de probabilit de X! du moment qu'elle a la moyenne et de variance et qu'elle est la mme pour tous les Xi

Thorme central limite 2 E Mn Var M n n Notez que la variance de n diminue quand n augmente (on a moins de chance d'aller vers les valeurs extrmes)

Estimer la probabilit de tirer 10 000 fois pile avec une pice! On augmente la prcision d'une mesure en la rptant Erreur standard Erreur standard 2 E.S. n

n Dans le cadre du thorme central limite, l'erreur standard correspond l'cart-type de la moyenne Exemple de la moyenne partir d'un chantillon de grande taille, on peut donc estimer la moyenne de la population En effet, les proprits de la loi normale sont connues! Estimer ?

Ingrdients ncessaires une estimation Fourchette : imprcision d'une estimation Confiance : probabilit associe l'intervalle estim Je vends une bonne centaine de voitures de ce type chaque anne, et je peux dire que vous avez 95% de chances de rouler entre 20.000 et 40.000 km sans panne majeure, de plus de 300 Fourchette Imprcision Confiance Incertitude Distribution normale

Fourchette Confiance Distribution normale (avec table) Fourchette : Confiance : proportion d'erreur Il est intressant de renormaliser Mn Mn Mn Z Var M n n

M Z est alors une variable normale centre rduite de moyenne 0 et de variance 1 Pour donn, on calcule Z=n/n 1- = P(|Z||Z|) = F(|Z|) est donn par les tables de la fonction de rpartition de la loi normale Les critres d'un bon estimateur (1) Convergent il converge vers le paramtre de la population quand la taille de l'chantillon augmente (2) Efficace

Son imprcision doit tre faible (3) Sans biais Il converge vite vers le paramtre de la population, sans cart systmatique Les critres d'un bon estimateur Mn X 1 X 2 ... X n n (1) Convergent thorme central limite

(2) Efficace thorme central limite (3) Sans biais thorme central limite Et si l'chantillon est de petite taille ? On peut encore remonter la moyenne de l'chantillon si on sait que les variables alatoires Xi suivent une loi normale

Pourquoi ? Somme de 2 variables alatoires normales Soit X1 et X2 deux variables alatoires indpendantes qui suivent chacune une loi normale pour X1 de moyenne 1 et de variance 1 pour X2 de moyenne 2 et de variance 2 Alors on peut montrer que X1+X2 est aussi une variable alatoire suivant une loi normale, de moyenne 1+2 et de variance 1+2

Moyenne de variables alatoires normales Par rcurrence, la distribution de probabilit de Sn=X1+ X2+X3+...+Xn est une distribution normale de moyenne n et de variance n. La distribution de probabilit de Mn =Sn /nn est une distribution normale de moyenne et de variance /nn.

Mais a suppose de connatre ! En gnral, on ne connat pas la variance thorique des variables alatoires normales Xi On peut toutefois se rabattre sur les proprits de la distribution de Student Argh ! Rappel - Variable de Student Soient Z une variable normale centre rduite et 2 une variable de Pearson de degrs de libert

La variable t Z 2 est une variable alatoire suivant une loi de Student avec degrs de libert Variable de Student et chantillon ? Elle est utilise quand

la variance de la population n'est pas connue et doit tre remplace par son estimation sx sur un chantillon. L o on serait tent de renormaliser : Mn Mn Mn Z Var M n n M on se contente de sx a n-1 degrs de libert

t N Mn s 2 x s 2x n

i 1 xi x 2 n 1 Et non n!

Degr de libert Le degr de libert d'une combinaison de variable alatoire est le nombre de variables combines diminu du nombre de relations entre ces variables Exemple de relation X 1 X 2 ... X n n sx n'a que n-1 degrs de libert Variable de Student et chantillon On peut montrer que

t Mn s 2 x n est une variable de Student (n-1) degrs de libert

Rappel - Loi de Student La loi de Student avec degrs de libert est connue (ses valeurs sont stockes dans des tables) Elle a une expression relativement complexe rarement directement utilise p t C 1

t 1 2 2 Ici, =n-1, le nombre d'lments dans l'chantillon Rappel - Loi de Student 0 2

2 Lorsque , la loi de Student converge vers la loi normale Pourquoi ? Thorme central limite >30 suffit La loi de Student est plus pate que la loi normale. Ce qui est normal, vu qu'on l'utilise faute de mieux Rappel - Loi de Student La loi de Student est tabule.

Vous pouvez : Utiliser une table (TD) Utiliser un logiciel (Excel, Matlab) Estimation de la moyenne avec Student Estimation de la moyenne avec Student Fourchette : Confiance : proportion d'erreur t

On estime t Mn M s 2 x n 1- = P(|t||t|) = F(|t|)

est donn par les tables de la fonction de rpartition de la loi de Student de n-1 degrs de liberts Estimation de la moyenne Xi variable alatoire Xi variable alatoire quelconque normale (,) Grand chantillon Petit chantillon

loi normale (,/nn) connu loi normale (,/nn) inconnu loi de Student (n) t=(X-)(n)/nsx Attention aux petites populations Attention aux tirages alatoires dans des populations 2 tirages alatoires successifs

dans une population ne sont pas indpendants. C'est surtout visible si la population est de petite taille Exemple : On prend un individu au hasard dans un groupe. C'est un homme. Quelle est la probabilit que le prochain individu tir au hasard soit une femme ? Groupe A = {6 hommes, 4 femmes} Groupe B = {6000 hommes, 4000 femmes} Estimation de la variance Sur une population de moyenne , la variance se calcule par N

2 i 1 Xi 2 X N Je dispose d'un chantillon

tir au hasard dans la population, sur lequel je peux calculer sa moyenne Mn et sa variance sx N s 2 x i 1 xi n 1

x 2 Et non n! Estimation de la variance Comment remonter la variance de la population ? En toute gnralit, on peut pas dire grand chose a priori sur la distribution d'chantillonnage de s x car la distribution de probabilit des X i est peine connue

(on ne dispose que de la moyenne et de la variance) Cependant, si les Xi sont des variables alatoires normales je peux conclure ! Vers une variable de 2 Une variable de Pearson ou du 2 est de la forme 2 X 2 1

X 2 2 ... X 2 n o X1, X2,...Xn sont des variables normales centres rduites

Donc 2 N Xi 2 i 1 est aussi une variable de Pearson

Vers une variable de 2 La valeur de calcule sur un chantillon est donc relie N une variable de Pearson s 2 x i 1 Xi n 1

2 2 n 1 N i 1 2 Xi

2 2 2 n 1 condition de remplacer Mn par ce qui rajoute la condition supplmentaire X 1 X 2 ... X n n

sx n'a que n-1 degrs de libert Loi du 2 La densit de probabilit d'une variable 2 de degrs de libert est connue (ses valeurs sont stockes dans des tables) On l'appelle loi de 2 (ou de Pearson) de degr Elle a une expression relativement complexe rarement directement utilise p

2 C k 2 e 2 2 Loi du 2

2 2 Lorsque , la loi du 2 converge vers la loi normale Pourquoi ? Thorme central limite >30 suffit Loi du 2

La loi du 2 est tabule. Vous pouvez : Utiliser une table (TD) Utiliser un logiciel (Excel, Matlab) Estimation d'une variance (avec table) Fourchette : sx Confiance : proportion d'erreur Au lieu de raisonner en variance, on utilise la variable de Pearson 2

2 n 1 sx 2 Pour donn, on cherche 1- = P(-) = F()-F(-) est donn par les tables de la fonction de rpartition de la loi du de degr (n-1) II-b) Rappels sur les tests statistiques

Test Vous disposez d'un d de 6. Vous voulez vrifier qu'il n'est pas pip. Pour le savoir, vous tirez 20 fois le d. Vous obtenez 19 fois la valeur 1. Le d est srement pip ! Vous venez de faire un test d'hypothse Dmarche exprimentale (1) Formuler ses hypothses (2) Rcolter des informations

Faire des expriences (3) Tirer une conclusion Test d'hypothse Test d'hypothse = Procdure de dtermination de la plausibilit d'une hypothse. Remarquez que nous n'avons pas parl de vrit Typiquement, on dterminera la plausibilit qu'un paramtre d'un modle prenne des valeurs diffrentes dans des populations distinctes, afin de mettre en vidence, ou non, un effet d'un facteur exprimental sur une population.

Paradoxe des statistiques Dans notre problme du d : on peut facilement montrer que le d est pip Il suffit de faire le test, et de sortir un cas anormal mais on ne peut pas montrer facilement que le d est normal Il faut lancer de nombreuses fois le d, et dterminer la loi de probabilit de sortir un 1, un 2, ... Les deux hypothses d pip et d normal ne sont pas symtriques

Hypothses statistiques Le raisonnement tenu implicitement dans le cas du d a t Je suppose que le d est normal et je vrifie si mes rsultats confirment cette hypothse. Sinon, c'est que le d est pip On a en fait introduit deux hypothses Hypothses statistiques On a en fait introduit deux hypothses H0 : Le d est normal On calcule la probabilit d'obtenir 19 fois 1 en 20 lancers.

Elle est infime. L'hypothse est rejete. H1 : Le d est pip C'est ce qu'on voulait montrer Hypothses statistiques Hypothse nulle (ou principale ) : H0 celle que lon cherche rfuter celle qui est suppose vraie , tant quon nait pas dmontr le contraire hypothse avec laquelle on dispose d'une loi de probabilit Exemple

H0 : Le d n'est pas pip. Tous les chiffres de 1 6 ont une probabilit 1/n6 de sortir Hypothses statistiques Hypothse alternative (ou contraire) : H1 hypothse contraire de lhypothse nulle celle que lon cherche dmontrer mais souvent, on ne dispose pas d'une loi de probabilit Exemple H1 : le d est pip Je ne connais rien de sa loi de probabilit

Test statistique et raisonnement logique Un test statistique ressemble un raisonnement par l'absurde. On veut montrer une hypothse : (1) On se place en fait dans le cas inverse car ce cas est plus propice au raisonnement (2) On cherche rejeter ce cas. Mais contrairement au raisonnement logique, on ne montre pas qu'une hypothse est fausse, seulement qu'elle est invraisemblable Limite du test statistique

Il reste en effet une probabilit non nulle pour que le d soit vraiment normal et que l'on tire 19 fois 1 en 20 lancers. Elle vaut en effet 2.710-140. Il persiste donc un risque d'erreur de se tromper en affirmant que le d est pip. Erreur statistique de premire espce Erreur de premire espce = erreur de type I = erreur = Rejet de l'hypothse H0 alors qu'elle tait vraie. Exemple

Affirmer que le d est pip alors qu'il est normal Limite du test statistique La dcision tait jusqu' prsent simple prendre Mais que pourrions nous dire si j'avais obtenu 6 fois 1 en 20 lancers ? 6/n20>1/n6 : le chiffre 1 semble bien frquent... H1 : Le d est pip semble vraisemblable Mais en supposant H0 : Le d est normal , la possibilit d'avoir 6 fois 1 en 20 coups est de 6.5% H0 : Le d est normal semble vraisemblable Une affirmation et son contraire semblent vraisemblables !

Il nous faut tre plus prcis et tablir un critre de plausibilit Dcision statistique Il nous faut un critre de rejet de l'hypothse H0. Plusieurs choix sont possibles : test unilatraux On carte toute valeur infrieure ou suprieure une valeur seuil Cette valeur est appele seuil de rejet (ou seuil de signification). test bilatraux On carte toute valeur se trouvant hors d'un intervalle.

Seuil de rejet et risque On fait souvent dpendre le seuil de signification au risque acceptable d'erreur Le risque de faire une erreur de type I est not . Cette erreur correspond au rapport de l'aire sous la courbe correspondant au valeurs rejetes et de l'aire totale (gale 1 aprs standardisation). On rejette alors un pourcentage (1-) des cas possibles. 1- est aussi appele confiance. Dcision statistique

Test unilatral Test unilatral infrieur suprieur

Test bilatral entre Choix de la latralit La latralit du test dpend du choix de H1. Si H1= le d est pip vers les basses valeurs : le chiffre 1 a une probabilit suprieure 1/n6 de sortir Alors le test est unilatral et le lien entre risque et valeur seuil est donne par =P(xxseuil) ou de manire quivalente, 1-=P(xxseuil)=F(xseuil)

Dcision statistique Le chiffre 6 est de peu suprieur au seuil de rejet. Je dcide donc que le d n'est pas normal. Pour conclure de manire plus convaincante, j'aurais d faire plus de lancers! Choix de la latralit La latralit du test dpend du choix de H1. Si H1= le d est pip : le chiffre 1 a une probabilit diffrente de 1/n6 de sortir

Alors le test est bilatral. Il y a alors deux valeurs seuil en-dessous et au-dessus desquelles la valeur sera rejete. Elle sont donnes par /2=P(xxseuil bas) et 1-/2=P(xxseuil haut)=F(xseuil) Dcision statistique Le chiffre 6 est dans l'intervalle d'acceptation. Je dcide donc que le d est normal. Pour conclure de manire plus convaincante, j'aurais d faire plus de lancers!

Choix d'hypothse Le choix des hypothses est crucial Risques statistiques Le choix du risque tolr est aussi crucial, mais on se contente souvent de valeurs de risque standards : =5%=0.05 Risque significatif C'est le risque

pris par dfaut =1%=0.01 Risque hautement significatif =1=0.001 Risque trs hautement significatif Dcision statistique Le risque acceptable dpend du problme considr. En gnral, un risque de 5% est suffisant. Dans certains cas (sant publique,...), le risque tolrable est encore plus petit. Appliquer rigoureusement le principe de prcaution revient le prendre nul.

Mais rduire le seuil de rejet de H0 augmente le risque d'accepter H0 alors qu'elle est fausse ! Erreur statistique de deuxime espce Erreur de deuxime espce = erreur de type II = erreur = Rejet de l'hypothse H1 alors qu'elle tait vraie. Exemple Affirmer que le d est normal alors qu'il est pip Erreurs statistiques

Hypothse H0 vraie Hypothse H1 fausse Hypothse H0 accepte Bonne dcision Erreur de type II

() Hypothse H1 refuse Erreur de type I () Bonne dcision Erreur statistique de deuxime espce

Le d tait bien pip : le chiffre 1 avait une chance 1/n2 de sortir 2 1 4 3 Puisque la loi de probabilit avec H1 est connue on peut dterminer partir de

Erreur statistique de deuxime espce Diminuer la tolrance de risque entrane une erreur plus grande Erreurs statistiques Diminuer la tolrance de risque entrane une erreur plus grande Il y a donc un compromis trouver entre les valeurs de et de Erreur statistique de deuxime

espce Bien souvent, l'estimation de l'erreur est impossible car on ne connat pas la loi de probabilit d'obtenir les rsultats exprimentaux si on suppose l'hypothse H1. C'est pourquoi la phase d'estimation de qualit d'un test de diagnostic mdical est ralise sur deux sries d'chantillons : - les personnes saines - les personnes malades Puissance d'un test statistique Puissance statistique d'un test = 1- = Probabilit d'accepter H1 alors qu'elle est vraie,

pour donn. Pour un risque donn, le test le plus puissant est celui qui a le plus faible et donc la plus grande puissance statistique. Le terme puissance vient des test mdicaux, o H1= le patient est malade. La puissance du test est la probabilit de diagnostiquer un patient malade. Elle a intrt tre bonne ! tapes d'un test d'hypothse (1) Formuler ses hypothses Poser H0 et H1 (2) Identifier la probabilit d'avoir les rsultats exprimentaux

La probabilit est calcul en supposant H 0 vraie (3) En dduire le seuil de signification Elle dpend du risque tolr et de la formulation de H 1 (4) Tirer une conclusion Comparer les rsultats obtenus la valeur seuil. Exemple Les adultes normaux en bonne sant tapent du doigt un rythme moyen de 100 tapotements en 20 secondes, avec un cart-type de 20. On sait aussi que les vitesses de tapotements sont normalement distribues dans la population. Cependant, les personnes souffrant de troubles neurologiques tapent du doigt avec un rythme plus lent.

Vous prsentez un score de 70 tapotements en 20 secondes. tes-vous une personne normale mais lente ou d'une personne souffrant d un trouble neurologique ? Choix de l'hypothse (1) Formuler ses hypothses On peut formuler deux hypothses : Le traitement de ces deux hypothses n'est pas symtrique Je suis une personne normale, ne souffrant d'aucun trouble neurologique Je regarde si je suis dans la moyenne des personnes normales. Si non, j'carte l'hypothse tre une personne normale

Facile, j'ai toute les informations sur la loi de probabilit Je souffre d'un trouble neurologique Je regarde si je suis dans la moyenne des personnes avec trouble neurologique Si non, j'carte l'hypothse d'tre une personne normale Mais je n'ai pas assez d'informations sur la loi de probabilit pour conclure! On sait seulement que sa moyenne est infrieure 100 Exemple Choix de l'hypothse (1) Formuler ses hypothses H0 = Je suis une personne normale H1 = Je souffre d'un trouble neurologique.

Mon score de tapotements est infrieure celle d'une personne normale Exemple Identification de la distribution (2) Identifier la probabilit d'avoir les rsultats exprimentaux Si je suis une personne normale (H0), la loi de probabilit du score de tapotements est donne par une loi normale de moyenne 100 et d'cart-type 20 Exemple Estimation du seuil (3) Estimer le seuil de signification

Comme rien ne m'est indiqu, je prends la valeur de risque par dfaut : 5% C'est un test unilatral ( gauche) J'ai ma disposition la table de la loi normale, je calcule donc la valeur standardise seuil l'aide de la fonction de rpartition zseuil=Inv(F(0.05))=-1.65 Exemple Dcision (4) Dcision La valeur normalise correspondant mes donnes est z=(x-)/n=(70-100)/n20=-1.5

C'est suprieur zseuil=-1.65 Je ne rejette pas l'hypothse H0 Je conclus donc que mon faible score de tapotements ne permet pas de dire que je suis anormale Noter que le test n'a pas prouv que je suis normale! Exemple Illustration graphique II-c) Comparaison de deux populations Cas d'chantillons de grande taille

Nous avons deux chantillons : l'un de moyenne M1 et de variance sx1 reprsentatif d'une population (1,1) l'autre de moyenne M2 et de variance sx2 reprsentatif d'une population (2,2) Comparaison de deux moyennes d'chantillons On trouve M1M2. Doit-on pour autant conclure que 12 ? Ce n'est pas vident, car la diffrence peut tre due la variabilit de la population. Comme

il y a incertitude due la variabilit, on veut vrifier si il y a galit des moyennes des population , on applique la thorie des tests statistiques Comparaison de deux moyennes d'chantillons (1) Formuler ses hypothses On veut savoir si les deux moyennes 1et 2 sont gales. H0 : 1=2 Nous verrons qu'on peut alors tudier la probabilit que les deux moyennes d'chantillons M1 et M2soient trs diffrentes.

On a plusieurs possibilits dans le chois de H 1 H1 : 1<2 H1 : 12 H1 : 1> 2 Le choix de H1 va conditionner la latralit du test. Comparaison de deux moyennes d'chantillons (2) Identifier la probabilit d'avoir les rsultats exprimentaux Lors du calcul de l'intervalle de confiance de la moyenne, nous avons vu que la distribution d'chantillonnage

de la moyenne tait diffrentes dans deux cas : L'chantillon est de grande taille L'chantillon est de petite taille Rappels - chantillons de grande taille Dans le cas des chantillons de grande taille (n>30), le thorme central limite nous indique que la distribution d'chantillonnage de la moyenne suit une loi normale de moyenne et de variance /nn o est la moyenne de la population et la variance de la population. Si n'est pas connue, elle peut tre approxime

par la variance calcule sur l'chantillon s x chantillons de grande taille On en dduit donc que : la moyenne du premier chantillon de grande taille, M1, est une variable alatoire qui suit une loi normale de moyenne 1 et de variance sx1/nn1 la moyenne du premier chantillon de grande taille, M2, est une variable alatoire qui suit une loi normale de moyenne 2 et de variance sx2/nn2 Somme de 2 variables alatoires normales

Soient X1 et X2 deux variables alatoires indpendantes qui suivent chacune une loi normale pour X1 de moyenne 1 et de variance 1 pour X2 de moyenne 2 et de variance 2 Alors on peut montrer que X1+X2 est aussi une variable alatoire suivant une loi normale, de moyenne 1+2 et de variance 1+2 Diffrence de 2 variables alatoires normales Soient X1 et X2 deux variables alatoires

indpendantes qui suivent chacune une loi normale pour X1 de moyenne 1 et de variance 1 pour X2 de moyenne 2 et de variance 2 Alors on peut montrer que X1-X2 est aussi une variable alatoire suivant une loi normale, de moyenne 1-2 et de variance 1+2 Diffrence de 2 variables alatoires normales Illustration graphique

Diffrence de 2 moyennes Les deux moyennes M1 et M2 sont dans ce cas. Alors on en dduit que M1-M2 est aussi une variable alatoire suivant une loi normale, de moyenne 1-2 et de variance sx1/nn1+sx2/nn2 Diffrence de 2 moyennes normalisation On normalise : Z

X M1 M2 s 2 x1 n1 1

s 2 2 x2 n2 Dans le cas gnral, on ne peut pas conclure puisqu'on ne connat pas 1-2 (c'est la diffrence qu'on cherche dterminer!)

Diffrence de 2 moyennes normalisation Mais en supposant H0 : 1=2 Z M1 M2 s 2 x1 n1

s 2 x2 n2 La normalisation est possible. On peut continuer. Dcision statistique (3) Estimer le seuil de signification

H1 : 1<2 H1 : 1>2 H1 : 12 Dcision statistique (4) Dcider

On regarde si la valeur M1 M2 Z 2 2 s x1 s x2 n1 n2 tombe dans l'intervalle d'acceptation de H0 : 1=2. Si non, on rejette H0 et on prend l'hypothse H1

Si oui, on garde H0. On n'aura pas prouv H0, tout ce qu'on peut dire c'est qu'on n'a pas assez d'lment pour rejeter H0 Mieux raliser son exprience Diminuer la tolrance de risque entrane une erreur plus grande Il y a un compromis faire entre confiance (1-) et puissance (1-) Si on veut mettre en vidence l'effet d'un paramtre, on peut jouer sur deux aspects : la distance entre les deux valeurs du paramtres

Mettre de fortes doses le nombre d'lments dans l'chantillon Problme des chantillons de petite taille On avait pu effectuer l'tape (2) Identifier la probabilit d'avoir les rsultats exprimentaux dans le cas des grands chantillons grce au thorme central limite Mais il ne s'applique pas au cas des petits chantillons !

Rappels - chantillons de petite taille (2) Identifier la probabilit d'avoir les rsultats exprimentaux Dans le cas des chantillons de petite taille (n<30), dont la variable alatoire mesure suit une loi normale, de moyenne et de variance , la distribution d'chantillonnage de la moyenne est aussi une loi de normale de moyenne et de variance /nn Diffrence de 2 moyennes Les deux moyennes M1 et M2 sont dans ce cas.

Alors on en dduit que M1-M2 est aussi une variable alatoire suivant une loi normale, de moyenne 1-2 et de variance 1/nn1+2/nn2 Rappels - chantillons de petite taille Le nombre d'lments dans l'chantillon n'est pas suffisant pour approximer la variance de la population, , par la variance calcule sur l'chantillon s x. On ne connat donc ni 1, ni 2, et on ne peut pas calculer Z. Nous sommes coincs!

Hypothse d'galits des variances On peut s'en sortir si on suppose que les variances des deux populations sont gales : 1=2= Hypothse d'galits des variances 1=2= Alors on peut calculer Z Z s

M1 M2 2 2 n1 n2 M1 M2 1 n1

1 n2 On ne connat pas ? On l'approxime par 2 2 n1 1 s x1 n 2 1 s x2 2 n 1

n 2 Hypothse d'galits des variances Et on remarque que t M1 M 2 t 1 1 s n1 n 2 est une variable de Student (n1+n2-2) degrs de libert Dcision statistique (3) Estimer le seuil de signification

H1 : 1<2 H1 : 1>2 H1 : 12 Dcision statistique

(4) Dcider On regarde si la valeur M1 M2 Z 2 2 s x1 s x2 n1 n2 tombe dans l'intervalle d'acceptation de H0 : 1=2.

Si non, on rejette H0 et on prend l'hypothse H1 Si oui, on garde H0. On n'aura pas prouv H0, tout ce qu'on peut dire c'est qu'on n'a pas assez d'lment pour rejeter H0 Robustesse d'un test Un test est dit robuste s'il persiste donner de bons rsultats mme si ses conditions d'applications ne sont pas respectes Dans le cas du test de Student d'galit des moyennes, il y deux hypothses : - l'hypothse de normalit de la variable mesure peu robuste - l'hypothse d'galit des variances des deux populations

peu robuste Comparaisons de moyennes Xi variable alatoire Xi variable alatoire quelconque normale (,) 2 grands chantillons 2 petits chantillons test Z

(,/nn) connu test Z (,/nn) inconnu test de Student Test d'galit des variances Pourquoi comparer deux variances ? Dans le cas des petits chantillons, la comparaison de deux moyennes ncessitent l'emploi du test de Student d'galit des moyennes. Ce test suppose l'galit des variances

des deux populations comparer. Il s'avre peu robuste tout manquement cette hypothse. Il vaut donc mieux tester cette hypothse. Comparaison de deux variances d'chantillons On trouve sx1sx2 Doit-on pour autant conclure que 12 ? Ce n'est pas vident, car la diffrence peut tre due la variabilit de la population. Comme il y a incertitude due la variabilit, on veut vrifier si il y a galit des variances

des population , on applique la thorie des tests statistiques Test de comparaison de deux variances (1) Formuler ses hypothses On veut savoir si les deux variances 1 et 2 sont gales. H0 : 1=2 Nous verrons qu'on peut alors tudier la probabilit que les deux variances d'chantillons sx1 et sx2 soient trs diffrentes. On a plusieurs possibilits dans le choix de H 1 H1 : 1<2 H1 : 12

H1 : 1> 2 Le choix de H1 va conditionner la latralit du test. Test d'galit des variances (2) Identifier la probabilit d'avoir les rsultats exprimentaux Peut-on comparer les variances en regardant la loi de probabilit de (sx1-sx2) comme nous l'avons fait pour la moyenne? Non, car lors de l'estimation de la variance sx, nous avons vu que celle-ci suivait non pas une loi de probabilit normale, mais tait lie une loi de de degr (n-1).

On ne connat pas de loi de probabilit simple associe (sx1-sx2) Distribution d'chantillonnage d'une variance La variance est relie une loi du 2 n 1 sx 2 n

Xi Mn n 2 i 1 Xi 2

i 1 est en effet une somme de variable alatoires standardises c'est dire une variable de de (n-1) degrs de libert dont la distribution de probabilit est connue. Elle n'a que (n-1) degrs de libert, car pour assimiler sx , on a suppos Mn X 1 X 2 ... X n n

Comparaison de deux variances Si on ne peut estimer la probabilit d'obtenir (sx1-sx2), on peut par contre travailler sur sx1/nsx2. En effet, F s s 2 x1 2 x2

2 1 2 2 a une distribution de probabilit connue. La variable F est en effet une variable de Fisher. Variable de Fisher Soient 12 et 22 deux variables de Pearson, respectivement de degrs de libert 1 et 2 La variable

F 2 1 2 2 1 2 est une variable alatoire suivant une loi de Fisher-Snedecor 1 et 2 degrs de libert

La variable de Fisher sera utilise pour comparer deux variances Variable de Fisher En effet, chaque rapport sxi/ni s'crit s 2 xi 2 i

2 ni 1 o i est une variable du i=(ni-1) degrs de liberts 2 n i 1 Xi 2

Loi de Fisher-Snedecor La variable de Fisher suit une distribution de probabilit dite de Fisher-Snedecor 1 et 2 degrs de libert connue (ses valeurs sont stockes dans des tables) Elle a une expression complexe rarement directement utilise 1 p F

C F 1, 2 1 2 1

1 F 2 2 2 Loi de Fisher-Snedecor 1 2

1 2 2 2 2 1 1

2 2 2 2 2 2 4

Loi de Fisher-Snedecor La loi de Fisher-Snedecor est tabule. Vous pouvez : Utiliser une table (TD) Utiliser un logiciel (Excel, Matlab) Loi de Fisher-Snedecor (2) Identifier la probabilit d'avoir les rsultats exprimentaux On connat donc la loi de probabilit associe la variable F

s s 2 x1 2 x2 2 1 2 2

Malheureusement, on ne connat pas F car on ne connat ni sx1, ni sx2. Sauf si H0 : 1=2 Loi de Fisher-Snedecor (2) Identifier la probabilit d'avoir les rsultats exprimentaux H0 : 1=2 2 x1 F s s

2 x2 F est une variable de Fisher, suivant une loi de Fisher-Snedecor (n1-1) et (n2-1) degrs de libert. Dcision statistique (3) Estimer le seuil de signification

H1 : 1<2 H1 : 1>2 H1 : 12 Dcision statistique (4) Dcider On regarde si la valeur 2 2

x1 x2 tombe dans l'intervalle d'acceptation de H0 : 1=2. Si non, on rejette H0 et on prend l'hypothse H1 Si oui, on garde H0. F s s On n'aura pas prouv H0, tout ce qu'on peut dire c'est qu'on n'a pas assez d'lments pour rejeter H0 Courbe de puissance Diminuer la tolrance de risque entrane une erreur plus grande

la distance entre les deux valeurs du paramtres Mettre de fortes doses Pour estimer la dose limite partir de laquelle le test pourra tre concluant on peut dresser la courbe de puissance qui donne 1-=f() Comparaison de moyennes Les cas sont diffrents suivant que l'on compare : une moyenne d'chantillon une valeur rfrence deux moyennes d'chantillons de mme variance deux moyennes d'chantillons de variances diffrentes

Comparaison d'une moyenne une rfrence La pression artrielle est prise comme une variable alatoire de moyenne et de variance 2 On veut tester si un mdicament permet de baisser la pression artrielle. On suppose que la population traite a la mme variance 2 Comparaison d'une moyenne une rfrence (1) Formuler ses hypothses

H0: Mme distribution X=+ H1 : Le traitement a modifi la valeur moyenne X=++ On ne connat pas la valeur de , mais on suppose <0 Hypothse d'galit des variances On suppose que la variance associe la variabilit rsiduelle est la mme pour la population traite et la population originale

Comparaison d'une moyenne une rfrence Pour tester le mdicament, on mesure la pression artrielle sur un chantillon traite et on compare la moyenne de la population saine. On suppose H0. Comme on connat la probabilit d'obtention des rsultats dans ce cas, on peut dterminer une valeur seuil. Si les rsultats exprimentaux ne sont pas compatibles avec la valeur seuil, l'hypothse H0 est rejete. Sinon elle est accepte. Comparaison d'une moyenne une

rfrence Puisque H1 est asymtrique (<0) le seuil est calcul par P tapes d'un test d'hypothse (1) Formuler ses hypothses Poser H0 et H1 (2) Choix du test appropri Le cours est l pour vous prsenter les tests (3) Spcifier un niveau de signification () et la taille de l'chantillon (N) (4) Trouver la distribution d'chantillonnage

du test statistique (5) Calculer la rgion de rejet (6) Tirer une conclusion Si la probabilit est trs faible, on rejette l'hypothse Hypothse statistique Puissance statistique : (1-

cest laptitude mettre en vidence une diffrence lorsquelle existe cf Test diagnostic : sensibilit on calcule un nombre de sujets ncessaire pour obtenir une puissance donne Hypothse statistique 6. Le degr de signification ( p ) Ex : si les taux de succs sous corticodes et sous placebo sont identiques, la probabilit dobserver une telle

diffrence (i.e. 51,2% vs 23,8%) ou une diffrence plus grande encore est de 0,009 Hypothse statistique Dfinition : quantifie le dsaccord entre ce quon observe et lhypothse nulle H0

la probabilit dobserver des rsultats au moins aussi en dsaccord avec lhypothse nulle H0 que ceux quon a observs Hypothse statistique Interprtation :

plus le degr de signification est faible, plus on est convaincu que les rsultats observs ne sont pas en cohrence avec lhypothse nulle Hypothse statistique ATTENTION !!!! (1) Le degr de signification nous permet daffirmer avec plus ou moins de conviction quil y a une diffrence, mais en aucun cas il ne nous renseigne sur limportance de cette diffrence Hypothse statistique

Exemple : 1) 22/n43 (51,2%) vs 10/n42 (23,8%) Diffrence defficacit = 27,4% (p = 0,009) 2) 14/n22 (63,6%) vs 5/n21 (23,8%) Diffrence defficacit = 39,8% (p = 0,009)

3) 1104/n4200 (26,3%) vs 1000/n4200 (23,8%) Diffrence defficacit = 2,5% (p = 0,009) Test d'hypothse Test d'hypothse = dtermination de la plausibilit qu'un paramtre d'un modle prenne des valeurs diffrentes dans des populations distinctes, afin de mettre en vidence, ou non, un effet d'un facteur exprimental sur une population. Hypothse statistique

La valeur de p dpend : de la diffrence observe entre les deux groupes de la taille dchantillon Sil existe une diffrence relle, aussi infime soitelle, entre 2 groupes, nimporte quel test statistique va aboutir une valeur de p infrieure 0,05, ds lors que le nombre de sujets tudis

sera important Hypothse statistique La signification statistique nimplique pas la pertinence clinique Courbe de puissance d'un test statistique Souvent on ne connat pas la loi de probabilit de H 1 car il nous manque un seul paramtre. Dans le cas du d, ce serait de connatre la probabilit de tirer un 1

Courbe de puissance (d'un test statistique) = Courbe caractristique d'efficacit = Fonction donnant 1- pour chaque valeur du paramtre inconnu de H 1, pour donn. Hypothse statistique ATTENTION !!!! (2) Ne pas mettre en vidence de diffrence statistiquement significative entre deux groupes ne signifie pas quil y ait quivalence entre les deux groupes

Hypothse statistique Ex : 0/n3 (0,0%) vs 3/n3 (100,0%) Diffrence defficacit = 100,0% p = 0,010 (test exact de Fisher) Hypothse statistique

Un rsultat non statistiquement significatif peut avoir 2 causes : lhypothse H0 est vraie (i.e. il y a quivalence entre les deux groupes) la puissance statistique nest pas suffisante (i.e. nombre de sujets insuffisant) III Infrence statistique

en tudiant plusieurs paramtres Sources de variabilit Imprcision Inexactitude Si la mesure effective diffre de la valeur relle, on parle alors d'inexactitude. Elle souvent due une erreur dans le protocole exprimental. Elle est aussi introduite lorsqu'on tudie un chantillon peu reprsentatif de la population. Attention : l'inexactitude peut tre masque par l'incertitude

Sources de variabilit (2) Diffrences individuelles Les lments de l'chantillon sont diffrents. Sources de variabilit (3) Diffrences factorielles Les lments placs dans un environnement diffrent ont des proprits diffrentes. On cherche souvent caractriser de telles

diffrences. Sources de variabilit Variabilit rsiduelle = imprcision + variabilit individuelle Variabilit totale = variabilit rsiduelle + variabilit factorielle Bruit Information

Sources de variabilit Population Variabilit factorielle Variabilit individuelle Incertitude Facteur = a El 1

El 2 El 3 Facteur = b Facteur = c Reprer les sources de variabilit

(1) Imprcision : faire la mesure 2 fois, dans les mmes conditions, sur le mme lment. (2) Variabilit individuelle : faire la mesure dans les mmes conditions, sur au moins 2 lments. (3) Variabilit factorielle : faire la mesure dans les mmes conditions, sur au moins 2 lments sur 2 niveaux de ce facteur. Rduire les sources de variabilit (1) Imprcision : Amliorer la technique de mesure (2) Variabilit individuelle : Standardiser l'exprience en ne mlangeant pas diffrentes

groupes dans l'tude. Bien dfinir la population (3) Variabilit factorielle : Irrductible. La variabilit factorielle est souvent ce que l'on veut mettre en vidence. Modlisation On identifie la variabilit factorielle sous-groupe i individu i,j de ce sous groupe X = +a + e

Paradoxe des statistiques Une tude cherche tester une hypothse On pourra : - ventuellement prouver la validit de l'hypothse - mais jamais l'infirmer ! Il faut donc choisir la bonne hypothse Unilatral ou bilatral ? Il y a beaucoup de faons de contredire H0, ce qu'on retrouve dans le choix de la latralit du test, ce qui se retrouve dans la formulation de H1, Le test est bilatral si l'hypothse H1 est symtrique.

Ex : d pip Le test est latral si l'hypothse H1 est dissymtrique. Ex : d pip vers les petites valeurs Dcision statistique Le chiffre 4 est de peu suprieur au seuil de rejet. Je dcide donc que le d n'est pas normal. Pour conclure de manire plus convaincante, j'aurais d faire plus de lancers!

Recently Viewed Presentations

  • Project Finance - Higher School of Economics

    Project Finance - Higher School of Economics

    ГОСУДАРСТВЕННЫЙ УНИВЕРСИТЕТ ВЫСШАЯ ШКОЛА ЭКОНОМИКИ И.И.РОДИОНОВ ВЕНЧУРНЫЙ КАПИТАЛ
  • Bus Law..Spr 2015 CHAPTER 8 9 10 11

    Bus Law..Spr 2015 CHAPTER 8 9 10 11

    9-1 Contractual Capacity for Individuals and Organizations. 9-2 Limits on the Rights of those WITHOUT CAPACITY. Monday, March 9, 2015Class Starter Please get a textbook and your workbooks. Please complete: Read Pp. 154-162. Definitions on page 51 (wkbook)
  • Chapter 7 Manager as Leader - Ms. Baumgartner&#x27;s Website

    Chapter 7 Manager as Leader - Ms. Baumgartner's Website

    Human relations is the way people get along with each other The important human relation skills of managers are: Self-understanding (understand your own strengths and weaknesses)
  • Balance and Falls SIG Journal Club November 22, 2016

    Balance and Falls SIG Journal Club November 22, 2016

    Measured cognition, balance, and mobility (single-support balance, dynamic posturography, sit-to-stand, 40-foot walk) under single- and dual-task conditions. The computer game training group completed five sessions of cognitive dual-task training spaced at least 2 days apart.
  • Part VI: Measurement Perspectives on &quot;Alginment&quot;

    Part VI: Measurement Perspectives on "Alginment"

    Findings Strong match with grade level standards, but selective use of standards Overall alignment strong 78-94% of alternate assessment items in three states could be directly linked with one of their grade level academic content standards for reading & math...
  • Energy from the Sun Workshop Introduction to Photovoltaics

    Energy from the Sun Workshop Introduction to Photovoltaics

    Photovoltaic systems are ideal for remote applications where other power sources are impractical or unavailable, such as in the Swiss Alps or on navigational buoys. It is not practical to connect these applications to an electric grid. They are also...
  • Prevodnica - CHTr

    Prevodnica - CHTr

    In 1963, after 150 yrs of existence of this water way with 11 locks the construction of a huge water carousel started. This extraordinary idea was finished in 2002 and became a symbol of Scotland. This invention saves not only...
  • Football History - Amazon Web Services

    Football History - Amazon Web Services

    Average of 900 kids per tournament, or total of 45,000 From this, 52 Regional teams selected to participate in 9 Provincial tournaments 9 Provincial Teams then to play in National tournaments Outcome - Talent Pyramid Pyramid for each age cohort...