STATISTIKA 2 Statistika a statistické zpracování dat
Blok 3-1
in Fišer 29. listopadu 2024
			
Jiří Fišer (MVŠO)		YSTA2-03-1	29. listopadu 2024 1/37
Význam testování statistických hypotéz
9 Testování hypotéz je základním nástrojem statistické analýzy.
• Umožňuje ověřit tvrzení o parametrech populace na základě výběrových dat.
• Nejčastější testované parametry:
► Střední hodnota (/i),
► Rozptyl (a2),
► Další parametry (např. proporce, rozdíly mezi skupinami).
• Praktické uplatnění: věda, průmysl, medicína, ekonomie a další oblasti.
Jiří Fišer (MVŠO)
YSTA2-03-1
Statistická hypotéza
Definice: Statistická hypotéza je tvrzení o parametru základního souboru ověřitelné výběrovými daty.
Typy hypotéz
• Nulová hypotéza (Hq): Výchozí tvrzení, které testem ověřujeme.
► Příklad: ^ = 0 (průměrná hodnota je nulová). Příklad:
Mi — M2 (mezi dvěma skupinami neexistuje rozdíl).
• Alternativní hypotéza (Hi): Tvrzení opačné k H0.
► Příklad: /i ^ 0 (průměrná hodnota se liší od nuly). Příklad:
Mi — M2 (existuje rozdíl mezi dvěma skupinami).
Jiří Fišer (MVŠO)		YSTA2-03-1	29. listopadu 2024 3/37
Příklad: Analogie se soudním procesem
Analogie: Rozhodujeme, zda obžalovaný spáchal zločin.
Formulace hypotéz
• Nulová hypotéza (H0): Obžalovaný je nevinen.
• Alternativní hypotéza (H-i): Obžalovaný je vinen.
Princip: Obžalovaný je považován za nevinného (H0), dokud se nepodaří prokázat jeho vinu (H-i).
Výsledek rozhodnutí
• Zamítneme H0: Obžalovaný je prokázán jako vinen.
• Nezamítneme H0: Vina nebyla prokázána, obžalovaný je považován za nevinného.
Jiří Fišer (MVŠO)		YSTA2-03-1	29. listopadu 2024 4/37
Formulace výsledku testu
Možné výsledky testu
• Zamítáme nulovou hypotézu (H0) ve prospěch alternativní hypotézy (H-i): Bylo prokázáno, že je vinen.
• Nulovou hypotézu nemůžeme zamítnout: Vina nebyla
prokázána (možnost neviny stále existuje).
	
Interpretace v soudním procesu	
• H0: Obžalovaný je nevinen.	
• H-|: Obžalovaný je vinen.	)
			
Jiří Fišer (MVŠO)		YSTA2-03-1	29. listopadu 2024 5/37
Chyby rozhodnutí v testování hypotéz
Tab. 3: Vztah mezi pravdou a rozhodnutím soudu
	Závěr soudu	
Skutečnost	Obžalovaný je nevinen	Obžalovaný je vinen
Obžalovaný je nevinen	správný	chyba I. druhu
Obžalovaný je vinen	chyba II. druhu	správný
Význam chyb
• Chyba I. druhu (a): Nevinný je prohlášen za vinného - velmi závažné.
• Chyba II. druhu     Vinný není potrestán - méně závažné v
tomto kontextu.				
				
Jiří Fišer (MVŠO)	YSTA2-03-1	29. listopadu 2024	6/37	
Jednostranné a oboustranné testy
Typy hypotéz podle formulace
• Jednostranná hypotéza: Parametr základního souboru je větší nebo menší než určitá hodnota (ne obojí).
► Příklad: H0 : m < 100, Hi : n > 100.
• Oboustranná hypotéza: Parametr základního souboru se může lišit na obě strany.
► Příklad: H0 : m = 100, ^ : ^ 100.
Poznámka k volbě testu
Volba mezi jednostranným a oboustranným testem závisí na výzkumné otázce:
• Jednostranný test: Zaměřený na rozdíl v konkrétním směru.
• Oboustranný test: Zvažuje jakýkoliv rozdíl, bez ohledu na směr.
Jiří Fišer (MVŠO)		YSTA2-03-1	29. listopadu 2024 7/37
Testovací statistika
Definice
Testovací statistika je číselná hodnota vypočítaná z dat výběru, která vyjadřuje, jak daleko se výsledek výběru odchyluje od hodnoty předpokládané nulovou hypotézou.
Využití testovací statistiky
• Slouží k rozhodnutí, zda zamítnout nebo nezamítnout nulovou hypotézu (Ho).
• Porovnává se s tzv. kritickou hodnotou.
Jiří Fišer (MVŠO)
YSTA2-03-1
Hladina významnosti, kritický obor a kritické hodnoty
Hladina významnosti (a) • Pravděpodobnost zamítnutí nulové hypotézy (H0), i když je
pravdivá.
• Reprezentuje chybu prvního druhu.
• Typické hodnoty: a = 0,05 nebo a = 0,01.
	
Kritický a akceptační obor • Kritický obor: Interval, kde zamítáme H0. • Akceptační obor: Interval, kde H0 nezamítáme.	
	
Kritická hodnota • Hodnota, která odděluje kritický obor od akceptačního. • Závisí na hladině významnosti {a) a použitém testu.	
Jiří Fišer (MVŠO)
YSTA2-03-1
29. listopadu 2024 9/37
Levostranný jednostranný test
• Hypotézy:
► /-/0 : /i >
► Hi : n < /no
• Kritický obor: Na levé straně rozdělení testovací statistiky.
• Podmínka: Pokud hodnota testovací statistiky < kritická hodnota
(pro a), zamítáme H0.
3-2-10        1        2 3
t
Obr. 16: Jednostranný test s kritickým oborem (vlevo): (—co,—2) a akceptačním oborem: (-2;oo)
Pravostranný jednostranný test
• Hypotézy:
► /-/0 : /i <
► H-\ : fi > fiQ
• Kritický obor: Na pravé straně rozdělení testovací statistiky.
• Podmínka: Pokud hodnota testovací statistiky > kritická hodnota
(pro 1 - a), zamítáme H0.
Obr. 17: Jednostranný test s kritickým oborem (vpravo): (2; oc) a akceptačním oborem: (—oo; 2)
Kritické a akceptační obory: Oboustranný test
o Hypotézy:
• Kritický obor:
► Levá strana: Hodnoty menší než kritická hodnota (a/2).
► Pravá strana: Hodnoty větší než kritická hodnota (1 - a/2). 9 Podmínka: Pokud hodnota testovací statistiky:
► < levá kritická hodnota nebo > pravá kritická hodnota,
zamítáme H0.
-2-10        1        2 3 t
Obr. 18: Oboustranný test s kritickým oborem (vlevo a vpravo): (—00; —2,2) U (2,2; 00) a ak-ceptačním oborem: (—2,2; 2,2)
			
Jiří Fišer (MVŠO)	YSTA2-03-1	29. listopadu 2024	12/37
Kroky při testování statistické hypotézy
Testování hypotéz se provádí v následujících krocích: O Formulace hypotéz:
► Nulová hypotéza (H0): Výchozí předpoklad.
► Alternativní hypotéza       Opačný stav.
O Výběr statistického testu:
► Např. ř-test, z-test pro průměry, F-test pro porovnání rozptylů. O Stanovení hladiny významnosti (a):
► Nejčastěji a = 0,05 nebo a = 0,01.
► Reprezentuje pravděpodobnost chyby I. druhu.
O Výpočet testovací statistiky:
► Na základě dat vypočítáme hodnotu ř, z, F apod. O Určení kritické hodnoty a rozhodnutí:
► Porovnáme testovací statistiku s kritickou hodnotou.
► Rozhodneme, zda H0 zamítneme nebo nezamítneme.
			
Jiří Fišer (MVŠO)		YSTA2-03-1	29. listopadu 2024 13/37
t-test
t-test sc používá, když:
Velikost vzorku je malá (obvykle n < 30) a neznáme rozptyl populace.
• Testujeme hypotézu o střední hodnotě nebo o rozdílu středních hodnot dvou souborů (jednovýběrový, dvouvýběrový nebo párový t-test).
Data pochází z normálního rozdelení, nebo lze předpokládat jejich normální rozdělení.
Používá rozdělení: Studentovo t-rozdčlcní o (n-1) stupních volnosti.
Typické použití:
Když chceme ověřit, zda je průměrná hodnota výběru statisticky významně odlišná od hypotetické hodnoty (např. průměrná výkonnost strojů).
			
Jiří Fišer (MVŠO)	YSTA2-03-1	29. listopadu 2024	14/37
z-test
z-test sc používá když:
• Velikost vzorku je velká (obvykle n > 30) nebo známe rozptyl populace.
Testujeme hypotézu o střední hodnote nebo o proporci (např. procento zákazníků, kteří jsou spokojeni).
Data mohou pocházet z jakéhokoli rozdelení, protože při velkých vzorcích využíváme přiblížení normálnímu rozdělení (centrální limitní věta).
Používá rozdělení: Normovane normální rozdělení.
Typické použití:
Když máme velký vzorek a chceme ověřit průměrnou dobu trvání nějakého procesu (např. dobu čekání zákazníků v bance).
			
Jiří Fišer (MVŠO)	YSTA2-03-1	29. listopadu 2024	15/37
F-test
F-test sc používá když:
♦ Testujeme hypotézu o shodě rozptylů dvou populací. Oba výběry pocházejí z normálního rozdělení.
Používá rozdělení: F-rozdělení o (n-1) stupních volnosti. Typické použití:
Když chceme ověřit, zda sc lisí rozptyl výkonnosti dvou strojů nebo dvou skupin.
Jiří Fišer (MVŠO)		YSTA2-03-1	29. listopadu 2024 16/37
Řešený příklad: Testování průměrné doby čekání v bance
Zadání: Banka předpokládá, že průměrná doba čekání na obsloužení je fi0 = 10 minut. Výběr z 35 zákazníků přinesl následující údaje:
• Výběrový průměr: x = 9,5 minut,
• Výběrová směrodatná odchylka: s = 2 minuty,
• Velikost výběru: n = 35.
Cíl: Zjistit, zda se průměrná doba čekání všech zákazníků liší od předpokladu.
Jiří Fišer (MVŠO)		YSTA2-03-1	29. listopadu 2024 17/37
Řešený příklad: Testování průměrné doby čekání v bance
U vod:
• Pro odhad průměrné doby čekání bychom mohli použít intervalový odhad.
• Vedení banky ale požaduje, aby průměr nebyl ani statisticky významně vyšší, ani nižší než 10 minut.
• Použijeme oboustranný test.
Řešený příklad: Formulace hypotéz
• Nulová hypotéza (H0):
H0 : n = 10  (průměrná doba odpovídá požadavkům vedení).
• Alternativní hypotéza (H^:
Wi : /i   10  (průměrná doba neodpovídá požadavkům vedení).
□      S1       - =
Řešený příklad: Volba testu a hladina významnosti
• Volba testu:
► Použijeme z-test, protože vzorek je dostatečně velký (a? = 35 > 30).
► Výběrová směrodatná odchylka (s = 2) slouží jako odhad neznámé populační odchylky.
• Hladina významnosti:
► Zvolíme a = 0,05, což odpovídá 5% pravděpodobnosti chyby I. druhu.
□    [fp -
Řešený příklad: Výpočet testovací statistiky; Kritické hodnoty a rozhodnutí
Výpočet testovací statistiky:
x- a 9,5-10 -0,5 _ An Z=^ = ^^ = ô^8ÍS-1'48
Kritické hodnoty:
► Kritické hodnoty pro a = 0,05 získáme pomocí funkce
norm.s.inv:
^0,025 = —1 ,96,    Zo,975 = 1,96.
► Kritický obor: (-00, -1,96) a (1,96,00).
► Akceptační obor: (-1,96; 1,96).
Jiří Fišer (MVŠO)
YSTA2-03-1
Řešený příklad: Graf a rozhodnutí
z
Obr. 19: Hustota normálního rozdělení, kritická hodnota a kritická oblast (a — 0,05) pro oboustranný test a hodnota testové statistiky (příklad 7.8)
• Rozhodnutí:
► Hodnota z = -1,48 spadá do akceptační oblasti (-1,96; 1,96).
► Nezamítáme H0.
Jiří Fišer (MVŠO)
YSTA2-03-1
Řešený příklad: Závěr
• Na hladině významnosti 5% nemáme důkaz, že by se průměrná doba čekání v bance významně lišila od 10 minut.
• Vedení banky může být spokojeno s aktuálním stavem průměrné doby čekání.
Jiří Fišer (MVŠO)
YSTA2-03-1
Řešený příklad: Testování průměrné životnosti součástky
Uvod:
• Firma zavedla nový výrobní proces a chce zjistit, zda zvýšil průměrnou životnost součástek.
• Dříve byla průměrná životnost součástek /i0 = 1000 hodin.
• Ze vzorku n = 30 součástek:
► Výběrový průměr: x = 1020 hodin,
► Výběrová směrodatná odchylka: s = 50 hodin.
Jiří Fišer (MVŠO)		YSTA2-03-1	29. listopadu 2024 24/37
Řešený příklad: Formulace hypotéz
a Nulová hypotéza (H0):
Ho: [i < 1000 (průměrná životnost se nezměnila nebo zhoršila). • Alternativní hypotéza (Hi):
Hy.fi> 1000  (průměrná životnost se zvýšila).
Jiří Fišer (MVŠO)
YSTA2-03-1
Řešený příklad: Volba testu a hladina významnosti
• Volba testu:
► Použijeme t-test, protože neznáme rozptyl populace a vzorek je malý (a? < 30).
• Hladina významnosti:
► Zvolíme hladinu významnosti a = 0,05, což odpovídá 5% pravděpodobnosti chyby I. druhu.
Řešený příklad: Výpočet testovací statistiky; Kritická hodnota
Vypočítáme testovací statistiku:
x-tM)    1020- 1000 20
9^3
' -      s      - 50 ~ «      ~ ^'Iy
n V30
• Výsledek: Hodnota ř = 2,19.
• Kritická hodnota:
► Získáme pomocí Excel funkce t . inv:
T.INV(0,95,29) = 1,699.
Řešený příklad: Graf a rozhodnutí
Obr. 20: Hustota t-rozdčlciií, kritická hodnota a kritická oblast (a = 0,05) pro jednostranný test a hodnota testové statistiky ležící v kritické oblasti (příklad 7.9)
• Rozhodnutí:
► Hodnota t = 2,19 je větší než kritická hodnota 1,699.
► Zamítáme H0 ve prospěch alternativní hypotézy
			
Jiří Fišer (MVŠO)		YSTA2-03-1	29. listopadu 2024 28/37
Řešený příklad: Závěr
Závěr:
• Na hladině významnosti 5% máme statisticky významný důkaz, že nový výrobní proces zvýšil průměrnou životnost součástek.
• Firma může být spokojena s účinkem změny výrobního procesu.
Jiří Fišer (MVŠO)
YSTA2-03-1
P-hodnota při statistickém testování
Úvod:
• P-hodnota je alternativní přístup k rozhodování o zamítnutí nebo nezamítnutí nulové hypotézy.
• Doplňuje koncepty kritických hodnot a kritického oboru. Definice:
P-hodnota
Pravděpodobnost, že při platnosti nulové hypotézy (H0) získáme tak extrémní nebo ještě extrémnější výsledek, než je ten, který jsme pozorovali.
Jiří Fišer (MVŠO)
YSTA2-03-1
Interpretace p-hodnoty
• Nízká p-hodnota (< a):
► Pozorovaná data jsou nepravděpodobná za předpokladu platnosti Ho-
► Zamítáme nulovou hypotézu.
• Vysoká p-hodnota (> a):
► Pozorovaná data jsou v souladu s H0.
► Nezamítáme nulovou hypotézu.
Pravidlo rozhodování:
• Pokud p < a, zamítáme H0.
• Pokud p> a, H0 nezamítáme.
Jiří Fišer (MVŠO)
YSTA2-03-1
Jak p-hodnotu vypočítat?
P-hodnota závisí na:
• Typu testu (např. jednostranný nebo oboustranný),
• Konkrétní testovací statistice (např. ř-statistika, z-statistika, F-statistika),
• Pozici pozorované hodnoty na odpovídajícím rozdělení pravděpodobnosti.
Jednostranný test (pravostranný):
p-hodnota = P(testová statistika > pozorovaná hodnota testové statistiky).
Oboustranný test:
• P-hodnota je dvojnásobek pravděpodobnosti na jedné extrémní straně rozdělení:
Jiří Fišer (MVŠO)
YSTA2-03-1
Použití p-hodnoty při rozhodování
Porovnání s hladinou významnosti a: 9 Pokud p < a: Zamítáme H0 ve prospěch H-|.
• Pokud p > a: Nulovou hypotézu H0 nezamítáme. Interpretace p-hodnoty:
• P-hodnota poskytuje míru důkazu proti H0.
• Menší p-hodnota znamená větší důkaz proti H0.
• Na rozdíl od kritických hodnot zohledňuje přesnou míru extrémnosti pozorovaných dat.
Jiří Fišer (MVŠO)
YSTA2-03-1
Shrnutí: Význam p-hodnoty
• P-hodnota ukazuje pravděpodobnost pozorování tak extrémního výsledku, jaký jsme naměřili, za předpokladu platnosti H0.
• Je nástrojem pro rozhodování v kontextu statistických testů.
• Čím je p-hodnota menší:
► Tím více se pozorovaná data dostávají do rozporu s H0.
► Tím větší je důkaz proti H0.
Jiří Fišer (MVŠO)
YSTA2-03-1
Výhody použití p-hodnoty
o Přesná míra důkazu: P-hodnota poskytuje přesnou míru síly důkazů proti nulové hypotéze, na rozdíl od kritických hodnot, které pouze rozhodují mezi zamítnutím a nezamítnutím.
o Flexibilita: Umožňuje porovnat výsledky více testů s různými hladinami významnosti.
o Snadnost použití: Většina statistických softwarů, včetně Excelu, poskytuje p-hodnoty automaticky, což usnadňuje rozhodování.
			
Jiří Fišer (MVŠO)		YSTA2-03-1	29. listopadu 2024 35/37
Výpočet p-hodnoty v Excelu
Funkce t.test: • Syntaxe:
T.TEST(maticel,  matice2,   chvosty, typ)
9 Popis parametrů:
► mat i cel, matice 2: Datové rozsahy.
► chvosty: Počet chvostů testu (1 = jednostranný, 2 = oboustranný).
► typ: Typ testu:
* 1 = Párový t-test,
* 2 = Dvouvýběrový t-test s rovností rozptylů,
* 3 = Dvouvýběrový t-test s nerovností rozptylů.
Jiří Fišer (MVŠO)
YSTA2-03-1
Alternativní metody výpočtu v Excelu
Doplněk Analýza dat:
• Obsahuje stejné tři typy t-testů:
► Dvouvýběrový t-test s rovností rozptylů,
► Dvouvýběrový t-test s nerovností rozptylů,
► Párový t-test.
9 P-hodnota je standardní součástí výstupu všech tří variant.
• Výhoda: Intuitivní uživatelské rozhraní pro analýzu dat.
			
Jiří Fišer (MVŠO)		YSTA2-03-1	29. listopadu 2024 37/37