STATISTIKA A STATISTICKÉ ZPRACOVÁNÍ DAT
STUDIJNÍ OPORA PRO KOMBINOVANÉ STUDIUM
Moravská vysoká škola Olomouc, o.p.s., 2024
STATISTIKA A STATISTICKÉ ZPRACOVÁNÍ DAT
RNDr. Jiří FISER , Ph.D.
© Moravská vysoká škola Olomouc, o. p. s. Autoři:       RNDr. Jiří FIŠER, Ph.D. Olomouc 2024
Obsah
Úvod 7
1 Základní statistické pojmy 9
1.1 U vod do statistiky .................................. 10
1.2 Populace a výběr................................... 11
1.3 Typy proměnných................................... 11
1.4 Popisná statistika................................... 13
1.5 Distribuce dat..................................... 14
1.6 Základy pravděpodobnosti.............................. 16
1.7 Testování hypotéz (úvod)............................... 18
1.8 Intervaly spolehlivosti................................. 19
1.9 Korelace a kauzalita ................................. 20
1.10 Historie a význam statistiky............................. 21
2 Zpracování dat z výběrových zjišťování 23
2.1 Úvodní příklad .................................... 24
2.2 Výběrová šetření ................................... 25
2.3 Prostý náhodný výběr................................ 27
2.4 Výběrové charakteristiky a jejich rozdělení..................... 29
2.5 Řešené příklady.................................... 32
3 Pravděpodobnost 39
3.1 Klasická pravděpodobnost.............................. 41
3.2 Podmíněná pravděpodobnost............................. 44
3.3 Geometrická pravděpodobnost............................ 48
3.4 Statistická pravděpodobnost............................. 49
3.5 Nezávislé jevy..................................... 52
3.6 Opakované pokusy.................................. 55
4 Náhodná veličina 62
4.1 Úvod a motivace ................................... 63
4.2 Rozdělení pravděpodobnosti diskrétní náhodné veličiny.............. 64
4.3 Rozdělení pravděpodobnosti spojité náhodné veličiny............... 67
4.4 Základní číselné charakteristiky........................... 70
5 Základní rozdělení pravděpodobnosti náhodných veličin 74
5.1 Diskrétní rozdělení pravděpodobnosti........................ 75
5.2 Spojitá rozdělení pravděpodobnosti......................... 80
6 Bodový a intervalový odhad 92
6.1 Statistické odhady .................................. 94
6.2 Bodový odhad..................................... 95
5
6.2.1 Metoda momentů............................... 96
6.2.2 Metoda maximální věrohodnosti.......................100
6.3   Intervalové odhady parametrů............................102
6.3.1 Intervalový odhad střední hodnoty .....................103
6.3.2 Intervalový odhad rozptylu..........................106
7 Testování statistických hypotéz 110
7.1 Statistické hypotézy.................................. 111
7.1.1 Jednostranné a oboustranné testy...................... 112
7.1.2 Testovací statistika.............................. 113
7.1.3 Hladina významnosti, kritický a akceprační obor a kritické hodnota ... 114
7.1.4 Kroky při testování hypotézy ........................ 117
7.2 P-hodnota při statistickém testování ........................ 122
8 Parametrické testy 127
8.1 Motivační příklad................................... 128
8.2 Úvod.......................................... 129
8.3 Hypotézy o rozptylu ................................. 130
8.3.1    Test významnosti rozdílu dvou rozptylů (F-test).............. 130
8.4 Hypotézy o střední hodnotě............................. 132
8.4.1 Jednovýběrový t-test............................. 132
8.4.2 Dvouvýběrový t-test............................. 135
8.4.3 Párový t-test ................................. 138
9 Neparametrické testy 142
9.1 Kolmogorovův-Smirnovův test dobré shody pro jeden výběr ...........144
9.2 Kolmogorovův-Smirnovův test dobré shody pro dva výběry............147
9.3 Chi-kvadrát test dobré shody ............................149
9.4 Dixonův test extrémních odchylek..........................150
10 Analýza rozptylu 154
10.1 Princip analýzy rozptylu...............................156
10.2 Jednofaktorová ANOVA...............................157
11 Korelační analýza 170
11.1 Princip korelační analýzy...............................171
11.2 Testování korelačního koeficientu ..........................174
12 Lineární regrese 177
12.1 Princip lineární regrese................................179
12.2 Odhad parametrů a interpretace...........................180
12.3 Testování významnosti regresních koeficientů....................181
Seznam literatury a použitých zdrojů 188 Seznam obrázků 189 Seznam tabulek 190
Úvod
Vítejte ve světě statistiky
Vítejte ve studijní opoře pro předmět Statistické zpracování dat, která je určena pro studenty navazujícího studia. Tato skripta vás provedou nejen základními teoretickými pojmy a koncepty statistiky ale také se zaměří na praktické aplikace, které jsou nezbytné pro analýzu a zpracování dat ve vaší budoucí praxi, například v oblasti ekonomie, managementu a marketingu.
Struktura skript
Struktura těchto skript je navržena tak, aby jednotlivé kapitoly na sebe logicky navazovaly a umožnily vám postupně prohlubovat vaše znalosti. Každá kapitola rozvíjí dovednosti, které jsou potřebné pro zvládnutí náročnějších témat v následujících částech.
Základní pojmy statistiky - Začínáme s přehledem základních statistických pojmů, jako je náhodný jev, náhodná veličina, pravděpodobnost a jejich rozdělení, které později budeme studovat podrobněji.
Zpracování dat z výběrových šetření - Zde se seznámíte s postupy, jak správně zpracovat a analyzovat data z reálného světa, včetně použití popisné statistiky a tabulkových výpočtů.
' Metody matematické statistiky - Následuje úvod do pokročilejších metod, jako jsou odhady parametrů a intervalové odhady. Naučíte se zde, jak se pracuje s výběrovými rozděleními a jak na základě nich činit závěry o celé populaci.
' Testování hypotéz - V této části vás naučíme, jak ověřovat hypotézy, a to jak parametrickými, tak neparametrickými testy, což je základní dovednost v každém výzkumu.
' Neparametrické testy - Pokud nejsou splněny předpoklady pro parametrické testy, neparametrické testy přicházejí na řadu a jsou nedílnou součástí analýzy statistických dat.
Regresní a korelační analýza - Pokročilejší techniky pro modelování vztahů mezi proměnnými a predikci budoucích hodnot. Tyto metody jsou hojně využívány například v marketingových analýzách.
Tato struktura vás provede od základů až po pokročilé aplikace, přičemž každá kapitola staví na znalostech z předchozích kapitol.
Co vás v kapitolách čeká
Každá kapitola začíná úvodní částí, která vás seznámí s tím, co bude v dané kapitole probíráno. V úvodu jsou vždy vytyčeny cíle, které byste měli po jejím prostudování zvládnout. Kapitoly dále obsahují:
' Teoretický výklad - Vysvětlíme vám podstatu jednotlivých statistických metod, postupů a jejich aplikace.
Řešené příklady - Každá kapitola obsahuje praktické příklady, které vám pomohou pochopit a procvičit si danou látku.
' Rámečky - Důležité informace jsou zvýrazněny v rámečcích, které obsahují klíčové body, jež byste si měli zapamatovat.
Shrnutí - Na konci každé kapitoly naleznete shrnutí hlavních bodů, které vám pomůže připomenout si probíranou látku.
Kontrolní otázky a příklady - Otázky na závěr kapitoly jsou vhodné pro kontrolu pochopení látky, kterou jste se právě naučili. Odpovědi na ně najdete vdané kapitole. U příkladů jsou uvedeny výsledky v hranatých závorkách, což vám umožní ověřit si správnost výpočtů.
Praktická aplikace a význam softwaru
Statistika je nástroj, který je v praxi neocenitelný, a to jak při analýze ekonomických dat, tak při řešení manažerských problémů. Ve skriptech se budeme zaměřovat nejen na teoretické znalosti, ale i na jejich praktické využití. Proto klademe důraz na řešení praktických úloh a jejich výpočty, které vám umožní lépe pochopit jednotlivé metody.
V průběhu studia zjistíte, že statistický software jako Excel a další nástroje budou vašimi skvělými pomocníky. Excel vám umožní jednoduše a efektivně řešit většinu statistických úloh, což je neocenitelná dovednost v každodenní praxi.
Motivace a podpora
Chceme, aby pro vás byla statistika zajímavá a přínosná. Neberte ji jako obtížný předmět, ale jako výzvu, která vám otevře dveře k lepšímu porozumění světu dat a informací. Každý příklad je tu proto, aby vás připravil na reálné situace, které vás mohou čekat v profesním životě. Naším cílem je, abyste si osvojili statistiku natolik, že ji budete schopni aplikovat s jistotou a bez obav.
Nebojte se chyb ani náročných úkolů, jsme tu proto, abychom vás podpořili na vaší cestě. Statistika není nepřekonatelná překážka, ale nástroj, který vám pomůže analyzovat svět kolem vás. Věříme, že tato skripta vám budou užitečným průvodcem a že se díky nim statistika stane nejen srozumitelnou, ale i zábavnou.
Kapitola 1
Základní statistické pojmy
Po prostudování této kapitoly budete umět:
představit základní principy statistiky a její historii,
> rozlišovat mezi deskriptívni statistikou a statistickou indukcí, ' definoval základní statistické pojmy a jejich význam,
• rozpoznat rozdíl mezi populací a výběrem, popsat typy proměnných a rozlišovat mezi nimi,
> rozumět významu měřítek měření proměnných,
• popsat míry centrální tendence a variability,
• popsat rozdíl mezi korelací a kauzalitou.
Klíčová slova:
Statistika, deskriptivní statistika, statistická indukce, statistická jednotka, statistický znak, výběr, populace, měřítka proměnných, míry centrální tendence a variability, rozdělení pravděpodobnosti.
Základní statistické pojmy
10
Náhled kapitoly
Tato úvodní kapitola poskytuje základní přehled klíčových pojmů a metod statistiky, například pojmy jako populace, výběr, typy proměnných, měřítka měření, a distribuce dat. K získání celkového přehledu kapitola rovněž představuje řadu pojmů a postupů, které budou podrobněji rozpracovány až v následujících kapitolách této studijní opory. Na závěr je uvedena i stručná historie statistiky.
Cíle kapitoly
Tato kapitola má za cíl, aby student po jejím dokončení získal základní přehled o statistice, uměl definovat základní statistické pojmy a jejich význam, a tím byl připraven na studium pokročilejších statistických metod v následujících kapitolách.
Odhad času potřebného ke studiu
Pro efektivní zvládnutí této kapitoly se doporučuje vyhradit si přibližně 2 až 3 hodiny. Tento časový odhad zahrnuje čtení a pochopení textu, vypracování kontrolních otázek a samostatné prohloubení znalostí.
í.i    Úvod do statistiky
Statistika je věda, která se zabývá sběrem, zpracováním, analýzou a interpretací dat. Pomáhá nám rozpoznávat vzory a trendy v datech a poskytuje metody pro rozhodování na základě nejistých informací. V ekonomii, managementu a marketingu je statistika klíčovým nástrojem pro získávání informací z dat a podporu rozhodovacích procesů.
Existují dva hlavní typy statistiky:
Popisná statistika (deskriptivní) se zaměřuje na popis základních charakteristik dat. Jejím cílem je sumarizace a prezentace dat pomocí různých grafů a výpočtů, jako jsou průměr, medián nebo rozptyl.
Inferenční statistika (induktivní) se zaměřuje na dělání závěrů o celé populaci na základě výběru dat. Používá se pro odhady a testování hypotéz.
Statistika má široké uplatnění v různých oblastech, jako jsou průzkumy trhu, predikce prodeje, kontrola kvality nebo finanční analýza. V tomto kurzu se studenti seznámí s technikami statistické analýzy dat, které jim pomohou lépe porozumět složitým datovým strukturám a podpoří jejich schopnost činit informovaná rozhodnutí.
11
Statistika a statistické zpracování dat
1.2    Populace a výběr
V rámci statistiky se často snažíme dělat závěry o velké skupině objektů, které označujeme jako populace. Populace může být například všichni obyvatelé určité země, všechny výrobky z výrobní linky nebo všechny firmy v určitém průmyslovém odvětví.
Výběr (vzorek) je podmnožina populace, která je vybrána pro účely analýzy. Vzhledem k tomu, že často není možné získat data o celé populaci, používáme vzorky, které nám umožní dělat závěry o populaci na základě její části.
Důležité pojmy:
Náhodný výběr: Každý člen populace má stejnou šanci být vybrán do vzorku.
Výběrová chyba: Rozdíl mezi výsledky získanými z výběru a skutečnými výsledky pro celou populaci.
V dalších kapitolách budeme používat různé techniky k odhadování parametrů populace na základě vzorku a zkoumat spolehlivost těchto odhadů.
1.3    Typy proměnných
Ve statistice pracujeme s proměnnými, které představují různé charakteristiky nebo atributy, které mohou nabývat různých hodnot. Proměnné můžeme rozdělit do dvou hlavních kategorií:
Kvalitativní (kategorické) proměnné: Tyto proměnné popisují kvalitativní charakteristiky, které nelze měřit číselně, ale mohou být rozděleny do kategorií. Například pohlaví (muž/žena), barva auta (červená, modrá, zelená).
Kvantitativní (numerické) proměnné: Tyto proměnné mohou být měřeny číselně a mají skutečnou hodnotu. Například věk, výška, váha.
Dále můžeme kvantitativní proměnné rozdělit na:
Základní statistické pojmy
12
Diskrétní proměnné: Nabývají pouze určitých hodnot, obvykle celých čísel (např. počet dětí, počet výrobků).
Spojité proměnné: Mohou nabývat libovolných hodnot v určitém intervalu (např. výška člověka, čas).
Dalším důležitým aspektem je měřítko měření:
Nominální škála: Kategorie	bez přirozeného pořadí (např. barvy).
Ordinální škála: Kategorie s přirozeným pořadím (např. úroveň spokojenosti: nízká,	
střední, vysoká).	
Intervalová škála: Hodnoty	s pořadím, ale bez absolutní nuly (např. teplota v °C).
Poměrová škála: Hodnoty s	absolutní nulou (např. délka, váha).
Rozlišování mezi těmito typy proměnných je důležité, protože ovlivňuje, jaké statistické metody lze použít pro jejich analýzu.
Příklad 1.1. Uvažujme následující tabulku dat, která obsahuje údaje o několika firmách:
Tab. 1: Data o firmách
Firma	Počet zaměstnanců	Roční obrat (v milionech)	Obor činnosti
A	120	45,6	IT
B	300	120,8	Stavebnictví
C	50	15,2	Obchod
D	450	220,5	IT
E	90	30,1	Zdravotnictví
V této tabulce jsou čtyři proměnné:
Firma: Jedná se o nominální proměnnou, protože firmy jsou identifikovány podle názvu a nelze mezi nimi stanovit pořadí.
' Počet zaměstnanců: Toto je kvantitativní diskrétní proměnná, protože počet zaměstnanců je celé číslo.
' Roční obrat: Toto je kvantitativní spojitá proměnná, protože obrat může nabývat libovolných čísel (včetně desetinných hodnot).
Obor činnosti: Toto je kvalitativní nominální proměnná, protože jde o kategorie bez přirozeného pořadí.
13
Statistika a statistické zpracování dat
Tento příklad ilustruje, jak správně identifikovat různé typy proměnných v datech.
1.4    Popisná statistika
Popisná statistika se zaměřuje na sumarizaci a popis základních charakteristik dat. Pomáhá nám porozumět tomu, jaká data máme k dispozici, a nabízí jednoduché nástroje pro jejich prezentaci.
Míry centrální tendence
Míry centrální tendence popisují střední hodnotu datového souboru. Mezi základní míry patří:
Průměr (aritmetický průměr): Součet všech hodnot dělený počtem hodnot. Průměr je nejčastěji používanou mírou centrální tendence, ale je citlivý na extrémní hodnoty (outliers).
Medián: Prostřední hodnota v datovém souboru, když jsou hodnoty seřazeny vzestupně. Pokud je počet hodnot sudý, medián je průměrem dvou prostředních hodnot.
Modus: Hodnota, která se v datovém souboru vyskytuje nejčastěji. Na rozdíl od průměru a mediánu může být modus použit pro kvalitativní i kvantitativní proměnné.
Míry variability
Míry variability udávají, jak se hodnoty v datovém souboru od sebe liší. Mezi nej důležitější patří:
Rozptyl (variance): Průměrná čtvercová odchylka hodnot od průměru. Vyjadřuje, jak jsou hodnoty v souboru rozptýlené.
Směrodatná odchylka (standard deviation): Odmocnina z rozptylu. Měří průměrnou odchylku jednotlivých hodnot od průměru.
Variační koeficient (coefficient of variation): Poměr směrodatné odchylky k průměru. Vyjadřuje relativní rozptyl dat a umožňuje porovnání variability mezi různými soubory dat.
Základní statistické pojmy
14
Tato základní deskriptívni statistika nám umožňuje shrnout datový soubor a získat přehled o jeho klíčových vlastnostech.
Distribuce dat popisuje, jak často se jednotlivé hodnoty v datovém souboru vyskytují. Grafické a numerické popisy distribuce nám pomáhají pochopit vlastnosti dat, jako jsou jejich tvar, centrální tendence a rozptyl.
Pro znázornění distribuce dat se často používají následující grafy (viz obrázek 1):
Histogram: Sloupcový graf, který ukazuje, jak často se určité intervaly hodnot vyskytují v datovém souboru. Histogram je vhodný pro kvantitativní data a umožňuje rychlou vizualizaci rozložení dat.
Krabicový graf (boxplot): Graf, který ukazuje rozložení dat pomocí pěti čísel: minimum, první kvartil, medián, třetí kvartil a maximum. Boxplot nám umožňuje identifikovat možné odlehlé hodnoty (outliers) a symetrii distribuce.
Bodový diagram (scatter plot): Graf, který zobrazuje vztah mezi dvěma proměnnými. Každý bod v grafu reprezentuje jednu dvojici hodnot. Scatter plot je často používán při analýze korelace a regrese.
1.5
Distribuce dat
Grafické znázornění distribuce
10
5
0
A
B
Obr. 1: Histogram, krabicový diagram (boxplot) a bodový graf (scatterplot)
Tvar distribuce
Distribuce může mít různé tvary, které mohou být důležité pro rozhodování o vhodných statistických metodách:
15
Statistika a statistické zpracování dat
Symetrická distribuce: Data jsou symetrická kolem centrální hodnoty. Nej-
známějším příkladem symetrické distribuce je normální rozdělení (Gaussova křivka).
Šikmá (asymetrická) distribuce: Data jsou „posunutá" na jednu stranu. Šikmá distribuce může být:
Pravostranné šikmá (positive skew): yV_Dlouhý pravý „ocas" - většina dat je koncentrována v levé části.
' Levostranně šikmá (negative skew): —^\. Dlouhý levý „ocas" - většina dat je koncentrována v pravé části.
Bimodální distribuce: .Data mají dva vrcholy (modálni hodnoty). Tento typ
distribuce naznačuje, že data mohou pocházet ze dvou různých skupin.
Spičatost (kurtosis): Spičatost určuje, jak ostrý nebo plochý je vrchol distribuce ve srovnání s normálním rozdělením.
Leptokurtická distribuce (pozitivní kurtosis): Distribuce s vyšší špičatostí než normální rozdělení, s větším podílem extrémních hodnot.
Platokurtická distribuce (negativní kurtosis): Distribuce s plošším vrcholem než normální rozdělení, s menším podílem extrémních hodnot.
Normální rozdělení
Normální rozdělení, také známé jako Gaussovo rozdělení, je jedním z nejdůležitějších rozdělení v celé statistice. Má charakteristický zvonovitý tvar a jeho vlastnosti zahrnují:
Symetrie kolem průměru.
Průměr, medián a modus jsou stejné.
Přibližně 68% hodnot se nachází v intervalu do vzdálenosti jedné směrodatné odchylky od průměru, 95% v intervalu do vzdálenosti dvou směrodatných odchylek od průměru a 99,7% v intervalu do vzdálenosti tří směrodatných odchylek od průměru (viz obrázek 2).
Normální rozdělení hraje důležitou roli při testování hypotéz a je základním předpokladem mnoha statistických metod, které budou podrobně probírány v dalších kapitolách.
Základní statistické pojmy
16
0,15%
0,15%
/x —3cr /x —2cr fi — a    A*    /i + cr /i + 2cr /í+3<t
x
Obr. 2: Normální rozdělení s vyznačenými procenty oblastí pod křivkou.
1.6
Základy pravděpodobnosti
Pravděpodobnost je nástroj, který nám pomáhá kvantifikovat nejistotu. V rámci statistiky je pravděpodobnost klíčová pro odhadování výsledků a rozhodování na základě dostupných dat.
Pravděpodobnost určité události vyjadřuje, jak často bychom očekávali, že tato událost nastane, pokud by byl experiment proveden opakovaně za stejných podmínek. Pravděpodobnost P{A) je číslo mezi 0 a 1, kde:
P{A) = 1 znamená, že událost A nastane jistě. P{A) = 0 znamená, že událost A nenastane nikdy.
Definice pravděpodobnosti
Základní pravidla pravděpodobnosti
Existuje několik klíčových pravidel pro práci s pravděpodobnostmi:
17
Statistika a statistické zpracování dat
Pravděpodobnost komplementu: Pravděpodobnost, že se událost A nestane, je P(-.A) = 1 - P (A).
Pravděpodobnost sjednocení dvou událostí: Pravděpodobnost, že nastane alespoň jedna z událostí A nebo B, je P (A U B) = P (Ä) + P (B) - P (A fl 5).
Podmíněná pravděpodobnost: Pravděpodobnost události A za předpokladu, že nastala událost B, je P(A|P) = P(čE[f^ ■
Zákon velkých čísel
Zákon velkých čísel vysvětluje, že když provádíme mnoho pokusů (nebo získáváme mnoho pozorování), průměr těchto výsledků se bude blížit očekávané (skutečné) hodnotě. Čím více pokusů uděláme, tím blíže bude průměr teoretickému očekávání.
Příklad 1.2. Pokud házíme spravedlivou mincí, pravděpodobnost, že padne panna, je 0,5. Když mincí hodíme jen několikrát, třeba desetkrát, může být podíl pannen různý - například 60 % nebo 40 %. Pokud ale budeme házet tisíckrát, podíl se bude blížit 50 %. Tento zákon tedy říká, že průměr výsledků se přibližuje skutečné hodnotě (v tomto případě 50 %), jak se zvyšuje počet pokusů.
V inferenční statistice tento zákon umožňuje odhadovat parametry celé populace na základě dostatečně velkého vzorku. Například když vezmeme velký vzorek z populace, můžeme očekávat, že průměrné výsledky tohoto vzorku budou blízké průměru celé populace.
Centrální limitní věta
Centrální limitní věta nám říká, že když z libovolné populace odebíráme velké množství vzorků a z každého vzorku vypočítáme průměr, rozdělení těchto průměrů bude mít přibližně normální rozdělení (tzv. Gaussovu křivku), a to i tehdy, když původní populace nemá normální rozdělení.
Příklad 1.3. I když například zkoumáme věkovou strukturu populace, která není normálně rozdělená (například většina lidí může být ve věku mezi 20 a 30 lety), průměry vzorků z této populace budou mít normální rozdělení, pokud vezmeme dostatečně velký počet vzorků. Centrální limitní věta je tedy důležitá proto, že umožňuje používat normální rozdělení pro analýzu dat, což je základní předpoklad pro mnohé statistické metody, jako je testování hypotéz nebo výpočet intervalů spolehlivosti.
Základní statistické pojmy
18
Tento koncept je klíčový pro praktické použití statistiky protože často pracujeme s průměry z malých vzorků, ale díky centrální limitní větě můžeme předpokládat, že se chovají podle normálního rozdělení.
1.7    Testování hypotéz (úvod)
Testování hypotéz je jednou z klíčových metod inferenční statistiky, která umožňuje rozhodovat na základě vzorku dat o tom, zda existuje dostatek důkazů k zamítnutí nebo přijetí určitého tvrzení o populaci.
Základní pojmy v testování hypotéz
Nulová hypotéza (Ho): Tvrdí, že mezi zkoumanými proměnnými nebo skupinami neexistuje žádný vztah nebo rozdíl. Tuto hypotézu testujeme a snažíme se ji zamítnout.
Alternativní hypotéza (Ha): Tvrdí opak nulové hypotézy, tedy že mezi proměnnými existuje vztah nebo že existuje rozdíl mezi skupinami.
Kroky při testování hypotéz
Testování hypotéz obvykle zahrnuje následující kroky:
1. Stanovení hypotéz: Formulace nulové a alternativní hypotézy.
2. Výběr testu: Volba vhodného statistického testu (např. t-test, chi-kvadrát test).
3. Stanovení hladiny významnosti (a): Typicky se volí hladina významnosti 0,05, což znamená, že existuje 5% šance, že zamítneme nulovou hypotézu, i když je pravdivá.
4. Výpočet testovací statistiky: Na základě vzorku dat vypočítáme hodnotu testovací statistiky.
5. Rozhodnutí: Hodnotu testovací statistiky porovnáme s tzv. kritickou hodnotou (hodnotami) daného rozdělení a rozhodneme o zamítnutí nebo přijetí nulové hypotézy. Podobně to můžeme provést na základě vypočtené tzv. p-hodnoty a jejího porovnání s hladinou významnosti.
19
Statistika a statistické zpracování dat
Chyby při testování hypotéz
Při testování hypotéz existují dva druhy chyb:
Chyba I. druhu: Zamítnutí pravdivé nulové hypotézy (falešně pozitivní výsledek). Chyba II. druhu: Nepřijetí nepravdivé nulové hypotézy (falešně negativní výsledek).
Rozhodnutí o přijetí nebo zamítnutí hypotézy je vždy učiněno na základě dostupných dat a pravděpodobnosti chyb.
Příklad 1.4. Představme si, že testujeme účinnost nového léku. Nulová hypotéza (H0) tvrdí, že lék nemá žádný účinek. Alternativní hypotéza (Ha) tvrdí, že lék účinek má.
Chyba I. druhu nastane, pokud zamítneme nulovou hypotézu a budeme tvrdit, že lék účinný je, přestože ve skutečnosti není. Například pokud studie naznačí, že lék je účinný, ale ve skutečnosti to byla náhoda.
Chyba II. druhu nastane, pokud nepřijmeme alternativní hypotézu a budeme tvrdit, že lék není účinný, přestože ve skutečnosti účinný je. Například pokud testování neodhalí účinnost léku, i když ve skutečnosti lék účinný je.
Cílem testování hypotéz je minimalizovat pravděpodobnost obou chyb, ale vždy existuje určité riziko jejich výskytu.
1.8    Intervaly spolehlivosti
Interval spolehlivosti (confidence interval) je interval, který s určitou pravděpodobností obsahuje skutečnou hodnotu parametru populace. Poskytuje informace nejen o bodovém odhadu parametru, ale také o tom, jak přesný je tento odhad.
Definice intervalu spolehlivosti
Interval spolehlivosti je založen na bodovém odhadu parametru a je definován dvěma hodnotami:
Cl
A,9 + A
kde:
9 je bodový odhad (např. průměr),
A je poloměr intervalu spolehlivosti pro zvolenou úroveň spolehlivosti (např. pro 95% spolehlivost).
Základní statistické pojmy
20
Úroveň spolehlivosti
Nejběžnější úrovně spolehlivosti jsou 90%, 95% a 99%. Pokud například zvolíme 95% úroveň spolehlivosti, znamená to, že ve 95% případů tento interval zahrnuje skutečnou hodnotu parametru.
Interpretace intervalu spolehlivosti
Interval spolehlivosti nám říká, jaký rozsah hodnot můžeme považovat za možné odhady skutečné hodnoty parametru. Pokud je například interval spolehlivosti pro průměr [45, 55], můžeme s 95% jistotou tvrdit, že skutečný průměr leží někde mezi 45 a 55.
Je důležité si uvědomit, že vyšší spolehlivost vede k širším intervalům, zatímco nižší spolehlivost vede k užším intervalům.
i.9    Korelace a kauzalita
Korelace a kauzalita jsou dva různé koncepty, které se týkají vztahu mezi dvěma proměnnými.
Korelace
Korelace měří sílu a směr lineárního vztahu mezi dvěma proměnnými. Nejčastěji používanou mírou korelace je Pearsonův korelační koeficient, který nabývá hodnot v rozmezí od -1 do 1:
' Hodnota blízká 1 znamená silnou pozitivní korelaci (když jedna proměnná roste, druhá roste také).
' Hodnota blízká -1 znamená silnou negativní korelaci (když jedna proměnná roste, druhá klesá).
• Hodnota blízká 0 znamená, že mezi proměnnými není žádný lineární vztah.
Kauzalita
Kauzalita znamená příčinný vztah mezi dvěma proměnnými, tedy že změna jedné proměnné způsobuje změnu druhé. Na rozdíl od korelace však kauzalita vyžaduje více důkazů a statistických metod, aby bylo možné určit, že skutečně existuje příčinný vztah.
21
Statistika a statistické zpracování dat
Je důležité si uvědomit, že korelace neznamená kauzalitu. I když mezi dvěma proměnnými existuje silná korelace, nemusí to nutně znamenat, že jedna proměnná způsobuje změnu druhé. Tento koncept bude důležitý při práci s regresní analýzou a analýzou příčinných vztahů.
1.10    Historie a význam statistiky
Statistika, jak ji známe dnes, má dlouhou a fascinující historii, která se vyvíjela po staletí. Zde je přehled některých klíčových milníků ve vývoji statistiky a osobností, které významně přispěly k jejímu rozvoji:
Starověk: Už v dávných dobách existovaly záznamy, které lze považovat za první formy statistiky. Například v Číně a Egyptě se již před více než 4 000 lety prováděly soupisy obyvatelstva a majetku. Tyto záznamy byly využívány hlavně k efektivnějšímu výběru daní a organizaci vojenských sil. Také v antickém Řecku a Římě se statistické záznamy uplatňovaly při správě měst a říší.
Středověk: Během středověku se statistika zaměřovala na administrativní a fiskální potřeby. V Evropě se například v 11. století zavedl tzv. „Domesday Book" v Anglii, což byl rozsáhlý katastrální soupis pro zdanění. Tento dokument zahrnoval podrobné údaje o majetku, obyvatelstvu a zemědělství v celé zemi.
18. století: V tomto období začíná statistika nabývat podoby vědeckého oboru. Slovo „statistika" pochází z latinského „status", což znamená „stav" nebo „politická organizace". Tehdy byla statistika zaměřena na popis politického a společenského stavu státu. Německý vědec Gottfried Achenwall (1719-1772) je považován za zakladatele tohoto oboru, když začal používat pojem „statistika" v moderním smyslu jako věda o státu.
19. století: V 19. století se statistika začala rozvíjet jako matematická disciplína. Byly položeny základy teorie pravděpodobnosti, která umožnila kvantifikovat nejistoty a vytvářet statistické modely. Zásadní postavou byl Pierre-Simon Lapiace (1749-1827), který rozvinul teorii pravděpodobnosti a aplikoval ji na sociální vědy a astronomii. Další významnou osobností byl Carl Friedrich Gauss (1777-1855), který vyvinul metodu nej menších čtverců, stále klíčovou při odhadech parametrů. Gauss je také známý pro svou práci na normálním rozdělení, které se někdy nazývá „Gaussovo rozdělení".
20. století: Rozmach statistiky nastal v první polovině 20. století, kdy britský statistik Sir Ronald A. Fisher (1890-1962) přinesl zásadní inovace v oblasti návrhu experimentů a analýzy rozptylu. Fisher je často označován za otce moderní statistiky, díky jeho práci na hypotézách, odhadech a teorii rozptylu. Jeho metody jsou dodnes základem statistické praxe. Ve stejné době Jerzy Neyman (1894-1981) a Egon Pearson (1895-1980) vyvinuli Neyman-Pearsonovu teorii testování hypotéz, která je klíčová pro rozhodování na základě statistických dat. Rozvoj výpočetní techniky v 70. letech umožnil simulace a složité statistické analýzy, které byly dříve nemyslitelné.
Současnost: Dnes je statistika všudypřítomná a nezbytná v mnoha oblastech života. Ve vědě, podnikání, vládní správě, medicíně a dokonce i v každodenním životě jsou statistické
Základní statistické pojmy
22
metody používány k analýze dat a činění informovaných rozhodnutí. S rostoucím množstvím dostupných dat (big data) se role statistiky stává ještě důležitější, protože umožňuje nacházet vzorce a trendy v obrovském množství informací. Významným přínosem k moderní statistice přispěli také další významní statistici jako John Tukey (1915-2000), který vyvinul metody průzkumné analýzy dat, nebo William Feller (1906-1970), který se zabýval teorií pravděpodobnosti a jejími aplikacemi.
Tento historický vývoj ukazuje, jak se statistika proměnila z nástroje pro správu státu na nezbytný vědecký obor, který je základem pro moderní rozhodování a analýzu ve všech oblastech života. Díky práci těchto významných osobností a mnoha dalších se statistika stala nepostradatelným nástrojem ve vědě i praxi.
OTato kapitola poskytla úvod do základních statistických pojmů a metod. Vysvětlili jsme rozdíl mezi deskriptívni statistikou, která se zaměřuje na popis a sumarizaci dat, a statistickou indukcí, která umožňuje na základě vzorku vyvozovat závěry o celé populaci. Kapitola se také zabývala pojmy jako populace, výběr, typy proměnných, měřítka měření a základními mírami centrální tendence a variability. Tyto základy jsou důležité pro pochopení pokročilejších statistických metod, které budou podrobněji rozpracovány v následujících kapitolách.
1. Jaký je rozdíl mezi deskriptívni statistikou a statistickou indukcí?
2. Co je to populace a jaký je rozdíl mezi populací a výběrem?
3. Jaké jsou typy proměnných a jak se liší kvalitativní a kvantitativní proměnné?
4. Jaké jsou měřítka měření proměnných a jaký je jejich význam?
5. Co jsou míry centrální tendence a jaké jsou jejich základní typy?
6. Jaké míry variability znáte a jaký je jejich význam pro popis dat?
7. Jaký je rozdíl mezi korelací a kauzalitou?
8. Jak se používá histogram a krabicový graf k zobrazení distribuce dat?
9. Jaké jsou základní vlastnosti normálního rozdělení?
e
Literatura k tématu:
[1] HINDLS, R. Statistika pro ekonomy. 8. vyd. Praha: Professional Publishing, 2007. ISBN 978-80-86946-43-6.
[2] JANÁČEK, J. Statistika jednoduše. Grada, 2022. ISBN 978-80-271-1738-3.
[3] MAREK, L. Statistika v příkladech. 2. vyd. Praha: Kamil Mařík - Professional Publishing, 2015. ISBN 978-80-743-1153-6.
[4] OTIPKA, P., SMAJSTRLA, V. Pravděpodobnost a statistika [online]. 1. vydání. Ostrava: VŠB-TU Ostrava, 2007 [cit. 2024-09-09]. ISBN 80-248-1194-4.
Kapitola 2
Zpracování dat z výběrových
zjist ováni
Po prostudování této kapitoly budete umět:
' definovat pojem náhodného výběru a výběrového souboru, představit základní výběrové charakteristiky a jejich rozdělení, uvést základní metody výběrových šetření a jejich použití.
O
Klíčová slova:
Výběrový soubor, odhad, výběrové charakteristiky.
Zpracování dat z výběrových zjišťování
24
Náhled kapitoly
Tato kapitola se zaměřuje na klíčové principy a metody výběrových šetření, které jsou základem pro sběr dat v moderní statistice. Kapitola poskytuje studentům úvod do pojmu náhodného výběru a jeho významu pro reprezentativnost statistických výsledků. Dále jsou podrobně diskutovány různé metody výběru, včetně prostého náhodného výběru, stratifikovaného výběru a vícestupňového shlukového výběru. Zvláštní pozornost je věnována výběrovým charakteristikám a jejich roli při odhadu parametrů základního souboru. Tyto znalosti jsou nezbytné pro pochopení pokročilejších statistických metod a aplikací, které budou představeny v následujících kapitolách.
Cíle kapitoly
Tato kapitola má za cíl, aby student po jejím dokončení:
> rozuměl pojmu náhodný výběr a jeho významu pro reprezentativnost výběrových šetření, • byl schopen popsat a vysvětlit tvorbu výběrového souboru,
> znal a uměl vypočítat základní výběrové charakteristiky, jako jsou výběrový průměr, rozptyl, směrodatná odchylka a kovariance,
pochopil rozdíl mezi prostým náhodným výběrem a alternativními metodami výběru, jako jsou stratifikovaný a systematický výběr,
získal přehled o výběrových charakteristikách a jejich vztahu k parametrům základního souboru,
' chápal důležitost přesnosti a nevychýlenosti odhadů při odhadech parametrů základního souboru.
Odhad času potřebného ke studiu
Pro zvládnutí této kapitoly se doporučuje vyhradit si přibližně 3 až 4 hodiny. Tento čas zahrnuje čtení textu, pochopení jednotlivých metod výběrových šetření, výpočty základních výběrových charakteristik a samostatné řešení kontrolních otázek.
2.1    Úvodní příklad
Představte si, že jste analytikem ve velké maloobchodní společnosti, která prodává elektroniku. Vedení společnosti má zájem zjistit průměrnou spokojenost zákazníků s nákupy v jejich obchodech po celé zemi. Namísto dotazování všech zákazníků se rozhodnete provést výběrové šetření - tedy vyberete jen část zákazníků a na základě jejich odpovědí budete odhadovat spokojenost všech zákazníků.
Vaším úkolem je navrhnout, jak by mělo toto šetření proběhnout, aby výsledky byly co nejspo-lehlivější. Nejdříve se rozhodnete použít prostý náhodný výběr, což znamená, že každý zákazník
25
Statistika a statistické zpracování dat
má stejnou šanci být zahrnut do šetření. Poté vypočítáte průměrnou spokojenost těchto vybraných zákazníků a tuto hodnotu použijete jako odhad průměrné spokojenosti všech zákazníků.
Například pokud náhodně vyberete 100 zákazníků, kteří odpoví na otázku o spokojenosti na škále od 1 do 10, můžete získat následující výsledky:
x = (8,7,9,6,7,8,9,6,7,8,...)
Na základě těchto odpovědí můžete spočítat průměrnou spokojenost ve výběru (nechť je například součet všech hodnocení 750):
■y     100 y
x =-Xi =-• 750 = 7,5.
100^ 100
Tento průměr považujete za odhad průměrné spokojenosti všech zákazníků vaší společnosti.
Kromě toho byste měli zjistit, jak moc se jednotlivé odpovědi odchylují od tohoto průměru, tedy jak jsou odpovědi rozptýlené kolem průměru. To zjistíte pomocí výpočtu směrodatné odchylky. Řekněme, že ta vyšla z dat následovně:
■y 100
AlggXX^      Z)2 « 1,2.
Co nám tato hodnota říká? Směrodatná odchylka nám říká, jak moc se jednotlivé odpovědi zákazníků liší od průměru. V tomto případě hodnota 1,2 znamená, že většina odpovědí se pohybuje v rozmezí 7,5 ± 1,2, tedy mezi 6,3 a 8,7. To nám napovídá, že spokojenost zákazníků je relativně konzistentní, většina zákazníků je se svým nákupem spokojena podobně. Kdyby byla směrodatná odchylka vyšší, znamenalo by to, že jsou mezi odpověďmi větší rozdíly -někteří zákazníci jsou velmi spokojení, zatímco jiní méně.
Dále můžete pomocí tohoto šetření odhadnout, jaký interval spokojenosti lze očekávat u celé populace zákazníků, což vám dá představu o nejistotě vašeho odhadu. Takové výpočty jsou základem pro rozhodování vedení společnosti o zlepšení zákaznického servisu nebo zaměření marketingových kampaní.
Tento příklad ilustruje, jak výběrové šetření funguje v praxi a proč je důležité správně provést výběr a analýzu dat. V této kapitole se podrobně naučíte, jak správně vybírat vzorky, jaké výběrové charakteristiky použít a jak zajistit, aby výsledky byly co nejpřesnější.
2.2    Výběrová šetření
Nej důležitějším druhem neúplného šetření je pravděpodobnostní (náhodný) výběr. Tento postup zajišťuje, že každý prvek souboru má určitou (nejčastěji stejnou) pravděpodobnost, že bude zahrnut do výběrového souboru. Při provádění náhodného výběru se celý soubor rozdělí
Zpracování dat z výběrových zjišťování
26
na výběrové jednotky, které mohou být totožné se statistickými jednotkami nebo tvořit jejich větší či menší skupiny.
Tvorba výběrového souboru
Tvorba výběrového souboru zahrnuje dvě hlavní složky:
Pravděpodobnost vybrání: Každé výběrové jednotce je přiřazena určitá pravděpodobnost, že bude zahrnuta do výběrového souboru. Tato pravděpodobnost může být stejná pro všechny jednotky nebo se může lišit.
Náhodnost výběru: Výběr (selekce) jednotek je prováděn náhodně, což znamená, že o zařazení či nezařazení každé jednotky rozhoduje pouze náhoda.
Spojitost těchto dvou složek je klíčová pro zajištění reprezentativnosti výběrového souboru.
Pravděpodobnostní a náhodný výběr
Pravděpodobnostní hledisko je natolik významné, že dnes termín „pravděpodobnostní výběr" převažuje nad starším názvem „náhodný výběr". Pravděpodobnosti vybrání nemusí být u všech jednotek stejné, ale mohou se lišit. Pokud jsou pravděpodobnosti vybrání stejné, hovoříme o prostém náhodném výběru. V některé literatuře byl termín „pravděpodobnostní výběr" vyhrazen pouze pro výběry s nestejnými pravděpodobnostmi.
Pochybnosti o náhodném výběru
Někteří neodborníci mohou mít pochybnosti o tom, jak může náhodný výběr zajistit reprezentativnost. Může se zdát, že pokud ponecháme výběr náhodě, přestáváme ovlivňovat tvorbu výběrového souboru. Tyto pochybnosti jsou však neodůvodněné, protože náhodný výběr s předem známými pravděpodobnostmi umožňuje využít výhod náhody a matematicky kontrolovat její zákonitosti.
Výhody pravděpodobnostního výběru
Pravděpodobnostní výběry, což znamená, že každá jednotka v populaci má určitou známou šanci být vybrána, mají několik výhod. Díky nim můžeme získat odhady, které mají tyto důležité vlastnosti:
27
Statistika a statistické zpracování dat
Konzistentní odhady: Když zvětšíme počet jednotek, které vybíráme (tj. velikost výběru), naše odhady se stále více přibližují skutečné hodnotě, kterou chceme zjistit. Jinými slovy, čím více dat máme, tím přesnější naše odhady budou.
Nevychýlené odhady: Tyto odhady v průměru ani nepřehánějí, ani nebagatelizují skutečnou hodnotu. Představte si, že opakovaně vybíráte vzorky a pokaždé počítáte průměr. Pokud byste všechny tyto průměry zprůměrovali, dostali byste velmi blízkou hodnotu ke skutečnému průměru celé populace.
Díky těmto vlastnostem jsou pravděpodobnostní výběry velmi spolehlivé. Přesnost našich odhadů můžeme také změřit - například pomocí střední výběrové chyby (standardní chyba průměru) s/^Jři, která nám říká, jak moc se mohou odhady lišit od skutečné hodnoty. Dalším užitečným nástrojem jsou intervalové odhady, které nám dávají určité rozmezí, ve kterém se skutečná hodnota téměř jistě nachází.
Podrobněji se těmto tématům budeme věnovat v dalších kapitolách, kde se naučíme, jak tyto odhady správně provádět a jak je interpretovat.
2.3    Prostý náhodný výběr
Prostý náhodný výběr je jednou z nej jednodušších forem pravděpodobnostního výběru. Každý prvek základního souboru (ZS) má stejnou pravděpodobnost, že bude do výběru zahrnut.
Definice a podmínky prostého náhodného výběru
Definice 2.1. Prostý náhodný výběr lze definovat jako výběr o rozsahu n, kdy každá množina n prvků má stejnou pravděpodobnost, že bude vybrána.
Podmínka: Pro realizaci prostého náhodného výběru je nutné mít k dispozici očíslovaný seznam všech prvků základního souboru, tzv. oporu výběru, a generátor náhodných čísel, pomocí něhož jsou vybírány prvky z opory výběru.
Postup při prostém náhodném výběru
Prostý náhodný výběr probíhá podle následujících kroků:
Zpracování dat z výběrových zjišťování
28
1. Sestavte oporu výběru a každému prvku přiřaďte celé číslo od 1 do N.
2. Rozhodněte o rozsahu výběru n.
3. Vygenerujte n náhodných čísel mezi 1 a N.
4. Získejte data od prvků identifikovaných těmito náhodnými čísly.
Výběrový poměr
Definice 2.2. Poměr mezi rozsahem výběru n a velikostí základního souboru N, tedy jj, nazýváme výběrový poměr.
Tento poměr vyjadřuje pravděpodobnost, že prvek základního souboru bude zahrnut do výběru. Výběr může být prováděn s vracením nebo bez vracení. Při výběru s vracením má každý prvek nenulovou pravděpodobnost, že bude vybrán vícekrát. Pro statistické odvozování formulí je však výhodnější výběr s vracením, pokud je výběrový poměr malý (< 5%).
Náhradní metody při neproveditelnosti prostého náhodného výběru
V případech, kdy je prostý náhodný výběr neproveditelný nebo příliš nákladný, zejména u velmi rozsáhlých základních souborů, mohou být použity následující náhradní metody:
Stratifikovaný náhodný výběr: Základní soubor je rozdělen do dílčích oblastí (strat), pro každou stratu se provede náhodný výběr. Tato metoda je vhodná, pokud lze populaci stratifikovat podle určitého znaku (např. pohlaví, věk), aby byla zajištěna reprezentace každé podskupiny.
Systematický výběr: Ze seřazeného základního souboru je náhodně vybrán jeden prvek z prvních k prvků, poté se vybírá, počínaje od toho vybraního, k-tf, 2k-tý prvek atd. Tento postup je jednoduchý a snadno proveditelný. Příklad: Máme 100 prvků a chceme vybrat 10. Z první desítky {k = 10) náhodně vybereme, třeba 5. Potom již automaticky také 5 + k = 5 + 10 = 15, 5 + 2 • 10 = 25, ..., 85, 95.
29
Statistika a statistické zpracování dat
Vícestupňový shlukový výběr: Tato metoda je často používána pro získávání informací o veřejném mínění. Výběr probíhá ve více stupních, například:
1. Náhodně vybereme vzorek okresů.
2. Z každého vybraného okresu náhodně vybereme určité množství měst požadované velikosti.
3. Z vybraných měst náhodně vybereme vzorek sídlišť.
4. Z vybraných sídlišť vybereme domácnosti, kde se provede dotazování.
Tento postup, i když vypadá komplikovaně, je velmi efektivní a méně nákladný než prostý náhodný výběr.
2.4    Výběrové charakteristiky a jejich rozdělení
Při statistické analýze se často zaměřujeme na charakteristiky výběrového souboru, které nám poskytují informace o základním souboru. Tyto charakteristiky se nazývají výběrové charakteristiky a jsou funkcemi náhodných veličin získaných z výběrového souboru (protože závisí na konkrétním výběru vzorku, který může být různý).
Základní pojmy
Základní soubor: Skládá se z V jednotek, přičemž nás zajímá znak X (např. objem piva v lahvi).
Výběrový soubor: Je tvořen n jednotkami náhodně vybranými ze základního souboru. Hodnoty znaku X,j_ jsou považovány za realizace náhodné veličiny X.
Statistický model: Rozdělení pravděpodobností náhodné veličiny X, kterou pozorujeme, se nazývá statistický model.
Zpracování dat z výběrových zjišťování
30
Výberové charakteristiky
Výběrové charakteristiky jsou funkce náhodných veličin Xi, X2, ■ ■ ■, Xn a jsou definovány jako statistiky:
T = T(Xi, X2,..., Xn). Následují základní výběrové charakteristiky:
Definice 2.3. Výběrový obecný moment: k-tý výběrový obecný (počáteční) moment je dán vztahem
1
mk = ~J2xi>
kde Xi je hodnota znaku X pro i-tou jednotku výběrového souboru.
Definice 2.4. Výběrový průměr: Výběrový průměr je definován jako
1
x
m1 = -J2xí-
n i=i
U prostého náhodného výběru platí, že průměr výběrových průměrů se rovná střední hodnotě fi základního souboru, zapisujeme E(X) = fi. Výběrový průměr je tedy vhodný pro odhad střední hodnoty.
Definice 2.5. Výběrový centrální moment: k-tý výběrový centrální moment je dán vztahem
, 1
mk = - > (Xi - x) .
n i=i
Definice 2.6. Výběrový rozptyl: Výběrový rozptyl je definován jako
1 n
,2 /
s = m.
2~ n    . . 1
i=i
-^2(xí-x)2.
Výběrový rozptyl je vhodný pro odhad rozptylu základního souboru.
31
Statistika a statistické zpracování dat
Definice 2.8. Výběrová kovariance: Pokud sledujeme dva znaky x a y ve výběrovém souboru, můžeme vypočítat výběrovou kovarianci jako
1 n
Cov(x, y) = —— y>, - *){yi - v\ n 1 i=i
kde Xi a íji jsou hodnoty znaků x a y pro i-tou jednotku.
Definice 2.9. Výběrový lineární korelační koeficient: Lineární korelační koeficient je dán vztahem
Cov(X, y) rXY = -,
sxsY
kde Sx a sy jsou výběrové směrodatné odchylky znaků laľ.
Úloha výběrového šetření
Úkolem výběrového šetření je odhadnout neznámé parametry základního souboru nebo charakteristiky rozdělení základního souboru na základě náhodného výběru.
Parametry základního souboru: Charakteristiky základního souboru se nazývají parametry (nebo teoretické charakteristiky) a značí se řeckými písmeny (např. fi,
Výběrové charakteristiky: Charakteristiky výběrového souboru se nazývají výběrové charakteristiky nebo statistiky a značí se latinskými písmeny (např. x, sx, rxv)-
Výběrové šetření poskytuje odhady parametrů základního souboru, které jsou základem pro statistickou analýzu a rozhodování. Cílem je získat odhady, které jsou přesné a nevychýlené.
Zpracování dat z výběrových zjišťování
32
2.5    Řešené příklady
Příklady jsou voleny tak, aby ilustrovaly probranou látku, ale aby nebyly příliš náročné na výpočty. V praxi by byly výběry rozsáhlejší.
Stratifikovaný výběr a výběrové charakteristiky:
Příklad 2.10. Představte si, že pracujete pro obchodní řetězec, který provozuje supermarkety po celé zemi. Řetězec chce analyzovat průměrné nákupy svých zákazníků ve dvou různých regionech - regionu A a regionu B. Cílem je zjistit, jak se liší průměrné útraty zákazníků v těchto regionech. Místo toho, aby se zjišťovaly údaje od všech zákazníků, provede se výběrové šetření, které bude stratifikované podle regionů.
Řetězec má celkem 20 000 zákazníků, z toho 12 000 zákazníků v regionu A a 8 000 zákazníků v regionu B. Rozhodnete se provést stratifikovaný náhodný výběr, kde z každého regionu vyberete 5 zákazníků. Zde jsou údaje pro 5 náhodně vybraných zákazníků z každého regionu (v Kč):
Region A:
xA = (800,1500,700,1200, 900)
Region B:
xB = (1000,1100,950,1300,750) Vaším úkolem je vypočítat následující:
1. Průměrnou útratu zákazníků (výběrový průměr) ve výběru v regionu A a regionu B.
2. Výběrový rozptyl útrat zákazníků v regionu A a regionu B.
3. Výběrovou směrodatnou odchylku útrat zákazníků v regionu A a regionu B.
Řešení: 1. Výpočet průměrné útraty zákazníků ve výběru v regionu A a regionu B
Nejprve spočítáme průměrné útraty zákazníků v každém regionu: Region A:
1 * 800 + 1500 + 700 + 1200 + 900 inonT^
xA = - > xA i =---= 1020 Kc.
5fri 5
Region B:
1 *           1000 + 1100 + 950 + 1300 + 750 inonT^ xB = -= }^ xb,í =-ř-= 1020 Kc-
b i=i b
V obou regionech je průměrná útrata zákazníků ve výběru 1020 Kč. 2. Výpočet výběrových rozptylů
33
Statistika a statistické zpracování dat
Region A:
2        1   5 -2 4 i=l
kde n = 5.
Vypočítáme odchylky jednotlivých hodnot od průměru pro region A:
(800 -	1020)2 =	48400,
(1500 -	1020)2 =	230400
(700 -	1020)2 =	102400
(1200 -	1020)2 =	32400,
(900 -	1020)2 =	14400.
Součet těchto odchylek je:
48400 + 230400 + 102400 + 32400 + 14400 = 428000.
Výběrový rozptyl v regionu A je:
,2
Region B:
428000
-■— = 107000.
1 & 4 i=l
Vypočítáme odchylky jednotlivých hodnot od průměru pro region B:
(1000 -	1020)2	= 400,
(1100 -	1020)2	= 6400,
(950 -	1020)2	= 4900,
(1300 -	1020)2	= 78400
(750 -	1020)2	= 72900
Součet těchto odchylek je:
400 + 6400 + 4900 + 78400 + 72900 = 163000.
Výběrový rozptyl v regionu B je:
163000
-.— = 40 750.
3. Výpočet výběrových směrodatných odchylek
Zpracování dat z výběrových zjišťování
34
Výběrová směrodatná odchylka je druhou odmocninou výběrového rozptylu: Region A:
sA = Jš{ = ^107000 « 327,11.
Region B:
sB = Jsi = V40 750 « 201,87.
Interpretace výsledků:
Na základě stratifikovaného náhodného výběru jsme zjistili, že průměrná útrata zákazníků ve výběru jev obou regionech stejná, tedy 1020 Kč (což je evidentně jen náhoda, při jiném výběru by to vyšlo jinak). Výběrová směrodatná odchylka je vyšší v regionu A (327,11 Kč) než v regionu B (201,87 Kč), což znamená, že v regionu A jsou útraty zákazníků více rozptýlené kolem průměru. Výběrový rozptyl je také přirozeně vyšší v regionu A oproti regionu B. □
Kovariance a korelační koeficient
Příklad 2.11. Představte si, že pracujete jako analytik pro investiční společnost. Vaším úkolem je analyzovat vztah mezi ročními výnosy dvou různých akcií (akcie X a akcie Y) za posledních 5 let. Chcete zjistit, zda existuje vztah mezi výnosy těchto dvou akcií, což vám pomůže rozhodnout, zda je vhodné do těchto akcií investovat společně.
Roční výnosy (v %) pro akcie X a Y v jednotlivých letech jsou následující:
Výnosy akcie X:
X = (5,10,12,6,8)
Výnosy akcie Y:
F = (3, 8, 9, 5, 6)
Vaším úkolem je:
1. Vypočítat průměrný výnos pro akcie X a Y.
2. Vypočítat kovarianci mezi výnosy akcie X a Y.
3. Vypočítat korelační koeficient mezi výnosy akcie X a Y.
4. Interpretovat, co kovariance a korelační koeficient znamenají.
Řešení: 1. Výpočet průměrného výnosu pro akcie X a Y
Nejprve spočítáme průměrný výnos pro každou akcii: Akcie X:
7=l^ = S+10 + " + 8 + 8=^»-
5^ 5
35
Statistika a statistické zpracování dat
Akcie Y:
y 1^3+8+9+5+6
5^ 5
Průměrný roční výnos pro akcii X je 8,2 %, zatímco pro akcii Y je 6,2 %.
2. Výpočet kovariance mezi výnosy akcie X a Y
Kovarianci mezi výnosy X a Y vypočítáme podle vzorce:
i     n _ _
Cov(Y, Y) =-- £(Xť ~ X)<Xi ~ n
kde n = 5.
Nejdříve vypočítáme odchylky jednotlivých hodnot od průměru a jejich součin pro každou dvojici:
(5 - 8,2)(3 - 6,2) = (-3,2)(-3,2) = 10,24,
(10-8,2)(8-6,2) = (l,8)(l,8)=3,24,
(12 -8,2)(9- 6,2) = (3,8)(2,8) = 10,64, (6 - 8,2)(5 - 6,2) = (-2,2)(-l,2) = 2,64, (8 - 8,2)(6 - 6,2) = (-0,2)(-0,2) = 0,04.
Součet těchto součinů je:
10,24 + 3,24 + 10,64 + 2,64 + 0,04 = 26,8. Kovariance mezi výnosy akcií X a Y je:
Cov(Y,Y) = ^ = 6,7.
3. Výpočet korelačního koeficientu mezi výnosy akcie X a Y
Korelační koeficient r mezi výnosy X a Y vypočítáme podle vzorce:
Cov(Y, y) rxY = -,
sxsY
kde Sx a sy jsou směrodatné odchylky výnosů X a Y. Nejprve vypočítáme směrodatné odchylky pro obě akcie: Směrodatná odchylka pro akcii X:
Zpracování dat z výběrových zjišťování
36
Vypočítáme odchylky jednotlivých hodnot od průměru pro akcii X:
(5-í		= 10,24
(10 -i		= 3,24,
(12 - l		= 14,44
(6-í		= 4,84,
(8-í		= 0,04.
Součet těchto odchylek je:
10,24 + 3,24 + 14,44 + 4,84 + 0,04 = 32,8. Směrodatná odchylka pro akcii X je:
8X = ^ « 2,86 %. Směrodatná odchylka pro akcii Y:
Vypočítáme odchylky jednotlivých hodnot od průměru pro akcii Y:
(3	- 6,2)2 =	10,24
(8	- 6,2)2 =	3,24,
(9	- 6,2)2 =	7,84,
(5	- 6,2)2 =	1,44,
(6	- 6,2)2 =	0,04.
Součet těchto odchylek je:
10,24 + 3,24 + 7,84 + 1,44 + 0,04 = 22,8. Směrodatná odchylka pro akcii Y je:
/22,8
sy = y^^2,39%. Nyní můžeme vypočítat korelační koeficient:
37
Statistika a statistické zpracování dat
4. Interpretace kovariance a korelačního koeficientu
Kovariance Cov(X, y) = 6,7 je kladná, což znamená, že mezi výnosy akcií X a Y existuje pozitivní vztah. Když výnos jedné akcie roste, má tendenci růst i výnos druhé akcie.
Korelační koeficient txy ~ 0,98 je velmi blízký hodnotě 1, což naznačuje silnou pozitivní korelaci mezi výnosy těchto dvou akcií. Tento výsledek znamená, že výnosy těchto akcií mají tendenci se pohybovat velmi podobně, a proto by mohly být méně vhodné pro diverzifikaci portfolia, pokud je cílem snížit riziko investic. □
OV této kapitole jsme se podrobně zabývali principy výběrových šetření a metodami jejich realizace. Zaměřili jsme se na pravděpodobnostní výběry, zejména na prostý náhodný výběr, a diskutovali jsme i alternativní metody, jako jsou stratifikovaný výběr, systematický výběr a vícestupňový shlukový výběr.
Dále jsme prozkoumali výběrové charakteristiky, které představují statistiky získané z výběrového souboru. Vysvětlili jsme význam těchto charakteristik, jako jsou výběrový průměr, rozptyl, směrodatná odchylka a korelační koeficient, a jejich roli při odhadu parametrů základního souboru.
Tato kapitola poskytla základy potřebné pro pochopení statistické analýzy založené na náhodném výběru a připravila nás na aplikaci těchto metod v dalších částech studia.
1. Co je pravděpodobnostní výběr a proč je důležitý pro statistickou analýzu?
2. Jaký je rozdíl mezi prostým náhodným výběrem a stratifikovaným výběrem? Uveďte příklady jejich použití.
3. Popište postup při prostém náhodném výběru. Jaké kroky musíme dodržet?
4. Co je výběrový poměr a jaký je jeho význam při náhodném výběru?
5. Jak se vypočítá výběrový průměr? Jaké jsou jeho vlastnosti a kdy je vhodný pro odhad?
6. Vysvětlete, co je výběrový rozptyl a jaký je jeho vztah k výběrové směrodatné odchylce.
7. Co je výběrová kovariance a jak se liší od výběrového lineárního korelačního koeficientu?
8. Jaké jsou hlavní úkoly výběrového šetření a jak můžeme odhadnout parametry základního souboru?
9. Vysvětlete rozdíl mezi odhady konzistentními a nevychýlenými. Proč jsou tyto vlastnosti důležité?
10. Jaké alternativní metody výběru mohou být použity, pokud není prostý náhodný výběr proveditelný nebo je příliš nákladný?
Zpracování dat z výběrových zjišťování
38
Literatura k tématu:
[1] HINDLS, R. Statistika pro ekonomy. 8. vyd. Praha: Professional Publishing, 2007.
ISBN 978-80-86946-43-6.
[2] JANÁČEK, J. Statistika jednoduše. Grada, 2022. ISBN 978-80-271-1738-3.
[3] MAREK, L. Statistika v příkladech. 2. vyd. Praha: Kamil Mařík - Professional Publishing, 2015. ISBN 978-80-743-1153-6.
[4] OTIPKA, P., SMAJSTRLA, V. Pravděpodobnost a statistika [online]. 1. vydání. Ostrava: VŠB-TU Ostrava, 2007 [cit. 2024-09-09]. ISBN 80-248-1194-4.
Kapitola 3
Pravděpodobnost
Po prostudování této kapitoly budete umět:
' definovat základní pojmy z pravděpodobnosti, jako je náhodný jev, náhodná veličina, a pravděpodobnost,
• vysvětlit a řešit úlohy z klasické pravděpodobnosti,
představit princip geometrické pravděpodobnosti a aplikovat ho na řešení praktických úloh,
popsat a aplikovat statistickou pravděpodobnost a její vztah k relativní četnosti,
' aplikovat výpočty s podmíněnou pravděpodobností a vysvětlit princip úplné pravděpodobnosti a Bayesovy věty,
vysvětlit rozdíl mezi nezávislými a závislými pokusy a použít tyto znalosti při řešení úloh.
Klíčová slova:
Pravděpodobnost, náhodný jev, náhodná veličina, klasická pravděpodobnost, geometrická pravděpodobnost, statistická pravděpodobnost, podmíněná pravděpodobnost, úplná pravděpodobnost, Bayesova věta, nezávislé jevy, závislé jevy.
Pravděpodobnost
40
Náhled kapitoly
Tato kapitola se věnuje podrobnému vysvětlení základních pojmů z pravděpodobnosti, jako je náhodný jev a náhodná veličina, a jejich aplikaci na různé typy úloh. Studenti se naučí rozlišovat mezi klasickou, geometrickou a statistickou pravděpodobností a použít tyto koncepty k řešení praktických úloh. Kapitola zahrnuje i pokročilejší metody, jako je podmíněná pravděpodobnost, úplná pravděpodobnost a Bayesova věta, které se často používají při analýze reálných problémů. Důraz je kladen na pochopení nezávislých a závislých pokusů a jejich rozdílného vlivu na výpočty pravděpodobnosti.
Cíle kapitoly
Cílem kapitoly je důkladně seznámit studenty se základy teorie pravděpodobnosti a naučit je aplikovat tyto poznatky v praxi. Kapitola zahrnuje jak jednoduché úlohy z klasické pravděpodobnosti, tak složitější problémy zahrnující podmíněnou pravděpodobnost, úplnou pravděpodobnost a použití Bayesovy věty. Studenti se také naučí pracovat s nezávislými i závislými jevy a pochopí rozdíly mezi nimi. Tyto dovednosti jsou klíčové pro další studium statistických metod.
Odhad času potřebného ke studiu
Pro zvládnutí této kapitoly je doporučeno věnovat studiu přibližně 3 až 4 hodiny. Tento čas zahrnuje čtení textu, pochopení základních pojmů a principů pravděpodobnosti, řešení příkladů a procvičování pokročilejších metod, jako je podmíněná pravděpodobnost a Bayesova věta.
Úvod a motivace
Pravděpodobnost je nedílnou součástí mnoha vědních disciplín, ať už jde o ekonomii, inženýrství, biologii nebo marketing. Umožňuje nám modelovat a předvídat výsledky procesů, které jsou ovlivněny náhodnými faktory. Například v podnikání se pravděpodobnost používá k hodnocení rizik, odhadu pravděpodobnosti úspěchu projektů či analýze dat. V této kapitole se zaměříme na různé metody, jak pravděpodobnost vypočítat a jak ji použít k řešení praktických úloh.
Jedním z klíčových pojmů, které se v této kapitole seznámíte, je pojem nezávislých a závislých pokusů, což má zásadní význam pro pochopení složitějších jevů a situací v reálném světě.
Pravděpodobnost náhodného jevu A je definována jako číslo mezi 0 a 1, které vyjadřuje, jak moc je pravděpodobné, že tento jev nastane. Může být definována různým způsobem.
41
Statistika a statistické zpracování dat
3.1    Klasická pravděpodobnost
Definice 3.1. Při splnění níže uvedených předpokladů definujeme klasickou pravděpodobnost jako
Počet příznivých výsledků Celkový počet možných výsledků
Předpoklady klasické pravděpodobnosti:
1. Konečný počet možných výsledků: Předpokládá se, že jev má konečný počet možných výsledků (elementárních jevů), které jsou všechny jasně definovány a lze je spočítat.
2. Stejná pravděpodobnost všech výsledků: Každý z možných výsledků je stejně pravděpodobný. To znamená, že žádný výsledek není preferován nebo diskriminován, což je klíčový předpoklad této definice. Například při hodu férovou kostkou má každá strana stejnou šanci padnout.
3. Určitelnost jevů: Všechny možné výsledky (elementární jevy) jsou dopředu známy a lze je spočítat. V praxi to znamená, že prostor elementárních jevů je jasně definovaný a každý výsledek je předem určitelný.
4. Nezávislost pokusů: Pokud klasickou pravděpodobnost aplikujeme na opakované pokusy (např. hody kostkou), předpokládá se, že jednotlivé pokusy jsou na sobě nezávislé - výsledek jednoho pokusu neovlivňuje výsledky dalších pokusů.
Tyto předpoklady omezují klasickou pravděpodobnost na situace, kde je možné zaručit stejné šance všech výsledků a kde je počet možných výsledků konečný a jasně definovaný.
Příklad 3.2. V (losovací) urně je 5 červených a 3 modré kuličky. Jaká je pravděpodobnost, že při náhodném výběru vytáhnete červenou kuličku?
Řešení: Počet příznivých výsledků (červených kuliček) je 5, celkový počet kuliček je 8. Pravděpodobnost, že vytáhnete červenou kuličku, je tedy:
5
P(červená kulička) = - = 0,625
□
Pravděpodobnost
42
Sjednocení a průnik jevů
Definice 3.3. Sjednocení jevů (A nebo B): Pravděpodobnost, že nastane alespoň jeden z jevů A nebo B. Označuje se A U B a je dána vztahem:
P (A U B) = P (A) + P {B) - P{A n B).
Průnik událostí (A a B): Pravděpodobnost, že nastanou oba jevy současně. Označuje se
A n B.
Příklad 3.4. Vezmeme v úvahu dvě události: A - pravděpodobnost, že padne liché číslo při hodu kostkou, a B - pravděpodobnost, že padne číslo větší než 4. Vypočítejte pravděpodobnost sjednocení a průniku těchto událostí.
Řešení: Pravděpodobnost události A (liché číslo):
P(A) = ^ = i. v ;    6 2
Pravděpodobnost události B (číslo větší než 4):
2 1 ^) = 6 = 3-
Pravděpodobnost, že padne číslo, které je liché a větší než 4 (průnik):
p(AnB) = \.
Pravděpodobnost sjednocení:
P(A UB)= P(A) + P(B) - P(A n B) = \ + i - i = |
□
Příklad 3.5. S jakou pravděpodobností padne na dvou kostkách součet:
• a) šest,
• b) menší než 7?
Řešení: ad a) Šestka padne v následujících případech:
1. kostka	2. kostka
1	5
5	1
2	4
4	2
3	3
43
Statistika a statistické zpracování dat
Tedy existuje 5 možností. Počet všech možností je n = 6 x 6 = 36. Pravděpodobnost:
5
P(součet 6) = —.
ad b) Součet menší než 7 může být:
Součet	Možnosti
6	(1,5), (2,4), (3,3), (4,2), (5,1)
5	(1,4),(4,1),(2,3),(3,2)
4	(1,3), (3,1), (2,2)
3	(1,2), (2,1)
2	(1,1)
Celkový počet možností je tedy 15. Pravděpodobnost:
15 5
Písoučet menší než 7) = — = —. v ;     36 12
□
Příklad 3.6 (Narozeninový problém (R. von Mises, 1939)). Kolik minimálně osob musí být ve skupině, aby, ignorujeme-li 29. únor, alespoň dva z nich měli narozeniny ve stejný den roku s pravděpodobností alespoň 50 %?
Řešení: Nejprve uvažujeme pravděpodobnost opačného jevu, tedy že žádní dva lidé ve skupině nemají narozeniny ve stejný den. Pokud ve skupině bude n osob, můžeme tento problém formulovat následovně:
Předpokládáme, že každý den v roce je stejně pravděpodobný pro narozeniny a že rok má 365 dní (ignorujeme-li 29. únor). Pravděpodobnost, že první osoba má narozeniny v libovolný den, je Hl = 1, protože její narozeniny mohou být jakýkoli den v roce.
Pro druhou osobu, aby měla narozeniny v jiný den než první osoba, je pravděpodobnost:
364 365'
protože zbývá 364 dní.
Pro třetí osobu, aby měla narozeniny v jiný den než první dvě osoby, je pravděpodobnost:
363 365'
Pokračujeme tímto způsobem pro všechny osoby ve skupině až do n-té osoby. Pravděpodobnost, že všechny osoby mají různé narozeniny, tedy žádné dva lidé nemají narozeniny ve stejný den, je dána součinem:
„, 0    ,               ,          364    363            365 -n + 1 Piruzne narozeniny) = 1 x -       x -       x • • • x -.
v yj 365    365 365
Pravděpodobnost
44
Aby byla pravděpodobnost, že alespoň dvě osoby mají narozeniny ve stejný den, alespoň 50 %, počítáme doplňkovou pravděpodobnost:
P(alespoň dva mají stejné narozeniny) = 1 — P(různé narozeniny).
Hledáme tedy nejmenší počet osob n, pro který je pravděpodobnost alespoň 50 %.
Zkusmo vypočítáme (nejdelší součin, který je ještě menší jak 0,5):
.    , x 364    363 343
P ruzne narozeniny « 1 x -       x -       x • • • x -ps 0,4927.
v yj 365    365 365
Jelikož 343 = 365 — 23 + 1, nejmenší počet osob, aby pravděpodobnost byla alespoň 50 %, je n = 23:
P(alespoň dva z 23 mají stejné narozeniny) = 1—P(různé narozeniny u 23) ~ 1—0,4927 = 0,5073.
□
3.2    Podmíněná pravděpodobnost
Definice 3.7. Podmíněná pravděpodobnost je pravděpodobnost jevu A za předpokladu, že nastal jev B. Označuje se P{A\B) a je definována jako:
P(A\B) = P{^\   pokud P(P)>0.
Tento koncept je užitečný v mnoha praktických situacích, například při odhadu pravděpodobnosti úspěchu produktu na trhu, pokud víme, že byl úspěšný v podobném segmentu.
Příklad 3.8. Předpokládejme, že 60 % lidí v populaci je praváků a 40 % je leváků. Pokud víme, že osoba je levák, jaká je pravděpodobnost, že preferuje levou ruku při psaní, když je známo, že 80 % leváků preferuje levou ruku?
Řešení: Pravděpodobnost, že osoba je levák a preferuje levou ruku, je P{A fl B) = 0,4 x 0,8 = 0,32.
Podmíněná pravděpodobnost, že osoba preferuje levou ruku, pokud je levák, je:
r,/.,^     P(AnB) 0,32 P(A\B) = ; = -2— = 0,8.
v  1  ;       P(B) 0,4
□
Příklad 3.9. V automobilovém servisu bylo zjištěno, že 70 % automobilů potřebuje opravu motoru (jev M), 50 % automobilů má problém s převodovkou (jev P), a 30 % automobilů má problém s obojím (jev M fl P). Jaká je pravděpodobnost, že automobil, který má problém s převodovkou, má také problém s motorem?
45
Statistika a statistické zpracování dat
Řešení: Zadání uvádí následující pravděpodobnosti:
P(M) = 0,7,    P(P) = 0,5,    P(M HP) =0,3.
Podmíněná pravděpodobnost, že automobil má problém s motorem za předpokladu, že má problém s převodovkou, je dána vztahem:
P(M|P) = ^f>.
Dosazením hodnot:
P{M\P) = M = 0,6.
Závěr: Existuje 60% pravděpodobnost, že automobil, který má problém s převodovkou, má také problém s motorem. □
Úplná pravděpodobnost
Definice 3.10. Zákon úplné pravděpodobnosti umožňuje vypočítat pravděpodobnost jevu na základě rozkladu prostoru jevů na několik disjunktních (vzájemně neslučitelných) událostí. Tento zákon využíváme zejména tehdy, když pravděpodobnost jevu závisí na několika různých scénářích (podmínkách), které tvoří úplný prostor možných výsledků.
Formálně lze úplnou pravděpodobnost jevu A vyjádřit jako:
P (A) = P{A n B1) + P (A n B2) + • • • + P (A n Bn),
kde B1}B2,... ,Bn jsou vzájemně neslučitelné události, které tvoří úplný prostor (tedy B\ U B2 U • • • U Bn = Q).
Použijeme-li pravidlo pro podmíněnou pravděpodobnost, můžeme tento vztah upravit:
P{A) = P(51) • P(A | Px) + P{B2) ■P(A\B2) + --- + P{Bn) ■ P{A \ Bn),
kde P{A | B i) je podmíněná pravděpodobnost jevu A za podmínky, že nastal jev Bi.
Zákon úplné pravděpodobnosti nám tedy umožňuje vypočítat pravděpodobnost složitých jevů tím, že je rozdělíme na dílčí podmíněné pravděpodobnosti.
Příklad 3.11 (Použití úplné pravděpodobnosti). V obchodě jsou 3 pokladny, na nichž dojde k chybě v účtování s pravděpodobností 0,1; 0,05 a 0,2. Z hlediska jejich umístění v obchodě jsou pravděpodobnosti odbavení pokladnami 0,3; 0,25 a 0,45. Jaká je pravděpodobnost, že osoba vycházející z obchodu má chybný účet?
Řešení: Označme:
Pravděpodobnost
46
• A: jev, že došlo k chybě v účtování,
• B\. jev, že zákazník byl obsloužen u první pokladny,
• B2: jev, že zákazník byl obsloužen u druhé pokladny, B3: jev, že zákazník byl obsloužen u třetí pokladny.
Hledáme pravděpodobnost P (A), že osoba vycházející z obchodu má chybný účet. To můžeme vyjádřit jako:
p (A) = P (A n B,) + p (A n b2) + P (A n b3).
Protože jevy Bi, B2 a .B3 jsou vzájemně neslučitelné, můžeme použít vztah:
P{A) = P(50 • P(A I B±) + P(B2) • P(A I 52) + P(53) • P (A \ B3). Dosadíme hodnoty:
P (A) = 0,3 x 0,1 + 0,25 x 0,05 + 0,45 x 0,2. Spočítáme jednotlivé členy:
P(A) = 0,03 + 0,0125 + 0,09 = 0,1325. Pravděpodobnost, že osoba vycházející z obchodu má chybný účet, je tedy P (A) = 0,1325. □
Bayesova věta
Definice 3.12. Bayesova věta je užitečný nástroj v pravděpodobnostní teorii, který umožňuje přepočítat podmíněnou pravděpodobnost jevu za předpokladu, že máme dodatečnou informaci. Vychází z pravidla pro výpočet podmíněné pravděpodobnosti a umožňuje nám přepočítat pravděpodobnost příčiny za předpokladu, že známe důsledek. Matematicky je Bayesova věta vyjádřena následovně:
P (A	Bt) ■ P(Bi)	
£?=i P(A		Bj) ■ P(Bj)
kde P(Bi | A) je pravděpodobnost jevu Bi za předpokladu, že nastal jev A, P(A \ Bi) je podmíněná pravděpodobnost jevu A, pokud nastal jev Bi, a P{Bi) je pravděpodobnost jevu Bi. Jmenovatel představuje celkovou pravděpodobnost výskytu jevu A.
Bayesova věta se často používá v situacích, kde potřebujeme zpětně upravit pravděpodobnost určité příčiny na základě nových pozorování.
Příklad 3.13 (Bayesova věta). V obchodě jsou tři pokladny, přičemž pravděpodobnost chyby v účtování na pokladnách je následující: na první pokladně 0,1, na druhé 0,05 a na třetí 0,2. Pravděpodobnosti odbavení zákazníků jednotlivými pokladnami jsou 0,3, 0,25 a 0,45. Pokud dojde k chybě v účtování, jaká je pravděpodobnost, že k ní došlo na třetí pokladně?
Řešení: Použijeme Bayesovu větu. Označme:
47
Statistika a statistické zpracování dat
• A — jev, že došlo k chybě,
B3 — jev, že zákazník byl obsloužen na třetí pokladně.
Chceme vypočítat P{B3 | A), tedy pravděpodobnost, že chyba nastala na třetí pokladně za předpokladu, že chyba nastala.
Podle Bayesovy věty:
P(B3 | A) =
P{A		B3) ■ P(B3)	
P (A	\B1)-P(B1) + P(A\	B2) ■ P(B2) + P(A	B3) ■ P(B3)
0,2 x 0,45 0,1 x 0,3 + 0,05 x 0,25 + 0,2 x 0,45'
Dosadíme známé hodnoty:
P(B3 | A)
Vypočítáme:
0 09 0 09
P(B3 I A) =-^-= —« 0,6792.
v    1   ;    0,03 + 0,0125 + 0,09 0,1325
Výsledek: Pravděpodobnost, že chyba v účtování nastala na třetí pokladně, pokud víme, že chyba nastala, je přibližně 67,92%. □
Poznámka 3.14. Tento příklad ukazuje, jak Bayesova věta umožňuje přepočítat pravděpodobnost příčiny (pokladna, kde došlo k chybě) na základě nového důkazu (chyba v účtování). Pomocí známých pravděpodobností chyby na jednotlivých pokladnách a pravděpodobností odbavení zákazníků lze zpětně vypočítat pravděpodobnost, že chyba nastala právě na třetí pokladně.
Příklad 3.15 (Pozitivní lékařský test). Prevalence výskytu AIDS v populaci je 0,6 %. Pro odhalení nemoci se používá test, který s pravděpodobností 99,9 % je pozitivní, je-li dotyčná osoba nakažená (tzv. senzitivita testu), a s pravděpodobností 99 % je negativní, je-li daná osoba zdravá (tzv. specificita testu). Jaká je pravděpodobnost, že osoba, která měla pozitivní test, má skutečně AIDS?
Řešení: Tento příklad řešíme pomocí Bayesovy věty, která nám umožňuje spočítat zpětnou pravděpodobnost, že osoba, která měla pozitivní test, je skutečně nakažená.
Označme:
P{A) - pravděpodobnost, že osoba má AIDS (prevalence v populaci): P{A) = 0,006,
P{A) - pravděpodobnost, že osoba nemá AIDS: P{A) = 1 — P{A) = 0,994,
P(T+\A) - pravděpodobnost pozitivního testu, pokud má osoba AIDS (senzitivita): P(T+\A) 0,999,
P(T+\A) - pravděpodobnost pozitivního testu, pokud osoba nemá AIDS (chybovost, tedy 1- specificita): P(T+\A) = 1 - 0,99 = 0,01.
Pravděpodobnost
48
Bayesova věta nám umožňuje vypočítat pravděpodobnost, že osoba má AIDS za předpokladu, že měla pozitivní test, tedy P{A\T+). Tento vztah je dán vzorcem:
P(A\T+) = P{T+\A).P{A)_ 1 1    ;    P{T+\A) ■ P{A) + P{T+\A) ■ P{A\
Dosadíme hodnoty:
p(A|T+, 0,999 x 0,006
0,999 x 0,006 + 0,01 x 0,994
Vypočítáme jednotlivé členy:
r,/íllm,, 0,005994 0,005994
P(AT+) =---= --« 0,376.
v  1    ;    0,005994 + 0,00994 0,015934
Odpověď: Pravděpodobnost, že osoba, která měla pozitivní test, skutečně má AIDS, je přibližně 37,6 %. □
3.3    Geometrická pravděpodobnost
Definice 3.16. Geometrická pravděpodobnost se používá v situacích, kdy jev nemá konečný počet výsledků, ale je možné jej popsat pomocí pojmů, jako jsou délka, obsah nebo objem. Pravděpodobnost určitého jevu je pak poměr odpovídající geometrické míry jevu k míře celkového prostoru.
Definujeme ji jako:
„. Míra příznivého geometrického jevu
P (A) =--;—f-- to-^-.
Celková míra možného geometrického prostoru
Předpoklady geometrické pravděpodobnosti:
1. Nepřetržitý prostor výsledků: Na rozdíl od klasické pravděpodobnosti, kde je počet možných výsledků konečný, geometrická pravděpodobnost předpokládá, že výsledek může spadat do nekonečného nebo kontinuálního prostoru.
2. Stejná pravděpodobnost na jednotku plochy (objemu): Pravděpodobnost jednotlivých výsledků je úměrná míře (např. délce, ploše nebo objemu) v daném geometrickém prostoru. Žádná část prostoru není preferována, což znamená, že všechny body v tomto prostoru mají stejnou pravděpodobnost.
3. Geometrická definice prostoru: Prostor, ve kterém se počítá pravděpodobnost, musí být geometricky definován (např. určitá oblast, interval na číselné ose, plochy nebo objemy v prostoru).
49
Statistika a statistické zpracování dat
Příklad 3.17. Máme čtverec o straně 20 cm, uvnitř kterého je umístěn kruh o poloměru 5 cm. Jaká je pravděpodobnost, že náhodně vybraný bod uvnitř čtverce spadne do kruhu?
20 cm
20 cm
Řešení: Nejprve vypočítáme plochu čtverce a kruhu. Plocha čtverce je
čtverec = 20 X 20 = 400 Clil2,
zatímco plocha kruhu je
•Skruh = t x 52 = 257t cm2    78,54 cm2.
Pravděpodobnost, že náhodně vybraný bod spadne do kruhu, je dána jako poměr plochy kruhu k ploše čtverce:
pn    i \      Skruh      25tt 78,54 P(kruh) = —-        =-~- ~ 0,196.
1 '       čtverec       400 400
□
3.4    Statistická pravděpodobnost
Definice 3.18. Statistickou pravděpodobnost definujeme jako relativní četnost, s jakou určitý jev nastává v dlouhodobém opakování experimentu. Její výpočet se odvozuje z pozorovaných dat a lze ji vyjádřit vztahem
P (A) = lim Požet výbytů jevu A n^oo Celkový počet pokusů
Pravděpodobnost
50
Předpoklady statistické pravděpodobnosti:
1. Opakovatelnost experimentu: Pokus, při kterém je zkoumán jev, lze opakovat za stejných podmínek mnohokrát.
2. Stabilní výsledky při velkém počtu pokusů: S narůstajícím počtem pokusů se relativní četnost výskytu daného jevu stabilizuje a blíží se určité hodnotě. Tato hodnota je považována za pravděpodobnost jevu.
3. Nezávislost pokusů: Jednotlivé pokusy jsou na sobě nezávislé, což znamená, že výsledek jednoho pokusu nemá vliv na výsledky dalších pokusů.
4. Dostatečně velký počet pokusů: Statistická pravděpodobnost má smysl pouze v situacích, kdy je k dispozici velký počet pokusů nebo měření. Relativní četnost se totiž stabilizuje až po dostatečně velkém počtu opakování.
Statistická pravděpodobnost je vhodná pro situace, kdy máme k dispozici data z opakovaných pokusů a můžeme na základě těchto dat odhadovat pravděpodobnost výskytu různých jevů.
Aplikace v různých situacích
Statistickou pravděpodobnost lze aplikovat jak v diskrétních, tak spojitých situacích, a to s určitými rozdíly:
Diskrétní konečná situace: V případě konečného počtu možných výsledků (např. hod kostkou) lze statistickou pravděpodobnost odhadnout z relativních četností jednotlivých výsledků v řadě pokusů. Například pokud házíme kostkou lOOkrát, počet, kolikrát padne číslo 6, se může stabilizovat kolem hodnoty |.
Diskrétní nekonečná situace: Pokud má náhodná veličina nekonečně mnoho možných hodnot, ale tyto hodnoty jsou diskrétní (např. počet zákazníků přicházejících do obchodu za den), pak se pravděpodobnostní model zaměřuje na odhad pravděpodobností jednotlivých hodnot nebo jejich intervalů pomocí četností. Zde může být například důležité určit, jak často během jednoho dne přijde do obchodu přesně 10 zákazníků, nebo třeba víc jak 50.
Spojitá situace: U spojitých náhodných veličin (např. výška náhodně vybraného člověka) nelze přímo určit pravděpodobnost, že náhodná veličina nabude konkrétní hodnoty (např. přesně 170 cm), protože tato pravděpodobnost je prakticky nulová. Namísto toho se pracuje s pravděpodobností, že náhodná veličina spadne do určitého intervalu, např. že výška člověka bude mezi 170 a 175 cm. Pravděpodobnost se odhaduje na základě relativních četností hodnot spadajících do těchto intervalů a k modelování se používají hustoty pravděpodobnosti.
V závislosti na povaze náhodné veličiny a situace, ve které pracujeme, se způsob aplikace statistické pravděpodobnosti mění. Zatímco u diskrétních situací lze snadno spočítat četnosti jednotlivých hodnot, u spojitých situací musíme pracovat s intervaly hodnot a hustotami pravděpodobnosti.
51
Statistika a statistické zpracování dat
Příklad 3.19 (spojitý případ). Sledujme dobu, po kterou se zákazníci zdržují v obchodě. Čas pobytu byl zaznamenán a rozdělen do intervalů o délce 5 minut. Data o četnostech pro jednotlivé intervaly jsou shrnuta v následující tabulce:
Tab. 2: Četnosti zdržení se zákazníků v obchodě (intervaly 5 minut)
Interval (min)	Četnost
0-5	77
5-10	83
10-15	25
15-20	15
Celkem	200
Určete jednotlivé statistické pravděpodobnosti.
Řešení: Z tabulky je zřejmé, že celkem bylo sledováno 200 zákazníků. Nyní spočítáme statistické pravděpodobnosti pro jednotlivé intervaly na základě relativních četností.
77
P(0-5 minut) =-= 0,385,
v ;    200      ' '
83
P(5-10 minut) =-= 0,415,
v ;    200      ' '
25
P(10-15 minut) =-       = 0,125,
v ;    200      ' '
15
P(15-20 minut) =-= 0,075.
v ; 200
Rozdělení statistické pravděpodobnosti pro intervaly času zdržení se zákazníků v obchodě je tedy následující:
Pravděpodobnost, že se zákazník zdrží v obchodě mezi 0 a 5 minutami, je 0,385. Pravděpodobnost, že se zákazník zdrží mezi 5 a 10 minutami, je 0,415. Pravděpodobnost, že se zákazník zdrží mezi 10 a 15 minutami, je 0,125. Pravděpodobnost, že se zákazník zdrží mezi 15 a 20 minutami, je 0,075.
Celkové rozdělení pravděpodobnosti je vytvořeno (odhadnuto) z relativních četností, které vyjadřují pravděpodobnosti pro jednotlivé intervaly. Toto rozdělení můžeme použít k modelování délky pobytu zákazníků v obchodě. □
Pravděpodobnost
52
3.5    Nezávislé jevy
Definice 3.20. Nezávislé jevy jsou takové jevy, jejichž výskyt jeden druhého neovlivňuje. To znamená, že pravděpodobnost výskytu jednoho jevu neovlivňuje pravděpodobnost výskytu druhého jevu. Pokud jsou dva jevy A a, B nezávislé, pak platí následující rovnost:
Tato rovnost říká, že pravděpodobnost současného výskytu jevů A a, B (jejich průniku) je součinem pravděpodobností jednotlivých jevů. Nezávislost je důležitý koncept, který se často vyskytuje v reálných situacích, například při opakovaných náhodných pokusech, jako je házení kostkou nebo mincí. V těchto případech výsledek jednoho hodu neovlivňuje výsledek následujících hodů, a proto jsou tyto pokusy nezávislé.
Příklad 3.21 (Nezávislé jevy). Předpokládejme, že házíme dvěma kostkami. Jaká je pravděpodobnost, že na první kostce padne číslo 3 a na druhé kostce číslo 5?
Řešení: Uvažujme jevy A a B:
Jev A: Na první kostce padne číslo 3.
Jev B: Na druhé kostce padne číslo 5.
Pravděpodobnost jevu A je P (A) = |, protože každé číslo má stejnou pravděpodobnost padnout na kostce (jedna strana z šesti). Stejně tak platí, že pravděpodobnost jevu B je P(B) = |.
Protože házení dvěma kostkami jsou nezávislé pokusy, pravděpodobnost současného výskytu obou jevů (průnik jevů A fl B) je dána vztahem:
Výsledek: Pravděpodobnost, že na první kostce padne číslo 3 a na druhé kostce číslo 5, je
P(AHB) =P(A)-P(B).
P (A HB) = P (A) ■ P(B)
1 1
1
6 6
36
36"
□
53
Statistika a statistické zpracování dat
Skupinově nezávislé jevy
Definice 3.22. Jevy A, B a C jsou skupinově nezávislé, jestliže platí následující podmínky:
' Nezávislost po dvou: Každá dvojice jevů musí být nezávislá, což znamená, že pro všechny dvojice jevů platí:
P(Af]B) = P(A)-P(B),
P(AnC) =P(A)-P(C), P(BnC) =P(B)-P(C).
• Nezávislost po třech: Pro tři jevy zároveň musí platit, že průnik všech tří jevů odpovídá součinu jejich pravděpodobností:
P (A n B n C) = P (Ä) ■ P (B) ■ P {C).
Pokud jsou splněny všechny tyto podmínky, říkáme, že jevy A, B a C jsou skupinově nezávislé. Tato vlastnost je klíčová v situacích, kde analyzujeme souběh více nezávislých jevů, a je využívána v pravděpodobnostních modelech, jako je například rozklad nezávislých náhodných veličin.
Příklad 3.23 (Mince). Dvakrát hodíme férovou mincí. Uvažujme jevy:
A ... v 1. hodu padne líc,
• B ... ve 2. hodu padne líc,
• C ... v obou hodech padne totéž.
Jsou jevy A, B, C skupinově nezávislé? Jsou jevy A, B, C po dvou nezávislé?
Řešení: Pro začátek si určíme základní prostor výsledků dvou hodů férovou mincí. Základní prostor je
f2 = {LL, LR, RL, RR^,
kde L označuje líc a R rub. Nyní si určíme jednotlivé jevy:
A = {LL, LR} ... v prvním hodu padne líc,
• B = {LL, RL} ... ve druhém hodu padne líc,
• C = {LL, RR} ... v obou hodech padne totéž.
Pravděpodobnost
54
Nezávislost po dvou:
P (A H B) = P({LL}) = J, zatímco P (A) ■ P{B) = \ ■ \ = ±, takže jevy A a, B jsou nezávislé.
P (A n C) = P({LL}) = J, zatímco P(A) • P(C) = \ ■ \ = ±, takže jevy A a C jsou nezávislé.
P(5 n C) = P({LL}) = \, zatímco P(B) ■ P(C) = \ ■ \ = \, takže jevy B a C jsou nezávislé.
Skupinová nezávislost:
Pro skupinovou nezávislost musí platit:
P (A n B n C) = P (Ä) ■ P (B) ■ P {C).
Máme P (A H B f] C) = P({LL}) = \a P (A) ■ P (B) ■ P(C) = \-\-\ = \-
Protože P {A C] B C] C) ^ P{A) ■ P (B) ■ P (C), jevy A, B, C nejsou skupinově nezávislé. □
Příklad 3.24 (Střelba na terč). Petr, Tomáš a Cyril střílí na terč. Petr zasáhne terč s pravděpodobností 0,2; Tomáš s pravděpodobností 0,4 a Cyril s pravděpodobností 0,5. Jaká je pravděpodobnost, že terč zasáhnou:
• a) všichni střelci,
• b) nejvýše jeden z nich?
Řešení: Označme jednotlivé pravděpodobnosti zásahu jako:
P(P) = 0,2,    P{T) = 0,4,    P(C) = 0,5.
Naproti tomu pravděpodobnosti, že střelec terč nezasáhne, jsou:
P(P) = 1 - P(P) = 0,8,   P (T) = 1 - P{T) = 0,6,   P(Č) = 1 - P{C) = 0,5.
a) Pravděpodobnost, že všichni střelci zasáhnou:
Pro tuto část musíme spočítat pravděpodobnost, že terč zasáhnou Petr, Tomáš i Cyril současně. To znamená, že musíme vypočítat průnik všech tří nezávislých událostí, což je jejich součin:
P(P n T n C) = P(P) ■ P (T) ■ P {C) = 0,2 • 0,4 • 0,5 = 0,04.
b) Pravděpodobnost, že nejvýše jeden střelec zasáhne:
Pravděpodobnost, že nejvýše jeden střelec zasáhne, můžeme vypočítat pomocí doplňku k pravděpodobnosti, že zasáhne přesně jeden, nebo nikdo.
55
Statistika a statistické zpracování dat
Pravděpodobnost, že žádný střelec nezasáhne terč:
p(p n ť n C) = P(P) ■ P(T) ■ p{č) = 0,8 • 0,6 • 0,5 = 0,24.
Pravděpodobnost, že přesně jeden střelec zasáhne:
p(p nrnč) = o,2- o,6 • o,5 = o,06,
p(p n T n č) = 0,8 • 0,4 • 0,5 = 0,16,
p(p n Ť n c) = 0,8 • 0,6 • 0,5 = 0,24.
Celková pravděpodobnost, že zasáhne nejvýše jeden střelec, je součtem pravděpodobností, že nezasáhne žádný nebo že zasáhne právě jeden:
P(nejvýše jeden) = p(p n Ť n č) + p(p HŤnČ) + P(P n T n Č) + P(P HŤnC)
P(nejvýše jeden) = 0,24 + 0,06 + 0,16 + 0,24 = 0,7.
□
3.6    Opakované pokusy
Definice 3.25. Opakované pokusy představují situace, kdy se experiment, při kterém sledujeme určitý jev, opakuje vícekrát za stejných podmínek. Při takových pokusech nás zajímá, jak se chovají pravděpodobnosti jednotlivých jevů v závislosti na počtu pokusů.
Definice 3.26. Nezávislé opakované pokusy jsou takové, kde výsledek jednoho pokusu nemá žádný vliv na výsledky dalších pokusů. To znamená, že pravděpodobnost daného jevu zůstává ve všech pokusech stejná.
Klasickým příkladem je opakovaný hod mincí, kde pravděpodobnost líce či rubu zůstává konstantní. Nezávislé pokusy se často vyskytují v hazardních hrách (např. opakované hody kostkou, losování v loterii) nebo v testech spolehlivosti výrobků, kde zkoušíme nezávislé vzorky na stejné podmínky. Pokud máme například n nezávislých pokusů s pravděpodobností úspěchu p, celková pravděpodobnost, že jev nastane přesně fc-krát, je dána binomickým rozdělením.
Definice 3.27. Závislé opakované pokusy jsou takové, kde výsledek jednoho pokusu ovlivňuje pravděpodobnost výsledku dalších pokusů. To znamená, že pravděpodobnosti se mohou měnit v závislosti na předchozích výsledcích.
Příkladem může být výběr kuliček z urny bez vrácení, kde po každém výběru se mění počet kuliček a tím i pravděpodobnosti jednotlivých výsledků. Takové situace často nastávají v situacích, kde dochází k postupnému výběru bez nahrazování, například při losování cen, kontrolách kvality, či simulacích, kde jsou výsledky závislé na předchozích výběrech. V těchto situacích je důležité brát v úvahu změny v prostoru možných výsledků při každém dalším pokusu.
Pravděpodobnost
56
Dichotomické pokusy a výběr s vracením
Příklad 3.28 (Kostky - Chevalier de Méré). Je výhodné vsadit na to, že:
1. při čtyřech hodech kostkou padne alespoň jedna šestka?
2. při dvaceti čtyřech hodech dvěma kostkami padnou alespoň jednou dvě šestky?
Řešení:     1. Pravděpodobnost, že při jednom hodu kostkou nepadne šestka, je |. Pravděpodobnost, že při čtyřech hodech nepadne šestka ani jednou, je tedy:
Odpověď: Ano, je výhodné vsadit, protože pravděpodobnost, že padne alespoň jedna šestka, je vyšší než 50 %.
2. Pravděpodobnost, že při jednom hodu dvěma kostkami nepadnou dvě šestky, je ||. Pravděpodobnost, že při 24 hodech nepadnou dvě šestky ani jednou, je:
Pravděpodobnost, že alespoň jednou padnou dvě šestky, je komplementární jev, tedy:
P(alespoň jednou dvě šestky) = 1 — P(žádné dvě šestky) = 1 — 0,5086 = 0,4914.
Odpověď: Ne, není výhodné vsadit, protože pravděpodobnost, že padnou alespoň jednou dvě šestky, je menší než 50 %.
Definice 3.29 (Bernoulliho schéma). Mějme posloupnost n nezávislých dichotomických pokusů. V každém dílčím pokuse může nastat jev A (úspěch) s pravděpodobností p. Pravděpodobnost, že nastalo právě k úspěchů, je rovna:
Pravděpodobnost, že padne alespoň jedna šestka, je komplementární jev, tedy:
P(alespoň jedna šestka) = 1 — P(žádná šestka) = 1 — 0,482 = 0,518.
□
k
0,1, 2,...,ri
kde q = 1 — p je pravděpodobnost neúspěchu.
Nejpravděpodobnější počet úspěchů
Nejpravděpodobnější počet úspěchů k je takový, že splňuje nerovnici:
p ■ (n + 1) — 1 < k < p ■ (n + 1).
57
Statistika a statistické zpracování dat
Příklad 3.30 (Test). Učitel připravil test s 10 otázkami. V každé otázce je třeba vybrat 1 správnou odpověď ze 4. Student se na písemku vůbec nepřipravil a pouze náhodně vybírá odpovědi. Jaká je pravděpodobnost, že:
1. uhodne všechny odpovědi správně?
2. neuhodne ani jednu odpověď správně?
3. uhodne šest odpovědí správně?
Řešení:     1. Pravděpodobnost, že student správně uhodne odpověď na jednu otázku, je
P(správná) = |, a pravděpodobnost, že na jednu otázku odpoví špatně, je P (špatná) = |. Protože otázky jsou nezávislé, pravděpodobnost, že uhodne všech 10 odpovědí správně, je:
/1\10 1
Pívšechny správně) =   -     =- « 0,00000095.
v        J  F       '    \AJ       1048 576
2. Pravděpodobnost, že neuhodne ani jednu odpověď správně, je:
/3\10
P(žádná správně) = í —J    « 0,0563.
3. Pravděpodobnost, že uhodne přesně šest odpovědí správně, lze spočítat pomocí binomického rozdělení:
x     /10\     /1\6    /3\4    210x1    81 210x81
P(X = 6= x   -    x   -    =--— x — =-« 0,0162.
v        ;     V 6 y    W      W 46        44     1 048 576
□
Dichotomické pokusy a výběr bez vracení
Příklad 3.31 (Osudí). V osudí jsou 2 bílé a 3 černé kuličky. Jaká je pravděpodobnost, že bez vracení vytáhneme 3 koule,
1. z nichž 2 budou černé a 1 bílá,
2. které budou postupně barvy černé, bílé a černé?
Řešení:     1. Pravděpodobnost, že z osudí vytáhneme 3 kuličky, z nichž 2 budou černé a 1 bílá, můžeme spočítat pomocí kombinací:
P(2 černé a 1 bílá) = ^ * ^ = = — = 0,6.
V ; Q 10 10
2. Pravděpodobnost, že vytáhneme postupně černou, bílou a černou kuličku, můžeme spočítat tak, že určíme pravděpodobnost každého tahu zvlášť:
3    2    2 12 Píčerná, bílá, černá) = — x - x - = — = 0,2. V       ' ;     5    4    3 60
□
Pravděpodobnost
58
Definice 3.32 (Výběr bez vracení). Mějme soubor N prvků, z nichž M má sledovanou vlastnost. Postupně vybereme bez vracení n prvků. Pravděpodobnost, že vybereme k prvků, které mají sledovanou vlastnost, je rovna:
M\ (N-M N
P{Ak)= vfcyAfrfc/,   k = 0,l,...,n.
Příklad 3.33. V osudí je 10 kuliček, z toho 4 jsou červené a 6 modrých. Náhodně vybereme 3 kuličky bez vracení. Jaká je pravděpodobnost, že vybereme přesně 2 červené kuličky?
Řešení: Podle vzorce pro výběr bez vracení máme:
P(A2)
i) G
Vypočítáme jednotlivé kombinace:
'4  =iii3=6i    /6\ 10 \ 10x9x8
,2      2x1      '    \1        '    \ 3 / 3x2x1
Dosadíme do vzorce:
„. „ ,     6x6 36
P(A2) =-=-= 0,3.
v   ;      120 120
Pravděpodobnost, že vybereme přesně 2 červené kuličky, je tedy 0,3. □
Příklad 3.34. V loterii je třeba vybrat 6 čísel z celkem 15 čísel. Jaká je pravděpodobnost, že při jednom losování uhádneme alespoň 4 čísla správně?
Řešení: Pro výpočet pravděpodobnosti, že při jednom losování uhádneme alespoň 4 čísla správně, použijeme kombinatoriku a princip hypergeometrického rozdělení.
Nejprve vypočítáme pravděpodobnost uhádnutí přesně 4, 5 a 6 čísel správně. Celkový počet možných kombinací 6 čísel ze 15 je:
/15\ 15x14x13x12x11x10
=-= 5005.
\Q J 6x5x4x3x2x1
Nyní vypočítáme pravděpodobnost uhádnutí alespoň 4 čísel, což zahrnuje situace, kdy jsou uhádnuty přesně 4, 5 a 6 čísel.
1. Pravděpodobnost uhádnutí přesně 4 čísel:
^ 06) C)x 6) 15 x 36 540
P uhádneme 4 = v/c\y = ^-^ = -=-« 0,1079.
v ; 5005 5005 5005
59
Statistika a statistické zpracování dat
2. Pravděpodobnost uhádnutí přesně 5 čísel:
6\ /9\       /6\ w (9
P(uhádneme 5) = = w X ^ = = — « 0,0105
v ;      /1kN 5005        5005 5005
3. Pravděpodobnost uhádnutí všech 6 čísel:
Píuhádneme 6) = -^K^- = = lili = _ ~ 0,0002.
v ;      /15^ 5005        5005 5005
6
Celková pravděpodobnost, že uhádneme alespoň 4 čísla správně, je součtem jednotlivých pravděpodobností:
P(alespoň 4 správně) = P(uhádneme 4) + P(uhádneme 5) + P(uhádneme 6)
= 0,1079 + 0,0108 + 0,0002 = 0,1189.
Tedy pravděpodobnost, že při jednom losování uhádneme alespoň 4 čísla správně, je přibližně 0,119, což odpovídá přibližně 11,89 %. □
O
V této kapitole jsme se seznámili se základními pojmy pravděpodobnosti, jako jsou náhodný jev, náhodná veličina a klasická, geometrická i statistická pravděpodobnost. Pochopili jsme různé metody výpočtu pravděpodobnosti, ať už v případech, kdy je možné předem spočítat všechny možné výsledky (klasická pravděpodobnost), nebo v situacích, kdy pravděpodobnost závisí na poměru geometrických veličin, jako je délka, plocha nebo objem (geometrická pravděpodobnost).
Dále jsme se naučili, jak používat podmíněnou pravděpodobnost pro výpočty v situacích, kde výskyt jednoho jevu ovlivňuje pravděpodobnost výskytu druhého jevu. Zabývali jsme se principem úplné pravděpodobnosti a Bayesovy věty, které nám umožňují revidovat pravděpodobnost na základě nových informací.
Věnovali jsme se také významu a aplikacím statistické pravděpodobnosti v případech, kdy data vychází z dlouhodobých experimentů nebo pozorování. Kromě toho jsme pochopili rozdíly mezi nezávislými a závislými pokusy a jak tento rozdíl ovlivňuje výpočty pravděpodobností v různých situacích.
1. Co je to náhodný jev a jak se liší od náhodné veličiny?
2. Jak definujeme pravděpodobnost náhodného jevu v rámci klasické pravděpodobnosti?
3. Jaké jsou předpoklady klasické pravděpodobnosti?
4. Vysvětlete rozdíl mezi diskrétní a spojitou náhodnou veličinou.
5. Co je to geometrická pravděpodobnost a v jakých situacích ji můžeme použít?
6. Jak definujeme podmíněnou pravděpodobnost a jak ji lze vypočítat?
7. Co je to statistická pravděpodobnost a jaký je její vztah k relativní četnosti?
Pravděpodobnost
60
8. Jaké jsou rozdíly mezi klasickou a statistickou pravděpodobností?
9. Vysvětlete vztah mezi pravděpodobností a dlouhodobým experimentem.
10. Jaký je význam principu úplné pravděpodobnosti? Vysvětlete s příkladem.
11. Co je to Bayesova věta a jak ji lze využít při aktualizaci pravděpodobností na základě nových informací?
12. Jaké jsou základní rozdíly mezi nezávislými a závislými pokusy?
13. Jaký je rozdíl mezi Bernoulliho schématem a výběrem bez vracení?
14. V krabici je 5 červených a 7 modrých kuliček. Z krabice náhodně vytáhneme jednu kuličku a bez vrácení poté druhou. Jaká je pravděpodobnost, že druhá vytažená kulička bude modrá za podmínky, že první vytažená kulička byla červená? [^]
15. V balíčku 52 karet je 13 karet každé barvy (piky, kříže, srdce, káry). Jaká je pravděpodobnost, že náhodně vybraná karta bude srdcová nebo piková? [0,5]
16. V loterii je třeba vybrat 6 čísel z 49. Jaká je pravděpodobnost, že při jednom losování vyhrajete hlavní cenu (uhádnutí všech 6 čísel)?    [   Q^3 ]
17. Máme obdélník o rozměrech 8 cm x 6 cm a uvnitř tohoto obdélníku je kruh o průměru 4 cm. Jaká je pravděpodobnost, že náhodně vybraný bod spadne do kruhu? [0,2618]
18. Dva lidé se mají setkat mezi 15. a 16. hodinou. Každý z nich přijde náhodně v libovolném čase mezi těmito časy a čeká maximálně 10 minut. Jaká je pravděpodobnost, že se setkají? [|]
19. V dlouhodobém testování bylo zjištěno, že 30 % zákazníků nakoupí produkt při prvním kontaktu s reklamou. Jaká je pravděpodobnost, že ze 100 náhodně vybraných zákazníků nakoupí přesně 35? [0,102]
20. Ve výrobním procesu je známo, že 2 % výrobků jsou vadné. Jaká je pravděpodobnost, že mezi 50 náhodně vybranými výrobky budou přesně 3 vadné? [0,188]
21. V obchodě jsou 3 pokladny s pravděpodobností chyby v účtování 0,1; 0,05 a 0,2. Pravděpodobnosti odbavení pokladnami jsou 0,3; 0,25 a 0,45. Jaká je pravděpodobnost, že osoba vycházející z obchodu má chybný účet? [0,1255]
22. Petr, Tomáš a Cyril střílí na terč. Petr zasáhne terč s pravděpodobností 0,2, Tomáš s pravděpodobností 0,4 a Cyril s pravděpodobností 0,5. Jaká je pravděpodobnost, že terč zasáhnou:
' a) všichni střelci [0,04], b) nejvýše jeden z nich? [0,504].
23. V osudí je 5 bílých a 4 černé kuličky. Jaká je pravděpodobnost, že při třech náhodných výběrech bez vracení budou postupně vytaženy černá, bílá a černá kulička?    [ Jr]
Literatura k tématu:
[1] HINDLS, R. Statistika pro ekonomy. 8. vyd. Praha: Professional Publishing, 2007.
ISBN 978-80-86946-43-6. [2] JANÁČEK, J. Statistika jednoduše. Grada, 2022. ISBN 978-80-271-1738-3.
61
Statistika a statistické zpracování dat
[3] MAREK, L. Statistika v příkladech. 2. vyd. Praha: Kamil Mařík - Professional Publishing, 2015. ISBN 978-80-743-1153-6.
[4] OTIPKA, P., SMAJSTRLA, V. Pravděpodobnost a statistika [online]. 1. vydání. Ostrava: VŠB-TU Ostrava, 2007 [cit. 2024-09-09]. ISBN 80-248-1194-4.
Kapitola 4
Náhodná veličina
Po prostudování této kapitoly budete umět:
• definovat základní pojmy z náhodných veličín,
> rozlišovat mezi diskrétními a spojitými náhodnými veličinami a jejich pravděpodobnostními funkcemi,
vypočítat střední hodnotu, rozptyl a směrodatnou odchylku pro různá rozdělení náhodných veličin,
' chápat význam distribuční funkce a umět ji interpretovat pro různé typy náhodných veličin.
Klíčová slova:
Pravděpodobnost, náhodná veličina, diskrétní rozdělení, spojité rozdělení, pravděpodobnostní funkce, hustota pravděpodobnosti, distribuční funkce, střední hodnota, rozptyl, směrodatná odchylka.
63
Statistika a statistické zpracování dat
Náhled kapitoly
Tato kapitola poskytuje studentům úvod do základů pravděpodobnosti, které jsou nezbytné pro pochopení náhodnosti a nejistoty v různých aplikacích. Navazuje na předchozí výklad o základních statistických pojmech a slouží jako příprava na hlubší studium statistických metod. Kapitola se zaměřuje na klíčové koncepty, jako jsou pravděpodobnostní rozdělení, diskrétní a spojité náhodné veličiny, a způsoby výpočtu střední hodnoty, rozptylu a směrodatné odchylky.
Cíle kapitoly
Cílem této kapitoly je zopakování (srovnání znalostí) základů teorie pravděpodobnosti a těch poznatků o náhodných veličinách a jejich rozděleních pravděpodobnosti, které budou potřeba v následujících kapitolách.
Odhad času potřebného ke studiu
Pro zvládnutí této kapitoly je doporučeno věnovat studiu přibližně 4 až 5 hodin. Tento čas zahrnuje čtení textu, pochopení základních pojmů a principů pravděpodobnosti, řešení příkladů a procvičení výpočtů základních pravděpodobnostních charakteristik.
4.i    Úvod a motivace
Pro lepší pochopení toho, jak pravděpodobnost funguje, je důležité se seznámit s pojmy náhodného jevu a náhodné veličiny, které slouží k popisu náhodných procesů. Dále se podíváme, jak je možné pomocí rozdělení pravděpodobnosti určit pravděpodobnost výskytu různých hodnot náhodné veličiny v rámci určitého systému.
Náhodný jev a náhodná veličina
Náhodný jev je událost, která může, ale nemusí nastat v rámci nějakého pokusu nebo procesu. Můžeme si ho představit jako výsledek experimentu, který závisí na náhodě. Pravděpodobnost je míra, která kvantifikuje možnost, že k danému náhodnému jevu dojde, a pohybuje se v rozmezí od 0 (jevu nelze dosáhnout) do 1 (jev nastane s jistotou). Například pravděpodobnost, že při hodu kostkou padne číslo 6, je |, protože existuje 6 možných výsledků a každý má stejnou šanci nastat.
Náhodná veličina je proměnná, která může nabývat různých (reálných) hodnot v závislosti na výsledku náhodného pokusu. Například při hodu kostkou může náhodná veličina X představující výsledek hodu nabývat hodnot 1, 2, 3,4, 5 nebo 6. Každý z těchto výsledků je výsledek náhodného procesu.
Náhodné veličiny, které mohou nabývat různých hodnot v závislosti na výsledku náhodného jevu, se používají k popisu výsledků náhodných procesů. Příklady náhodných veličin mohou být:
• Počet lvů při deseti hodech mincí.
Náhodná veličina
64
' Počet zákazníků, kteří navštíví obchod v určitém dni.
Výška náhodně vybraného člověka z populace. ' Doba, za kterou přijede autobus na zastávku.
Výsledek hodu dvěma kostkami (součet bodů). ' Počet vadných kusů ve výrobní sérii 100 produktů.
Tyto příklady ukazují různé typy náhodných veličin - některé jsou diskrétní (počet hlav, počet zákazníků), jiné spojité (výška člověka, čas čekání).
Rozdělení pravděpodobnosti
Rozdělení pravděpodobnosti popisuje, jak jsou pravděpodobnosti jednotlivých možných výsledků náhodné veličiny rozloženy. Například u hodu (férovou) kostkou mají všechny výsledky (hodnoty 1 až 6) stejnou pravděpodobnost, tedy |. V praxi však ne vždy všechny výsledky mají stejnou pravděpodobnost. Rozdělení pravděpodobnosti tedy udává, s jakou pravděpodobností různé hodnoty náhodné veličiny nastanou.
Rozdělení pravděpodobnosti nám tedy poskytuje obraz o tom, jak často můžeme očekávat jednotlivé výsledky náhodného pokusu.
V závislosti na typu náhodné veličiny rozlišujeme dvě hlavní kategorie: diskrétní a spojité náhodné veličiny.
4.2    Rozdělení pravděpodobnosti diskrétní náhodné veličiny
Diskrétní náhodná veličina nabývá pouze konečného nebo spočetně nekonečného množství možných hodnot. Příkladem diskrétní náhodné veličiny je počet vadných výrobků v sérii nebo počet zákazníků přicházejících do obchodu za jeden den. Diskrétní náhodná veličina je jednoznačně určena posloupností reálných čísel {xn} a posloupností pravděpodobností {pn = P(X = xn)}.
Příklad 4.1. Diskrétní náhodná veličina X nabývá hodnot M = {1,2,4,5}    s pravděpodobnostmi    p (k) = P[X = k], kde
1111
= g, P(2) = 4> M4) = jj, P(5) = 4 a p(x) = 0 Jinak-
65
Statistika a statistické zpracování dat
i -
Zapisujeme také pomocí tabulky či obrázku: §
1/3 —
k	1	2	4	5
P(X = k)	i 3	i 4	i 6	i 4
0 12 3 4 5
Definice 4.2. Diskrétní náhodné veličiny mají svou pravděpodobnostní funkci, která přiřazuje každé hodnotě náhodné veličiny určitou pravděpodobnost P{X = x i) = Pi, i = 1,... ,m, kde Xi je možná hodnota diskrétní náhodné veličiny X, api je pravděpodobnost, že X nabude hodnoty Xi.
Vlastnosti pravděpodobnostní funkce:
• p{x) > 0   Mx E IR,
12 p(x) = x'
xeM
Výpočet pravděpodobnosti (jevu B)
P{XeB)= P{x = xn)= pM
n:x„eBnM n:x„eBnM
(součet pravděpodobností všech čísel/výsledků, která patří do B; jelikož nenulové pravděpodobnosti jsou jen v M, tak proto B fl M.)
Definice 4.3 (Distribuční funkce). Distribuční funkce náhodné veličiny X je reálná funkce F : IR —y (0; 1) definovaná vztahem
F(x) = P(X <x),    x G R.
Příklad 4.4 (distribuční funkce diskrétní náhodné veličiny). Diskrétní náhodná veličina X nabývá hodnot M = {1,2,4,5} s pravděpodobnostmi p (k) = P (X = k), kde p{\) = |, P(2) = |, P(4) = l, p(5) = \ a p(x) = 0 jinak.
Určete příslušnou distribuční funkci.
Řešení: Vycházíme z toho, že distribuční funkce je „zajímavá" jen v bodech, kde je pravděpodobnostní funkce kladná. V těchto bodech dochází u distribuční funkce ke skokovému růstu
Náhodná veličina
66
právě o hodnotu pravděpodobnostní funkce v tomto bodě. Mezi těmito body je konstantní. Praktické je tedy vypočítat hodnoty F v těchto bodech a připsat je do již známé tabulky pro pravděpodobnostní funkci:
k	1	2	4	5
P(X = k)	i 3	i 4	1 6	1 4
F(k) = ^kP(X = ki)	1 3	1 + 1 = 1. 3^4 12	7,1 _ 3 12      6 4	3+1 = 1 4^4 x
Dále F můžeme zapsat na jednotlivých intervalech, které nám pokryjí celé IR:
X	(-oo,l)	(1,2)	(2,4)	(4,5)	(5,oo)
F(x)	0	i 3	7 12	3 4	1
A nakonec i takto:
x < 1,
1 < x < 2,
2 < x < 4, 4 < x < 5, x > 5.
F(ar)
i
3 7_ 12
3
4
Nejnázornější stejně budou grafy na obrázku 3.
1/3 ■ 1 M ■ 1 /S ■
Obr. 3: Pravděpodobnostní a distribuční funkce k příkladu 4.4
□
Z příkladu 4.4 sice můžeme odpozorovat některé vlasnosti distribuční funkce, ale raději si je zde vypíšeme:
67
Statistika a statistické zpracování dat
Vlastnosti distribuční funkce:
F(x) e (0,1)
F je neklesající, F je zprava spojitá, F je definovaná na IR, lim F(x) = 0,     lim F(x) = 1,
x^—oo x^oo
P(X = xq) = F(xq) — lim F(x)   (výška skoku v bodě x$).
4.3    Rozdělení pravděpodobnosti spojité náhodné veličiny
Spojitá náhodná veličina nabývá hodnot z nějakého intervalu reálných čísel. Příkladem může být výška náhodně vybraného člověka nebo doba, kterou zákazník stráví v obchodě. Spojité náhodné veličiny nemají konkrétní pravděpodobnosti pro jednotlivé hodnoty (pravděpodobnostní funkci), ale místo toho pracují s tzv. hustotou pravděpodobnosti, která určuje pravděpodobnost, že náhodná veličina nabyde hodnoty z určitého intervalu.
Definice 4.5. Náhodná veličina X s distribuční funkcí F se nazývá spojitá, jestliže existuje nezáporná funkce /: IR —> IR taková, že
Funkce f(x) se nazývá hustota (rozdělení pravděpodobností) náhodné veličiny X.
x-
■X.
Náhodná veličina
68
Vlastnosti hustoty:
• f(x)>0,
f (t) dt = 1    =>• plocha pod křivkou hustoty vyjadřuje pravděpodobnost, f (x) = F'{x) v každém bodě x, kde F' existuje,
ŕ
P{a<X<b) = F (b) - F (á) = / f (t) dt,
J a
P (a < X <b) = P{a < X <b) = P{a < X < b) = P (a < X < b),
P(XeB)= f f{t)át.
Jb
Výpočet pravděpodobností pomocí F (x) a f (x) na nekonečném intervalu:
P(£<0)=F(0)= f° f(t)át.
Toto je znázorněno na obrázku 4.
0.4 0.3 2 0.2 0.1
o
1
F(0) 2- 0.5
; 7\ y p(^<o)	
4-3-2-1          0          1          2         3 4 X	
	
	-
Obr. 4: Výpočet pravděpodobností na nekonečném intervalu
Výpočet pravděpodobností pomocí F(x) a f(x) na konečném intervalu:
P(-2 < i < 0) = F(0) - F(-2) = y° fit) át. Toto je znázorněno na obrázku 5.
69
Statistika a statistické zpracování dat
Obr. 5: Výpočet pravděpodobností na konečném intervalu
Příklad 4.6 (Spojitá náhodná veličina). Předpokládejme, že náhodná veličina X má hustotu pravděpodobnosti definovanou na intervalu (1;2) jako:
/(*)
\x2,    pro   0 < x < 2,
0, jinak.
Vypočtěte pravděpodobnost, že X nabude hodnoty mezi 1 a 2.
Řešení: Nejprve ověříme, že funkce f(x) splňuje vlastnost hustoty, tedy že integrál na intervalu (—oo, oo), resp. [0, 2] (neboť jen tam je nenulová), je roven 1:
°°32 f2 3 2        3/"22 3
doo — /        doo —     /      doc — -oo 8 Jo 8 8 Jo 8
x
y
i.
Nyní spočítáme pravděpodobnost, že X nabude hodnoty v intervalu (1; 2):
P(1<X<2) = J  -x2dx = -l x2dx. Vypočteme neurčitý integrál:
x
x2 dx = —,    x E (—00,00). 3
Nyní dosadíme mezní hodnoty:
P(l < X <2) = -
x
y
3/8 i\ _ 3 7 _ 7
,3 ~ 3/ ~ 8 ' 3 ~ 8'
Pravděpodobnost, že X nabude hodnoty mezi 1 a 2, je tedy P(l < X < 2) = 0,875. Úloha je ilustrována na obrázku 6.
□
Náhodná veličina
70
Obr. 6: Graf hustoty pravděpodobnosti / spojité náhodné veličiny X z příkladu 4.6 s vyznačenou oblastí odpovídající pravděpodobnosti na intervalu (1; 2)
4.4    Základní číselné charakteristiky
Střední hodnota, rozptyl a směrodatná odchylka jsou klíčové charakteristiky, které popisují rozdělení náhodné veličiny.
Střední hodnota
Definice 4.7. Střední hodnota (očekávaná hodnota) diskrétní náhodné veličiny X se počítá jako vážený průměr všech možných hodnot náhodné veličiny:
E(X) =J2%i- P{X = Xi) = J2xi ■ Pí-
Definice 4.8. Střední hodnota spojité náhodné veličiny X je definována jako integrál z hodnot náhodné veličiny vážených hustotou pravděpodobnosti:
E(X) =       x- f(x) dx.
Rozptyl
Definice 4.9. Rozptyl diskrétní náhodné veličiny měří, jak jsou jednotlivé hodnoty rozloženy kolem střední hodnoty:
D(X) = Var(X) = £>ť - E{X)f ■ P(X = xt) = £>ť - E{X)f ■ Pi.
i i
71
Statistika a statistické zpracování dat
Definice 4.10. Rozptyl spojité náhodné veličiny je definován jako:
/oo (x - E(X)f ■ f(x) dx = E(X2) - [E(X)}2. -oo
Směrodatná odchylka
Směrodatná odchylka nám poskytuje měřítko, jak daleko jsou hodnoty náhodné veličiny od její střední hodnoty.
Příklad 4.12 (Diskrétní náhodná veličina). Předpokládejme, že máme diskrétní náhodnou veličinu X, která nabývá hodnot 1,2,3,4 s následujícími pravděpodobnostmi:
P(X = 1) = 0,2,   P(X = 2) = 0,3,   P(X = 3) = 0,4,   P(X = 4) = 0,1.
Vypočtěte střední hodnotu, rozptyl a směrodatnou odchylku této náhodné veličiny.
Řešení: Střední hodnota E{X) je dána jako vážený průměr hodnot:
E(X) = 1 • 0,2 + 2 • 0,3 + 3 • 0,4 + 4 • 0,1 = 2,4. Rozptyl D(X) vypočítáme následovně: D(X) = £>ť - E(X))2 ■ P(X = Xi)
i
= (1 - 2,4)2 • 0,2 + (2 - 2,4)2 • 0,3 + (3 - 2,4)2 • 0,4 + (4 - 2,4)2 • 0,1
= 1,96 • 0,2 + 0,16 • 0,3 + 0,36 • 0,4 + 2,56 • 0,1 = 0,392 + 0,048 + 0,144 + 0,256 = 0,84.
Směrodatná odchylka u{X) je druhou odmocninou rozptylu:    <y(X) = \/0,8A « 0,916. □
Příklad 4.13 (Spojitá náhodná veličina). Předpokládejme, že máme spojitou náhodnou veličinu X s hustotou pravděpodobnosti definovanou na intervalu (0,4) jako:
(3 —x2   pro   x E [0,41, 64 [ J'
0 jinak.
Vypočtěte střední hodnotu, rozptyl a směrodatnou odchylku této náhodné veličiny.
Řešení: Střední hodnota E{X) je dána vztahem:
x ■ fix) dx =     x ■ fix) dx =     x ■ —x2 dx = — / x3 dx -oo    M ;        Jo      JK 1        Jo      64 64 Jo
• 64 = 3.
3	" 4" X	4	3	/44	04\	3
64	_ 4 _	0	64	U	4j	64
Náhodná veličina
72
Rozptyl D (X) je definován jako:
D(X) = E{X2) - [E{X)}2.
Nejprve vypočítáme E{X2):
f4 f4       3 3 f4
E(X2) =     x2 ■ f (x) dx =     x2 ■ —x2 dx = — / x4 dx K    1    Jo       JK 1        Jo       64 64 Jo
9,6.
3	x5	4	3 45	3	1024	3072
64	. 5 .	0	64 5	64	5	320
Nyní můžeme vypočítat rozptyl:
D(X) = 9,6 - 32 = 9,6 - 9 = 0,6.
Směrodatná odchylka u{X) je druhou odmocninou rozptylu:
a(X) = VOfi « 0,775.
□
OV této kapitole jsme se seznámili se základními pojmy pravděpodobnosti a náhodných veličin, které jsou klíčovými prvky pro pochopení náhodných procesů v praxi. Prozkoumali jsme, jak se pravděpodobnosti jednotlivých hodnot náhodných veličin rozkládají pomocí jejich pravděpodobnostních rozdělení, a vysvětlili jsme si rozdíly mezi diskrétními a spojitými náhodnými veličinami.
Dále jsme se věnovali základním charakteristikám náhodných veličin, jako jsou střední hodnota, rozptyl a směrodatná odchylka. Tyto charakteristiky slouží k jednoduchému popisu hlavních vlastností rozdělení pravděpodobnosti a umožňují efektivně analyzovat a interpretovat data. V následující kapitole se budeme věnovat konkrétním standardně užívaným rozdělením pravděpodobnosti.
1. Vysvětlete rozdíl mezi diskrétní a spojitou náhodnou veličinou.
2. Co je to distribuční funkce a jaké jsou její základní vlastnosti?
3. Jak se počítá střední hodnota diskrétní náhodné veličiny?
4. Jaký je vztah mezi hustotou pravděpodobnosti a distribuční funkcí u spojité náhodné veličiny?
5. Jak definujeme rozptyl a směrodatnou odchylku náhodné veličiny?
6. Jaký je význam rozdělení pravděpodobnosti pro náhodnou veličinu?
7. Diskrétní náhodná veličina X nabývá hodnot 0,1, 2, 3 s pravděpodobnostmi:
P(X = 0) = 0,1,   P(X = 1) = 0,2,   P(X = 2) = 0,4,   P(X = 3) = 0,3.
Vypočtěte střední hodnotu, rozptyl a směrodatnou odchylku náhodné veličiny X. [Střední hodnota: 2,1, rozptyl: 0,69, směrodatná odchylka: 0,83]
Statistika a statistické zpracování dat
8
Náhodná veličina X má hustotu pravděpodobnosti:
Xe-0,
x < 0
x > 0
e
kde A = 2. Vypočtěte pravděpodobnost, že X nabude hodnoty mezi 0,5 a 1,5. [0,398]
9. Náhodná veličina X nabývá hodnot 1, 2, 3,4,5 s pravděpodobnostmi:    P(X = 1) =
0,1,    P(X = 2) = 0,15,    P(X = 3) = 0,2,    P(Ar = 4) = 0,25,    P(X = 5) = 0,3.
Vypočtěte pravděpodobnost, že V nabude hodnoty větší než 3. [0,55]
10. Náhodná veličina y má exponenciální rozdělení s parametrem A = 1. Jaká je pravděpodobnost, že y nabude hodnoty mezi 1 a 3? [0,233]
Literatura k tématu:
[1] HINDLS, R. Statistika pro ekonomy. 8. vyd. Praha: Professional Publishing, 2007.
ISBN 978-80-86946-43-6.
[2] JANÁČEK, J. Statistika jednoduše. Grada, 2022. ISBN 978-80-271-1738-3.
[3] MAREK, L. Statistika v příkladech. 2. vyd. Praha: Kamil Mařík - Professional Publishing, 2015. ISBN 978-80-743-1153-6.
[4] OTIPKA, P., SMAJSTRLA, V. Pravděpodobnost a statistika [online]. 1. vydání. Ostrava: VŠB-TU Ostrava, 2007 [cit. 2024-09-09]. ISBN 80-248-1194-4.
Kapitola 5
Základní rozdělení pravděpodobnosti náhodných veličin
Po prostudování této kapitoly budete umět:
vyjmenovat základní diskrétní a spojitá rozdělení pravděpodobnosti i s jejich důležitými vlastnostmi,
pomocí excelovských funkcí vypočíst hodnoty pravděpodobnostních a distribušních funkcí diskrétních rozdělení,
pomocí excelovských funkcí vypočíst hodnoty hustot a distribušních funkcí spojitých rozdělení,
• pomocí excelovských funkcí vypočíst kvantily spojitých rozdělení.
Klíčová slova:
Diskrétní rozdělení pravděpodobnosti (binomické, hypergeometrické, Poissonovo), kvantily spojitých rozdělení, spojitá rozdělení pravděpodobnosti (normální, Studentovo, F-rozdělení, chi-kvadrát), excelovské funkce.
75
Statistika a statistické zpracování dat
Náhled kapitoly
V této kapitole se seznámíme s klíčovými rozděleními pravděpodobnosti, která budou důležitá pro pochopení dalších témat. Každé rozdělení bude představeno z historického hlediska, následně se zaměříme na jeho definici, základní charakteristiky a výpočet hodnot prostřednictvím excelovských funkcí. Procvičení v Excelu nás připraví na složitější úlohy v dalších kapitolách. Zvláštní důraz bude kladen na koncept kvantilů spojitých rozdělení, což usnadní pochopení kritických hodnot.
Cíle kapitoly
Cílem této kapitoly je:
porozumět základním vlastnostem vybraných diskrétních a spojitých rozdělení pravděpodobnosti,
' osvojit si pojem kvantil spojitých rozdělení a jeho interpretaci (příprava na testování hypotéz),
zvládnout používání excelovských funkcí pro výpočet hodnot funkcí a kvantilů vybraných rozdělení pravděpodobnosti (příprava na testování hypotéz).
Odhad času potřebného ke studiu
Na studium této kapitoly doporučujeme vyhradit přibližně 3-4 hodiny. Tento čas zahrnuje čtení textu, pochopení klíčových pojmů a řešení praktických příkladů, zejména v Excelu.
5.1    Diskrétní rozdělení pravděpodobnosti
Binomické rozdělení Bi(n,p) Historie
Binomické rozdělení je jedním z nejstarších a nej používanějších rozdělení pravděpodobnosti. Jeho základy položil Jakob Bernoulli v 17. století při studiu náhodných pokusů. Výraz „binomické" vychází z binomické věty, která je úzce spojena s výpočtem pravděpodobností v tomto rozdělení.
Významně k rozvoji binomického rozdělení přispěl také Abraham de Moivre. Při zkoumání problémů souvisejících s hazardními hrami objevil zvonovitou křivku, která později vedla k formulaci normálního rozdělení jako aproximace binomického rozdělení pro velká n.
Základní rozdělení pravděpodobnosti náhodných veličin
76
Definice
Definice 5.1. Binomické rozdělení modeluje počet úspěchů v pevně daném počtu nezávislých pokusů, kde každý pokus má dva možné výsledky (úspěch nebo neúspěch) a pravděpodobnost úspěchu je konstantní.
Pravděpodobnost k úspěchů z n pokusů je dána vzorcem:
P{X = k)= {^pk{l-p)n-\ kde n je počet pokusů, k je počet úspěchů, p je pravděpodobnost úspěchu v každém pokusu
a (, ) je kombinační číslo.
Základní číselné charakteristiky
Střední hodnota: E(X) = np, Rozptyl: D(X) = np(l-p).
Grafy pravděpodobnostní a distribuční funkce
Grafy pravděpodobnostní funkce (PDF) a distribuční funkce (CDF) pro binomické rozdělení s n = 10 a p = 0,5 jsou na obrázku 7.
0.3
0.2
o.i
o
I IBi(10;0,5)
0       2       4 6
k
10
VI
0.8 0.6 0.4 0.2 0
0
				ŕ	
					
					
					
			-Bi(10;0,5)		
4 6 k
10
Obr. 7: Pravděpodobnostní a distribuční funkce binomického rozdělení pro n = 10 a p = 0,5
Excelovské funkce
Pro práci s binomickým rozdělením lze v Excelu použít následující funkce:
77
Statistika a statistické zpracování dat
' Pravděpodobnostní funkce (PDF): Funkce BINOM. Dl ST (k; n; p; FALŠE) vrací pravděpodobnost přesně k úspěchů.
' Distribuční funkce (CDF): Funkce BINOM. Dl ST (k; n; p; TRUE) vrací pravděpodobnost nejvýše k úspěchů.
Procvičení
Použijte vhodné excelovské funkce k procvičení práce s binomickým rozdělením:
1. Vypočítejte hodnoty pravděpodobnostní funkce pro binomické rozdělení s n = 10 a p = 0,3 pro k = 0,1,..., 10.
2. Vypočítejte hodnoty distribuční funkce pro stejné hodnoty k.
3. Vytvořte grafy pravděpodobnostní a distribuční funkce pro binomické rozdělení v Excelu. Můžete použít už vypočítané hodnoty.
Hypergeometrické rozdělení bylo pojmenováno po hypergeometrické řadě, jejíž vlastnosti zkoumali matematici jako Carl Friedrich Gauss. Jeho použití je především ve statistických testech a při modelování výběrů bez vracení. Jedná se o důležitý nástroj v oblasti kombinatoriky a aplikací statistiky.
Definice 5.2. Hypergeometrické rozdělení modeluje pravděpodobnost k úspěchů při náhodném výběru n objektů z populace N, kde M objektů z této populace jsou úspěchy. Výběr probíhá bez vracení.
Pravděpodobnost k úspěchů je dána vzorcem:
kde N je velikost populace, M je počet úspěšných objektů v populaci, n je počet vybraných objektů a A; je počet úspěchů.
Hypergeometrické rozdělení Hg(N, M, n)
Historie
Definice
Základní rozdělení pravděpodobnosti náhodných veličin
78
Základní číselné charakteristiky
Střední hodnota: E(X) =
Rozptyl: D(X) = nf (l - f) \
Grafy pravděpodobnostní a distribuční funkce
Grafy pravděpodobnostní funkce (PDF) a distribuční funkce (CDF) pro hypergeometrické rozdělení s parametry N = 50, M = 20, n = 10 jsou na obrázku 8.
0.3
0.2
K o.i
o
			1	1 1 lHg(50; 20; 10)		
						
						
1					1	
0       2       4 6
k
10
VI
0.6 0.4 0.2 0
				
				
				
				
		-Hg(50; 20; 10)		
0
4 6 k
10
Obr. 8: Pravděpodobnostní a distribuční funkce hypergeometrického rozdělení pro N = 50, M = 20 a n = 10
Excelovské funkce
Pro práci s hypergeometrickým rozdělením lze v Excelu použít následující funkce:
Pravděpodobnostní funkce (PDF): Funkce HYPGE0M. Dl ST (k; n; M; N; FALŠE) vrací pravděpodobnost přesně k úspěchů.
Distribuční funkce (CDF): Funkce HYPGEOM.DISKk; n; M; N; TRUE) vrací pravděpodobnost nejvýše k úspěchů.
Procvičení
Použijte vhodné excelovské funkce k procvičení práce s hypergeometrickým rozdělením:
1. Vypočítejte hodnoty pravděpodobnostní funkce pro hypergeometrické rozdělení s N = 50, M = 20, n = 10 pro k = 0,1,..., 10.
2. Vypočítejte hodnoty distribuční funkce pro stejné hodnoty k.
79
Statistika a statistické zpracování dat
3. Vytvořte grafy pravděpodobnostní a distribuční funkce pro hypergeometrické rozdělení v Excelu. Můžete použít už vypočítané hodnoty.
Poissonovo rozdělení
Historie
Poissonovo rozdělení je pojmenováno po francouzském matematikovi Simeonu Denisu Poisso-novi, který ho popsal v roce 1838. Původně bylo zkoumáno v kontextu počtu vzácných událostí, jako jsou nehody nebo telefonní hovory. Poissonovo rozdělení je dnes široce používáno v teorii pravděpodobnosti, statistice a různých aplikacích zahrnujících modelování vzácných událostí.
Definice
Definice 5.3. Poissonovo rozdělení modeluje počet událostí, které nastanou v pevně daném čase nebo prostoru, za předpokladu, že tyto události nastávají nezávisle na sobě s konstantní střední intenzitou A.
Pravděpodobnost, že v daném intervalu nastane právě k událostí, je dána vzorcem:
\ke~x
m = *) = —,
kde A je očekávaný počet událostí v daném intervalu a A; je počet událostí.
Základní číselné charakteristiky
Střední hodnota: E(X) = A, Rozptyl: D(V) = A.
Grafy pravděpodobnostní a distribuční funkce
Grafy pravděpodobnostní funkce (PDF) a distribuční funkce (CDF) pro Poissonovo rozdělení s parametrem A = 3 jsou na obrázku 9.
Excelovské funkce
Pro práci s Poissonovým rozdělením lze v Excelu použít následující funkce:
■ Pravděpodobnostní funkce (PDF): Funkce P0ISS0N.DIST(k; A; FALŠE) vrací prav-
Základní rozdělení pravděpodobnosti náhodných veličin
80
-Poisson(A = 3)
J_ ii
2       4       6       8 10
k k Obr. 9: Pravděpodobnostní a distribuční funkce Poissonova rozdělení pro A = 3
děpodobnost přesně k událostí.
■ Distribuční funkce (CDF): Funkce P0ISS0N.DIST(k; A; TRUE) vrací pravděpodobnost nejvýše k událostí.
Procvičení
Použijte vhodné excelovské funkce k procvičení práce s Poissonovým rozdělením:
1. Vypočítejte hodnoty pravděpodobnostní funkce pro Poissonovo rozdělení s A = 3 pro k = 0,1,..., 10.
2. Vypočítejte hodnoty distribuční funkce pro stejné hodnoty k.
3. Vytvořte grafy pravděpodobnostní a distribuční funkce pro Poissonovo rozdělení v Excelu.
0.3
0.2
K o.i
				1	iPoisson(A = 3)		
							
							
						1	
VI
4 6
10
1
0.8 0.6 0.4 0.2 0
5.2    Spojitá rozdělení pravděpodobnosti
Výklad zahájíme něčím, co by spíš patřilo do předchozí kapitoly. Pojem kvantil (společně s tzv. kritickou hodnotou) spojitého rozdělení pravděpodonosti pro nás ale bude v dalších kapitolách natolik důležitý, že jsme si ho sem vydělili, abychom mu mohli věnovat patřičnou pozornost.
81
Statistika a statistické zpracování dat
Kvantily spojitých rozdělení Definice
Definice 5.4. Kvantil spojitého rozdělení je hodnota (viz obrázek 10), která rozděluje oblast pod hustotou pravděpodobnosti na dvě části. Pro p-kvantil xp platí, že plocha pod křivkou hustoty vlevo od xp je rovna p, tj.
P(X < xp) = F{xp) = /    f{x) dx = p,
J — oo
kde p e (0,1).
Obr. 10: Znázornění hustoty a p-kvantilu xp pro spojité rozdělení pravděpodobnosti (viz definici 5.4)
Speciálním případem kvantilu je kritická hodnota, používaná při statistických testech. Ta označuje mezní hodnotu, která odděluje zamítnutí a nezamítnutí nulové hypotézy (viz kapitolu 7 Testování statistických hypotéz).
Určování kvantilů
Kvantily se určují z tabulek nebo se pohodlně počítají pomocí softwaru. My budeme většinou používat excelovské funkce, jako jsou:
pro normální rozdělení funkce NORM. INV(p; //; a), pro Studentovo rozdělení funkce T.INV(p; v) a pro F-rozdělení funkce F. INV(p; v\\ v<i).
Všechny mají v názvu INV. Tím se poukazuje na to, že jde vlastně o inverzní funkci k distribuční funkci daného rozdělení:
F(xp) = p F'1 (p) = xp,
Základní rozdělení pravděpodobnosti náhodných veličin
82
tedy zatímco F k zadané hodnotě xp na ose x vypočte pravděpodobnost p, tak F 1 (tedy inverze k F) vypočte k zadané pravděpodobnosti p hodnotu kvantilu xp na ose x.
Následuje pořehled základních spojitých rozdělení. Jejich výběr byl veden jejich užitečností v dalších kapitolách.
Normální rozdělení Historie
Normální rozdělení, známé také jako Gaussovo rozdělení, má zajímavou historii. Abraham de Moivre, francouzský matematik, často pomáhal hazardním hráčům, kteří ho žádali o výpočty pravděpodobností, například kolik hlav padne při mnoha hodech mincí. Při řešení těchto problémů si všiml, že jak počet hodů roste, binomické rozdělení se blíží hladké křivce. Tak popsal normální rozdělení, které výrazně zjednodušilo výpočty.
Později, v 19. století, Carl Friedrich Gauss formuloval rovnice pro normální rozdělení a aplikoval je na chyby měření v astronomii. Gauss zjistil, že chyby měření mají symetrické rozdělení, kde malé chyby jsou častější než velké. Pierre-Simon Lapiace přispěl objevem centrálního limitního teorému, který prokázal, že průměry velkých vzorků dat se blíží normálnímu rozdělení.
Definice
Definice 5.5. Normální rozdělení N(fi,a2) je rozdělení pravděpodobnosti, které je symetrické kolem střední hodnoty fi a jeho tvar je zvonovitý. Je určeno dvěma parametry: střední hodnotou fi a směrodatnou odchylkou o.
Hustota normálního rozdělení je dána vzorcem:
fí        i\ 1 ( (x-^)2\
/(w) = v^expr^^J'
kde fi je střední hodnota a a2 je rozptyl.
Rozdělení N(0; 1) se nazývá normované (nebo standardizované) normální rozdělení
a je ve statistice velmi důležité.
Definice 5.6. Z-skóre (neboli standardizovaná hodnota) udává, jak daleko je konkrétní hodnota X od střední hodnoty fi, měřeno ve směrodatných odchylkách a. Vypočítává se tedy podle vzorce:
83
Statistika a statistické zpracování dat
Z-skóre představuje orientovanou vzdálenost. Vyjadřuje, jak daleko je konkrétní hodnota X od střední hodnoty fi, ale také zohledňuje, zda je tato hodnota nad průměrem (kladné Z-skóre) nebo pod průměrem (záporné Z-skóre).
Z-skóre převádí hodnoty z jakéhokoli normálního rozdělení N(fi, a2) na normované normální rozdělení N(0; 1). Díky tomu lze snadno porovnávat hodnoty z různých normálních rozdělení, a případně používat pro výpočty tabulky a funkce normovaného normálního rozdělení.
Základní číselné charakteristiky
Střední hodnota: jj, Rozptyl: o2
Symetrie: Normální rozdělení je symetrické kolem střední hodnoty fi.
Grafy hustot a distribuční funkce
Grafy znázorňující hustoty a distribuční funkce normálního rozdělení pro různé hodnoty fi a o jsou uvedeny na obrázcích 11 a 12.
-4       -2        0 2 4 -4       -2        0 2 4
Obr. 11: Grafy hustot a distribučních funkcí normálního rozdělení s různými rozptyly
Excelovské funkce
Pro práci s normálním rozdělením lze v Excelu použít následující funkce:
■ Hustota pravděpodobnosti (PDF): Funkce NORM. Dl ST (x; //; a; FALŠE) vrací hodnotu hustoty pravděpodobnosti.
Základní rozdělení pravděpodobnosti náhodných veličin
84
Obr. 12: Grafy hustot a distribučních funkcí normálního rozdělení s různými středními hodnotami
■ Distribuční funkce (CDF): Funkce NORM.DIST(x; //; a; TRUE) vrací hodnotu distribuční funkce.
' Kvantilová funkce: Funkce N0RM.INV(p; //; a) vrací kvantil pro danou pravděpodobnost p, střední hodnotu fi a směrodatnou odchylku a.
Pro práci s normovaným normálním rozdělením (// = 0, a = 1) lze použít specializované funkce:
Hustota pravděpodobnosti (PDF): Funkce NORM.S.DlST(x; FALŠE) vrací hodnotu hustoty pravděpodobnosti.
Distribuční funkce (CDF): Funkce N0RM.S.DIST(x; TRUE) vrací hodnotu distribuční funkce.
' Kvantilová funkce: Funkce NORM. S. INV(p) vrací kvantil pro danou pravděpodobnost p.
Procvičení
Příklad 5.7. Pokud jsou výšky dospělých mužů normálně rozděleny se střední hodnotou fi = 175 cm a rozptylem a2 = 100 cm2, jaká je pravděpodobnost, že náhodně vybraný muž bude mít výšku mezi 170 cm a 180 cm?
Řešení: Vyzkoušíme si dva způsoby řešení. Nejprve půjdeme přímo k cíli, potom se po cestě „stavíme na návštěvě" u Z-skórů.
Řešení bez Z-skórů: Pro výpočet této pravděpodobnosti použijeme funkci distribuční funkce normálního rozdělení. V Excelu použijeme funkci N0RM.DIST, a to s parametry x = 170 a x = 180, střední hodnotou fi = 175, směrodatnou odchylkou o = ylOO = 10 a hodnotou TRUE pro použití distribuční funkce:
P(170 < X < 180) = N0RM.DIST(180;175;10;TRUE) - NORM.DlST(170;175;10;TRUE)
« 0,3829.
85
Statistika a statistické zpracování dat
Řešení přes Z-skóry: Nejprve standardizujeme hodnoty:
Zl = 170 Zl75 = =1 = -0,5,      Z2= 180 Zl75 =A = Q,5.
vTôô     io     ' ' vm io
Nyní vypočítáme hodnoty distribuční funkce pro tyto Z-skóry pomocí funkce NORM. S. Dl ST v Excelu:
P(170 < X < 180) = P(-0,5 < Z < 0,5)
= NORM.S.DISKO,5; TRUE) - NORM.S.DIST(-0,5; TRUE) 0,3829.
□
Příklad 5.8. Použijte vhodné excelovské funkce k procvičení práce s normálním rozdělením:
1. Vypočítejte hodnoty hustoty pravděpodobnosti pro normální rozdělení s/i = 2aa = 3a následující hodnoty x = —2, —1, 0,1, 2.
2. Vypočítejte hodnoty distribuční funkce pro normované normální rozdělení a stejné hodnoty x = -2, -1,0,1,2.
3. Pomocí funkce N0RM.S.INVO najděte kvantily pro pravděpodobnosti p = 0,05; 0,5; 0,95. O jaké rozdělení se jedná? Co nám ty výsledky říkají?
4. Vytvořte přibližné grafy hustoty a distribuční funkce pro normální rozdělení v Excelu, například s parametry fi = 2 a a = 3 pomocí výpočtu jejich hodnot v dostatečně husté síti bodů na ose x, například x = —4; —3,5; —3;...; 7,5; 8.
Studentovo rozdělení
Historie
Studentovo rozdělení je pojmenováno po Williamu Sealy Gossetovi, statistikovi pracujícím pro pivovar Guinness. Aby se vyhnul problémům s publikováním, používal pseudonym „Student". V roce 1908 zveřejnil práci, která popisovala rozdělení nyní známé jako Studentovo rozdělení. Jeho cílem bylo vyřešit problémy s malými vzorky v průmyslu.
Definice
Definice 5.9. Studentovo rozdělení s v (řecké písmenu „ný") stupni volnosti je užitečné při odhadu střední hodnoty normální populace na základě malého vzorku, pokud směrodatná odchylka populace není známa.
Hustota Studentova rozdělení je dána vzorcem:
f(x;u) =
kde v je počet stupňů volnosti a T je gama funkce.
Základní rozdělení pravděpodobnosti náhodných veličin
86
Základní číselné charakteristiky
Střední hodnota: 0 (pro v > 1) Rozptyl: ^ (Pro v > 2)
Asymptotické chování: Pro velké v se Studentovo rozdělení blíží normálnímu rozdělení.
Grafy hustot a distribuční funkce
Grafy znázorňují hustotu a distribuční funkci Studentova rozdělení pro v = 2 a v = 5 stupňů volnosti jsou na obrázku 13.
Obr. 13: Grafy hustot a distribučních funkcí Studentova rozdělení pro 2 a 5 stupňů volnosti
Excelovské funkce
Pro práci se Studentovým rozdělením lze v Excelu použít následující funkce:
Hustota pravděpodobnosti (PDF): Funkce T.DIST(x; v; FALŠE) vrací hodnotu hustoty pravděpodobnosti.
Distribuční funkce (CDF): Funkce T.DIST(x; v; TRUE) vrací hodnotu distribuční funkce.
' Kvantilová funkce: Funkce T. INV(p; v) vrací kvantil pro danou pravděpodobnost p a v stupni volnosti.
Procvičení
Použijte vhodné excelovské funkce k procvičení práce s rozdělením:
1. Vypočítejte hodnoty hustoty pravděpodobnosti pro Studentovo rozdělení s v = 8 a následující hodnoty x = —2, —1, 0,1, 2.
87
Statistika a statistické zpracování dat
2. Vypočítejte hodnoty distribuční funkce pro Studentovo rozdělení s v = 8 a stejné hodnoty x = -2,-1,0,1,2.
3. Pomocí funkce T.INVO najděte kvantily pro pravděpodobnosti p = 0,05; 0,5; 0,95 při v = 8. Co nám ty výsledky říkají?
4. Vytvořte přibližné grafy hustoty a distribuční funkce pro Studentovo rozdělení v Excelu, pomocí výpočtu jejich hodnot v dostatečně husté síti bodů na ose x. Můžete opět použít v = 8 a x = —6; —5,5; —5;...; 5,5; 6.
F-rozdělení, někdy nazývané Fisherovo-Snedecorovo rozdělení, je pojmenováno po statistikovi Siru Ronaldu Fisherovi a Georgu W. Snedecorovi. Ronald Fisher popsal toto rozdělení v rámci analýzy rozptylu (ANOVA), kde slouží k testování hypotéz o shodě rozptylů dvou vzorků. Snedecor přispěl jeho rozšířením v aplikacích. F-rozdělení má dva stupně volnosti, jeden pro každý porovnávaný vzorek.
Definice 5.10. F-rozdělení se používá při testování hypotéz o rozptylech dvou populací, a je tedy základem pro analýzu rozptylu. Je definováno dvěma stupni volnosti v\ a z/2 Pro každý vzorek.
Hustota F-rozdělení je dána vzorcem:
F-rozdělení
Historie
Definice
kde B je beta funkce ai/i, v2 jsou stupně volnosti.
Základní číselné charakteristiky
Střední hodnota:
(pro u2 > 2)
Rozptyl:
2i/|(i/i+i/2-2)
(pro i>2 > 4)
*M^2-2)2(í/2-4)
Základní rozdělení pravděpodobnosti náhodných veličin
88
Grafy hustot a distribuční funkce
Grafy znázorňují hustotu a distribuční funkci F-rozdělení pro v\ = 5 a v2 = 10 jsou na obrázku 14.
Obr. 14: Grafy hustoty a distribuční funkce F-rozdělení pro v\ = 5 a v2 = 10
Excelovské funkce
Pro práci s F-rozdělením lze v Excelu použít následující funkce:
' Hustota pravděpodobnosti (PDF): Funkce F.DIST(x; v\\ v2; FALŠE) vrací hodnotu hustoty pravděpodobnosti.
' Distribuční funkce (CDF): Funkce F.DIST(x; v\\ v2; TRUE) vrací hodnotu distribuční funkce.
' Kvantilová funkce: Funkce F. INV(p; v\\ u2) vrací kvantil pro danou pravděpodobnost p a stupně volnosti u± a, u2.
Procvičení
Použijte vhodné excelovské funkce k procvičení práce s F-rozdělením:
1. Vypočítejte hodnoty hustoty pravděpodobnosti pro F-rozdělení s v\ = 5, v2 = 10 a následující hodnoty x = 1,2, 3,4, 5.
2. Vypočítejte hodnoty distribuční funkce pro stejné hodnoty x.
3. Pomocí funkce F.INVO najděte kvantily pro pravděpodobnosti p = 0,05; 0,5; 0,95 při v\ = 5, v2 = 10.
4. Vytvořte grafy hustoty a distribuční funkce pro F-rozdělení v Excelu.
89
Statistika a statistické zpracování dat
Chi-kvadrát rozdělení
Historie
Chi-kvadrát rozdělení vzniklo z výzkumů Karla Pearsona na počátku 20. století a je jedním ze základních rozdělení používaných ve statistických testech, zejména v testech dobré shody a nezávislosti. Pearson zkoumal vztahy mezi biologickými charakteristikami, přitom výrazně přispěl k vývoji statistických metod.
Definice 5.11. Chi-kvadrát rozdělení s v stupni volnosti je definováno jako rozdělení součtu druhých mocnin v nezávislých normovaných normálních náhodných veličin. Používá se především při testování hypotéz, například v testu dobré shody nebo v testu nezávislosti.
Hustota pravděpodobnosti chi-kvadrát rozdělení je dána vzorcem:
kde T je gama funkce a v je počet stupňů volnosti.
Základní číselné charakteristiky
Střední hodnota: v Rozptyl: Iv
Asymptotické chování: Pro velké v (tzn. pro v > 30) se chi-kvadrát rozdělení blíží normálnímu rozdělení s parametry fi = v, a2 = Iv).
Grafy hustot a distribuční funkce
Grafy znázorňující hustoty a distribuční funkce chi-kvadrát rozdělení pro z/ = 3az/ = 10 jsou znázorněny na obrázku 15.
Excelovské funkce
Pro práci s chi-kvadrát rozdělením lze v Excelu použít následující funkce:
■ Hustota pravděpodobnosti (PDF): Funkce CHISQ.DIST(x; v; FALŠE) vrací hod-
Definice
pro x > 0
Základní rozdělení pravděpodobnosti náhodných veličin
90
Obr. 15: Grafy hustot a distribučních funkcí chi-kvadrát rozdělení pro v = 3 a v = 10
notu hustoty pravděpodobnosti.
■ Distribuční funkce (CDF): Funkce CHISQ.DIST(x; v; TRUE) vrací hodnotu distribuční funkce.
' Kvantilová funkce: Funkce CHISQ. INV(p; v) vrací kvantil pro danou pravděpodobnost p a stupně volnosti v.
Procvičení
Příklad 5.12. Použijte vhodné excelovské funkce k procvičení práce s chi-kvadrát rozdělením:
1. Vypočítejte hodnoty hustoty pravděpodobnosti pro chi-kvadrát rozdělení s v = 3 a následující hodnoty x = 1, 2, 3,4, 5.
2. Vypočítejte hodnoty distribuční funkce pro stejné hodnoty x.
3. Pomocí funkce CHISQ. INV() najděte kvantily pro pravděpodobnosti p = 0,05; 0,5; 0,95 při v = 3.
4. Vytvořte grafy hustoty a distribuční funkce pro chi-kvadrát rozdělení v Excelu.
5. Demonstrujte, že „pro velká v (tzn. pro v > 30) se chi-kvadrát rozdělení blíží normálnímu rozdělení s parametry fi = v, a2 = 2z/". Pro v = 30 a x = 0,1, 2,..., 60. Stačí ukázat zvonovitý tvar hodnot hustoty v těchto bodech (na tomto intervalu).
OTato kapitola se zaměřuje na základní diskrétní a spojitá rozdělení pravděpodobnosti. Jsou zde popsána binomické, hypergeometrické a Poissonovo rozdělení jako hlavní příklady diskrétních rozdělení, a dále normální, Studentovo, F-rozdělení a chi-kvadrát rozdělení jako příklady rozdělení spojitých. U každého rozdělení je uvedena jeho historie, definice, základní charakteristiky a postup výpočtu hodnot pomocí excelovských funkcí. Důraz je kladen na práci s kvantily spojitých rozdělení a jejich aplikace v budoucích kapitolách.
91
Statistika a statistické zpracování dat
Jaké jsou základní charakteristiky binomického rozdělení?
Jaká excelovská funkce se používá pro výpočet distribuční funkce binomického rozdělení?
Jaký je rozdíl mezi binomickým a hypergeometrickým rozdělením? Jakým způsobem se v Excelu vypočítá kvantil normálního rozdělení? Co je to Studentovo rozdělení a jaké jsou jeho základní vlastnosti? K jakému rozdělení se přibližuje chi-kvadrát rozdělení pro velké vl
e
Literatura k tématu:
[1] HINDLS, R. Statistika pro ekonomy. 8. vyd. Praha: Professional Publishing, 2007. ISBN 978-80-86946-43-6.
[2] JANÁČEK, J. Statistika jednoduše. Grada, 2022. ISBN 978-80-271-1738-3.
[3] MAREK, L. Statistika v příkladech. 2. vyd. Praha: Kamil Mařík - Professional Publishing, 2015. ISBN 978-80-743-1153-6.
[4] OTIPKA, P., SMAJSTRLA, V. Pravděpodobnost a statistika [online]. 1. vydání. Ostrava: VŠB-TU Ostrava, 2007 [cit. 2024-09-09]. ISBN 80-248-1194-4.
Kapitola 6
Bodový a intervalový odhad
Po prostudování této kapitoly budete umět:
• Aplikovat možnosti odhadování parametrů základního souboru.
' Rozhodnout o volbě statistiky (metoda momentů, metoda maximální věrohodnosti)
Klíčová slova:
Statistika, bodový odhad, intervalový odhad, metoda momentů, metoda maximální vě rohodnosti.
93
Statistika a statistické zpracování dat
Náhled kapitoly
V této kapitole se zaměříme na základní metody odhadu neznámých parametrů základního souboru, konkrétně na bodové a intervalové odhady. Kapitola navazuje na předchozí témata (kapitoly) a rozšiřuje znalosti o přesnější kvantitativní charakteristiky populací. Podrobně se budeme věnovat metodám odhadu střední hodnoty a rozptylu, které jsou klíčové pro analýzu dat v ekonomii a dalších oblastech.
Cíle kapitoly
Po prostudování této kapitoly by měl student být schopen:
• Vysvětlit rozdíl mezi bodovým a intervalovým odhadem.
' Aplikovat metody momentů a maximální věrohodnosti pro odhad parametrů.
Vypočítat interval spolehlivosti pro střední hodnotu a rozptyl.
' Interpretovat výsledky bodových a intervalových odhadů v kontextu ekonomických dat.
Používat Excel nebo jiný statistický software k výpočtu kritických hodnot a intervalů spolehlivosti.
Odhad času potřebného ke studiu
Odhaduje se, že studium této kapitoly zabere přibližně 4-6 hodin. Tento čas zahrnuje čtení textu, pochopení teoretických konceptů, řešení příkladů a praktické cvičení s použitím statistického softwaru.
Úvodní příklad
Představte si, že jste manažerem firmy, která vyrábí žárovky. Vaším úkolem je zjistit, jaká je průměrná životnost těchto žárovek, tedy jak dlouho budou svítit, než se rozbijí. Samozřejmě není možné otestovat každou žárovku. Proto vyberete několik žárovek náhodně a změříte, jak dlouho svítí, než přestanou fungovat.
Například si vyberete 10 žárovek a změříte jejich životnost v hodinách. Získáte následující hodnoty:
x = (850, 870, 890, 900, 920, 940, 960, 980,1000,1020).
Na základě těchto měření budete chtít odhadnout, jaká je průměrná životnost všech žárovek, které vaše firma vyrábí. Tento odhad vám může pomoci lépe plánovat výrobu a zajišťovat, že vaše produkty budou splňovat očekávání zákazníků.
Bodový a intervalový odhad
94
Výpočet průměru
Nejprve spočítáme průměrnou životnost těchto 10 žárovek, což bude tzv. bodový odhad průměrné životnosti všech žárovek:
1 "        850 + 870 + 890 + 900 + 920 + 940 + 960 + 980 + 1000 + 1020 , ,
x = — > Xi =-= 933 hodin.
10
Intervalový odhad průměru
Dále bychom chtěli zjistit, jak přesný je tento odhad. Pro tento účel spočítáme tzv. intervalový odhad, což je rozmezí hodnot, ve kterém se s určitou pravděpodobností (např. 95 %) nachází skutečná průměrná životnost všech žárovek.
Pro výpočet intervalového odhadu potřebujeme znát směrodatnou odchylku výběru, kterou spočítáme z naměřených dat:
-^2(xi ~ x)2 ~ 55,08 hodin.
~~ 1 i=i
Pro 95% interval spolehlivosti použijeme kritickou hodnotu t z t-rozdělení pro 9 stupňů volnosti (n — 1 = 10 — 1 = 9), která je přibližně 2,262 (určíme z tabulek nebo spíše pomocí funkce v Excelu).
Intervalový odhad průměru pak vypočítáme jako:
s 55 08
x ± t ■ —== = 933 ± 2,262 • —= « 933 ± 39,39 hodin.
To znamená, že s 95% jistotou můžeme říci, že průměrná životnost všech žárovek se nachází v intervalu
(893,61; 972,39) hodin.
Tento interval nám dává rozmezí, ve kterém se pravděpodobně nachází skutečná průměrná životnost žárovek, což je důležitá informace pro rozhodování ve výrobě.
6.i    Statistické odhady
Úvod do odhadu parametrů
Když máme k dispozici výběr dat, často nás zajímá, jaká je skutečná hodnota určitého parametru, který charakterizuje celý základní soubor (populaci). Například víme, že životnost žárovek v našem příkladu má obvykle exponenciální rozdělení, ale neznáme přesně jeho parametr A,
95
Statistika a statistické zpracování dat
respektive průměrnou životnost nebo rozptyl (variabilitu) této životnosti v celé populaci žárovek. Na základě údajů z výběru se snažíme tyto neznámé parametry odhadnout. Předpis nebo postup, jakým z výběrových dat vypočítáme odhad parametru, se v matematické statistice nazývá statistický odhad.
Statistické odhady a jejich vlastnosti
Parametry základního souboru, jako je například průměr nebo rozptyl, jsou obvykle konstanty, i když je přesně neznáme. Odhady těchto parametrů, které získáváme z výběrových dat, se mohou lišit při různých výběrech. Například pokud bychom vybrali jinou sadu žárovek, pravděpodobně bychom dostali trochu jiné výsledky. Tyto odhady jsou tedy náhodné veličiny a v matematické statistice se pro ně používá termín statistika (v užším smyslu tohoto slova).
Definice statistického odhadu
Definice 6.1. Statistický odhad T = T(X) je funkce výběrových dat X. Statistický odhad určený k odhadování parametrů se nazývá odhadová statistika, zatímco ta, která slouží k testování hypotéz (to budeme probírat později), se nazývá testová statistika.
Poznámka k volbě odhadu
Tato definice nám zatím neříká nic o tom, jak vybrat správný statistický odhad pro konkrétní situaci, ať už jde o odhad nebo testování. To, jak vhodný je určitý odhad pro daný účel, budeme zkoumat v dalších částech kapitoly.
6.2    Bodový odhad
Úvod do bodového odhadu
Sledujeme rozdělení s hustotou pravděpodobnosti f(x; fi), kde fi je neznámý parametr. Provedli jsme realizaci náhodného výběru x = (x1,x2,... ,xn) z tohoto rozdělení a definovali statistiku T(X). Bodový odhad parametru fi pro realizaci náhodného výběru x je hodnota statistiky T(X) s dosazenou realizací náhodného výběru x.
Definice bodového odhadu
Definice 6.2. Bodový odhad (estimator) parametru fi je statistika T(X), která aproximuje parametr fi. Pro každou novou realizaci výběru obdržíme jiný bodový odhad. Odtud je zřejmé, že bodový odhad nemůže dát úplně přesnou hodnotu parametru.
Bodový a intervalový odhad
96
Volba statistiky
Vlastní volbu statistiky jsme zatím nechali stranou. Lze pro ni použít metodu momentů nebo metodu maximální věrohodnosti. Obě nyní probereme.
6.2.1     Metoda momentů
Metoda momentů je jednou z technik, jak odhadnout neznámé parametry rozdělení dat, například průměr nebo rozptyl. Tato metoda porovnává určité charakteristiky, nazývané momenty, základního souboru a výběru.
Teoretické momenty
Moment určitého řádu je základní charakteristika rozdělení pravděpodobnosti. Dělíme je na tzv. počáteční a centrální.
Definice 6.3. Počáteční momenty:        = E
Xk
, k = l,2,....
Pro nás bude nejdůležitější hned ten první, fi± = fi = E [V], tedy střední hodnota, která se běžně označuje fi, kde (pro připomenutí)
		
■ /xi=E[V]	= X J—oo	■ f(x) dx    pro spojitou náhodnou veličinu,
■ /xi=E[V]	n = 12 Xi	p{x,j)    pro diskrétní náhodnou veličinu.
	i=l	
Definice 6.4. Centrální momenty:
/4
E
(V - ^
k = 1,2,
Zde pro nás bude nejdůležitější ten druhý, /i'2 = a2 = E (X — /i)2 , tedy rozptyl, který se běžně označuje a2, kde (pro připomenutí)
97
Statistika a statistické zpracování dat
				— fi)2 ■ f(x) dx,    pro spojitou náhodnou veličinu,
fj!2 = a2 = E	\x		= / (x J — oo	
fj!2 = a2 = E	\x		n = J2(xí -	- /i)2 • p(xi),    pro diskrétní náhodnou veličinu.
			i=i	
Vyšší momenty, jako třeba třetí centrální moment (který je základem pro výpočet šikmosti) a čtvrtý centrální moment (který je základem pro výpočet špičatosti), jsou rovněž důležité pro charakterizaci tvaru rozdělení1. My však budeme nejčastěji pracovat se dvěma uvedenými momenty.
Výběrové momenty
Výběrové momenty jsou obdobou (protějškem) teoretických momentů, ale jsou počítány z dat ve výběru. Slouží k odhadu momentů základního souboru.
Opět je dělíme na počáteční a centrální:
1 n
Definice 6.5. Počáteční výběrové momenty: = — k = 1, 2,...,
n
i=i
kde n je velikost výběru a x i jsou jednotlivé hodnoty ve výběru.
Pro k = 1 dostáváme výběrový průměr
ni\ =x = —     Xi. n
i=i
		
Definice 6.6. Centrální momenty:    m'k = E	x - rik	,k = l,2,....
1 Třetí centrální moment je dán vztahem /ig = E[(X — /i)3], kde ji je střední hodnota rozdělení. Šikmost se pak definuje jako 7i = —|, kde a je směrodatná odchylka. Čtvrtý centrální moment je dán vztahem fi'4 = E[(X—/i)4],
a spicatost jako 72 = -7- — 3.
Bodový a intervalový odhad
98
Pro k = 2 dostáváme výběrový rozptyl
1 n
m'2 = s2 = —— J2(xí ~ xf-
Metoda momentů funguje tak, že porovnáme teoretické momenty rozdělení (které závisí na neznámých parametrech) s výběrovými momenty, které získáme z dat. Odhad parametru pak získáme řešením rovnice, kde je teoretický moment roven odpovídajícímu výběrovému momentu, pro nás nejčastěji fiľ = ni\ (resp. fi = x) nebo fi'2 = m'2 (resp. a2 = s2).
Vlastnosti odhadu
Při hledání odhadů parametrů, jako je průměr nebo rozptyl, chceme, aby tyto odhady byly co nejpřesnější.
Vzorce
/i ta x = —     Xi       a      a2 « s2 = -y^(xí ~ x)2
jsou navrženy tak, aby poskytovaly tzv.
nevychýlený odhad, což znamená, že když odhadujeme parametr, jako je průměr nebo rozptyl, tak v průměru (při mnoha výběrech) se náš odhad blíží skutečné hodnotě parametru;
konzistentní odhad, což znamená, že čím více dat máme k dispozici (čím rozsáhlejší je výběr), tím přesnější náš odhad bude.
Řešené příklady
Příklad 6.7. Metodou momentů určete neznámý parametr Poissonova rozdělení. Řešení: Poissonovo rozdělení má pravděpodobnostní funkci:
\xe~x
p(x;X) =-—,    fc = 0,1,2,...,
xl
kde A > 0 je parametr rozdělení. Vybereme (vygenerujeme) n prvků x1}..., xn z tohoto rozdělení.
99
Statistika a statistické zpracování dat
Metoda momentů funguje tak, že porovnáme teoretické momenty rozdělení (které závisí na parametru A) s empirickými momenty vypočítanými z výběrových dat.
První teoretický moment fiľ (střední hodnota) Poissonova rozdělení je dán (z teorie) jako:
= E[X] = A.
První empirický moment ni\ (výběrový průměr) je dán jako:
1 11
m1 = - J2xí-n r—f
i=i
Porovnáním teoretického a empirického momentu získáme odhad parametru A:
1 11
A ~ ni\ = —     Xi.
□
Příklad 6.8. Metodou momentů určete neznámý parametr exponenciálního rozdělení. Řešení: Exponenciální rozdělení má hustotu pravděpodobnosti:
A)       1 , ,-Ax
0 pro x < 0,
\e~Xx   pro x > 0,
kde A > 0 je parametr rozdělení. Vytvoříme výběr n prvků x1}... ,xn z tohoto rozdělení. První moment výběru je:
1 n m1 = - V Xi
n
i=i
První (teoretický) moment základního souboru je:
f°° 1 Hi = /   x ■ \e~Xxdx = —. Jo A
Porovnáním obou momentů získáme odhad parametru A:
11" ,1 n
A    n£ťi mi £ľ=i
□
Bodový a intervalový odhad
100
6.2.2     Metoda maximální věrohodnosti
Předpokládejme, že máme náhodný výběr (x1} x2,..., xn) z populace, jejíž rozdělení je popsáno pravděpodobnostní funkcí p(x; 0).
Zde 0 = (81,82,..., 6k) označuje vektor neznámých parametrů tohoto rozdělení (nejčastěji bude neznámý parametr jenom jeden).
Pravděpodobnost, že výběr (x1}x2,... ,xn) vznikne konkrétní realizací náhodné veličiny ^2) • • • j £n)> Je dána součinem pravděpodobností jednotlivých hodnot:
P(€i = xu& = x2,... ,Ín = xn) = Y[p(xí;6).
Definice 6.9. Tento součin nazýváme funkcí věrohodnosti a označujeme ji
L(0;x1,x2, ...,xn) = Y[p(xi;0).
í=i
Úkolem metody maximální věrohodnosti je nalézt odhad parametrů 6, který maximalizuje tuto funkci věrohodnosti, tj. najít takovou hodnotu 0, pro kterou je pravděpodobnost pozorovaných dat co nejvyšší. Jinými slovy, hledáme hodnotu 0, která maximalizuje funkci L.
Řešené příklady
Příklad 6.10 (obecný). Metodou maximální věrohodnosti odhadněte neznámý parametr Po-issonova rozdělení.
\x
Řešení: Poissonovo rozdělení má pravděpodobnostní funkci p(x, A) = —-e~x, k = 1,2,....
x\
Funkce maximální věrohodnosti:
L(X,x1}X2,... ,xn) = TT —-e~A.
i=i
Hledáme takovou hodnotu parametru A > 0, při které je L maximální.
Nejprve využijeme toho, že přirozená logaritmická funkce ln je rostoucí, a tak tam, kde je L maximální je i lnL maximální. Logaritmování rovnice nám výpočty zjednoduší (na pravé straně využijeme toho, že logaritmus součinu je součtem logaritmů):
lnL(A, x1}x2, ■ ■ ■, xn) = ^ (xj ln A — ln(xj!) — A).
í=i
101
Statistika a statistické zpracování dat
Nyní budeme derivovat podle A:
X; — n.
Výsledek (pravou stranu) položíme rovnu 0 (hledáme stacionární bod funkce lnL):
1 11
-J^Xi - n = 0.
á í=i
Řešením této rovnice získáme odhad parametru A:
1 11
x i=i
i n
Při bližším zkoumání zjistíme, že pro 0 < A < A je tato derivace kladná, zatímco pro A < A záporná. To znamená, že funkce ln L nabývá v A svého maxima. To samé platí pro samotnou funkci L
Tedy, podle metody maximální věrohodnosti, je odhad parametru A aritmetický průměr hodnot
Xi. □
Příklad 6.11 (s konkrétními daty). Metodou maximální věrohodnosti odhadněte neznámý parametr A Poissonova rozdělení na základě následujícího výběru: x = (2, 3,4, 3, 5).
Řešení: S využitím příkladu 6.10 bychom mohli rovnou napsat, že odhadem bude aritmetický průměr uvedených čísel. My si ale chceme vyzkoušet stejný postup (jako v příkladu 6.10) s konkrétním výběrem, abychom mohli porovnat obtížnost výpočtů u těchto dvou variant.
\x
Poissonovo rozdělení má pravděpodobnostní funkci: p(x, A) = — e~A, k = 1,2,....
x\
Funkce maximální věrohodnosti:
Nejprve sestavíme funkci maximální věrohodnosti pro daný výběr x = (2, 3,4, 3, 5):
5 Xxt
^(A) = n^Te
—A
1=1
A2   A  A3 A 2! 3!
^2+3+4+3+5
2! -3! -4! -3! -5!
	A3   A A5
4! 6	3!6 '5!6
p-5X -	
	207360
Nyní rovnici logaritmujeme:
Derivujeme:
lnL(A) = ln (^L-e~a = 171n A - 5A - ln(207360).
dlnL(A) 17
d\ A
Bodový a intervalový odhad
102
Derivaci položíme rovnu 0:
17
— -5 = 0. A
Řešením této rovnice získáme odhad parametru A:
17 ~ 17
T = 5   =>    A = y = 3,4.
Odhad parametru A pomocí metody maximální věrohodnosti na základě daného výběru je A = 3,4.
(rro kontrolu A = x =- = — = 3,4.) □
5 5
6.3    Intervalové odhady parametrů
Definice 6.12. Intervalový odhad parametru (3 základního souboru je interval (Bi; B2), ve kterém se nachází skutečná hodnota parametru s určitou pravděpodobností. Tato pravděpodobnost je 1 — a, což znamená, že
P(Bi </3<B2) = l-a.
Tento interval (Bi\B2) se nazývá interval spolehlivosti (konfidenční interval) pro parametr (3 na hladině významnosti a (nebo se stupněm spolehlivosti 1 — a). Hodnoty B\ a B2 se označují jako hranice tohoto intervalu.
Definice 6.13. Hladina významnosti a je pravděpodobnost, že skutečná hodnota odhadovaného parametru neleží uvnitř tohoto intervalu spolehlivosti. Často se volí hodnoty a = 0,1, a = 0,05 nebo a = 0,01.
Definice 6.14. Stupeň spolehlivosti l — a udává pravděpodobnost, že skutečná hodnota parametru leží v intervalu spolehlivosti.
Čím vyšší je stupeň spolehlivosti, tím více si můžeme být jisti, že náš interval obsahuje skutečnou hodnotu parametru, ale zase se nám interval zvětšuje.
Interval spolehlivosti lze určit více způsoby. Nejčastěji se používá symetrický oboustranný interval spolehlivosti.
Nyní se zaměříme na intervalové odhady nej důležitějších statistických veličin, jako jsou střední hodnota a rozptyl. Tyto odhady lze odvodit pomocí tzv. centrální limitní věty:
103
Statistika a statistické zpracování dat
Věta 6.15. Necht X = X\ + X2 + • • • + Xn je náhodná veličina, která vznikla součtem nezávislých náhodných veličin s konečnou střední hodnotou fi a konečným rozptylem a2.
Pak náhodná proměnná
_ X1+X2 + --- + Xn-n/i
* n. ~
má pro n —> oo normální rozdelení ÍV(0,1).
To znamená, že i když nevíme, jaké rozdělení má základní soubor (odkud data pocházejí), můžeme stále předpokládat, že průměr z velkého počtu těchto dat má přibližně normální rozdělení. Tento průměr má stejnou střední hodnotu jako základní soubor (což odpovídá bodovému odhadu střední hodnoty), a rozptyl tohoto průměru je n-tinou rozptylu základního souboru.
6.3.1     Intervalový odhad střední hodnoty
Intervalový odhad střední hodnoty je způsob, jak určit rozsah hodnot, ve kterém se s určitou pravděpodobností nachází skutečná střední hodnota základního souboru.
Základní myšlenka
Víme, že statistika ———   má normované normální rozdělení pravděpodobnosti ÍV(0,1). To
znamená, že pokud bychom znali skutečný rozptyl a, můžeme vypočítat, jak daleko od průměru výběru X se nachází skutečná střední hodnota fi.
Kritické hodnoty a interval spolehlivosti
Kritické hodnoty, označené jako iíi-|, představují mezní hodnoty, které určují rozsah, ve kterém se s pravděpodobností l — a nachází skutečná hodnota fi. Tento interval můžeme vyjádřit takto:
P
-Ul-
<
X
což znamená, že interval spolehlivosti pro střední hodnotu jj, je:
Bodový a intervalový odhad
104
Praktický výpočet intervalového odhadu
V praxi však obvykle neznáme skutečný rozptyl a, a proto jej musíme odhadnout na základě našich dat jako vzorkový rozptyl s. Intervalový odhad střední hodnoty pak vypadá následovně:
P ( x -       • Ul_f < fi < X +       • Ul_f   = 1 - a, 'n        2 \/n        2 j
což lze explicitně vyjádřit jako interval spolehlivosti:
Definice 6.16. Praktický vzorec pro výpočet intervalu spolehlivosti pro střední hodnotu náhodné veličiny X při velkém počtu pozorování (n > 30):
s — s
X---= • Mi   «   X + —= ■
'n        2 \ n 2
kde:
X je výběrový průměr,
s je výběrová směrodatná odchylka,
n je počet pozorování (velikost výběru),
■Ui-sl je kvantil normovaného normálního rozdělení odpovídající zvolené hladině spolehlivosti 1 — a,
a je hladina významnosti (obvykle a = 0,05, což odpovídá 95% intervalu spolehlivosti).
Tento vztah tedy platí pro dostatečně velké vzorky, řekněme při n > 30. Pokud máme menší vzorek, používáme místo normálního rozdělení Studentovo t-rozdělení, a místo iíi_« použijeme kvantil — 1):
P ( X -       • *!« (n -l)<fj,<X + -^=- ŕ!_f (n - 1)   = 1 - a, 'ri       2 \/n 2
tedy interval spolehlivosti je v tomto případě:
105
Statistika a statistické zpracování dat
Definice 6.17. Praktický vzorec pro výpočet intervalu spolehlivosti pro střední hodnotu náhodné veličiny X při malém počtu pozorování (n < 30):
X-^=- ri_f (n - 1),X + -i= • ŕi_f (n - 1) m       2 \ n 2
kde:
X je výběrový průměr,
s je výběrová směrodatná odchylka,
n je počet pozorování (velikost výběru),
íi_a (n— 1) je kvantil Studentova ŕ-rozdělení sn—1 stupni volnosti odpovídající zvolené hladině spolehlivosti 1 — a,
a je hladina významnosti (obvykle a = 0,05, což odpovídá 95% intervalu spolehlivosti).
Určení přesnosti odhadu
Velikost intervalu spolehlivosti, označovaná jako A, nám říká, jak přesný je náš odhad střední hodnoty fi. Vyjadřuje se následovně:
s s A = —=-Ui-s_,    nebo   A = —= ■ - 1).
'n        2 \/n 2
Tento interval můžeme zapsat jako /i E (^X — A, X + Aj, což znamená, že skutečná hodnota fi se nachází někde uvnitř tohoto intervalu (při zvolené hladině spolehlivosti 1 — a).
Praktický příklad
Příklad 6.18. Měřili jsme průměr vačkového hřídele na 250 součástkách. Předpokládáme, ze data mají normální rozdělení. Z výsledků měření jsme určili výběrový průměr x = 995,6 a výběrový rozptyl s2 = 134,7. Určete interval spolehlivosti pro střední hodnotu základního souboru při hladině významnosti 5 %.
Řešení: Úlohu vyřešíme pomocí Excelu, kde kritickou hodnotu normálního rozdělení získáme pomocí funkce N0RM.S.INV:
A = —= -ui-a = V ,_l -N0RM.S. INV 0,975 « 1,441558.
2 \/249
Intervalový odhad střední hodnoty je tedy:
/x-A;x + A) = (994,1584; 997,0416).
Bodový a intervalový odhad
106
□
6.3.2     Intervalový odhad rozptylu
Nyní se podíváme na to, jak určit intervalový odhad rozptylu. K tomu využijeme fakt, že náhodná veličina, která vznikne součtem kvadrátů odchylek od střední hodnoty, má rozdělení x2 (čteme „chĺ-kvadrát"). Tento vztah můžeme zapsat takto:
2 (n-l)s2 x = ~-t—-
Tato veličina má rozdělení \2 s n — 1 stupni volnosti. Intervalový odhad pro rozptyl můžeme zapsat takto:
P [xU2 (n - 1) < í^lM < x|(n _ l)^ = l _ Q,
nebo po úpravě:
m ( (n-l)s2       2       (n- l)s2 \
Odtud explicitně:
Definice 6.19. Praktický vzorec pro výpočet intervalu spolehlivosti pro rozptyl a2:
I   (n-l)s2     (n-l)s2 \ \x?_f(n-l)'x|(n-l)/'
kde:
• s2 je výběrový rozptyl,
• n je počet pozorování (velikost výběru),
— 1) a x\-<í{n ~ 1) Jsou kvantily chĺ-kvadrát rozdělení s n — 1 stupni volnosti odpovídající hladinám významnosti | a 1 — |-,
■ a je hladina významnosti (obvykle a = 0,05, což odpovídá 95% intervalu spolehlivosti).
Tento interval spolehlivosti pro rozptyl a2 vyjadřuje, že skutečná hodnota rozptylu se s pravděpodobností 1 — a nachází v daném intervalu.
107
Statistika a statistické zpracování dat
Kritické hodnoty %2 najdeme v tabulkách nebo je můžeme vypočítat pomocí statistického softwaru.
Praktický príklad
Příklad 6.20. Určete oboustranný interval spolehlivosti pro rozptyl normálně rozloženého základního souboru při hladinách spolehlivosti 0,90, 0,95 a 0,99. Měření byla provedena na vzorku s velikostí n = 12 a bylo zjištěno, že vzorkový rozptyl je s2 = 0,64. Posuďte získané výsledky.
Řešení: Známe obecný tvar intervalu spolehlivosti pro rozptyl:
/   (n-l)s2     (n-l)s2 \ \X?_f(n-l)' x|(n-l)/-
Dosadíme konkrétní hodnoty:
n = 12,    s2 = 0,64,   n-1 = 11.
Řešení pro hladinu spolehlivosti 0,90:
11-0,64       2 11-0,64
< a2 <
X8,95(H) "       " X8,05(H)
Použití Excelu: Pro výpočet kritických hodnot použijeme funkci CHISQ.INV. Tato funkce vrací kvantil rozdělení %2. Syntaxe je CHISQ. INV(pravděpodobnost, stupně volnosti).
Kritické hodnoty jsou:
. Xo,95(n) = CHISQ. INV(0,95; 11) = CHISQ. INV.RT(0,05; 11) = 19,675, . Xo,05(n) = CHISQ.INV(0,05; 11) = 4,575.
Interval spolehlivosti pro rozptyl je tedy:
11-0,64      2 11-0,64 -■— < a < -■—.
19,675  ~     ~ 4,575
Výsledkem je interval:   (0,358,1,539).
Stejný postup použijeme pro zbývající dva případy.
□
Bodový a intervalový odhad
108
OV této kapitole jsme se věnovali problematice bodových a intervalových odhadů. Začali jsme s případem, kdy máme k dispozici data pocházející z rozdělení, jehož parametry -jako je střední hodnota a rozptyl - nejsou známé. Naším cílem bylo na základě těchto dat tyto parametry odhadnout a zjistit, jak tento odhad konstruovat.
V průběhu kapitoly jsme diskutovali, že tato situace nemusí být omezena pouze na normální rozdělení; data mohou pocházet z libovolného rozdělení závislého na konkrétním parametru. Seznámili jsme se se dvěma hlavními přístupy k odhadu parametrů: bodovým odhadem, který poskytuje jednu konkrétní hodnotu jako odhad parametru, a intervalovým odhadem, který určuje interval, ve kterém se parametr s určitou pravděpodobností nachází.
Získali jsme přehled o metodách bodového odhadu, jako je metoda momentů a metoda maximální věrohodnosti, a aplikovali jsme tyto metody na konkrétní příklady. Následně jsme se zaměřili na intervalové odhady, které poskytují důležitou informaci o spolehlivosti odhadu parametru, včetně výpočtu intervalů spolehlivosti pro střední hodnotu a rozptyl.
1. Co je to bodový odhad a jaké jsou jeho hlavní vlastnosti?
2. Jakým způsobem se stanovuje intervalový odhad a co je to hladina spolehlivosti?
3. Jaký je vztah mezi velikostí výběru a přesností intervalového odhadu?
4. Jak se liší metoda momentů od metody maximální věrohodnosti při odhadu parametrů?
5. Uveďte praktické příklady aplikace bodových a intervalových odhadů v ekonomii.
6. Proč je důležité, aby byl odhad nevychýlený a konzistentní?
7. Jaké jsou výhody a nevýhody použití bodového odhadu oproti intervalovému odhadu?
8. Co vyjadřuje centrální limitní věta a jaký má význam pro intervalové odhady?
9. Jak interpretujete kritické hodnoty v kontextu intervalového odhadu?
10. Jak byste postupovali při odhadu rozptylu pomocí \2 rozdělení?
11. Ve výběru 50 zaměstnanců byl zjištěn průměrný měsíční plat 30 000 Kč a směrodatná odchylka 5 000 Kč. Určete 95% interval spolehlivosti pro průměrný plat všech zaměstnanců.    [29 000 Kč < fi < 31 000 Kč]
12. Vzorkem 100 žárovek byla zjištěna průměrná životnost 800 hodin s rozptylem 1600 hodin. Odhadněte 99% interval spolehlivosti pro průměrnou životnost žárovek. [787 h <fi< 813 h]
13. Uvažujte náhodný výběr z normálního rozdělení s neznámým rozptylem. Jaký je postup pro odhad tohoto rozptylu a jak byste stanovili intervalový odhad pro rozptyl?
14. Vysvětlete a aplikujte metodu maximální věrohodnosti na odhad parametru A v Poissonově rozdělení, pokud máte k dispozici výběr: x = (2, 3, 3,4, 5).    [A = 3,4]
15. Pomocí metody momentů odhadněte parametr A exponenciálního rozdělení, máte-li k dispozici následující výběr: x = (1, 2,1, 3,4, 2,1).    [A = 0,5]
16. Popište, jak byste stanovili intervalový odhad pro střední hodnotu, pokud by vzorek pocházel z rozdělení, o kterém nevíte, zda je normální, a počet pozorování je menší než 30.
109
Statistika a statistické zpracování dat
17. Z naměřených dat máte následující hodnoty: x = (50,55,60,65,70,75). Odhadněte pomocí metody momentů průměr a rozptyl dat.    [/t = 62,5, a2 = 62,5]
Literatura k tématu:
[1] HINDLS, R. Statistika pro ekonomy. 8. vyd. Praha: Professional Publishing, 2007. ISBN 978-80-86946-43-6.
[2] JANÁČEK, J. Statistika jednoduše. Grada, 2022. ISBN 978-80-271-1738-3.
[3] MAREK, L. Statistika v příkladech. 2. vyd. Praha: Kamil Mařík - Professional Publishing, 2015. ISBN 978-80-743-1153-6.
[4] OTIPKA, P., SMAJSTRLA, V. Pravděpodobnost a statistika [online]. 1. vydání. Ostrava: VŠB-TU Ostrava, 2007 [cit. 2024-09-09]. ISBN 80-248-1194-4.
Kapitola 7
Testování statistických
hypotéz
Po prostudování této kapitoly budete umět:
• formulovat nulovou a alternativní hypotézu,
• v jednoduchých situacích vybrat a použít vhodný test,
použít excelovské funkce T.INV, NORM.S.INV a T.TEST k výpočtu kritických hodnot a p-hodnoty,
• interpretovat p-hodnotu a rozhodnout o výsledku testu,
správně vyhodnotit výsledek testu na základě kritických hodnot nebo p-hodnoty.
Klíčová slova:
Hypotéza, nulová hypotéza, alternativní hypotéza, statistický test, kritický obor, obor akceptace, p-hodnota, hladina významnosti, chyba prvního a druhého druhu.
111
Statistika a statistické zpracování dat
Náhled kapitoly
V této kapitole se zaměříme na základní koncepty a postupy testování statistických hypotéz. Testování hypotéz je klíčovou metodou statistické analýzy, která umožňuje rozhodovat o platnosti určitých tvrzení na základě výběru dat. Navazuje na principy bodových a intervalových odhadů, které jsme si představili v předchozí kapitole. Budeme se zabývat tím, jak formulovat a testovat nulovou a alternativní hypotézu, jak stanovit hladinu významnosti a jak interpretovat výsledky testů v kontextu chyby prvního a druhého druhu. Dále si vysvětlíme koncept p-hodnoty a ukážeme její využití při rozhodování o zamítnutí či nezamítnutí hypotézy. Na ukázkových příkladech si ukážeme, jak se testování hypotéz provádí prakticky.
Tato kapitola tvoří základ pro pochopení statistických metod, které budou probírány v dalších kapitolách.
Cíle kapitoly
Základním cílem je, aby studenti pochopili základní principy testování statistických hypotéz, včetně správné terminologie. Dostatečné procvičení testování přijde v dalších kapitolách.
Časová náročnost
Pro studium této kapitoly doporučujeme věnovat přibližně 3-4 hodiny, včetně času na procvičení řešených příkladů a kontrolních otázek.
Testování hypotéz je jedním ze základních nástrojů statistické analýzy, které nám umožňuje ověřit určitá tvrzení o parametrech populace na základě výběrových dat. Typicky se tato tvrzení týkají střední hodnoty, rozptylu nebo jiného parametru základního souboru.
7.1    Statistické hypotézy
Definice 7.1 (Statistická hypotéza). Statistická hypotéza je tvrzení o parametru základního souboru, které lze ověřit pomocí výběrových dat. Hypotézy jsou formulovány dvěma způsoby:
' Nulová hypotéza (Hq): Jedná se o výchozí tvrzení, které se snažíme testem vyvrátit. Například tvrzení, že průměrná hodnota náhodné veličiny fi = 0, nebo že neexistuje rozdíl mezi dvěma skupinami.
' Alternativní hypotéza (Hi): Představuje tvrzení opačné k nulové hypotéze. Její přijetí znamená, že nulovou hypotézu považujeme za nepravdivou. Například tvrzení, že fi ý 0? nebo že existuje rozdíl mezi dvěma skupinami.
Testování statistických hypotéz
112
Příklad 7.2. Testování přiblížíme pomocí analogie se soudním procesem. Má padnout rozhodnutí, zda obžalovaný spáchal či nespáchal zločin.
Řešení: Soudní systém se řídí zásadou, že obžalovaný je nevinen, dokud se nepodaří prokázat opak. Formulace hypotéz v tomto případě je následující:
• Nulová hypotéza Hq: Obžalovaný je nevinen. Alternativní hypotéza H\. Obžalovaný je vinen.
Můžeme zde pěkně ilustrovat, jak se správně formuluje výsledek testu.
Zavedené formulace výsledku testu:
Zamítáme nulovou hypotézu ve prospěch alternativní hypotézy = Bylo prokázáno, že je vinen.
' Nulovou hypotézu nemůžeme zamítnout = Vina nebyla prokázána (je zde možnost, že je nevinen).
Možné vztahy mezi skutečností a rozhodnutím soudu jsou znázorněny v tabulce :
Tab. 3: Vztah mezi pravdou a rozhodnutím soudu
	Závěr soudu	
Skutečnost	Obžalovaný je nevinen	Obžalovaný je vinen
Obžalovaný je nevinen	správný	chyba I. druhu
Obžalovaný je vinen	chyba II. druhu	správný
Uvědomme si, že chyba I. druhu (nevinný prohlášen za vinného) má pro obžalovaného fatální následky. Proto je kladen důraz na minimalizaci této chyby, a soudy musí pečlivě prokázat vinu obžalovaného.
To odpovídá volbě velmi malé hladiny významnosti (a) ve statistických testech, která zajišťuje, že pravděpodobnost zamítnutí pravdivé nulové hypotézy (chyba I. druhu) je nízká. V jiných případech, například v oblasti průmyslu, nemusí být vždy jasné, která chyba (prvního či druhého druhu) je kritičtější. □
7.1.1     Jednostranné a oboustranné testy
Hypotézy mohou být jednostranné nebo oboustranné, což závisí na tom, jak je formulována alternativní hypotéza.
113
Statistika a statistické zpracování dat
Jednostranná hypotéza: Uvádí, že parametr základního souboru je buď větší, nebo menší než určitá hodnota, ale ne obojí. Například Hq : fi < 100 proti H\ : fi > 100.
Oboustranná hypotéza: Předpokládá, že parametr základního souboru se může lišit na obě strany. Například Hq : fi = 100 proti H\ : fi ^ 100.
Volba mezi jednostranným a oboustranným testem závisí na výzkumné otázce. Pokud nás zajímá pouze to, zda je parametr větší (nebo menší), použijeme jednostranný test. Pokud nás zajímá jakýkoli rozdíl, použijeme test oboustranný.
7.1.2    Testovací statistika
Definice 7.3. Testová statistika je číselná hodnota vypočítaná z dat výběru, která se používá k rozhodnutí, zda zamítnout nebo nezamítnout nulovou hypotézu. Testová statistika vyjadřuje, jak daleko se odchyluje výsledek výběru od hodnoty předpokládané nulovou hypotézou.
Výpočet testové statistiky závisí na typu testu, který je aplikován (např. t-test, z-test, F-test) a na tom, jaké parametry populace testujeme (např. střední hodnotu, rozptyl nebo proporci). Testová statistika se porovnává s tzv. kritickou hodnotou, aby bylo možné rozhodnout o výsledku testu.
Nejčastěji používanými testovacími statistikami jsou:
t-statistika: Používá se při testování hypotéz o průměru populace, pokud je vzorek malý a neznáme rozptyl základního souboru. Tato statistika má t-rozdělení.
z-statistika: Používá se, když je vzorek velký nebo pokud známe rozptyl základního souboru. Má normované normální rozdělení.
F-statistika: Používá se při testování rozdílů mezi více rozptyly. Má F-rozdělení.
Testování statistických hypotéz
114
7.1.3     Hladina významnosti, kritický a akceprační obor a kritické hodnota
Definice 7.4. Hladina významnosti («) představuje pravděpodobnost, že zamítneme nulovou hypotézu, ačkoli ve skutečnosti platí (tzv. chyba prvního druhu). Typicky se volí hladiny významnosti 0,05 nebo 0,01.
Definice 7.5. Kritický obor je interval (nebo dvě oddělené oblasti), do kterého když padne hodnota testovací statistiky, zamítneme nulovou hypotézu. Tvar kritického oboru závisí na povaze testu.
Definice 7.6. Akceptační obor je interval hodnot, do kterého když padne hodnota testovací statistiky, nezamítáme nulovou hypotézu.
Definice 7.7. Kritická hodnota je hodnota, která odděluje kritický obor od akceptač-ního oboru.
Kritické a akceptační obory pro jednostranné a oboustranné testy
Jednostranný test:
• Pro Hq : fi > fi0, Hi : fi < fi0 se kritický obor nachází na levé straně rozdělení testovací statistiky (obrázek 16).
Kritická hodnota se vypočítá pro a.
Pokud je hodnota testovací statistiky menší než tato kritická hodnota, zamítáme nulovou hypotézu.
• Pro Hq: fi < fiQ, Hi : fi > fiQ se kritický obor nachází na pravé straně rozdělení testovací statistiky (obrázek 17).
Kritická hodnota se vypočítá pro 1 — a.
Pokud je hodnota testovací statistiky větší než tato kritická hodnota, zamítáme nulovou hypotézu.
115
Statistika a statistické zpracování dat
Oboustranný test (obrázek 18):
Pro H0: j2 = j20, Hi'. ji ý Ak) Je kritický obor rozdělen na dvě části ležící na levé a pravé straně rozdělení (obrázek 17).
Kritické hodnoty se vlevo vypočítají pro a/2 a vpravo pro 1 — a/2.
Pokud je hodnota testovací statistiky menší než první kritická hodnota (vlevo) nebo větší než ta druhá (vpravo), tak zamítáme nulovou hypotézu.
-3-2-10        1 2
t
Obr. 16: Jednostranný test s kritickým oborem (vlevo): (—oo, —2) a akceptačním oborem: (-2; oo)
Obr. 17: Jednostranný test s kritickým oborem (vpravo): (2; oo) a akceptačním oborem: (—oo; 2)
Chyby testování
Při testování hypotéz mohou nastat dvě základní chyby (viz také tabulka 4):
Testování statistických hypotéz
116
-3-2-10        1 2
t
Obr. 18: Oboustranný test s kritickým oborem (vlevo a vpravo): (—oo; —2,2) U (2,2; oo) a ak-ceptačním oborem: (—2,2; 2,2)
Chyba prvního druhu (a): K této chybě dochází, když zamítneme nulovou hypotézu, ačkoli je pravdivá. Pravděpodobnost této chyby odpovídá zvolené hladině významnosti (a).
Chyba druhého druhu (/?): K této chybě dochází, když nezamítneme nulovou hypotézu, i když je nepravdivá. Pravděpodobnost této chyby označujeme (3, ale není přímo kontrolována hladinou významnosti.
Tab. 4: Závěry testování hypotéz
	Závěr testu	
Skutečnost	Hq platí	Hq neplatí
Hq platí	správný	chyba I. druhu
Hq neplatí	chyba II. druhu	správný
Síla testu (1 — (3) představuje pravděpodobnost, že správně zamítneme nulovou hypotézu, pokud je nepravdivá. Návrh testů je snaha minimalizovat chyby prvního i druhého druhu (jde o kompromis, nelze minimalizovat obě současně).
Příklad z medicíny:
Při diagnostických testech v medicíně můžeme chyby testování vztáhnout na následující situace (všimněte si, že zde je voleno Hq : pacient nemá danou nemoc, H\: pacient má danou nemoc):
Chyba prvního druhu (falešně pozitivní výsledek): K této chybě dochází, když test indikuje, že pacient má určitou nemoc, přestože je ve skutečnosti zdravý. Tento typ chyby může vést k nesprávnému lékařskému zásahu nebo nadbytečným vyšetřením a stresu pacienta.
117
Statistika a statistické zpracování dat
Chyba druhého druhu (falešně negativní výsledek): K této chybě dochází, když test neodhalí nemoc, i když pacient nemoc má. V tomto případě může být nedostatečné léčení kritické, protože pacient neobdrží potřebnou péči.
Tyto chyby jsou úzce spojené s koncepty citlivosti a specifičnosti diagnostického testu:
Citlivost (senzitivita) testu je pravděpodobnost, že test správně identifikuje nemocné jedince (správně pozitivní výsledky). Vysoká citlivost znamená, že test má nízkou pravděpodobnost chyby druhého druhu (/3), tedy falešně negativních výsledků. Citlivost se vypočítá jako:
^ , Počet správně pozitivních
Citlivost = —-—-— = 1-13.
Počet skutečné nemocných
Specifičnost testu je pravděpodobnost, že test správně identifikuje zdravé jedince (správně negativní výsledky). Vysoká specifičnost znamená, že test má nízkou pravděpodobnost chyby prvního druhu («), tedy falešně pozitivních výsledků. Specifičnost se vypočítá jako:
Počet správně negativních
Specifičnost =      ^---—--—— = 1 — a
Počet skutečné zdravých
V praxi se testy v medicíně navrhují tak, aby bylo dosaženo kompromisu mezi citlivostí a specifičností. Například při screeningu závažných nemocí, kde je lepší „přehnat" pozitivní výsledky a provést dodatečná vyšetření (vysoká citlivost), i za cenu nižší specifičnosti a více falešně pozitivních případů. Na druhou stranu, u testů, kde je důležité minimalizovat zbytečné léčby a intervence, může být preferována vyšší specifičnost.
7.1.4     Kroky při testování hypotézy
Testování statistických hypotéz probíhá v několika krocích:
1. Formulace nulové a alternativní hypotézy: Nejprve si stanovíme hypotézy, které budeme testovat. Nulová hypotéza představuje výchozí předpoklad, zatímco alternativní hypotéza formuluje opačný stav.
2. Výběr vhodného statistického testu: Na základě povahy dat a hypotézy volíme vhodný test, například t-test pro průměry, z-test nebo F-test pro porovnání rozptylů.
3. Stanovení hladiny významnosti: Určíme hladinu významnosti («), nejčastěji 0,05 nebo 0,01. Tato hodnota reprezentuje pravděpodobnost chyby prvního druhu.
4. Výpočet testovací statistiky: Z dat vypočítáme hodnotu příslušné testovací statistiky (t, z, F apod.).
5. Určení kritické hodnoty a rozhodnutí: Porovnáme vypočítanou testovací statistiku s kritickou hodnotou odpovídající zvolené hladině významnosti a rozhodneme, zda nulovou hypotézu zamítneme nebo ne.
Testování statistických hypotéz
118
Použití konkrétních testů si podrobněji popíšeme až v dalších kapitolách. Zde si uvedeme alespoň to základní:
Pravidla pro použití t-testu, z-testu a F-testu
t-test se používá, když:
Velikost vzorku je malá (obvykle n < 30) a neznáme rozptyl populace.
Testujeme hypotézu o střední hodnotě nebo o rozdílu středních hodnot dvou souborů (jednovýběrový, dvouvýběrový nebo párový t-test).
' Data pochází z normálního rozdělení, nebo lze předpokládat jejich normální rozdělení.
Používá rozdělení: Studentovo t-rozdělení o (n-1) stupních volnosti. Typické použití:
Když chceme ověřit, zda je průměrná hodnota výběru statisticky významně odlišná od hypotetické hodnoty (např. průměrná výkonnost strojů).
z-test se používá když:
Velikost vzorku je velká (obvykle n > 30) nebo známe rozptyl populace.
' Testujeme hypotézu o střední hodnotě nebo o proporci (např. procento zákazníků, kteří jsou spokojeni).
' Data mohou pocházet z jakéhokoli rozdělení, protože při velkých vzorcích využíváme přiblížení normálnímu rozdělení (centrální limitní věta).
Používá rozdělení: Normované normální rozdělení. Typické použití:
Když máme velký vzorek a chceme ověřit průměrnou dobu trvání nějakého procesu (např. dobu čekání zákazníků v bance).
119
Statistika a statistické zpracování dat
F-test se používá když:
• Testujeme hypotézu o shodě rozptylů dvou populací.
• Oba výběry pocházejí z normálního rozdělení.
Používá rozdělení: F-rozdělení o (n-1) stupních volnosti. Typické použití:
Když chceme ověřit, zda se liší rozptyl výkonnosti dvou strojů nebo různých skupin.
Řešené příklady
Příklad 7.8 (Testování průměrné doby čekání v bance). Vedení banky, vzhledem k optimalizaci nákladů, předpokládá, že průměrná doba čekání na obsloužení v jejich pobočce by měla být 10 minut. Aby zjistila skutečný stav, tak provede náhodný výběr 35 zákazníků a zjistí, že jejich průměrná doba čekání byla x = 9,5 minut a výběrová směrodatná odchylka s = 2 minuty. Co nám říkají tyto údaje o průměrné době čekání všech zákazníků?
Řešení: Kdyby nám šlo jen o odhad průměrné doby čekání, tak bychom mohli použít intervalový odhad průměru (střední hodnoty). Je tu ale ještě příní vedení banky, aby průměr byl roven 10 minutám. Není tedy vhodné, aby byl statisticky významně vyšší, ale ani nižší. Použijeme tedy oboustranný test. Testování je ilustrováno na obrázku 19).
= 1,96
-3-2-10        1 2
z
Obr. 19: Hustota normálního rozdělení, kritická hodnota a kritická oblast (a = 0,05) pro oboustranný test a hodnota testové statistiky (příklad 7.8)
1. Formulace hypotéz:
Hq : fi = 10   (průměrná doba odpovídá požadavkům vedení), Hi : fi ý 10   (průměrná doba neodpovídá požadavkům vedení).
Testování statistických hypotéz
120
2. Volba testu: Použijeme z-test. Sice neznáme rozptyl populace, ale vzorek je dosatečně velký (n = 35 > 30).
3. Hladina významnosti: Zvolíme hladinu významnosti a = 0,05.
4. Výpočet testovací statistiky:
x — a     9,5 — 10 ^ = -^ = ^—«-1,48.
Vň VŠE
5. Rozhodnutí: Kritické hodnoty pro oboustranný test na hladině významnosti 0,05 získáme pomocí excelovské funkce N0RM. S. INV. Jelikož jde o oboustranný test, tak počítáme kritické hodnoty pro pravděpodobnosti a/2 = 0,025 a 1 — a/2 = 0,975:
z0,o25)=norm.s.inv(o,025 ~= "1,96, ^i975 = NORM.S.INV(0,975) «= 1,96. Tyto kritické hodnoty nám (přibližně) vymezují dvě kritické oblasti: (—00, —1,96) a (1,96, +00) a tzv. akceptační obor (obor nezamítnutí testu) (—1,96; 1,96).
Vidíme, že z = —1,48 spadá do akceptační oblasti, a tak nemůžeme zamítnout nulovou hypotézu.
6. Závěr: Na hladině významnosti 5 % nemáme důkaz, že by se průměrná doba čekání v bance významně lišila od 10 minut. Vedení banky může být spokojené.
□
Příklad 7.9 (Testování průměrné životnosti součástky). Předpokládejme, že jste manažerem firmy, která vyrábí elektronické součástky. Chcete zjistit, zda nový výrobní proces zvýšil průměrnou životnost součástky, která byla dříve 1000 hodin. Z měření na vzorku 30 součástek vyrobených novým procesem máte průměrnou životnost x = 1020 hodin a výběrovou směrodatnou odchylku s = 50 hodin.
Testujte hypotézu na hladině významnosti 0,05, že nový proces zvýšil průměrnou životnost.
Řešení: Výběrový průměr naznačuje, že se průměrná životnost zvýšila. Je ale dost dobře možné, že jde jen o náhodu v tom smyslu, že jsme náhodně vybrali součástky spíš s vyšší životností než je skutečný průměr (střední hodnota) nového celku po změně výrobního procesu. Klidně mohla zůstat (přibližně) stejná nebo mse dokonce zmenšit. Jsme v nejistotě, máme k dispozici jen jeden vzorek. Pomocí testování hypotéz jsme schopni tuto situaci uchopit.
Máme za úkol statisticky ověřit zvýšení průměrné životnosti, v takovém případě se toto vkládá do alternativní hypotézy, zatímco v té nulové ponecháme zbytek možností.
1. Formulace hypotéz:
Hq : // < 1000   (průměrná životnost se nezměnila), Hx-.fi> 1000   (průměrná životnost se zvýšila).
2. Volba testu: Protože neznáme rozptyl populace a máme malý vzorek, použijeme t-test.
3. Hladina významnosti: Zvolíme hladinu významnosti a = 0,05.
121
Statistika a statistické zpracování dat
4. Výpočet testovací statistiky:
x-fi     1020 - 1000 20
t
50
9,13
2,19.
5. Rozhodnutí: Kritickou hodnotu r-rozdělení můžeme v Excelu získat pomocí funkce T.INV2:
T.INV(0,95,29) = 1,699.
Protože t = 2,19 je větší než kritická hodnota 1,699, zamítáme nulovou hypotézu. (Situace je znázorněna na obrázku 20.)
6. Závěr: Nový výrobní proces statisticky významně zvýšil průměrnou životnost součástek.
□
Kritická hodnota t = 1,699
ITest. stat. t = 2,19 a = 0,05
Obr. 20: Hustota t-rozdělení, kritická hodnota a kritická oblast (a = 0,05) pro jednostranný test a hodnota testové statistiky ležící v kritické oblasti (příklad 7.9)
Příklad 7.10 (Testování hmotnosti balení). Firma tvrdí, že nové balení jejího výrobku obsahuje 500 gramů. Abychom to ověřili, náhodně vybereme 16 balení a zjistíme, že průměrná hmotnost je 495 gramů s výběrovou směrodatnou odchylkou 10 gramů. Chceme zjistit, zda balení skutečně obsahují méně než deklarovaných 500 gramů.
Řešení: Opět do alternativní hypotézy vložíme to co chceme ověřit.
1. Formulace hypotéz:
Hq : fi > 500   (průměrná hmotnost odpovídá 500 g), Hi : fi < 500   (průměrná hmotnost je menší než 500 g).
2. Volba testu: Použijeme t-test, protože neznáme rozptyl populace a vzorek je malý.
2T.INV je inverzní funkci k distribuční funkci Studentova t-rozdělení. Funkce T.INV má dva argumenty. Do prvního dosazujeme podle potřeby pravděpodobnost ^, a, 1 — a nebo 1 — ^, druhým argumentem jsou stupně volnosti t-rozdělení.
Testování statistických hypotéz
122
3. Hladina významnosti: Zvolíme hladinu významnosti a = 0,05.
4. Výpočet testovací statistiky:
x-u    495 - 500 -5
t = _ĽĹ = _ = _       = _9
_ž_ J0_ ok
5. Rozhodnutí: Jelikož jde o jednostranný test a jde o vriantu „menší než", tak kritickou hodnotu získáme pro pravděpodobnost 0,05 a kritická oblast bude nalevo od ní. Kritickou hodnotu r-rozdělení můžeme v Excelu získat pomocí funkce T.INV:
T.INV(0,05,15) = -1,753.
Protože t = —2 je menší než kritická hodnota —1,753, zamítáme nulovou hypotézu ve prospěch té alternativní (obrázek 21).
6. Závěr: Na hladině významnosti 5 % máme důkaz, že průměrná hmotnost balení je nižší než 500 gramů (propad hmotnosti je statisticky významný, můžeme žalovat).
□
Obr. 21: Hustota t-rozdělení, kritická hodnota a kritická oblast (a = 0,05) pro jednostranný levostranný test a hodnota testové statistiky (příklad Pr3-3)
7.2    P-hodnota při statistickém testování
V předchozím textu jsme se seznámili s koncepty kritických hodnot, kritického oboru a ak-ceptačního oboru, které používáme při rozhodování, zda zamítnout nebo nezamítnout nulovou hypotézu. Další užitečný přístup k vyhodnocení statistických testů představuje tzv. p-hodnota.
123
Statistika a statistické zpracování dat
Co je p-hodnota?
Definice 7.11. P-hodnota (pravděpodobnostní hodnota) je pravděpodobnost, že při platnosti nulové hypotézy (H0) získáme tak extrémní nebo ještě extrémnější výsledek, než je ten, který jsme pozorovali.
Čím nižší je p-hodnota, tím více je testový výsledek v rozporu s nulovou hypotézou, což nás vede k jejímu zamítnutí.
Nízká p-hodnota (typicky menší než hladina významnosti a, například 0,05) naznačuje, že pozorovaná data jsou nepravděpodobná za předpokladu platnosti nulové hypotézy, a proto ji zamítáme.
Vysoká p-hodnota (větší I16Z Cí) ZIlclIIlGIlcl, Z 6 pOZOľOVcLIlcl delt cl jsou v souladu s nulovou hypotézou, a proto ji nezamítáme.
Jak p-hodnotu vypočítat?
P-hodnota závisí na typu testu, který provádíme, a konkrétním testovém statistickém kritériu (např. t-statistice, F-statistice, z-statistice apod.). Obecně se p-hodnota určuje na základě výběrové hodnoty testového kritéria a její pozice na příslušném rozdělení pravděpodobnosti.
Pokud provádíme jednostranný test (pravostranný), p-hodnota je plocha pod křivkou hustoty pravděpodobnosti od pozorované hodnoty testové statistiky směrem k pravé straně: p-hodnota = P(testová statistika > pozorovaná hodnota testové statistiky | H0). Pokud provádíme oboustranný test, p-hodnota se vypočítá jako dvojnásobek pravděpodobnosti pro tu „bližší" extrémní stranu rozdělení, protože nás zajímají extrémy na obou koncích rozdělení.
Použití p-hodnoty při rozhodování
Když máme p-hodnotu, porovnáváme ji s hladinou významnosti a (např. 0,05):
' Pokud je p-hodnota menší než a, zamítáme nulovou hypotézu H0 ve prospěch alternativní hypotézy H\.
• Pokud je p-hodnota větší nebo rovna a, nulovou hypotézu H0 nemůžeme zamítnout.
Testování statistických hypotéz
124
Shrnutí:
• P-hodnota nám poskytuje míru důkazu proti nulové hypotéze.
' Na rozdíl od přístupu s kritickými hodnotami nám p-hodnota umožňuje zohlednit přesnou míru extrémnosti pozorovaných dat.
Menší p-hodnoty znamenají větší důkaz proti nulové hypotéze.
Výhody použití p-hodnoty
Použití p-hodnoty v praxi má několik výhod oproti testování pomocí kritických hodnot:
P-hodnota poskytuje přesnou míru síly důkazů proti nulové hypotéze, zatímco kritická hodnota pouze stanoví, zda pozorovaný výsledek spadá do zamítací oblasti.
P-hodnota umožňuje porovnat výsledky více testů s různými hladinami významnosti.
Většina statistického softwaru, včetně Excelu, poskytuje p-hodnoty automaticky, což velmi usnadňuje rozhodování.
Výpočet p-hodnoty v Excelu
Excel nabízí několik funkcí pro výpočet p-hodnoty při různých typech testů. Například pro t-test můžeme použít
125
Statistika a statistické zpracování dat
funkci T.TEST, která nám přímo poskytne p-hodnotu pro daný test (nic jiného): T.TEST(maticel,matice2,chvosty,typ),
kde
• maticel a matice2 jsou datové rozsahy,
chvosty určuje, zda se jedná o jednostranný (1) nebo oboustranný (2) test,
> typ určuje typ testu (např. 1 pro párový t-test, 2 pro dvouvýběrový t-test s rovností rozptylů a 3 pro dvouvýběrový t-test s různými rozptyly).
Nebo také doplněk Analýza dat, kde jso stejné tři typy t-testů s názvy
• Dvouvýběrový t-test s rovností rozptylů,
• Dvouvýběrový t-test s nerovností rozptylů,
• Dvouvýběrový párový t-test na střední hodnotu.
P-hodnoty jsou standardní součástí výstupu všech tří variant.
OV této kapitole jsme se věnovali testování statistických hypotéz, což je klíčová metoda statistické analýzy. Nejprve jsme probrali základní pojmy, jako jsou nulová a alternativní hypotéza, hladina významnosti a kritické obory. Dále jsme vysvětlili rozdíl mezi chybou prvního a druhého druhu a zdůraznili význam hladiny významnosti (oj) při minimalizaci těchto chyb.
Kapitola se zaměřila na kroky testování hypotéz, včetně formulace hypotéz, volby vhodného statistického testu (t-test, z-test, F-test), výpočtu testovací statistiky a rozhodnutí na základě porovnání s kritickou hodnotou. Podrobně jsme také rozebrali rozdíly mezi jednostrannými a oboustrannými testy a uvedli příklady, kde jsme demonstrovali správné použití těchto testů a interpretaci výsledků.
Kapitola obsahuje také sekci o p-hodnotách, kde jsme vysvětlili, jak p-hodnota poskytuje alternativní přístup k rozhodování při testování hypotéz. P-hodnota nám umožňuje kvantifikovat míru důkazu proti nulové hypotéze, což nabízí větší flexibilitu než pouhé porovnávání testovací statistiky s kritickou hodnotou. V závěru jsme zmínili možnosti výpočtu p-hodnoty v Excelu a výhody tohoto přístupu.
1. Co je to nulová a alternativní hypotéza a jaký je mezi nimi rozdíl?
2. Jaký je význam hladiny významnosti při testování hypotéz a jak ovlivňuje pravděpodobnost chyby prvního druhu?
3. Co jsou kritický obor a akceptační obor a jaký je jejich význam při rozhodování o zamítnutí nebo nezamítnutí hypotézy?
4. Jaké jsou rozdíly mezi jednostranným a oboustranným testem? Kdy použít který test?
Testování statistických hypotéz
126
5. Co jsou chyby prvního a druhého druhu a jak ovlivňují výsledky testování hypotéz?
6. Jaké kroky zahrnuje postup testování statistických hypotéz?
7. Kdy použijeme t-test, z-test a F-test? Jaké jsou hlavní rozdíly mezi těmito testy?
8. Jakým způsobem můžeme v Excelu vypočítat kritické hodnoty pro t-test a z-test? Uveďte konkrétní funkce.
9. Jaká rozdělení pravděpodobnosti používají t-test, z-test a F-test?
10. Jaký je rozdíl mezi chybným přijetím nulové hypotézy a chybným zamítnutím nulové hypotézy?
11. Jak interpretujeme výsledek, když testovací statistika spadne do akceptačního oboru?
12. Co je to p-hodnota a jaký je její význam při testování statistických hypotéz?
13. Jaký je rozdíl mezi rozhodováním na základě p-hodnoty a kritických hodnot?
14. Jak můžeme v Excelu vypočítat p-hodnotu? Uveďte konkrétní funkce.
Literatura k tématu:
[1] HINDLS, R. Statistika pro ekonomy. 8. vyd. Praha: Professional Publishing, 2007. ISBN 978-80-86946-43-6.
[2] JANÁČEK, J. Statistika jednoduše. Grada, 2022. ISBN 978-80-271-1738-3.
[3] MAREK, L. Statistika v příkladech. 2. vyd. Praha: Kamil Mařík - Professional Publishing, 2015. ISBN 978-80-743-1153-6.
[4] OTIPKA, P., SMAJSTRLA, V. Pravděpodobnost a statistika [online]. 1. vydání. Ostrava: VŠB-TU Ostrava, 2007 [cit. 2024-09-09]. ISBN 80-248-1194-4.
Kapitola 8
Parametrické testy
Po prostudování této kapitoly budete umět:
vysvětlit postup při testování konkrétních statistických hypotéz, • použít parametrické testy v typových úlohách.
O
Klíčová slova:
Parametrický test, hypotézy o rozptylu, hypotézy o střední hodnotě, Studentův test.
Parametrické testy
128
Náhled kapitoly
V této kapitole se zaměříme na parametrické testy, které jsou klíčovým nástrojem při testování hypotéz o parametrech základního souboru. Kapitola navazuje na předchozí témata, kde jsme se zabývali odhady parametrů a základy testování hypotéz. Nyní se hlouběji ponoříme do konkrétních metod, jako jsou jednovýběrový t-test, dvouvýběrový t-test, párový t-test a F-test, které se běžně používají v různých vědních disciplínách. Zvláštní pozornost budeme věnovat podmínkám, za kterých je vhodné tyto testy použít, a důležitým předpokladům, jako je normalita dat a shoda rozptylů.
Cíle kapitoly
Po prostudování této kapitoly by studenti měli být schopni:
• Porozumět principům parametrických testů a jejich využití v praxi.
• Rozlišit mezi různými typy t-testů a F-testem a aplikovat je na reálná data.
• Ověřit předpoklady normality a shody rozptylů před aplikací testů.
• Interpretovat výsledky testů a učinit závěry o statistické významnosti.
Odhad času potřebného ke studiu
Pro zvládnutí této kapitoly doporučujeme věnovat studiu přibližně 6 až 8 hodin. Tento časový odhad zahrnuje čtení teoretických částí, řešení příkladů a procvičování aplikace parametrických testů na různá data. Studenti by měli věnovat dostatek času nejen pochopení teorie, ale také procvičování na příkladech, aby byli schopni správně aplikovat naučené metody v praxi.
8.i    Motivační příklad
Představte si, že pracujete v oddělení kontroly kvality v jedné z velkých pivovarských společností. Vaším úkolem je zajistit, aby každý sud piva měl správný objem. Po modernizaci výrobní linky se objevily pochybnosti, zda nové vybavení skutečně funguje tak, jak má. Byly odebrány vzorky z několika sudů, a vaším úkolem je nyní statisticky ověřit, zda modernizace přinesla požadované výsledky, tedy zda se například nezměnila střední hodnota objemu v jednotlivých sudech.
V první fázi zkontrolujete, zda průměrný objem piva ve vzorcích odpovídá deklarovanému objemu 50 1. To provedete pomocí tzv. jednovýběrového t-testu, který porovná průměrný objem ve vzorcích s očekávanou hodnotou. Dále se budete zabývat otázkou, zda je variabilita objemu mezi srovnávanými vzorky podobná, nebo zda se po modernizaci změnila, což bude vyžadovat použití tzv. F-testu na rozptyly.
Po seznámení se s potřebnou teorií v této kapitole budete moci tyto testy aplikovat na data, která jste získali, a rozhodnout, zda modernizace výrobní linky byla úspěšná, nebo zdaje nutné provést další úpravy.
129
Statistika a statistické zpracování dat
K tomuto příkladu se vrátíme na konci kapitoly, až budeme mít k dispozici zmíněné metody.
8.2 Úvod
Již víme, že pomocí statistické indukce můžeme učinit závěry o populaci na základě výběrového souboru z této populace. V předcházejících kapitolách jsme se zabývali problémem, jak odhadnout prostřednictvím bodového, popř. intervalového odhadu neznámý parametr populace. V této kapitole se zaměříme na testování hypotéz o těchto parametrech.
Parametrické hypotézy jsou tvrzení o parametrech rozdělení v populaci (např. střední hodnota, rozptyl). Tyto hypotézy můžeme formulovat různými způsoby, například jako rovnost určitého parametru s konkrétní hodnotou (např. „průměrný objem piva ve všech sudech je 50 1") nebo jako rovnost mezi parametry dvou různých populací (např. „rozptyly objemu piva ve dvou různých výrobních šaržích jsou stejné").
Parametrické testy jsou statistické testy, které se používají k ověření těchto parametrických hypotéz. Abychom mohli použít parametrický test, musíme předpokládat určité vlastnosti rozdělení dat, například že data pocházejí z normálního rozdělení. Parametrické testy jsou tedy úzce spojeny s parametrickými hypotézami, protože slouží k jejich testování na základě vzorků dat.
V této kapitole se naučíme používat různé parametrické testy, například Studentův t-test pro testování hypotéz o střední hodnotě a F-test pro testování hypotéz o rozptylu. Každý z těchto testů nám pomůže rozhodnout, zda můžeme přijmout nebo zamítnout danou hypotézu o populaci na základě analýzy vzorku.
Druhy parametrických hypotéz
Můžeme se setkat se třemi základními typy parametrických hypotéz:
1. Hypotézy o parametru jedné populace (např. střední hodnota, medián, rozptyl, relativní četnost, ...).
2. Hypotézy o parametrech dvou populací (např. srovnávání středních hodnot nebo rozptylů mezi dvěma skupinami).
3. Hypotézy o parametrech více než dvou populací (např. analýza rozptylu ANOVA, ...).
Parametrické testy
130
Kapitola vás provede nejen základními teoriemi, ale také ukázkami aplikace parametrických testů na praktických příkladech.
8.3    Hypotézy o rozptylu
8.3.1     Test významnosti rozdílu dvou rozptylů (F-test) Úvod
Při testování statistických hypotéz často potřebujeme zjistit, zda existuje rozdíl mezi rozptylem dvou různých skupin. F-test je nástroj, který nám umožňuje tento rozdíl posoudit. V této části se zaměříme na F-test pro porovnání rozptylů dvou souborů dat, například výsledků běhu chlapců a dívek na 50 metrů.
Předpoklady
Jsou dány dva výběry o rozsazích n\ a n2 s výběrovými rozptyly s\ a s2, vybrané ze dvou základních souborů s rozděleními N(fii,af) a ÍV(/í2> °"|)? j ej ichž parametry neznáme.
• Nulová hypotéza: H0 : o\ = a2.
• Alternativní hypotéza:      H\ : o\ ý <*\-
Testovací statistika
Testovací statistika		
	F =	bi
kde		
sf a, s2 jsou výběrové	rozptyly pro tyto	soubory,
má Fisherovo-Snedecorovo	rozdělení F(ni -	l,n2 — 1), kde n\ a n2 jsou velikosti dvou
výběrových souborů.		
131
Statistika a statistické zpracování dat
Závěr pro oboustranný test
Jestliže
F < - l,n2 - 1)   nebo   F > - 1,n2 - 1),
potom zamítáme hypotézu iJ0 (ve prospěch Hi).
Závěr pro jednostranné testy
Jestliže
F > Fi_a(ni - l,n2 - 1), potom zamítáme hypotézu iJ0 (ve prospěch Hi).
H0:al>al    Hx: a\ < o\ Jestliže
F < Fa(ni - l,n2 - 1), potom zamítáme hypotézu H0 (ve prospěch iJi).
Příklad 8.1. Byly sledovány výsledky běhu na 50 m (ve vteřinách) u skupiny desetiletých chlapců (tabulka 6) a dívek (tabulka 5). Posuďte získané výsledky z hlediska vyrovnanosti výkonů v jednotlivých skupinách.
Tab. 5: Výsledky běhu na 50 m (ve vteřinách) u skupiny dívek
1	2	3	4	5	6	7	8	9	10	11	12	13	14
10,70	10,80	10,00	10,60	9,20	10,20	9,90	10,00	9,30	10,20	9,80	10,00	10,00	11,00
15	16	17	18	19	20	21	22	23	24	25	26	27	28
12,00	10,00	10,00	11,20	9,40	10,70	9,30	10,10	9,10	10,20	9,30	10,00	9,40	10,90
Řešení: Hladinu významnosti zvolíme a = 0,05. Určíme potřebné charakteristiky u obou skupin:
m = 28,    s\ = 0,4689   (dívky),    n2 = 33,    s22 = 0,3405 (chlapci).
Parametrické testy
132
Tab. 6: Výsledky běhu na 50 m (ve vteřinách) u skupiny chlapců
1	2	3	4	5	6	7	8	9	10	11	12	13	14	15	16	17
10,80	9,30	9,40	9,90	10,20	9,30	9,40	8,90	9,60	9,70	10,60	9,40	9,50	9,60	10,00	9,30	9,40
18	19	20	21	22	23	24	25	26	27	28	29	30	31	32	33	
9,40	8,40	9,80	8,80	9,20	9,50	9,80	9,00	10,50	9,40	9,30	9,90	9,10	9,60	8,70	8,10	
Určíme hodnotu testovací statistiky:      F = —~
0,4689 0,3405
1,3771.
Kritické hodnoty (můžeme je vypočítat i v Excelu pomocí předdefinované funkce F.INV): ^o,025(27, 32) = F. INV(0,025; 27; 32) « 0,4722,   F0i975(27, 32) = F. INV(0,975; 27; 32) « 2,0689. Hodnota testovací statistiky leží mezi kritickými hodnotami, tudíž leží v oboru akceptace nulové hypotézy. Takto tedy nemůžeme zamítnout nulovou hypotézu H q. To znamená, že mezi rozptyly není statisticky významný rozdíl. □
8.4
Hypotézy o střední hodnotě
8.4.1     Jednovýběrový t-test Úvod
Jednovýběrový t-test se používá k ověření, zda průměrná hodnota v základním souboru (populaci) fi se rovná konkrétní hypotetické hodnotě /x0, a to na základě údajů získaných z výběrového souboru.
Předpoklady
Předpokládáme, že máme výběr ze základního souboru, který má normální rozdělení N(fi, a2) Výběr má rozsah n, výběrový průměr x a výběrový rozptyl s2.
Je třeba odlišit, že fi a a2 jsou neznámé parametry základního souboru, zatímco x a s2 jsou výběrové charakteristiky.
• Nulová hypotéza: Hq: fi = //q,
• Alternativní hypotéza:       H\ \ fi ^ fiQ.
133
Statistika a statistické zpracování dat
Testovací statistika
Testovací statistika T _ kde
• x je výběrový průměr,
/j,0 je hypotetická hodnota průměru podle nulové hypotézy,
• s je výběrová směrodatná odchylka,
• n je velikost výběrového souboru,
má Studentovo t-rozdělení s n — 1 stupni volnosti.
Závěr pro oboustranný test
1 H0: /i = /i0,    Hi \ /i ý Ak)	
Jestliže	
T < ts.(n -2 v	1)   nebo   T>ŕi_|(n —1),
potom zamítáme hypotézu Hq	(ve prospěch Hi).
Závěr pro jednostranné testy
	
Jestliže	T > ŕi_a(n - 1),
potom zamítáme hypotézu H0	(ve prospěch Hi).
• H0: /2> /20,    Hi: /2 < /x0	
Jestliže	T<ta(n-1),
potom zamítáme hypotézu Hq	(ve prospěch Hi).
Poznámka 8.2. Vzhledem k tomu, že Studentovo rozdělení je symetrické kolem nuly, tak t°L(n— 1) = — íi_s(n — 1). Výše uvedené nerovnosti se dají formulovat pro |T|, přičemž používají
Parametrické testy
134
už jen ía(n — 1), resp. ta(n — 1).
Příklad 8.3. V pivovaru došlo k opravě plnící linky. Na hladině významnosti a = 0,05 ověřte, zda se oprava zdařila, tj., zda linka plní do lahví pivo o objemu 500 ml. Výsledky u vybraných vzorků (v mililitrech) jsou uvedeny v tabulce 7.
Tab. 7: Výsledky u vybraných vzorků objemu piva (v mililitrech)
495,2	496,8	502,1	498,5	501	503
501,5	501,8	499,1	500,9	502,2	501,7
500,2	501	499,9	500,2	501,1	500,8
500,7 500,4 499,3
Řešení: Formulace hypotéz:
Na základě hypotetické hodnoty //q = 500 ml formulujeme následující hypotézy:
. H0: fi = 500, . Hx\\i± 500.
Výpočet základních charakteristik:
Z poskytnutých dat vypočteme následující výběrové charakteristiky:
n = 21,   x = 500,3571 ml,   s = 1,77806 ml.
Testovací statistika:
= 500,3571 - 500
A 1,77806 u,o»o.
Kritická hodnota (vypočteme např. v Excelu pomocí funkce T.INV):
ío,025(20) = T.INV(0,025; 20) « -2,08596,      í0,975(20) = T.INV(0,975; 20) « 2,08596.
Závěr:
Protože hodnota testovacího kritéria je mezi kritickými hodnotami, tak nemůžeme zamítnout nulovou hypotézu. Můžeme tedy konstatovat, že možná odchylka není statisticky významná. Šéfovi oznámíme, že oprava plnící linky byla úspěšná a linka plní lahve správně. □
135
Statistika a statistické zpracování dat
8.4.2     Dvouvýběrový t-test Úvod
Dvouvýběrový t-test se používá k porovnání středních hodnot dvou základních souborů, na základě dvou nezávislých výběrů z těchto souborů. Budeme rozlišovat dva případy, při rovnosti rozptylů [a\ = cr|) klasický dvouvýběrový t-test a při nerovnosti rozptylů [a\ ý tzv. Welchův t-test.
Předpoklady:
Předpokládáme, že oba základní soubory mají normální rozdělení N(fii,af) a N(fi2,a2).
Máme k dispozici dva nezávislé výběry o rozsazích n\ a n2, jejichž výběrové průměry označíme xi a x2, a výběrové rozptyly sf a s2,.
• Nulová hypotéza: H0: //i = fJ>2,
• Alternativní hypotéza:       H\ \ fi± ^ fi2.
Testová statistika (<j\ = al)
Testová statistika pro případ stejných rozptylů [a\ = a2) (což lze prověřit pomocí F-testu):
X\ —	X2	
I (n1-l)sl + (n2-		1 ni-n2
Y ni+n2-2		y n1+n2
kde
• Xi a x2 jsou výběrové průměry,
• Sj a    jsou výběrové rozptyly,
1 ni a n2 jsou velikosti výběrových souborů,
má Studentovo t-rozdělení s n\ + n2 — 2 stupni volnosti.
Parametrické testy
136
Závěr (<j\ = al)
Pokud absolutní hodnota testovacího kritéria \T\ překročí kritickou hodnotu ŕi_|(ni + n2 — 2), zamítáme nulovou hypotézu Hq.
Testová statistika (<j\ ^ a\)
Testová statistika pro případ, že rozptyly obou základních souborů jsou rozdílné (což lze prověřit pomocí F-testu),
X\ —	x2
	„2
Ji -	
V «i	n2
kde
• Xi a x2 jsou výběrové průměry,
• Sj a    jsou výběrové rozptyly,
• íí! a n2 jsou velikosti výběrových souborů,
má přibližně Studentovo t-rozdělení, jehož počet stupňů volnosti se odhaduje pomocí
(~)    i ("ä)
n\ — 1 rí2 —1
K určení kritických hodnot se pak používá toto přibližné t-rozdělení s tímto počtem stupňů volnosti.
Závěr {aj ^ a22)
Jestliže |T| překročí kritickou hodnotu r1_«((if), zamítáme nulovou hypotézu H0.
Použití dvouvýběrového t-testu
Dvouvýběrový t-test používáme například k ověřování následujících hypotéz:
• Pocházejí dva vzorky z téhož základního souboru?
Nedopustili jsme se při dvou měřeních, jejichž výsledkem bylo určení dvou středních hodnot x1,x2, systematických chyb?
137
Statistika a statistické zpracování dat
Má určitý faktor vliv na zkoumaný argument? Zde zkoumáme dva vzorky - jeden při působení daného faktoru, druhý bez jeho působení.
Příklad 8.4. Odběratel dostává zářivky od dvou dodavatelů. Při hodnocení kvality zářivek se sleduje také počet zapojení, který snesou zářivky bez poškození. Zkoušky výrobků vedly k těmto výsledkům:
• Dodavatel A: 2139, 2041, 1968, 1903, 1952, 1980, 2089, 1915, 2389, 2163, 2072, 1712, 2018,
■ Dodavatel B: 1947, 1602, 1906, 2031, 2072, 1812, 1942, 2074, 2132
Ověřte hypotézu, že kvalita obou dodávek je stejná. Hladinu významnosti volte a = 0,05.
Řešení: V Excelu vypočteme charakteristiky obou souborů:
. ni = 15,   ľči = 1998,8,   s\ = 27262,17, . n2 = 9,   x2 = 1946,4,   s| = 26498,52.
Nejdříve provedeme F-test. Testovací statistika:   F =     = 26498'52 ~ 1,0288. Kritické hodnoty:
^0,025(14; 8) = F.INV(0,025; 14; 8) « 0,3044,   Foi975(14; 8) = F.INV(0,975; 14; 8) « 4,1297
Hypotézu o shodě rozptylů o\ = o\ nemůžeme zamítnout. Použijeme tedy dvouvýběrový t-test pro rovnost rozptylů:
Testovací statistika:
1792, 1849
T
Xi — x2
1998,8 - 1946,4
0,7559.
Kritická hodnota:
T.INV(0,975;22) « 2,
074.
Závěr:
Testovací kritérium nepřekročilo kritickou hodnotu, h0 : jii = jj,2 nemůžeme zamítnout. Kvalita obou dodávek nevykazuje významné statistické rozdíly. □
Parametrické testy
138
8.4.3     Párový t-test Úvod
Párový t-test se používá k porovnání dvou středních hodnot ze závislých výběrů, které jsou spárovány. To znamená, že každý prvek v prvním výběru xľi má odpovídající prvek v druhém výběru x2i. Tyto páry (xu,x2,j) jsou často výsledkem opakovaných měření na stejném subjektu nebo měření za různých podmínek.
Předpoklady
Předpokládáme, že oba základní soubory mají normální rozdělení s parametry fii, o\ a fi2, <*\-Rozsah obou výběrů je stejný, označíme ho n.
Když přejdeme z párů hodnot na jejich rozdíl di = x u — x2i, kde d označíme střední hodnotu této nové veličiny, tak můžeme nulovou hypotézu o rovnosti středních hodnot fiľ a fi2 přeformulovat na d = 0:
Nulová hypotéza: H0: d = 0,
Alternativní hypotéza:       H\: d ^ 0.
Výběrový průměr rozdílů d se vypočítá jako: d =    1    = ——---.
Testovací statistika
Testovací statistika se vypočte jako
i i
Sd
kde Sd je výběrová směrodatná odchylka rozdílů d,n vypočtená jako
Sd
n — 1
Statistika T má při platnosti nulové hypotézy Studentovo t-rozdělení s n — 1 stupni volnosti.
Závěr
Jestliže absolutní hodnota testovacího kritéria |T| překročí kritickou hodnotu ti_^(n — 1), zamítáme nulovou hypotézu Hq ve prospěch alternativní hypotézy H\.
139
Statistika a statistické zpracování dat
Příklad 8.5. Stanovení thiokyanového iontu (SCN~) bylo paralelně provedeno dvěma metodami (Aldridge a Barker) na 12 vzorcích (tabulka 8). Srovnejte obě metodiky otestováním výsledků. Hladina významnosti a = 0,05.
Tab. 8: Výsledky stanovení thiokyanového iontu
	1	2	3	4	5	6	7	8	9	10	11	12
Aldridge	0,38	0,56	0,45	0,49	0,38	0,41	0,6	0,36	0,26	0,41	0,43	0,4
Barker	0,39	0,58	0,44	0,52	0,41	0,45	0,59	0,37	0,28	0,42	0,42	0,38
Řešení: Nejprve vypočteme rozdíly di = Xu — x2i pro každý pár měření (tabulka 9):
Tab. 9: Rozdíly di hodnoty thiokyanového iontu
	1	2	3	4	5	6	7	8	9	10	11	12
Aldridge	0,38	0,56	0,45	0,49	0,38	0,41	0,6	0,36	0,26	0,41	0,43	0,4
Barker	0,39	0,58	0,44	0,52	0,41	0,45	0,59	0,37	0,28	0,42	0,42	0,38
di	-0,01	-0,02	0,01	-0,03	-0,03	0,04	0,01	-0,01	-0,02	-0,01	0,01	0,02
Z těchto rozdílů vypočítáme výběrový průměr d a směrodatnou odchylku sď-
-    J2idi -0,12
d = =-— = -0,01.
n 12
Směrodatná odchylka:      = 0,018257.
Testovací statistika: _
dJň~    -0,01 • \fYÍ
t =        = —---— « 1,8166.
sd 0,018257
Kritická hodnota:
ío,975(ll) = T.INV(0,975; 11) « 2,201.
Závěr:
Testovací kritérium nepřekročilo kritickou hodnotu, tudíž nemůžeme zamítnout nulovou hypotézu Hq. Obě metodiky dávají přibližně stejné výsledky, bez statisticky významných rozdílů. □
Parametrické testy
140
OV této kapitole jsme se podrobně zabývali parametrickými testy, které se používají k testování hypotéz o parametrech základního souboru. Zaměřili jsme se na základní typy parametrických testů, jako jsou testy hypotéz o střední hodnotě, rozptylu a na srovnávání středních hodnot mezi dvěma závislými i nezávislými výběry.
Představili jsme nejčastěji používané testy, jako je jednovýběrový t-test, dvouvýběrový t-test, párový t-test a F-test, a diskutovali jsme předpoklady, které musí být splněny pro správné použití těchto testů. Tyto předpoklady zahrnují normalitu rozdělení dat, shodu rozptylů a specifické požadavky na závislost dat ve výběrech.
Kapitola také obsahuje praktické příklady aplikace parametrických testů v různých oblastech, jako je ekonomie, medicína a další vědní disciplíny. Tím jsme poskytli ucelený přehled o tom, jak využívat parametrické testy pro statistické analýzy v různých kontextech.
1. Co jsou parametrické testy a jaký je jejich účel?
2. Jaké jsou základní předpoklady pro použití parametrických testů? Proč je důležité ověřit normalitu dat a shodu rozptylů?
3. Vysvětlete rozdíl mezi jednovýběrovým t-testem a dvouvýběrovým t-testem. Uveďte příklady, kdy byste každý z těchto testů použili.
4. Co je párový t-test a v jakých situacích je vhodné jej použít? Jaký je rozdíl oproti dvouvýběrovému t-testu?
5. Jaký je účel F-testu a kdy se používá? Jaké předpoklady musí být splněny pro správné použití F-testu?
6. Jak interpretujeme výsledky parametrických testů? Co znamená zamítnutí nebo přijetí nulové hypotézy?
7. Uveďte příklady praktických aplikací parametrických testů v různých oblastech, jako je ekonomie, medicína nebo průmysl.
8. V tabulce jsou uvedeny výsledky měření tlaku v pneumatikách před a po opravě. Použijte párový t-test k ověření, zda došlo ke statisticky významné změně tlaku po opravě na hladině významnosti a = 0,05.
Před opravou	32,5	31,8	33,2	32,0	31,5	33,0	32,3	31,7
Po opravě	32,2	31,9	33,0	31,8	31,6	32,9	32,4	31,8
[p-hodnota = 0,029, změna je statisticky významná]
9. Ověřte pomocí dvouvýběrového t-testu, zda existuje statisticky významný rozdíl mezi průměrnými platy dvou skupin zaměstnanců ve firmě. Data pro obě skupiny jsou uvedena v tabulce. Hladinu významnosti zvolte a = 0,05.
Skupina A	45,000	48,000	46,500	47,200	44,800	45,900
Skupina B	50,200	49,500	51,000	48,800	50,100	49,900
[p-hodnota = 0,014, statisticky významný rozdíl existuje]
10. Použijte F-test k porovnání rozptylů výsledků dvou testovacích metod, které byly použity na stejném souboru vzorků. Data jsou uvedena v tabulce. Ověřte hypotézu o shodě rozptylů na hladině významnosti a = 0,05.
141
Statistika a statistické zpracování dat
Metoda 1	8,5	8,3	8,6	8,4	8,7	8,5
Metoda 2	8,1	8,4	8,3	8,2	8,5	8,3
[p-hodnota = 0,065, hypotéza o shodě rozptylů nezamítnuta]
Literatura k tématu:
[1] HINDLS, R. Statistika pro ekonomy. 8. vyd. Praha: Professional Publishing, 2007. ISBN 978-80-86946-43-6.
[2] JANÁČEK, J. Statistika jednoduše. Grada, 2022. ISBN 978-80-271-1738-3.
[3] MAREK, L. Statistika v příkladech. 2. vyd. Praha: Kamil Mařík - Professional Publishing, 2015. ISBN 978-80-743-1153-6.
[4] OTIPKA, P., SMAJSTRLA, V. Pravděpodobnost a statistika [online]. 1. vydání. Ostrava: VŠB-TU Ostrava, 2007 [cit. 2024-09-09]. ISBN 80-248-1194-4.
Kapitola 9
Neparametrické testy
Po prostudování této kapitoly budete umět:
• vysvětlit principy neparametrických testů,
• aplikovat neparametrické testy na různé úlohy,
porovnat výhody a nevýhody parametrických a neparametrických testů.
Klíčová slova:
Neparametrický test, Kolmogorovův-Smirnovův test pro jeden výběr, Kolmogorovův-Smirnovův test pro dva výběry, Chi-kvadrát test dobré shody, Dixonův test extrémních hodnot.
143
Statistika a statistické zpracování dat
Náhled kapitoly
Tato kapitola se zaměřuje na neparametrické testy, které jsou vhodné pro analýzu dat bez předpokladu specifického tvaru rozdělení. Návaznost na předchozí kapitoly o parametrických testech a statistické analýze poskytuje studentům hlubší vhled do rozdílů mezi oběma přístupy. Kapitola obsahuje ukázku jen vybraných neparametrických testů, jako je například Kolmogorovův-Smirnovův a chi-kvadrát test dobré shody.
Cíle kapitoly
Studenti by po prostudování kapitoly měli být schopni:
' Rozlišit mezi parametrickými a neparametrickými testy, Vybrat vhodný test v závislosti na povaze dat a předpokladech, Správně aplikovat a interpretovat výsledky neparametrických testů.
Odhad času potřebného ke studiu
Pro zvládnutí této kapitoly je doporučeno věnovat studiu přibližně 3 hodiny. Tento čas zahrnuje čtení textu, pochopení základních principů neparametrických testů, analýzu příkladů a samostatné řešení kontrolních otázek a příkladů.
Úvod
Neparametrické testy jsou nedílnou součástí statistických metod, které jsou využívány při analýze dat, kdy není možné nebo vhodné předpokládat určité rozdělení dat. Zatímco parametrické testy vyžadují specifické předpoklady o rozložení dat, neparametrické testy jsou univerzálnější a méně omezené těmito předpoklady. Jsou obzvláště užitečné v případech, kdy data vykazují asymetrie, odlehlé hodnoty nebo když nelze předpokládat normální rozdělení.
Tyto typy testů mají nižší sílu (tedy schopnost správně zamítnout ve skutečnosti neplatnou nulovou hypotézu) než testy parametrické, mají vyšší tendenci „nezamítnout" nulovou hypotézu (v hraničních případech - kdy je testové kritérium velmi blízké kritické hodnotě - mohou vést k nezamítnutí nulové hypotézy, zatímco parametrický test pro stejná data nulovou hypotézu zamítne). Pro stejnou sílu testu je nutná větší velikost výběru než u parametrických testů. Tyto testy mají širší použití než parametrické (lze testovat většinou i ZS hodnot slovních znaků, především ordinálních, tj. rozlišujících dle relace (např. pořadové testy), některé dokonce i pro hodnoty nominálních znaků, tj. zařazujících jen do skupin. Neparametrické testy jsou nezávislé na rozdělení a na přítomnosti extrémních hodnot a vhodné pro malé výběry. Rovněž všechny obvyklé parametrické testy mají své neparametrické „obdoby".
Neparametrické testy
144
9.1    Kolmogorovův-Smirnovův test dobré shody pro jeden výběr
Předpoklady
Pozorování: Výsledky pozorování jsou roztříděny do k skupin. V každé skupině je zjištěna empirická četnost /ej.
Modelové rozdělení: Předpokládáme určité teoretické rozdělení, které budeme považovat za model pro náš výběr.
Teoretické četnosti: Pro každou třídu určíme teoretické, očekávané četnosti fDi pro i = 1,..., k.
Kumulativní četnosti: Stanovíme kumulativní četnosti pro empirické rozdělení Nei a teoretické očekávané rozdělení NDi pro i = 1,..., k.
Nulová hypotéza
Hq : Základní soubor má očekávané rozložení.
Jinými slovy, nulová hypotéza předpokládá, že rozdíl mezi empirickým rozdělením vzorku a teoretickým (očekávaným) rozdělením je pouze náhodný a nevelký. Test tedy zjišťuje, zda existuje statisticky významný rozdíl mezi těmito dvěma rozděleními, který by vedl k zamítnutí této nulové hypotézy.
Testovací statistika
D± =—max\Nei - Noi\,    i = l,...,k. iv *
Speciální rozložení: Tato veličina D\ má speciální rozložení, jehož kritické hodnoty jsou tabelovány pro N < 40.
Přibližné vzorce pro N > 40: Kritické hodnoty se pro větší výběry počítají pomocí přibližných vzorců.
145
Statistika a statistické zpracování dat
Kritické hodnoty
' Pro hladinu významnosti a	= 0,05 je	kritická hodnota:	£>l;0,05(W) =	1,36 y/N'
• Pro hladinu významnosti a	= 0,01 je	kritická hodnota:	£l;O,Ol(A0 =	1,63
Závěr
Zamítnutí hypotézy: Pokud platí D\ > Di-a, zamítneme nulovou hypotézu Hq
Příklad 9.1. Je dán statistický soubor:
i	1	2	3	4	5	6	7	8	9	10	11	12
obsah AI2O3	8-9	9-10	10-11	11-12	12-13	13-14	14-15	15-16	16-17	17-18	18-19	19-20
fei	2	5	7	19	52	57	72	61	19	14	4	1
Na hladině významnosti 5 % otestujte hypotézu, že soubor má normální rozdělení.
Řešení: Úlohu vyřešíme pomocí Kolmogorovova-Smirnovova testu pro jeden výběr. Nejdříve vypočteme příslušné charakteristiky, tj. parametry normálního rozdělení - střední hodnotu a rozptyl.
Střední hodnota:
1 4417 5
m = —yXifi = = 14,11342.
N ^ lH 313
Rozptyl:
n2 = n2
12
1 h2
1050,224 313
12
3,272014.
V tomto vzorci pro rozptyl je n2 = jj J2(xí — m)2fí základní výpočet rozptylu a ň2 je upravený odhad rozptylu, který zohledňuje šířku třídy (h), což je šířka intervalu (ze zadání je vidět, že šířka intervalů je vždy 1, tedy h = 1). Korekce ^ kompenzuje nepřesnosti způsobené předpokladem, že všechny hodnoty v třídě jsou soustředěny kolem středu třídy.
Směrodatná odchylka:   s = ^3,272014 = 1,808871.
Pomocí parametrů normálního rozdělení lze vypočítat očekávané četnosti foi.
Neparametrické testy
146
Na ukázku uvedeme výpočet fQ\.
fol = N ■ P(8 < X < 9) = 313 • (F(9) - F(8)) = (v Excelu)
= 313 (N0RMDIST(9; 14,11342; 1,808871; 1) - NORMDIST(8; 14,11342; 1,808871; 1)) = 0,6220961.
Zbylé očekávané četnosti vypočteme analogicky, viz následující tabulku:
i	obsah AI2O3	fot	fei
1	8-9	0,6220961	2
2	9-10	2,8580712	5
3	10-11	9,7422953	7
4	11-12	24,64009	19
5	12-13	46,25248	52
6	13-14	64,446882	57
7	14-15	66,661732	72
8	15-16	51,187338	61
9	16-17	29,176478	19
10	17-18	12,343305	14
11	18-19	3,8750334	4
12	19-20	0,9025231	1
Dále stačí dopočítat kumulativní četnosti a testovací kritérium:
i	obsah AI2O3	fei	fot	Net	Not	N ■ - N ■
1	8-9	2	0,6220961	2	0,6220961	1,3779039
2	9-10	5	2,8580712	7	3,4801673	3,5198327
3	10-11	7	9,7422953	14	13,2224626	0,7775374
4	11-12	19	24,64009	33	37,8625526	-4,8625526
5	12-13	52	46,25248	85	84,1150326	0,8849674
6	13-14	57	64,446882	142	148,5619146	-6,5619146
7	14-15	72	66,661732	214	215,2236466	-1,2236466
8	15-16	61	51,187338	275	266,4109846	8,5890154
9	16-17	19	29,176478	294	295,5874626	-1,5874626
10	17-18	14	12,343305	308	307,9307676	0,0692324
11	18-19	4	3,8750334	312	311,805801	0,194199
12	19-20	1	0,9025231	313	312,7083241	0,2916759
Testovací kritérium:
Di = — max \Nei - Na, iv *
,5890154 313
0,02744.
147
Statistika a statistické zpracování dat
Kritická hodnota (a = 0,05):
£>1;0,05(W)
1,36
0,076872.
Testovací kritérium nepřekročilo kritickou hodnotu,
Dl = 0,02744<0,076872 = D a tak hypotézu o normalitě souboru dat nezamítáme.
□
9.2    Kolmogorovův-Smirnovův test dobré shody pro dva výběry
Předpoklady
U dvou výběrových souborů s rozsahy ri\ a n2 bylo provedeno roztřídění do k skupin a zjištěny kumulativní třídní četnosti pro každou třídu: Nij a N2j.
Nulová hypotéza
Hq : Oba výběrové soubory mají totéž rozložení (pocházejí tedy z téhož základního souboru).
Testovací statistika
D2 = max | iVi j - N2A,   j = 1,... ,k, j
má speciální rozložení, jehož kritické hodnoty se určují podle velikosti n\ a n2:
1. Pro případ n\ = n2 < 40 se kritické hodnoty vyčtou z příslušných tabulek (zde v tabulce 10).
2. Pro případ n\ > 40 a n2 > 40 (i různě velké) se kritické hodnoty počítají podle vzorců.
' Pro p = 0, 05
1,36 •
■ Pro p = 0,01
Neparametrické testy
148
Tab. 10: Kritické hodnoty D2 pro Kolmogorovův-Smirnovův test dobré shody pro dva výběry
n	p = 0,05	p = 0,01	n	p = 0,05	p = 0,01	n	p = 0,05	p = 0,01
5	5	6	15	8	9	25	10	12
6	5	6	16	8	10	26	10	12
7	6	6	17	8	10	27	10	12
8	6	7	18	9	10	28	11	13
9	6	7	19	9	10	29	11	13
10	7	8	20	9	11	30	11	13
11	7	8	21	9	11	35	12	14
12	7	8	22	9	11	40	13	16
13	7	9	23	10	11			
14	8	9	24	10	12			
Závěr
Jestliže D2 > D2.p(ni,n2), zamítneme nulovou hypotézu H0.
Příklad 9.2. Ve dvaceti vybraných závodech byly zkoušeny dva typy filtrů odpadních vod. Bylo zjišťováno, jaké procento nečistot filtr zadrží, a to tak, že nejprve byly instalovány filtry 1. typu a po určité době filtry 2. typu. Výsledky jsou v tabulce:
Množství zadržených nečistot (v %)	10	20	30	40	50	60	70
	1	2	3	8	5	1	0
	0	2	3	2	3	7	3
Zjistěte, jestli se porovnávané filtry kvalitativně liší.
Řešení: H0: Dva základní soubory mají totéž rozdělení (porovnávané filtry se kvalitativně neliší). Volíme hladinu významnosti p = 0,05.
Množství zadržených nečistot (v %)					\Nij-N2J\
10	1	0	1	0	1
20	2	3	3	2	1
30	3	3	6	5	1
40	8	2	14	7	7
50	5	3	19	10	9
60	1	7	20	17	3
70	0	3	20	20	0
149
Statistika a statistické zpracování dat
Z tabulky vidíme, že n\ = n2 < 40, tudíž testovací kritérium:
D2 = max liVi- N2 A = 9.
Kritická hodnota:
^0,05(20) = 9.
Závěr: D2 = -D2;o,05(20) = 9, zamítneme Hq. Filtry se kvalitativně liší. □
9.3    Chi-kvadrát test dobré shody
Předpoklady
Chi-kvadrát test dobré shody se používá ke zjištění, zda empirické rozdělení dat odpovídá očekávanému teoretickému rozdělení. Předpokládáme, že máme data rozdělená do k kategorií s pozorovanými četnostmi O i a teoretickými (očekávanými) četnostmi Ei.
Nulová hypotéza
Hq : Empirické rozdělení dat se neliší od očekávaného teoretického rozdělení (dobrá shoda).
Testovací statistika
Testovací statistika se vypočítá podle vzorce:
2 {Q i P'i
x =2^
■ i E,: 1=1 1
kde Oi jsou pozorované četnosti a Ei jsou očekávané četnosti.
Testovací statistika sleduje rozdělení \2 s k — 1 stupni volnosti. Kritické hodnoty pro různé hladiny významnosti lze nalézt v tabulkách %2-rozdělení.
Neparametrické testy
150
Závěr
Pokud testovací statistika \2 prekročí kritickou hodnotu pro zvolenou hladinu významnosti, zamítáme nulovou hypotézu, což znamená, že mezi empirickým a teoretickým rozdělením je statisticky významný rozdíl.
Příklad 9.3. V tabulce jsou uvedeny pozorované a očekávané četnosti pro určité rozdělení. Použijte chi-kvadrát test dobré shody ke zjištění, zda existuje statisticky významný rozdíl mezi pozorovanými a očekávanými hodnotami na hladině významnosti a = 0,05.
Kategorie	1	2	3
Pozorované četnosti	25	30	45
ot			
			
Očekávané četnosti E,j_	20	35	45
Zjistěte, zda existuje dobrá shoda mezi pozorovanými a očekávanými četnostmi.
Řešení: H0: Empirické rozdělení odpovídá teoretickému rozdělení (dobrá shoda). Volíme hladinu významnosti a = 0,05.
9    (25 - 20)2    (30 - 35)2    (45 - 45)2 x2 = 1    on   }  + 1    or      +      A,      = 1,25 + 0,71 + 0 = 1,96. 20 35 45
Kritická hodnota pro A: — 1 = 2 stupně volnosti a a = 0,05 je Xqo5-2
= 5,99.
Závěr: Protože \2 = 1,96 < 5,99, nezamítáme Hq. Neexistuje statisticky významný rozdíl mezi pozorovanými a očekávanými hodnotami. □
Existují i neparametrické testy, které neověřují rozložení výběrového souboru. Uveďme test, který se snaží zjistit, zda výběrový soubor neobsahuje údaj zatížený hrubou chybou měření, popř. chybou v zápise. Jde o jeden z testů extrémních odchylek.
9.4    Dixonův test extrémních odchylek
Předpoklady
Ve výběrovém souboru o rozsahu n ]e Xi = min(xj), resp. xn = max(xj) (např. hodnoty jsou seřazeny podle velikosti od X\ do xn).
151
Statistika a statistické zpracování dat
Nulová hypotéza
Hq : Hodnota X\ (nejmenší hodnota), resp. xn (největší hodnota) se neliší významně od ostatních hodnot souboru.
Testovací statistika
podle toho, testujeme-li minimální nebo maximální hodnotu ve výběru. Kritické hodnoty Qi-a, resp. Qn-a se vyčtou z příslušných tabulek (ukázka v tabulce 11.
Tab. 11: Ukázka kritických hodnot pro Dixonův test
n	a = 0,05	a = 0,01	n	a = 0,05	a = 0,01
3	0,941	0,988	17	0,320	0,416
4	0,765	0,889	18	0,313	0,407
5	0,642	0,780	19	0,306	0,398
6	0,560	0,698	20	0,300	0,391
7	0,507	0,637	21	0,295	0,384
8	0,468	0,590	22	0,290	0,378
9	0,437	0,555	23	0,285	0,372
10	0,412	0,527	24	0,281	0,367
11	0,392	0,502	25	0,277	0,362
12	0,376	0,482	26	0,273	0,357
13	0,361	0,465	27	0,269	0,353
14	0,349	0,450	28	0,266	0,349
15	0,338	0,438	29	0,263	0,345
16	0,329	0,426	30	0,260	0,341
Závěr
Jestliže Qi > Q±-a, resp. Qn > Qn-a, zamítneme nulovou hypotézu H0.
Příklad 9.4. Při kalibraci titrační metody k stanovení krevního cukru bylo provedeno 12 paralelních analýz z jednoho vzorku s těmito výsledky:
83   88   84   78   82   82   86   81   98   83   85 80
Neparametrické testy
152
Otestujte, zda hodnota 98 není chybná. Řešení: Dixonovým testem:
Nejprve naměřené hodnoty setřídíme podle velikosti:
78   80   81   82   82   83   83   84   85   86   88 98
Vidíme, že . n = 12,
• x\ = 78 (nejmenší hodnota),
• X12 = 98 (největší hodnota),
• Xu = 88 (druhá nej větší hodnota).
Testovací kritérium:
_ xn - xn_i _ x12 - xu _ 98 - 88 _ n K
^n ~ ~ ~ no     to ~~ '
xn — x\       x\2 — x\     98 — 78
Kritické hodnoty (z tabulky 11): Qi2;0,05 = 0,376 < 0,5 = Q12; Q12-0,oi = 0,482 < 0,5 = Q12.
Závěr: Testovací kritérium překročilo kritickou hodnotu (pro obě zkoumané hladiny významnosti). Zamítáme nulovou hypotézu H0. Hodnota 98 se významně liší od ostatních hodnot. □
e
V této kapitole jsme se seznámili s neparametrickými testy, kterými testujeme jinou hypotézu o rozdělení základního souboru než je hypotéza o jeho parametru. Ukázali jsme si Kolmogorovův-Smirnovův test dobré shody pro jeden a dva výběry, chi-kvadraát test dobré shody a Dixonův tes, včetně řešených příkladů. Při jejich řešení se nabízelo použití softwaru.
1. Co jsou neparametrické testy a v jakých situacích se používají?
2. Jaký je rozdíl mezi parametrickými a neparametrickými testy?
3. Co je to Kolmogorovův-Smirnovův test dobré shody a kdy se používá?
4. Jaký je účel chi-kvadrát testu dobré shody a jak se provádí?
5. Jaké jsou výhody a nevýhody neparametrických testů ve srovnání s parametrickými
testy?
6. Jaké jsou typické situace, ve kterých je vhodné použít Dixonův test extrémních hodnot?
7. Vysvětlete, jak se určují kritické hodnoty pro Kolmogorovův-Smirnovův test dobré shody pro dva výběry.
153
Statistika a statistické zpracování dat
8. Máte dvě sady dat, které představují výsledky dvou různých metod měření. Použijte Kolmogorovův-Smirnovův test pro dva výběry k určení, zda pocházejí ze stejného rozdělení. Hladinu významnosti zvolte a = 0,05.
Data:
. Metoda A: 15, 18, 20, 22, 19, 25, 24, 17, 20, 21
• Metoda B: 14, 17, 19, 21, 20, 23, 22, 18, 19, 22
[hypotézu o stejném rozdělení nelze zamítnout]
9. Při analýze vzorků krve byla získána data, která obsahují možné odlehlé hodnoty. Použijte Dixonův test k určení, zda odlehlá hodnota v datech může být považována za chybu. Proveďte test na hladině významnosti a = 0,05.
Data:
■ Naměřené hodnoty (v mg/dl): 85, 88, 87, 90, 92, 94, 89, 150, 91, 90 [odlehlá hodnota je považována za chybu]
10. Otestujte hypotézu, že výběr dat má normální rozdělení pomocí Kolmogorovova-Smirnovova testu projeden výběr. Použijte hladinu významnosti a = 0,05 a proveďte příslušné výpočty.
Data:
• Naměřené hodnoty: 12, 14, 15, 16, 15, 17, 18, 19, 20, 18, 16, 17, 21, 22, 20 [hypotézu o normálním rozdělení nelze zamítnout]
11. Výrobní firma chce zjistit počet poruch určitého zařízení vždy za 100 hodin provozu v celkem n = 150 stohodinových intervalech. Výsledky jsou uvedeny v tabulce četností výsledků:
Počet poruch za 100 hodin	Počet pozorování rii
0	52
1	48
2	36
3	10
4	4
Pomocí chi-kvadrát testu dobré shody testujte na hladině a = 0,05 nulovou hypotézu, že data pochází z Poissonova rozdělení s parametrem A = 1,2. [nulovou hypotézu nemůžeme zamítnout]
Literatura k tématu:
[1] HINDLS, R. Statistika pro ekonomy. 8. vyd. Praha: Professional Publishing, 2007. ISBN 978-80-86946-43-6.
[2] JANÁČEK, J. Statistika jednoduše. Grada, 2022. ISBN 978-80-271-1738-3.
[3] MAREK, L. Statistika v příkladech. 2. vyd. Praha: Kamil Mařík - Professional Publishing, 2015. ISBN 978-80-743-1153-6.
[4] OTIPKA, P., SMAJSTRLA, V. Pravděpodobnost a statistika [online]. 1. vydání. Ostrava: VŠB-TU Ostrava, 2007 [cit. 2024-09-09]. ISBN 80-248-1194-4.
Kapitola 10
Analýza rozptylu
Po prostudování této kapitoly budete umět:
' aplikovat analýzu rozptylu (ANOVA) na reálná data za účelem porovnání více skupin.
Klíčová slova:
Analýza rozptylu (ANOVA), statistické testování, variabilita, faktory.
155
Statistika a statistické zpracování dat
Náhled kapitoly
V této kapitole se seznámíme s metodou analýzy rozptylu neboli ANOVA (Analysis of Variance), která je klíčovým nástrojem pro porovnávání více skupin nebo kategorií. ANOVA umožňuje zjistit, zda existují statisticky významné rozdíly mezi středními hodnotami několika skupin. Tato technika je široce využívána v ekonomii, marketingu a dalších oblastech, kde je potřeba porovnávat více než dvě skupiny současně. Kapitola navazuje na dvě předchozí kapitoly, kde šlo o porovnávání dvojic.
Cíle kapitoly
Po prostudování této kapitoly by měl student být schopen:
• Vysvětlit princip analýzy rozptylu a její předpoklady.
• Provést jednofaktorovou ANOVA na praktických datech. Interpretovat výsledky ANOVA.
• Rozhodnout, zda existují statisticky významné rozdíly mezi skupinami.
• Používat Excel nebo jiný statistický software k provedení ANOVA.
Odhad času potřebného ke studiu
Odhaduje se, že studium této kapitoly zabere přibližně 3 hodiny. Tento čas zahrnuje čtení textu, pochopení teoretických konceptů, řešení příkladů a praktické cvičení s použitím statistického softwaru.
Úvodní příklad
Představte si, že pracujete v marketingovém oddělení firmy, která prodává tři různé druhy energetických nápojů: A, B a C. Chcete zjistit, zda existují rozdíly v průměrném prodeji těchto nápojů v různých regionech. Shromáždili jste data o týdenních prodejích v pěti regionech pro každý druh nápoje:
Nápoj	Region 1	Region 2	Region 3	Region 4	Region 5
A	100	110	95	105	102
B	98	85	88	90	92
C	120	115	130	125	118
Chcete zjistit, zda jsou rozdíly v průměrných prodejích mezi nápoji A, B a C statisticky významné, nebo zda jsou způsobeny náhodou.
Analýza rozptylu
156
Formulace hypotéz
' Nulová hypotéza (H0): Průměrné prodeje všech tří nápojů jsou stejné (//^ =      = /x^).
Alternativní hypotéza (-ř/i): Existuje alespoň jeden pár nápojů, u kterého se průměrné prodeje liší.
Aplikace ANOVA
K prověření těchto hypotéz použijeme jednofaktorovou analýzu rozptylu (ANOVA), která nám umožní porovnat průměry více než dvou skupin současně.
10.1    Princip analýzy rozptylu
Co je to ANOVA?
Analýza rozptylu (ANOVA) je statistická metoda používaná k testování rozdílů mezi průměry dvou nebo více skupin. ANOVA zkoumá, zda variabilita mezi skupinami je větší než variabilita uvnitř skupin, což by naznačovalo, že skupiny pocházejí z různých populací.
Předpoklady ANOVA
Aby byla analýza rozptylu platná, musí být splněny určité předpoklady:
Normalita: Data v každé skupině jsou přibližně normálně rozložena. Homogenita rozptylů: Rozptyly v jednotlivých skupinách jsou stejné. Nezávislost pozorování: Data jsou nezávislá mezi a uvnitř skupin.
Rozklad variability
Celkovou variabilitu dat lze rozložit na dvě složky:
157
Statistika a statistické zpracování dat
Variabilita mezi skupinami (meziskupinová	: Variabilita způsobená rozdíly mezi
průměry skupin.	
Variabilita uvnitř skupin (vnitroskupinová):	Variabilita způsobená rozdíly uvnitř
jednotlivých skupin.	
Variabilita se obvykle nějakým způsobem vyjadřuje pomocí součtu čtverců.
Matematicky lze celkový součet čtverců (SS) vyjádřit jako:
SSCelk      SSmezi ~\~ SSuvnitř;
kde:
Xyj=l *l2j=l(.xíj      2-celk) i Xyj=l f^iij^i      ^celk) i = Sj=l ^2jĹl(xij ~ xi) i
kde k je počet skupin, rti je počet pozorování v i-té skupině, Xíj je j-té pozorování v i-té skupině, Xi je průměr i-té skupiny a řřceik je celkový průměr.
SSceik uumez
SS
uvnitř
io.2    Jednofaktorová ANOVA
Postup analýzy
Jednofaktorová ANOVA se skládá z následujících kroků:
1. Stanovení hypotéz:
' Hq: Všechny skupinové průměry jsou stejné (//i = fi2 = • • • = ^k)-H\. Alespoň jeden skupinový průměr se liší.
2. Výpočet součtů čtverců (SS):
• Celkový součet čtverců (SSceik).
• Meziskupinový součet čtverců (SSmezi).
• Vnitroskupinový součet čtverců (SSUVI1itř).
Analýza rozptylu
158
3. Výpočet stupňů volnosti (df):
1 dfmezi = k — 1.
1 dfuvnitř = N — k, kde N je celkový počet pozorování.
. du = iv-i.
4. Výpočet středních čtverců (MS):
MSr
SSn
dfn
T\/tq v _ SSuvnitř
lV10uvmtr — jf
t-Iiuvmtr
5. Výpočet F-statistiky:
MSmezj
MSuvnitř
6. Určení kritické hodnoty a rozhodnutí:
' Porovnáme vypočtenou hodnotu F s kritickou hodnotou z F-rozdělení pro zvolené hladiny významnosti a.
• Pokud F překročí kritickou hodnotu, zamítáme H q.
Řešené příklady
Příklad 10.1. Proveďte jednofaktorovou ANOVA na datech z úvodního příkladu a určete, zda existují statisticky významné rozdíly mezi průměrnými prodeji nápojů A, B a C na hladině významnosti a = 0,05.
Řešení: Krok 1: Stanovení hypotéz
• H\. Ne všechny průměry jsou stejné. Krok 2: Výpočet průměrů
100 + 110 + 95 + 105 + 102
xA =---= 102,4,
5
98 + 85 + 88 + 90 + 92
xB =---= 90,6,
5
120 + 115 + 130 + 125 + 118 xc =---= 121,6.
5
Celkový průměr:
E?=i Ef=i^j     512 + 453 + 608 1573
Xceľk =---=-=-= 104,867.
15 15 15
159
Statistika a statistické zpracování dat
Krok 3: Výpočet součtů čtverců SS mezi:
3
SSmezi = J2ní& - žceik)2 = 5(102,4 - 104,867)2 + 5(90,6 - 104,867)2 + 5(121,6 - 104,867)2. Spočítáme jednotlivé části:
(102,4 - 104,867)2 = (-2,467)2 = 6,083,
(90,6 - 104,867)2 = (-14,267)2 = 203,577, (121,6 - 104,867)2 = 16,7332 = 280,005.
SSmezi = 5 x (6,083 + 203,577 + 280,005) = 5 x 489,665 = 2448,325.
SS uvnitř:
Pro každou skupinu spočítáme součet čtverců odchylek od skupinového průměru. Pro nápoj A:
SSA = (100 - 102,4)2 + (110 - 102,4)2 + (95 - 102,4)2 + (105 - 102,4)2 + (102 - 102,4)2. Spočítáme:
(100-	102,4)2	= (-2,4)2 = 5,76,
(110 —	102,4)2	= 7,62 = 57,76,
(95-	102,4)2	= (-7,4)2 = 54,76
(105-	102,4)2	= 2,62 = 6,76,
(102-	102,4)2	= (-0,4)2 = 0,16.
Součet:
SSA = 5,76 + 57,76 + 54,76 + 6,76 + 0,16 = 125,2.
Podobně pro nápoj B a C. Pro nápoj B:
SSB = (98 - 90,6)2 + (85 - 90,6)2 + (88 - 90,6)2 + (90 - 90,6)2 + (92 - 90,6)2. Spočítáme:
(98	- 90,6)2 =	7,42 = 54,76,
(85	- 90,6)2 =	(_5,6)2 = 31,36
(88	- 90,6)2 =	(-2,6)2 = 6,76,
(90	- 90,6)2 =	(_0,6)2 = 0,36,
(92	- 90,6)2 =	1,42 = 1,96.
Analýza rozptylu
160
Součet:
SSB = 54,76 + 31,36 + 6,76 + 0,36 + 1,96 = 95,2.
Pro nápoj C:
SSc = (120 - 121,6)2 + (115 - 121,6)2 + (130 - 121,6)2 + (125 - 121,6)2 + (118 - 121,6)2
Spočítáme:
Součet:
(120 - 121,6)2 = (-1,6)2 = 2,56, (115 - 121,6)2 = (-6,6)2 = 43,56, (130 - 121,6)2 = 8,42 = 70,56, (125 - 121,6)2 = 3,42 = 11,56, (118 - 121,6)2 = (-3,6)2 = 12,96.
SSc = 2,56 + 43,56 + 70,56 + 11,56 + 12,96 = 141,2.
Juvmtf
Celkový SSr
SSuvnitř = SSA + SSB + SSc = 125,2 + 95,2 + 141,2 = 361,6.
Krok 4: Výpočet stupňů volnosti
dfmezi — k      1 — 3      1 — 2,
dfuvnitř = N - k = 15 - 3 = 12.
Krok 5: Výpočet středních čtverců
SSmezi 2448,325 MSmezi = -= =-J.-= 1224,1625,
Ulmezi ^
MSuvnitř = §^ = *M = 30,1333.
Krok 6: Výpočet F-statistiky
MSmezi 1224,1625
F =-=---ps 40 619
MSuvnitř 30,1333
Krok 7: Určení kritické hodnoty a rozhodnutí
Kritická hodnota pro a = 0,05, dfi = 2 a df2 = 12 je přibližně 3,8853 (lze zjistit z F-tabulek nebo pomocí Excelu (F. INV(0,95;2; 12)).
161
Statistika a statistické zpracování dat
Protože vypočtené F »2 40,619 je větší než F^a = 3,8853, zamítáme nulovou hypotézu Hq. Závěr: Existují statisticky významné rozdíly mezi průměrnými prodeji nápojů A, B a C.
Alternativně můžeme vyřešit tento příklad v Excelu. Můžeme použít postupné výpočty (jak jsou rozepsány výše), ale rychlejší je použít doplněk Analýza dat (pokud jej máme možnost nainstalovat). Spuštění, vložení dat a výstupy jsou na obrázcích 22 a 23.
□
A na via dat Analytické nástroje:
Anova: dva faktory s opakováním
Anova: dva faktory bez opakováni'
Korelace
Kovariance
Popisná statistika
Exponenciální' vyrovnání
O^ouvyberovy F-test pro rozptyl
Fourierova analýza
Histogram_
Nápověda
i
F= = br 1 R=* -.-í. Fžs :-1 Fžs "4 Fž: :■
Anova: jeden faktor Vstup
Vstupní oblast Sdufit
T") Eopisky v prvním slwjpti Alfa: 0.05
Mainosti výstupu O ".'l-i' "i oblast O Nwýjfet
I 1 &bupce
SVÍ12|
Obr. 22: Spuštění modulu Analýza dat - Anova jeden faktor v Excelu a žádání dat (příklad 10.1)
							
Anova: jeden faktor							
							
Faktor							
Výběr	Počet	Součet	Průměr	Rozptyl			
Řádek 1	5	512	102,4	31,3			
Řádek 2	5	453	90,6	23,8			
Řádek 3	5	608	121,6	35,3			
							
							
ANOVA							
Zdroj variability	SS	Rozdíl	MS	F	Hodnota P	Fkrit	
Mezi výběry	2448,133333	2 12	1224,066667	40,62168142	4,54339E-06	3,885293835	
Všechny výběry	361,6		30,13333333				
							
CeLkem	2809,733333	14					
							
Obr. 23: Výstup modulu Analýza dat - Anova jeden faktor v Excelu a žádání dat (příklad 10.1)
Příklad 10.2. Firma zkoumá účinnost tří různých školení pro své zaměstnance. Po ukončení školení byla zaměstnancům zadána stejná testová úloha a získány následující výsledky (skóre):
Analýza rozptylu
162
Školení	Zaměstnanec 1	Zaměstnanec 2	Zaměstnanec 3	Zaměstnanec 4
I	85	90	88	92
II	78	82	80	79
III	95	98	94	96
Použijte jednofaktorovou ANOVA ke zjištění, zda existují statisticky významné rozdíly v průměrných výsledcích mezi školeními na hladině významnosti a = 0,01.
Řešení: Krok 1: Stanovení hypotéz
• H0: fii = fiu = /xm.
• H\. Ne všechny průměry jsou stejné.
Krok 2: Výpočet průměrů
85 H	h 90	+	88 H	h 92
78 H	h 82	4 +	80 H	h 79
95 H	h 98	4 +	94 H	h 96
= 88,75, = 79,75, = 95,75.
Celkový průměr:
_ Ef=i Ej=i Xij _ 355 + 319 + 383 _ 1 057 Xcelk ~ 12        ~~ 12 ~~ 12
Krok 3: Výpočet součtů čtverců SS mezi:
3
SSmezi = J2ní(ží - Xcem)2 = 4(88,75 - 88,08)2 + 4(79,75 - 88,08)2 + 4(95,75 - 88,08)2.
Spočítáme jednotlivé části:
(88,75 - 88,08)2 = (0,67)2 = 0,4489, (79,75 - 88,08)2 = (-8,33)2 = 69,3889, (95,75 - 88,08)2 = (7,67)2 = 58,8289.
SSmezi = 4 x (0,4489 + 69,3889 + 58,8289) = 4 x 128,6667 = 514,6667.
163
Statistika a statistické zpracování dat
SS uvnitř:
Pro školení I:
SSi = (85 - 88,75)2 + (90 - 88,75)2 + (88 - 88,75)2 + (92 - 88,75)2.
Spočítáme:
(85 - 88,75)2 = (-3,75)2 = 14,0625, (90 - 88,75)2 = 1,252 = 1,5625, (88 - 88,75)2 = (-0,75)2 = 0,5625, (92 - 88,75)2 = 3,252 = 10,5625.
Součet:
SS! = 14,0625 + 1,5625 + 0,5625 + 10,5625 = 26,75.
Podobně pro školení II a III. Pro školení II:
SSn = (78 - 79,75)2 + (82 - 79,75)2 + (80 - 79,75)2 + (79 - 79,75)2.
Spočítáme:
Součet:
(78 - 79,75)2 = (-1,75)2 = 3,0625, (82 - 79,75)2 = 2,252 = 5,0625, (80 - 79,75)2 = 0,252 = 0,0625, (79 - 79,75)2 = (-0,75)2 = 0,5625.
SSn = 3,0625 + 5,0625 + 0,0625 + 0,5625 = 8,75.
Pro školení III:
SSm = (95 - 95,75)2 + (98 - 95,75)2 + (94 - 95,75)2 + (96 - 95,75)2.
Spočítáme:
(95 - 95,75)2 = (-0,75)2 = 0,5625, (98 - 95,75)2 = 2,252 = 5,0625, (94 - 95,75)2 = (-1,75)2 = 3,0625, (96 - 95,75)2 = 0,252 = 0,0625.
Součet:
SSm = 0,5625 + 5,0625 + 3,0625 + 0,0625 = 8,75.
Analýza rozptylu 164 Celkový SSuvnitř:
SSuvnitř = 26,75 + 8,75 + 8,75 = 44,25. Krok 4: Výpočet stupňů volnosti
dfmezi — k      1 — 3      1 — 2,
dfuvnitř = iV-fc = 12-3 = 9.
Krok 5: Výpočet středních čtverců
514 6667 MSmezi = °14'°DD' = 257,3333,
44 25
MSuvnitř = = 4,9167.
Krok 6: Výpočet F-statistiky
25^333 4,9167
Krok 7: Určení kritické hodnoty a rozhodnutí
Kritická hodnota       pro a = 0,01, dfi = 2 a df2 = 9 je přibližně 8,02.
Protože vypočtené F « 52,348 je větší než F^a = 8,02, zamítáme nulovou hypotézu Hq.
Závěr: Existují statisticky významné rozdíly v průměrných výsledcích mezi školeními.
□
Příklad 10.3. Ve výrobní firmě se testuje účinnost tří různých strojů (A, B, C) na výrobu součástek. Z každého stroje bylo náhodně vybráno 4 kusy a změřena jejich délka (v milimetrech):
Stroj	Kus 1	Kus 2	Kus 3	Kus 4
A	50	52	51	53
B	49	50	51	52
C	51	50	52	49
Pomocí jednofaktorové ANOVA určete na hladině významnosti a = 0,05, zda existují statisticky významné rozdíly v průměrné délce součástek mezi stroji.
Řešení: Krok 1: Stanovení hypotéz
1 H0: /^A = A*b =
165
Statistika a statistické zpracování dat
' H\. Ne všechny průměry jsou stejné. Krok 2: Výpočet průměrů
Celkový průměr:
50-	f 52 +	51 + 53
49 -	4 f 50 +	51 + 52
51 -	4 f 50 +	52 + 49
	4	
51,5	+ 50,5	+ 50,5
	3	
rrA =---= 51,5,
49 + 50 + 51 + 52 xb =---= 50,5
51 + 50 + 52 + 49 xc =---= 50,5.
Xceik =---= 50,8333.
Krok 3: Výpočet součtů čtverců SS mezi:
3
SSmezi = J2ní(xí - ocelíc)2 = 4(51,5 - 50,8333)2 + 4(50,5 - 50,8333)2 + 4(50,5 - 50,8333)' Spočítáme jednotlivé části:
(51,5 - 50,8333)2 = (0,6667)2 = 0,4445, (50,5 - 50,8333)2 = (-0,3333)2 = 0,1111.
SSmezi = 4 x [0,4445 + 0,1111 + 0,1111] = 4 x 0,6667 = 2,6667.
SS uvnitř:
Pro stroj A:
4
SSA = XX^Aj - xA)2 = (50 - 51,5)2 + (52 - 51,5)2 + (51 - 51,5)2 + (53 - 51,5)2
Spočítáme:
(50 - 51,5)2 = (-1,5)2 = 2,25, (52 - 51,5)2 = 0,52 = 0,25, (51 - 51,5)2 = (-0,5)2 = 0,25, (53 - 51,5)2 = 1,52 = 2,25.
Analýza rozptylu
166
Součet:
SSA = 2,25 + 0,25 + 0,25 + 2,25 = 5,0.
Podobně pro stroje B a C. Pro stroj B:
SSB = (49 - 50,5)2 + (50 - 50,5)2 + (51 - 50,5)2 + (52 - 50,5)2
Spočítáme:
Součet:
Pro stroj C:
(49 - 50,5)2 = (-1,5)2 = 2,25, (50 - 50,5)2 = (-0,5)2 = 0,25, (51 - 50,5)2 = 0,52 = 0,25, (52 - 50,5)2 = 1,52 = 2,25.
SSB = 2,25 + 0,25 + 0,25 + 2,25 = 5,0.
SSC = (51 - 50,5)2 + (50 - 50,5)2 + (52 - 50,5)2 + (49 - 50,5)s
Spočítáme:
Součet:
Celkový SSr
(51 - 50,5)2 = 0,52 = 0,25, (50 - 50,5)2 = (-0,5)2 = 0,25, (52 - 50,5)2 = 1,52 = 2,25, (49 - 50,5)2 = (-1,5)2 = 2,25.
SSC = 0,25 + 0,25 + 2,25 + 2,25 = 5,0.
SSuvnitř = SSA + SSB + SSC = 5,0 + 5,0 + 5,0 = 15,0. Krok 4: Výpočet stupňů volnosti
dfmezi — k      1 — 3      1 — 2,
dfuvnitŕ = iV-fc = 12-3 = 9.
167
Statistika a statistické zpracování dat
Krok 5: Výpočet středních čtverců
MSmezi = §^ = ^ = 1,3333,
SSuvnitř        15 0
MSUVI1itř =   fuvm r = —^- = 1,6667.
Krok 6: Výpočet F-statistiky
p= MSmezi = 1,3333 = Q g MSuvnitř 1,6667
Krok 7: Určení kritické hodnoty a rozhodnutí
Kritická hodnota F^n pro a = 0,05, dfi = 2 a df2 = 9 je přibližně 4,2565.
Protože vypočtené F = 0,8 je menší než F^a = 4,2565, nezamítáme nulovou hypotézu Hq.
Závěr: Neexistují statisticky významné rozdíly v průměrné délce součástek mezi stroji A, B a C.
□
Interpretace výsledků
Pokud je vypočtená hodnota F větší než kritická hodnota z F-rozdělení, zamítáme nulovou hypotézu Hq a přijímáme alternativní hypotézu H\. To znamená, že existuje statisticky významný rozdíl mezi průměry skupin.
Post-hoc testy
Pokud ANOVA ukáže, že existují rozdíly mezi skupinami, můžeme použít post-hoc testy (např. Tukeyho test), abychom zjistili, které konkrétní skupiny se od sebe liší.
Aplikace v ekonomii a managementu
Analýza rozptylu je široce využívána v různých oblastech ekonomie a managementu:
• Marketing: Porovnání účinnosti různých reklamních kampaní.
' Personalistika: Srovnání výkonnosti zaměstnanců v různých odděleních. Výroba: Testování vlivu různých výrobních procesů na kvalitu produktu.
• Finance: Analýza výnosů různých investičních portfolií.
Analýza rozptylu
168
Praktické cvičení Úkol
Shromážděte data o prodejích tří různých produktů ve vaší nebo cizí firmě za posledních pět měsíců. Použijte jednofaktorovou ANOVA k určení, zda existují statisticky významné rozdíly v průměrných prodejích těchto produktů.
Postup
1. Získejte data a zorganizujte je do tabulky podobně jako v úvodním příkladu.
2. Vypočítejte průměry jednotlivých skupin a celkový průměr.
3. Proveďte výpočty součtů čtverců, stupňů volnosti a středních čtverců.
4. Vypočítejte F-statistiku.
5. Porovnejte vypočtenou hodnotu F s kritickou hodnotou a rozhodněte o platnosti hypotéz.
Řešení
Po provedení výpočtů interpretujte výsledky v kontextu vašeho podnikání. Pokud zjistíte, že existují statisticky významné rozdíly, navrhněte možné důvody a doporučení pro management.
Závěr
Analýza rozptylu je silným nástrojem pro porovnávání více skupin současně. Umožňuje manažerům a ekonomům činit informovaná rozhodnutí na základě statistických důkazů. Pochopení a správná aplikace ANOVA může významně přispět k úspěchu organizace.
V této kapitole jsme se seznámili s metodou analýzy rozptylu (ANOVA), která slouží k testování rozdílů mezi průměry více skupin. Probrali jsme principy jednofaktorové ANOVA, její předpoklady a postup výpočtu. Důraz byl kladen na praktické využití v ekonomii a managementu, kde ANOVA pomáhá při rozhodování na základě dat. Praktické příklady a cvičení umožnily aplikovat získané znalosti na reálné situace.
1. Co je to analýza rozptylu a k čemu slouží?
2. Jaké jsou hlavní předpoklady pro použití ANOVA?
3. Vysvětlete rozdíl mezi variabilitou mezi skupinami a variabilitou uvnitř skupin.
4. Jaký je postup při provádění jednofaktorové ANOVA?
169
Statistika a statistické zpracování dat
5. Co znamená, pokud je vypočtená hodnota F větší než kritická hodnota?
6. Jaké jsou možné aplikace ANOVA v oblasti marketingu?
7. Proč je důležité provádět post-hoc testy po ANOVA?
8. Jak interpretovat výsledky ANOVA v kontextu rozhodování managementu?
9. Jaké kroky byste podnikli, pokud by ANOVA ukázala statisticky významné rozdíly mezi skupinami?
10. Uveďte příklad situace, kdy by použití ANOVA nebylo vhodné.
11. Ve firmě byly testovány tři různé metody výroby produktu. Výstupem jsou data o počtu vadných kusů v jednotlivých výrobních sériích: Metoda 1: 5, 7, 6, 8; Metoda 2: 9, 10, 8, 11; Metoda 3: 4, 5, 3, 6. Proveďte ANOVA a určete, zda existují statisticky významné rozdíly mezi metodami.   [Existují statisticky významné rozdíly.]
12. V restauraci se zkoumala spokojenost zákazníků se třemi různými typy obsluhy. Hodnocení bylo na stupnici 1-10. Data jsou následující: Typ A: 8, 9, 7, 8, 9; Typ B: 6, 5, 7, 6, 5; Typ C: 9, 8, 9, 10, 9. Proveďte jednofaktorovou ANOVA a zjistěte, zda existují rozdíly v průměrném hodnocení.   [Existují statisticky významné rozdíly.]
Literatura k tématu:
[1] HINDLS, R. Statistika pro ekonomy. 8. vyd. Praha: Professional Publishing, 2007. ISBN 978-80-86946-43-6.
[2] JANÁČEK, J. Statistika jednoduše. Grada, 2022. ISBN 978-80-271-1738-3.
[3] MAREK, L. Statistika v příkladech. 2. vyd. Praha: Kamil Mařík - Professional Publishing, 2015. ISBN 978-80-743-1153-6.
[4] OTIPKA, P., SMAJSTRLA, V. Pravděpodobnost a statistika [online]. 1. vydání. Ostrava: VŠB-TU Ostrava, 2007 [cit. 2024-09-09]. ISBN 80-248-1194-4.
Kapitola 11
Korelační analýza
Po prostudování této kapitoly budete umět:
vypočítat korelační koeficient pro zadaná data, ' otestovat a interpretovat jeho hodnotu.
Klíčová slova:
Korelační koeficient, Pearsonův korelační koeficient, Spearmanův korelační koeficient, Kendallův tau, statistická závislost, lineární vztah.
171
Statistika a statistické zpracování dat
Náhled kapitoly
V této kapitole se seznámíme s metodou korelační analýzy, která slouží k měření síly a směru lineárního vztahu mezi dvěma proměnnými. Probereme různé varianty korelačních koeficientů a jejich využití v praxi, zejména Pearsonův korelační koeficient, který je nejčastěji používán. Ukážeme si také omezení tohoto koeficientu a situace, kdy je vhodné použít alternativní metody.
Cíle kapitoly
Po prostudování této kapitoly by měl student být schopen:
• Vysvětlit, co korelační koeficient popisuje a jaké jsou jeho varianty.
• Vypočítat Pearsonův korelační koeficient na základě daných dat.
' Interpretovat výsledky korelační analýzy a rozhodnout, zda jsou statisticky významné.
' Používat Excel nebo jiný statistický software k výpočtu korelačních koeficientů.
Odhad času potřebného ke studiu
Odhaduje se, že studium této kapitoly zabere přibližně 2-3 hodiny. Tento čas zahrnuje čtení textu, pochopení teoretických konceptů a řešení příkladů.
ni    Princip korelační analýzy
Co je to korelační koeficient?
Korelační koeficient je statistická míra, která určuje sílu a směr vztahu mezi dvěma proměnnými. Pearsonův korelační koeficient, označovaný jako r, měří lineární vztah mezi dvěma spojitými proměnnými a nabývá hodnot mezi -1 a 1. Pokud je r = 1, jedná se o perfektní pozitivní lineární vztah, pokud r = — 1, jedná se o perfektní negativní lineární vztah, a pokud r = 0, neexistuje žádná lineární závislost mezi proměnnými.
Výpočet korelačního koeficientu
Pearsonův korelační koeficient je definován vztahem:
=     EQkj -x) ■ (yí -y)
-x)2 -E(ž/í -y)2
kde Xi a yri jsou jednotlivé hodnoty obou proměnných, a x a y jsou jejich průměry.
Korelační analýza
172
Řešené příklady
Příklad 11.1. Mějme data o prodejích produktů ve dvou různých regionech. Vypočítejte Pear-sonův korelační koeficient a určete, zda mezi těmito proměnnými existuje lineární vztah.
Prodeje	(ReÉ	ídon 1)	10	15 20	25 30
Prodeje	(ReÉ	poň 2)	12	18 25	24 28
Řešení: Nejprve vypočítáme průměry x = 20 a y = 21 A. Poté provedeme výpočet Pearsonova korelačního koeficientu podle výše uvedeného vzorce. Korelační koeficient r « 0.88, což ukazuje na silnou pozitivní lineární závislost mezi prodeji v obou regionech.
Excel: Korelační koeficient lze spočítat pomocí funkce C0RREL(arrayl, array2) v Excelu.
Příklad 11.2. Mějme data o počtu zákazníků navštěvujících obchod a průměrné denní tržby. Vypočítejte korelační koeficient a určete, zda existuje lineární závislost.
Počet zákazníků	50	60	70	80 90
Denní tržby (v tis. Kč)	20	25	30	28 35
Řešení: Vypočítáme průměry x = 70 a y = 27.6. Pomocí vzorce pro korelační koeficient získáme r « 0.91, což značí velmi silnou pozitivní lineární závislost mezi počtem zákazníků a tržbami.
Excel: Pomocí funkce C0RREL(arrayl, array2) lze získat stejný výsledek.
Příklad 11.3. Zde JSOU delt cl pro prodej dvou produktů v různých týdnech. Určete, zda mezi prodejem těchto produktů existuje lineární vztah.
Prodeje	produktu	A	100	105 110	95 115	90 120	85	125	80
Prodeje	produktu	B	200	180 205	185 190	185 190	195	200	190
Řešení: Průměry pro produkt A a produkt B jsou x = 102.5 a y = 192. Po výpočtu korelačního koeficientu dostaneme r « 0.08, což naznačuje velmi slabou nebo žádnou lineární závislost mezi prodeji těchto produktů.
Excel: Výpočet pomocí C0RREL(arrayl, array2) v Excelu také ukazuje, že korelace je blízká nule, tedy nevýznamná.
Historie a varianty korelačních koeficientů
Historie korelačních koeficientů sahá až do 19. století, kdy Francis Galton poprvé navrhl metody pro kvantifikaci statistických vztahů mezi proměnnými. Na jeho práci navázal Karl Pearson, který formalizoval a popularizoval Pearsonův korelační koeficient.
V průběhu času byly vyvinuty další varianty korelačních koeficientů pro specifické účely:
173
Statistika a statistické zpracování dat
Spearmanův korelační koeficient (Spearman's rho): Používá se, pokud data nejsou normálně rozložena nebo vykazují monotónní, nikoli lineární vztah.
Kendallův tau: Měří sílu vztahu mezi pořadím hodnot a používá se zejména u malých souborů dat.
' Point-biserial correlation: Využívá se pro měření korelace mezi spojitou a binární proměnnou.
Každý z těchto korelačních koeficientů má své specifické aplikace a závisí na typu dat, které jsou analyzovány. Korelační analýza našla využití v mnoha oblastech, včetně psychologie, ekonomie, marketingu a biostatistiky.
Kdy je korelační koeficient vhodný?
Korelační koeficient popisuje sílu a směr lineárního vztahu mezi dvěma spojitými proměnnými. Jeho použití je vhodné, pokud jsou splněny následující podmínky:
• Obě proměnné mají přibližně normální rozložení.
Vztah mezi proměnnými je lineární. ' Nejsou přítomny výrazné odlehlé hodnoty, které by ovlivnily výsledek.
Použití Pearsonova korelačního koeficientu je nevhodné, pokud vztah mezi proměnnými není lineární nebo pokud se jedná o ordinální data, u nichž je vhodnější použít Spearmanův korelační koeficient nebo Kendallův tau.
Praktické cvičení
Mějte následující data pro dva produkty a určete, zda existuje lineární závislost mezi jejich prodeji:
Prodeje	produktu A	5   10   15  20 25
Prodeje	produktu B	8   12   17  22 24
Spočítejte korelační koeficient pomocí výše uvedeného vzorce nebo pomocí Excelu (C0RREL(arrayl, array2)). Na základě výsledku určete, zda mezi těmito proměnnými existuje lineární závislost.
Korelační analýza
174
11.2    Testování korelačního koeficientu
Předpoklady
' Předpokládáme, že máme dvojice měření (xi,yi), (x2, y2), ■ ■ ■, (%n, yn), kde X a Y jsou náhodné veličiny.
' Testujeme nulovou hypotézu, že mezi proměnnými X a Y není lineární vztah. Je potřeba, aby data byla alespoň intervalová a pocházela z normálního rozdělení.
Nulová hypotéza
H0 : Korelační koeficient p mezi proměnnými X a Y je nulový, tedy není mezi nimi žádná lineární závislost.
Testovací statistika
Testovací statistika je určena podle vzorce:
ry/n — 2
kde r je výběrový korelační koeficient a n je počet pozorování. Tato statistika má rozdělení t se n — 2 stupni volnosti.
Pro testování korelačního koeficientu se obvykle používá hladina významnosti a, například 0,05, a kritické hodnoty se určují z tabulek ŕ-rozdělení.
Kritické hodnoty
Kritická hodnota se určí z r-rozdělení pro zvolenou hladinu významnosti a &n — 2 stupňů volnosti. Pokud testovací statistika t překročí kritickou hodnotu, zamítáme nulovou hypotézu.
175
Statistika a statistické zpracování dat
Závěr
Pokud r-testovací statistika překročí kritickou hodnotu, zamítáme nulovou hypotézu H0, což znamená, že existuje statisticky významná lineární závislost mezi proměnnými laľ.
Příklad 11.4. Mějme následující data o výšce a váze několika osob:
Výška (cm)	150	160	170	180	190
Váha (kg)	55	60	65	70	80
Otestujte, zda existuje statisticky významná lineární závislost mezi výškou a váhou. Hladinu významnosti zvolte a = 0,05.
Řešení: Výběrový korelační koeficient r = 0,99. Testovací statistika t = °'^9'^5~2 = 17,32.
J J ' ^/l-0,992 '
Kritická hodnota ío,975(3) = 3,182.
Protože t = 17,32 > 3,182, zamítáme nulovou hypotézu. Mezi výškou a váhou je statisticky významná lineární závislost.
OV této kapitole jsme se seznámili s metodou korelační analýzy, která měří sílu a směr lineárního vztahu mezi dvěma proměnnými. Probrali jsme výpočet Pearsonova korelačního koeficientu, jeho interpretaci a další varianty korelačních koeficientů, které lze použít pro specifické situace. Praktické příklady a cvičení umožnily aplikovat korelační analýzu na reálné datové soubory.Také jsme se naučili testovat nenulovost korelačního koeficientu.
1. Co je to korelace a jaký je význam Pearsonova korelačního koeficientu?
2. Jak interpretujeme hodnoty Pearsonova korelačního koeficientu?
3. Uveďte příklady praktických aplikací korelační analýzy.
4. Vypočtěte korelační koeficient pro data v tabulce a otestujte jeho nenulovost.
X	5	15	25	35	45	55	65
y	3,5	5,2	5,5	6,1	5,9	6,4	7,8
[0,929, nenulový]
5. Vypočtěte korelační koeficient pro data v tabulce a otestujte jeho nenulovost.
X	55	55	55	55	65	65	65	75	75	75	85	85	95	95	95
y	3	3,6	4,2	1,8	2,4	3	1,8	2,4	3	1,8	2,4	1,8	2,4	1,8	3
[-0,377, nenulový] ]
Pozn.: K řešení použijte vhodný matematický software.
Korelační analýza
176
Literatura k tématu:
[1] HINDLS, R. Statistika pro ekonomy. 8. vyd. Praha: Professional Publishing, 2007.
ISBN 978-80-86946-43-6.
[2] JANÁČEK, J. Statistika jednoduše. Grada, 2022. ISBN 978-80-271-1738-3.
[3] MAREK, L. Statistika v příkladech. 2. vyd. Praha: Kamil Mařík - Professional Publishing, 2015. ISBN 978-80-743-1153-6.
[4] OTIPKA, P., SMAJSTRLA, V. Pravděpodobnost a statistika [online]. 1. vydání. Ostrava: VŠB-TU Ostrava, 2007 [cit. 2024-09-09]. ISBN 80-248-1194-4.
I
Kapitola 12
Lineární regrese
Po prostudování této kapitoly budete umět:
pochopit princip lineární regrese a její využití v praxi, ' naučit se odhadovat parametry lineárního regresního modelu,
• aplikovat lineární regresi na reálná data,
• provádět testování regresních koeficientů,
používat Excel a modul Analýza dat - Regrese pro výpočty.
OKlíčová slova: Lineární regrese, regresní analýza, regresní koeficienty, statistické testování, Excel, modul Analýza dat.
Lineární regrese
178
Náhled kapitoly
V této kapitole se seznámíme s metodou lineární regrese, která je základním nástrojem pro modelování vztahů mezi dvěma proměnnými. Lineární regrese umožňuje odhadnout vztah mezi závislou a nezávislou proměnnou pomocí přímky. Probereme principy odhadu parametrů regresního modelu, interpretaci výsledků a testování významnosti regresních koeficientů. Ukážeme si také, jak provádět tyto výpočty v Excelu, včetně použití modulu Analýza dat - Regrese.
Cíle kapitoly
Po prostudování této kapitoly by měl student být schopen:
• Vysvětlit princip lineární regrese a její předpoklady.
Odhadnout parametry lineárního regresního modelu pomocí metody nej menších čtverců.
• Interpretovat regresní koeficienty a hodnotu R2.
• Provést testování významnosti regresních koeficientů.
• Používat Excel a modul Analýza dat - Regrese pro výpočty.
Odhad času potřebného ke studiu
Odhaduje se, že studium této kapitoly zabere přibližně 3 hodiny. Tento čas zahrnuje čtení textu, pochopení teoretických konceptů, řešení příkladů a praktické cvičení s použitím Excelu.
Úvodní příklad
Představte si, že jste ekonomický analytik ve společnosti, která chce předpovědět tržby na základě výdajů na reklamu. Máte k dispozici následující data z posledních 10 měsíců:
Měsíc	1	2	3	4 5	6	7	8	9	10
Reklama (tis. Kč)	20	25	30	35 40	45	50	55	60	65
Tržby (tis. Kč)	200	220	250	280 310	330	360	390	420	450
Cílem je zjistit, jak silný je vztah mezi výdaji na reklamu a tržbami, a vytvořit model, který umožní předpovědět tržby při různých úrovních výdajů na reklamu.
Formulace problému
• Závislá proměnná (Y): Tržby (tis. Kč).
• Nezávislá proměnná (V): Výdaje na reklamu (tis. Kč).
179
Statistika a statistické zpracování dat
Cíl analýzy
Pomocí lineární regrese odhadnout vztah mezi výdaji na reklamu a tržbami a posoudit, zda je tento vztah statisticky významný.
12.1    Princip lineární regrese
Co je to lineární regrese?
Lineární regrese je statistická metoda používaná k modelování vztahu mezi závislou proměnnou a jednou nebo více nezávislými proměnnými. V případě jednoduché lineární regrese se jedná o vztah mezi dvěma proměnnými, který je modelován pomocí přímky.
Regresní model
Lineární regresní model lze vyjádřit rovnicí:
Y = í30 + í31X + e,
kde:
• Y ]e závislá proměnná,
• X je nezávislá proměnná,
• /3q je absolutní člen (intercept),
• fli je směrnice přímky (sklon),
> e je náhodná chyba (reziduálni složka).
Metoda nejmenších čtverců
Parametry /3q a /3i jsou odhadnuty pomocí metody nejmenších čtverců, která minimalizuje součet čtverců odchylek mezi skutečnými hodnotami Y a predikovanými hodnotami Y:
n n
min J2(Y* - Ýi)2 = min £(yť - #, - ftX,)2.
Lineární regrese
180
Odhady parametrů
Odhady parametrů (3q a (3± lze vypočítat pomocí vzorců:
E?=i(xť-x)(yť-F)
P
Po=¥-p1X,
kde X a Y jsou průměry laľ.
Predpoklady lineární regrese
Aby byly odhady parametrů platné, musí být splněny následující předpoklady:
• Linearita: Vztah mezi V a V je lineární.
' Homoskedasticita: Rozptyl náhodné složky e je konstantní pro všechna X.
• Nezávislost: Hodnoty náhodné složky e jsou nezávislé.
• Normalita: Náhodná složka e je normálně rozložena.
Historické poznámky
Metoda lineární regrese byla poprvé formálně představena anglickým statistikem Sir Prancis Galtonem v 19. století při studiu dědičnosti výšky mezi rodiči a dětmi. Termín regrese pochází z Galtonova pozorování, že extrémní hodnoty mají tendenci "regresovat" k průměru v následující generaci.
Později Karl Pearson a Ronald A. Fisher rozvinuli matematické základy regresní analýzy a metodu nejmenších čtverců, která je dnes standardním nástrojem v statistice a ekonometrice.
12.2    Odhad parametrů a interpretace
Výpočet odhadů
Pomocí výše uvedených vzorců lze spočítat odhady /30 a /3i na základě dostupných dat.
181
Statistika a statistické zpracování dat
Interpretace parametrů
Směrnice přímky (/?i): Udává změnu v závislé proměnné Y při jednotkové změně nezávislé proměnné X.
Absolutní člen 0$): Hodnota závislé proměnné Y, když nezávislá proměnná X je nulová.
Korelační koeficient a koeficient determinace
Pearsonův korelační koeficient (r) měří sílu lineárního vztahu mezi laľ.
Koeficient determinace (R2) udává, jaká část variability závislé proměnné Y je vysvětlena modelem.
Vzorec pro i?2 je:
2    SSR, SSE = ŠŠŤ= ~ŠŠŤ'
kde:
SSR (regresní součet čtverců) = SíLiC^ž ~~ Y)2, SSE (reziduálni součet čtverců) = Y^=1(Yi — Ýi)2, SST (celkový součet čtverců) = J2"í=i(Xí ~ Y)2■
12.3    Testování významnosti regresních koeficientů
Testování směrnice přímky (^)
Cílem je zjistit, zda je vztah mezi X a,Y statisticky významný.
Lineární regrese
182
Hypotézy:
1 Hq : fli = 0 (neexistuje lineární vztah mezi X a Y). • Hi : fli ý 0 (existuje lineární vztah mezi laľ).
Testová statistika:
SE(Ä)'
kde SE(/?i) je směrodatná chyba odhadu
Rozhodnutí: Porovnáme vypočtenou hodnotu t s kritickou hodnotou z t-rozdělení s n — 2 stupni volnosti.
Testování absolutního členu (/30)
Podobně lze testovat významnost /3q:
Hypotézy:
■ H0:Po = 0.
Testová statistika:	
	t- ^° SE(/?o)
	
Řešené příklady
Příklad 12.1. Firma zkoumá vztah mezi počtem hodin školení zaměstnanců (X) a jejich následnou produktivitou (Y) měřenou počtem vyrobených jednotek za týden. Data jsou následující:
183
Statistika a statistické zpracování dat
Zaměstnanec	1	2	3	4	5 6
Hodiny školení (X)	5	7	4	6	8 5
Produktivita (Y)	50	78	45	60	85 55
Odhadněte lineární regresní model a otestujte významnost vztahu na hladině významnosti a = 0,05.
Řešení: Krok 1: Výpočet průměrů
5+7+4+6+8+5
X
6
5,8333,
-    50 + 78 + 45 + 60 + 85 + 55
Y =--- = 62,1667.
Krok 2: Výpočet odhadu (3±
Vytvoříme tabulku pro výpočty:
i	Xí	Yi	XjYi	x?
1	5	50	250	25
2	7	78	546	49
3	4	45	180	16
4	6	60	360	36
5	8	85	680	64
6	5	55	275	25
Sumy	35	373	2 291	215
Spočítáme:
- _ J2X,tYi - nXY _ 2 291 - 6 • 5,8333 • 62,1667 "   EXf-nX2   ~      215 - 6 • (5,8333)2
Spočítáme čitatel a jmenovatel:
Čitatel = 2 291 - 6 • 5,8333 • 62,1667 = 2 291 - 2 175 = 116,
Jmenovatel = 215 - 6 • 34,0278 = 215 - 204,1667 = 10,8333.
Takže:
Lineární regrese
184
116 10,8333
10,7143.
Výpočet j30:
(3Q = Y - {3{X = 62,1667 - 10,7143 • 5,8333 = 62,1667 - 62,5 = -0,3333. Regresní rovnice:
Ý = -0,3333 + 10,7143X Krok 3: Testování významnosti (i\
Použijeme Excel pro výpočet směrodatné chyby a testování.
V Excelu postupujeme stejně jako v předchozím příkladu. Výsledky mohou být:
Parametr	Odhad	Směr. chyba	t	P-hodnota
h	-0,3333	5,0	-0,0667	0,9494
h	10,7143	0,8660	12,3693	0,0001
Rozhodnutí:
P-hodnota pro /3i je 0,0001, což je menší než a = 0,05. Zamítáme tedy nulovou hypotézu H o : fli = 0. Regresní koeficient (3i je statisticky významný.
□
Regrese nelineární křivkou (okrajově)
Nelineární regresi používáme, když vztah mezi X a, Y není lineární. Příkladem může být exponenciální nebo logaritmická funkce. V praxi často pretransformujeme data, abychom mohli použít lineární regresi (např. logaritmujeme proměnné).
Výpočty v Excelu pomocí modulu Analýza dat - Regrese
Excel poskytuje nástroj Regrese v modulu Analýza dat, který umožňuje snadno provádět regresní analýzu.
185
Statistika a statistické zpracování dat
Postup
1. Vložte data do Excelu, závislou proměnnou Y a nezávislou proměnnou X.
2. Otevřete Analýza dat (na kartě Data).
3. Vyberte Regrese a klikněte na OK.
4. Nastavte vstupní rozsahy pro Y a, X.
5. Zvolte výstupní oblast a další možnosti (např. Rezidua, Normální pravděpodobnostní graf).
6. Klikněte na OK pro zobrazení výsledků.
Interpretace výstupu
Výstup obsahuje:
• Odhady parametrů 0O,
• Směrodatné chyby odhadů.
• Hodnoty ŕ-statistik a P-hodnoty pro testování významnosti.
• Hodnotu R2 a upraveného R2.
• Analýzu rozptylu (ANOVA) pro regresní model.
Praktické cvičení Úkol
Shromážděte data o vztahu mezi cenou produktu a jeho prodejem ve vaší nebo cizí firmě za posledních 12 měsíců. Použijte lineární regresi k analýze vztahu mezi cenou a prodejem.
Postup
1. Získejte data a zorganizujte je do tabulky se sloupci Cena (X) a Prodej (Y).
2. Vložte data do Excelu.
3. Použijte modul Analýza dat - Regrese pro výpočet regresního modelu.
4. Interpretujte odhady parametrů a hodnotu R2.
5. Otestujte významnost regresních koeficientů na hladině významnosti a = 0,05.
Lineární regrese
186
Řešení
Po provedení analýzy interpretujte výsledky v kontextu vašeho podnikání. Pokud zjistíte, že vztah je statisticky významný, navrhněte strategie pro optimalizaci ceny nebo marketingových aktivit.
Závěr
Lineární regrese je základním nástrojem pro analýzu vztahů mezi proměnnými v ekonomii a managementu. Umožňuje kvantifikovat vztahy a předpovídat hodnoty závislé proměnné na základě nezávislé proměnné. Důležité je také umět interpretovat výsledky a ověřit předpoklady modelu, aby byly závěry validní.
OV této kapitole jsme se seznámili s metodou lineární regrese, jejím principem a aplikací. Naučili jsme se odhadovat parametry regresního modelu, interpretovat je a testovat jejich významnost. Důraz byl kladen na praktické použití v Excelu pomocí modulu Analýza dat - Regrese. Také jsme okrajově zmínili nelineární regresi a její využití.
1. Co je to lineární regrese a k čemu slouží?
2. Jaké jsou předpoklady lineární regrese?
3. Jak se odhadují parametry regresního modelu?
4. Co vyjadřuje směrnice přímky 0i) a absolutní člen (/?o)?
5. Co je to koeficient determinace R2 a jak se interpretuje?
6. Jaký je postup při testování významnosti regresních koeficientů?
7. Proč je důležité ověřit předpoklady regresního modelu?
8. Jak lze použít Excel a modul Analýza dat - Regrese pro regresní analýzu?
9. Uveďte příklad aplikace lineární regrese v marketingu.
10. Kdy by bylo vhodné použít nelineární regresi?
11. Ve firmě byly zaznamenány následující data o počtu prodaných kusů (Y) v závislosti na počtu reklamních kampaní (X):
X	1	2	3	4	5
Y	100	150	200	250	300
Proveďte lineární regresi a určete odhady parametrů, [ft = 50, & = 50]
12. Proveďte lineární regresi a určete odhady parametrů a otestujte je.
X	55	55	55	55	65	65	65	75	75	75	85	85	95	95	95
y	3	3,6	4,2	1,8	2,4	3	1,8	2,4	3	1,8	2,4	1,8	2,4	1,8	3
[01
-0,0189 není statisticky významně různé od nuly, zatímco /30 = 3,939 ano]
187
Statistika a statistické zpracování dat
Literatura k tématu:
[1] HINDLS, R. Statistika pro ekonomy. 8. vyd. Praha: Professional Publishing, 2007.
ISBN 978-80-86946-43-6.
[2] JANÁČEK, J. Statistika jednoduše. Grada, 2022. ISBN 978-80-271-1738-3.
[3] MAREK, L. Statistika v příkladech. 2. vyd. Praha: Kamil Mařík - Professional Publishing, 2015. ISBN 978-80-743-1153-6.
[4] OTIPKA, P., SMAJSTRLA, V. Pravděpodobnost a statistika [online]. 1. vydání. Ostrava: VŠB-TU Ostrava, 2007 [cit. 2024-09-09]. ISBN 80-248-1194-4.
Seznam literatury a použitých zdrojů
[1] ANDĚL, J. Statistické metody. 5. vyd. Praha: Matfyzpress, 2019. ISBN 978-80-7378-381-5.
[2] HANSEN, B. Probability and Statistics for Economists. Princeton University Press, 2022. ISBN 9780691236148.
[3] HENDL, J. Základy matematiky, logiky a statistiky pro sociologii a ostatní společenské vědy v příkladech. 3. vyd., Karolinum, 20232. ISBN 978-80-246-5400-3.
[4] HINDLS, R. Statistika pro ekonomy. 8. vyd. Praha: Professional Publishing, 2007. ISBN 978-80-869-4643-6.
[5] HONG, Y. Probability and Statistics for Economists. World Scientific, 2017. ISBN 9789813228818.
[6] JANÁČEK, J. Statistika jednoduše. Grada, 2022. ISBN 978-80-271-1738-3.
[7] KELLER, G. Statistics for Management and Economics. 12th ed., Cengage Learning, 2022. ISBN 9780357714393.
[8] MAREK, L. Statistika v příkladech. 2. vyd. Praha: Kamil Mařík - Professional Publishing, 2015. ISBN 978-80-743-1153-6.
[9] NEUBAUER, J. a SEDLAČÍK, M. Základy statistiky: Aplikace v technických a ekonomických oborech - 3., rozšířené vydání. Grada, 2021. ISBN 978-80-271-3421-2.
[10] OTIPKA, P., SMAJSTRLA, V. Pravděpodobnost a statistika [online]. 1. vydání. Ostrava: VŠB-TU Ostrava, 2007 [cit. 2024-09-09]. ISBN 80-248-1194-4.
[11] ŘEZANKOVÁ, H. a kol. Úvod do statistiky. 2. dotisk 1. vyd., Oeconomica, nakladatelství VŠE, 2019. ISBN 9788024523019.
[12] ZVÁRA, K. a ŠTĚPÁN, J. Pravděpodobnost a matematická statistika. Matfyzpress, 2019. ISBN 978-80-7378-388-4.
188
Seznam obrázků
1 Histogram, krabicový diagram (boxplot) a bodový graf (scatterplot)....... 14
2 Normální rozdělení s vyznačenými procenty oblastí pod křivkou.......... 16
3 Pravděpodobnostní a distribuční funkce k příkladu 4.4 .............. 66
4 Výpočet pravděpodobností na nekonečném intervalu................ 68
5 Výpočet pravděpodobností na konečném intervalu................. 69
6 Graf hustoty pravděpodobnosti / spojité náhodné veličiny X z příkladu 4.6 s vyznačenou oblastí odpovídající pravděpodobnosti na intervalu (1; 2) ...... 70
7 Pravděpodobnostní a distribuční funkce binomického rozdělení pro n = 10 a
p = 0,5......................................... 76
8 Pravděpodobnostní a distribuční funkce hypergeometrického rozdělení pro N =
50, M = 20 a n = 10................................. 78
9 Pravděpodobnostní a distribuční funkce Poissonova rozdělení pro A = 3..... 80
10 Znázornění hustoty a p-kvantilu xp pro spojité rozdělení pravděpodobnosti (viz definici 5.4)...................................... 81
11 Grafy hustot a distribučních funkcí normálního rozdělení s různými rozptyly   . . 83
12 Grafy hustot a distribučních funkcí normálního rozdělení s různými středními hodnotami....................................... 84
13 Grafy hustot a distribučních funkcí Studentova rozdělení pro 2 a 5 stupňů volnosti 86
14 Grafy hustoty a distribuční funkce F-rozdělení pro v\ = 5 a v2 = 10....... 88
15 Grafy hustot a distribučních funkcí chi-kvadrát rozdělení pro v = 3 a v = 10   . . 90
16 Jednostranný test s kritickým oborem (vlevo): (—oo, —2) a akceptačním oborem: (-2;oo)........................................115
17 Jednostranný test s kritickým oborem (vpravo): (2; oo) a akceptačním oborem: (-oo; 2)........................................115
18 Oboustranný test s kritickým oborem (vlevo a vpravo): (—oo; —2,2) U (2,2; oo) a akceptačním oborem: (—2,2; 2,2)...........................116
19 Hustota normálního rozdělení, kritická hodnota a kritická oblast (a = 0,05) pro oboustranný test a hodnota testové statistiky (příklad 7.8)............119
20 Hustota t-rozdělení, kritická hodnota a kritická oblast (a = 0,05) pro jednostranný test a hodnota testové statistiky ležící v kritické oblasti (příklad 7.9) . . 121
21 Hustota t-rozdělení, kritická hodnota a kritická oblast (a = 0,05) pro jednostranný levostranný test a hodnota testové statistiky (příklad Pr3-3).......122
22 Spuštění modulu Analýza dat - Anova jeden faktor v Excelu a žádání dat (příklad 10.1).......................................161
23 Výstup modulu Analýza dat - Anova jeden faktor v Excelu a žádání dat (příklad 10.1).......................................161
189
SEZNAM TABULEK
190
Seznam tabulek
1 Data o firmách .................................... 12
2 Četnosti zdržení se zákazníků v obchodě (intervaly 5 minut)........... 51
3 Vztah mezi pravdou a rozhodnutím soudu ..................... 112
4 Závěry testování hypotéz............................... 116
5 Výsledky běhu na 50 m (ve vteřinách) u skupiny dívek.............. 131
6 Výsledky běhu na 50 m (ve vteřinách) u skupiny chlapců............. 132
7 Výsledky u vybraných vzorků objemu piva (v mililitrech)............. 134
8 Výsledky stanovení thiokyanového iontu ...................... 139
9 Rozdíly di hodnoty thiokyanového iontu ...................... 139
10 Kritické hodnoty D2 pro Kolmogorovův-Smirnovův test dobré shody pro dva výběry......................................... 148
11 Ukázka kritických hodnot pro Dixonův test..................... 151