ZÁKLADY STATISTIKY
STUDIJNÍ OPORA PRO KOMBINOVANÉ STUDIUM
Moravská vysoká škola Olomouc, o.p.s., 2024
ZÁKLADY STATISTIKY
RNDr. Jiří Fišer Ph.D.
© Moravská vysoká škola Olomouc, o. p. s. Autoři:       RNDr. Jiří FIŠER, Ph.D. Olomouc 2024
Obsah
Úvod 8
1 Kombinatorika 10
1.1 Základní pojmy a vlastnosti............................. 12
1.2 Variace......................................... 15
1.2.1 Variace bez opakování............................ 15
1.2.2 Variace s opakováním............................. 16
1.3 Permutace....................................... 17
1.3.1 Permutace bez opakování........................... 17
1.3.2 Permutace s opakováním........................... 17
1.4 Kombinace....................................... 18
1.4.1 Kombinace bez opakování.......................... 19
1.4.2 Kombinace s opakováním........................... 20
1.4.3 Souhrnné příklady .............................. 22
2 Pravděpodobnost jevů 26
2.1 Základní pojmy.................................... 27
2.2 Klasická pravděpodobnost.............................. 28
2.3 Geometrická pravděpodobnost............................ 32
2.4 Statistická pravděpodobnost............................. 34
2.5 Podmíněná pravděpodobnost a nezávislé jevy ................... 35
2.6 Úplná pravděpodobnost a Bayesova věta...................... 38
2.7 Opakované pokusy.................................. 41
2.7.1 Nezávislé pokusy............................... 41
2.7.2 Závislé pokusy ................................ 43
2.8 Souhrnné příklady .................................. 45
3 Náhodná veličina 49
3.1 Rozdělení pravděpodobnosti diskrétní náhodné veličiny.............. 51
3.2 Rozdělení pravděpodobnosti spojité
náhodné veličiny ................................... 55
3.3 Číselné charakteristiky náhodné veličiny ...................... 58
3.4 Kvantilové charakteristiky náhodné
veličiny......................................... 63
4 Základní typy rozdělení pravděpodobnosti diskrétní náhodné veličiny 67
4.1 Binomické rozdělení.................................. 68
4.2 Hypergeometrické rozdělení ............................. 69
4.3 Poissonovo rozdělení................................. 71
4.4 Řešené příklady.................................... 72
5 Základní typy rozdělení pravděpodobnosti spojité náhodné veličiny 76
5
5.1 Normální rozdělení.................................. 77
5.2 Rovnoměrné rozdělení ................................ 80
5.3 Exponenciální rozdělení ............................... 81
5.4 Řešené příklady.................................... 82
6 Náhodný vektor 87
6.1 Dvourozměrný náhodný vektor............................ 88
6.2 Řešené příklady.................................... 90
7 Statistický soubor s jedním argumentem 99
7.1 Základní pojmy a vlastnosti............................. 100
7.2 Rozložení četností................................... 104
7.2.1    Grafické znázornění četností......................... 107
7.3 Charakteristiky polohy a variability......................... 109
7.3.1 Míry polohy.................................. 109
7.3.2 Míry variability................................ 116
7.4 Míry tvaru rozdělení................................. 118
7.5 Řešené příklady.................................... 119
8 Statistický soubor se dvěma argumenty 124
8.1 Základní pojmy.................................... 126
8.2 Tabulkové a grafické zobrazení dvourozměrných dat................ 126
8.3 Míry polohy a variability pro dvourozměrný soubor................ 128
8.3.1 Míry polohy.................................. 128
8.3.2 Míry variability a kovariance......................... 129
8.4 Řešené příklady.................................... 130
8.5 Kontrolní otázky................................... 132
9 Regresní a korelační analýza 133
9.1 Princip korelační analýzy............................... 134
9.2 Princip lineární regrese................................ 137
9.3 Řešené příklady.................................... 140
10 Časové řady 146
10.1 Základní pojmy časových řad ............................ 148
10.2 Typy časových řad.................................. 149
10.3 Analýza časových řad................................. 150
10.4 Charakteristiky časových řad ............................ 151
10.5 Řešené příklady.................................... 152
10.6 Softwarová analýza časových řad .......................... 153
11 Induktivní statistika 158
11.1 Odhady v induktivní statistice............................ 161
11.1.1 Bodový a intervalový odhad průměru (střední hodnoty).......... 162
11.1.2 Bodový a intervalový odhad rozptylu.................... 164
11.2 Řešené příklady.................................... 165
12 Využití softwaru při řešení statistických úloh 169
12.1 Shrnutí práce s MS Excel............................... 170
12.2 Představení Wolfram Alpha a R........................... 173
12.2.1 Srovnání R a Wolfram Alpha ........................ 173
12.2.2 Základní příkazy ve Wolfram Alpha..................... 173
12.2.3 Použití R pro statistické úlohy........................ 175
12.3 Analýza dat z externích zdrojů ........................... 176
12.3.1 Excelovské nástroje pro analýzu akcií.................... 179
12.3.2 Načítání externích statistických dat v R .................. 181
Seznam literatury a použitých zdrojů 184 Seznam obrázků 185 Seznam tabulek 186
Úvod
Vítejte ve světě statistiky
Vítejte ve studijní opoře pro předmět Základy statistiky, určené především studentům bakalářského studia ekonomicky a businessově zaměřených oborů. Skripta vás provedou základními pojmy a metodami statistiky s důrazem na jejich využití při analýze a zpracování dat v praxi.
Tato studijní opora se částečně překrývá s materiály pro navazující studium. V bakalářském studiu klademe důraz zejména na porozumění principům, správnou interpretaci výsledků a samostatné řešení typických úloh. V navazujícím studiu se témata dále rozšiřují (do hloubky i do šířky) a rozvíjejí se pokročilejší aplikace statistiky.
Struktura skript
Kapitoly jsou uspořádány tak, aby na sebe logicky navazovaly a umožnily postupné prohlubování znalostí. Každá kapitola rozvíjí dovednosti potřebné pro zvládnutí témat, která následují.
' Kombinatorika - Základní kombinatorické pojmy (variace, permutace, kombinace). Tyto nástroje jsou klíčové zejména pro pravděpodobnostní výpočty.
' Pravděpodobnost jevů - Základní principy pravděpodobnosti: klasická a geometrická pravděpodobnost, podmíněná pravděpodobnost a Bayesova věta.
' Náhodná veličina a její rozdělení - Pojem náhodné veličiny a rozdělení pravděpodobnosti; diskrétní a spojité rozdělení a jejich základní charakteristiky.
Základní typy rozdělení pravděpodobnosti Vybraná rozdělení často používaná v praxi: binomické, hypergeometrické, Poissonovo a normální rozdělení (včetně typických situací, kde je použít).
' Náhodný vektor - Více náhodných veličin současně: sdružené rozdělení, podmíněná rozdělení, kovariance a korelace (základ pro analýzu vztahů mezi veličinami).
Statistický soubor a jeho analýza - Zpracování dat: třídění, tabulky četností, grafy, charakteristiky polohy a variability.
' Regresní a korelační analýza - Analýza vztahů mezi proměnnými: korelace a jednoduchá regrese jako nástroje pro popis a predikci.
Časové řady - Základy analýzy dat v čase; jednoduché postupy pro popis trendu a sezónnosti.
' Induktivní statistika - Odhady parametrů, intervaly spolehlivosti a testování hypotéz; závěry o populaci na základě výběru.
Využití statistických softwarů - Základní práce se softwarem (zejména MS Excel, dále R a Wolfram Alpha) pro výpočty a prezentaci výsledků.
Každá kapitola obsahuje teoretický výklad i praktické příklady. Cílem je, abyste nejen zvládli výpočty, ale především rozuměli významu a interpretaci získaných výsledků.
Co vás v kapitolách čeká
Každá kapitola začíná stručným uvedením tématu a cíli, kterých byste měli po jejím prostudování dosáhnout. Dále kapitoly obvykle obsahují:
' Teoretický výklad - Vysvětlení pojmů, metod a postupů včetně podmínek jejich použití.
• Řešené příklady - Typické úlohy s postupem řešení.
• Rámečky - Zvýraznění klíčových poznatků a shrnutí postupů.
• Shrnutí - Rekapitulace hlavních bodů kapitoly.
Kontrolní otázky a příklady - Úlohy pro ověření porozumění. U vybraných příkladů jsou uvedeny výsledky v hranatých závorkách pro rychlou kontrolu.
Praktická aplikace a význam softwaru
Statistika jev ekonomické a manažerské praxi nepostradatelným nástrojem. Ve skriptech proto klademe důraz nejen na teorii, ale i na její praktické využití: výběr vhodné metody, správný výpočet a především interpretaci výsledků v kontextu úlohy.
V průběhu studia zjistíte, že statistický software (zejména MS Excel) výrazně usnadňuje výpočty a práci s daty. Pokud zvládnete i základy prostředí R, rozšíříte své možnosti analýzy dat a zvýšíte efektivitu i kontrolu nad postupem výpočtu.
Motivace a podpora
Cílem skript je pomoci vám osvojit si statistiku jako praktický jazyk pro práci s daty. Učte se postupně: nejprve porozumět zadání, zvolit vhodný postup, provést výpočet a na závěr výsledek smysluplně interpretovat. Chyby jsou přirozenou součástí učení; důležité je umět je rozpoznat a opravit.
Věříme, že pro vás budou tato skripta užitečným průvodcem a oporou při studiu i při řešení praktických úloh.
Kapitola 1
Kombinatorika
Po prostudování této kapitoly budete umět:
> rozlišovat mezi variacemi, kombinacemi a permutacemi (s opakováním i bez opakování) ,
• rozpoznat, kdy v úloze záleží na pořadí a kdy nikoli,
• rozlišovat situace s opakováním a bez opakování,
> řešit typové úlohy s využitím pravidla součinu a pravidla součtu (příp. principu inkluze a exkluze).
Klíčová slova:
Kombinatorika, faktoriál, kombinační číslo, variace bez opakování, variace s opakováním, kombinace bez opakování, kombinace s opakováním, permutace bez opakování, permutace s opakováním, pravidlo součinu, pravidlo součtu, princip inkluze a exkluze.
11
Základy statistiky
Náhled kapitoly
Kombinatorika se zabývá počítáním počtu možností, jak vybrat nebo uspořádat prvky z dané množiny. V této kapitole zavedeme a procvičíme tři základní typy úloh:
' permutace (uspořádání všech prvků), > variace (uspořádání vybraných prvků), ' kombinace (výběr bez ohledu na pořadí).
U každého typu budeme rozlišovat, zda se prvky mohou opakovat (výběr s opakováním), nebo nikoli (výběr bez opakování). Základním vodítkem při volbě metody bude odpověď na dvě otázky: Záleží na pořadí? a Je povoleno opakování? Důraz bude kladen na řešení typových úloh, které tvoří přirozený základ pro následující kapitolu o pravděpodobnosti.
Cíle kapitoly
Po prostudování této kapitoly byste měli být schopni:
> rozhodnout, zda je daná situace permutace, variace, nebo kombinace,
> rozlišit úlohy s opakováním a bez opakování,
• správně zvolit a použít odpovídající vzorec a výsledek interpretovat,
řešit typové úlohy s využitím pravidla součinu a pravidla součtu (příp. principu inkluze a exkluze).
Časová náročnost
Doporučený čas na zvládnutí kapitoly je přibližně 3-4 hodiny: přečtení výkladu, průběžné řešení ukázkových příkladů a samostatné procvičení na úlohách na konci kapitoly. Uvedený odhad předpokládá, že cílem není pouze dosadit do vzorce, ale také umět správně rozpoznat typ úlohy.
Kombinatorika
12
í.i    Základní pojmy a vlastnosti
Co je to kombinatorika?
Definice 1.1. Kombinatorika je část matematiky, která se zabývá počítáním počtu možností, jak z dané množiny prvků
• prvky vybrat (výběr) nebo
• prvky uspořádat (uspořádání),
přičemž rozhodujícími otázkami bývá, zda záleží na pořadí a zdaje povoleno opakování
prvků.
Kombinatorika se v základních úlohách nejčastěji opírá o tři pojmy:
• Permutace - uspořádání všech prvků (pořadí rozhoduje).
• Variace - uspořádání vybraných k prvků z n (pořadí rozhoduje).
' Kombinace - výběr k prvků z n bez ohledu na pořadí (pořadí nerozhoduje).
Kombinatorika je důležitým základem zejména pro teorii pravděpodobnosti a statistiku; využití má také v informatice, optimalizaci a kryptografii.
Kombinatorické pravidlo součinu
Definice 1.2. (Kombinatorické) pravidlo součinu říká: lze-li určitý postup rozdělit na k po sobě jdoucích kroků tak, že v i-tém kroku existuje rti možností (pro i = 1,..., k), pak celkový počet možností je
ni-n2.....nk.
Příklad 1.3. V restauraci jsou na výběr 3 druhy předkrmů, 4 druhy hlavních jídel a 2 druhy dezertů. Kolika způsoby lze sestavit menu (předkrm, hlavní jídlo, dezert)?
Řešení: V každém chodu volíme nezávisle jednu možnost, proto použijeme pravidlo součinu:
3 • 4 • 2 = 24.
Menu lze sestavit 24 způsoby. □
13
Základy statistiky
Kombinatorické pravidlo součtu
Definice 1.4. (Kombinatorické) pravidlo součtu říká: lze-li volbu provést buď jedním z ni způsobů nebo jedním z n2 způsobů a tyto možnosti jsou vzájemně neslučitelné (tj. nelze je realizovat současně), potom celkový počet možností je
ni + n2.
Příklad 1.5. V knihovně je 5 beletristických knih a 3 odborné knihy. Kolik různých knih si můžete vybrat, pokud si můžete vzít právě jednu knihu: buď beletrii, nebo odbornou?
Řešení: Možnosti výběru jsou neslučitelné (vybírá se právě jedna kniha), proto platí:
5 + 3 = 8.
Vybrat lze 8 různých knih. □
Princip inkluze a exkluze
Definice 1.6. Princip inkluze a exkluze slouží k určení počtu prvků ve sjednocení množin A1}..., An. Platí
n
\A1uA2u---uAn\ = J2\A\-  E  l^nA,-|+   J2 \Ar\AjnAk\
i=l 1<*<Í<" l<í<j<k<n
----+ (-i)n+1\A1nA2n---nAn\.
Vzorec střídavě přičítá velikosti jednotlivých množin a odčítá velikosti jejich průniků, aby se prvky započítané vícekrát korigovaly.
Speciální případ pro n = 2
Definice 1.7. Pro dvě množiny A a, B platí
\AUB\ = \A\ + \B\ - \Ar\B\.
Příklad 1.8. Ve třídě je 30 studentů. Kurz matematiky navštěvuje 15 studentů, kurz fyziky 10 studentů a oba kurzy 5 studentů. Kolik studentů navštěvuje alespoň jeden z těchto kurzů?
Řešení: Označme M množinu studentů navštěvujících matematiku a F množinu studentů navštěvujících fyziku. Potom
\M U F\ = \M\ + |F| - \M n F\ = 15 + 10 - 5 = 20.
Kombinatorika
14
Alespoň jeden z kurzů navštěvuje 20 studentů. □
Speciální případ pro n = 3
Definice 1.9. Pro tři množiny a, b a c platí
\aubuc\ = \a\ + \b\ + \c\ - \An b\ - \An c\ - \b n c\ + \An b n c\.
Příklad 1.10. V knihovně (oddělení matematiky, fyziky a informatiky) je určitý počet knih. 40 z nich obsahuje kapitoly o matematice, 25 o fyzice a 35 o informatice. Dále 10 knih je současně o matematice i fyzice, 15 o matematice i informatice, 5 o fyzice i informatice a 3 knihy pokrývají všechny tři oblasti. Kolik knih je v oddělení celkem (předpokládejme, že jiné knihy v oddělení nejsou)?
Řešení: Označme M, F, I množiny knih podle toho, zda obsahují kapitoly o matematice, fyzice a informatice. Použijeme vzorec pro tři množiny:
|MUFU I\ = \M\ + |F| + \I\ - \Mr\F\ - \M D I\ - \F D I\ + \M D F D I\.
Dosadíme:
\M U F U I\ = 40 + 25 + 35 - 10 - 15 - 5 + 3 = 73. V oddělení je 73 knih. □
Faktoriál
Definice 1.11. Faktoriál nezáporného	celého čísla n (značíme n\) je definován takto:
, í1'	n = 0,
n\ = {	
[1-2-3	.....n,   n G N, n > 1.
Příklad 1.12. Vypočtěte hodnotu 5!.	
Řešení:	
5! = 1 •	2-3-4-5 = 120.
□
Faktoriál se používá zejména v kombinatorice (např. při výpočtu počtu permutací, variací a kombinací). Hodnota n\ roste s n velmi rychle, proto se ve výpočtech často pracuje se zkracováním výrazů s faktoriály.
15
Základy statistiky
1.2 Variace
Variace jsou uspořádané výběry z dané množiny prvků. Budeme rozlišovat dvě situace:
• bez opakování - každý prvek lze vybrat nejvýše jednou,
• s opakováním - prvky lze vybírat opakovaně.
1.2.1     Variace bez opakování
Příklad 1.13. Vypište všechny uspořádané dvojice ze základní množiny prvků {1, a, B}, pokud se prvky nemohou opakovat. Kolik jich je?
Řešení: Jde o „variace druhé třídy ze tří prvků bez opakování" (též „2-prvkové variace ze tří prvků bez opakování"). Vypíšeme všechny možnosti:
(l,a), (a,l), (1,5), (5,1), (a,B), (B,a).
Celkem tedy dostáváme 6 uspořádaných dvojic. □
Při větších hodnotách n a A; je vypisování všech možností nepraktické. Proto odvodíme vzorec pro počet variací.
Definice 1.14. Variace bez opakování jsou uspořádané fc-prvkové výběry z n prvků, přičemž každý prvek může být vybrán nejvýše jednou. Počet variací k-té třídy z n prvků (bez opakování) je
Vk(n) = 7-T7í = n(n — 1) ■ ■ ■ (n — k + 1).
(n — k )!--„-'
k činitelů
Zde platí 0 < k < n.
Příklad 1.15. Kolik různých uspořádaných trojic lze vybrat z množiny {1, 2, 3,4, 5}, pokud se prvky nemohou opakovat?
Řešení: Jde o variace třetí třídy z pěti prvků bez opakování:
5' 5' 120
V3(5) = -^-^y = - = — = 60,      příp.      V3(5) = 5 • 4 • 3 = 60.
□
Příklad 1.16. Kolika způsoby lze obsadit první tři místa v závodě s 10 účastníky, pokud se o umístění nelze dělit?
Kombinatorika
16
Řešení: Pořadí (1., 2., 3. místo) je rozhodující a každý účastník může obsadit nejvýše jedno místo, proto použijeme variace bez opakování:
10'
V3(10) =--- = 10 • 9 • 8 = 720.
SK   ' (10-3)!
□
1.2.2     Variace s opakováním
Definice 1.17. Variace s opakováním jsou uspořádané fc-prvkové výběry z n prvků, přičemž prvky lze vybírat opakovaně. Počet variací k-té třídy z n prvků s opakováním je
V£ (n) = nk = n ■ n ■ ■ ■ ■ ■ n .
k činitelů
Zde platí fc>0an> 1.
Příklad 1.18. Kolik různých trojciferných čísel lze vytvořit pomocí cifer 1,2,3,4,5, pokud se cifry mohou opakovat?
Řešení: Na každé ze tří pozic lze zvolit jednu z 5 cifer, opakování je dovoleno, proto:
V* (5) = 53 = 125.
□
Příklad 1.19. Kolik různých čtyřmístných PIN kódů lze vytvořit, pokud každé místo může obsahovat cifru od 0 do 9 a cifry se mohou opakovat?
Řešení: Jde o variace s opakováním, kde n = 10 a k = 4:
17(10) = 104 = 10 000.
□
Příklad 1.20. Kolik různých značek lze vytvořit v Morseove abecedě, pokud se sestavují z teček a čárek do skupin o délce 1 až 3?
Řešení: Základní množina má n = 2 znaky (tečka a čárka) a opakování je dovoleno. Počet značek délky k je V£(2) = 2k. Protože délky 1, 2 a 3 představují neslučitelné případy, použijeme pravidlo součtu:
V* (2) + V2*(2) + V;{2) = 21 + 22 + 23 = 2 + 4 + 8 = 14.
□
17
Základy statistiky
1.3 Permutace
Permutace jsou uspořádání všech prvků dané množiny. Jde o speciální případ variací, kdy vybíráme k = n prvků, takže pořadí vždy rozhoduje. Budeme rozlišovat permutace bez opakování (všechny prvky jsou různé) a s opakováním (některé prvky se opakují a jsou nerozlišitelné).
1.3.1     Permutace bez opakování
Definice 1.21. Permutace bez opakování jsou uspořádání všech n navzájem různých prvků. Počet permutací je
P(n) = n\.
Příklad 1.22. Vypište všechny permutace množiny prvků {l,a,B} a ověřte, že jejich počet odpovídá vzorci.
Řešení: Vypíšeme všechny možnosti uspořádání tří různých prvků:
(l,a,B), (l,B,a), (a,l,B), (a,B,l), (B,l, a), (B,a,l). Celkem je permutací 6, což odpovídá P(3) = 3! = 6. □ Příklad 1.23. Kolika způsoby lze uspořádat 6 různých knih na polici?
Řešení: Jde o permutace šesti prvků:
P(6) = 6! = 720.
□
1.3.2     Permutace s opakováním
Definice 1.24. Permutace s opakováním nastávají tehdy, když v souboru n prvků se některé prvky opakují a jsou nerozeznatelné. Nechť existuje k typů prvků a i-tf typ se opakuje n^-krát, kde
n = ni + n2 H-----h nk.
Počet různých uspořádání je
p* (n) =___
ni'n2'-'nfel ; m!n2!---Tifc!'
Vzorec zohledňuje, že prohození dvou stejných prvků nevytváří nové uspořádání.
Kombinatorika
18
Příklad 1.25. Vypište všechny permutace multmnožiny {l,a,a} a ověřte, že jejich počet odpovídá vzorci.
Řešení: Rozlišitelná uspořádání jsou:
(l,a, a), (a, l,a), (a, a, 1).
Celkem jsou 3. Zde je n = 3, prvek 1 se vyskytuje jednou (ni = 1) a prvek a dvakrát (n2 = 2), proto
3! 6
K^) = ^ = 2 = 3.
□
Příklad 1.26. Kolik různých šesticiferných čísel lze vytvořit z číslic 1,1,2,2,2,3?
Řešení: Máme n = 6 číslic, přičemž 1 se opakuje dvakrát, 2 třikrát a 3 jednou, tedy (ni,ri2, n^) = (2,3,1):
6' 72D
□
Příklad 1.27 (Uspořádání písmen ve slově). Kolik různých uspořádání písmen lze vytvořit ze všech deseti písmen slova STATISTIKA"?
Řešení: Ve slově STATISTIKA je n = 10 písmen. Počty opakování jsou:
S:2,   T:3,    A : 2,    J : 2,    K : 1.
Proto
,   x 10! 3 628 800     3 628 800 „
P*        10 =.....=-=-= 75 600.
2,3,2,2,11   ;    2!3!2!2!1!    2-6-2-2 48
Celkem lze vytvořit 75 600 různých uspořádání. □
Příklad 1.28 (Tvorba řad korálků). Máme 8 korálků, z nichž 4 jsou červené, 3 modré a 1 zelený. Kolik různých řad (lineárních uspořádání) korálků lze vytvořit, pokud korálky stejné barvy nerozlišujeme?
Řešení: Jde o permutace s opakováním: n = 8, počty opakování jsou (4, 3,1), tedy
P* (*)- 81 - 40320 - 280 Pw(8) - 4!3!i! - ŠÍT ~ 280'
□
i.4 Kombinace
Kombinace jsou výběry prvků z dané množiny, při kterých nezáleží na pořadí. Budeme rozlišovat kombinace bez opakování (každý prvek lze vybrat nejvýše jednou) a kombinace s opakováním (prvky lze vybírat opakovaně).
19
Základy statistiky
Kombinační číslo
Definice 1.29. Kombinační číslo (binomický koeficient) {J^j udává počet způsobů, jak vybrat k prvků z n různých prvků bez opakování a bez ohledu na poradí. Pro 0 < k < n platí
/ n\ n\
k) k\(n-k)V
Příklad 1.30. Vypočítejte kombinační číslo
Řešení: Použijeme vzorec a vhodně zkrátíme:
Í7\      7!      7-6-5-4!     7-6-5 210
,3/     3! 4!     (3-2-1)4!     3-2-1 6
35.
□
1.4.1     Kombinace bez opakování
Definice 1.31. Kombinace bez opakování je výběr k prvků z n různých prvků, kde na pořadí nezáleží a každý prvek lze vybrat nejvýše jednou. Počet takových výběrů je
c'<n) = (ľ) = kňétyr   0 ^
Pozn.: V literatuře se často používá místo Ck{n) přímo zápis
k r
Příklad 1.32. Najděte všechny kombinace druhé třídy bez opakování z množiny M = {1,2,3,4, 5}. Řešení: Počet kombinací je
Jednotlivé dvojice (bez ohledu na pořadí) jsou:
{1, 2}, {1, 3}, {1,4}, {1,5}, {2, 3}, {2,4}, {2, 5}, {3,4}, {3, 5}, {4, 5}.
□
Příklad 1.33. Kolik různých pětičlenných týmů lze vybrat ze skupiny 12 studentů?
Kombinatorika
20
Řešení: Pořadí členů týmu nerozhoduje, proto použijeme kombinace bez opakování:
C,(12) = H = ^ = 12-U-10-9-8 = 792. 5V   ;     V5/     5!7! 5-4-3-2-1
□
Příklad 1.34. Kolika způsoby lze vybrat 3 knihy z police, která obsahuje 7 různých knih? Řešení: Pořadí vybraných knih nerozhoduje:
C(7)=(3=35.
□
Příklad 1.35. Kolika způsoby lze sestavit výbor složený ze 4 mužů a 3 žen, pokud máme k dispozici 8 mužů a 5 žen?
Řešení: Nejprve vybereme 4 muže z 8: Poté vybereme 3 ženy z 5:
. o-*
Podle pravidla součinu je celkový počet možností
□
1.4.2     Kombinace s opakováním
Definice 1.36. Kombinace s opakováním jsou výběry k prvků z n různých prvků, kde nezáleží na pořadí a opakování je dovoleno. Jinými slovy: vybíráme k prvků tak, že stejný prvek může být vybrán i vícekrát.
Počet kombinací s opakováním k-té třídy z n prvků je
ck(n) = \       i = ,      = Vtt-7T7-,       n> 1, k > 0.
ky '     \     k     )     \   ra-1   y      fc (n-l) ~ ~
Příklad 1.37. Najděte všechny kombinace druhé třídy s opakováním z množiny M = {1,2,3,4, 5}.
21
Základy statistiky
Řešení: Zde jen = 5aA; = 2, proto
Jednotlivé kombinace (bez pořadí, s možností opakování) jsou:
{1,1}, {1,2}, {1,3}, {1,4}, {1,5}, {2,2}, {2, 3}, {2,4}, {2, 5}, {3, 3}, {3,4}, {3, 5}, {4,4}, {4, 5}, {5,5}. Celkem tedy existuje 15 kombinací druhé třídy s opakováním. □
Příklad 1.38. Kolika způsoby lze vybrat 4 bonbóny ze 3 různých druhů, pokud nezáleží na pořadí a bonbóny se mohou opakovat?
Řešení: Jde o kombinace s opakováním (n = 3, k = 4):
□
Příklad 1.39. Kolika způsoby lze rozdělit 10 jablek mezi 3 děti, pokud každé dítě může dostat libovolný počet jablek?
Řešení: Označme xi,X2,xs počet jablek pro jednotlivé děti. Hledáme počet řešení v nezáporných celých číslech rovnice
Xi + X2 + X% = 10.
To je ekvivalentní kombinacím s opakováním (n = 3, k = 10), tedy
□
Příklad 1.40. Kolika způsoby lze rozdělit 8 identických bonbónů mezi 4 děti?
Řešení: Analogicky hledáme počet řešení v nezáporných celých číslech rovnice X1+X2+X3+X4 = 8. Proto
□
Příklad 1.41. Kolika způsoby lze vybrat 6 květin z 5 druhů, pokud se mohou opakovat? Řešení: Jde o kombinace s opakováním (n = 5, k = 6):
□
Příklad 1.42. Zjistěte, kolik existuje různých kvádrů, pro něž platí, že délka každé hrany je přirozené číslo z intervalu [2; 5], přičemž nezáleží na pořadí stran.
Kombinatorika
22
Řešení: Délky hran kvádru můžeme popsat trojicí (a,b,c), kde a,b,c G {2,3,4,5} a nezáleží na pořadí (tj. trojice (2,3,5) je totéž co (5,3,2)). Jde tedy o výběr 3 prvků z 4 hodnot s opakováním: n = 4, k = 3.
Celkem existuje 20 různých kvádrů. □
1.4.3    Souhrnné příklady
Příklad 1.43. Jsou dány cifry 1,2,3,4,5. Cifry nelze opakovat. Kolik je možno vytvořit z těchto cifer čísel, která jsou:
• a) pětimístná, sudá,
b) pětimístná, končící dvojčíslím 21,
• c) pětimístná, menší než 30 000,
• d) trojmístná, lichá,
• e) čtyřmístná, větší než 2 000,
• f) dvojmístná nebo trojmístná.
Řešení: ad a) Pětimístné sudé číslo musí končit cifrou 2 nebo 4 (2 možnosti). Zbylé čtyři pozice vyplníme permutací zbývajících čtyř cifer:
2 • P(4) = 2 • 4! = 2 • 24 = 48.
ad b) Číslo má tvar XXX21. Na první tři pozice lze dosadit libovolné uspořádání tří zbývajících cifer:
P(3) = 3! = 6.
ad c) Podmínka „menší než 30 000" znamená, že první cifra je 1 nebo 2 (2 možnosti). Zbylé čtyři pozice vyplníme permutací zbývajících čtyř cifer:
2 • P(4) = 48.
ad d) Trojmístné liché číslo musí končit cifrou 1, 3 nebo 5 (3 možnosti). Zbylé dvě pozice obsadíme dvěma různými ciframi ze zbývajících čtyř, přičemž pořadí rozhoduje (variace bez opakování):
3 • \/2(4) = 3 • (4 • 3) = 36.
ad e) Čtyřmístné číslo větší než 2 000 má tisíce 2, 3, 4 nebo 5 (4 možnosti). Zbylé tři pozice obsadíme třemi různými ciframi ze zbývajících čtyř, pořadí rozhoduje:
4 ■ \/3(4) = 4 • (4 • 3 • 2) = 96.
23
Základy statistiky
ad f) Hledáme počet dvojmístných nebo trojmístných čísel (neslučitelné případy), proto použijeme pravidlo součtu:
V2(5) + V3(5) = (5 • 4) + (5 • 4 • 3) = 20 + 60 = 80.
□
Příklad 1.44. Kolik různých státních poznávacích značek tvaru 4M9 XX-XX existuje s alespoň dvěma trojkami? (Na místech X mohou být jen číslice.)
Řešení: Na čtyřech pozicích X počítáme řetězce číslic s alespoň dvěma trojkami, tj. s právě 2,
3 nebo 4 trojkami. Označme xr počet značek s právě r trojkami.
4 trojky: jediná možnost 33-33, tedy
x 4 = 1.
3 trojky: zvolíme pozici, na které není trojka (4 možnosti). Na zbývající pozici lze dát jednu z 9 číslic {0,1,2,4,5,6,7,8,9}:
x3 = Q • 9 = 4 • 9 = 36.
(Pozn.: ekvivalentně x3 =      ■ 9.)
2 trojky: nejprve zvolíme, na kterých 2 pozicích jsou trojky: ^) = 6 možností. Zbylé dvě pozice vyplníme libovolnými číslicemi z množiny 9 možností, přičemž opakování je dovoleno a pořadí pozic je dáno (variace s opakováním):
x2 = Q . g2 = 6 • 81 = 486.
Celkový počet požadovaných značek je
x = x2 + x3 + x4 = 486 + 36 + 1 = 523.
□
OV této kapitole jsme se seznámili se základními pojmy kombinatoriky, tj. s metodami pro počítání počtu možností výběru a uspořádání prvků. Klíčovým krokem při řešení úloh bylo vždy rozhodnout, zda záleží na pořadí a zda je dovoleno opakování.
Probrali jsme tři základní typy úloh:
• Variace - uspořádané výběry k prvků z n (pořadí rozhoduje), a to bez opakování i s opakováním.
• Permutace - uspořádání všech n prvků (speciální případ variací pro k = n), opět bez opakování i s opakováním.
• Kombinace - výběry k prvků z n bez ohledu na pořadí (pořadí nerozhoduje), bez opakování i s opakováním.
Kombinatorika
24
Dále jsme používali základní principy pro počítání počtu možností:
' Pravidlo součinu - pro postupy složené z několika po sobě jdoucích kroků (násobení počtu možností v jednotlivých krocích).
' Pravidlo součtu - pro volbu z několika vzájemně neslučitelných možností (sčítání počtu možností).
' Princip inkluze a exkluze - pro výpočet počtu prvků ve sjednocení množin se zohledněním průniků.
Cílem kapitoly bylo, abyste uměli správně rozpoznat typ úlohy, zvolit odpovídající postup a výsledek interpretovat.
1. Státní poznávací značku tvoří dvě písmena, tři číslice a další dvě písmena (formát AAXXXAA, kde A je písmeno a X číslice). Kolik různých značek lze vytvořit, pokud můžeme vybírat z 25 písmen a 10 číslic?   [390 625 000]
2. Kolik různých šestimístných čísel lze sestavit z cifer 1, 2 a 3, pokud se cifry mohou opakovat? [729]
3. V MHD se kdysi používaly lístky s devíti čtverečky označenými čísly 1 až 9. Po nastoupení cestující zasunul lístek do strojku, který prodírkoval tři nebo čtyři z nich (specificky pro dané vozidlo a den). Kolik je různých způsobů produkování lístku? [210]
4. Kolika způsoby mohou sedět v kině sedm kamarádů (A, B, C, D, E, F, G) na sedadlech 1 až 7 tak, aby kamarád B seděl na sedadle č. 4 a kamarád G na sedadle č. 2? [120]
5. Do tanečního kroužku přišlo 24 chlapců a 15 dívek. Kolik různých párů lze vytvořit, pokud pár tvoří vždy dvojice chlap ec-dívka? [360]
6. Ve třídě je 20 žáků. Kolika způsoby lze vybrat dvojici pro týdenní službu? [190]
7. Kolik hráčů se zúčastnilo turnaje ve stolním tenise, pokud se ve dvouhře odehrálo 21 utkání a každý hráč hrál s každým právě jednou? [7]
8. Ve třídě je 20 dívek a 15 chlapců. Kolik různých pětičlenných hlídek na branné závody lze vytvořit, pokud v každé hlídce mají být 3 dívky a 2 chlapci?   [119 700]
9. Hokejové družstvo má 20 hráčů: 13 útočníků, 5 obránců a 2 brankáře. Kolik různých sestav může trenér vytvořit, pokud sestava má obsahovat 3 útočníky, 2 obránce a 1 brankáře?   [5 720]
10. Učitel má k dispozici 20 aritmetických a 30 geometrických úloh. Na písemné práci mají být dvě aritmetické a tři geometrické úlohy. Kolik má učitel možností k vytvoření písemné práce?   [771400]
11. Ze 7 mužů a 4 žen máme vytvořit 6člennou skupinu, ve které mají být 3 ženy. Kolika způsoby lze takovou skupinu vytvořit? [140]
12. Učitel má vybrat na recitační soutěž tři studenty ze třídy 3.A a dva studenty ze třídy 3.B. V 3. A je 22 studentů a v 3.B je 17 studentů. Kolik má učitel možností výběru? [209440]
13. Kolik existuje způsobů, jak uspořádat sedadla pro kamarády A, B, C, D a E tak, aby kamarád A seděl vedle kamaráda C? [48]
25
Základy statistiky
14. Latinská abeceda má 26 písmen. Kolik různých ôpísmenných „slov" lze vytvořit, pokud se písmena mohou opakovat?   [308 915 776]
15. Státní poznávací značka tvoří 7 znaků. Na prvních třech pozicích může být číslice nebo písmeno, na zbývajících čtyřech jen číslice. Kolik různých značek lze vytvořit, pokud použijeme 28 písmen a 10 číslic?   [548 720 000]
16. Na hodině tělesné výchovy stojí v řadě 5 dívek, z nichž dvě jsou sestry. Kolika způsoby lze rozestavit dívky tak, aby sestry stály vedle sebe? [48]
Literatura k tématu:
[1] OTIPKA, P., SMAJSTRLA, V. Pravděpodobnost a statistika [online]. 1. vydání. Ostrava: VŠB-TU Ostrava, 2007 [cit. 2024-09-09]. ISBN 80-248-1194-4. Dostupné z: https://homel.vsb.cz/~oti73/cdpastl/
[2] CALDA, E., DUPAC, V. (2008). Matematika pro gymnázia: Kombinatorika, pravděpodobnost, statistika (5. vydání, dotisk 2011). Praha: Prométheus. ISBN 978-80-7196-365-3.
Kapitola 2
Pravděpodobnost jevů
Po prostudování této kapitoly budete umět:
' objasnit pojmy náhodný pokus, náhodný jev, operace s jevy a jejich použití, • představit klasickou a geometrickou pravděpodobnost,
> řešit typové úlohy z oblasti pravděpodobnosti včetně podmíněné pravděpodobnosti, nezávislosti a Bayesovy věty.
Klíčová slova:
Náhodný pokus, náhodný jev, klasická pravděpodobnost, geometrická pravděpodobnost, operace s jevy, podmíněná pravděpodobnost, nezávislé jevy, úplná pravděpodobnost, Ba-yesova věta.
27
Základy statistiky
Náhled kapitoly
V této kapitole se zaměříme na základní pojmy a pravidla teorie pravděpodobnosti, která tvoří výchozí rámec pro následné statistické metody. Nejprve zavedeme pojmy náhodný pokus a náhodný jev a ukážeme si, jak s jevy pracovat pomocí základních operací (sjednocení, průnik, doplněk). Poté představíme klasickou a geometrickou pravděpodobnost a procvičíme je na typových příkladech.
Dále se budeme věnovat podmíněné pravděpodobnosti a pojmu nezávislosti jevů, které umožňují analyzovat složitější situace. Kapitolu uzavřeme pravidlem úplné pravděpodobnosti a Bayesovou větou, jež jsou klíčové pro řadu aplikací (např. aktualizace pravděpodobností na základě nové informace).
Cíle kapitoly
Po prostudování této kapitoly byste měli být schopni:
• definovat náhodný pokus a náhodný jev a pracovat s operacemi s jevy,
• používat klasickou a geometrickou pravděpodobnost v typových úlohách,
• vypočítat podmíněnou pravděpodobnost a rozhodnout o nezávislosti jevů,
• aplikovat pravidlo úplné pravděpodobnosti a Bayesovu větu.
Časová náročnost
Doporučený čas na zvládnutí kapitoly je přibližně 4-5 hodin (výklad + průběžné řešení příkladů + samostatné procvičení).
2.1    Základní pojmy
Definice 2.1. Náhodný pokus je opakovatelný proces, jehož výsledek nelze předem jednoznačně určit, i když jsou podmínky pokusu stejné. Množinu všech možných výsledků náhodného pokusu nazýváme prostor elementárních jevů a označujeme ji íl.
Například při hodu hrací kostkou je Q = {1, 2, 3,4, 5,6}.
Definice 2.2. Náhodný jev je podmnožina prostoru elementárních jevů, tedy A C fž. Řekneme, že jev A nastal, právě když výsledek náhodného pokusu patří do A.
Například při hodu kostkou může být jev A „padne sudé číslo", tedy A = {2,4,6}.
Pravděpodobnost jevů
28
Druhy náhodných jevů
Definice 2.3. Nechť A, B C Q jsou náhodné jevy.
' Jev jistý je jev, který nastane vždy. Platí A = Q a jeho pravděpodobnost je
P(Q) = 1.
' Jev nemožný je jev, který nikdy nenastane. Platí A = 0 a jeho pravděpodobnost je
P(0) = 0.
' Jev elementární je jev, který obsahuje právě jeden výsledek, tj. má tvar {co} pro nějaké co G Q.
• Jev složený je jev, který obsahuje alespoň dva výsledky.
• Doplněk jevu A (opačný jev) je jev
Ac = Q \ A,
tj. nastane právě tehdy, když jev A nenastane.
' Neslučitelné (disjunktní) jevy A a, B jsou takové, že nemohou nastat současně, tedy
in5 = 0.
• Slučitelné jevy A a B jsou takové, že mohou nastat současně, tedy
A n B ^q>.
2.2    Klasická pravděpodobnost
Definice 2.4. Nechť náhodný pokus má konečný prostor elementárních jevů Q a nechť všechny elementární výsledky jsou stejně pravděpodobné (rovnoměrný model). Potom klasická pravděpodobnost jevu A je
p^j^ počet příznivých výsledků
celkový počet možných výsledků Pozn.: Pokud si prostor výsledků zapisujeme jako množinu, pak „počet prvků množiny" se
|íí|-
značí \A\ a |íž| a lze psát také P (A) — —
29
Základy statistiky
Kdy lze použít klasickou pravděpodobnost?
Q je konečná a její prvky (elementární jevy) jsou jednoznačně určeny.
Všechny elementární jevy jsou stejně pravděpodobné (např. férová kostka, férová mince).
Pozn.: Nezávislost opakovaných pokusů není předpokladem samotného vzorce P (A) \A\/\Q\; je důležitá až při modelování více pokusů (např. dva hody kostkou).
Příklad 2.5. Hod hrací kostkou je klasickým příkladem náhodného pokusu. Popište prostor elementárních jevů a uveďte příklady jevů.
Řešení: Náhodný pokus: hod hrací kostkou. Prostor elementárních jevů je
íl = {1,2,3,4,5,6}.
Příklady náhodných jevů:
• A = {1,3,5}: „padne liché číslo", B = {4,5,6}: „padne číslo > 4",
• 0: „padne číslo > 6" (jev nemožný),
• Q: „padne číslo mezi 1 a 6" (jev jistý),
> jevy „padne sudé číslo" a „padne liché číslo" jsou neslučitelné, protože jejich průnik je prázdný.
□
Příklad 2.6. Při hodu kostkou určete pravděpodobnost jevů:
• a) A: „padne číslo 5",
• b) B: „padne číslo < 2".
Řešení: Protože všechny výsledky jsou stejně pravděpodobné a |fž| = 6, dostáváme:
□
Příklad 2.7. S jakou pravděpodobností padne při hodu dvěma hracími kostkami součet:
• a) 6,
Pravděpodobnost jevů
30
b) menší než 7?
Řešení: Uvažujme uspořádané dvojice kde i je výsledek na první kostce a j na druhé.
Platí      = 6 • 6 = 36.
ad a) Součet 6 nastane pro pět dvojic:
(1,5),(2,4),(3,3),(4,2),(5,1).
Proto
5
P(součet 6) = ^7.
ad b) Součet menší než 7 znamená součet 2,3,4,5 nebo 6. Počty možností jsou postupně 1, 2, 3,4, 5, celkem tedy 1 + 2 + 3 + 4 + 5 = 15 příznivých dvojic. Proto
15 5 P(součet < 7) = - = -.
□
Příklad 2.8. V cele předběžného zadržení sedí vedle sebe 10 podezřelých, z toho 3 ženy. Jaká je pravděpodobnost, že všechny tři ženy sedí vedle sebe?
Řešení: Uvažujme všechna možná uspořádání 10 různých osob v řadě. Celkový počet uspořádání je
n = 10!.
Aby všechny tři ženy seděly vedle sebe, budeme je chápat jako jeden „blok". Pak máme celkem 8 objektů (blok žen + 7 mužů), které lze uspořádat v řadě
způsoby. Uvnitř bloku se ženy mohou prohodit
3!
způsoby. Počet příznivých uspořádání je tedy
m = 8! • 3!.
Hledaná pravděpodobnost je
m    8! • 3!       6 1
n       10!      10-9 15'
□
Příklad 2.9. Stanovte pravděpodobnost jevu, že z 10 náhodně vytažených bridžových karet budou alespoň 3 esa. (V balíčku je 52 karet, z toho 4 esa.)
Řešení: Označme A jev „vytáhneme alespoň 3 esa". To znamená „vytáhneme právě 3 esa" nebo „vytáhneme právě 4 esa". Tyto případy jsou neslučitelné, proto
P(A) = P(A3) + P(A4),
kde As je jev „právě 3 esa" a A4 je jev „právě 4 esa".
Celkový počet výběrů 10 karet z 52 je (^). Dále:
31
Základy statistiky
pro A3 vybíráme 3 esa ze 4 a zbylých 7 karet z 48 ne-es, pro At vybíráme všechna 4 esa a zbylých 6 karet z 48 ne-es.
Proto
(4\ /48\ /4\ f 48
= ^7^'     p(^) = ^ (9 Co
a tedy
/4\ /48\   ,   /4\ /48
P(A)
3/ V 7 / _ V4/ V 6
52 10
□
Příklad 2.10. Při slosování sportky je z osudí vylosováno 6 čísel ze 49. Poté je ze zbývajících 43 čísel vylosováno dodatkové číslo. Při správném tipování:
• a) šesti čísel získává sázející výhru 1. pořadí,
• b) pěti čísel a dodatkového čísla (5+1) získává sázející výhru 2. pořadí,
• c) pěti čísel získává sázející výhru 3. pořadí,
• d) čtyř čísel získává sázející výhru 4. pořadí,
• e) tří čísel získává sázející výhru 5. pořadí.
Vypočítejte pravděpodobnosti, se kterými při vsazeném jednom sloupci vyhrajete v 1. tahu výhry a)-e).
Řešení: V jednom sloupci tipujeme 6 čísel. Základní počet všech možných šestic je
/49\
M = 13 983 816.
ad a)  (6 správných) Jediný příznivý případ je, že tipovaná šestice je přesně vylosovaná:
1
P(6)
ad b) (5+1) Tipujeme 5 čísel z vylosované šestice a zároveň tipujeme dodatkové číslo. To lze provést
0-0-
způsoby, proto
fe\ íi
P(5 + 1)
51 VI
49\ /49
Pravděpodobnost jevů
32
ad c) (5 správných, bez dodatkového) Tipujeme 5 čísel z vylosované šestice a šesté tipované číslo musí být z ostatních 43 čísel, která nejsou vylosována v hlavní šestici ani jako dodatkové:
„51     (3(?) **
ad d) (4 správná) Tipujeme 4 čísla z vylosované šestice a zbývající 2 tipovaná čísla volíme z oněch 43 nevylosovaných čísel:
ad e) (3 správná) Tipujeme 3 čísla z vylosované šestice a zbývající 3 tipovaná čísla volíme z 43 nevylosovaných čísel:
□
2.3    Geometrická pravděpodobnost
Definice 2.11. Geometrická pravděpodobnost je model, ve kterém jsou všechny výsledky náhodného pokusu rovnoměrně rozloženy v nějaké geometrické oblasti (např. na úsečce, v rovině nebo v prostoru). Pravděpodobnost jevu A se pak určuje jako poměr míry příznivé části k míře celé oblasti:
délka / plocha / objem příznivé části délka / plocha / objem celé oblasti
Používáme ji typicky tehdy, když výsledek pokusu závisí na spojité veličině (čas, poloha bodu, úhel apod.).
Příklad 2.12. Jaká je pravděpodobnost, že meteorit dopadne na pevninu, víme-li, že pevnina má rozlohu 149 milionů km2 a moře 361 milionů km2?
Řešení: Celková plocha (pevnina + moře) je
S = 149 + 361 = 510 milionů km2.
Pravděpodobnost dopadu na pevninu určíme jako poměr ploch:
149
P(pevnina) = -« 0,2922.
510
□
33
Základy statistiky
Příklad 2.13. Je dán kruh o poloměru 10 cm. Uvnitř je vyznačena kruhová oblast o poloměru 5 cm. Jaká je pravděpodobnost, že náhodně zvolený bod z většího kruhu padne do menšího kruhu?
Řešení: Plocha většího kruhu je
5Ut$í = 7T • 102 = 1007T cm2,
plocha menšího kruhu je
umenší = 7T • 52 = 257T Clil2.
Hledaná pravděpodobnost je poměr ploch:
p _ umenší _   257T _ Svétši 1007T
□
Příklad 2.14. Dva známí se domluví, že se sejdou na určitém místě mezi 15:00 a 16:00. Každý z nich po příchodu čeká nejvýše 20 minut. Jaká je pravděpodobnost, že se setkají?
Řešení: Označme x čas (v minutách po 15:00), kdy přijde první osoba, a y čas příchodu druhé osoby. Předpokládáme rovnoměrné a nezávislé příchody, tedy (x,y) je rovnoměrně rozložen v čtverci [0,60] x [0,60].
Setkají se právě tehdy, když
\x-y\< 20.
Celková plocha čtverce je
Sn = 60 • 60 = 3600.
Nevyhovující oblasti tvoří dva shodné pravoúhlé trojúhelníky v rozích čtverce (nad přímkou y = x + 20 a pod přímkou y = x — 20). Každý má odvěsny délky 40, tedy obsah
Stroj = \ • 40 • 40 = 800. Celková nevyhovující plocha je 2 • 800 = 1600, a proto příznivá plocha je
SA = 3600 - 1600 = 2000.
Hledaná pravděpodobnost je
netkají Se) = fl = ^ = 5 « 0,5556. Sq     3600 9
□
Pravděpodobnost jevů
34
2.4    Statistická pravděpodobnost
Definice 2.15. Statistická pravděpodobnost (frekventistické pojetí) vychází z relativní četnosti výskytu jevu při opakování téhož náhodného pokusu. Označme n počet provedených pokusů a Nn(A) počet pokusů, ve kterých nastal jev A. Relativní četnost jevu A je
HA) - ^
n
Je-li možné uvažovat dlouhou řadu pokusů za stejných podmínek, pak pravděpodobnost jevu A chápeme jako limitu relativní četnosti:
P (A) = lim u A) = lim ^ľÍS..
n—í-oo n—í-oo yi
V praxi pracujeme s odhadem P (A) ~ fn(A) pro velké n.
Kdy má statistická pravděpodobnost smysl?
• pokus lze opakovat za (přibližně) stejných podmínek,
> jednotlivá opakování lze považovat za nezávislá a stejně rozdělená (i.i.d. model), pro dostatečně velké n se relativní četnosti stabilizují (zákon velkých čísel).
Statistická pravděpodobnost je vhodná tehdy, když máme k dispozici data z opakovaných pozorování a chceme na jejich základě odhadnout pravděpodobnosti jevů.
Poznámka k diskrétním a spojitým situacím
' Diskrétní situace: Jevy často odpovídají konkrétním hodnotám (např. „padne 6"). Pravděpodobnosti lze odhadovat relativními četnostmi jednotlivých hodnot.
Spojitá situace: Pro spojitou náhodnou veličinu je pro každou konkrétní hodnotu typicky P(X = x) = 0. Odhady proto děláme pro intervaly (např. P(170 < X < 175)) pomocí četností v intervalech; při jemnějším dělení intervalů pak přecházíme k pojmu hustoty pravděpodobnosti.
Příklad 2.16 (spojitý případ). Sledujme dobu, po kterou se zákazníci zdržují v obchodě. Čas pobytu byl zaznamenán a rozdělen do intervalů o délce 5 minut. Data o četnostech pro jednotlivé intervaly shrnuje tabulka:
Určete statistické pravděpodobnosti pro jednotlivé intervaly.
Řešení: Celkem bylo sledováno n = 200 zákazníků. Statistické pravděpodobnosti odhadneme
35
Základy statistiky
Tab. 1: Četnosti doby pobytu zákazníků v obchodě (intervaly 5 minut)
Interval (min)	Četnost
<0;5)	77
(5; 10)	83
(10; 15)	25
(15; 20)	15
Celkem	200
relativními četnostmi:
P«0;5))
77 2ÔÔ
0,385,
25
P«10;15))« —= 0,125
P«5; 10))
83 2ÔÔ
0,415,
15
P«15;20))« — = 0,075.
Odhady tvoří rozdělení pravděpodobnosti na zvolených intervalech (součet je 1).
□
2.5    Podmíněna pravděpodobnost a nezávislé jevy
Podmíněná pravděpodobnost
Definice 2.17. Podmíněná pravděpodobnost je pravděpodobnost jevu A za předpokladu, že nastal jev B. Označuje se P{A\B) a je definována jako:
P{A\B) = P{^\   pokud P(P)>0.
Tento koncept je užitečný v mnoha praktických situacích, například při odhadu pravděpodobnosti úspěchu produktu na trhu, pokud víme, že byl úspěšný v podobném segmentu.
Nezávislé jevy
Definice 2.18. Nezávislé jevy jsou takové jevy, jejichž výskyt jeden druhého neovlivňuje. To znamená, že pravděpodobnost výskytu jednoho jevu neovlivňuje pravděpodobnost výskytu druhého jevu. Pokud jsou dva jevy A a, B nezávislé, pak platí následující rovnost:
P(Af]B) =P(A)-P(B).
Pravděpodobnost jevů
36
Tato rovnost říká, že pravděpodobnost současného výskytu jevů A a B (jejich průniku) je součinem pravděpodobností jednotlivých jevů. Nezávislost je důležitý koncept, který se často vyskytuje v reálných situacích, například při opakovaných náhodných pokusech, jako je házení kostkou nebo mincí. V těchto případech výsledek jednoho hodu neovlivňuje výsledek následujících hodů, a proto jsou tyto pokusy nezávislé.
Skupinově nezávislé jevy
Definice 2.19. Jevy A, B a, C jsou skupinově nezávislé, jestliže platí následující podmínky:
' Nezávislost po dvou: Každá dvojice jevů musí být nezávislá, což znamená, že pro všechny dvojice jevů platí:
P(Af]B) =P(A)-P(B),
P(AnC) =P(A)-P(C), P(BnC) =P(B)-P(C).
• Nezávislost po třech: Pro tři jevy zároveň musí platit, že průnik všech tří jevů odpovídá součinu jejich pravděpodobností:
P (A n B n C) = P (Ä) ■ P (B) ■ P {C).
Pokud jsou splněny všechny tyto podmínky, říkáme, že jevy A, B a C jsou skupinově nezávislé. Tato vlastnost je klíčová v situacích, kde analyzujeme souběh více nezávislých jevů, a je využívána v pravděpodobnostních modelech, jako je například rozklad nezávislých náhodných veličin.
Příklad 2.20 (mini-příklad). Z balíčku 52 karet vytáhneme jednu kartu. Nechť
A = {karta je eso},       B = {karta je piková}.
Určete P (A | B).
Řešení: Platí P (A) = ^, P{B) = || a P{A fl B) =     (pikové eso je právě jedno). Proto
P(A | B)
p {A n B) _ ± _ i
P(B)        § 13'
□
Příklad 2.21. Házíme dvěma férovými mincemi. Určete pravděpodobnost jevu:
• A: padne líc a rub (v libovolném pořadí),
• B: na první minci padne líc.
37
Základy statistiky
Určete pravděpodobnost jevu A za předpokladu, že nastal jev B.
Řešení: Možné výsledky hodu dvěma mincemi (uspořádané dvojice) jsou:
1. mince
2. mince
LÍC LÍC
RUB
LÍC
RUB
LÍC
RUB
RUB
Nejprve určíme pravděpodobnosti potřebné pro podmínění. Jev B nastane ve dvou ze čtyř stejně pravděpodobných výsledků, tedy
P(B) =
Jev Af] B znamená: na první minci je líc a zároveň padne líc i rub, takže na druhé minci musí být rub. To je právě jeden výsledek ze čtyř, tedy
Příklad 2.22. Studenti při zkoušení mohou dostat tři otázky. První student je připraven pouze na 1. otázku, druhý pouze na 2. otázku, třetí pouze na 3. otázku a čtvrtý je připraven na všechny tři otázky. Náhodně vybereme jednoho studenta. Uvažujme jevy:
• A\. vybraný student dokáže zodpovědět 1. otázku,
• A2: vybraný student dokáže zodpovědět 2. otázku,
• A3: vybraný student dokáže zodpovědět 3. otázku.
Ukažte, že jevy Ai, A2, A% jsou po dvou nezávislé, ale nejsou vzájemně nezávislé.
Řešení: Označme studenty (1), (2), (3), (4) podle zadání; každý je vybrán se stejnou pravděpodobností 1/4.
Jednotlivé jevy. Jev A\ nastane, pokud byl vybrán student (1) nebo (4), tedy
Podle definice podmíněné pravděpodobnosti:
□
Pravděpodobnost jevů
38
Průniky dvojic. Jev A\ fl A2 nastane právě tehdy, když byl vybrán student (4) (jen ten umí obě otázky), tedy
P(A1nA2) = 1-.
Stejně platí
P(A1 n A3) = P{A2 n A3) = i. Proto pro každou dvojici i ^ j dostáváme
P{AlnA]) = -A=l-.l-=P{AAP{A]), a jevy jsou po dvou nezávislé.
Průnik trojice. Jev A\ f\A2 C\A3 opět nastane pouze tehdy, když byl vybrán student (4), tedy
P(A1nA2nA3) = i.
Kdyby byly jevy vzájemně nezávislé, muselo by platit
P(A, nA2n A3) = P(^)P(A2)P(A3) = l--l-.l-=1-.
Protože jevy Ai,A2,A3 nejsou vzájemně nezávislé. □
2.6    Úplná pravděpodobnost a Bayesova věta
Úplná pravděpodobnost
Definice 2.23. Nechť Bi,..., Bn tvoří rozklad prostoru íl, tj.
n
BíDBj =0 {i Ý j),       \jBí = tt,       a      P(Bí) > 0 pro všechna i. Potom pro libovolný jev A platí zákon úplné pravděpodobnosti
n n
P(A) = J2P(An Bi) = E P(Bi) P(A | BA.
í=i í=i
Poznámka 2.24. Smysl vzorce: jev A může nastat v různých „scénářích" B1}... ,Bn. Celková pravděpodobnost P{A) je vážený průměr podmíněných pravděpodobností P{A \ Bi) s vahami
Příklad 2.25. V obchodě jsou tři pokladny. Na pokladně 1 dojde k chybě v účtování s pravděpodobností 0,1, na pokladně 2 s pravděpodobností 0,05 a na pokladně 3 s pravděpodobností 0,2. Pravděpodobnosti, že zákazník bude odbaven pokladnami 1, 2 a 3, jsou postupně 0,3, 0,25 a 0,45. Jaká je pravděpodobnost, že zákazník opouštějící obchod má chybný účet?
39
Základy statistiky
Řešení: Označme A jev „došlo k chybě v účtování" a Hi jev „zákazník byl odbaven na i-té pokladně", i = 1,2,3. Jevy Hi,H2,H3 tvoří rozklad prostoru (zákazník projde právě jednou pokladnou), proto použijeme zákon úplné pravděpodobnosti:
P{A) = J2P{Ht)P{A\Ht).
i=i
Dosadíme:
P (A) = 0,3 • 0,1 + 0,25 • 0,05 + 0,45 • 0,2. P(A) = 0,03 + 0,0125 + 0,09 = 0,1325. Pravděpodobnost chybného účtu je tedy 0,1325 (tj. přibližně 13,25%). □
Bayesova věta
Definice 2.26. Nechť B±,..., Bn tvoří rozklad prostoru Q (tj. Bi fl B j = 0 pro i ^ j, \Ji=i Bi = Q a P{Bi) > 0). Potom pro libovolný jev A s P (A) > 0 platí Bayesova věta:
P(Bt | A)
P (A	Bi) P(Bi)	
Y.n3=1P(A		
Jmenovatel je celková pravděpodobnost jevu A, tj. podle zákona úplné pravděpodobnosti
P(A) = J2P(A\BJ)P(Bj).
Poznámka 2.27. Bayesova věta „obrací podmínku": z pravděpodobnosti důsledku při dané příčině P{A | B i) a z apriorní pravděpodobnosti příčiny P{Bi) určíme aposteriorní pravděpodobnost příčiny po pozorování důsledku P(Bi \ A).
Příklad 2.28 (Bayesova věta). V obchodě jsou tři pokladny. Pravděpodobnost chyby v účtování je na pokladnách 1, 2, 3 postupně 0,1, 0,05 a 0,2. Pravděpodobnosti odbavení zákazníků pokladnami 1, 2, 3 jsou 0,3, 0,25 a 0,45. Pokud dojde k chybě v účtování, jaká je pravděpodobnost, že k ní došlo na třetí pokladně?
Řešení: Označme A jev „došlo k chybě" a H i jev „zákazník byl odbaven na i-té pokladně", i = 1,2,3. Hledáme P(H3 | A).
Nejprve určíme P (A) zákonem úplné pravděpodobnosti:
P(A) = 0,3 • 0,1 + 0,25 • 0,05 + 0,45 • 0,2 = 0,1325. Pak použijeme Bayesovu větu:
P(H, | A) = PiA ' H*lPW = = « 0,6792.
v  3 1   ; P (A) 0,1325 0,1325
Pravděpodobnost, že chyba vznikla na třetí pokladně, je přibližně 67,92 %. □
Pravděpodobnost jevů
40
Příklad 2.29 (Pozitivní lékařský test). Prevalence výskytu AIDS v populaci je 0,6%. Test má senzitivitu 99,9 % (tj. je pozitivní s pravděpodobností 0,999, je-li osoba nakažená) a specificitu 99% (tj. je negativní s pravděpodobností 0,99, je-li osoba zdravá). Jaká je pravděpodobnost, že osoba s pozitivním testem má skutečně AIDS?
Řešení: Označme:
A: osoba má AIDS, tedy P (A) = 0,006, • Ä: osoba nemá AIDS, tedy P(A) = 0,994, T+: test je pozitivní.
Ze zadání:
P(T+ | A) = 0,999,      P(T+ | ~Á) = 1 - 0,99 = 0,01. Použijeme Bayesovu větu:
P (A | T+)
Dosadíme:
P(T+		A) P{A)	
P(T+	A) P{A)	+ P(T+	A) P{A)
* , °>999 • 0>006 0,005994
P(A  T+ =-----= --« 0,376.
v   1     ;    0,999-0,006 + 0,01-0,994 0,015934
Pravděpodobnost, že osoba s pozitivním testem má skutečně AIDS, je přibližně 37,6 %. □
Pozor (typická chyba / base-rate fallacy): Vysoká senzitivita a specificita ještě neznamenají, že P{A | T+) bude blízko 1. Výsledek výrazně závisí na prevalenci P (A): je-li nemoc vzácná, mohou falešně pozitivní výsledky tvořit velkou část všech pozitivních testů.
Interpretace (test na vzácné onemocnění): Uvažujme 10 000 náhodně vybraných osob. Při prevalenci 0,6% očekáváme asi 0,006 • 10 000 = 60 nakažených a 9 940 zdravých. Z nakažených bude test pozitivní přibližně u 0,999 • 60 ~ 60 osob, zatímco ze zdravých bude falešně pozitivních asi 0,01 -9 940 ~ 99 osob. Celkem tedy bude pozitivních zhruba 60 + 99 = 159 osob, z nichž nakažených je asi 60, takže
60
P(A | T+) « — « 0,38, což odpovídá vypočtené hodnotě 0,376.
41
Základy statistiky
2.7    Opakované pokusy
Definice 2.30. Opakované pokusy jsou situace, kdy tentýž náhodný pokus provádíme vícekrát za stejných podmínek. Zajímá nás zejména rozdělení počtu výskytů určitého jevu v n opakováních.
2.7.1     Nezávislé pokusy
Definice 2.31. Nezávislé opakované pokusy jsou takové, v nichž výsledek jednoho pokusu neovlivňuje výsledky dalších pokusů. V každém pokusu má sledovaný jev (např. „úspěch") stejnou pravděpodobnost.
Poznámka 2.32. Typickým příkladem je opakovaný hod férovou mincí nebo kostkou. V praxi se s nezávislými pokusy setkáme např. při testování shodně vyrobených kusů (každý testovaný kus je jiný exemplář) nebo při opakovaném náhodném výběru.
Definice 2.33 (Bernoulliho schéma (binomické rozdělení)). Mějme n nezávislých pokusů, v nichž může nastat jev A („úspěch") s pravděpodobností p; označme q = 1 — p. Nechť X je počet úspěchů v n pokusech. Potom X má binomické rozdělení a pro k = 0,1,... ,n platí
P{X = k) = (n\pkqn-k.
Nejpravděpodobnější počet úspěchů (modus). Nejpravděpodobnější hodnota k splňuje
(n + l)p — 1 < k < {n + l)p.
Je-li (n + l)p celé číslo, existují dvě nejpravděpodobnější hodnoty: k = (n + l)p — 1 a k = (n + l)p; jinak je modus jednoznačný a platí k = [(n + l)p\.
Příklad 2.34. Házíme šestkrát férovou hrací kostkou. Vypočtěte pravděpodobnost, že šestka padne právě dvakrát.
Řešení: Jde o Bernoulliho schéma s parametry n = 6, p = | („úspěch" = „padne šestka") a Numericky:
P(* = 2) = 15 ■ i ■= « 0,2009.
v        ; 36   1296 46656
Pravděpodobnost, že šestka padne právě dvakrát, je tedy přibližně 0,2009. □
Pravděpodobnost jevů
42
Příklad 2.35. Sportovní střelec zasáhne cíl při každém výstřelu s pravděpodobností p = 0,8. Vypočtěte pravděpodobnost, že při 5 výstřelech budou v cíli:
1. právě 2 zásahy,
2. nejvýše jeden zásah,
3. alespoň 2 zásahy.
Řešení: Počet zásahů označme X. Při nezávislých výstřelech platí X ~ Bi(n = 5,p = 0,8), tedy
P(X = k)= Q(0,8)fc(0,2)5"fc.
1. Pravděpodobnost právě 2 zásahů:
P(X = 2) = Q (0,8)2(0,2)3 = 10 • 0,64 • 0,008 = 0,0512.
2. Pravděpodobnost nejvýše jednoho zásahu:
P(X < 1) = P(X = 0) + P(X = 1),
P(X = 0) = Q (0,8)°(0,2)5 = (0,2)5 = 0,00032,
P(X = 1) = Q (O^)1^)4 = 5 • 0,8 • 0,0016 = 0,0064, P{X < 1) = 0,00032 + 0,0064 = 0,00672.
3. Pravděpodobnost alespoň dvou zásahů:
P(X > 2) = 1 - P(X < 1) = 1 - 0,00672 = 0,99328.
□
Příklad 2.36. Pravděpodobnost, že náhodně vybraný student bude znát učivo, je p = 0,05. Jaká je pravděpodobnost, že mezi dvaceti vybranými studenty bude:
a) právě 5 znalých studentů,
• b) nejvýše 2 znalí studenti,
• c) alespoň jeden znalý student?
Řešení: Označme X počet znalých studentů mezi n = 20 náhodně vybranými. Předpokládáme nezávislost a stejnou pravděpodobnost znalosti, tedy X ~ Bi(20,0,05) a
P(X = k)= r°j(0,05)fc(0,95)20^.
43
Základy statistiky
a) Pravděpodobnost, že budou právě 5 znalí:
P(X = 5)= ^(0,05)5(0,95)15
= 15504 • 0,0000003125 • 0,463291 « 0,002245.
b) Pravděpodobnost, že budou nejvýše 2 znalí:
P(X < 2) = P(X = 0) + P(X = 1) + P(X = 2), P(X = 0) = (0,95)20 « 0,358486,
P(X = 1) = ^ (0,05)(0,95)19 = 1 • (0,95)19 « 0,377354,
P(X = 2) = ^ (0,05)2(0,95)18 = 190 • 0,0025 • (0,95)18 « 0,188677, P(X < 2) « 0,358486 + 0,377354 + 0,188677 = 0,924516.
c) Pravděpodobnost, že bude alespoň jeden znalý:
P(X > 1) = 1 - P(X = 0) = 1 - (0,95)20 « 1 - 0,358486 = 0,641514.
□
2.7.2     Závislé pokusy
Definice 2.37. Závislé opakované pokusy jsou takové, v nichž výsledek jednoho pokusu mění pravděpodobnosti v pokusech následujících. Typicky se to děje tehdy, když po provedení pokusu dojde ke změně podmínek (např. změna složení urny po výběru bez vracení).
Poznámka 2.38. Nejčastějším modelem závislých opakovaných pokusů v základním kurzu je výběr bez vracení. Počet „úspěchů" ve výběru pak má hypergeometrické rozdělení.
Definice 2.39 (Výběr bez vracení (hypergeometrické rozdělení)). Mějme soubor N prvků, z nichž M má sledovanou vlastnost („úspěch") a N — M ji nemá („neúspěch"). Náhodně vybereme bez vracení n prvků. Označme X počet vybraných prvků se sledovanou vlastností. Potom pro k = 0,1,..., n (přesněji pro ta k, pro něž má výraz smysl) platí
P(X = k)
M\ ÍN-M k ) \ n—k
N'
Příklad 2.40. V osudí jsou 2 bílé a 3 černé koule. Určete pravděpodobnost toho, že:
Pravděpodobnost jevů
44
• a) vytáhneme naráz 3 koule a budou 2 černé a 1 bílá,
• b) vytáhneme po jedné bez vracení 2 černé a 1 bílou (v libovolném pořadí).
Řešení: V obou případech jde o tentýž výběr bez vracení, jen jinak popsaný.
ad a) Naráz vybíráme n = 3 koule z N = 5, přičemž „úspěch" definujeme jako „černá koule". Tedy M = 3 a chceme k = 2:
P(X = 2) = = — = 0,6.
10
ad b) Při postupném výběru bez vracení a požadavku „2 černé a 1 bílá v libovolném pořadí" dostaneme stejnou pravděpodobnost jako v bodě a). Např. pro konkrétní pořadí CBC platí
P(ČBČ) = - • - • - = -. v      ;    5   4   3 5
Stejnou pravděpodobnost mají i pořadí CCB a BCC, takže
1
P(2 černé a 1 bílá) = 3 • - = 0,6.
5
□
Příklad 2.41. Mezi 15 výrobky je 5 zmetků. Vybereme 3 výrobky. Jaká je pravděpodobnost, že právě jeden z nich je vadný, jestliže:
• a) vybereme všechny 3 najednou,
• b) vybíráme po jednom bez vracení?
Řešení: Opět jde v obou případech o tentýž výběr bez vracení. Označme X počet vadných kusů ve výběru. Máme N = 15, M = 5 (vadné), n = 3 a chceme k = 1:
a) (2°)     5-45    225 45
P(X = 1) = v =-=-= — « 0,4945.
v        ;       /15^        455      455 91
ad a) Výsledek je přímo uveden výše.
ad b) Při postupném výběru bez vracení lze stejně dojít součtem přes pořadí (V = vadný, D = dobrý):
P(VDD) = 1 ■ 12 . 1,   P(DVD) = — . -5---—    P(DDV) = 1» . JL . 1,
v       7    15   14   13       v       7    15   14   13       v       7    15   14 13
a tedy P(X = 1) = P(VDD) + P(DVD) + P(DDV), což dá stejný výsledek §. □
45
Základy statistiky
2.8    Souhrnné příklady
Příklad 2.42. Mějme pět vstupenek po 100 Kč, tři vstupenky po 300 Kč a dvě vstupenky po 500 Kč. Náhodně vybereme tři vstupenky (bez vracení). Určete pravděpodobnost toho, že:
• a) alespoň dvě z těchto vstupenek mají stejnou hodnotu,
• b) všechny tři vstupenky stojí dohromady 700 Kč.
Řešení: Celkem je N = 10 vstupenek a vybíráme n = 3, takže počet všech stejně pravděpodobných výběrů je
ad a) Řešíme přes opačný jev. Opačný jev k „alespoň dvě mají stejnou hodnotu" je „všechny tři mají různé hodnoty", tj. jedna za 100 Kč, jedna za 300 Kč a jedna za 500 Kč. Počet takových výběrů je (i) (')(;), tedy
; ? í
P(všechny různé
Proto
'!)©(?)    -     30 3
10
3
ad b) Součet 700 Kč může nastat jen ve dvou typech výběrů:
5\ Í3\
2h
P(alespoň dvě stejné) = 1 — P(všechny různé) = 1 —     /in\     = 1 — y^ = y = 0,75.
(100, 300, 300): (° (100, 100, 500):
Tedy
r5\ /3\   ,   Í5\ (2
i 15 +20 7
P(celkem 700 Kč) = ^ ^ 1Q ^ W = = - « 0,2917.
□
Příklad 2.43. Z celkové produkce závodu jsou 4% zmetků a z dobrých výrobků je 75 % standardních. Určete pravděpodobnost, že náhodně vybraný výrobek je standardní.
Řešení: Označme:
A = {výrobek je dobrý (není zmetek)},       B = {výrobek je standardní}.
Zadání říká, že P (A) = 0,96 a P{B \ A) = 0,75. Standardní výrobek musí být dobrý, tedy B C A a, platí
P(B) = P (A n B) = P (A) P (B I A) = 0,96 • 0,75 = 0,72.
□
Pravděpodobnost jevů
46
Příklad 2.44. Z výrobků určitého druhu dosahuje 95 % předepsanou kvalitu. V určitém závodě, který vyrábí 80 % celkové produkce, má předepsanou kvalitu 98 % výrobků. Mějme náhodně vybraný výrobek předepsané kvality. Jaká je pravděpodobnost, že byl vyroben ve výše uvedeném závodě?
Řešení: Označme:
A = {výrobek je ze zmíněného závodu},       B = {výrobek je předepsané kvality}.
Hledáme P (A | B). Známe
P {A) = 0,8,   P(Á) = 0,2,   P(B | A) = 0,98.
Dále je dáno, že celkově platí P{B) = 0,95. (To je klíčový údaj; bez něj nelze P (A | B) určit.) Použijeme Bayesovu větu:
P (A  B) = —i—'   \ v  ; =--- =--« 0,8253.
V   1   ; P(B) 0,95 0,95
□
O
V této kapitole jsme zavedli základní pojmy teorie pravděpodobnosti a ukázali jsme jejich použití na typových úlohách. Pracovali jsme s modely, ve kterých pravděpodobnost vyjadřuje míru nejistoty výsledku náhodného pokusu, a naučili jsme se rozlišovat situace s konečným i spojitým prostorem výsledků.
' Náhodný pokus - opakovatelný proces, jehož výsledek nelze předem jistě určit (např. hod kostkou, losování). Množinu všech možných výsledků nazýváme prostor elementárních jevů íl.
• Náhodný jev - podmnožina íž; jev A nastane právě tehdy, když výsledek pokusu patří do A. Rozlišili jsme jev jistý, nemožný, elementární a složený a uvedli základní vztahy mezi jevy (doplněk, průnik, sjednocení, neslučitelnost).
' Klasická pravděpodobnost - v konečném prostoru Q se stejně pravděpodobnými elementárními jevy platí
počet příznivých výsledků počet všech výsledků
Typicky např. při hodu férovou kostkou je P({padne 6}) = |.
Geometrická pravděpodobnost - v „kontinuálním" modelu určíme pravděpodobnost jako poměr délek/obsahů/objemů, např.
velikost příznivé oblasti velikost celé oblasti
Statistická (frekvenční) pravděpodobnost pravděpodobnost jevu interpretujeme jako limitu relativní četnosti v dlouhé řadě opakování pokusu; v praxi ji odhadujeme z dat.
47
Základy statistiky
' Podmíněná pravděpodobnost - pravděpodobnost jevu A za podmínky, že nastal jev B,
PIA I B) = P(B) > 0.
• Nezávislost jevů - jevy A a, B jsou nezávislé, jestliže
P(Af]B) = P(A)P(B),
a upozornili jsme na rozdíl mezi nezávislostí po dvou a vzájemnou (skupinovou) nezávislostí.
Zákon úplné pravděpodobnosti a Bayesova věta použili jsme rozklad prostoru na disjunktní případy a vypočítali pravděpodobnosti „zpětně" (pravděpodobnost příčiny při známém důsledku).
Opakované pokusy - pro nezávislé opakované dichotomické pokusy jsme uvedli Bernoulliho schéma (binomický vzorec) a pro výběr bez vracení hypergeomet-rické rozdělení.
Získané pojmy a vzorce tvoří základ pro následující kapitoly: umožňují jednak správně modelovat náhodné situace, jednak přesně interpretovat výsledné pravděpodobnosti v kontextu daného problému.
1. Máme 230 výrobků, mezi nimiž je 20 nekvalitních. Vybereme 15 výrobků bez vracení. Jaká je pravděpodobnost, že mezi 15 vybranými bude právě 10 dobrých (a tedy 5 nekvalitních)? [0,00448]
2. Pacienta lze kontrolovat v čase od 7 do 20 hodin. Vycházky má od 13 do 15 hodin. Jaká je pravděpodobnost, že při náhodně zvolené kontrole v intervalu (7; 20) bude pacient doma k zastižení? [11/13]
3. Dva sportovní střelci střílejí nezávisle na sebe do jednoho terče (každý jednou). Pravděpodobnost zásahu prvního střelce je 0,8, druhého 0,4. Při střelbě byl v terči právě jeden zásah. Jaká je pravděpodobnost, že terč zasáhl první střelec? [0,857]
4. Pravděpodobnost výhry hráče v jedné partii je 0,6. Určete nejpravděpodobnější počet výher hráče v deseti odehraných partiích. [6]
5. Série 100 výrobků je kontrolována náhodným výběrem 5 kusů bez vracení. Série je považována za „špatnou", je-li alespoň jeden z pěti vybraných výrobků vadný. Vypočtěte pravděpodobnost, že série bude vyhodnocena jako špatná, víme-li, že obsahuje 5% vadných výrobků. [0,230]
6. V telefonním seznamu náhodně vybereme jedno šestimístné číslo (může začínat nulou) a předpokládáme, že v seznamu jsou použita všechna šestimístná čísla. Jaká je pravděpodobnost, že číslo:
a. neobsahuje číslici 0? [0,53144]
b. obsahuje alespoň jednu číslici 3? [0,46856]
c. obsahuje právě jednu číslici 3? [0,35429]
Pravděpodobnost jevů
48
Literatura k tématu:
[1] OTIPKA, P., SMAJSTRLA, V. Pravděpodobnost a statistika [online]. 1. vydání. Ostrava: VŠB-TU Ostrava, 2007 [cit. 2024-09-09]. ISBN 80-248-1194-4. Dostupné z: https://homel.vsb.cz/~oti73/cdpastl/
[2] CALDA, E., DUPAC, V. (2008). Matematika pro gymnázia: Kombinatorika, pravděpodobnost, statistika (5. vydání, dotisk 2011). Praha: Prométheus. ISBN 978-80-7196-365-3.
[3] ZVÁRA, K. a ŠTĚPÁN, J. Pravděpodobnost a matematická statistika. Matfyzpress, 2019. ISBN 978-80-7378-388-4.
Kapitola 3
Náhodná veličina
Po prostudování této kapitoly budete umět:
> rozlišovat mezi diskrétními a spojitými náhodnými veličinami a jejich pravděpodobnostními funkcemi,
vypočítat střední hodnotu, rozptyl a směrodatnou odchylku pro různá rozdělení náhodných veličin,
' chápat význam distribuční funkce a umět ji interpretovat pro různé typy náhodných veličin,
vytvořit pravděpodobnostní a distribuční funkci pro diskrétní a spojitou náhodnou veličinu a graficky je znázornit.
Klíčová slova:
Diskrétní rozdělení, spojité rozdělení, pravděpodobnostní funkce, distribuční funkce, hustota pravděpodobnosti, střední hodnota, rozptyl, šikmost a špičatost.
Náhodná veličina
50
Náhled kapitoly
Pro lepší pochopení toho, jak pravděpodobnost funguje, je důležité se seznámit s pojmy náhodného jevu a náhodné veličiny, které slouží k popisu náhodných procesů. Dále se podíváme, jak je možné pomocí rozdělení pravděpodobnosti určit pravděpodobnost výskytu různých hodnot náhodné veličiny v rámci určitého systému.
Kapitola se zaměřuje na klíčové koncepty, jako jsou pravděpodobnostní rozdělení, diskrétní a spojité náhodné veličiny, a způsoby výpočtu střední hodnoty, rozptylu a směrodatné odchylky.
Cíle kapitoly
Cílem této kapitoly je zopakování (srovnání znalostí) základů teorie pravděpodobnosti a těch poznatků o náhodných veličinách a jejich rozděleních pravděpodobnosti, které budou potřeba v následujících kapitolách.
Odhad času potřebného ke studiu
Pro zvládnutí této kapitoly je doporučeno věnovat studiu přibližně 4 až 5 hodin. Tento čas zahrnuje čtení textu, pochopení základních pojmů a principů pravděpodobnosti, řešení příkladů a procvičení výpočtů základních pravděpodobnostních charakteristik.
Náhodný jev a náhodná veličina
Definice 3.1. Náhodný jev je událost, která může, ale nemusí nastat v rámci nějakého pokusu nebo procesu. Můžeme si ho představit jako výsledek experimentu, který závisí na náhodě. Pravděpodobnost je míra, která kvantifikuje možnost, že k danému náhodnému jevu dojde, a pohybuje se v rozmezí od 0 (jevu nelze dosáhnout) do 1 (jev nastane s jistotou). Například pravděpodobnost, že při hodu kostkou padne číslo 6, je |, protože existuje 6 možných výsledků a každý má stejnou šanci nastat.
Definice 3.2. Náhodná veličina je proměnná, která může nabývat různých (reálných) hodnot v závislosti na výsledku náhodného pokusu. Například při hodu kostkou může náhodná veličina X představující výsledek hodu nabývat hodnot 1,2,3,4,5 nebo 6. Každý z těchto výsledků je výsledek náhodného procesu.
Náhodné veličiny, které mohou nabývat různých hodnot v závislosti na výsledku náhodného jevu, se používají k popisu výsledků náhodných procesů.
51
Základy statistiky
Příklady náhodných veličin mohou být:
• Počet lvů při deseti hodech mincí.
' Počet zákazníků, kteří navštíví obchod v určitém dni.
Výška náhodně vybraného člověka z populace. ' Doba, za kterou přijede autobus na zastávku.
Výsledek hodu dvěma kostkami (součet bodů). ' Počet vadných kusů ve výrobní sérii 100 produktů.
Tyto příklady ukazují různé typy náhodných veličin - některé jsou diskrétní (počet hlav, počet zákazníků), jiné spojité (výška člověka, čas čekání).
Rozdělení pravděpodobnosti
Rozdělení pravděpodobnosti popisuje, jak jsou pravděpodobnosti jednotlivých možných výsledků náhodné veličiny rozloženy. Například u hodu (férovou) kostkou mají všechny výsledky (hodnoty 1 až 6) stejnou pravděpodobnost, tedy |. V praxi však ne vždy všechny výsledky mají stejnou pravděpodobnost. Rozdělení pravděpodobnosti tedy udává, s jakou pravděpodobností různé hodnoty náhodné veličiny nastanou.
Rozdělení pravděpodobnosti nám tedy poskytuje obraz o tom, jak často můžeme očekávat jednotlivé výsledky náhodného pokusu.
V závislosti na typu náhodné veličiny rozlišujeme dvě hlavní kategorie: diskrétní a spojité náhodné veličiny.
3.1    Rozdělení pravděpodobnosti diskrétní náhodné veličiny
Diskrétní náhodná veličina nabývá pouze konečného nebo spočetně nekonečného množství možných hodnot. Příkladem diskrétní náhodné veličiny je počet vadných výrobků v sérii nebo počet zákazníků přicházejících do obchodu za jeden den. Diskrétní náhodná veličina je jednoznačně určena posloupností reálných čísel {xn} a posloupností pravděpodobností {pn = P(X = xn)}.
Příklad 3.3. Diskrétní náhodná veličina X nabývá hodnot    M = {1,2,4,5}    s pravděpodobnostmi    p (k) = P[X = k], kde
1111
= g, P(2) = 4> M4) = jj, P(5) = 4 a p(x) = 0 Jinak-
Náhodná veličina
52
i -
Zapisujeme také pomocí tabulky či obrázku: S
1/3 —
k	1	2	4	5
P (X = k)	i 3	i 4	i 6	i 4
0           12           3           4 5 _x_
Definice 3.4. Diskrétní náhodné veličiny mají svou pravděpodobnostní funkci, která přiřazuje každé hodnotě náhodné veličiny určitou pravděpodobnost P{X = x,j) = pi} i = 1,... ,m, kde Xi je možná hodnota diskrétní náhodné veličiny X, a Pí je pravděpodobnost, že X nabude hodnoty Xi.
Vlastnosti pravděpodobnostní funkce:
• p{x) > 0   Mx E IR,
xeM
Výpočet pravděpodobnosti (jevu B)
P(XeB)=   J2   P(x = xn)=   J2 pM
n:x„eBnM n:x„eBnM
(součet pravděpodobností všech čísel/výsledků, která patří do B; jelikož nenulové pravděpodobnosti jsou jen v M, tak proto B fl M.)
Definice 3.5 (Distribuční funkce). Distribuční funkce náhodné veličiny X je reálná funkce F : IR —y (0; 1) definovaná vztahem
F(x) = P(X <x),    x G R.
Příklad 3.6 (distribuční funkce diskrétní náhodné veličiny). Diskrétní náhodná veličina X nabývá hodnot M = {1,2,4,5} s pravděpodobnostmi p (k) = P (X = k), kde p{\) = |, p{2) = \, p(4) = \, p(5) = \ a p(x) = 0 jinak.
Určete příslušnou distribuční funkci.
Řešení: Vycházíme z toho, že distribuční funkce je „zajímavá" jen v bodech, kde je pravděpodobnostní funkce kladná. V těchto bodech dochází u distribuční funkce ke skokovému růstu
53
Základy statistiky
právě o hodnotu pravděpodobnostní funkce v tomto bodě. Mezi těmito body je konstantní. Praktické je tedy vypočítat hodnoty F v těchto bodech a připsat je do již známé tabulky pro pravděpodobnostní funkci:
k	1	2	4	5
P(X = k)	i 3	i 4	1 6	1 4
F{k) = Y.ki<kP{X = ki)	1 3	1 + 1 = 1. 3^4 12	7,1 _ 3 12      6 4	3+1 = 1 4^4 x
Dále F můžeme zapsat na jednotlivých intervalech, které nám pokryjí celé IR:
X	(-oo,l)	(1,2)	(2,4)	(4,5)	(5,oo)
F(x)	0	i 3	7 12	3 4	1
A nakonec i takto:
x < 1,
1 < x < 2,
2 < x < 4, 4 < x < 5, x > 5.
F(ar)
i
3 7_ 12
3
4
Nej názornější stejně budou grafy na obrázku 1.
1/3 — 1/4 — 1/6 —
Obr. 1: Pravděpodobnostní a distribuční funkce k příkladu 3.6
□
Z příkladu 3.6 sice můžeme odpozorovat některé vlasnosti distribuční funkce, ale raději si je zde vypíšeme:
Náhodná veličina
54
Vlastnosti distribuční funkce:
. F(x) e (0,1),
• -F je neklesající,
• -F je zprava spojitá,
• -F je definovaná na IR,
• lim F (x) = 0,     lim F (x) = 1,
x^—oo x^oo
• P(X = x q) = F (x q) — lim F (x)   (výška skoku v bodě xq).
Příklad 3.7. V osudí je 5 bílých a 7 červených míčků. Náhodná veličina X představuje počet bílých míčků mezi pěti vybranými. Vytvořte pravděpodobnostní a distribuční funkci této náhodné veličiny.
Řešení: Náhodná veličina X nabývá hodnot {0,1,2,3,4,5}. Z teorie pravděpodobnosti víme, že se jedná o opakované závislé pokusy. Můžeme tedy sestavit pravděpodobnostní funkci pro jednotlivé hodnoty X:
P(X = x) =
Na základě této funkce vytvoříme tabulku pravděpodobností:
	0	1	2	3	4	5
Pi	21 792	175 792	350 792	210 792	35 792	1 792
Pravděpodobnostní funkce může být graficky znázorněna pomocí bodového grafu, úsečkového diagramu nebo histogramu.
Distribuční funkce F(x) bude mít skoky v bodech 0,1,2,3,4,5. Hodnoty funkce F(x) jsou určeny jako součet všech předcházejících hodnot pf.
F(xí) = P(X < Xi).
Tabulka pro distribuční funkci:
	0	1	2	3	4	5
F(xí)	21 792	196 792	546 792	756 792	791 792	792 792
55
Základy statistiky
Graf distribuční funkce může být znázorněn jako spojitý schodovitý diagram.
□
3.2    Rozdělení pravděpodobnosti spojité náhodné veličiny
Spojitá náhodná veličina nabývá hodnot z nějakého intervalu reálných čísel. Příkladem může být výška náhodně vybraného člověka nebo doba, kterou zákazník stráví v obchodě. Spojité náhodné veličiny nemají konkrétní pravděpodobnosti pro jednotlivé hodnoty (pravděpodobnostní funkci), ale místo toho pracují s tzv. hustotou pravděpodobnosti, která určuje pravděpodobnost, že náhodná veličina nabyde hodnoty z určitého intervalu.
Definice 3.8. Náhodná veličina X s distribuční funkcí F se nazývá spojitá, jestliže existuje nezáporná funkce /: IR —> IR taková, že
Funkce f(x) se nazývá hustota (rozdělení pravděpodobností) náhodné veličiny X.
Vlastnosti hustoty:
f(x) > 0
oo
f(t) dt = 1    =>• plocha pod křivkou hustoty vyjadřuje pravděpodobnost
— oo
f(x) = F'{x) v každém bodě x, kde F' existuje,
P(a < X < b) = F(b) - F(á)
P (a < X < b) = P (a < X < b) = P (a < X < b) = P (a < X < b)
Výpočet pravděpodobností pomocí F(x) a f(x) na nekonečném intervalu:
Toto je znázorněno na obrázku 2.
Náhodná veličina
56
Obr. 2: Výpočet pravděpodobností na nekonečném intervalu
Výpočet pravděpodobností pomocí F (x) a f (x) na konečném intervalu:
P(-2 < e < 0) = P(0) - P(-2) = /° /(í) dŕ. Toto je znázorněno na obrázku 3.
Obr. 3: Výpočet pravděpodobností na konečném intervalu
Příklad 3.9. Náhodná veličina X je dána distribuční funkcí:
Í0, x<0, F (x) = j t>   0 < x < 4, [l,    x > 4.
Určete hustotu pravděpodobnosti f (x), znázorněte graficky F (x) a f (x), a vypočtěte P(0,4 < X < 1,6).
57
Základy statistiky
Řešení: Hustotu pravděpodobnosti f(x) získáme derivací distribuční funkce F(x):
'0, x < 0,
/(*)HŽ(t) = !> 0<x<4, ,0, x > 4.
Graf distribuční funkce F(x) a hustoty pravděpodobnosti f(x) je následující:
> Distribuční funkce F(x): Kvadratický nárůst od 0 do 1 v intervalu 0 < x < 4. • Hustota pravděpodobnosti f(x): Lineární funkce | v intervalu 0 < x < 4.
Pravděpodobnost P(0,4 < X < 1,6) vypočítáme jako:
P,0,4 < X < lfi) = Fd.6) - F(0,4) = ílf - <2f = ?f - M = M = 0.6.
□
Příklad 3.10. Hustota pravděpodobnosti náhodné veličiny X má tvar:
a ■ x, 0 < x < 2, 0, jinak.
Určete koeficient a, distribuční funkci F(x) a vypočtěte P(0 < X < 1).
Řešení: Nejdříve určíme koeficient a. Platí, že integrál hustoty pravděpodobnosti přes celý definiční obor musí být roven 1:
2
a ■ x dx = 1.
o
ŕ ,	x2	2	4
/  xdx = a •		= a	- = 2a
k	y	0	2
Po integraci dostáváme:
Z toho plyne, že 2a = 1, tedy a = |.
Distribuční funkci P(x) získáme integrací hustoty pravděpodobnosti:
Í0, x<0,
[l, x>2. Nyní vypočítáme pravděpodobnost P(0 < X < 1):
l2 1
P(0 < X < 1) = P(l) - P(0) = — - 0 = - = 0,25.
□
Příklad 3.11. Určete konstanty A a, B tak, aby funkce F(x) = A + B ■ arctan(rr) definovaná pro všechna reálná čísla byla distribuční funkcí rozložení náhodné veličiny.
Náhodná veličina
58
Řešení: Aby funkce F(x) byla distribuční funkcí, musí splňovat následující podmínky:
1. lim^-oo F(x) = 0,
2. lim^oo F(x) = 1.
Z první podmínky plyne:
lim (A + B ■ arctan(rr)) = A + B ■ (--) =0.
Z toho vyplývá, ze A =
Z druhé podmínky plyne:
lim (A + B ■ arctan(rr)) = A + B ■ - = 1.
Dosazením A = -^r dostáváme:
-B7T      „    7T „ „1
-+ 5-- = l    =>    Bn = l 5 = -.
2 2 7T
Tedy A=\.
Distribuční funkce má tedy tvar:
1 1
F(x) = —I— • arctan(rr).
2 7T
□
3.3    Číselné charakteristiky náhodné veličiny
Střední hodnota, rozptyl a směrodatná odchylka jsou klíčové charakteristiky, které popisují rozdělení náhodné veličiny.
Střední hodnota
Definice 3.12. Střední hodnota (očekávaná hodnota) diskrétní náhodné veličiny X se počítá jako vážený průměr všech možných hodnot náhodné veličiny:
E(X) =J2^-P(X = Xi) =
i i
59
Základy statistiky
Definice 3.13. Střední hodnota spojité náhodné veličiny X je definována jako integrál z hodnot náhodné veličiny vážených hustotou pravděpodobnosti:
E(X) =       x- f(x) dx.
Rozptyl
Definice 3.14. Rozptyl diskrétní náhodné veličiny měří, jak jsou jednotlivé hodnoty rozloženy kolem střední hodnoty:
D(X) = Var(X) = - E{X)f ■ P(X = Xi) = - E{X)f ■ Pi.
Definice 3.15. Rozptyl spojité náhodné veličiny je definován jako:
D{X) = Var(X) = /   (x - E{X)f ■ f(x) dx = E{X2) - [E{X)f.
Směrodatná odchylka
Směrodatná odchylka nám poskytuje měřítko, jak daleko jsou hodnoty náhodné veličiny od její střední hodnoty.
Koeficient šikmosti a špičatosti
Koeficienty šikmosti a špičatosti popisují tvar křivky hustoty nebo pravděpodobnostní funkce.
Definice 3.17 (Koeficient šikmosti náhodné veličiny X).
E[{X-E{X)f]
7i =
(\D(X)f
• 7i = 0: rozdělení je symetrické,
■ 7i > 0: rozdělení je protáhlé napravo (např. mzdy),
Náhodná veličina
60
• 71 < 0: rozdělení je protáhlé nalevo.
Vztah mezi koeficientem šikmosti, střední hodnotou, mediánem a modem:
7i = 0:£(X)=x0,5 = MO(l), 7i < 0 : E{X) < x0:5 < Mo(X), 7i > 0 : Mo(X) < rr0,5 < E(X).
Definice 3.18 (Koeficient špičatosti náhodné veličiny X).
E [(X - E{X)Y]
72 =-,--3.
(/Ď(V))4
„Měří" stupeň koncentrace hodnot okolo středu ve srovnání s ostatními hodnotami,
veličina s nízkým koeficientem špičatosti (72 < 0) obsahuje hodnoty velmi vzdálené od středu,
' čím špičatější rozdělení (72 > 0), tím více jsou hodnoty soustředěné okolo středu.
Modus
Definice 3.19. Modus (nejčastější hodnota) je hodnota náhodné veličiny, která má nej-vyšší pravděpodobnost výskytu. U diskrétní náhodné veličiny je to hodnota x, pro kterou P(X = x) dosahuje maxima. U spojité náhodné veličiny je to hodnota, kde hustota pravděpodobnosti f(x) dosahuje svého vrcholu.
Příklad 3.20. Náhodná veličina X je dána tabulkou:
	1	2	3	4
Pí	0,3	0,1	0,4	?
Určete její číselné charakteristiky.
Řešení: Nejprve zjistíme chybějící hodnotu pravděpodobnosti p^.
p4 = 1- (P1+P2+P3) = 1- (0,3 + 0,1 + 0,4) = 0,2. Nyní vypočítáme jednotlivé číselné charakteristiky. Použijeme následující tabulku:
61
Základy statistiky
	1	2	3	4	E
Pi	0,3	0,1	0,4	0,2	-
•E i ' Pi	0,3	0,2	1,2	0,8	2,5
x2 ■ Pi	0,3	0,4	3,6	3,2	7,5
X3 - pi	0,3	0,8	10,8	12,8	24,7
xj-pi	0,3	1,6	32,4	51,2	85,5
Střední hodnota (průměr): E (X) = 2,5
Rozptyl: D(X) = 7,5 - (2,5)2 = 7,5 - 6,25 = 1,25
Směrodatná odchylka: cr(X) = -y/1,25 ~ 1,11í
□
2x, 0<x<l, 0, jinak.
Příklad 3.21. Náhodná veličina X má hustotu pravděpodobnosti:
/(*)
Určete její číselné charakteristiky.
Řešení: Nejprve definujeme jednotlivé momenty:
= f xk-f(x)dx = 2Í xk+1 dx. Jo Jo
Výpočet jednotlivých momentů:
1. První moment fiľ = E (X) (střední hodnota):
Hi = 2 /  x dx = 2 Jo
2. 2. Druhý moment fi2 (očekávaná hodnota X2):
/i2 = 2 /  x3 dx = 2 Jo
3. 3. Třetí moment /X3 (očekávaná hodnota X3):
//3 = 2 /  x dx = 2 Jo
4. 4. Čtvrtý moment /x4 (očekávaná hodnota V4):
/X4 = 2 /  x dx = 2 Jo
X
y
T
2 3'
1
2'
2 5'
1
3'
Náhodná veličina
62
Výpočet rozptylu D (X): Rozptyl se vypočítá jako:
r./,^ /   x2     1     /2\2     1    4     9      8 1
D (X) = u2- (Ui) = - -   -    =---=---= -
v   ;    p     VP ;      2    V3/      2    9     18    18 lí
Výpočet šikmosti 7^ Sikmost (asymetrie) se vypočítá jako:
/x3 - 3/xi • -D (X) - //?
7i
(D(X))3/2
Dosadíme hodnoty:
Po zjednodušení:
2 _ Q . 2 . J_ _ f2\3        2       2 8
= 5      °   3    18 = 5 ~ 9 ~ 27
'!                   'j\3/2 /j_\3/2
18/ V 18
54_ _ _60_ __6_ fi
270      270 _      270 _ 0
71 'j\3/2 1
18 J
54
Výpočet špičatosti 72: Špičatost (kurtóza) se vypočítá jako:
A*4 3 3 324
18
Výsledné číselné charakteristiky jsou:
Střední hodnota: E (X) = |, - Rozptyl: D(X) = i, Směrodatná odchylka: u (X) = ^7=
Sikmost: 7X = — |,
Špičatost: 72 = 108.
□
63
Základy statistiky
3.4    Kvantilové charakteristiky náhodné veličiny
Kvantily spojitých rozdělení Definice
Definice 3.22. Kvantil spojitého rozdělení je hodnota (viz obrázek 4), která rozděluje oblast pod hustotou pravděpodobnosti na dvě části. Pro p-kvantil xp platí, že plocha pod křivkou hustoty vlevo od xp je rovna p, tj.
P(X < Xp) = F(xp) = /    f{x) dx = p,
J — oo
kde p e (0,1).
Obr. 4: Znázornění hustoty a p-kvantilu xp pro spojité rozdělení pravděpodobnosti (viz definici 3.22)
Speciální kvantily:
' Medián (2:0,5) Je 50%-kvantil. Rozděluje rozdělení na dvě stejné části - jedna polovina hodnot leží pod mediánem, druhá polovina nad ním.
' Kvartily jsou kvantily, které rozdělují data na čtvrtiny. První kvartil (Q±) je 25%-kvantil, druhý kvartil je medián (Q2) a třetí kvartil (Q3) je 75%-kvantil.
' Decily rozdělují rozdělení na desetiny. Například první decil (Di) je 10%-kvantil, pátý decil (-D5) odpovídá mediánu, a devátý decil (-Dg) je 90%-kvantil.
' Percentily rozdělují rozdělení na 100 částí. Například první percentil (Px) je 1%-kvantil, padesátý percentil (-P50) odpovídá mediánu a devadesátý devátý percentil (P99) je 99%-kvantil.
Náhodná veličina
64
Další běžně používané kvantily mohou zahrnovat tercily (dělí rozdělení na třetiny) a kvintily (dělí rozdělení na pětiny).
Speciálním případem kvantilu je kritická hodnota, používaná při statistických testech. Ta označuje mezní hodnotu, která odděluje zamítnutí a nezamítnutí nulové hypotézy (viz kapitolu Testování statistických hypotéz).
Určování kvantilů
Kvantily se určují z tabulek nebo se pohodlně počítají pomocí softwaru. My budeme většinou používat excelovské funkce, jako jsou:
pro normální rozdělení funkce NORM. INV(p; fi; a), pro Studentovo rozdělení funkce T.INV(p; v) a pro F-rozdělení funkce F. INV(p; v\\ u2) ■
Všechny mají v názvu INV. Tím se poukazuje na to, že jde vlastně o inverzní funkci k distribuční funkci daného rozdělení:
F(xp) = p    -<=^    F~1(p) = xp,
tedy zatímco F k zadané hodnotě xp na ose x vypočte pravděpodobnost p, tak F~ľ (tedy inverze k F) vypočte k zadané pravděpodobnosti p hodnotu kvantilu xp na ose x.
Příklad 3.23. Určete první decil rro,i a třetí kvartil 2:0,75 Pro náhodnou veličinu X s hustotou pravděpodobnosti:
/(*)
i, 0 < x < 1, 0, jinak.
Řešení: Hustota pravděpodobnosti f(x) je konstantní v intervalu 0 < x < 1. Distribuční funkce F{x) je určena jako integrál hustoty:
Í0, x<0, F(x) = h,   0 < x < 1, [l,   x > 1.
Decil £0,1 je hodnota, pro kterou platí F(xq^) = 0,1. Hledáme tedy:
í|i = 0,1 x0,! = 0,2.
Třetí kvartil x0j5 je hodnota, pro kterou platí ^(2^0,75) = 0,75:
íH2p = 0,75 x0J5 = 1,5.
Výsledné hodnoty jsou:
První decil: rr0ii = 0,2
65
Základy statistiky
• Třetí kvartil: x0j5 = 1,5
□
Příklad 3.24. Náhodná veličina X má hustotu pravděpodobnosti: Určete modus.
\x2e x, 0 < x < oo, 0, jinak.
Řešení: Modus je hodnota, ve které hustota pravděpodobnosti f(x) dosahuje svého maxima. Nejprve spočítáme první derivaci funkce f(x):
f'(x) = - ■ (2xe-x - x2e-x) = -xe-x ■ (2 - x).
2
Poté položíme derivaci rovnu nule:
^xe~x ■ (2 - x) = 0.
Tato rovnice má dvě řešení: x = 0 nebo x = 2. Jelikož x = 0 není v definičním oboru, jedná se o maximum v bodě x = 2. Ověříme, že se skutečně jedná o maximum tím, že vypočítáme druhou derivaci:
f"{x)=l-e-x.[{2-x)-x] = -l-e-x. Protože druhá derivace je záporná pro x = 2, jedná se o maximum.
Výsledný modus je Mo = 2. □
OTato kapitola se zaměřuje na náhodné veličiny a jejich základní charakteristiky. Náhodné veličiny jsou proměnné, které nabývají různých hodnot v závislosti na výsledku náhodného pokusu. Vysvětluje rozdíl mezi diskrétními a spojitými náhodnými veličinami, jejich pravděpodobnostními funkcemi a distribučními funkcemi.
Hlavními charakteristikami náhodných veličin jsou střední hodnota a rozptyl, které poskytují informace o průměrné hodnotě veličiny a o tom, jak moc se jednotlivé hodnoty od této průměrné hodnoty odchylují. V kapitole jsou vysvětleny i další charakteristiky, jako šikmost a špičatost, které popisují asymetrii a tvar rozdělení.
Pro diskrétní náhodné veličiny jsou uvedeny postupy výpočtu střední hodnoty a rozptylu na základě pravděpodobností jednotlivých hodnot. U spojitých náhodných veličin se používají integrály k určení těchto charakteristik. Kapitola se rovněž zabývá vztahem mezi pravděpodobnostní a distribuční funkcí, kdy distribuční funkce představuje kumulativní pravděpodobnost.
Náhodná veličina
66
1. Co je to náhodná veličina?
2. Jaký je rozdíl mezi diskrétní a spojitou náhodnou veličinou?
3. Jakým způsobem se vyjadřuje pravděpodobnostní funkce pro diskrétní náhodnou veličinu?
4. Co je to distribuční funkce a jaký má význam?
5. Jak se počítá střední hodnota pro diskrétní náhodnou veličinu?
6. Jaký je vztah mezi pravděpodobnostní funkcí a distribuční funkcí?
7. Co je to rozptyl a jak se počítá pro náhodnou veličinu?
8. Jaký je význam charakteristik šikmosti a špičatosti pro popis náhodné veličiny?
9. Náhodná veličina X nabývá hodnot 1,2,3,4 s pravděpodobnostmi 0,1; 0,2; 0,3; 0,4. Vypočítejte střední hodnotu a rozptyl veličiny X. [Střední hodnota: 3,0; Rozptyl: 1,0]
10. Pro spojitou náhodnou veličinu X je dána hustota pravděpodobnosti f(x) = 2y2 pro y G [0,1]. Vypočítejte střední hodnotu a rozptyl této veličiny. [Střední hodnota: 0,5; Rozptyl: |]
11. Představte si hod kostkou, kde náhodná veličina X udává počet padlých bodů. Sestrojte pravděpodobnostní a distribuční funkci této náhodné veličiny. [Pravděpodobnostní funkce: P(X = k) = | pro k = 1,2, 3,4, 5, 6; Distribuční funkce: f{x) = 0 pro x < 1, f{x) = | pro k<x<k + la f{x) = 1 pro x > 6]
12. Hustota pravděpodobnosti náhodné veličiny X má tvar:
(0, pro x < 1,
x — \,   pro 1 < x < 2, 0, pro x > 2.
Určete distribuční funkci. [Distribuční funkce f(x) je dána: f(x) = 0 pro x < 1, f (x) = y - f pro 1 < x < 2, f (x) = 1 pro x > 2]
13. Náhodná veličina X je určena tabulkou:
X	-2	0	2	4	6
p	0,1	?	0,2	0,3	0,2
), distribuční fun					íCÍ c
Určete hodnotu pravděpodobnosti pro X jevu, že náhodná veličina nabude kladných hodnot.    [Pravděpodobnost pro X = 0: 0,2; Pravděpodobnost kladných hodnot: 0,7]
e
Literatura k tématu:
[1] HINDLS, R. Statistika pro ekonomy. 8. vyd. Praha: Professional Publishing, 2007. ISBN 978-80-869-4643-6. ISBN 978-80-867-3208-8.
[2] MAREK, L. Statistika v příkladech. 2. vyd. Praha: Kamil Mařík - Professional Publishing, 2015. ISBN 978-80-743-1153-6.
[3] OTIPKA, P., SMAJSTRLA, V. Pravděpodobnost a statistika [online]. 1. vydání. Ostrava: VŠB-TU Ostrava, 2007 [cit. 2024-09-09]. ISBN 80-248-1194-4. Dostupné z: https://homel.vsb.cz/~oti73/cdpastl/
[4] ZVÁRA, K. a ŠTĚPÁN, J. Pravděpodobnost a matematická statistika. Matfyzpress, 2019. ISBN 978-80-7378-388-4.
Kapitola 4
Základní typy rozdělení pravděpodobnosti diskrétní náhodné veličiny
Po prostudování této kapitoly budete umět:
> rozpoznat situace, kdy je vhodné k modelování použít binomické, Poissonovo nebo hypergeometrické rozdělení,
vypočítat pravděpodobnosti a další charakteristiky u konkrétních diskrétních rozdělení,
' aplikovat poznatky na modelování situací z reálného života pomocí těchto rozdělení.
pomocí excelovských funkcí vypočíst hodnoty pravděpodobnostních a distribušních funkcí.
Klíčová slova:
Diskrétní náhodná veličina, rozdělení pravděpodobnosti, pravděpodobnostní funkce, distribuční funkce.
Základní typy rozdělení pravděpodobnosti diskrétní náhodné veličiny
68
Náhled kapitoly
V této kapitole se zaměříme na základní typy rozdělení pravděpodobnosti, které se používají u diskrétních náhodných veličin. Probereme binomické, hypergeometrické a Poissonovo. Ukážeme si, jak každé z nich funguje a kdy se používá. Důraz bude kladen nejen na teorii, ale především na praktické příklady, které ukáží, jak tato rozdělení použít při řešení reálných i nereálných problémů. Tato rozdělení tvoří základ pro mnoho aplikací statistiky a pravděpodobnosti v praxi.
Cíle kapitoly
Cílem je pochopit různé typy rozdělení pravděpodobnosti u diskrétních náhodných veličin s ohledem na jejich využití při modelování.
Časová náročnost
Na tuto kapitolu si vyhraďte přibližně 3 hodiny. Tento čas zahrnuje jak studium teorie, tak procvičování příkladů a praktických aplikací, které vám pomohou lépe pochopit dané rozdělení.
4.1    Binomické rozdělení
Definice
Definice 4.1. Binomické rozdělení Bi(n,p) modeluje počet úspěchů v pevně daném počtu nezávislých pokusů, kde každý pokus má dva možné výsledky (úspěch nebo neúspěch) a pravděpodobnost úspěchu je konstantní.
Pravděpodobnost k úspěchů z n pokusů je dána vzorcem:
P{X = k)={^P\l-P)n-\
kde n je počet pokusů, k je počet úspěchů, p je pravděpodobnost úspěchu v každém pokusu a (?) je kombinační číslo.
Základní číselné charakteristiky
Střední hodnota: E(X) = np, Rozptyl: D(X) = np(l-p).
69
Základy statistiky
Grafy pravděpodobnostní a distribuční funkce
Grafy pravděpodobnostní funkce (PDF) a distribuční funkce (CDF) pro binomické rozdělení s n = 10 a p = 0,5 jsou na obrázku 5.
0.3
0.2
K o.i
I IBi(10;0,5)
VI
o
4 6 k
10
1
0.8 0.6 0.4 0.2 0
				ŕ	
					
					
					
			-Bi(10;0,5)		
o
4 6 k
10
Obr. 5: Pravděpodobnostní a distribuční funkce binomického rozdělení pro n = 10 a p = 0,5
Excelovské funkce
Pro práci s binomickým rozdělením lze v Excelu použít následující funkce:
' Pravděpodobnostní funkce (PDF): Funkce BIN0M. Dl ST (k; n; p; FALŠE) vrací pravděpodobnost přesně k úspěchů.
' Distribuční funkce (CDF): Funkce BIN0M. Dl ST (k; n; p; TRUE) vrací pravděpodobnost nejvýše k úspěchů.
4.2    Hypergeometrické rozdelení
Definice
Definice 4.2. Hypergeometrické rozdělení Hg(iV, M, n) modeluje pravděpodobnost k úspěchů při náhodném výběru n objektů z populace N, kde M objektů z této populace jsou úspěchy. Výběr probíhá bez vracení.
Pravděpodobnost k úspěchů je dána vzorcem:
P(X = k) =
M\ ÍN-M k I \ n—k
kde N je velikost populace, M je počet úspěšných objektů v populaci, n je počet vybraných objektů a A; je počet úspěchů.
Základní typy rozdělení pravděpodobnosti diskrétní náhodné veličiny
70
Základní číselné charakteristiky
Střední hodnota: E(X) =
Rozptyl: D(X) = nf (l - f) l
Grafy pravděpodobnostní a distribuční funkce
Grafy pravděpodobnostní funkce (PDF) a distribuční funkce (CDF) pro hypergeometrické rozdělení s parametry N = 50, M = 20, n = 10 jsou na obrázku 6.
0.3
0.2
o.i
o
			1	lHg(50; 20; 10)		
						
						
1					1	
0       2       4 6
k
10
VI
i
0.8 0.6 0.4 0.2 0
			1	
				
				
				
_		-Hg(50; 20; 10)		
0
4 6 k
10
Obr. 6: Pravděpodobnostní a distribuční funkce hypergeometrického rozdělení pro N = 50, M = 20 a n = 10
Excelovské funkce
Pro práci s hypergeometrickým rozdělením lze v Excelu použít následující funkce:
■ Pravděpodobnostní funkce (PDF): Funkce HYPGE0M. Dl ST (k; n; M; N; FALŠE) vrací pravděpodobnost přesně k úspěchů.
Distribuční funkce (CDF): Funkce HYPGEOM.DISKk; n; M; N; TRUE) vrací pravděpodobnost nejvýše k úspěchů.
71
Základy statistiky
4.3    Poissonovo rozdělení
Definice
Definice 4.3. Poissonovo rozdělení Po(A) modeluje počet událostí, které nastanou v pevně daném čase nebo prostoru, za předpokladu, že tyto události nastávají nezávisle na sobě s konstantní střední intenzitou A.
Pravděpodobnost, že v daném intervalu nastane právě k událostí, je dána vzorcem:
\ke~x
m = *) = —,
kde A je očekávaný počet událostí v daném intervalu a A; je počet událostí.
Základní číselné charakteristiky
Střední hodnota: E(X) = A, Rozptyl: D(X) = A.
Grafy pravděpodobnostní a distribuční funkce
Grafy pravděpodobnostní funkce (PDF) a distribuční funkce (CDF) pro Poissonovo rozdělení s parametrem A = 3 jsou na obrázku 7.
0.3
0.2
K o.i
o
				1	iPoisson(A = 3)		
							
							
						1	
0       2       4 6
k
10
VI
i
0.8 0.6 0.4 0.2 0
				
				
				
				
		-Poisson(A = 3)		
0
4 6 k
10
Obr. 7: Pravděpodobnostní a distribuční funkce Poissonova rozdělení pro A = 3
Základní typy rozdělení pravděpodobnosti diskrétní náhodné veličiny
72
Excelovské funkce
Pro práci s Poissonovým rozdělením lze v Excelu použít následující funkce:
■ Pravděpodobnostní funkce (PDF): Funkce POISSON.DISKk; A; FALŠE) vrací pravděpodobnost přesně k událostí.
■ Distribuční funkce (CDF): Funkce POISSON.DISKk; A; TRUE) vrací pravděpodobnost nejvýše k událostí.
4.4    Řešené příklady
Některá další rozdělení
Příklad 4.4 (Alternativní rozdělení Alt(p)). V tomto příkladu si ukážeme alternativní rozdělení, které popisuje náhodný experiment s dvěma možnými výsledky. Uvažujme hod mincí, kde mohou nastat pouze dva výsledky: líc nebo rub. Tento experiment můžeme modelovat alternativním rozdělením Alt(p), kde:
• Prostor možných výsledků je Q = {líc, rub}.
Pravděpodobnost úspěchu (např. padnutí líce) je p, pravděpodobnost neúspěchu (padnutí rubu) je 1 — p.
Výsledkem je náhodná veličina X, která nabývá hodnot 0 (neúspěch) nebo 1 (úspěch). Tedy: M = {0,1} a X = {0,1}.
Jedná se o typické použití alternativního rozdělení.
Příklad 4.5 (Rovnoměrné rozdělení R(n)). Rovnoměrné rozdělení R(n) popisuje situaci, kdy všechny možné výsledky mají stejnou pravděpodobnost. Uvažujme hod klasickou šestistěnnou kostkou, kde je pravděpodobnost každého čísla od 1 do 6 stejná:
• Prostor možných výsledků je M = {1, 2, 3,4, 5, 6}.
• Každý z těchto výsledků má pravděpodobnost |.
V tomto případě se jedná o rovnoměrné rozdělení R(6), které modeluje pravděpodobnostní chování při hodu kostkou.
Binomické rozdělení
Příklad 4.6 (Binomické rozdělení Bi(n,p)). Student má potíže s ranním vstáváním. Proto někdy zaspí a nestihne přednášku, která začíná již v 9 hodin. Pravděpodobnost, že zaspí, je 0,3.
V semestru je 12 přednášek, což znamená 12 nezávislých pokusů dorazit na přednášku včas.
73
Základy statistiky
Nalezněte pravděpodobnost, že student nestihne přednášku v důsledku zaspání v polovině nebo více případů.
Jedná se o binomické rozdělení Bi(n, p) s parametry n = 12 a p = 0,3. Hledaná pravděpodobnost je:
P(X > 6) = 1 - P(X < 6).
Tuto pravděpodobnost lze snadno vypočítat pomocí distribuční funkce binomického rozdělení, například pomocí funkce BINOMDIST v Excelu.
Příklad 4.7 (Binomické rozdělení Bi(n,p)). V obchodě probíhá reklamní akce, při které zákazníci losují ze 100 kupónů. Každý kupón může být výherní s pravděpodobností 0,05. Každý zákazník losuje jeden kupón a šance na výhru je pro každého stejná. Jaká je pravděpodobnost, že z 20 zákazníků alespoň 2 vyhrají?
Tento problém modelujeme jako binomické rozdělení Bi(n,p) s parametry n = 20 a p = 0,05. Hledáme pravděpodobnost:
P(X > 2) = 1 - P(X < 2) = 1 - [P(X = 0) + P(X = 1)].
Pravděpodobnost P(X = 0) = 0,3585 a P(X = 1) = 0,3773. Proto:
P(X > 2) = 1 - (0,3585 + 0,3773) = 0,2642.
Tuto pravděpodobnost lze také spočítat pomocí funkce BINOMDIST v Excelu.
Poissonovo rozdělení
Příklad 4.8 (Poissonovo rozdělení Po(A)). Předpokládejme, že realitní makléř jedná v průměru s pěti zákazníky za den. Zjistěte, jaká je pravděpodobnost, že počet zákazníků makléře zajeden den bude větší než 4.
Náhodná veličina X - počet zákazníků - splňuje kritéria pro Poissonovo rozdělení Po(A) s parametrem A = 5. Hledáme:
P(X > 4) = 1 - P(X < A). Tuto pravděpodobnost lze vypočítat pomocí funkce P0ISS0N v Excelu.
Příklad 4.9 (Poissonovo rozdělení Po(A)). V průměru přistane na místním letišti během jedné hodiny 3 letadla. Jaká je pravděpodobnost, že během jedné hodiny přistanou přesně 2 letadla?
Náhodná veličina X - počet přistání - splňuje kritéria pro Poissonovo rozdělení Po(A) s parametrem A = 3. Hledaná pravděpodobnost je:
32e-3
P(X = 2) = = 0,2240.
Tuto pravděpodobnost lze snadno vypočítat pomocí funkce P0ISS0N v Excelu.
Hypergeometrické rozdělení
Příklad 4.10 (Hypergeometrické rozdělení H(N,M,n)). Mezi stovkou výrobků je 20 zmetků. Vybereme deset výrobků a sledujeme počet zmetků mezi vybranými.
Základní typy rozdělení pravděpodobnosti diskrétní náhodné veličiny
74
V tomto případě má náhodná veličina X hypergeometrické rozdělení iJ(100, 20,10). Pravděpodobnostní funkce je dána vztahem:
P(X = k)
M\ ÍN-M k ) \ n—k Ň
n
kde N = 100, M = 20, n = 10 a k je počet zmetků mezi vybranými výrobky.
Například pravděpodobnost, že mezi deseti vybranými výrobky budou 3 zmetky, lze vypočítat jako P(X = 3).
Příklad 4.11 (Hypergeometrické rozdělení H(N,K,n)). V krabici je 20 kuliček, z nichž 8 je červených a 12 modrých. Náhodně vybereme 5 kuliček bez vracení. Jaká je pravděpodobnost, že vybereme přesně 3 červené kuličky?
Tento problém modelujeme jako hypergeometrické rozdělení H(N,K,n) s parametry:
N = 20,   K = 8,   n = 5.
Hledaná pravděpodobnost je:
P(X = 3)
Po dosazení hodnot dostáváme:
8\ Í12
m
20
5
v        ;       /250^ 15504
Tuto pravděpodobnost lze také vypočítat pomocí funkce HYPGEOM.DIST v Excelu.
OV této kapitole byla představena základní diskrétní rozdělení pravděpodobnosti, která se často vyskytují v praxi (některým jsme se věnovali podrobněji, dalším jen v praktických příkladech). Seznámili jsme se s charakteristikami a použitím těchto rozdělení:
' Alternativní rozdělení A(p) - Popisuje náhodný experiment s dvěma možnými výsledky (např. úspěch/neúspěch). Využívá se např. při modelování hodu mincí.
' Rovnoměrné rozdělení R(n) - Předpokládá, že všechny výsledky mají stejnou pravděpodobnost. Používá se např. při hodu kostkou, kde každé číslo má stejnou pravděpodobnost.
' Binomické rozdělení Bi(n,p) - Popisuje počet úspěchů při pevně daném počtu nezávislých pokusů, kde každý pokus má stejnou pravděpodobnost úspěchu. Příkladem je situace, kdy se sleduje počet úspěchů při opakovaných pokusech, jako je např. ranní docházka studenta.
' Poissonovo rozdělení Po(A) - Používá se k modelování počtu výskytů události v pevném časovém nebo prostorovém intervalu. V praxi může jít např. o modelování počtu zákazníků přicházejících k realitnímu makléři.
• Hypergeometrické rozdělení H(N,M,n) - Popisuje pravděpodobnost určitého počtu úspěchů při výběru bez vracení z konečné populace. Příkladem je sledování počtu vadných výrobků při náhodném výběru z výrobní dávky.
75
Základy statistiky
1. Jaké jsou základní číselné charakteristiky binomického rozdělení?
2. Jak vypadá pravděpodobnostní funkce binomického rozdělení pro n = 10 a p = 0,5?
3. Co modeluje Poissonovo rozdělení?
4. Jaký je vzorec pro pravděpodobnost, že Poissonova náhodná veličina X nabude hodnoty k, pokud má parametr A?
5. Jaký je vztah mezi střední hodnotou a rozptylem u Poissonova rozdělení?
6. Jaké typické aplikace má Poissonovo rozdělení v reálném světě?
7. Co modeluje hypergeometrické rozdělení?
8. Jaký je rozdíl mezi binomickým a hypergeometrickým rozdělením?
9. V dodávce 80 polotovarů je 8 (tj. 10 %) vadných. Náhodně vybereme (najednou, tj. „bez vracení") 5 kusů polotovarů k další kompletaci. Jaká je pravděpodobnost, že mezi vybranými prvky bude maximálně jeden vadný? [0,7248]
10. Ve skladišti závodu je 5 000 výrobků stejného typu. Pravděpodobnost toho, že daný výrobek nevydrží kontrolní zapojení, je 0,1 %. Najděte pravděpodobnost, že z výrobků na skladě více než dva nevydrží kontrolní zapojení. [0,0036]
11. Korektura 500 stránek obsahuje 500 nalezených tiskových chyb. Najděte pravděpodobnost toho, že na stránce jsou nejméně tři chyby. [0,0803]
12. Najděte pravděpodobnost toho, že mezi 200 výrobky se vyskytnou více než tři zmetky, když v průměru je zmetkovitost výroby těchto výrobků 1 %. [0,1423]
e
Literatura k tématu:
[1] HINDLS, R. Statistika pro ekonomy. 8. vyd. Praha: Professional Publishing, 2007. ISBN 978-80-869-4643-6. ISBN 978-80-867-3208-8.
[2] MAREK, L. Statistika v příkladech. 2. vyd. Praha: Kamil Mařík - Professional Publishing, 2015. ISBN 978-80-743-1153-6.
[3] OTIPKA, P., SMAJSTRLA, V. Pravděpodobnost a statistika [online]. 1. vydání. Ostrava: VŠB-TU Ostrava, 2007 [cit. 2024-09-09]. ISBN 80-248-1194-4. Dostupné z: https://homel.vsb.cz/~oti73/cdpastl/
[4] ZVÁRA, K. a ŠTĚPÁN, J. Pravděpodobnost a matematická statistika. Matfyzpress, 2019. ISBN 978-80-7378-388-4.
Kapitola 5
Základní typy rozdělení pravděpodobnosti spojité náhodné veličiny
Po prostudování této kapitoly budete umět:
vyjmenovat základní spojitá rozdělení pravděpodobnosti i s jejich důležitými vlastnostmi,
vypočítat základní charakteristiky daných typů rozdělení pravděpodobnosti,
pomocí excelovských funkcí vypočíst hodnoty hustot a distribušních funkcí spojitých rozdělení,
• pomocí excelovských funkcí vypočíst kvantily spojitých rozdělení.
Klíčová slova:
Rozdělení pravděpodobnosti, hustota funkce, distribuční funkce, střední hodnota, rozptyl, kvant il.
77
Základy statistiky
Náhled kapitoly
Tato kapitola se zaměřuje na základní typy rozdělení pravděpodobnosti pro spojité náhodné veličiny. Seznámíme se s rozděleními, jako je normální, exponenciální a rovnoměrné rozdělení. Každé z těchto rozdělení má specifické vlastnosti a používá se v různých situacích při modelování náhodných jevů. Kromě teoretického popisu si také ukážeme, jak tato rozdělení aplikovat v praxi a jak vypočítat pravděpodobnosti a další charakteristiky. V kapitole jsou uvedeny příklady, které demonstrují užití spojitých rozdělení v reálných situacích.
Cíle kapitoly
Cílem je pochopit a rozlišovat základní typy rozdělení pravděpodobnosti pro spojité náhodné veličiny a aplikovat tyto poznatky při řešení úloh z praxe.
Časová náročnost
Pro tuto kapitolu doporučujeme vyčlenit přibližně 3 hodiny, které zahrnují jak studium teoretických částí, tak procvičování praktických příkladů a aplikací.
5.1    Normální rozdělení
Definice
Definice 5.1. Normální rozdělení N(fi,a2) je rozdělení pravděpodobnosti, které je symetrické kolem střední hodnoty fi a jeho tvar je zvonovitý. Je určeno dvěma parametry: střední hodnotou fi a směrodatnou odchylkou o.
Hustota normálního rozdělení je dána vzorcem:
fí        i\ 1 ( (x-^)2\
/(w) = v^expr^^J'
kde fi je střední hodnota a a2 je rozptyl.
Rozdělení ÍV(0; 1) se nazývá normované (nebo standardizované) normální rozdělení
a je ve statistice velmi důležité.
Základní typy rozdělení pravděpodobnosti spojité náhodné veličiny
78
Obr. 8: Jeden z hrdých otců normálního rozdělení (vytvořeno pomocí ChatGPT, openAI)
Základní číselné charakteristiky
Střední hodnota: fi Rozptyl: a2
Symetrie: Normální rozdělení je symetrické kolem střední hodnoty fi.
Grafy hustot a distribuční funkce
Grafy znázorňující hustoty a distribuční funkce normálního rozdělení pro různé hodnoty fi a o jsou uvedeny na obrázcích 9 a 10.
0.8 0.6
0.2 0
1 - N(0,1) -- - N(0,0.25) ■■ N(0,1.5)		7 i 1 1 1 >	\ l l 1	
		1		
	1 1			
	I r		\	
	/ - '		i V \ \» \ \N	
o
x
0.8 0.6 0.4 0.2 0
- N(0,1
-- - N(0;0,25) ■■ N(0;l,5)
4
0
x
Obr. 9: Grafy hustot a distribučních funkcí normálního rozdělení s různými rozptyly
79
Základy statistiky
0.4 0.3 S 0.2
-N(0,1) _ —N(-l,l) -N(-2,l)		i i i \ i \		
		'  i / 1 y /1	x \ \ \	
	■ :			
	i i i ; ! i	/ \ j i / \ / \	x \ x \ \ \ x \ \ \	
	/ / t	j	\ \ \ \	—
-6     -4     -2      0       2 4
x
1
0.8 0.6 0.4 0.2 0
-N(0,1) - —N(-l,l) -N(-2,l)		** Z	t f	
		t i t / : i /		
		/ / / /		
	/ / /	» t t / * / t /		
	/ i			
■6 -4
-2 0
x
Obr. 10: Grafy hustot a distribučních funkcí normálního rozdělení s různými středními hodnotami
Excelovské funkce
Pro práci s normálním rozdělením lze v Excelu použít následující funkce:
Hustota pravděpodobnosti (PDF): Funkce N0RM. Dl ST (x; //; a; FALŠE) vrací hodnotu hustoty pravděpodobnosti.
Distribuční funkce (CDF): Funkce N0RM.DIST(x; //; a; TRUE) vrací hodnotu distribuční funkce.
' Kvantilová funkce: Funkce N0RM.INV(p; //; a) vrací kvantil pro danou pravděpodobnost p, střední hodnotu fi a směrodatnou odchylku a.
Pro práci s normovaným normálním rozdělením (// = 0, čt = 1) lze použít specializované funkce:
Hustota pravděpodobnosti (PDF): Funkce N0RM.S.DIST(x; FALŠE) vrací hodnotu hustoty pravděpodobnosti.
Distribuční funkce (CDF): Funkce N0RM.S.DIST(x; TRUE) vrací hodnotu distribuční funkce.
Kvantilová funkce: Funkce N0RM. S. INV(p) vrací kvantil pro danou pravděpodobnost p.
Základní typy rozdělení pravděpodobnosti spojité náhodné veličiny
80
5.2
Rovnomerne rozdelení
Definice
Definice 5.2. Rovnoměrné rozdělení U(a,b) je rozdělení pravděpodobnosti, kde každá hodnota z intervalu [a, b] má stejnou pravděpodobnost. Je určeno dvěma parametry: dolní mezí a a horní mezí b.
Hustota rovnoměrného rozdělení je dána vzorcem:
1
f(x;a,b)
b — a
pro   a < x < b.
Toto rozdělení se používá, pokud je každá hodnota v určitém rozsahu stejně pravděpodobná.
Základní číselné charakteristiky
Střední hodnota:
1. (b-a)2
Rozptyl: 12
Symetrie: Rovnoměrné rozdělení je symetrické kolem střední hodnoty.
Grafy hustoty a distribuční funkce
Grafy hustoty a distribuční funkce rovnoměrného rozdělení pro různé hodnoty a a b jsou uvedeny na obrázku 11.
0.6 0.4 ^ 0.2
		-1/(0,5) — C/(l,4)	
			
			
			
			
0.5
"-[/(0, 5) " — C/(l,4)		/ / / / . / / / x / x t x /X	/
			
	f / X / / / X / y t X / z y		
		1	
x
x
Obr. 11: Grafy hustot a distribučních funkcí rovnoměrného rozdělení (různé parametry a a b)
81
Základy statistiky
Excelovské funkce
Pro práci s rovnoměrným rozdělením lze v Excelu použít následující funkce:
■ Hustota pravděpodobnosti (PDF): Funkce UNIFORM.DIST(x; a; b; FALŠE) vrací hodnotu hustoty pravděpodobnosti.
Distribuční funkce (CDF): Funkce UNIFORM.DIST(x; a; b; TRUE) vrací hodnotu distribuční funkce.
' Kvantilová funkce: Funkce UNIFORM. INV(p; a; b) vrací kvantil pro danou pravděpodobnost p, dolní mez a a horní mez b.
5.3    Exponenciální rozdělení
Definice
Definice 5.3. Exponenciální rozdělení Exp(X) je rozdělení pravděpodobnosti, které modeluje dobu mezi nezávislými náhodnými událostmi, které se vyskytují s konstantní průměrnou mírou. Parametr A představuje intenzitu událostí (průměrný počet výskytů za jednotku času).
Hustota exponenciálního rozdělení je dána vzorcem:
f(x; A) = Xe-Xx   pro   x > 0,
kde A > 0 je parametr udávající rychlost procesu. Tento typ rozdělení se používá pro modelování například doby čekání na příchod události.
Základní číselné charakteristiky
Střední hodnota: ^ Rozptyl: ^
Asymetrie: Exponenciální rozdělení je asymetrické, má delší pravý chvost.
Grafy hustoty a distribuční funkce
Grafy hustoty a distribuční funkce exponenciálního rozdělení pro různé hodnoty A jsou uvedeny na obrázku 12.
Základní typy rozdělení pravděpodobnosti spojité náhodné veličiny
82
012345 012345
Obr. 12: Grafy hustot a distribučních funkcí exponenciálního rozdělení pro různé parametry A
Excelovské funkce
Pro práci s exponenciálním rozdělením lze v Excelu použít následující funkce:
■ Hustota pravděpodobnosti (PDF): Funkce EXP0N.DIST(x; A; FALŠE) vrací hodnotu hustoty pravděpodobnosti.
■ Distribuční funkce (CDF): Funkce EXP0N.DIST(x; A; TRUE) vrací hodnotu distribuční funkce.
' Kvantilová funkce: Funkce EXPON. INV(p; A) vrací kvantil pro danou pravděpodobnost p a parametr A.
5.4    Řešené příklady
Příklad 5.4 (Rovnoměrné rozdělení R(a,b)). Tramvajová linka číslo 8 odjíždí v dopoledních hodinách ze zastávky každých 10 minut. Vypočtěte pravděpodobnost, že na ni budete dopoledne čekat déle než 7 minut.
Doba čekání je náhodná veličina X, která má rovnoměrné rozdělení pravděpodobnosti - v našem případě R(0,10).
Řešení: Pro rovnoměrné rozdělení R(a, b) platí:
f(x) = lÁí' a-X-b' I 0, jinak.
V našem případě a = 0 a b = 10, takže hustota pravděpodobnosti je:
'<*>=fr °-;-10'
0,    j mak.
83
Základy statistiky
Distribuční funkce F (x) je:
í O,    x < O,
F(x) = UQ, 0<x<10, [l, x>10.
Pravděpodobnost, že budeme čekat déle než 7 minut, je:
P(X>7) = 1- F (7) = 1 - ^ = 0,3.
□
Příklad 5.5 (Exponenciální rozdělení E (X)). Doba čekání hosta na pivo je v restauraci U Lva průměrně 5 minut. Určete:
1. hustotu pravděpodobnosti náhodné veličiny, která je dána dobou čekání na pivo,
2. pravděpodobnost, že budeme čekat na pivo déle než 12 minut,
3. dobu čekání, během které bude zákazník obsloužen s pravděpodobností 0,9.
Jedná se tedy o exponenciální rozdělení pravděpodobnosti.
Řešení:     1. Hustota pravděpodobnosti pro exponenciální rozdělení E(X) je dána vztahem:
V '     [0, x<0.
V našem případě je střední doba čekání j = 5, takže A = | = 0,2. Hustota pravděpodobnosti tedy je:
Í0,2e-«.-, ,>0, V '     (0, x<0.
2. Distribuční funkce F(x) je:
0, x < 0,
1 - e-°'2x,   x > 0.
Pravděpodobnost, že budeme čekat déle než 12 minut, je:
P(X > 12) = 1 - F(12) = 1 - (1 - e"0'2'12) = e"2'4 « 0,0907.
3. Hledáme dobu čekání t, při které bude zákazník obsloužen s pravděpodobností 0,9:
P(X <t) = l- e-°'2t = 0,9.
Z toho plyne:
e-°<2i = 0,l -0,2ŕ = ln(0,l) ŕ = ^^«11,51.
—U,z
Zákazník bude obsloužen s pravděpodobností 0,9 do 11,51 minut.
□
Základní typy rozdělení pravděpodobnosti spojité náhodné veličiny
84
Příklad 5.6 (Normální rozdělení N(fi, u2)). Jaká je pravděpodobnost, že náhodná veličina X, která má rozdělení iV(10,9), nabude hodnoty:
1. menší než 16,
2. větší než 10,
3. v mezích od 7 do 22?
Řešení:     1. Hustota pravděpodobnosti pro normální rozdělení N(fi, a2) je dána vztahem:
f(x) = —7Ťre
V našem případě fi = 10 a a2 = 9, takže hustota pravděpodobnosti je:
ti  \ 1 _Í2^I°2Í
V 7 3v/2T
Distribuční funkce F(x) je integrována z hustoty pravděpodobnosti:
-F(rr) = P(X < x)   pro x G (—oo, oo). Hodnoty distribuční funkce lze zjistit pomocí tabulek nebo např. v Excelu funkcí N0RMDIST.
2. Pravděpodobnost, že X < 16, je:
P(X < 16) = F(16) « N0RMDIST(16,10, 3,1) « 0,9772.
3. Pravděpodobnost, že X > 10, je:
P(X > 10) = 1 - F(10) = 1 - N0RMDIST(10,10, 3,1) = 0,5.
4. Pravděpodobnost, že X nabude hodnoty v intervalu 7 < X < 22, je:
P(7 < X < 22) = F(22) - F{7) « N0RMDIST(22,10, 3,1) - N0RMDIST(7,10, 3,1) « 0,8413.
□
OV této kapitole jsme se zabývali základními spojitými rozděleními pravděpodobnosti, která se hojně používají v praxi. Seznámili jsme se s jejich vlastnostmi, praktickým použitím a s metodami výpočtu pravděpodobností a charakteristik.
' Rovnoměrné rozdělení R(a, b) - Tento typ rozdělení se používá tehdy, když má náhodná veličina stejnou pravděpodobnost výskytu na každém bodě intervalu (a, b). V této kapitole jsme si ukázali, jak vypočítat pravděpodobnosti a distribuční funkci rovnoměrně rozdělené náhodné veličiny a jaké jsou její základní charakteristiky (střední hodnota, rozptyl).
85
Základy statistiky
' Exponenciální rozdělení E(X) - Exponenciální rozdělení se používá při modelování času mezi událostmi v procesech, které se vyskytují s konstantní intenzitou. V praxi může jít například o dobu čekání na obsluhu. Zabývali jsme se výpočtem pravděpodobností, distribuční funkcí a časovými intervaly, v nichž nastanou určité události s danou pravděpodobností.
' Normální rozdělení N(fi, a2) - Toto rozdělení, často označované jako Gaussovo, je jedním z nej důležitějších rozdělení v teorii pravděpodobnosti. Modeluje mnohé reálné procesy, jako jsou měření s chybami. V kapitole jsme si ukázali, jak pomocí normálního rozdělení odhadnout pravděpodobnosti pro různé intervaly hodnot, jak vypočítat hodnoty distribuční funkce a jak využít tabulky či software při výpočtech.
V této kapitole jsme se zaměřili také na aplikace těchto rozdělení ve formě řešených příkladů, které zahrnovaly výpočty pravděpodobností a interpretace získaných výsledků. Naučili jsme se rozlišovat situace, kdy je vhodné použít jednotlivé typy spojitých rozdělení, a získali jsme praktické dovednosti při jejich použití.
Kapitola poskytuje pevný základ pro pochopení spojitých náhodných veličin a jejich rozdělení, které jsou klíčové pro analýzu a modelování reálných dat v různých oblastech, od statistiky po strojové učení.
Ol. Jaké jsou hlavní rozdíly mezi spojitým a diskrétním rozdělením pravděpodobnosti? Uveďte příklady spojitých rozdělení. 2. Co je to distribuční funkce náhodné veličiny a jaký je její význam? Jaký tvar má distribuční funkce pro rovnoměrné rozdělení?
3. Vysvětlete, co rozumíme pod termínem hustota pravděpodobnosti. Jaká je hustota pravděpodobnosti pro exponenciální rozdělení?
4. Jaké jsou základní charakteristiky normálního rozdělení N(fi, o"2)? Proč je toto rozdělení tak důležité v teorii pravděpodobnosti a statistice?
5. Jaké jsou aplikace exponenciálního rozdělení v praxi? Vysvětlete, v jakých situacích je vhodné použít exponenciální rozdělení.
6. K čemu se používá rovnoměrné rozdělení? Jak se vypočítá střední hodnota a rozptyl rovnoměrně rozdělené náhodné veličiny?
7. Jakou roli hraje normální rozdělení při testování statistických hypotéz? Jaké vlastnosti musí mít data, aby bylo možné použít normální rozdělení pro analýzu?
8. Jaké jsou klíčové rozdíly mezi pravděpodobnostní funkcí a hustotou pravděpodobnosti? Jakou hodnotu má hustota pravděpodobnosti v konkrétním bodě pro normální rozdělení?
9. Co rozumíme pod pojmem střední hodnota náhodné veličiny? Jak se liší střední hodnota mezi rovnoměrným, exponenciálním a normálním rozdělením?
10. Jaký je vztah mezi intenzitou A v exponenciálním rozdělení a střední dobou mezi událostmi?
11. Náhodná veličina X má rozdělení N(0,1). Určete:
a. P(X < 2,31) [0,9896]
b. P(X < -1,1) [0,1357]
Základní typy rozdělení pravděpodobnosti spojité náhodné veličiny
86
c. P(-0,41 < X < 2,92) [0,6599]
12. Váha v uhelných skladech váží s chybou 30 kg, přičemž snižuje váhu. Náhodné chyby mají normální rozdělení pravděpodobnosti se o = 100 kg. Jaká je pravděpodobnost, že chyba zjištěné váhy nepřekročí v absolutní hodnotě 90 kg? [0,6730]
13. Rovnoměrně rozdělená náhodná veličina X na intervalu (2,10). Vypočtěte:
a. Střední hodnotu a rozptyl.    [Střední hodnota: 6, Rozptyl: 5,33]
b. P(X > 7) [0,375]
14. Čas mezi událostmi je modelován exponenciálním rozdělením s intenzitou A = 0,5. Jaká je pravděpodobnost, že čas mezi dvěma událostmi bude menší než 3 minuty? [0,7769]
Literatura k tématu:
[1] HINDLS, R. Statistika pro ekonomy. 8. vyd. Praha: Professional Publishing, 2007. ISBN 978-80-869-4643-6. ISBN 978-80-867-3208-8.
[2] MAREK, L. Statistika v příkladech. 2. vyd. Praha: Kamil Mařík - Professional Publishing, 2015. ISBN 978-80-743-1153-6.
[3] OTIPKA, P., SMAJSTRLA, V. Pravděpodobnost a statistika [online]. 1. vydání. Ostrava: VŠB-TU Ostrava, 2007 [cit. 2024-09-09]. ISBN 80-248-1194-4. Dostupné z: https://homel.vsb.cz/~oti73/cdpastl/
[4] ZVÁRA, K. a ŠTĚPÁN, J. Pravděpodobnost a matematická statistika. Matfyzpress, 2019. ISBN 978-80-7378-388-4.
Kapitola 6
Náhodný vektor
Po prostudování této kapitoly budete umět:
určit hustotu pravděpodobnosti a distribuční funkci náhodného vektoru,
vypočítat marginální funkce náhodného vektoru a charakteristiky náhodného vek toru - kovarianci a koeficient korelace.
Klíčová slova:
Náhodný vektor, hustota pravděpodobnosti, distribuční funkce, kovariance, koeficient ko relace.
Náhodný vektor
88
Náhled kapitoly
V této kapitole se zaměříme na pojem náhodného vektoru, což je rozšíření náhodné veličiny na případ dvou nebo více veličin současně. Probereme základní vlastnosti náhodného vektoru, společné a marginální rozdělení, a ukážeme si, jak lze analyzovat závislosti mezi jednotlivými složkami vektoru. Dále se budeme věnovat výpočtu číselných charakteristik, jako je střední hodnota, kovariance a koeficient korelace, a jejich významu při práci s náhodnými veličinami. Na praktických příkladech uvidíme, jak lze tyto pojmy využít.
Cíle kapitoly
Cílem je pochopit, proč je důležité pracovat s více náhodnými veličinami současně a jaký přínos to má pro analýzu dat.
Časová náročnost
Pro zvládnutí této kapitoly doporučujeme věnovat přibližně 3 hodiny studiu teorie, výpočtu charakteristik náhodného vektoru a řešení praktických příkladů, které vám pomohou lépe porozumět závislostem mezi náhodnými veličinami.
6.1    Dvourozměrný náhodný vektor
Náhodný vektor představuje rozšíření pojmu náhodné veličiny na případ dvou a více náhodných veličin současně. Popisuje pravděpodobnostní chování více veličin a umožňuje analyzovat jejich společnou distribuci a závislosti mezi nimi. V této kapitole se zaměříme na případ dvourozměrného náhodného vektoru.
Definice 6.1 (Náhodný vektor). Náhodný vektor (X,Y) je uspořádaná dvojice náhodných veličin. Pro popis jeho pravděpodobnostní struktury se využívá společná pravděpodobnostní funkce p(x,y) u diskrétních veličin nebo hustota pravděpodobnosti f(x,y) u spojitých veličin.
Definice 6.2 (Společná pravděpodobnostní funkce a hustota pravděpodobnosti). V případě diskrétních veličin je společná pravděpodobnostní funkce p(x,y) = P(X = x,Y = y) definována jako pravděpodobnost, že X = x a, Y = y. U spojitých veličin je společná hustota pravděpodobnosti f(x,y) definována tak, že:
P(X e (x1,x2),Y e (y1,y2)) =       / f(x,y)dydx.
89
Základy statistiky
Definice 6.3 (Marginální rozdělení). Marginální rozdělení popisuje pravděpodobnostní chování jednotlivých složek náhodného vektoru. U diskrétních veličin získáme marginální pravděpodobnosti pi(x) a P2(y) jako:
Pi(x) = ^2p(x,v), P2(y) = J2p(x>v)-
y x Pro spojité veličiny získáme marginální hustoty f\(x) a f2{y) integrací:
/oo roo f(x,y)dy,   f2(y) = / f(x,y)dx. -oo J — oo
Definice 6.4 (Distribuční funkce). Distribuční funkce náhodného vektoru F(x,y) je definována jako:
F(x,y) = P(X<x,Y<y).
U spojitých veličin platí:
rx ry
F(x,y) = /     / f(u,v)dvdu.
J—oo J — oo
Definice 6.5 (Podmíněné rozdělení). Podmíněná pravděpodobnost p(x \ y) je definována jako:
p(x v) = —rr Pro Mv) > °-My)
Pro spojité veličiny je podmíněná hustota definována obdobně:
f{x\y) = f-Wv Pro h(y)>o-Í2{y)
Definice 6.6 (Číselné charakteristiky náhodného vektoru). Mezi základní charakteristiky náhodného vektoru (X, Y) patří střední hodnota, rozptyl a kovariance:
/oo x ■ fi(x) dx (spojité). X -oo
Kovariance Cov(X, Y) se počítá jako:
Cov(X,F) = E[(X - E[X])(Y - E[Y])] = E[XY] - E[X]E[Y].
Náhodný vektor
90
Definice 6.7 (Koeficient korelace). Koeficient korelace p(X,Y) vyjadřuje míru lineární závislosti mezi veličinami laľ. Definice koeficientu korelace je:
p(.Y,yH^I),
kde o~x a oy jsou směrodatné odchylky veličin X a Y. Hodnota p(X, Y) se pohybuje v intervalu ( — 1,1).
6.2    Řešené příklady
Příklad 6.8. Najděte konstantu c, tak aby funkce:
cj$^, 2<x<3,0<y<l, 0, jinak.
byla hustotou pravděpodobnosti nějakého náhodného vektoru (X,Y). Řešení: Aby byla f(x,y) hustotou pravděpodobnosti, musí platit:
rl r3
\   \  c-- dxdy = 1.
Jo Í2   1 + y2
Nejprve vypočítáme integrál:
rl r3
/   / 7~i—ô dx dy-
Jo Í2 1 + yz
Integrál lze rozdělit na vnitřní a vnější:
T L3      dx dy = So TTŕ Gí3 "2 ^
Vnitřní integrál je:
c co		3 27	8 19
/      cLXt —	-	= — —	
to	3	2 3	
Vnější integrál je:
91
Základy statistiky
/-- dy = [arctaníí/)]! = arctan(l) — arctan(O) = —.
Jo l + v 4
1   ľ3     X2      ,    , 19    7t 19tt
dx dy
h l + y Celkový integrál je tedy:
k h l + y2 3    4 12
Aby byla f (x,y) hustotou pravděpodobnosti, musí platit:
19tt i
c--= 1.
12
Z toho plyne:
12
c =-.
19tt
Hustota pravděpodobnosti je tedy:
12     x2      2 < x < 3, 0 < y < 1,
U, jmak.
□
Příklad 6.9. Studenti z jedné studijní skupiny byli na zkoušce z matematiky a fyziky s těmito výsledky (první hodnota v uspořádané dvojici označuje výsledek studenta z matematiky, druhá z fyziky):
(1,1), (1, 2), (1, 3), (2, 2), (2, 3), (2,3), (3, 2), (3, 2), (3,3), (3, 3), (3, 3), (3,3), (3, 3), (3,4), (3,4), (4, 3), (4, 3), (4,4), (4,4), (4,4).
1. Vytvořte pravděpodobnostní tabulku náhodného vektoru, jehož složka X bude znamenat výsledky u zkoušky z matematiky a složka Y bude znamenat výsledky u zkoušky z fyziky.
2. Určete marginální pravděpodobnostní funkce pi(x) a P2{y)-
3. Určete distribuční funkci F(x,y).
4. Určete podmíněné pravděpodobnosti p(x \ y).
Řešení: Studentů je podle zadání 20 (n = 20).
ad 1. Vytvoříme pravděpodobnostní tabulku pro náhodný vektor (X,Y):
Náhodný vektor
92
X\Y	1	2	3	4
1	0,05	0,05	0,05	0
2	0	0,05	0,10	0
3	0	0,10	0,25	0,10
4	0	0	0,10	0,15
Hodnoty v prvním řádku a prvním sloupci jsou hodnoty, kterých mohou nabývat náhodné veličiny X a Y. Ostatní čísla v tabulce znamenají pravděpodobnosti všech možných dvojic, například (hodnota v druhém řádku a druhém sloupci tabulky) p(l, 1) = ^ = 0,05, neboť hodnota (1,1) je jen jedna z dvaceti. Podobně třeba p(3, 2) =     = 0,10.
ad 2. Marginální pravděpodobnostní funkce pi(x) a P2{y)'-
X\Y	l	2	3	4 pi(x)
1	0,05	0,05	0,05	0 0,15
2	0	0,05	0,10	0 0,15
3	0	0,10	0,25	0,10 0,45
4	0	0	0,10	0,15 0,25
P2(y)	0,05	0,20	0,50	0,25 1,00
Marginální pravděpodobnostní funkce p\{x) jsou dány součty pravděpodobností v řádcích, P2(y) jsou dány součty pravděpodobností ve sloupcích.
ad 3. Distribuční funkce F(x,y):
Distribuční funkce F(x,y) je součtem všech pravděpodobností, kde X < x a Y < y. Například:
F(3, 3) = P(X < 3, Y < 3) = 0,05 + 0,05 + 0,05 + 0,05 + 0,10 + 0,10 + 0,25 = 0,65. Tabulka hodnot distribuční funkce F(x,y) je následující:
X\Y	1	2	3	4	F(x,y)
1	0,05	0,10	0,15	0,15	0,15
2	0,05	0,15	0,25	0,25	0,25
3	0,05	0,25	0,50	0,60	0,60
4	0,05	0,25	0,60	0,75	0,75
ad 4. Podmíněné pravděpodobnosti p(x \ y):
Podmíněné pravděpodobnosti p(x \ y) se vypočítají jako:
/ i x p(x,y)
Například p(3 | 3) = §4| = 0,50.
93
Základy statistiky
Tabulka podmíněných pravděpodobností p(x \ y) je následující:
X\Y	1	2	3	4
1	1,00	0,25	0,10	0,00
2	0,00	0,25	0,20	0,00
3	0,00	0,50	0,50	0,40
4	0,00	0,00	0,20	0,60
□
Příklad 6.10. Určete číselné charakteristiky náhodného vektoru (X, Y), který je zadán tabulkou:
Y\X	2	3	6
1	0,15	0,20	0,10
3	0,20	0,05	0,30
Řešení: Budeme postupovat podle následujících kroků:
1. Střední hodnota E(X) a E(Y):
Střední hodnoty se vypočítají jako vážený průměr hodnot X a Y s váhami odpovídajícími pravděpodobnostem:
E(x) = EEií'p(a:"%)' E(Y) = EE%"p(ií.i/j)'
i j
Pro výpočet E{X):
E(X) = 2-(0,15+0,20)+3-(0,20+0,05)+6-(0,10+0,30) = 2-0,35+3-0,25+6-0,40 = 0,70+0,75+2,40 = 3,85. Pro výpočet E(Y):
E(Y) = 1 • (0,15 + 0,20 + 0,10) + 3 • (0,20 + 0,05 + 0,30) = 1 • 0,45 + 3 • 0,55 = 0,45 + 1,65 = 2,10.
2. Rozptyl D(X) a D(Y): Rozptyl se vypočítá jako:
D{X) = - E(X))2-p(xhyj),
Náhodný vektor
94
^) = EEfc-W-pfei/,')-
Pro výpočet D (X):
D(X) = (2 - 3,85)2 • (0,15 + 0,20) + (3 - 3,85)2 • (0,20 + 0,05) + (6 - 3,85)2 • (0,10 + 0,30).
D(X) = (-l,85)2-0,35 + (-0,85)2-0,25 + 2,152-0,40 = 3,4225-0,35 + 0,7225-0,25 + 4,6225-0,40.
D(X) = 1,198875 + 0,180625 + 1,849 = 3,2285.
Pro výpočet D (Y):
D (Y) = (1 - 2,10)2 • (0,15 + 0,20 + 0,10) + (3 - 2,10)2 • (0,20 + 0,05 + 0,30).
D (Y) = (—1,10)2 • 0,45 + 0,902 • 0,55 = 1,21 • 0,45 + 0,81 • 0,55 = 0,5445 + 0,4455 = 0,99.
3. Kovariance Cov(X, Y): Kovariance se vypočítá jako:
Počítáním všech členů dostaneme hodnotu kovariance přibližně Cov(X, Y) « 0,465. 4. Koeficient korelace p(X,Y): Koeficient korelace je dán vztahem:
Cov(X,F) - E{X)) • (Vj - E(Y))-p(xt,yA.
Cov(X, Y) = (2 - 3,85) • (1 - 2,10) • 0,15 + (2 - 3,85) • (3 - 2,10) • 0,20 + ...
Cov(X,F) = (-1,85) • (-1,10) -0,15 + (-1,85) -0,90-0,20 + ...
Cov(X, Y) = 0,30525 - 0,333 + ...
Cov(X, Y)
95
Základy statistiky
MA', Y) =  ,   °'465       = JW£L = ~ 0i26.
^V  '   ;    V3,2285 • 0,99 1,787
Jedná se tedy o slabou pozitivní lineární závislost mezi náhodnými veličinami laľ. □
Příklad 6.11. Vypočtěte střední hodnotu náhodné veličiny X náhodného vektoru, který je určen hustotou pravděpodobnosti:
' 0, jinak.
Řešení: Střední hodnota náhodné veličiny V je dána vztahem:
E(X) = /    /   x ■ - sin(x + y) dx dy. Jo  Jo 2
Nejprve vypočítáme vnitřní integrál podle proměnné x:
1 ľ ľ
E(X) = — /    /   x sin(x + y) dx dy.
2 Jo Jo
Pro výpočet použijeme substituci u = x + y, což znamená du = dx a u se mění od y do y + |. Poté máme:
i n
E(X) = — /    /      (u — y) sin(it) du dy. 2 Jo  J y
Nyní rozdělíme integrál na dva:
1 tl ( fv+í fv+í \
E(X) = — J us\n(u)du — y J sin(u)dujdy.
První integrál J usm(u) du je:
u sin(-u) du = —u cos(it) + sin(-u). Po dosazení mezí u = ya,u = y+ ^ dostaneme:
J   2 u sin(íi) du = -(y+^ cos (y + 0 + sin (y + 0 - (-y cos(y) + sin(y)). Dále platí, že cos (?/ + §) = — sin(y) a sin (?/ + §) = cos(y), takže první část integrálu je:
Náhodný vektor
96
y+í 7T
itsin(it) du = ysm(y) + — cos(y) + cos (y) — ycos(y).
Druhý integrál Jy + 2 sin(-u) du je:
J sin(it) du = — cos(-u),
takže po dosazení mezí dostaneme:
y
y+i ( 7r\
sin(-u) du = — cos [y + — J + cos (y) = sin(y) + cos (y).
Nakonec integrujeme vnější integrál podle y a dostaneme výslednou hodnotu střední hodnoty E(X).
Po kompletním výpočtu zjistíme, že:
E{X) = l
U
OV této kapitole jsme se seznámili s konceptem náhodného vektoru, který představuje rozšíření pojmu náhodné veličiny na případ dvou a více náhodných veličin současně. Náhodný vektor popisuje pravděpodobnostní chování více veličin a umožňuje analyzovat jejich společnou distribuci a závislosti mezi nimi.
V této kapitole jsme rovněž řešili praktické příklady, ve kterých jsme aplikovali výše uvedené koncepty. Náhodný vektor je důležitým nástrojem při analýze dat, kde je třeba zkoumat více proměnných současně a jejich vzájemné vztahy. Tato kapitola poskytuje základní porozumění tomu, jak tyto závislosti modelovat a analyzovat.
' Definice náhodného vektoru: Náhodný vektor (X, Y) je uspořádaná dvojice náhodných veličin. Pro popis jeho pravděpodobnostní struktury se využívá společná pravděpodobnostní funkce (u diskrétních veličin) nebo hustota pravděpodobnosti (u spojitých veličin).
Společná pravděpodobnostní funkce a hustota pravděpodobnosti: V případě diskrétních veličin (X,Y) je společná pravděpodobnostní funkce p(x,y) definována jako pravděpodobnost, že X = x a, Y = y. U spojitých veličin je obdobně definována společná hustota pravděpodobnosti f(x,y).
• Marginální rozdělení: Marginální rozdělení pi(x) a p2{y) popisuje pravděpodobnostní chování jednotlivých složek náhodného vektoru. Získává se součtem (u diskrétních veličin) nebo integrací (u spojitých veličin) přes všechny hodnoty druhé veličiny.
' Distribuční funkce: Distribuční funkce náhodného vektoru F(x,y) je definována jako pravděpodobnost, že X < x a Y < y.
97
Základy statistiky
' Podmíněné rozdělení: Podmíněné rozdělení p(x \ y) popisuje pravděpodobnost, že náhodná veličina X nabude hodnoty x, pokud je známo, že Y = y. Pro spojité veličiny se obdobně definuje podmíněná hustota pravděpodobnosti.
Číselné charakteristiky náhodného vektoru: Mezi základní číselné charakteristiky patří střední hodnota, rozptyl, kovariance a koeficient korelace. Tyto charakteristiky umožňují popsat závislosti mezi složkami náhodného vektoru a míru jejich vzájemné závislosti.
' Koeficient korelace: Koeficient korelace p(X, Y) udává míru lineární závislosti mezi veličinami X a Y. Hodnota p se pohybuje v intervalu (—1,1), kde hodnoty blízké 1 nebo -1 indikují silnou pozitivní, resp. negativní závislost, zatímco hodnoty blízké 0 indikují slabou nebo žádnou závislost.
1. Co je to dvourozměrný náhodný vektor a jak se liší od jednorozměrné náhodné veličiny?
2. Jak je definována společná pravděpodobnostní funkce dvou náhodných veličin X a
Y?
3. Vysvětlete rozdíl mezi marginálním a podmíněným rozdělením náhodného vektoru.
4. Jak se vypočítá marginální rozdělení z dvourozměrného náhodného vektoru?
5. Jaká je definice kovariance a co vyjadřuje o závislosti mezi náhodnými veličinami X
a Yl
6. Co vyjadřuje koeficient korelace a v jakém intervalu se jeho hodnota pohybuje?
7. Jaký je vztah mezi kovariancí a koeficientem korelace pro náhodný vektor (X, Y)l
8. Uveďte příklad praktického využití dvourozměrného náhodného vektoru v ekonomii nebo managementu.
9. Náhodný vektor (X, Y) má pravděpodobnostní funkci zadanou tabulkou:
X\Y	1	2	3
-1	0,15	0,05	0,10
0	0,10	0,10	0,15
1	0,05	0,10	0,20
Určete:
a. P(X = 0,Y = 3) [0,15]
b. P(X < 0,5, Y < 2,5) [0,40]
c. P (X > 0, Y > 2,5) [0,20]
d. marginální rozdělení P(X)   [P (X = -1) = 0,30, P (X = 0) = 0,35, P (X = 1) = 0,35]
e. marginální rozdělení P{Y)   [P (Y = 1) = 0,30, P (Y = 2) = 0,25, P (Y = 3) = 0,45]
10. Pro náhodný vektor daný následující tabulkou vypočtěte koeficient korelace:
Náhodný vektor
98
X\Y	1	0
1	0,05	0,01
0	0,02	0,92
[Koeficient korelace p(X, Y) 0,7558]
e
Literatura k tématu:
[1] ANDĚL, J. Statistické metody. 5. vyd. Praha: Matfyzpress, 2019. ISBN 978-80-7378-381-5.
[2] HINDLS, R. Statistika pro ekonomy. 8. vyd. Praha: Professional Publishing, 2007. ISBN 978-80-869-4643-6. ISBN 978-80-867-3208-8.
[3] MAREK, L. Statistika v příkladech. 2. vyd. Praha: Kamil Mařík - Professional Publishing, 2015. ISBN 978-80-743-1153-6.
[4] OTIPKA, P., SMAJSTRLA, V. Pravděpodobnost a statistika [online]. 1. vydání. Ostrava: VŠB-TU Ostrava, 2007 [cit. 2024-09-09]. ISBN 80-248-1194-4. Dostupné z: https://homel.vsb.cz/~oti73/cdpastl/
[5] ZVÁRA, K. a ŠTĚPÁN, J. Pravděpodobnost a matematická statistika. Matfyzpress, 2019. ISBN 978-80-7378-388-4.
Kapitola 7
Statistický soubor s jedním
argumentem
Po prostudování této kapitoly budete umět:
určit základní popisné charakteristiky statistického souboru s jedním argumentem (viz klíčová slova),
• využít k těmto výpočtům statistický software (Excel).
Klíčová slova:
Základní soubor, statistická jednotka, četnosti, grafické znázornění četností, aritmetický průměr, modus, kvantily, medián, kvartily, decily, percentily, rozptyl, směrodatná odchylka.
Statistický soubor s jedním argumentem
100
Náhled kapitoly
V předchozích kapitolách jsme se věnovali spíše teoretickým modelům, zde se dostáváme k práci s daty. Tato kapitola se zaměřuje na základní popisné statistiky statistického souboru s jedním argumentem (s jednou proměnnou). Probereme různé druhy četností, jejich tabulkové a grafické znázorňování, dále různé míry polohy a variability dat. Prostě vše, co nám umožní mít ucelenější představu o rozložení dat. V následující kapitole tyto prostředky rozšíříme na dvourozměrný případ, kde nám k popisu jednotlivých proměnných přibude i jejich vzájemný vztah.
Cíle kapitoly
Cílem této kapitoly je získat základní potřebné dovednosti při práci s jednoduchými daty z pohledu popisné statistiky, tedy umět provádět potřebné výpočty a chápat jejich výsledky.
Časová náročnost
Pro tuto kapitolu doporučujeme vyčlenit přibližně 3 hodiny, které zahrnují jak studium teoretických částí, tak procvičování praktických příkladů a aplikací.
7.1    Základní pojmy a vlastnosti
Pravděpodobnost vs. statistika
Pravděpodobnost je matematický model reality. Jedná se o idealizovaný, abstraktní model, který pracuje s jednou nebo více náhodnými veličinami, jejichž rozdělení je známé. Z podstaty věci je tento model nepozorovatelný - představuje pouze naši abstrakci skutečnosti.
Pravděpodobnost se zabývá náhodnými veličinami a jejich rozdělením.
Jejím cílem je popsat, jak by se náhodné veličiny mohly chovat v určitém modelu.
Pravděpodobnostní modely jsou používány v mnoha oblastech pro predikci nejistých jevů.
Statistika naopak vychází z pozorování (měření) hodnot konkrétních veličin. Statistika zkoumá jevy na rozsáhlém souboru dat a činí o nich závěry pomocí statistické indukce. Výsledky z malého vzorku jsou zobecňovány na rozsáhlejší populaci.
101
Základy statistiky
Statistika používá odhady, protože žádný konečný výběr nemůže poskytovat úplnou informaci o rozdělení náhodných veličin v populaci.
Statistika hledá pravidelnosti a souvislosti v datech a zobecňuje výsledky na širší soubor, než byl ten, ze kterého byly odvozeny.
Vychází z reálných dat, na jejichž základě činí závěry o celkové populaci.
Příklady aplikací statistiky:
' Mají lidé, kteří pravidelně cvičí, lepší zdravotní ukazatele než ti, kteří necvičí?
• Je průměrná výše příjmů v určité oblasti závislá na vzdělání obyvatel?
Jaká je pravděpodobnost, že nový produkt na trhu uspěje na základě výsledků z testovacího vzorku?
Data
Data představují klíčový prvek statistických analýz. Jedná se o pozorování, která provádíme za účelem zodpovězení položených otázek.
Matematicky: data jsou realizací náhodné veličiny. Jedná se tedy o konkrétní hodnoty, které náhodná veličina může nabýt při experimentu nebo měření.
Datové tabulky: Data jsou často organizována ve formě tabulek, kde řádky představují jednotlivá pozorování, zatímco sloupce odpovídají měřeným proměnným.
' Řádky: Pozorování se týkají nezávislých subjektů náhodného výběru, jako jsou osoby, experimenty nebo jednotky sledování.
Sloupce: Každý sloupec odpovídá určité měřené veličině, například věk, pohlaví, výška, váha apod.
Software: Pro správu a zpracování dat se používá řada softwarových nástrojů. Nejčastěji jsou využívány databázové systémy nebo tabulkové procesory, jako je Excel.
Statistický software: K analýze dat se specializované statistické programy, jako jsou SAS, Statistica, SPSS, R nebo Python.
Ve statistice hraje správná organizace a správa dat zásadní roli, protože dobře strukturovaná data umožňují efektivnější analýzu a zajišťují správnost výsledků.
Statistický soubor s jedním argumentem
102
Popisná statistika
Popisná statistika představuje základní část statistické analýzy. Jejím cílem je sumarizovat a jednoduše popsat data, která máme k dispozici.
Pojmový aparát statistiky: Zahrnuje základní statistické pojmy, jako jsou průměr, medián, rozptyl, směrodatná odchylka, kvartily a další.
Základní nástroj analýzy dat: Pomocí popisných statistik můžeme rychle získat přehled o základních vlastnostech dat. Například průměr poskytuje informaci o střední hodnotě souboru, zatímco rozptyl nám řekne, jak jsou data rozložena kolem této hodnoty.
Prostředky pro prezentaci dat a výsledků: Popisná statistika je často doprovázena vizuálními nástroji, jako jsou grafy, tabulky a diagramy, které umožňují efektivní prezentaci dat a usnadňují jejich interpretaci.
Příkladem aplikace popisné statistiky může být analýza průměrných platů v různých regionech, kde nás může zajímat nejen střední hodnota platu, ale také rozptyl a medián, abychom lépe porozuměli rozložení příjmů v dané populaci.
Základní pojmy ve statistice
Pro práci se statistickými daty je důležité nejprve pochopit několik základních pojmů:
Definice 7.1. Statistická jednotka je objekt, který chceme zkoumat. Může se jednat o osoby, domácnosti, firmy, organismy, obce, kraje, atd. Každá statistická jednotka je nositelem určité vlastnosti, která nás zajímá, a kterou zkoumáme.
Definice 7.2. Statistický soubor je množina statistických jednotek, které jsou předmětem našeho zkoumání:
Základní soubor: Množina všech statistických jednotek, jejichž vlastnosti chceme poznat. Tento soubor zahrnuje veškeré objekty, které odpovídají naší studii, např. všechny domácnosti v určitém kraji.
Výběrový soubor: Množina skutečně vyšetřovaných statistických jednotek, které jsou náhodně vybrány ze základního souboru. Tento výběr by měl být reprezentativní pro celou populaci.
103
Základy statistiky
Definice 7.3. Statistický znak je vlastnost, která je zjišťována na každé statistické jednotce. Tato vlastnost je v rámci statistiky považována za náhodnou veličinu. Mezi běžné statistické znaky patří např. pohlaví, věk, výška, hmotnost, počet dětí, barva očí, dopravní prostředek, počet úrazů, jméno.
Definice 7.4. Rozsah souboru (označován často jako n) představuje počet zkoumaných statistických jednotek v daném souboru.
Typy statistických znaků
Statistické znaky se dělí do několika kategorií podle svého charakteru:
Kvalitativní znaky (někdy nazývané kategorické): Jedná se o slovní nebo katego-riální znaky, které nemohou být vyjádřeny numericky. Příkladem jsou pohlaví, barva očí, nebo dopravní prostředek, který statistická jednotka používá.
Kvantitativní znaky (číslené, numerické):
Spojité znaky: Mohou nabývat jakékoli hodnoty na určitých intervalech, např. výška, hmotnost nebo věk. Tyto znaky mohou být měřeny s libovolnou přesností.
' Diskrétní znaky: Nabývají pouze určitých konkrétních hodnot, např. počet dětí nebo počet úrazů. Tyto znaky mají omezený počet možných hodnot.
Alternativní znaky: Tyto znaky mohou nabývat pouze dvou hodnot, např. zda osoba kouří či nikoli, nebo zda byl test úspěšný či neúspěšný.
Množné znaky: Jedná se o znaky, které mohou nabývat tří a více hodnot, např. dopravní prostředek (auto, kolo, autobus).
Jednorozměrný statistický soubor
V jednorozměrném statistickém souboru se zabýváme pouze jedním statistickým znakem X a jeho hodnotami v rámci výběrového souboru.
Statistický soubor s jedním argumentem
104
Označení:	
	■ ,£n} výběrový soubor: Každá Si je statistická jednotka.
• X: statistický znak, který zkoumáme na každé statistické jednotce.	
• xf hodnota znaku X na objektu Sj, kde j = 1,... ,n.	
(xi,..	. ,xn): datový soubor, který obsahuje hodnoty znaku X pro všechny jednotky.
(x(i),	.., rE(n)): uspořádaný datový soubor, tj. x^ < ■ ■ ■ < X(ny
(x{1],.	.. ,X[r]): vektor variant znaku X, tj. různé hodnoty, které znak X nabývá, kde
x[i] ŕ	x[j] Pro i Ý 3.
Jednorozměrný statistický soubor nám umožňuje analyzovat hodnoty určitého znaku v rámci výběrového souboru a zjišťovat jejich rozložení.
7.2    Rozložení četností
Rozložení četností slouží ke zpřehlednění datového souboru. Při této analýze sledujeme, kolikrát se jednotlivé hodnoty nebo intervaly hodnot vyskytují v našem výběrovém souboru.
Bodové rozložení četností: Používá se pro diskrétní znaky s malým počtem variant, kdy četnost přiřazujeme jednotlivým variantám (hodnotám).
Intervalové rozložení četností: Používá se pro diskrétní znaky s velkým počtem variant nebo pro spojité znaky, kdy četnost přiřazujeme třídícím intervalům.
Bodové rozložení četností
Bodové rozložení četností se vztahuje k jednotlivým hodnotám diskrétního znaku a zahrnuje následující typy četností:
Definice 7.5. (Absolutní) četnost varianty x^y. označována jako
nj,
představuje počet výskytů hodnoty xy] ve výběrovém souboru.
105
Základy statistiky
Definice 7.6. Relativní četnost varianty xyy. označována jako
n j
Pj = — >
n
kde n je celkový počet pozorování. Relativní četnost můžeme chápat jako empirickou pravděpodobnost.
Definice 7.7. (Absolutní) kumulativní četnost prvních j variant: označována jako
Nj = ni H-----\-rij,
představuje součet četností prvních j variant.
Definice 7.8. Relativní kumulativní četnost prvních j variant: označována jako
Fj =      =Pl + ••• +Pj, n
představuje kumulativní relativní četnost, což je suma relativních četností až po j-tou variantu.
Definice 7.9. Empirická distribuční funkce pro bodové rozložení četností je definována následovně:
(0     pro x < X[i] Fj   pro x{j] < x < x[j+1],   j = 1,..., r - 1 1     pro x > X[r]
Tato funkce zachycuje rozložení četností ve výběrovém souboru a zobrazuje kumulativní pravděpodobnost dosažení určité hodnoty.
Příklad 7.10 (Bodové rozložení četností). Při zápočtu ze statistiky se studenti podrobili testu, ve kterém mohli získat 0 až 15 bodů. Výsledky testu jsou následující:
5, 10, 6, 7, 0, 2, 2, 4, 8, 10, 12, 15, 0, 0, 4, 2, 7, 10, 15, 0, 6, 5, 5, 6, 9, 8, 7, 10, 12, 6, 0. Vytvořte
tabulku rozložení bodových čeností (absolutních, relativních a kumulativních relativních) a nakreslete graf empirické distribuční funkce.
Řešení: Bodové rozložení četností je zobrazeno v tabulce 2 a graf empirické distribuční funkce na obrázku 13. □
Tento příklad ilustruje základní práci s bodovým rozložením četností, které umožňuje zjistit, kolik studentů dosáhlo určitého výsledku v testu a jak se tyto výsledky kumulují v rámci celého souboru.
Statistický soubor s jedním argumentem
106
Tab. 2: Bodové rozložení četností výsledků testu z příkladu 7.10
Body	ni	Pi (%)	Fj (%)
0	5	16,7	16,7
2	3	10,0	26,7
4	2	6,7	33,4
5	2	6,7	40,1
6	4	13,3	53,4
7	3	10,0	63,4
8	2	6,7	70,1
9	1	3,3	73,4
10	4	13,3	86,7
12	2	6,7	93,4
15	2	6,7	100,0
Celkem	30	100,0	-
0       2       4   5   6   7   8   9  10      12 15 Obr. 13: Graf empirické distribuční funkce pro bodové rozložení četností z příkladu 7.10
1
0,934 0,867
0,734 0,701 0,634
0,534
0,401 0,334 0,267
0,167
107
Základy statistiky
Intervalové rozložení četností
Od bodového se liší tím, že na počátku celkový interval (rozsah) hodnot rozdělíme na menší podintervaly (rozsahy) a následně četnosti přiřazujeme celým těmto podintervalům. Po tomto kroku již vše funguje jako u bodových četností. Ukažme si to na následujícím příkladu.
Příklad 7.11 (Intervalové rozložení četností). U 70 žen byla změřena hladina hemoglobinu s přesností 0,1 g/100 ml. Výsledky jsou následující:
10,2; 13,7; 10,4; 14,9; 11,5; 12,0; 11,0; 13,3; 12,9; 12,1; 9,4; 13,2; 10,8; 11,7; 10,5; 13,7; 11,8; 14,1; 10,3; 13,6; 12,1; 12,9; 11,4; 12,7; 10,6; 11,4; 11,9; 9,3; 13,3; 14,6; 11,2; 11,7; 10,9; 10,4; 12,0; 12,9; 11,1; 10,2; 11,6; 12,5; 13,4; 12,1; 9,7; 11,3; 10,9; 14,7; 10,8; 13,3; 11,9; 11,4; 12,5; 13,0; 11,6; 13,4; 12,3; 11,0; 14,6; 11,1; 13,5; 10,9; 13,1; 11,8; 12,2.
Vytvořte tabulku rozložení intervalových čeností (absolutních, relativních a kumulativních relativních).
Řešení: Intervalové rozložení četností je zobrazeno v tabulce 3. □ Tab. 3: Intervalové rozložení četností hladiny hemoglobinu u žen z příkladu 7.11
Hladina hemoglobinu v g/100 ml	n3	PS (%)	Fi (%)
8,0 8,9	1	1,4	1,4
9,0 9,9	3	4,3	5,7
10,0 10,9	14	20,0	25,7
11,0 11,9	19	27,1	52,9
12,0 12,9	14	20,0	72,9
13,0 13,9	13	18,6	91,4
14,0 14,9	5	7,1	98,6
15,0 15,9	1	1,4	100,0
Celkem	70	100,0	-
Tento příklad ilustruje základní práci s intervalovým rozložením četností, které nám umožňuje zjistit rozložení hodnot v rámci měřeného souboru a sledovat kumulativní četnosti pro jednotlivé intervaly.
7.2.1     Grafické znázornění četností
Znázorňujeme relativní a absolutní četnosti nebo relativní a absolutní kumulativní četnosti.
Statistický soubor s jedním argumentem
108
Koláčový graf
Koláčový graf se používá pro zobrazení absolutních i relativních četností, ale v obou případech vypadá stejně. Liší se jen popiskami (absolutními nebo relativními, ale mohou tam být i obě). Na obrázku 14 je příklad koláčového grafu, který zobrazuje rozložení prodeje různých kategorií produktů ve firmě.
■ Produkty A
■ Produkty B
■ Produkty C □ Produkty D
■ Produkty E
Obr. 14: Koláčový graf rozložení prodeje produktů ve firmě
Histogram (sloupcový graf)
Histogram je sloupcový graf, který používáme pro znázornění rozložení četností. U bodového rozložení četností přiřadíme hodnotě xy] obdélník, jehož výška je úměrná zjištěné četnosti. Na obrázku 15 je histogram výsledků testu ze statistiky z příkladu 7.10.
	5												t										t							
				i						>						i			l										>	
																														
0     2     4    5     6     7    8     9    10   12 15 Obr. 15: Histogram absolutních četností výsledků testu ze statistiky z příkladu 7.10
Histogram pro hladinu hemoglobinu (v g/100 ml) z příkladu 7.11 je na obrázku 16. Každý sloupec pokrývá celý rozsah daného intervalu.
109
Základy statistiky
8        9       10       11       12       13       14 15 Obr. 16: Histogram relativních četností hladiny hemoglobinu z příkladu 7.11
7.3    Charakteristiky polohy a variability
Charakteristiky polohy a variability jsou základními nástroji pro popis rozložení dat.
Mezi charakteristiky polohy patří například aritmetický průměr, medián, modus a výběrové kvantily. Tyto charakteristiky poskytují informace o střední hodnotě dat a jejich umístění.
Charakteristiky variability zahrnují mj. rozptyl, směrodatnou odchylku, rozpětí a interkvar-tilové rozpětí. Tyto charakteristiky popisují, jak jsou data rozptýlena kolem střední hodnoty. Společně tyto charakteristiky umožňují komplexní popis a analýzu statistických dat.
7.3.1     Míry polohy
Míry polohy, nebo také charakteristiky centrální tendence, popisují střední hodnotu dat a poskytují přehled o tom, kde se data nejvíce koncentrují. Mezi nej důležitější charakteristiky patří:
' Aritmetický průměr - Aritmetický průměr je nejběžnější charakteristika centrální tendence, která se počítá jako součet všech hodnot dělený jejich počtem:
_     1 n
X >    X;t,
n r—f
i=i
kde n je počet hodnot a x i jsou jednotlivé hodnoty.
' Medián - Medián je střední hodnota uspořádaných dat. U lichého počtu hodnot je medián prostřední hodnota, u sudého počtu hodnot je medián průměr dvou prostředních hodnot. Medián je vhodný pro data s odlehlými hodnotami, protože není těmito extrémy ovlivněn.
' Modus - Modus je hodnota, která se v datech vyskytuje nejčastěji. V některých případech mohou data mít více než jeden modus, což se označuje jako multimodální rozdělení.
Harmonický průměr - Harmonický průměr je vhodný pro průměrování veličin, které jsou podíly nebo kde jsou extrémy ve významu:
_ n
•^harm       v^n      ~ •
Statistický soubor s jedním argumentem
110
Geometrický průměr - Geometrický průměr je vhodný pro data, která se vztahují k růstu nebo procentním změnám:
•^geom       (        Xi J \i=l /
Výběrové kvantily - Výběrové kvantily jsou hodnoty, které dělí seřazený výběr do daného počtu stejně velkých částí. Nejčastěji používané kvantily jsou:
První kvartil (0,25 kvantil) - Hodnota, pod kterou leží 25% dat. • Medián (0,5 kvantil) - Hodnota, pod kterou leží 50% dat.
Třetí kvartil (0,75 kvantil) - Hodnota, pod kterou leží 75% dat.
Výběrové kvantily se určí z uspořádaných dat jako hodnoty, které odpovídají pozicím a(n + 1), kde a je daný kvantil a n je počet pozorování. Pokud pozice není celé číslo, používá se lineární interpolace.
Tyto charakteristiky jsou klíčové pro popis rozložení dat a mají široké uplatnění v mnoha oblastech statistické analýzy, od popisu jednoduchých souborů dat po složitější ekonomické či demografické analýzy.
Aritmetický průměr
Pozorování x±,... ,xn jsou náhodné hodnoty z nesetříděného nebo setříděného souboru. Aritmetický průměr je základní mírou polohy, která se počítá jako součet všech pozorování dělený jejich počtem.
Definice 7.13. Aritmetický průměr setříděného souboru:
rrjipi H-----h X[r]nr _ 1
ni H-----Ynr n t=i
Definice 7.14 (Vážený aritmetický průměr). Pokud je soubor rozdělen do s dílčích souborů, které mají své vlastní průměry x,j_ a rozsahy n,-n můžeme vypočítat vážený aritmetický průměr:
X =
rii H-----Vns
111
Základy statistiky
Tento vzorec se používá například při výpočtech, kdy jednotlivé části souboru mají různé váhy nebo velikosti, které je třeba zohlednit při výpočtu celkového průměru.
Vhodné a nevhodné využití aritmetického průměru
Aritmetický průměr je velmi užitečná míra centrální tendence v situacích, kdy jsou data rovnoměrně rozložena a nejsou ovlivněna extrémními hodnotami.
Vhodné využití:
Aritmetický průměr je vhodný pro soubory dat, které mají symetrické rozdělení (například normální rozdělení), protože průměr zde dobře reprezentuje střed dat.
Používá se ve statistikách výkonu, výzkumu nebo finanční analýze, kde jsou hodnoty vyvážené a nemají extrémní odchylky.
Nevhodné využití:
' Aritmetický průměr je nevhodný pro soubory dat, které mají výrazně asymetrické rozdělení nebo obsahují odlehlé (extrémní) hodnoty. V těchto případech může průměr zkreslovat skutečný střed dat. Například u příjmů, kde několik málo osob má velmi vysoké příjmy, bude aritmetický průměr vyšší než většina příjmů.
Průměr také nemusí být reprezentativní v situacích, kde jsou data kategorizovaná nebo mají nominální povahu (například jména nebo pohlaví), kde není možné spočítat „průměr".
V těchto případech je vhodnější použít jiné míry polohy, jako je medián nebo modus, které lépe popisují střední hodnoty asymetrických nebo kategoriálních dat.
Výběrové kvantily
Definice 7.15. Mějme setříděný soubor tedy hodnoty dat jsou uspořádané vzestupně: ^(i) < x(2) < • • • < x{n)i kde indexy označují pořadí hodnot v setříděném souboru.
Výběrový a-kvantil je hodnota, která rozděluje seřazený datový soubor na dvě části tak, že:
alespoň 100a % všech dat je menších nebo rovných xa, • alespoň 100(1 — a) % všech dat je větších nebo rovných xa.
Statistický soubor s jedním argumentem
112
Určení výběrového a-kvantilu z dat
Postup určení výběrového a-kvantilu závisí na tom, zda hodnota an (kde n je počet pozorování) je přirozené číslo nebo nikoliv:
' Pokud je an =	c, kde c je přirozené číslo, pak výběrový a-kvantil je průměr hodnot
na pozicích x^	a x(c+l)'-
	X(c) + X(c+1) 2
• Pokud an není	přirozené číslo, zaokrouhlujeme an na nejbližší vyšší přirozené číslo c
a položíme:	
	Xa      X(c)'
Pojmenované kvantily
Některé z kvantilů mají svá specifická jména:
' Medián (0,5 kvantil) - Hodnota, která dělí data na dvě stejně velké části, tedy 50% dat je menší nebo rovno této hodnotě a 50% je větší nebo rovno.
Kvartily - Speciální kvantily, které dělí data na čtyři stejné části:
První kvartil (0,25 kvantil) - Hodnota, pod kterou leží 25% dat.
• Druhý kvartil (0,5 kvantil) - Medián.
Třetí kvartil (0,75 kvantil) - Hodnota, pod kterou leží 75% dat.
• Decily - Kvantily, které dělí data na deset stejných částí:
• První decil (0,1 kvantil) - Hodnota, pod kterou leží 10% dat.
• Druhý decil (0,2 kvantil) - Hodnota, pod kterou leží 20% dat, atd.
• Devátý decil (0,9 kvantil) - Hodnota, pod kterou leží 90% dat.
• Percentily - Kvantily, které dělí data na sto stejných částí:
• První percentil (0,01 kvantil) - Hodnota, pod kterou leží 1% dat.
• Pátý percentil (0,05 kvantil) - Hodnota, pod kterou leží 5% dat.
' Devadesátý pátý percentil (0,95 kvantil) - Hodnota, pod kterou leží 95% dat.
Medián jako speciální případ výběrového kvantilu
Medián je speciálním případem výběrového kvantilu pro a = 0,5. Tento kvantil rozdělí data na dvě stejně velké části.
113
Základy statistiky
Případ lichého n Pro lichý počet pozorování n, hodnota n x 0,5 není přirozené číslo. Proto podle obecného postupu výpočtu kvantilu zaokrouhlíme n x 0,5 nahoru na nejbližší celé číslo, což určí pořadí mediánu:
^0,5 = X^n+iy
Tento vzorec plyne z obecného pravidla zaokrouhlení kvantilu nahoru, kdy medián je hodnota na pozici
Příklad 7.16. Mějme soubor o lichém počtu hodnot n = 7, seřazených jako x^ < X(2) < • • • < X(jy Medián bude hodnota na pozici ^1 = 4, tedy ž0,5 = ^(4)- D
Případ sudého n Pro sudý počet pozorování n, hodnota n x 0,5 je přirozené číslo. Proto medián, stejně jako obecný kvantil pro přirozené hodnoty n x a, bude průměrem dvou hodnot na pozicích:
% ( n \  ~\~ % ( ri _i_ -i \
^0,5 - g •
Příklad 7.17. Pro soubor o sudém počtu hodnot n = 8 je n x 0,5 = 4, takže medián je průměrem hodnot na 4. a 5. pozici:
_ Z(4) + Z(5)
x°<5 ~       2 •
□
Tímto způsobem medián vyplývá jako speciální případ obecného výpočtu výběrového kvantilu, kde pro liché n postupujeme zaokrouhlením nahoru a pro sudé n použijeme průměr dvou středních hodnot:
Definice 7.18. Mějme setříděný soubor. Potom medián definujeme takto:
x^n+i-j pro liché n,
Med(x) = xq^j
^! 3 7—-   pro sudé n.
Příklad 7.19 (n sudé). Ve výrobě se v posledním půl roce v jednotlivých měsících vyskytl následující počet úrazů: 1, 3, 2, 4, 2, 4. Určete medián, dolní kvartil ž0,25 a horní kvartil ž0,75 počtu úrazů za měsíc.
Řešení: Počty uspořádáme vzestupně:
1,2,2,3,4,4
• Medián:
_ x(3) + rg(4) _ 2 + 3
Xo<5 ~     2     " ~Y~ ~ 2,5
• Dolní kvartil: an = 6 • 0,25 = 1,5 =>• žo,25 = ^(2) = 2
• Horní kvartil: an = 6 • 0,75 = 4,5 =>• Žq,75 = ^(5) = 4
Statistický soubor s jedním argumentem
114
□
Příklad 7.20 (n liché). Ve výrobě se v posledním půl roce v jednotlivých měsících vyskytl následující počet úrazů: 1, 3, 2, 4, 2, 4, 1. Určete medián, dolní a horní kvartil počtu úrazů za měsíc.
Řešení: Počty uspořádáme vzestupně:
1,1,2,2,3,4,4
Medián:
n+1     7+1 a
= = 4       ^0,5 = Z(4) = 2
Dolní kvartil: an = 7 ■ 0,25 = 1,75 =>• 2:0,25 = £(2) = 1 Horní kvartil:      = 7 • 0,75 = 5,25 =>• Žq,75 = £(6) = 4
Příklad 7.21. Uvažujme data x daná následující tabulkou x Určete první decil žo,i? dolní kvartil a horní kvartil. Řešení: Rozepíšeme si data podle jejich velikosti a četností:
^(1) = • • • = X(10) = 1,
12 3 4
10 12 6 3
1 £(ii) = • • • = rr(22) = 2, 1   ^(23) = • • • = £(28) = 3,
1   ^(29) = • • • = X(3i) = 4.
Vidíme, že rozsah souboru je n = 31. Přejdeme k výpočtu jednotlivých kvantilů:
• 0,1 kvantil: an = 31 • 0,1 = 3,1 =>• žo,i = ^(4) = 1
• Dolní kvartil: an = 31 • 0,25 = 7,75 =>• £0,25 = £(8) = 1
• Horní kvartil: an = 31 • 0,75 = 23,25 =>• žo,75 = £(24) = 3
□
□
115
Základy statistiky
Využití výběrových kvantilů
Výběrové kvantily mají široké využití v různých oborech statistiky a aplikovaných věd. Zde jsou uvedeny některé praktické příklady využití kvantilů:
Hladina cholesterolu v krvi Jakou hladinu cholesterolu v krvi nepřekročí 90 % zdravé populace České republiky? Výběrový 90% kvantil by zde představoval referenční hodnotu pro stanovení diagnostických limitů, která se běžně využívá v klinické praxi. Podobně jsou stanoveny referenční hodnoty pro další ukazatele krevního obrazu, například hladinu cukru, triglyceridů nebo krevní tlak.
' Délka lišek Jakou délku nepřekročí 95 % lišek? Zde můžeme využít výběrového 5% a 95% kvantilů k určení rozmezí, ve kterém se nachází většina jedinců dané populace. Například, pokud délka lišek spadá do rozmezí 58-90 cm, můžeme říci, že pouze 5 % lišek je delších než 90 cm a pouze 5 % lišek je kratších než 58 cm. Tyto kvantily pomáhají určit, které jedince považujeme za „typické" a které za extrémní.
Stoletá voda Jak definovat pojem stoletá voda? Výběrový 99% kvantil se často používá v hydrologii k definici staleté vody, což je taková výše maximálního ročního průtoku, která je překročena pouze v 1 % případů. Tato hodnota je důležitá pro plánování protipovodňových opatření a pro stavbu infrastruktury v blízkosti vodních toků.
' Požadavky na kapitál pojišťoven Jakou výši kapitálu musí pojišťovny EU držet, aby snížily riziko platební neschopnosti? Pojišťovny jsou regulovány evropskou směrnicí Sol-vency II, která mimo jiné vyžaduje, aby pojišťovny držely kapitál na úrovni, která pokrývá 99,5 % možných finančních rizik v průběhu jednoho roku. Tento požadavek odpovídá výběrovému 99,5% kvantilů. Směrnice tedy stanovuje, že pouze v 0,5 % případů může nastat situace, kdy by pojišťovna nemohla splnit své závazky.
' Testování pomocí SCIO testů SCIO testy jsou jedním z nástrojů pro hodnocení úrovně znalostí žáků a studentů. Například při hodnocení výsledků SCIO testů z matematiky se často využívá kvantily pro stanovení referenčních hranic. Výběrový 25% kvantil určuje hranici pro čtvrtinu nejméně úspěšných studentů, zatímco výběrový 75% kvantil identifikuje hranici, nad kterou se nachází čtvrtina nej úspěšnějších studentů. Na základě těchto kvantilů mohou školy a zřizovatelé porovnávat výkonnost studentů mezi jednotlivými ročníky nebo regiony a stanovovat cíle pro zlepšení výuky.
' Percentilové grafy Kvantily se také často používají k tvorbě percentilových grafů, které poskytují přehled o rozložení dané populace. Percentilové grafy jsou běžně využívány například v pediatrii k porovnávání vývoje růstu dětí vůči standardním referenčním hodnotám.
Shrnutí
Výběrové kvantily jsou univerzálním nástrojem, který se využívá v mnoha oblastech lidské činnosti - od medicíny, přes hydrologii až po finance a pojišťovnictví. Pomáhají určit referenční hodnoty, identifikovať extrémní případy nebo poskytnout náhled na distribuci dat.
Statistický soubor s jedním argumentem
116
7.3.2     Míry variability
Míry absolutní variability
Míry absolutní variability popisují rozsah variability bez ohledu na střední hodnotu dat. Mezi tyto míry patří:
Definice 7.22. Variační obor (x^,x^) - Interval mezi nejmenší a největší hodno-
tou v datech.
Variační rozpětí R = x^ — x^ - Rozdíl mezi největší a nejmenší hodnotou v datech.
' Kvartilové rozpětí Rq = žo.75 — ^0.25 - Rozdíl mezi třetím a prvním kvartilem. Kvartilová odchylka      - Polovina kvartilového rozpětí.
Definice 7.23. Rozptyl - Střední kvadratická odchylka hodnot od průměru:
1 11
S x /   (Xj      X) .
n    -1- 1=1
Pro seskupená data je rozptyl definován jako:
k
1 k
i=i
kde n,i je četnost hodnoty g^.
Míry relativní variability
Míry relativní variability se používají k porovnání variability mezi různými datovými soubory, které mohou mít rozdílné jednotky nebo měřítko:
117
Základy statistiky
Definice 7.25. Variační koeficient
v;
X
je relativní míra variability vyjádřená jako podíl směrodatné odchylky a aritmetického prů-
měru.
Relativní kvartilová odchylka
Q r
^0.75 — ^0.25
^0.75 + ^0.25
je míra relativní variability založená na kvartilech.
Míry absolutní variability hodnotí rozptyl v datech přímo, zatímco míry relativní variability umožňují lépe srovnávat datové soubory s různými měřítky.
Příklad 7.26. Ve dvou firmách byly zkoumány měsíční platy zaměstnanců. Ve firmě A jsou platy následující (v tisících Kč): 25, 28, 30, 32, 35. Ve firmě B jsou platy (v tisících Kč): 20, 22, 24, 26, 80. Porovnejte variabilitu platů ve firmách A a B pomocí rozptylu a variačního koeficientu.
Řešení: Nejprve vypočteme aritmetický průměr pro obě firmy:
25 + 28 + 30 + 32 + 35
xA
5
30,
20 + 22 + 24 + 26 + 80 xB =-z-= 34,4.
5
Dále spočítáme rozptyl pro obě firmy:
Pro firmu A: 1
3 a
5 - 1
(25 - 30)2 + (28 - 30)2 + (30 - 30)2 + (32 - 30)2 + (35 - 30)2
-44 = 11.
Pro firmu B:
3B
5- 1
(20 - 34,4)2 + (22 - 34,4)2 + (24 - 34,4)2 + (26 - 34,4)2 + (80 - 34,4)2
4
-3637,6 = 909,4.
Nyní vypočítáme variační koeficienty pro obě firmy: Pro firmu A:
VA = — = — ~ 0,11. xA 30
Pro firmu B:
Statistický soubor s jedním argumentem
118
Závěr: Variabilita platů ve firmě A je výrazně nižší než ve firmě B. Variační koeficient ve firmě B je mnohem vyšší kvůli extrémně vysokému platu (80 tisíc Kč), který zvyšuje rozptyl a tedy i míru variability. □
7.4    Míry tvaru rozdělení
Kromě charakteristik polohy a variability existují i charakteristiky, které popisují tvar rozdělení dat. Mezi hlavní charakteristiky tvaru rozdělení patří:
Definice 7.27. Výběrová šikmost (skewness) měří asymetrii rozdělení dat:
n ^ ( Xj — x x 3
7l= (n-l)(n-2)éí
Kladná hodnota značí pozitivní šikmost (ocas na pravé straně je delší), záporná hodnota značí negativní šikmost (ocas na levé straně je delší).
Definice 7.28. Výběrová špičatost (kurtosis) - Měří „ostrost" vrcholu rozdělení dat:
Sj=l (Xi     x) 0
72 = -1--3,
nebo také korigovaná verze, která funguje i pro malé výběry:
n(n + l) ^{Xi-xY 3(n-l)2
^2   ~~   ím _ ~\\(rr, _ 0\írr, _ 0\
(n - l)(n - 2)(n - 3) ^ V   sx   ) (n-2)(n-3)'
Hodnota vyšší než 0 značí rozdělení s vyšší špičatostí než normální rozdělení, hodnota nižší než 0 značí rozdělení s plošším tvarem.
Příklad 7.29. V následující tabulce jsou uvedeny hodnoty datového souboru: 2, 3, 5, 7, 8, 10.
Spočítejte výběrovou šikmost a špičatost tohoto datového souboru.
Řešení: Nejprve vypočteme aritmetický průměr a směrodatnou odchylku:
2 + 3 + 5 + 7 + 8 + 10 roo
x =-= 5.83.
6
Směrodatná odchylka (výběrová) je:
1    A, II,
5- = \ 1—, £(** " T)2 = \IH(2 ~ 5>83)2 + (3 " 5>83)2 + • • • + (10 - 5,83)2] = 2,93. \ 6- 1 f=í V 5
Výběrová šikmost (skewness):
119
Základy statistiky
Výběrová šikmost se počítá podle vzorce:
_ 6 A /Xi-x\3
71 " (6-1X6-2)^1^^ •
Pro náš datový soubor po dosazení jednotlivých členů získáme:
7i « 0,0465.
Tato hodnota znamená, že rozdělení má velmi malou pozitivní šikmost (ocas na pravé straně je nepatrně delší).
Výběrová špičatost (kurtosis):
Výběrová špičatost se počítá podle vzorce:
6(6 + 1) ^/Xi-x\4 3(6-l)2
72 ~ (6-l)(6-2)(6-3)^l   sx   ) ~ (6-2)(6-3)'
Po dosazení členů a výpočtu získáme:
72 « -1,4137.
Tato hodnota znamená, že rozdělení má plošší vrchol než normální rozdělení. □
7.5    Řešené příklady
Příklad 7.30. Určete relativní, kumulativní a relativní kumulativní četnosti dat z tabulky:
	0	1	2	3	4
Tli	7	44	56	30	12
Řešení: Nejprve vypočítáme celkový počet prvků n:
5
n =     rii = 7 + 44 + 56 + 30 + 12 = 149.
Relativní četnosti p,~ se vypočítají jako podíl absolutní četnosti n,i a celkového počtu prvků n:
	0	1	2	3	4	E
Tli	7	44	56	30	12	149
Pi	0,047	0,295	0,376	0,201	0,081	1
Nyní vypočítáme kumulativní četnosti Nf.
Statistický soubor s jedním argumentem
120
Nt = J2ny
Například pro rrp] = 1:
jV2 = 7 + 44 = 51.
Podobně pro další hodnoty:
	0	1	2	3	4
	7	51	107	137	149
Relativní kumulativní četnosti Fi se vypočítají jako podíl kumulativní četnosti N a celkového počtu prvků n:
F = —.
n
Například pro rr^j = 2:
107
F3 =-« 0,71*
3 149
Tabulka relativních kumulativních četností:
	0	1	2	3	4
Fi	0,047	0,342	0,718	0,919	1
□
Příklad 7.31. Vypočtěte empirické charakteristiky: modus, kvartily, střední hodnotu, rozptyl, směrodatnou odchylku, šikmost a špičatost (exces) variační řady:
	0	1	2	3	4
Tli	7	44	51	30	12
Řešení: Nejprve vypočítáme celkový počet prvků n:
5
n = 53 rij = 7 + 44 + 51 + 30 + 12 = 144-
1. Modus:
121
Základy statistiky
Modus je hodnota s nejvyšší četností:
Mo = 2.
2. Kvartily:
Pořadí kvartilů vypočítáme pomocí a ■ n, kde a je hodnota kvantilu:
a = 0,25 :    a ■ n = 0,25 • 144 = 36.
Kvartil žo,25 Je tedy průměr hodnot na pozicích 36 a 37 v uspořádaném souboru, což odpovídá hodnotě:
^0,25 — —^— ~~
Podobně pro medián (druhý kvartil):
a = 0,5:    a ■ n = 0,5 • 144 = 72.
Medián žq,5 Je tedy průměr hodnot na pozicích 72 a 73 v uspořádaném souboru, což odpovídá hodnotě:
2 + 2 x0,5 = = 2.
A pro třetí kvartil:
a = 0,75 :    a-n = 0,75 • 144 = 108.
Třetí kvartil žo,75 Je tedy průměru hodnot na pozicích 108 a 109 v uspořádaném souboru, což odpovídá hodnotě:
~        _3 + 3 o ^0,75 — —^— —
3. Aritmetický průměr x:
Aritmetický průměr se vypočítá takto:
Ei=i zrn -m     0 • 7 + 1 • 44 + 2 • 51 + 3 • 30 + 4 • 12 284
x =--=- =-?a 1,97.
E-=i^ 144 144
4. Rozptyl s2.:
Rozptyl se vypočítá jako:
2 _ ^2j=l(x[i] ~ x)2 " ni
eí=i rii
_ (0 - 1,97)2 ■ 7 + (1 - 1,97)2 ■ 44 + (2 - 1,97)2 ■ 51 + (3 - 1,97)2 ■ 30 + (4 - 1,97)2 ■ 12 ~ 144 « 0,872.
5. Směrodatná odchylka sx:
Statistický soubor s jedním argumentem
122
Směrodatná odchylka je odmocnina rozptylu:
sx = Js2x « VOJŠTÍ « 0,934.
6. Šikmost 7i:
Sikmost se vypočítá jako:
eí=i(z[í] - x)3 ■ m
7i =
Po dosazení získáme hodnotu přibližně:
7i « -0,11.
Hodnota blízká 0 naznačuje, že rozdělení je téměř symetrické. 7. Spičatost 72: Spičatost se vypočítá jako:
72 =- 5 4--3.
Po dosazení získáme hodnotu přibližně:
72 « -0,57.
Záporná hodnota naznačuje ploché rozdělení. □
OV této kapitole jsme prozkoumali základní charakteristiky jednorozměrného statistického souboru. Zaměřili jsme se na popisné statistiky jako průměr, medián, modus, rozptyl, směrodatnou odchylku, šikmost a spičatost.
Aritmetický průměr popisuje „průměrnou" hodnotu v souboru.
' Medián rozděluje soubor na dvě stejně velké části a je méně citlivý na extrémní hodnoty než průměr.
• Modus je nejčastěji se vyskytující hodnota.
' Rozptyl a směrodatná odchylka udávají, jak moc se hodnoty liší od průměru.
• Sikmost hodnotí asymetrii rozložení, spičatost popisuje tvar vrcholu rozložení.
Ukázali jsme si, jak tyto charakteristiky vypočítat a interpretovat. Jsou klíčové pro analýzu dat v různých oblastech výzkumu a praxe.
123
Základy statistiky
e
1. Co je to aritmetický průměr a jak se vypočítá?
2. Jaký je rozdíl mezi mediánem a aritmetickým průměrem?
3. Kdy je vhodnější použít medián místo průměru?
4. Co vyjadřuje rozptyl a jaký má vztah ke směrodatné odchylce?
5. Jaký význam má šikmost a špičatost (exces) při analýze rozložení dat?
6. Jak se vypočítá relativní četnost a kumulativní relativní četnost?
7. Co jsou to kvartily, jaký je jejich vztah ke kvantilům?
8. Určete medián a průměr měsíční spotřeby elektrické energie (kWh) v bytech z následujících údajů: 169, 108, 26, 43, 114, 68, 35, 183, 103, 266, 74, 205, 62, 230, 85, 487, 120, 148, 91, 18, 58, 96, 295, 42, 137.    [103, 151,64]
9. Zkoušky životnosti žárovek daly následující výsledky (v hodinách): 606, 1249, 267, 44, 510, 340, 109, 1957, 463, 801, 1082, 169, 233, 1734, 1458, 80, 1023, 2736, 917, 459.
Určete průměrnou dobu životnosti žárovek a jejich rozptyl.    [938,35, 757,9]
Literatura k tématu:
[1] HINDLS, R. Statistika pro ekonomy. 8. vyd. Praha: Professional Publishing, 2007. ISBN 978-80-869-4643-6. ISBN 978-80-867-3208-8.
[2] MAREK, L. Statistika v příkladech. 2. vyd. Praha: Kamil Mařík - Professional Publishing, 2015. ISBN 978-80-743-1153-6.
[3] OTIPKA, P., SMAJSTRLA, V. Pravděpodobnost a statistika [online]. 1. vydání. Ostrava: VŠB-TU Ostrava, 2007 [cit. 2024-09-09]. ISBN 80-248-1194-4. Dostupné z: https://homel.vsb.cz/~oti73/cdpastl/
[4] ZVÁRA, K. a ŠTĚPÁN, J. Pravděpodobnost a matematická statistika. Matfyzpress, 2019. ISBN 978-80-7378-388-4.
I
Kapitola 8
Statistický soubor se dvěma
argumenty
Po prostudování této kapitoly budete umět:
určit základní charakteristiky dvourozměrného statistického souboru, vypočítat střední hodnotu, rozptyl a kovarianci pro dvourozměrný soubor, využít vhodné grafické nástroje pro vizualizaci dvourozměrných dat, ' interpretovat výsledky analýzy závislosti mezi dvěma znaky.
©Klíčová slova: Dvourozměrný soubor, aritmetický průměr, kovariance, rozptyl, směrodatná odchylka, kontingenční tabulka, bodový graf.
125
Základy statistiky
Tab. 4: Ukázka dvourozměrného statistického souboru
Statistická jednotka	Znak X (Výška v cm)	Znak Y (Hmotnost v kg)
1	170	65
2	165	70
3	180	80
4	175	75
5	160	60
Náhled kapitoly
Zde přímo navazujeme na předchozí kapitolu, její látku rozšíříme na případ dvou proměnných. Novinkou budou pojmy specifické pro tento dvojrozměrný případ, například kontingenční tabulky, bodové grafy a kovariance, které popisují vztahy dvojice proměnných. Pokročilejší metody, jako jsou regrese a korelace, si necháme až na další kapitoly.
Cíle kapitoly
Cílem této kapitoly je získat povědomí o rozdílu mezi jednorozměrným a dvojrozměrným případem a nachystat si pojem kovariance pro další kapitolu.
Časová náročnost
Pro tuto kapitolu doporučujeme vyčlenit přibližně 2 hodiny, které zahrnují jak studium teoretických částí, tak procvičování praktických příkladů a aplikací.
Úvod
Dvourozměrný statistický soubor se skládá z dvojic hodnot (argumentů), kde každý argument představuje hodnotu jiného statistického znaku měřeného na stejných statistických jednotkách. Tento typ souboru je používán k analýze vztahů mezi dvěma různými proměnnými, například výškou a hmotností osob, věkem a platem zaměstnanců, apod.
Každá statistická jednotka je tedy charakterizována dvojicí hodnot, které spolu mohou nebo nemusí být nějakým způsobem závislé. Dvourozměrný statistický soubor nám umožňuje analyzovat nejen vlastnosti jednotlivých znaků samostatně, ale i vztah mezi nimi.
Příklad dvourozměrného statistického souboru je v tabulce 4:
V tomto příkladu je znak X výška v centimetrech a znak Y hmotnost v kilogramech. Každý řádek představuje jednu statistickou jednotku (například jednu osobu), na které jsou měřeny oba znaky současně.
Statistický soubor se dvěma argumenty
126
8.1    Základní pojmy
Statistická jednotka: Objekt, na kterém jsou měřeny oba znaky. Může to být osoba, firma, stroj apod. Každá statistická jednotka má přiřazenou dvojici hodnot - jednu pro každý znak.
Znak X: První proměnná, která je měřena na všech statistických jednotkách. Například výška osob nebo věk zaměstnanců.
Znak Y: Druhá proměnná, která je rovněž měřena na stejných statistických jednotkách jako znak X. Například hmotnost osob nebo plat zaměstnanců.
Dvojice hodnot: Každá statistická jednotka má přiřazenou dvojici hodnot (x,-ny,j), kde Xi je hodnota znaku X a y i je hodnota znaku Y pro i-tou statistickou jednotku.
Statistický soubor: Množina všech dvojic hodnot (xi,yi), (x2,y2), ■ ■ ■, (xn,yn), kde n je počet statistických jednotek.
Rozsah souboru: Počet statistických jednotek v souboru, označovaný jako n. V dvourozměrném souboru je rozsah stejný pro oba znaky, protože oba znaky jsou měřeny na stejných jednotkách.
Můžeme se vrátit k tabulce 4, kde jsou statistickými jednotkami jednotlivé osoby, znakem X je výška a znakem Y je hmotnost. Rozsah souboru n = 5.
8.2    Tabulkové a grafické zobrazení dvourozměrných dat
Při práci s dvourozměrným statistickým souborem je důležité umět data správně zobrazit. Existují různé způsoby, jak data vizualizovat a interpretovat. Mezi nejběžnější metody patří kontingenční tabulky a bodové grafy.
Kontingenční tabulky
Kontingenční tabulky se používají pro dvourozměrné soubory s diskrétními znaky. Tabulka obsahuje četnosti výskytu jednotlivých kombinací hodnot znaků X a Y. Tyto tabulky poskytují přehled o tom, jak často se různé kombinace hodnot vyskytují ve statistickém souboru.
127
Základy statistiky
Řádky tabulky představují jednotlivé kategorie znaku X.
Sloupce tabulky představují jednotlivé kategorie znaku Y.
Buňky tabulky obsahují absolutní četnosti kombinací hodnot X a,Y.
Tab. 5: Ukázka kontingenční tabulky
	Y1	Y2	Y3
x1	5	7	3
x2	8	12	4
x3	6	2	9
Příklad kontingenční tabulky je v tabulce 5, kde jsou zobrazeny četnosti kombinací hodnot X a Y. Například hodnota 5 znamená, že kombinace X\ a Y\ se vyskytuje pětkrát.
Kontingenční tabulky jsou užitečné pro analýzu závislosti mezi dvěma diskrétními znaky. Mohou být základem pro další metody analýzy, jako je například výpočet podmíněných pravděpodobností nebo chi-kvadrát test závislosti.
Bodové grafy
Bodové grafy (scatter plots) se používají pro dvourozměrné soubory, kde oba znaky nabývají spojitých hodnot. Na ose x je vynášen znak X a na ose y znak Y. Každá dvojice hodnot (x,-n í/j) se zobrazuje jako bod v rovině.
"150   155   160   165   170   175   180   185 190 Výška (cm)
Obr. 17: Ukázka bodového grafu
Příklad bodového grafu je na obrázku 17. Každý bod v grafu představuje jednu statistickou jednotku a její hodnoty znaků V a V. Například bod na souřadnicích (160, 60) odpovídá jednotce s výškou 160 cm a hmotností 60 kg.
CO
O
70
60
Statistický soubor se dvěma argumenty
128
Bodové grafy umožňují vizuálně analyzovat vztah mezi dvěma znaky. Pokud jsou body uspořádány podél určité linie nebo křivky může to naznačovat nějaký druh závislosti mezi znaky laľ. Tyto grafy jsou základním nástrojem pro identifikaci vzorů a závislostí v datech.
Grafická zobrazení nám pomáhají lépe pochopit vztah mezi dvěma znaky. V případě bodového grafu může například kladná korelace znamenat, že vyšší hodnoty znaku X jsou často doprovázeny vyššími hodnotami znaku Y. Naopak záporná korelace by znamenala, že vyšší hodnoty jednoho znaku jsou spojeny s nižšími hodnotami druhého.
Kontingenční tabulky nám umožňují odhalit závislosti mezi kategoriemi dvou znaků. Pokud se některé kombinace kategorií vyskytují mnohem častěji než jiné, může to naznačovat silnou závislost mezi znaky.
Tabulkové a grafické metody jsou důležité nástroje pro první krok analýzy dvourozměrných statistických souborů, protože poskytují vizuální a kvantitativní přehled o datech.
8.3    Míry polohy a variability pro dvourozměrný soubor
8.3.1     Míry polohy
Podobně jako u jednorozměrného statistického souboru, můžeme i u dvourozměrného souboru vypočítat míry polohy pro oba znaky laľ. Tyto míry zahrnují aritmetický průměr, medián a modus.
Pro každý znak zvlášť můžeme vypočítat aritmetický průměr, který udává střední hodnotu daného znaku v souboru.
Zde X je průměrná hodnota znaku X a Y je průměrná hodnota znaku Y. Výpočty probíhají stejným způsobem jako v jednorozměrném souboru.
Příklad 8.1. Pro dvourozměrný statistický soubor z předchozího příkladu (výška a hmotnost osob) bychom vypočítali průměrnou výšku a hmotnost následovně:
Interpretace grafických zobrazení
Aritmetický průměr
x = —
i=l lb i=l
X =
170 + 165 + 180 + 175 + 160
5
170 cm
129
Základy statistiky
65 + 70 + 80 + 75 + 60 V =-z-= 70 kg.
5
Podobným způsobem by se vypočítaly mediány a modus pro oba znaky. □
8.3.2     Míry variability a kovariance
Míry variability pro dvourozměrný statistický soubor jsou obdobné jako u jednorozměrného souboru, přičemž jsou vypočítávány zvlášť pro každý znak laľ.
Rozptyl a směrodatná odchylka
Rozptyl a směrodatná odchylka se pro dvourozměrný soubor počítají obdobně jako v jednorozměrném případě, zvlášť pro každý znak:
Y     n 1 n
4 =—7j2(xí-žf, 4 =—-J2(yí-y)2-
n - 1 n~ 1 £í
Směrodatná odchylka je druhá odmocnina rozptylu:
Podrobnosti o rozptylu a směrodatné odchylce byly probrány v předchozí kapitole o jednorozměrném statistickém souboru.
Kovariance
Kovariance měří míru vzájemné závislosti mezi dvěma znaky laľ. Je-li kovariance kladná, znamená to, že se vysoké hodnoty znaku X pojí s vysokými hodnotami znaku Y. Záporná kovariance naopak naznačuje, že vyšší hodnoty jednoho znaku se pojí s nižšími hodnotami druhého znaku.
Definice 8.2. Kovariance se vypočítá podle vzorce:
1 n
Cov(A, Y) = —— 5>ť - x){Vi - y). n    1 i=i
Pokud jsou hodnoty X &.Y nezávislé, je jejich kovariance blízká nule.
Příklad 8.3. Uvažujme opět dvourozměrný statistický soubor (výška a hmotnost osob) (tabulka 4). Vypočteme kovarianci.
Statistický soubor se dvěma argumenty
130
Řešení: Nejprve vypočítáme průměry:
x = 170,   y = 70.
Poté vypočítáme kovarianci:
Cov(X,Y) = -J—[(170- 170)(65-70) + (165-170)(70-70) + - •• + (160-170)(60-70)1 = 50. 5 — 1
Tato kladná hodnota kovariance naznačuje, že mezi výškou a hmotností existuje pozitivní vztah — vyšší osoby mají obecně vyšší hmotnost. □
8.4    Řešené příklady
Příklad 8.4. Vypočítejte základní číselné charakteristiky dvourozměrného statistického souboru. Tabulka uvádí hodnoty Xa,Y pro jednotlivá pozorování:
x\y	20	30	40	50	60	70	80
250	19	5					
350	23	116	11				
450	1	41	98	9			
550		4	32	65	7		
650		1	4	21	46	3	
750			1	2	11	13	1
850					1	3	2
Řešení: Pro řešení vypočítáme:
1. Průměry:
x = — ■ 259800 « 481,1,   y = — • 22030 « 40,80. 540 ' '   y 540
2. Rozptyly:
4 = — • 134490000 - 481,l2 « 17587,65,   sl = — • 989900 - 40,82 « 168,81. x    540 ' '   '     Y    540 '
3. Směrodatné odchylky:
sx ~ 132,62,   sY « 12,99.
4. Kovariance:
Cov( V V) = — • 11427500 - 481,1 • 40,8 « 1534,49. v   '   )    540 '
□
131
Základy statistiky
Příklad 8.5. Vypočítejte číselné charakteristiky dvourozměrného statistického souboru, který je zadán tabulkou:
X	27	31	87	93	114	124	190	193	250	254	264	272	308	324
y	28	21	71	36	30	43	54	54	59	25	82	22	38	22
371	372	440	442	502	503	506	522	556	620	624
56	63	46	24	33	40	41	28	53	38	66
Řešení: Výpočty provedeme pomocí Excelu: 1. Průměry:
_    7989 _ 1073
x =-319,56,   y =-
25 25
42,92.
2. Rozptyly:
3371599 25
319,562 « 32745,37, s2Y
52945 25
42,922 « 275,67.
3. Směrodatné odchylky:
sx ~ 180,96,   sY « 16,60.
4. Kovariance:
3492^0
Cov(A, Y) =--319,56 • 42,92 « 254,48.
25
□
OV této kapitole jsme se seznámili s dvourozměrným statistickým souborem, který analyzuje dvojice hodnot (xi,yi) pro každou statistickou jednotku. Pro oba znaky jsme vypočítali základní míry polohy (průměr, medián, modus) a variability (rozptyl, směrodatná odchylka).
Představili jsme kovarianci jako nástroj k měření závislosti mezi dvěma znaky, kde kladná kovariance ukazuje na pozitivní vztah a záporná na negativní.
Kromě výpočtů jsme se věnovali kontingenčním tabulkám pro diskrétní znaky a bodovým grafům pro spojité znaky, které umožňují vizuální analýzu vztahů mezi znaky.
Tato kapitola připravuje základ pro další analýzy závislostí mezi dvěma znaky, které budou následovat v příštích kapitolách.
Statistický soubor se dvěma argumenty
132
8.5
Kontrolní otázky
1. Jaký je rozdíl mezi jednorozměrným a dvourozměrným statistickým souborem?
2. Jak vypočítáme aritmetický průměr pro dvourozměrný statistický soubor?
3. Co znamená kovariance a jaký má význam při analýze dvourozměrného souboru?
4. Jaká je interpretace kladné a záporné hodnoty kovariance?
5. Jaký grafický nástroj lze použít pro vizualizaci dvourozměrného statistického souboru, kde oba znaky jsou spojité?
6. Jak funguje kontingenční tabulka a kdy ji použijeme?
7. Jaký je vztah mezi rozptylem a směrodatnou odchylkou pro jednotlivé znaky v dvourozměrném statistickém souboru?
8. Proč používáme bodový graf (scatter plot) při analýze dvourozměrných dat a co nám ukazuje o závislosti mezi znaky X a Yl
9. U 130 zákrsků bylo zjištěno stáří stromu v letech (argument X) a sklizeň v jistém roce v kg (argument Y). Podle údajů v tabulce určete kovarianci.
X\Y	4	5	6	7	8	9	10	11
3	6	0	0	0	0	0	0	0
4	0	5	10	2	0	0	0	0
5	0	0	0	2	8	3	0	0
6	0	0	0	0	0	12	10	0
7	0	0	0	0	0	8	15	4
8	0	0	0	0	4	16	8	0
9	0	3	12	2	0	0	0	0
[Cov(X,Y) « 1,12]
e
Literatura k tématu:
[1] HINDLS, R. Statistika pro ekonomy. 8. vyd. Praha: Professional Publishing, 2007. ISBN 978-80-869-4643-6. ISBN 978-80-867-3208-8.
[2] MAREK, L. Statistika v příkladech. 2. vyd. Praha: Kamil Mařík - Professional Publishing, 2015. ISBN 978-80-743-1153-6.
[3] OTIPKA, P., SMAJSTRLA, V. Pravděpodobnost a statistika [online]. 1. vydání. Ostrava: VŠB-TU Ostrava, 2007 [cit. 2024-09-09]. ISBN 80-248-1194-4. Dostupné z: https://homel.vsb.cz/~oti73/cdpastl/
[4] ZVÁRA, K. a ŠTĚPÁN, J. Pravděpodobnost a matematická statistika. Matfyzpress, 2019. ISBN 978-80-7378-388-4.
Kapitola 9
Regresní a korelační analýza
Po prostudování této kapitoly budete umět:
> vysvětlit, co korelační koeficient popisuje a jaké jsou jeho varianty,
> vypočítat Pearsonův korelační koeficient na základě zadaných dat.
• interpretovat výsledky korelační analýzy,
používat Excel nebo jiný statistický software k výpočtu korelačních koeficientů,
• odhadovat parametry lineárního regresního modelu,
• aplikovat lineární regresi na reálná data,
• používat Excel a modul Analýza dat - Regrese pro výpočty.
Klíčová slova:
Korelační koeficient, statistická závislost, lineární vztah, ineární regrese, regresní analýza, regresní koeficienty, Excel, modul Analýza dat.
Regresní a korelační analýza
134
Náhled kapitoly
V této kapitole navážeme na předchozí kapitolu, kde jsme zkoumali vztah dvou statistických znaků. Zde se seznámíme s dvěma pokročilejšími metodami analýzy těchto závislostí.
Korelační analýza slouží k měření síly a směru lineárního vztahu mezi dvěma proměnnými. Probereme různé varianty korelačních koeficientů a jejich využití v praxi, zejména Pearsonův korelační koeficient, který je nejčastěji používán. Ukážeme si také omezení tohoto koeficientu a situace, kdy je vhodné použít alternativní metody.
Metoda lineární regrese umožňuje odhadnout vztah mezi závislou a nezávislou proměnnou pomocí přímky (případně i jiné křivky).
Obě metody se naučíme provádět i v Excelu.
Cíle kapitoly
Cílem této kapitoly je praktické seznámení s dvěma metodami, korelační a regresní analýzou, které nám umožňují studovat vztah (závislost) dvou statistických znaků.
Odhad času potřebného ke studiu
Odhaduje se, že studium této kapitoly zabere přibližně 3 hodiny. Tento čas zahrnuje čtení textu, pochopení teoretických konceptů a řešení příkladů (i v Excelu).
9.1    Princip korelační analýzy
Co je to korelační koeficient?
Korelační koeficient je statistická míra, která určuje sílu a směr vztahu mezi dvěma proměnnými. Pearsonův korelační koeficient, označovaný jako r, měří lineární vztah mezi dvěma spojitými proměnnými a nabývá hodnot mezi -1 a 1. Pokud je r = 1, jedná se o perfektní pozitivní lineární vztah, pokud r = — 1, jedná se o perfektní negativní lineární vztah, a pokud r = 0, neexistuje žádná lineární závislost mezi proměnnými.
Výpočet korelačního koeficientu
Definice 9.1. Pearsonův korelační koeficient je definován vztahem:
Cov(X, Y) =     J2(xt - x) ■ (yt - y)
kde Xi a yri jsou jednotlivé hodnoty obou proměnných, a x a y jsou jejich průměry.
135
Základy statistiky
Řešené příklady
Příklad 9.2. Mějme data o prodejích produktů ve dvou různých regionech. Vypočítejte Pear-sonův korelační koeficient a určete, zda mezi těmito proměnnými existuje lineární vztah.
Prodeje	(ReÉ	pon 1)	10	15 20	25 30
Prodeje	(ReÉ	pon 2)	12	18 25	24 28
Řešení: Nejprve vypočítáme průměry x = 20 a y = 21 A. Poté provedeme výpočet Pearsonova korelačního koeficientu podle výše uvedeného vzorce. Korelační koeficient r « 0.88, což ukazuje na silnou pozitivní lineární závislost mezi prodeji v obou regionech.
Excel: Korelační koeficient lze spočítat pomocí funkce C0RREL(arrayl, array2) v Excelu.
Příklad 9.3. Mějme data o počtu zákazníků navštěvujících obchod a průměrné denní tržby. Vypočítejte korelační koeficient a určete, zda existuje lineární závislost.
Počet zákazníků	50	60	70	80 90
Denní tržby (v tis. Kč)	20	25	30	28 35
Řešení: Vypočítáme průměry x = 70 a y = 27.6. Pomocí vzorce pro korelační koeficient získáme r    0.91, což značí velmi silnou pozitivní lineární závislost mezi počtem zákazníků a tržbami.
Excel: Pomocí funkce C0RREL(arrayl, array2) lze získat stejný výsledek. □
Příklad 9.4. Zde JSOU dcltcl pro prodej dvou produktů v různých týdnech. Určete, zda mezi prodejem těchto produktů existuje lineární vztah.
Prodeje	produktu	A	100	105 110	95 115	90 120	85	125	80
Prodeje	produktu	B	200	180 205	185 190	185 190	195	200	190
Řešení: Průměry pro produkt A a produkt B jsou x = 102.5 a y = 192. Po výpočtu korelačního koeficientu dostaneme r « 0.08, což naznačuje velmi slabou nebo žádnou lineární závislost mezi prodeji těchto produktů.
Excel: Výpočet pomocí C0RREL(arrayl, array2) v Excelu také ukazuje, že korelace je blízká nule, tedy nevýznamná. □
Historie a varianty korelačních koeficientů
Historie korelačních koeficientů sahá až do 19. století, kdy Francis Galton poprvé navrhl metody pro kvantifikaci statistických vztahů mezi proměnnými. Na jeho práci navázal Karl Pearson, který formalizoval a popularizoval Pearsonův korelační koeficient.
Regresní a korelační analýza
136
V průběhu času byly vyvinuty další varianty korelačních koeficientů pro specifické účely:
Spearmanův korelační koeficient (Spearman's rho): Používá se, pokud data nejsou normálně rozložena nebo vykazují monotónní, nikoli lineární vztah.
Kendallův tau: Měří sílu vztahu mezi pořadím hodnot a používá se zejména u malých souborů dat.
Point-biserial correlation: Využívá se pro měření korelace mezi spojitou a binární proměnnou.
Každý z těchto korelačních koeficientů má své specifické aplikace a závisí na typu dat, které jsou analyzovány. Korelační analýza našla využití v mnoha oblastech, včetně psychologie, ekonomie, marketingu a biostatistiky.
Kdy je korelační koeficient vhodný?
Korelační koeficient popisuje sílu a směr lineárního vztahu mezi dvěma spojitými proměnnými. Jeho použití je vhodné, pokud jsou splněny následující podmínky:
Obě proměnné mají přibližně normální rozložení. Vztah mezi proměnnými je lineární.
Nejsou přítomny výrazné odlehlé hodnoty, které by ovlivnily výsledek.
Použití Pearsonova korelačního koeficientu je nevhodné, pokud vztah mezi proměnnými není lineární nebo pokud se jedná o ordinální data, u nichž je vhodnější použít Spearmanův korelační koeficient nebo Kendallův tau.
Praktické cvičení
Mějte následující data pro dva produkty a určete, zda existuje lineární závislost mezi jejich prodeji:
Prodeje	produktu A	5   10   15  20 25
Prodeje	produktu B	8   12   17  22 24
Spočítejte korelační koeficient pomocí výše uvedeného vzorce nebo pomocí Excelu (C0RREL(arrayl, array2)). Na základě výsledku určete, zda mezi těmito proměnnými existuje lineární závislost.
137
Základy statistiky
9.2    Princip lineární regrese
Úvodní příklad
Představte si, že jste ekonomický analytik ve společnosti, která chce předpovědět tržby na základě výdajů na reklamu. Máte k dispozici následující data z posledních 10 měsíců (tabulka 6).
Tab. 6: Ukázková data pro lineární regresi
Měsíc	1	2	3	4 5	6	7	8	9	10
Reklama (tis. Kč)	20	25	30	35 40	45	50	55	60	65
Tržby (tis. Kč)	200	220	250	280 310	330	360	390	420	450
Cílem je zjistit, jak silný je vztah mezi výdaji na reklamu a tržbami, a vytvořit model, který umožní předpovědět tržby při různých úrovních výdajů na reklamu.
Formulace problému
• Závislá proměnná (Y): Tržby (tis. Kč).
' Nezávislá proměnná (X): Výdaje na reklamu (tis. Kč).
Cíl analýzy
Pomocí lineární regrese odhadnout vztah mezi výdaji na reklamu a tržbami a posoudit, zda je tento vztah statisticky významný.
Co je to lineární regrese?
Lineární regrese je statistická metoda používaná k modelování vztahu mezi závislou proměnnou a jednou nebo více nezávislými proměnnými. V případě jednoduché lineární regrese se jedná o vztah mezi dvěma proměnnými, který je modelován pomocí přímky.
Regresní a korelační analýza
138
Regresní model
Lineární regresní model lze vyjádřit rovnicí:
kde:
F je závislá proměnná,
X je nezávislá proměnná,
/3q je absolutní člen (intercept),
fli je směrnice přímky (sklon),
e je náhodná chyba (reziduálni složka).
Metoda nejmenších čtverců
Parametry (30 a /3i jsou odhadnuty pomocí metody nejmenších čtverců, která minimalizuje součet čtverců odchylek mezi skutečnými hodnotami Y a predikovanými hodnotami Y:
min J2(Vi ~ Vif = mi«n J2(yt - Po- PiXi
,2
Odhady parametrů
Odhady parametrů (30 a (3i lze vypočítat pomocí vzorců:
Ei=i(xi-x)(yi -y)
P
Po = y- fe
kde x a. y jsou průměry laľ.
139
Základy statistiky
Předpoklady lineární regrese
Aby byly odhady parametrů platné, musí být splněny následující předpoklady:
• Linearita: Vztah mezi X a Y je lineární.
' Homoskedasticita: Rozptyl náhodné složky e je konstantní pro všechna X.
• Nezávislost: Hodnoty náhodné složky e jsou nezávislé.
• Normalita: Náhodná složka e je normálně rozložena.
Historické poznámky
Metoda lineární regrese byla poprvé formálně představena anglickým statistikem Sir Prancis Galtonem v 19. století při studiu dědičnosti výšky mezi rodiči a dětmi. Termín regrese pochází z Galtonova pozorování, že extrémní hodnoty mají tendenci "regresovat" k průměru v následující generaci.
Později Karl Pearson a Ronald A. Fisher rozvinuli matematické základy regresní analýzy a metodu nejmenších čtverců, která je dnes standardním nástrojem v statistice a ekonometrice.
Odhad parametrů a interpretace Výpočet odhadů
Pomocí výše uvedených vzorců lze spočítat odhady J3q a J3\ na základě dostupných dat.
Interpretace parametrů
Směrnice přímky Udává změnu v závislé proměnné Y při jednotkové změně
nezávislé proměnné X.
Absolutní člen 0o)'- Hodnota závislé proměnné Y, když nezávislá proměnná X je nulová.
Regresní a korelační analýza
140
9.3    Řešené příklady
Příklad 9.5. Vyrovnejte data v tabulce regresní přímkou:
X	5	15	25	35	45	55	65
y	3,5	5,2	5,5	6,1	5,9	6,4	7,8
Řešení: Ukážeme, jak by se tato úloha řešila v Excelu:
1. Nejdříve označíme data a klikneme na Vložit Graf, přičemž vybereme typ grafu XY bodový (obrázek 18).
C* T   = Seirtl - Ercel
j       VLOŽENI       ROaolENI STRÁNKY      VZORCE       0ATA       REVIZE      ZOG RAZE h I
m m b b2'*-»       tl'-t * ^ ^ t= Í
&opo"uťen*      Tabuľa   Ofcfirky Onkn« £ Maje ipHt*ce •   OopWuíen*   ~     . Koríling*nini   SpfljrWový SlOjptfr^ Vieitupy/   PriJel Čaíavi HypeHť
iňCíífícni UDWfcy                         antzzKy a*                                       a.rjry —'    ^-                <|riT -|jtiu*y                                    llmlricc                    OnplAty                                  1 Bodový																	"••■)••',                         fMrr Odki							
i|cjo|i|r|a|H| i												IbJ \vi					H         N         0         p a							
																								
											1*   T   l__£±. I_—L													
																								
	z	&	15		35				55		6!													
	v		£2	5,5		5r9			M		ľ.													
												uMnový												
												*.   1 a.												
												OJ.												
											L	j! Ctiji mm 9												
																								
							■																	
																								
																								
										•		•												
																								
								*																
																								
																								
																								
								lí           JO           W           40           W           « TU																
																								
																								
Obr. 18: Vložení bodového grafu
2. Máme-li aktivní okno grafu, v nabídce + vybereme možnost Spojnice trendu (obrázek 19).
																	
																	
	<	j>-o-c y													rvky grafu		
													0 H i		0 Osy		
		3 7 6 Z 1 0													□    Názvy os		
											■				3    Název grafu		
							-•-		■	•					□ Popisky dat □ Chybové úsečky		
	(			•											0 Mřížka n   i=—a,		
			•											1 1    Spojnice trendu >			
																	
																	
																	
	(		)               10              20              30              40              50              60 7									Q	i				
																	
																	
Obr. 19: Přidání spojnice trendu
141
Základy statistiky
3. V rámci volby můžete volit i jiné křivky než přímku, a také vložit rovnici přímky přímo do grafu (obrázek 20):
_ :
i,j       U.i       |m        |m        M lTÍ~
±
Formit spojnice rnendu T x MoAttniivoMKi mnu *
> - i\\
* UOÍKHII MM 1UHMJ
Ľ o, L_
\ľ Ol
JntHL-± hafnutu ip-:4*íi*™íi R
Obr. 20: Nastavení lineární regrese
4. Výsledkem je rovnice regrese y = 0,0561 • x + 3,8089. Z grafu vidíme, že rovnice dobře vystihuje závislost proměnných.
Řešení bez použití Excelu:
Pro výpočet regresní přímky použijeme vzorce:
y = J31-x + J30,
kde:
Po
nYxf - (Yxí)2
Y Ví - a Y Xj n
Pro naše data:
J2 Xi = 5 + 15 + 25 + 35 + 45 + 55 + 65 = 245,
J2 Ví = 3,5 + 5,2 + 5,5 + 6,1 + 5,9 + 6,4 + 7,8 = 40,4,
J2 x2 = 52 + 152 + 252 + 352 + 452 + 552 + 652 = 8575,
J2 xiVi = 5 • 3,5 + 15 • 5,2 + 25 • 5,5 + 35 • 6,1 + 45 • 5,9 + 55 • 6,4 + 65 • 7,
1601,5.
Dosadíme do vzorců:
h = 1«^^!= 0,0561,
Po
7 ■ 8575 - 2452 40,4 - 0,0561 • 245 7
3,8089.
Regresní a korelační analýza
142
Rovnice regresní přímky je tedy:
y = 0,0561 - x + 3,8089.
□
Příklad 9.6. Použijte data z úvodního příkladu (tabulka 6) a odhadněte lineární regresní model pro vztah mezi výdaji na reklamu a tržbami. Určete odhady parametrů (30 a (3i.
Řešení: Krok 1: Výpočet průměrů
_    J2]0=1xt     20 + 25 + --- + 65
x =- =- = 42,5,
10 10
_    EEižft     200 + 220 + --- + 450
y =- =-= 321.
y        10 10
Krok 2: Výpočet odhadu (3-
s _ e!=i(^ -x){ví -v) 11 e^fe-*)2
Spočítáme jednotlivé sumy:
J2(xí - x)(yí - y) = J2(xíVí) - nxv>
2 _2
x,-, — nx .
Výpočty:
Vytvoříme tabulku pro výpočty (část výpočtů):
i	Xí	Yi	XjYi	x?
1	20	200	4000	400
2	25	220	5 500	625
3	30	250	7500	900
4	35	280	9 800	1225
5	40	310	12400	1600
6	45	330	14850	2 025
7	50	360	18 000	2 500
8	55	390	21450	3 025
9	60	420	25 200	3 600
10	65	450	29 250	4 225
e	425	3210	147950	20125
A tedy
Ř     ^XiVi-rixy     147950 - 10-42,5-321
Pl     J2x2-nx2        20 125 - 10 • (42,5)2   ~ Ó^Z'
143
Základy statistiky
Výpočet /30:
j30 = y - fax = 321 - 5,5882 • 42,5 = 321 - 237,5 = 83,5. Regresní rovnice:
Ý = 5,5882V + 83,5.
Výpočty v Excelu: Kromě postupu přímo v Excelu, jak jsme si to předvedli v předchozím příkladu, můžeme použít i pokročilejší modul Analýza dat - Regrese:
Postup:
1. Vložíme data do dvou sloupců: X (Reklama) a Y (Tržby).
2. Spustíme Analýza dat a vybereme Regrese.
3. Nastavíme vstupní rozsahy pro závislou a nezávislou proměnnou.
4. Zvolíme výstupní oblast a případně další možnosti (např. reziduálni grafy).
Výstupem bude tabulka s odhady parametrů, ale také jejich směrodatnými chybami, hodnotami ŕ-statistik a P-hodnotami.
Interpretace výsledků z Excelu:
Výsledky mohou vypadat například takto:
Parametr	Odhad	Směr. chyba	t	P-hodnota
h	83,5	5,0	16,7	0,0000
	5,5882	0,2	27,9	0,0000
Rozhodnutí:
Protože P-hodnota pro /3i je mnohem menší než a = 0,05, zamítáme nulovou hypotézu H0 : fli = 0. Regresní koeficient fii je tedy statisticky významný.
□
OV této kapitole jsme se zabývali korelační a regresní analýzou, která slouží k analýze závislostí mezi dvěma kvantitativními znaky. Korelace hodnotí sílu a směr lineárního vztahu mezi dvěma proměnnými pomocí korelačního koeficientu Txy- Pozitivní korelace značí, že s růstem jedné proměnné roste i druhá, zatímco negativní korelace ukazuje opačný vztah.
Regresní analýza pak umožňuje vyjádřit tento vztah pomocí matematického modelu. Nejčastěji se používá lineární regresní model, který popisuje vztah mezi závisle proměnnou
Regresní a korelační analýza
144
Y a nezávislou proměnnou X pomocí přímky. Parametry modelu, jako je směrnice a průsečík, jsou odhadovány metodou nejmenších čtverců.
V rámci kapitoly jsme si ukázali, jak tyto metody aplikovat na konkrétní data, jak interpretovat výsledky korelace a regrese. Důležitou součástí byla také vizualizace dat pomocí bodových grafů a regresních přímek.
1. Co je korelační koeficient a jaká je jeho interpretace?
2. Jaký je rozdíl mezi korelační a regresní analýzou?
3. Jak se vypočítá koeficient korelace txy mezi dvěma proměnnými?
4. Co znamená hodnota korelačního koeficientu blízká 1, 0 nebo —1?
5. Co je to lineární regrese a k čemu slouží?
6. Jak se odhadují parametry lineárního regresního modelu?
7. Co vyjadřuje směrnice a průsečík regresní přímky?
8. Jaké grafické nástroje se používají k vizualizaci výsledků korelační a regresní analýzy?
9. Uvažujme následující data, která představují počet hodin fyzického cvičení za týden a spotřebu kalorií (v tisících) pěti osob:
Osoba	Hodiny cvičení za týden (X)	Spotřeba kalorií (Y, v tisících)
1	3	2,2
2	5	2,8
3	7	3,1
4	8	3,5
5	10	4,0
Vypočítejte korelační koeficient mezi počtem hodin cvičení a spotřebou kalorií a interpretujte výsledek.    [r = 0,98]
10. V následující tabulce jsou uvedeny hodnoty proměnných V a V, kde X představuje počet hodin studia a Y dosažené skóre v testu:
Osoba	Hodiny studia (X)	Skóre (Y)
1	2	50
2	3	55
3	4	60
4	5	60
5	6	70
Určete parametry lineární regresní přímky pro závislost skóre na počtu hodin studia (vztah mezi V a V) a napište rovnici regresní přímky.   [Y = 2X + 51]
145
Základy statistiky
e
Literatura k tématu:
[1] HINDLS, R. Statistika pro ekonomy. 8. vyd. Praha: Professional Publishing, 2007. ISBN 978-80-869-4643-6. ISBN 978-80-867-3208-8.
[2] MAREK, L. Statistika v příkladech. 2. vyd. Praha: Kamil Mařík - Professional Publishing, 2015. ISBN 978-80-743-1153-6.
[3] OTIPKA, P., SMAJSTRLA, V. Pravděpodobnost a statistika [online]. 1. vydání. Ostrava: VŠB-TU Ostrava, 2007 [cit. 2024-09-09]. ISBN 80-248-1194-4. Dostupné z: https://homel.vsb.cz/~oti73/cdpastl/
[4] ZVÁRA, K. a ŠTĚPÁN, J. Pravděpodobnost a matematická statistika. Matfyzpress, 2019. ISBN 978-80-7378-388-4.
Kapitola 10
Časové řady
Po prostudování této kapitoly budete umět:
• definovat a vysvětlit základní pojmy časových řad,
popsat klíčové složky časových řad, jako jsou trend, sezónnost a náhodná složka,
• rozlišit mezi stacionárními a nestacionárními časovými řadami,
• interpretovat grafickou analýzu časových řad.
Klíčová slova:
Časová řada, trend, sezónnost, cykličnost, stacionarita, grafická analýza.
147
Základy statistiky
Náhled kapitoly
V této kapitole se seznámíme s konceptem časových řad a jejich základními charakteristikami. Časové řady představují posloupnost hodnot sledovaných (většinou) v pravidelných časových intervalech. Tyto řady se používají k analýze dat v mnoha oblastech, jako jsou ekonomie, finance a další disciplíny. Probereme základní složky časových řad, jako jsou trend, sezónnost, cyklické jevy a náhodné výkyvy. Naučíme se, jak tyto složky rozlišit a interpretovat pomocí grafických metod.
Cíle kapitoly
Cílem této kapitoly je představit časové řady jako důležitý nástroj pro analýzu dat sledovaných v čase. Studenti se naučí rozpoznávat základní složky časových řad, pochopí rozdíl mezi stacionárními a nestacionárními řadami a budou schopni provést základní grafickou analýzu.
Odhad času potřebného ke studiu
Odhaduje se, že studium této kapitoly zabere přibližně 2 hodiny. Tento čas zahrnuje čtení textu, pochopení teoretických konceptů a interpretaci grafických analýz časových řad.
Úvod
Definice 10.1. Časové řady představují posloupnost hodnot, které jsou zaznamenávány v pravidelných nebo nepravidelných časových intervalech. Každá hodnota časové řady odpovídá určitému okamžiku nebo časovému úseku. Tento typ dat umožňuje analyzovat změny proměnné v čase a může odhalit různé vzorce chování proměny dat, jako jsou trendy (růst nebo pokles ve větším časovém měřítku) nebo sezónní výkyvy.
Příkladem časové řady může být vývoj ceny akcií na burze, počet prodaných výrobků v obchodě za jednotlivé měsíce nebo denní teplota zaznamenaná meteorologickou stanicí.
Kde se časové řady využívají?
Časové řady se využívají v mnoha oblastech, kde je třeba analyzovat a předvídat vývoj veličin v čase. Mezi nejčastější aplikace patří:
Ekonomie a finance: Analýza vývoje cen akcií, kurzů měn, inflace nebo nezaměstnanosti.
Marketing: Předpovědi poptávky, prodejních trendů, či sezónních výkyvů v tržbách.
Meteorologie: Analýza teplotních změn, srážkových úhrnů nebo předpovědi počasí na základě historických dat.
Výrobní procesy: Monitoring a analýza výkonnosti výrobních zařízení v čase, sledování kvality nebo optimalizace výrobních kapacit.
Časové řady
148
Díky těmto aplikacím je možné provádět analýzy, které pomáhají organizacím předvídat budoucí vývoj a lépe plánovat své aktivity.
10.1    Základní pojmy časových řad
Pozorování a časová osa
Časová řada je posloupnost hodnot určité veličiny, které jsou měřeny nebo zaznamenávány v nějakých (většinou pravidelných) časových intervalech.
Definice 10.2. Každá časová řada má dvě klíčové složky:
Časová osa: Zahrnuje jednotlivé časové body (např. dny, měsíce, roky), ve kterých jsou hodnoty proměnné zaznamenány.
Hodnoty proměnné: Reprezentují sledovanou veličinu (např. teplotu, cenu akcií, prodeje).
Časové řady jsou důležité pro zkoumání změn a trendů v průběhu času, což nám potenciálně umožňuje predikovat budoucí hodnoty na základě předchozích dat.
Trend, sezónnost, cykličnost a náhodná složka
Definice 10.3. Časovou řadu můžeme rozložit na několik základních složek:
Trend: Dlouhodobý směr vývoje časové řady, který může být vzestupný, sestupný nebo konstantní. Představuje systematickou změnu hodnot v čase.
Sezónnost: Krátkodobé pravidelné fluktuace, které se opakují v určitém časovém období (např. roční období, měsíční prodeje).
Cykličnost: Dlouhodobé nepravidelné výkyvy, které nejsou striktně periodické, ale mohou souviset s ekonomickými nebo jinými cykly.
Náhodná složka: Nepravidelné, nepředvídatelné výkyvy, které nelze vysvětlit trendem, sezónností ani cykličností. Tato složka představuje vlivy, které nejsou systematické a mohou být způsobeny různými náhodnými faktory.
Rozklad časové řady na tyto složky nám umožňuje lépe pochopit její strukturu a provádět analýzy, které jsou užitečné například při modelování a predikci.
149
Základy statistiky
10.2    Typy časových řad
Deterministické a stochastické časové řady
Definice 10.4. Časové řady můžeme rozdělit do dvou základních kategorií:
Deterministické časové řady: U těchto řad je budoucí vývoj plně určen předchozími hodnotami. Neobsahují žádnou náhodnou složku a jsou často popsány jednoduchými matematickými funkcemi, například lineárním nebo exponenciálním trendem.
Stochastické časové řady: Tyto řady obsahují náhodnou složku, což znamená, že jejich budoucí vývoj není zcela předvídatelný. Příkladem je fluktuace na finančních trzích, kde se vývoj ceny akcie v čase nedá přesně určit.
Rozlišení mezi deterministickými a stochastickými řadami je klíčové pro výběr vhodných metod analýzy a předpovědí.
Stacionární a nestacionární časové řady
Definice 10.5. Další důležité dělení časových řad je na stacionární a nestacionární:
Stacionární časové řady: Časová řada je stacionární, pokud její statistické vlastnosti (např. průměr a rozptyl) zůstávají v čase konstantní. To znamená, že v průběhu času nepozorujeme žádný výrazný trend ani změny v kolísání hodnot. Stacionární časové řady jsou často jednodušší na analýzu a modelování.
Nestacionární časové řady: V těchto řadách dochází ke změnám v čase, například k růstu nebo poklesu průměru, změnám v rozptylu nebo výskytu sezónních výkyvů. Pro analýzu nestacionárních časových řad je obvykle nutné aplikovat metody, které tyto změny zohlední, například diferenciaci.
Stacionarita je důležitý koncept, protože mnoho statistických metod předpokládá, že časová řada je stacionární. Pokud není, je třeba použít vhodné transformace, které pomohou dosáhnout stacionarity.
Časové řady
150
10.3    Analýza časových řad
Grafická analýza časových řad
Jedním z prvních kroků při analýze časové řady je vizuální zkoumání jejích vlastností pomocí grafů. Grafická analýza časových řad nám umožňuje identifikovat základní složky časové řady, jako jsou trend, sezónnost nebo náhodné výkyvy.
Definice 10.6. Mezi nejčastěji používané grafické nástroje patří:
Časový graf: Zobrazuje hodnoty časové řady na vertikální ose a časové body na horizontální ose. Tento graf je ideální pro identifikaci dlouhodobých trendů a sezónních výkyvů.
Sezónní diagram: Používá se k vizualizaci opakujících se sezónních vzorců. Umožňuje snadno rozpoznat, zda má časová řada pravidelné sezónní fluktuace v průběhu jednotlivých období (například různé měsíce nebo roční období).
Bodový diagram (scatter plot): Může být použit ke zkoumání závislosti mezi hodnotami časové řady v různých časových intervalech. Tento graf může odhalit autokorelaci (závislost mezi hodnotami v různých časech).
Grafická analýza poskytuje rychlý přehled o struktuře časové řady a je často prvním krokem před aplikací pokročilejších analytických metod.
Rozklad časové řady
Pro lepší pochopení struktury časové řady je často užitečné rozložit ji na jednotlivé složky: trend, sezónnost a náhodnou složku. Tento rozklad umožňuje oddělit systematické vlivy od náhodných výkyvů, což usnadňuje interpretaci a předpovědi.
Definice 10.7. Rozklad časové řady lze provést pomocí několika metod, například:
Additivní model: Předpokládá, že časová řada je součtem trendu, sezónnosti a náhodné složky. Tento model je vhodný, pokud amplituda sezónních výkyvů zůstává konstantní v čase.
Multiplikativní model: Předpokládá, že časová řada je součinem trendu, sezónnosti a náhodné složky. Tento model je vhodný, pokud se amplituda sezónních výkyvů mění s velikostí časové řady (například větší pro vyšší hodnoty časové řady).
Rozklad časové řady nám umožňuje lépe porozumět jejím jednotlivým složkám a případně predikovat budoucí hodnoty na základě trendů a sezónních vzorců.
151
Základy statistiky
10.4    Charakteristiky časových řad
Charakteristiky časových řad
Při analýze časových řad se používají základní charakteristiky růstu, které nám umožňují kvantifikovat změny hodnot mezi jednotlivými časovými body.
Definice 10.8. Mezi hlavní charakteristiky patří:
Absolutní přírůstky (diference): Rozdíl mezi hodnotami časové řady ve dvou po sobě jdoucích obdobích. Absolutní přírůstek Axt pro období t je dán vztahem:
Axt = xt - xt-i,
kde xt je hodnota časové řady v období t a xt-\ je hodnota v předchozím období.
Koeficienty růstu: Poměr mezi hodnotou časové řady v období t a hodnotou v předchozím období t — 1. Koeficient růstu kt je dán vztahem:
h
xt-i
Tento koeficient nám ukazuje relativní změnu hodnot mezi dvěma obdobími.
Průměrné charakteristiky
Pro získání obecnějšího obrazu o vývoji časové řady v delším období používáme
Definice 10.9. průměrné charakteristiky:
Průměrný absolutní přírůstek: Jedná se o průměr všech absolutních přírůstků časové řady a vypočítá se jako:
Průměrný přírůstek = ^r~2--
n — 1
kde n je počet období.
Průměrný koeficient růstu: Tento koeficient vyjadřuje průměrnou relativní změnu časové řady v průběhu několika období. Vypočítá se jako geometrický průměr koeficientů růstu:
i
n ^*
Tyto průměrné charakteristiky poskytují přehled o celkovém trendu časové řady.
Časové řady
152
Aplikace v praxi
Charakteristiky růstu lze využít k analýze změn v různých oblastech, jako je produkce, prodej nebo zásoby. Například pomocí průměrného absolutního přírůstku lze sledovat, jak se postupně mění objem výroby v továrně, a průměrný koeficient růstu nám může ukázat, zda růst prodeje vykazuje stabilní tempo nebo kolísá mezi obdobími.
10.5    Řešené příklady
Příklad 10.10. Mějme následující časovou řadu, která představuje počet prodaných kusů určitého produktu v obchodě za posledních 10 měsíců:
(120,150,130,170,160,180,200,190,210,230)
Vaším úkolem je:
1. Vykreslit časový graf této časové řady.
2. Identifikovat, zda časová řada obsahuje trend.
Řešení: 1. Pro vykreslení časového grafu použijeme hodnoty z časové řady na vertikální ose a čas (v měsících) na horizontální ose. Graf ukazuje, jak se počet prodaných kusů mění v čase.
2. Z časového grafu můžeme vidět, že počet prodaných kusů má obecně rostoucí trend. Ne v každém měsíci se počet prodaných kusů zvyšuje, ale celkově je jasný pozitivní růst. Tato časová řada tedy obsahuje trend.
□
153
Základy statistiky
Příklad 10.11. Určete elementární charakteristiky růstu časové řady sledující výrobu plynu v letech 1980 - 1985.
rok	1980	1981	1982	1983	1984	1985
výroba (m3)	1286	1363	1393	1495	1571	1610
Řešení: Řešení:
rok	výroba (m3) yt	absolutní přírůstky	koeficienty růstu
1980	1286		
1981	1363	77	1,060
1982	1393	30	1,022
1983	1495	102	1,073
1984	1571	76	1,051
1985	1610	39	1,025
Průměrný absolutní přírůstek:
-x-    E Ayt     (í/2 - yi) + (ž/3 — ÍJ2) H-----V (yn ~ ž/n-i)     Vn - yi     1610 - 1286
A =-=- =- =-= 64,8
n — 1 n — 1 n — 1 5
Průměrný koeficient růstu:
V Vž/i   V2   V3        Vn-i     V 1286 '
□
10.6    Softwarová analýza časových řad
V předchozích dvou příkladech jsme si předvedli jen velmi základní výpočty.
Časové řady
154
Pro pokročilejší analýzu časových řad lze využít různé softwarové nástroje, které nabízejí specializované funkce a metody:
Excel: Excel umožňuje provádět základní analýzu časových řad, jako je vykreslování časových grafů nebo výpočet klouzavých průměrů. Pro pokročilejší analýzy je možné použít doplněk Analýza dat, který zahrnuje funkce pro regresní analýzu nebo sezónní dekompozici.
R: Ve statistické softwaru R jsou k dispozici speciální balíčky, jako například f orecast nebo tseries, které poskytují nástroje pro modelování časových řad, jako jsou ARIMA modely, exponenciální vyrovnávání a testy stacionarity. R je velmi flexibilní a široce využívaný pro komplexní analýzy.
Wolfram Alpha: Wolfram Alpha je interaktivní nástroj, který umožňuje provádět základní analýzu časových řad, jako je vykreslení grafů nebo výpočet trendů. Méně se hodí pro komplexní statistické modely, ale je užitečný pro rychlé vizualizace a základní výpočty.
Použití konkrétního softwaru závisí na potřebách analýzy - Excel je vhodný pro jednodušší úlohy a rychlou vizualizaci, zatímco R poskytuje nástroje pro pokročilé statistické modely, a Wolfram Alpha nabízí snadno přístupnou platformu pro základní výpočty.
Příklad 10.12. Ukázka grafických výstupů při analýze časové řady počtu cestujících. Data jsou součástí instalace softwaru R.
Řešení: Nejprve uvedeme programový kód, který nám v R, mimo jiné, vytvoří zmíněné grafické výstupy:
# Načtení datasetu AirPassengers data("AirPassengers")
# Základní informace o datasetu summary(AirPassengers)
plot(AirPassengers, main="Počet cestujících v letecké dopravě (1949-1960)", ylab="Počet cestujících", xlab="Rok", col="blue")
# Decompose časové řady (rozklad na trend, sezónnost a náhodnou složku) decomposed <- decompose(AirPassengers)
plot(decomposed, col="darkred")
# Autokorelační graf
acf(AirPassengers, main="Autokorelační funkce pro AirPassengers")
# ARIMA model pro předpověď library(forecast)
model <- auto.arima(AirPassengers) forecasted <- forecast(model, h=24)
# Graf předpovědi
plot(forecasted, main="Předpověď počtu cestujících na příští 2 roky", col="green")
# Výstup modelu summary(model)
155
Základy statistiky
Pokračujeme ukázkou grafů.
Na obrázku 21 na straně 156 je znázorněna časová řada počtu cestujících.
' Na obrázku 22 na straně 156 je provedena tzv. dekompozice (rozklad) časové řady na trendovou, sezónní a náhodnou složku.
Na obrázku 23 na straně 156 je ukázka předpovědi.
□
V této kapitole jsme se věnovali časovým řadám, které popisují vývoj veličin v čase. Hlavní body zahrnují:
Základní pojmy: Probrali jsme časovou osu, hodnoty proměnných a základní složky časové řady, jako jsou trend, sezónnost a náhodné výkyvy.
1 Typy časových řad: Rozdělili jsme časové řady na deterministické a stochastické, stacionární a nestacionární.
Charakteristiky růstu: Představili jsme absolutní přírůstky, koeficienty růstu a jejich průměrné hodnoty jako nástroje pro kvantifikaci změn časové řady.
Kapitola poskytuje jen velmi základní nástroje pro analýzu časových řad v různých oborech.
1. Jaké jsou základní složky časové řady? Uveďte příklady každé z nich.
2. Jaký je rozdíl mezi stacionární a nestacionární časovou řadou?
3. Jaký je význam průměrného absolutního přírůstku a průměrného koeficientu růstu v analýze časových řad?
4. V jakých situacích byste použili multiplicativní model namísto aditivního modelu pro rozklad časové řady?
5. Vysvětlete, jak lze využít Excel, R nebo Wolfram Alpha pro analýzu časových řad. Jaké jsou hlavní rozdíly mezi těmito nástroji?
6. Majitel prodejny evidoval čtvrtletně objem prodeje ovocných kompotů a jejich zásoby na počátku čtvrtletí.
čtvrtletí	prodej ks	zásoby ks
I.	560	220
II.	480	210
III.	520	215
IV.	550	200
Na konci 4. čtvrtletí bylo v zásobě 150 ovocných kompotů. Vypočtěte průměrný čtvrtletní prodej a průměrnou čtvrtletní zásobu ovocných kompotů.    [527,5, 199]
Časové řady
156
' ;
íl ;
Obr. 21: Graf časové řady z příkladu 10.12
Obr. 22: Dekompozice časové řady z příkladu 10.12
Obr. 23: Graf předpovědi časové řady z příkladu 10.12
157
Základy statistiky
7. Časová řada následujících hodnot představuje počet prodaných kusů elektroniky v obchodě za posledních 12 měsíců:
(120,130,110,150,140,160,170,165,180,175,190,185)
a. Vypočtěte absolutní přírůstky pro každý měsíc.
b. Vypočtěte koeficient růstu pro každý měsíc.
c. Určete průměrný absolutní přírůstek a průměrný koeficient růstu. [...,...,7,27, 1,0217]
Literatura k tématu:
[1] HINDLS, R. Statistika pro ekonomy. 8. vyd. Praha: Professional Publishing, 2007. ISBN 978-80-869-4643-6. ISBN 978-80-867-3208-8.
[2] MAREK, L. Statistika v příkladech. 2. vyd. Praha: Kamil Mařík - Professional Publishing, 2015. ISBN 978-80-743-1153-6.
[3] OTIPKA, P., SMAJSTRLA, V. Pravděpodobnost a statistika [online]. 1. vydání. Ostrava: VŠB-TU Ostrava, 2007 [cit. 2024-09-09]. ISBN 80-248-1194-4. Dostupné z: https://homel.vsb.cz/~oti73/cdpastl/
[4] ZVÁRA, K. a ŠTĚPÁN, J. Pravděpodobnost a matematická statistika. Matfyzpress, 2019. ISBN 978-80-7378-388-4.
Kapitola 11
Induktivní statistika
Po prostudování této kapitoly budete umět:
• určit bodový odhad zvolených parametrů,
určit intervalový odhad (interval spolehlivosti) střední hodnoty a rozptylu při zvolené hladině spolehlivosti,
použít nástroje Excelu a R pro výpočty bodových a intervalových odhadů v praktických příkladech.
Klíčová slova:
Bodový odhad, intervalový odhad, střední hodnota, rozptyl, Excel, R.
159
Základy statistiky
Náhled kapitoly
V této kapitole se budeme věnovat základním nástrojům induktivní statistiky, kterými jsou bodové a intervalové odhady. Tyto odhady umožňují na základě výběrových dat vyvodit závěry o základním souboru, což je klíčová součást statistické analýzy. Naučíme se, jak vypočítat bodový a intervalový odhad střední hodnoty (průměru) a rozptylu, a to jak teoreticky, tak i prakticky s využitím programů Excel a R.
Cíle kapitoly
Cílem této kapitoly je pochopit hlavní myšlenku induktivní statistiky a naučit se odhadovat parametry základního souboru pomocí bodových a intervalových odhadů.
Odhad času potřebného ke studiu
Studium této kapitoly by mělo zabrat přibližně 2 hodiny. Tento čas zahrnuje prostudování teorie, porozumění odhadovým metodám a zvládnutí praktických výpočtů v Excelu a R.
Úvod
Zopakujme si, že statistika je obor, který se zabývá sběrem, analýzou a interpretací hromadných pozorování a výsledků opakovaných pokusů. Je rozdělena na dva hlavní typy:
Deskriptívni (popisná) statistika: Zaměřuje se na uspořádání datových souborů, jejich popis a účelnou sumarizaci.
Induktivní statistika: Pomocí empirických poznatků umožňuje vytvářet vědecky odůvodněné obecné závěry. Tento přístup je založen na teorii pravděpodobnosti.
Stejně jako statistika, i lidské myšlení lze rozdělit na různé typy podle způsobu uvažování. Mezi nejvýznamnější typy patří:
Deduktivní myšlení
Deduktivní myšlení je proces, při kterém vyvozujeme závěry z obecných zákonitostí nebo pravidel. Z obecných principů vytváříme specifické závěry, které se uplatňují v jednotlivých případech. Deduktivní myšlení zajišťuje přesné a logické usuzování.
Příklad: Všichni lidé jsou smrtelní. Sokrates je člověk. Tudíž Sokrates je smrtelný.
Induktivní statistika
160
Induktivní myšlení
Induktivní myšlení vychází z konkrétních pozorování jednotlivých případů a zobecňuje je do obecných závěrů. Na rozdíl od dedukce, indukce často pracuje s nejistotou, protože závěry jsou ovlivněny subjektivními postoji a mají omezenou platnost.
Příklad: Každé ráno, kdy jsem pozoroval východ slunce, slunce skutečně vyšlo. Proto mohu induktivně usoudit, že slunce vyjde i zítra ráno.
Další typy myšlení
Abduktivní myšlení: Vyvozování nejpravděpodobnějšího vysvětlení na základě dostupných informací. Často se používá při řešení neúplných problémů, kde se snažíme najít nej lepší hypotézu.
Příklad: „Zem je mokrá, pravděpodobně pršelo."
Kreativní myšlení: Schopnost generovat nové a originální nápady nebo řešení. Zaměřuje se na netradiční přístupy k řešení problémů.
Příklad: „Namísto tradičního reklamačního procesu navrhneme zcela nový způsob zákaznického servisu pomocí umělé inteligence."
Kritické myšlení: Proces systematického hodnocení a zkoumání informací, argumentů a důkazů. Cílem je dospět ke správným závěrům založeným na logice a důkazech.
Příklad: „Tento článek tvrdí, že určité potraviny jsou škodlivé, ale podívejme se na důkazy a ověřme, zda to podporují i jiné studie."
Statistická indukce je proces, při kterém pomocí statistických metod dokážeme vytvářet obecné závěry z dostupných dat. Jejich spolehlivost lze kvantifikovat pomocí pravděpodobnosti. Základem statistické indukce je práce s výběrem a základním souborem.
Základní soubor (populace)
Základní soubor, někdy označován jako populace, je množina všech prvků, které jsou předmětem zkoumání. Tento soubor může být:
Konečný: Např. počet obyvatel v určité zemi.
Nekonečný: Hypotetický soubor, který je ideální a v realitě neexistuje.
Prvky základního souboru mají různé vlastnosti, nazývané znaky. Tyto znaky dělíme na:
161
Základy statistiky
Kvalitativní:
Nominálni: Vlastnosti, které lze pouze pojmenovat (např. barva očí).
Ordinální: Vlastnosti, které lze uspořádat (např. spokojenost zákazníků na škále 1 až 5).
Kvantitativní:
Diskrétní: Hodnoty mohou nabývat pouze určitých hodnot (např. počet dětí v rodině).
Spojité: Hodnoty mohou nabývat jakékoliv hodnoty v daném intervalu (např. výška člověka).
Výběr
Výběr je část základního souboru, kterou zkoumáme a na základě které usuzujeme na celou populaci. Aby byl výběr reprezentativní, musí odpovídat vlastnostem celého základního souboru. Pokud není výběr reprezentativní, jedná se o selektivní výběr.
Metody výběru:
Náhodný výběr: Prvky vybíráme náhodně, například losováním nebo pomocí tabulek náhodných čísel.
Mechanický (systematický) výběr: Prvky vybíráme podle pevně stanoveného pravidla (např. každý třetí prvek).
Oblastní (stratifikovaný) výběr: Základní soubor je rozdělen na homogenní oblasti, ze kterých jsou prvky vybírány náhodně.
Skupinový výběr: Používá se pro velké populace, kdy vybíráme celé skupiny prvků (např. domácnosti nebo rodiny).
Vícestupňový výběr: Prvky jsou vybírány postupně z různých úrovní hierarchie (např. město - domácnost - osoba).
ni    Odhady v induktivní statistice
V oblasti induktivní statistiky se nejčastěji zaměřujeme na odhadování parametrů základního souboru na základě výběrových dat. Mezi hlavní parametry, které odhadujeme, patří:
Induktivní statistika
162
' Průměr (střední hodnota): Odhadujeme střední hodnotu populace na základě průměru ve výběru.
• Rozptyl: Odhadujeme rozptyl populace na základě výběrového rozptylu.
' Proporce: Odhady podílů určité charakteristiky v populaci (např. podíl lidí s určitým názorem).
Zde se konkrétně zaměříme na bodový a intervalový odhad průměru (střední hodnoty) a rozptylu.
11.1.1     Bodový a intervalový odhad průměru (střední hodnoty)
Bodový odhad průměru
Definice 11.1. Bodový odhad průměru vyjadřuje nejlepší odhad skutečné střední hodnoty populace na základě výběrového průměru. Bodový odhad střední hodnoty fi se vypočítá jako:
1 n
kde Xi jsou jednotlivé hodnoty z výběru a n je počet pozorování.
Praktický výpočet v Excelu:
V Excelu můžete bodový odhad průměru vypočítat pomocí funkce PRŮMĚR:
=PRŮMĚR(A1:A10), kde rozsah buněk A1:A10 obsahuje hodnoty výběru.
Praktický výpočet v R:
V R můžete bodový odhad průměru spočítat funkcí mean():
mean(data), kde data je vektor obsahující hodnoty výběru.
163
Základy statistiky
Intervalový odhad průměru
Definice 11.2. Intervalový odhad poskytuje rozsah hodnot, ve kterém se s určitou pravděpodobností nachází skutečný průměr populace. Intervalový odhad pro střední hodnotu fi s danou hladinou spolehlivosti 1 — a se vypočítá jako:
kde Ui_a/2 je kvantil normálního rozdělení pro zvolenou hladinu spolehlivosti, a je směrodatná odchylka populace (případně odhad ze vzorku) a n je velikost výběru.
Praktický výpočet v Excelu:
Intervalový odhad průměru lze v Excelu vypočítat pomocí následujícího postupu:
1. Výpočet průměru: =PRŮMĚR(A1: A10)
2. Výpočet směrodatné odchylky: =SM0DCH. VÝBĚR. S (AI: A10)
3. Výpočet velikosti výběru: =P0ČET(A1:A10)
4. K výpočtu kvantilu normálního rozdělení použijeme funkci NORM. INV nebo NORM. S. INV, např. pro hladinu spolehlivosti 95%: =N0RM. S. INV(0,975)
5. Intervalový odhad pak získáme jako průměr ± iti_a/2 ' 7^-
Praktický výpočet v R:
V R můžeme intervalový odhad průměru vypočítat pomocí kombinace funkcí:
mean(data) + c(-l, 1) * qnorm(0.975) * sd(data)/sqrt(length(data))
Induktivní statistika
164
11.1.2     Bodový a intervalový odhad rozptylu
Bodový odhad rozptylu
Definice 11.3. Bodový odhad rozptylu vyjadřuje nejlepší odhad skutečného rozptylu populace na základě výběrového rozptylu. Bodový odhad rozptylu o2 se vypočítá jako:
1 n
z2 = —- A)2, i=i
kde (1 je průměr výběru a Xi jsou jednotlivé hodnoty z výběru.
Praktický výpočet v Excelu:
V Excelu můžete bodový odhad rozptylu vypočítat pomocí funkce VAR.S:
=VAR.S(A1:A10)
Praktický výpočet v R:
V R můžete bodový odhad rozptylu vypočítat funkcí var():
var(data)
Intervalový odhad rozptylu
Definice 11.4. Intervalový odhad rozptylu lze vypočítat	s využitím x2 rozdělení, které se
používá pro odhady rozptylu. Intervalový odhad rozptylu	s hladinou spolehlivosti 1 — a se
vypočítá jako:	
/(n-l)-a2 (n-l)-a2\	
\ Xl-a/2,n-l        Xa/2,n-l 1	
kde Xa/2n-i Je kvantil \2 rozdělení.	
165
Základy statistiky
Praktický výpočet v Excelu:
Intervalový odhad rozptylu můžete vypočítat pomocí následujících kroků:
1. Výpočet rozptylu: =VAR.S(A1 :A10)
2. Výpočet velikosti výběru: =P0ČET(A1:A10)
3. K výpočtu kvantilu %2 rozdělení použijte funkci CHISQ. INV, např.: =CHISQ. INV(0,975; n-1)
4. Intervalový odhad rozptylu pak získáme dosazením o vzorce pro interval.
Praktický výpočet v R:
V R můžeme intervalový odhad rozptylu vypočítat pomocí následujícího kódu:
n <- length(data)
var(data) * (n-1) / qchisq(c(0.975, 0.025), n-1) Tento výpočet nám poskytne dolní a horní hranici intervalového odhadu rozptylu.
ii2    Řešené příklady
Příklad 11.5. Při měření průměru vačkového hřídele na 250 součástkách bylo zjištěno, že výběrový průměr činí xp = 995,6 a výběrová disperze s2 = 134,7. Předpokládáme, že soubor má normální rozdělení. Určete interval spolehlivosti pro střední hodnotu základního souboru při hladině významnosti a = 0,05.
Řešení: Pro odhad střední hodnoty základního souboru fi na základě výběrových dat se používá interval spolehlivosti ve tvaru:
(xp - A; xp + A) ,
kde xp je výběrový průměr, A je tzv. mezní chyba odhadu a určuje se podle vztahu:
V tomto výrazu:
• s je směrodatná odchylka výběru,
' n je počet pozorování (v našem případě n = 250),
Induktivní statistika
166
iíi-s je kritická hodnota normálního rozdělení odpovídající zvolené hladině významnosti a.
Pro hladinu významnosti a = 0,05 je hodnota = NORM.S.INV(0,975) « 1,96.
Nyní vypočítáme mezní chybu odhadu A:
A = v ,_- • 1,96 « 1,441558.
Intervalový odhad střední hodnoty fi je tedy:
(xp - A; xp + A) = (995,6 - 1,441558; 995,6 + 1,441558) = (994,1584; 997,0416).
Z toho plyne, že s 95 % spolehlivostí lze tvrdit, že skutečná střední hodnota průměru vačkového hřídele leží v intervalu (994,1584; 997,0416). □
Příklad 11.6. Určete oboustranný konfidenční interval rozptylu normálně rozloženého základního souboru pro hladiny spolehlivosti 0,90, 0,95 a 0,99, když u výběru s rozsahem n = 12 byl zjištěn rozptyl s2 = 0,64. Posuďte získané výsledky.
Řešení: Pro výpočet konfidenčního intervalu pro rozptyl a2 normálně rozloženého základního souboru použijeme vztah:
2 2
n■s 0        n-s
< a2 <
Xi-a(ro-l) x|(n-l)' kde
• n = 12 je rozsah výběru,
• s2 = 0,64 je výběrový rozptyl,
X^_a{n — 1) a xl(n — 1) jsou kritické hodnoty Pearsonova rozdělení s n — 1 = 11 stupni volnosti.
1. Případ: Hladina spolehlivosti 0,90
Pro hladinu spolehlivosti 1 — a = 0,90 je a = 0,10. Kritické hodnoty jsou:
XJj,o5(ll) = CHIINV(0,05; 11) « 19,675, Xo 95(H) = CHIINV(0,95; 11) « 4,575.
Dosazením do vztahu:
12-0,64      0 12-0,64
<a2<
19,675  ~     ~ 4,575 0,390 < a2 < 1,678.
2. Případ: Hladina spolehlivosti 0,95
Pro hladinu spolehlivosti 1 — a = 0,95 je a = 0,05. Kritické hodnoty jsou:
Xo,025(H) = CHIINV(0,025; 11) « 22,362,
167
Základy statistiky
XJj,975(ll) = CHIINV(0,975; 11) « 3,816.
Dosazením do vztahu:
12-0,64      0 12-0,64
<a2<
22,362  -     -   3,816 7 0,343 < a2 < 2,012.
3. Případ: Hladina spolehlivosti 0,99
Pro hladinu spolehlivosti 1 — a = 0,99 je a = 0,01. Kritické hodnoty jsou:
Xo,oo5(ll) = CHIINV(0,005; 11) « 26,757, Xo,995(ll) = CHIINV(0,995; 11) « 2,603.
Dosazením do vztahu:
12-0,64      2 12-0,64 26,757 ~a ~   2,603 '
0,287 < o2 < 2,952.
Z výsledků vidíme, že s rostoucí hladinou spolehlivosti se konfidenční interval rozšiřuje. □
OV této kapitole jsme se věnovali základním metodám induktivní statistiky, zejména bodovým a intervalovým odhadům, které jsou klíčovými nástroji pro usuzování o parametrech základního souboru na základě výběrových dat.
V kapitole byl kladen důraz na praktické využití těchto metod v Excelu a R, kde byly představeny konkrétní funkce pro výpočet bodových a intervalových odhadů, jako např. PRŮMĚR, SM0DCH. VÝBĚR, N0RM.S.INV a CHISQ.INV v Excelu a mean(), var O, qnorm() a qchisqO v R.
1. Vysvětlete, co je bodový odhad a jak se liší od intervalového odhadu.
2. Jaké jsou hlavní složky při výpočtu intervalového odhadu pro střední hodnotu? Vysvětlete, co znamená hladina spolehlivosti.
3. Kdy použijete pro intervalový odhad průměru normální rozdělení a kdy Studentovo r-rozdělení?
4. Jaký je rozdíl mezi intervalovým odhadem pro střední hodnotu a intervalovým odhadem pro rozptyl? Uveďte vzorce a vysvětlete jednotlivé členy.
5. Co znamená, že intervalový odhad má hladinu spolehlivosti 95 %? Může být tento odhad vždy správný?
6. Jaký je význam kritické hodnoty v kontextu intervalových odhadů? Jak se liší kritické hodnoty pro různé hladiny spolehlivosti?
7. Jakou roli hraje velikost výběru při výpočtu intervalových odhadů? Jak se mění šířka intervalu s rostoucím počtem pozorování?
Induktivní statistika
168
8. Byla měřena délka trvání určitého procesu. Z 12 měření byla zjištěna střední doba trvání procesu 44 s a směrodatná odchylka 4 s. Sestrojte 90 % a 95 % interval spolehlivosti pro očekávanou délku procesu za předpokladu normálního rozdělení. [90 % Cl: (42,02; 45,98), 95 % Cl: (41,45; 46,55)]
9. Při měření kapacity sady kondenzátoru bylo provedeno 10 měření s výsledky: 152, 156, 148, 153, 150, 156, 140, 155, 145, 148. Odhadněte interval spolehlivosti pro kapacitu těchto kondenzátom se spolehlivostí a) 90 %, b) 95 %. [90 % Cl: (146,41; 154,19), 95 % Cl: (145,58; 155,02)]
10. Určete intervalový odhad s 90 % spolehlivostí střední hodnoty a směrodatné odchylky pro následující hodnoty: 606, 1249, 267, 44, 510, 340, 109, 1957, 463, 801, 1086, 169, 233, 1734, 1458, 80, 1023, 2736, 917, 459.    [90 % Cl: (487,87; 1224,73)]
11. Vzorek 20 studentů měl průměrnou dobu studia na zkoušku 5,6 hodiny se směrodatnou odchylkou 1,2 hodiny. Určete 95 % interval spolehlivosti pro průměrnou dobu studia celé populace studentů, pokud předpokládáme, že délka studia má normální rozdělení.    [95 % Cl: (5,00; 6,20)]
12. Po změření výšky 30 osob bylo zjištěno, že průměrná výskaje 172 cm a směrodatná odchylka je 5 cm. Sestrojte 99 % interval spolehlivosti pro průměrnou výšku celé populace.    [99 % Cl: (169,49; 174,51)]
13. Při experimentu s délkou životnosti určitého druhu baterie bylo zaznamenáno 15 hodnot. Výběrový průměr životnosti je 500 hodin a směrodatná odchylka je 40 hodin. Určete 90 % interval spolehlivosti pro očekávanou délku životnosti baterií. [90 % Cl: (481,80; 518,20)]
14. Vzorek 25 produktů měl výběrový rozptyl 0,36. Určete interval spolehlivosti pro rozptyl populace na hladině významnosti 0,05.    [95 % Cl: (0,219; 0,693)]
Literatura k tématu:
[1] HINDLS, R. Statistika pro ekonomy. 8. vyd. Praha: Professional Publishing, 2007. ISBN 978-80-869-4643-6. ISBN 978-80-867-3208-8.
[2] MAREK, L. Statistika v příkladech. 2. vyd. Praha: Kamil Mařík - Professional Publishing, 2015. ISBN 978-80-743-1153-6.
[3] OTIPKA, P., SMAJSTRLA, V. Pravděpodobnost a statistika [online]. 1. vydání. Ostrava: VŠB-TU Ostrava, 2007 [cit. 2024-09-09]. ISBN 80-248-1194-4. Dostupné z: https://homel.vsb.cz/~oti73/cdpastl/
[4] ZVÁRA, K. a ŠTĚPÁN, J. Pravděpodobnost a matematická statistika. Matfyzpress, 2019. ISBN 978-80-7378-388-4.
Kapitola 12
Využití softwaru při řešení statistických úloh
Po prostudování této kapitoly budete umět:
využít software pro řešení vybraných statistických úloh, ' načíst data z externích zdrojů do Excelu, • analyzovat rozsáhlejší data v Excelu.
O
Klíčová slova:
MS Excel, Wolfram Alpha, R, statistické úlohy, data z internetu, analýza dat.
Využití softwaru při řešení statistických úloh
170
Náhled kapitoly
Tato kapitola se zaměřuje na využití softwarových nástrojů pro řešení statistických úloh. Nejprve shrneme hlavní funkce a možnosti Excelu, který jsme používali v předchozích kapitolách. Dále se podíváme na Wolfram Alpha, což je výkonný výpočetní nástroj, vhodný pro rychlé teoretické výpočty, ale méně vhodný pro práci s rozsáhlými datovými sadami. Nakonec se informativně seznámíme s R, jehož hlavní výhoda spočívá v pokročilých analýzách dat, které však vyžadují instalaci softwaru a základní znalost programování. Kapitolu zakončíme praktickými příklady s reálnými daty z internetu.
Cíle kapitoly
Cílem této kapitoly je naučit studenty využívat různé nástroje pro statistické výpočty. Studenti si zopakují základní funkce Excelu, naučí se používat Wolfram Alpha k řešení menších úloh a získají základní povědomí o možnostech softwaru R. Důraz bude kladen na praktické aplikace těchto nástrojů při analýze aktuálních dat dostupných na internetu.
Odhad času potřebného ke studiu
Studium této kapitoly zabere přibližně 3 hodiny, včetně času na procvičování. Tento čas zahrnuje shrnutí práce s Excelem, seznámení s Wolfram Alpha, informativní přehled o R a řešení praktických příkladů.
Úvod
V této kapitole se budeme věnovat třem hlavním nástrojům pro řešení statistických úloh: MS Excel, Wolfram Alpha a R. Každý z nich má své výhody i omezení. Excel je široce dostupný a praktický nástroj, Wolfram Alpha umožňuje rychlé teoretické výpočty a R je silný nástroj pro pokročilé analýzy, ale vyžaduje určité programovací dovednosti. Zaměříme se především na Excel a Wolfram Alpha, zatímco R bude představen spíše informativně.
Excel jsme již používali v předchozích kapitolách, proto zde shrneme jeho hlavní funkce a ukážeme, jak je aplikovat na aktuální data. Wolfram Alpha bude vysvětlen více od začátku, jelikož jsme s ním zatím moc nepracovali. U složitějších analýz, jako je regresní analýza nebo práce s rozsáhlými daty, doporučujeme používat R, které však vyžaduje programování.
V této kapitole se také podíváme, jak stáhnout aktuální data z veřejně dostupných zdrojů, například z ČNB , a jak tato data analyzovat pomocí Excelu.
12.1    Shrnutí práce s MS Excel
V této sekci si shrneme hlavní statistické funkce a možnosti, které jsme v Excelu již používali v předchozích kapitolách. Excel je nástroj široce dostupný a je ideální pro základní statistické úlohy, zejména pro práci s menšími datovými soubory a pro vizualizaci dat.
171
Základy statistiky
Základní statistické funkce v Excelu
PRŮMĚR - slouží k výpočtu průměrné hodnoty datové sady. =PRŮMĚR(A1:A10)
SMODCH.VÝBĚR.S - vypočítá směrodatnou odchylku výběru. =SM0DCH.VÝBĚR.S(AI:A10)
VAR.S - slouží k výpočtu výběrového rozptylu dat. =VAR.S(A1:A10)
COVARIANCE.P - vypočítá kovarianci mezi dvěma datovými sadami. =COVARIANCE.P(AI:A10;Bl:BIO)
CORREL - slouží k výpočtu korelačního koeficientu mezi dvěma proměnnými. =C0RREL(A1:A10;B1:B10)
Modul Analýza dat
Excel obsahuje modul Analýza dat, který poskytuje více pokročilých statistických nástrojů:
Popisná statistika - zobrazí základní souhrnné statistiky jako je průměr, medián, směrodatná odchylka a rozptyl.
Histogram - vizualizace dat v podobě rozdělení četností. Ukázka je na obrázku 24.
Regresní analýza - nástroj pro výpočet regresních koeficientů a analýzu vztahu mezi proměnnými.
Korelační matice - výpočet korelačních koeficientů mezi více proměnnými.
Postup pro použití modulu Analýza dat:
1. Aktivujte modul Analýza dat (Pokud není modul aktivní, přidejte jej přes Možnosti Excelu —Doplňky —Analytické nástroje).
2. Zvolte požadovanou metodu analýzy, např. Popisná statistika.
3. Vyberte oblast dat, na kterých chcete analýzu provést, a potvrďte volbu.
4. Výsledky se zobrazí v novém listu nebo ve zvoleném rozsahu buněk.
Využití softwaru při řešení statistických úloh
172
Histogram
25,035      2M2      26,512      25,223      25,3«      25 BM      25.Í25 25,233      25,45      26, ■-■ 24334
Tri*/
Obr. 24: Ukázka histogramu (četnosti a kumulativní relativní četnosti) z modulu Analýza dat
Tento modul je velmi užitečný pro provádění rychlých analýz a statistických výpočtů, které by jinak vyžadovaly více manuálních kroků.
Grafické zpracování dat
Excel také poskytuje nástroje pro vytváření vizuálních reprezentací dat:
Sloupcové grafy - vhodné pro vizualizaci kategoriálních dat. Spojnicové grafy - ideální pro znázornění časových řad.
• Bodové grafy - často používané při regresní a korelační analýze.
• Histogram - pro znázornění rozdělení četností.
Všechny tyto grafy lze snadno vytvořit prostřednictvím nástroje Vložit —Grafy. Vizualizace dat je důležitou součástí analýzy, protože poskytuje okamžitý náhled na strukturu a rozdělení dat.
Ilustrativní příklad
Příklad 12.1. Máme následující data o výnosech akcií za poslední 10 dnů: 3, 5, 2, 7, 6, 8, 4, 7, 9, 5. Pomocí Excelu vypočítejte průměr, směrodatnou odchylku a vytvořte histogram těchto dat.
Řešení: V Excelu použijeme následující funkce:
• Průměr: =PRŮMĚR(A1: A10) = 5,6.
• Směrodatná odchylka (výběrová): =SM0DCH. VÝBĚR. S (AI: A10) = 2,059.
' Histogram vytvoříme pomocí modulu Analýza dat —Histogram, kde zvolíme intervaly a četnosti.
□
173
Základy statistiky
12.2    Představení Wolfram Alpha a R
V minulé sekci jsme shrnuli základní práci s excelovskými funkcemi a moduly. V této části se podíváme na další softwarové nástroje, konkrétně Wolfram Alpha a R.
12.2.1     Srovnání R a Wolfram Alpha
1) Licencování:
R: Otevřený software, zdarma, licencován pod GPL. Komunita neustále přidává nové balíčky. Je nutné ho nainstalovat na lokální počítač, ale existují i některé online služby pro běh R.
Wolfram Alpha: Komerční produkt. Základní verze je zdarma, pokročilé funkce vyžadují předplatné Wolfram Alpha Pro. Dostupný interaktivně online, bez potřeby instalace.
2) Použití pro statistické výpočty:
R: Pokrývá širokou škálu statistických výpočtů, od základních po pokročilé metody (na co si člověk vzpomene).
Wolfram Alpha: Umožňuje základní statistické výpočty, rychlé a snadné použití, vhodné pro rychlé dotazy.
3) Šířka záběru:
R: Zaměřeno hlavně na statistiku a analýzu dat. Lze rozšířit o balíčky pro různé oblasti (text mining, geografická data, strojové učení).
Wolfram Alpha: Pokrývá širokou škálu oborů (matematika, další vědy, ekonomie), ale s omezenými možnostmi pro pokročilé statistické analýzy.
12.2.2     Základní příkazy ve Wolfram Alpha
Wolfram Alpha umožňuje provádět různé typy výpočtů, jako je výpočet průměru, směrodatné odchylky, rozptylu a mnoho dalších. Zde jsou některé základní příkazy, které lze zadat přímo
Využití softwaru při řešení statistických úloh
174
do vyhledávacího pole Wolfram Alpha:
Mean of {data} - vypočítá průměr datové sady.
Mean of {3, 5, 2, 7, 6, 8, 4, 7, 9, 5}    -ř 5.6
Standard deviation of {data} - vypočítá směrodatnou odchylku datové sady. Standard deviation of {3, 5, 2, 7, 6, 8, 4, 7, 9, 5}    ->• 2.059
Variance of {data} - vypočítá rozptyl datové sady.
Variance of {3, 5, 2, 7, 6, 8, 4, 7, 9, 5}    ->• 4.24
Correlation between {datal} and {data2} vypočítá korelační koeficient mezi dvěma sadami dat.
Correlation between {3, 5, 2} and {7, 8, 4}    ->• 0.866
Po zadání do vyhledávače Wolfram Alpha systém automaticky provede výpočet. Výsledky jsou doplněny o další související informace, jako jsou grafy nebo dodatečné statistické hodnoty.
Ilustrativní příklady
Příklad 12.2 (Regresní analýza ve Wolfram Alpha). Zadejte linear regression of {(1,2), (2,3), (3,5)}.
Řešení: Po zadání Wolfram Alpha vypočítá regresní přímku ve tvaru y = ax + b, kde a je směrnice a b průsečík.
Výstup:       y = 1.5x + 0.5
Wolfram Alpha rovněž poskytne graf a hodnotu koeficientu determinace (R2), což je užitečné pro hodnocení kvality modelu. □
Příklad 12.3. Vyzkoušejte ve Wolfram Alpha následující příkazy a prozkoumejte jejich výstupy:
{10, 12, 8, 14, 11, 9, 15, 13} . five number summary {20, 25, 18, 30, 22, 19, 28, 30, 24} . variance {20, 25, 18, 30, 22, 19, 28, 30, 24} . median {20, 25, 18, 30, 22, 19, 28, 30, 24} • poisson distribution
normal distribution, mean=0, sd=2
175
Základy statistiky
Student t, 17 degrees of freedom
Wolfram Alpha nám poskytuje okamžité výsledky, které lze použít pro další analýzu nebo kontrolu správnosti našich výpočtů. V následující sekci se podíváme na informativní přehled o využití softwaru R.
R je volně dostupný programovací jazyk zaměřený na statistické výpočty a datovou analýzu. I když jeho využití není v tomto kurzu klíčové, stojí za to jej zmínit jako výkonný nástroj pro složitější úlohy, které mohou být mimo možnosti Excelu nebo Wolfram Alpha. V této části si ukážeme několik základních funkcí v R, které se používají pro statistické úlohy, a to spíše informativně, bez nutnosti provádět výpočty během výuky.
R nabízí širokou škálu funkcí, které jsou velmi užitečné při řešení statistických úloh. Zde je přehled některých základních příkazů:
mean() - vypočítá průměr zadaných dat.
12.2.3
Použití R pro statistické úlohy
Základní příkazy v R pro statistické výpočty
mean(c(3, 5, 2, 7, 6, 8, 4, 7, 9, 5))    ->• 5,6.
sd()
vypočítá výběrovou směrodatnou odchylku zadaných dat.
sd(c(3, 5, 2, 7, 6, 8, 4, 7, 9, 5)) 2,22.
var ()
vypočítá výběrový rozptyl zadaných dat.
var(c(3, 5, 2, 7, 6, 8, 4, 7, 9, 5)) 4,93.
cor ()
vypočítá korelační koeficient mezi dvěma sadami dat.
cor(c(3, 5, 2), c(7, 8, 4)) 0,891.
lm()
provádí lineární regresi.
lm(y ~x, data = dataframe)
Tato funkce provede lineární regresní analýzu mezi proměnnými x a y v datovém rámci dataframe.
Využití softwaru při řešení statistických úloh
176
Výhody a nevýhody R
Výhody:
• R je zdarma a otevřený software, který je snadno dostupný.
' Nabízí širokou škálu funkcí a knihoven pro různé statistické metody, od jednoduchých výpočtů po složité modelování.
Je vhodný pro analýzu velkých datových sad, které by byly v Excelu obtížně zpracovatelné.
' Možnost vytvářet pokročilé vizualizace a grafy přímo z dat (pomocí programovéh kódu). Nevýhody:
' R vyžaduje určitou znalost programování, což může být pro začínající studenty obtížné. Ovšem tuto nevýhodu lze do značné míry potlačit s asistencí AI.
Pro mnoho uživatelů je Excel jednodušší a intuitivnější, zejména pro menší a jednodušší úlohy.
Ilustrativní příklad
Příklad 12.4. Zvažte následující data o cenách produktů v obchodech: {10, 12, 8, 14, 11, 9, 15, 13}. Pomocí R vypočítejte průměr, směrodatnou odchylku a rozptyl. Napište příkazy a uveďte, co každý z nich dělá.
Řešení:      • Průměr: mean(c(10, 12, 8, 14, 11, 9, 15, 13)) =11,5.
Směrodatná odchylka (výběrová): sd(c(10, 12, 8, 14, 11, 9, 15, 13)) = 2,44. . Rozptyl (výběrový): var(c( 10, 12, 8, 14, 11, 9, 15, 13)) =6.
□
12.3    Analýza dat z externích zdrojů
V této sekci se zaměříme na příklady rozsáhlejších statistických úloh, které zahrnují stahování dat z internetu, jejich zpracování v Excelu, grafické znázornění a následné výpočty popisných statistik a korelace. Zaměříme se na reálná data z ČNB (kurzy měn) a akciových trhů.
Kde hledat statistická data na internetu?
Existuje mnoho dostupných zdrojů, ze kterých lze stahovat reálná statistická data. Klasicky ve formě souborů, například ve formátu csv, nebo přímým napojením. Mezi ty české patří například Český statistický úřad (czso.cz) a ČNB (cnb.cz). Z těch zahraničních například Eu-rostat (ec.europa.eu/eurostat) a Světová banka (data.worldbank.org), případně Yahoo Finance (finance.yahoo.com) a Google Finance (google.com/finance).
177
Základy statistiky
Načítání dat z vnějších zdrojů do Excel u
V Excelu existuje několik možností, jak načítat a transformovat data z různých externích zdrojů. Tyto možnosti umožňují zpracovávat data nejen ze souborů na lokálním disku, ale také z online zdrojů s aktuálními informacemi. Mezi základní možnosti patří (viz obrázek 25:
Soubor   Domů    Vložení    Rozložení stránky    Vzorce    Data F
s a a h i a a i
Načíst Z Text/ Z Z tabulky Z obrázku Poslední Existující i data v    CSV    webu  nebo oblasti       v        zdroje připojení
Načíst a transformovat data
Obr. 25: Excel: Skupina Načíst a transformovat data na kartě Data
Načítání z Text/CSV
Pomocí této funkce lze načíst data z textových souborů (.txt) nebo souborů CSV (.csv). Jedná se o jednoduchý způsob, jak dostat strukturovaná data do Excelu.
Načítání z webu
Tato možnost umožňuje přímé načtení dat z webové stránky. Excel si z webu stáhne tabulková data a umožní je dále zpracovávat. To je zvláště užitečné pro načítání kurzů měn, cen akcií nebo jiných finančních dat, která se pravidelně aktualizují.
Načítání z tabulky nebo oblasti
Tento nástroj umožňuje načítat data přímo z jiných tabulek v Excelu nebo z definovaných oblastí buněk. Hodí se při práci s velkými datovými sadami rozdělenými do více souborů.
Načítání z obrázku
Excel dokáže načítat data přímo z obrázků, což je užitečné pro digitalizaci dat v tištěných tabulkách nebo grafech. Stačí nahrát obrázek a Excel rozpozná strukturu dat.
Načítání z webových API a online zdrojů
Excel umožňuje načítání dat z online zdrojů pomocí webových API. Tato funkce je klíčová pro práci s aktuálními daty, například z finančních trhů, online databází nebo jiných služeb poskytujících aktualizované informace. Pomocí rozhraní API lze získat přístup k datům, která se pravidelně aktualizují, což je ideální pro tvorbu reportů nebo analýz založených na živých datech.
Poslední zdroje
V této části Excelu je možné rychle znovu načíst data z posledních použitých zdrojů. To usnadňuje opakované aktualizace dat z těchto zdrojů.
Existující připojení
Tato funkce umožňuje správu a opětovné využití dříve nastavených připojení k datovým zdrojům, jako jsou databáze, webové služby nebo další Excelové soubory.
Využití softwaru při řešení statistických úloh
178
Načítání dat z online zdrojů je pro analýzy v Excelu zásadní, zejména pokud pracujeme s dynamickými daty, která se často mění. Pomocí těchto nástrojů je možné zajistit, že naše tabulky budou obsahovat aktuální a relevantní informace pro daný účel.
Ilustrativní příklad
Příklad 12.5 (Načtení a analýza tabulky kurzů měn z ČNB).     1. Na stránkách ČNB najděte údaje „Kurzy devizového trhu - roční historie" a vyberte rok 2024 (obrázek 26)1 .
Kurzy devizového trhu - roční historie
Pošta - Fišer liri - O...    Q IS ImIVSO    § SAS* Logon Mař
trliy/devizovy-:rl"/kLiTy-o-=viic-l/eh o-lrhL/íurzy-is^-ovshiO-t-iu/ic-k tvr?ľok=2024H
:'.   Course: SAS Aoade.
KK|l EUR 11 GBP|l HKD|199 HUF! I 24_.6S5| |24,675 I24,650 24,Ě3^J 24^480 Í4,i53í> 124,560 124,655
Obr. 26: ČNB: Kurzy devizového trhu - roční historie - zadání roku 2024
2. Zkopírujte odkaz a použijte jej v Excelu Z webu (obrázek 27).
-> Data -> (Načíst a transformovat data)
Z webu
S Základni    O Upřesnění
Adresa URL_
yviz ovy-tih/kiJ rzy-d eviz ov eh o -trhu /burzy-deviz ove ho- tr h u/rok, ttt? r ck - 202í|
OK Ziusit
15,278 15,201 15,137 15,059 14,951 15,052 15,037 15,061
12,621 12,616 12,602 12,578 12,517 12,578 12,558 12,606
4,609 16,938 26,524
4.584 16,932 26,473
4.585 16,88 26,455 4,583 16,853 26,399
4,57 16,712 26,31
4,595 16,829 26,419
4,589 16,762 26,317
4,599 16,801 26,4
Obr. 27: Načtení dat z ČNB do Excelu pomocí volby Data -> Z webu
3. Pomocí volby Analýza dat -> Popisná statistika  vypočtěte popisné statistiky pro všechny měny (na zvláštní list).
4. Pomocí volby Analýza dat -> Korelace   vypočtěte korelační koeficienty pro všechny dvojice měn (na zvláštní list).
5. Pomocí podmíněného formátování korelační koeficienty obarvěte podle velikosti. Zvlášť zvýrazněte hodnoty větší než 0,9. (obrázek 28).
6. Jak si vysvětlujete tak vysokou pozitivní lineární korelaci?
7. Vyberte jednu dvojici z předchozího bodu a vytvořte pro ni bodový graf.
1AUD - Australský dolar, BGN - Bulharské leva, BRL - Brazilský real, CAD - Kanadský dolar, CHF -Švýcarský frank, CNY - Čínský júan, DKK - Dánská koruna, EUR - Euro, GBP - Britská libra, HKD -Hongkongský dolar, HUF - Maďarský forint (kurz za 100 jednotek), IDR - Indonéská rupie (kurz za 1000 jednotek), ILS - Izraelský nový šekel, INR - Indická rupie (kurz za 100 jednotek), ISK - Islandská koruna (kurz za 100 jednotek), JPY - Japonský jen (kurz za 100 jednotek), KRW - Jihokorejský won (kurz za 100 jednotek), MXN - Mexické peso, MYR - Malajsijský ringgit, NOK - Norská koruna, NZD - Novozélandský dolar, PHP -Filipínské peso (kurz za 100 jednotek), PLN - Polský zlotý, RON - Rumunský lei, SEK - Švédská koruna, SGD - Singapurský dolar, THB - Thajský baht (kurz za 100 jednotek), TRY - Turecká lira (kurz za 100 jednotek), USD - Americký dolar, XDR - Speciální práva čerpání (měna používaná MMF), ZAR - Jihoafrický rand.
179
Základy statistiky
Á	A	B	C	D	E	F	
1		1AUD	1BGN	1BRL	1CAD	1CHF	1
2	1AUD	1					
3	1BGN	0,56662	1				
4	1BRL	-0,26862	-0,03034	1			
5	1CAD	0,27497	0,54962	0,70436	1		
6	1CHF	0,1362	0,47057	-0,2287	0,11274	1	
7	1CNY	0,489	0,83009	0,20362	0,71783	0,42913	
8	1 DKK	0,56791	0,99647	-0,00012	0,57281	0,46649	1
9	1EUR	0,57007	0,99703	-0,02245	0,55534	0,4615	
10	1GBP	0,74454	0,80486	-0,45514	0,15803	0,49149	
11	1HKD	0,45092	0,67855	0,30423	0,7807	0,02264	
Obr. 28: Podmíněné formát tabulky korelačních koeficientů
12.3.1     Excelovské nástroje pro analýzu akcií Využití datového typu Akcie v Excelu
Datový typ Akcie umožňuje získávat aktuální finanční údaje o veřejně obchodovaných společnostech. Pro jeho použití stačí zadat název společnosti nebo její ticker (např. "AAPĽ'pro Apple) do buňky, následně zvolit z karty Data možnost Akcie. Excel poté poskytne aktuální údaje jako cena, tržní kapitalizace, P/E ratio atd., ale i samotný ticker. Tyto údaje se automaticky aktualizují (minimálně při každém otevření souboru).
Získaný ticker lze následně využít ve funkci STOCKHISTORY pro načtení historických dat obchodování dané akcie.
Použití funkce STOCKHISTORY
Syntaxe je následující:
=ST0CKHIST0RY("ticker"; "start_date";  "end_date";  [interval];   [headers]; [propertyO];  [propertyl];  . . .)
Příklad použití pro načtení denních uzavíracích cen akcií Microsoftu za září 2024: =ST0CKHIST0RY("MSFT"; "2024-09-01"; "2024-09-30"; 0; 1; 0; 5)
Tento vzorec vrátí tabulku obsahující data a uzavírací ceny pro každý obchodní den v uvedeném období. Funkce STOCKHISTORY je vhodná pro analýzu historických finančních dat a sledování časových řad.
Ilustrativní příklady
Příklad 12.6 (Analýza uzavíracích cen akcií firem NVIDIA a Intel). Pomocí datového typu Akcie zjistěte tickery firem NVIDIA a Intel.
Využití softwaru při řešení statistických úloh
180
Pomocí funkce ST0CKHIST0RY načtěte uzavírací denní ceny jejich akcií v období od 1. srpna 2024 do 30. září 2024.
Tyto dvě časové řady graficky znázorněte, vypočtěte pro ně základní popisné statistiky a proveďte jejich korelační analýzu.
Řešení: 1. Tickery
Nejprve získáme tickery společností NVIDIA a Intel pomocí datového typu Akcie:
• Do buněk vložíme názvy společností (NVIDIA, Intel).
Označíme buňky s názvy a na kartě Data zvolíme možnost Akcie. Excel automaticky přiřadí k názvům společností jejich tickery.
. NVIDIA má ticker NVDA, Intel INTC.
2. Zisk historických uzavíracích cen
Pro získání denních uzavíracích cen akcií obou společností v období od 1. srpna 2024 do 30. září 2024 použijeme následující funkce:
=ST0CKHIST0RY("NVDA"; "2024-08-01"; "2024-09-30"; 0; 1; 0; 1) =ST0CKHIST0RY("INTC"; "2024-08-01"; "2024-09-30"; 0; 1; 0; 1)
Experimujte s tímto zápisem tak, abyste získali tabulku o třech sloupcích: datum, ceny NVIDIA, ceny Intel. Tato funkce načte uzavírací ceny pro každý obchodní den v uvedeném období. Získané datové řady budou použity pro další analýzu.
3. Grafické znázornění časových řad
Po získání uzavíracích cen vytvoříme spojnicový graf, který vizuálně znázorní vývoj uzavíracích cen akcií NVIDIA a Intel:
Označíme sloupce s daty (datum, uzavírací ceny NVIDIA a Intel).
• Na kartě Vložení zvolíme typ grafu Spojnicový graf.
' Excel vygeneruje graf, který zobrazí vývoj cen akcií obou společností v průběhu sledovaného období.
4. Korelační analýza
Pro určení míry lineární závislosti mezi cenami akcií NVIDIA a Intel použijeme funkci CORREL. Vzorec pro výpočet korelačního koeficientu mezi dvěma časovými řadami uzavíracích cen je následující:
=C0RREL(B2:B45, C2:C45)\approx 0{,}249.
181
Základy statistiky
Funkce vrátila korelační koeficient o hodnotě 0,249, který popisujeme jako slabou pozitivní korelaci. Mějme ale na paměti, že korelační koeficient popisuje jen lineární závislost, a tak je vždy užitečné si celkový obraz doplnit obrázkem. V tomto případě je bodový graf na obrázku 29. Můžeme na něm zaznamenat jednu odlehlou hodnotu (v takovém případě bychom měli prověřit, zda nejde o chybnou hodnotu, resp. zjistit, jak mohla nastat). Na obrázku je znatelný drobný nárůst vertikálních hodnot (souřadnic) při růstu horizontálních hodnot. Uvědomme si také, že v tomto typu grafu není zachycena časová složka dat.
$29,00 $27,00 $26,00 $23,00 $21,00 $ 19,00 $ 17,00 $9.								
								
								
						• •		
			•		• • •	•	•	
		• ••	• •   • • ■ a	•	• • • • • • •	•	• • • •	
		•						
	.00            $100,00           $105.00           $110,00           $115,00           $120.00           $125,00 $130,00							
Obr. 29: Bodový graf cen akcií NVIDIA (horizontální osa) a Intel (vertikální osa) z příkladu 12.6
□
Příklad 12.7 (Analýza maximálního rozdílu mezi maximálními a minimálními denními cenami). Zvolte si tři firmy. Získejte jejich tickery a maximální a minimální denní ceny za jedno roční období, končící na konci předminulého měsíce (vzhledem ke dni, kdy příklad počítáte).
Následně pro každou akcii vypočtěte denní rozdíly mezi maximální a minimální cenou. Poté najděte pro každou firmu nejvyšší hodnotu těchto denních rozdílů (tzv. maximální denní rozpětí) a tyto tři hodnoty porovnejte.
Protože ceny akcií mohou být velmi rozdílné, je nutné výsledky porovnávat relativně. Nejprve pro každou akcii spočítejte tzv. průměrnou denní cenu jako průměr maximální a minimální ceny pro každý den. Z těchto průměrů vypočtěte jejich průměrnou hodnotu za celé období.
Nakonec relativně porovnejte maximální denní rozpětí s touto průměrnou cenou (v procentech). Toto procentuální vyjádření vám umožní porovnat, která akcie vykazuje největší cenové výkyvy vzhledem ke své průměrné ceně.
12.3.2     Načítání externích statistických dat v R
Ač Exel lze dobře použít pro import aktuálních finančních a dalších statistických dat, tak ten, kdo ovládá práci v R má situaci mnohem pohodlnější.
Využití softwaru při řešení statistických úloh
182
R nabízí několik balíčků, které usnadňují přímé načítání aktuálních statistických a finančních dat z externích zdrojů. Mezi nej používanější patří
' quantmod, který umožňuje získávat data o cenách akcií, měnových kurzech a dalších finančních údajích z Yahoo Finance a FRED.
' Balíček wbstats poskytuje přístup k datům Světové banky, včetně ukazatelů inflace, HDP a dalších makroekonomických dat.
' Pro evropská data lze použít balíček eurostat, který umožňuje stahovat data o ekonomických a sociálních ukazatelích v rámci členských států EU.
' Kromě toho balíček f redr poskytuje přístup k bohaté databázi ekonomických ukazatelů FRED.
Tyto nástroje v R umožňují rychlé a efektivní načítání aktuálních dat pro další analýzu. Samozřejmě, samostatná data nestačí, je třeba nejprve nastudovat jejich strukturu, označení a význam.
O
V této kapitole jsme se věnovali statistické analýze z pohledu použitého softwaru, přirozeně s největším důrazem na MS Excel, ale prošli jsme i možnosti Wolfram Alpha a R. Zaměřili jsme se na výpočty základních statistik, korelační analýzu a tvorbu grafických výstupů. Ukázali jsme také, jakým způsobem lze data načítat do Excelu z externích zdrojů a jak je následně zpracovat.
Wolfram Alpha byl představen jako jednoduchý nástroj pro rychlé výpočty pravděpodobností a dalších základních statistických úloh, kdy není třeba složitého programování.
R bylo popsáno jako pokročilý nástroj pro statistickou analýzu, který je vhodný pro práci s rozsáhlými datovými soubory, jejich vizualizaci a modelování, a umožňuje přímé načítání externích dat z různých statistických zdrojů, jako jsou například Světová banka nebo Eurostat.
1. Jaké zdroje lze využít pro stahování statistických dat z internetu?
2. Jaké jsou základní kroky pro načtení externích dat do Excelu?
3. Popište postup pro vytvoření grafu časových řad v Excelu.
4. Jaké funkce v Excelu použijete pro výpočet průměru, mediánu a směrodatné odchylky?
5. Co je Pearsonův korelační koeficient a jak se v Excelu vypočítá?
6. Kdy je vhodné použít Wolfram Alpha pro statistické výpočty? Uveďte příklady.
7. Jakým způsobem lze analyzovat a znázornit data z akciových trhů?
183
Základy statistiky
8. Stáhněte data o inflaci z webu Českého statistického úřadu (https://www.czso. cz) za posledních 10 let. Načtěte tato data do Excelu, analyzujte je pomocí grafu časové řady a vypočítejte základní statistiky (průměr, medián, směrodatná odchylka, minimum, maximum).
9. Získejte data o cenách akcií tří ropných společností za tři roky (začátek a konec si zvolte sami) pomocí funkce STOCKHISTORY. Vypočtěte jejich popisné statistiky. Vytvořte graf s těmito třemi časovými řadami. Proveďte jejich korelační analýzu včetně bodových grafů. Komentujte výsledky (největší podobnosti a rozdíly).
©Literatura k tématu: [1] PRAŽSKÁ BURZA CENNÝCH PAPÍRŮ. Dostupné z: https://www.pse.cz/. [2] YAHOO FINANCE. Dostupné z: https://finance.yahoo.com/.
[3] MICROSOFT EXCEL. Podpora pro statistické funkce. Dostupné z: https: //support. microsoft.com/excel.
[4] WOLFRAM ALPHA. Online nástroj pro výpočty. Dostupné z: https: //www. wolf ramalpha. com/.
[5] R CORE TEAM. (2023). R: A Language and Environment for Statistical Computing. R Foundation for Statistical Computing, Vienna, Austria. Dostupné z: https: // cran.r-project.org/manuals.html.
[6] ČESKÁ NÁRODNÍ BANKA (ČNB) - Data. Česká národní banka. (2023). Data a statistiky. Dostupné z: https://www.cnb.cz/cs/statistika/.
[7] EUROSTAT. Statistiky Evropské unie. Dostupné z: https : //ec. europa. eu/eurostat.
[8] SVĚTOVÁ BANKA. (2023). Data Světové banky. Dostupné z: https: //data.worldbank. org/.
[9] ČESKÝ STATISTICKÝ ÚŘAD (ČSÚ). Data a statistiky České republiky. Dostupné z: https : //www. czso . cz/.
Seznam literatury a použitých zdrojů
[1] ANDĚL, J. Statistické metody. 5. vyd. Praha: Matfyzpress, 2019. ISBN 978-80-7378-381-5.
[2] CALDA, E., DUPAC, V. (2008). Matematika pro gymnázia: Kombinatorika, pravděpodobnost, statistika (5. vydání, dotisk 2011). Praha: Prometheus. ISBN 978-80-7196-365-3.
[3] HANSEN, B. Probability and Statistics for Economists. Princeton University Press, 2022. ISBN 9780691236148.
[4] HENDL, J. Základy matematiky, logiky a statistiky pro sociologii a ostatní společenské vědy v příkladech. 3. vyd., Karolinum, 20232. ISBN 978-80-246-5400-3.
[5] HINDLS, R. Statistika pro ekonomy. 8. vyd. Praha: Professional Publishing, 2007. ISBN 978-80-869-4643-6.
[6] HONG, Y. Probability and Statistics for Economists. World Scientific, 2017. ISBN 9789813228818.
[7] JANÁČEK, J. Statistika jednoduše. Grada, 2022. ISBN 978-80-271-1738-3.
[8] KELLER, G. Statistics for Management and Economics. 12th ed., Cengage Learning, 2022. ISBN 9780357714393.
[9] MAREK, L. Statistika v příkladech. 2. vyd. Praha: Kamil Mařík - Professional Publishing, 2015. ISBN 978-80-743-1153-6.
[10] NEUBAUER, J. a SEDLAČÍK, M. Základy statistiky: Aplikace v technických a ekonomických oborech - 3., rozšířené vydání. Grada, 2021. ISBN 978-80-271-3421-2.
[11] OPENAI. Asistovaná příprava studijní opory pomocí ChatGPT. OpenAI. Dostupné na https://chat.openai.com, 2024.
[12] OTIPKA, P., SMAJSTRLA, V. Pravděpodobnost a statistika [online]. 1. vydání. Ostrava: VŠB-TU Ostrava, 2007 [cit. 2024-09-09]. ISBN 80-248-1194-4.
[13] ŘEZANKOVÁ, H. a kol. Úvod do statistiky. 2. dotisk 1. vyd., Oeconomica, nakladatelství VŠE, 2019. ISBN 9788024523019.
[14] ZVÁRA, K. a ŠTĚPÁN, J. Pravděpodobnost a matematická statistika. Matfyzpress, 2019. ISBN 978-80-7378-388-4.
184
Seznam obrázků
1 Pravděpodobnostní a distribuční funkce k příkladu 3.6 .............. 53
2 Výpočet pravděpodobností na nekonečném intervalu................ 56
3 Výpočet pravděpodobností na konečném intervalu................. 56
4 Znázornění hustoty a p-kvantilu xp pro spojité rozdělení pravděpodobnosti (viz definici 3.22)...................................... 63
5 Pravděpodobnostní a distribuční funkce binomického rozdělení pro n = 10 a
p = 0,5......................................... 69
6 Pravděpodobnostní a distribuční funkce hypergeometrického rozdělení pro N =
50, M = 20 a n = 10................................. 70
7 Pravděpodobnostní a distribuční funkce Poissonova rozdělení pro A = 3..... 71
8 Jeden z hrdých otců normálního rozdělení (vytvořeno pomocí ChatGPT, openAI) 78
9 Grafy hustot a distribučních funkcí normálního rozdělení s různými rozptyly   . . 78
10 Grafy hustot a distribučních funkcí normálního rozdělení s různými středními hodnotami....................................... 79
11 Grafy hustot a distribučních funkcí rovnoměrného rozdělení (různé parametry a
a b)........................................... 80
12 Grafy hustot a distribučních funkcí exponenciálního rozdělení pro různé parametry A .......................................... 82
13 Graf empirické distribuční funkce pro bodové rozložení četností z příkladu 7.10 . 106
14 Koláčový graf rozložení prodeje produktů ve firmě................. 108
15 Histogram absolutních četností výsledků testu ze statistiky z příkladu 7.10  ... 108
16 Histogram relativních četností hladiny hemoglobinu z příkladu 7.11....... 109
17 Ukázka bodového grafu................................ 127
18 Vložení bodového grafu................................ 140
19 Přidání spojnice trendu................................ 140
20 Nastavení lineární regrese .............................. 141
21 Graf časové řady z příkladu 10.12.......................... 156
22 Dekompozice časové řady z příkladu 10.12..................... 156
23 Graf předpovědi časové řady z příkladu 10.12.................... 156
24 Ukázka histogramu (četnosti a kumulativní relativní četnosti) z modulu Analýza
dat........................................... 172
25 Excel: Skupina Načíst a transformovat data na kartě Data............ 177
26 ČNB: Kurzy devizového trhu - roční historie - zadání roku 2024 ......... 178
27 Načtení dat z ČNB do Excelu pomocí volby Data -> Z webu........... 178
28 Podmíněné formát tabulky korelačních koeficientů................. 179
29 Bodový graf cen akcií NVIDIA (horizontální osa) a Intel (vertikální osa) z příkladu 12.6....................................... 181
185
SEZNAM TABULEK
186
Seznam tabulek
1 Četnosti doby pobytu zákazníků v obchodě (intervaly 5 minut).......... 35
2 Bodové rozložení četností výsledků testu z příkladu 7.10 ............. 106
3 Intervalové rozložení četností hladiny hemoglobinu u žen z příkladu 7.11..... 107
4 Ukázka dvourozměrného statistického souboru................... 125
5 Ukázka kontingenční tabulky ............................ 127
6 Ukázková data pro lineární regresi.......................... 137