ZÁKLADY STATISTIKY
STUDIJNÍ OPORA PRO KOMBINOVANÉ STUDIUM
Moravská vysoká škola Olomouc, o.p.s., 2024
ZÁKLADY STATISTIKY
RNDr. Jiří Fišer Ph.D.
© Moravská vysoká škola Olomouc, o. p. s. Autoři:       RNDr. Jiří FIŠER, Ph.D. Olomouc 2024
Obsah
Úvod 7
1 Kombinatorika 9
1.1 Základní pojmy a vlastnosti............................. 11
1.2 Variace......................................... 14
1.2.1 Variace bez opakování............................ 14
1.2.2 Variace s opakováním............................. 15
1.3 Permutace....................................... 16
1.3.1 Permutace bez opakování........................... 16
1.3.2 Permutace s opakováním........................... 16
1.4 Kombinace....................................... 17
1.4.1 Kombinace bez opakování.......................... 18
1.4.2 Kombinace s opakováním........................... 19
1.4.3 Souhrnné příklady .............................. 21
2 Pravděpodobnost jevů 25
2.1 Základní pojmy.................................... 26
2.2 Klasická pravděpodobnost.............................. 27
2.3 Geometrická pravděpodobnost............................ 31
2.4 Statistická pravděpodobnost............................. 33
2.5 Podmíněná pravděpodobnost a nezávislé jevy ................... 34
2.6 Úplná pravděpodobnost a Bayesova věta...................... 37
2.7 Opakované pokusy.................................. 40
2.7.1 Nezávislé pokusy............................... 40
2.7.2 Závislé pokusy ................................ 42
2.8 Souhrnné příklady .................................. 44
3 Náhodná veličina 48
3.1 Rozdělení pravděpodobnosti diskrétní náhodné veličiny.............. 50
3.2 Rozdělení pravděpodobnosti spojité
náhodné veličiny ................................... 54
3.3 Číselné charakteristiky náhodné veličiny ...................... 57
3.4 Kvantilové charakteristiky náhodné
veličiny......................................... 62
4 Základní typy rozdělení pravděpodobnosti diskrétní náhodné veličiny 67
4.1 Binomické rozdělení.................................. 68
4.2 Hypergeometrické rozdělení ............................. 70
4.3 Poissonovo rozdělení................................. 71
4.4 Některá další diskrétní rozdělení........................... 73
4.5 Řešené příklady.................................... 73
5
5 Základní typy rozdělení pravděpodobnosti spojité náhodné veličiny 78
5.1 Normální rozdělení.................................. 79
5.2 Rovnoměrné rozdělení ................................ 82
5.3 Exponenciální rozdělení ............................... 84
5.4 Řešené příklady.................................... 86
6 Náhodný vektor 91
6.1 Dvourozměrný náhodný vektor............................ 92
6.2 Řešené příklady.................................... 94
7 Statistický soubor s jedním argumentem 100
7.1 Základní pojmy a vlastnosti.............................101
7.2 Rozložení četností...................................105
7.2.1    Grafické znázornění četností.........................108
7.3 Charakteristiky polohy a variability.........................110
7.4 Míry tvaru rozdělení.................................119
7.5 Řešené příklady....................................121
8 Statistický soubor se dvěma argumenty 124
8.1 Základní pojmy....................................126
8.2 Tabulkové a grafické zobrazení dvourozměrných dat................126
8.3 Míry polohy a variability pro dvourozměrný soubor................128
8.3.1 Míry polohy..................................128
8.3.2 Míry variability a kovariance.........................129
8.4 Řešené příklady....................................130
8.5 Kontrolní otázky...................................132
9 Regresní a korelační analýza 133
9.1 Princip korelační analýzy...............................134
9.2 Princip lineární regrese................................137
9.3 Řešené příklady....................................140
10 Časové řady 146
10.1 Základní pojmy časových řad ............................148
10.2 Typy časových řad..................................149
10.3 Analýza časových řad.................................150
10.4 Charakteristiky časových řad ............................151
10.5 Řešené příklady....................................152
10.6 Softwarová analýza časových řad ..........................153
11 Induktivní statistika 158
11.1 Odhady v induktivní statistice............................161
11.1.1 Bodový a intervalový odhad průměru (střední hodnoty)..........162
11.1.2 Bodový a intervalový odhad rozptylu....................164
11.2 Řešené příklady....................................165
12 Využití softwaru při řešení statistických úloh 169
12.1 Shrnutí práce s MS Excel...............................170
12.2 Představení Wolfram Alpha a R...........................173
12.2.1 Srovnání R a Wolfram Alpha ........................173
12.2.2 Základní příkazy ve Wolfram Alpha.....................173
12.2.3 Použití R pro statistické úlohy........................ 175
12.3 Analýza dat z externích zdrojů ........................... 176
12.3.1 Excelovské nástroje pro analýzu akcií.................... 179
12.3.2 Načítání externích statistických dat v R .................. 181
Seznam literatury a použitých zdrojů 184 Seznam obrázků 185 Seznam tabulek 185
Úvod
Vítejte ve světě statistiky
Vítejte ve studijní opoře pro předmět Základy statistiky, určené především studentům bakalářského studia ekonomicky a businessově zaměřených oborů. Skripta vás provedou základními pojmy a metodami statistiky s důrazem na jejich využití při analýze a zpracování dat v praxi.
Tato studijní opora se částečně překrývá s materiály pro navazující studium. V bakalářském studiu klademe důraz zejména na porozumění principům, správnou interpretaci výsledků a samostatné řešení typických úloh. V navazujícím studiu se témata dále rozšiřují (do hloubky i do šířky) a rozvíjejí se pokročilejší aplikace statistiky.
Struktura skript
Kapitoly jsou uspořádány tak, aby na sebe logicky navazovaly a umožnily postupné prohlubování znalostí. Každá kapitola rozvíjí dovednosti potřebné pro zvládnutí témat, která následují.
' Kombinatorika - Základní kombinatorické pojmy (variace, permutace, kombinace). Tyto nástroje jsou klíčové zejména pro pravděpodobnostní výpočty.
' Pravděpodobnost jevů - Základní principy pravděpodobnosti: klasická a geometrická pravděpodobnost, podmíněná pravděpodobnost a Bayesova věta.
' Náhodná veličina a její rozdělení - Pojem náhodné veličiny a rozdělení pravděpodobnosti; diskrétní a spojité rozdělení a jejich základní charakteristiky.
Základní typy rozdělení pravděpodobnosti Vybraná rozdělení často používaná v praxi: binomické, hypergeometrické, Poissonovo a normální rozdělení (včetně typických situací, kde je použít).
' Náhodný vektor - Více náhodných veličin současně: sdružené rozdělení, podmíněná rozdělení, kovariance a korelace (základ pro analýzu vztahů mezi veličinami).
Statistický soubor a jeho analýza - Zpracování dat: třídění, tabulky četností, grafy, charakteristiky polohy a variability.
' Regresní a korelační analýza - Analýza vztahů mezi proměnnými: korelace a jednoduchá regrese jako nástroje pro popis a predikci.
Časové řady - Základy analýzy dat v čase; jednoduché postupy pro popis trendu a sezónnosti.
' Induktivní statistika - Odhady parametrů, intervaly spolehlivosti a testování hypotéz; závěry o populaci na základě výběru.
Využití statistických softwarů - Základní práce se softwarem (zejména MS Excel, dále R a Wolfram Alpha) pro výpočty a prezentaci výsledků.
Každá kapitola obsahuje teoretický výklad i praktické příklady. Cílem je, abyste nejen zvládli výpočty, ale především rozuměli významu a interpretaci získaných výsledků.
Co vás v kapitolách čeká
Každá kapitola začíná stručným uvedením tématu a cíli, kterých byste měli po jejím prostudování dosáhnout. Dále kapitoly obvykle obsahují:
' Teoretický výklad - Vysvětlení pojmů, metod a postupů včetně podmínek jejich použití.
• Řešené příklady - Typické úlohy s postupem řešení.
• Rámečky - Zvýraznění klíčových poznatků a shrnutí postupů.
• Shrnutí - Rekapitulace hlavních bodů kapitoly.
Kontrolní otázky a příklady - Úlohy pro ověření porozumění. U vybraných příkladů jsou uvedeny výsledky v hranatých závorkách pro rychlou kontrolu.
Praktická aplikace a význam softwaru
Statistika jev ekonomické a manažerské praxi nepostradatelným nástrojem. Ve skriptech proto klademe důraz nejen na teorii, ale i na její praktické využití: výběr vhodné metody, správný výpočet a především interpretaci výsledků v kontextu úlohy.
V průběhu studia zjistíte, že statistický software (zejména MS Excel) výrazně usnadňuje výpočty a práci s daty. Pokud zvládnete i základy prostředí R, rozšíříte své možnosti analýzy dat a zvýšíte efektivitu i kontrolu nad postupem výpočtu.
Motivace a podpora
Cílem skript je pomoci vám osvojit si statistiku jako praktický jazyk pro práci s daty. Učte se postupně: nejprve porozumět zadání, zvolit vhodný postup, provést výpočet a na závěr výsledek smysluplně interpretovat. Chyby jsou přirozenou součástí učení; důležité je umět je rozpoznat a opravit.
Věříme, že pro vás budou tato skripta užitečným průvodcem a oporou při studiu i při řešení praktických úloh.
Kapitola 1
Kombinatorika
Po prostudování této kapitoly budete umět:
> rozlišovat mezi variacemi, kombinacemi a permutacemi (s opakováním i bez opakování) ,
• rozpoznat, kdy v úloze záleží na pořadí a kdy nikoli,
• rozlišovat situace s opakováním a bez opakování,
> řešit typové úlohy s využitím pravidla součinu a pravidla součtu (příp. principu inkluze a exkluze).
Klíčová slova:
Kombinatorika, faktoriál, kombinační číslo, variace bez opakování, variace s opakováním, kombinace bez opakování, kombinace s opakováním, permutace bez opakování, permutace s opakováním, pravidlo součinu, pravidlo součtu, princip inkluze a exkluze.
11
Základy statistiky
Náhled kapitoly
Kombinatorika se zabývá počítáním počtu možností, jak vybrat nebo uspořádat prvky z dané množiny. V této kapitole zavedeme a procvičíme tři základní typy úloh:
' permutace (uspořádání všech prvků), > variace (uspořádání vybraných prvků), ' kombinace (výběr bez ohledu na pořadí).
U každého typu budeme rozlišovat, zda se prvky mohou opakovat (výběr s opakováním), nebo nikoli (výběr bez opakování). Základním vodítkem při volbě metody bude odpověď na dvě otázky: Záleží na pořadí? a Je povoleno opakování? Důraz bude kladen na řešení typových úloh, které tvoří přirozený základ pro následující kapitolu o pravděpodobnosti.
Cíle kapitoly
Po prostudování této kapitoly byste měli být schopni:
> rozhodnout, zda je daná situace permutace, variace, nebo kombinace,
> rozlišit úlohy s opakováním a bez opakování,
• správně zvolit a použít odpovídající vzorec a výsledek interpretovat,
řešit typové úlohy s využitím pravidla součinu a pravidla součtu (příp. principu inkluze a exkluze).
Časová náročnost
Doporučený čas na zvládnutí kapitoly je přibližně 3-4 hodiny: přečtení výkladu, průběžné řešení ukázkových příkladů a samostatné procvičení na úlohách na konci kapitoly. Uvedený odhad předpokládá, že cílem není pouze dosadit do vzorce, ale také umět správně rozpoznat typ úlohy.
Kombinatorika
12
í.i    Základní pojmy a vlastnosti
Co je to kombinatorika?
Definice 1.1. Kombinatorika je část matematiky, která se zabývá počítáním počtu možností, jak z dané množiny prvků
• prvky vybrat (výběr) nebo
• prvky uspořádat (uspořádání),
přičemž rozhodujícími otázkami bývá, zda záleží na pořadí a zdaje povoleno opakování
prvků.
Kombinatorika se v základních úlohách nejčastěji opírá o tři pojmy:
• Permutace - uspořádání všech prvků (pořadí rozhoduje).
• Variace - uspořádání vybraných k prvků z n (pořadí rozhoduje).
' Kombinace - výběr k prvků z n bez ohledu na pořadí (pořadí nerozhoduje).
Kombinatorika je důležitým základem zejména pro teorii pravděpodobnosti a statistiku; využití má také v informatice, optimalizaci a kryptografii.
Kombinatorické pravidlo součinu
Definice 1.2. (Kombinatorické) pravidlo součinu říká: lze-li určitý postup rozdělit na k po sobě jdoucích kroků tak, že v i-tém kroku existuje rti možností (pro i = 1,..., k), pak celkový počet možností je
ni-n2.....nk.
Příklad 1.3. V restauraci jsou na výběr 3 druhy předkrmů, 4 druhy hlavních jídel a 2 druhy dezertů. Kolika způsoby lze sestavit menu (předkrm, hlavní jídlo, dezert)?
Řešení: V každém chodu volíme nezávisle jednu možnost, proto použijeme pravidlo součinu:
3 • 4 • 2 = 24.
Menu lze sestavit 24 způsoby. □
13
Základy statistiky
Kombinatorické pravidlo součtu
Definice 1.4. (Kombinatorické) pravidlo součtu říká: lze-li volbu provést buď jedním z ni způsobů nebo jedním z n2 způsobů a tyto možnosti jsou vzájemně neslučitelné (tj. nelze je realizovat současně), potom celkový počet možností je
ni + n2.
Příklad 1.5. V knihovně je 5 beletristických knih a 3 odborné knihy. Kolik různých knih si můžete vybrat, pokud si můžete vzít právě jednu knihu: buď beletrii, nebo odbornou?
Řešení: Možnosti výběru jsou neslučitelné (vybírá se právě jedna kniha), proto platí:
5 + 3 = 8.
Vybrat lze 8 různých knih. □
Princip inkluze a exkluze
Definice 1.6. Princip inkluze a exkluze slouží k určení počtu prvků ve sjednocení množin A1}..., An. Platí
n
\A1uA2u---uAn\ = J2\A\-  E  l^nA,-|+   J2 \Ar\AjnAk\
i=l 1<*<Í<" l<í<j<k<n
----+ (-i)n+1\A1nA2n---nAn\.
Vzorec střídavě přičítá velikosti jednotlivých množin a odčítá velikosti jejich průniků, aby se prvky započítané vícekrát korigovaly.
Speciální případ pro n = 2
Definice 1.7. Pro dvě množiny A a, B platí
\AUB\ = \A\ + \B\ - \Ar\B\.
Příklad 1.8. Ve třídě je 30 studentů. Kurz matematiky navštěvuje 15 studentů, kurz fyziky 10 studentů a oba kurzy 5 studentů. Kolik studentů navštěvuje alespoň jeden z těchto kurzů?
Řešení: Označme M množinu studentů navštěvujících matematiku a F množinu studentů navštěvujících fyziku. Potom
\M U F\ = \M\ + |F| - \M n F\ = 15 + 10 - 5 = 20.
Kombinatorika
14
Alespoň jeden z kurzů navštěvuje 20 studentů. □
Speciální případ pro n = 3
Definice 1.9. Pro tři množiny a, b a c platí
\aubuc\ = \a\ + \b\ + \c\ - \An b\ - \An c\ - \b n c\ + \An b n c\.
Příklad 1.10. V knihovně (oddělení matematiky, fyziky a informatiky) je určitý počet knih. 40 z nich obsahuje kapitoly o matematice, 25 o fyzice a 35 o informatice. Dále 10 knih je současně o matematice i fyzice, 15 o matematice i informatice, 5 o fyzice i informatice a 3 knihy pokrývají všechny tři oblasti. Kolik knih je v oddělení celkem (předpokládejme, že jiné knihy v oddělení nejsou)?
Řešení: Označme M, F, I množiny knih podle toho, zda obsahují kapitoly o matematice, fyzice a informatice. Použijeme vzorec pro tři množiny:
|MUFU I\ = \M\ + |F| + \I\ - \Mr\F\ - \M D I\ - \F D I\ + \M D F D I\.
Dosadíme:
\M U F U I\ = 40 + 25 + 35 - 10 - 15 - 5 + 3 = 73. V oddělení je 73 knih. □
Faktoriál
Definice 1.11. Faktoriál nezáporného	celého čísla n (značíme n\) je definován takto:
, í1'	n = 0,
n\ = {	
[1-2-3	.....n,   n G N, n > 1.
Příklad 1.12. Vypočtěte hodnotu 5!.	
Řešení:	
5! = 1 •	2-3-4-5 = 120.
□
Faktoriál se používá zejména v kombinatorice (např. při výpočtu počtu permutací, variací a kombinací). Hodnota n\ roste s n velmi rychle, proto se ve výpočtech často pracuje se zkracováním výrazů s faktoriály.
15
Základy statistiky
1.2 Variace
Variace jsou uspořádané výběry z dané množiny prvků. Budeme rozlišovat dvě situace:
• bez opakování - každý prvek lze vybrat nejvýše jednou,
• s opakováním - prvky lze vybírat opakovaně.
1.2.1     Variace bez opakování
Příklad 1.13. Vypište všechny uspořádané dvojice ze základní množiny prvků {1, a, B}, pokud se prvky nemohou opakovat. Kolik jich je?
Řešení: Jde o „variace druhé třídy ze tří prvků bez opakování" (též „2-prvkové variace ze tří prvků bez opakování"). Vypíšeme všechny možnosti:
(l,a), (a,l), (1,5), (5,1), (a,B), (B,a).
Celkem tedy dostáváme 6 uspořádaných dvojic. □
Při větších hodnotách n a A; je vypisování všech možností nepraktické. Proto odvodíme vzorec pro počet variací.
Definice 1.14. Variace bez opakování jsou uspořádané fc-prvkové výběry z n prvků, přičemž každý prvek může být vybrán nejvýše jednou. Počet variací k-té třídy z n prvků (bez opakování) je
Vk(n) = 7-T7í = n(n — 1) ■ ■ ■ (n — k + 1).
(n — k)l--„-'
k činitelů
Zde platí 0 < k < n.
Příklad 1.15. Kolik různých uspořádaných trojic lze vybrat z množiny {1, 2, 3,4, 5}, pokud se prvky nemohou opakovat?
Řešení: Jde o variace třetí třídy z pěti prvků bez opakování:
5' 5' 120
V3(5) = -^-^y = - = — = 60,      příp.      V3(5) = 5 • 4 • 3 = 60.
□
Příklad 1.16. Kolika způsoby lze obsadit první tři místa v závodě s 10 účastníky, pokud se o umístění nelze dělit?
Kombinatorika
16
Řešení: Pořadí (1., 2., 3. místo) je rozhodující a každý účastník může obsadit nejvýše jedno místo, proto použijeme variace bez opakování:
10'
V3(10) =--- = 10 • 9 • 8 = 720.
SK   ' (10-3)!
□
1.2.2     Variace s opakováním
Definice 1.17. Variace s opakováním jsou uspořádané fc-prvkové výběry z n prvků, přičemž prvky lze vybírat opakovaně. Počet variací k-té třídy z n prvků s opakováním je
V£ (n) = nk = n ■ n ■ ■ ■ ■ ■ n .
k činitelů
Zde platí fc>0an> 1.
Příklad 1.18. Kolik různých trojciferných čísel lze vytvořit pomocí cifer 1,2,3,4,5, pokud se cifry mohou opakovat?
Řešení: Na každé ze tří pozic lze zvolit jednu z 5 cifer, opakování je dovoleno, proto:
V* (5) = 53 = 125.
□
Příklad 1.19. Kolik různých čtyřmístných PIN kódů lze vytvořit, pokud každé místo může obsahovat cifru od 0 do 9 a cifry se mohou opakovat?
Řešení: Jde o variace s opakováním, kde n = 10 a k = 4:
17(10) = 104 = 10 000.
□
Příklad 1.20. Kolik různých značek lze vytvořit v Morseove abecedě, pokud se sestavují z teček a čárek do skupin o délce 1 až 3?
Řešení: Základní množina má n = 2 znaky (tečka a čárka) a opakování je dovoleno. Počet značek délky k je V£(2) = 2k. Protože délky 1, 2 a 3 představují neslučitelné případy, použijeme pravidlo součtu:
V* (2) + V2*(2) + V;{2) = 21 + 22 + 23 = 2 + 4 + 8 = 14.
□
17
Základy statistiky
1.3 Permutace
Permutace jsou uspořádání všech prvků dané množiny. Jde o speciální případ variací, kdy vybíráme k = n prvků, takže pořadí vždy rozhoduje. Budeme rozlišovat permutace bez opakování (všechny prvky jsou různé) a s opakováním (některé prvky se opakují a jsou nerozlišitelné).
1.3.1     Permutace bez opakování
Definice 1.21. Permutace bez opakování jsou uspořádání všech n navzájem různých prvků. Počet permutací je
P(n) = n\.
Příklad 1.22. Vypište všechny permutace množiny prvků {l,a,B} a ověřte, že jejich počet odpovídá vzorci.
Řešení: Vypíšeme všechny možnosti uspořádání tří různých prvků:
(l,a,B), (l,B,a), (a,l,B), (a,B,l), (B,l, a), (B,a,l). Celkem je permutací 6, což odpovídá P(3) = 3! = 6. □ Příklad 1.23. Kolika způsoby lze uspořádat 6 různých knih na polici?
Řešení: Jde o permutace šesti prvků:
P(6) = 6! = 720.
□
1.3.2     Permutace s opakováním
Definice 1.24. Permutace s opakováním nastávají tehdy, když v souboru n prvků se některé prvky opakují a jsou nerozeznatelné. Nechť existuje k typů prvků a i-tf typ se opakuje n^-krát, kde
n = ni + n2 H-----h nk.
Počet různých uspořádání je
p* (n) =___
ni'n2'-'nfel ; m!n2!---Tifc!'
Vzorec zohledňuje, že prohození dvou stejných prvků nevytváří nové uspořádání.
Kombinatorika
18
Příklad 1.25. Vypište všechny permutace multmnožiny {l,a,a} a ověřte, že jejich počet odpovídá vzorci.
Řešení: Rozlišitelná uspořádání jsou:
(l,a, a), (a, l,a), (a, a, 1).
Celkem jsou 3. Zde je n = 3, prvek 1 se vyskytuje jednou (ni = 1) a prvek a dvakrát (n2 = 2), proto
3! 6
K^) = ^ = 2 = 3.
□
Příklad 1.26. Kolik různých šesticiferných čísel lze vytvořit z číslic 1,1,2,2,2,3?
Řešení: Máme n = 6 číslic, přičemž 1 se opakuje dvakrát, 2 třikrát a 3 jednou, tedy (ni,ri2, n^) = (2,3,1):
fil 720
□
Příklad 1.27 (Uspořádání písmen ve slově). Kolik různých uspořádání písmen lze vytvořit ze všech deseti písmen slova STATISTIKA"?
Řešení: Ve slově STATISTIKA je n = 10 písmen. Počty opakování jsou:
S:2,   T:3,    A : 2,    J : 2,    K : 1.
Proto
,   x 10! 3 628 800     3 628 800 „
P*        10 =.....=-=-= 75 600.
2,3,2,2,11   ;    2!3!2!2!1!    2-6-2-2 48
Celkem lze vytvořit 75 600 různých uspořádání. □
Příklad 1.28 (Tvorba řad korálků). Máme 8 korálků, z nichž 4 jsou červené, 3 modré a 1 zelený. Kolik různých řad (lineárních uspořádání) korálků lze vytvořit, pokud korálky stejné barvy nerozlišujeme?
Řešení: Jde o permutace s opakováním: n = 8, počty opakování jsou (4, 3,1), tedy
P* (*)- 81 - 40320 - 280 Pw(8) - 4!3!i! - ŠÍT ~ 280'
□
i.4 Kombinace
Kombinace jsou výběry prvků z dané množiny, při kterých nezáleží na pořadí. Budeme rozlišovat kombinace bez opakování (každý prvek lze vybrat nejvýše jednou) a kombinace s opakováním (prvky lze vybírat opakovaně).
19
Základy statistiky
Kombinační číslo
Definice 1.29. Kombinační číslo (binomický koeficient) {J^j udává počet způsobů, jak vybrat k prvků z n různých prvků bez opakování a bez ohledu na poradí. Pro 0 < k < n platí
/ n\ n\
k) k\(n-k)V
Příklad 1.30. Vypočítejte kombinační číslo
Řešení: Použijeme vzorec a vhodně zkrátíme:
Í7\      7!      7-6-5-4!     7-6-5 210
,3/     3! 4!     (3-2-1)4!     3-2-1 6
35.
□
1.4.1     Kombinace bez opakování
Definice 1.31. Kombinace bez opakování je výběr k prvků z n různých prvků, kde na pořadí nezáleží a každý prvek lze vybrat nejvýše jednou. Počet takových výběrů je
c'<n) = (ľ) = kňétyr   0 ^
Pozn.: V literatuře se často používá místo Ck{n) přímo zápis
k r
Příklad 1.32. Najděte všechny kombinace druhé třídy bez opakování z množiny M = {1,2,3,4, 5}. Řešení: Počet kombinací je
Jednotlivé dvojice (bez ohledu na pořadí) jsou:
{1, 2}, {1, 3}, {1,4}, {1,5}, {2, 3}, {2,4}, {2, 5}, {3,4}, {3, 5}, {4, 5}.
□
Příklad 1.33. Kolik různých pětičlenných týmů lze vybrat ze skupiny 12 studentů?
Kombinatorika
20
Řešení: Pořadí členů týmu nerozhoduje, proto použijeme kombinace bez opakování:
C,(12) = H = ^ = 12-U-10-9-8 = 792. 5V   ;     V5/     5!7! 5-4-3-2-1
□
Příklad 1.34. Kolika způsoby lze vybrat 3 knihy z police, která obsahuje 7 různých knih? Řešení: Pořadí vybraných knih nerozhoduje:
C(7)=(3=35.
□
Příklad 1.35. Kolika způsoby lze sestavit výbor složený ze 4 mužů a 3 žen, pokud máme k dispozici 8 mužů a 5 žen?
Řešení: Nejprve vybereme 4 muže z 8: Poté vybereme 3 ženy z 5:
. o-*
Podle pravidla součinu je celkový počet možností
□
1.4.2     Kombinace s opakováním
Definice 1.36. Kombinace s opakováním jsou výběry k prvků z n různých prvků, kde nezáleží na pořadí a opakování je dovoleno. Jinými slovy: vybíráme k prvků tak, že stejný prvek může být vybrán i vícekrát.
Počet kombinací s opakováním k-té třídy z n prvků je
ck(n) = \       i = ,      = Vtt-7T7-,       n> 1, k > 0.
ky '     \     k     )     \   ra-1   y (n-l) ~ ~
Příklad 1.37. Najděte všechny kombinace druhé třídy s opakováním z množiny M = {1,2,3,4, 5}.
21
Základy statistiky
Řešení: Zde jen = 5aA; = 2, proto
Jednotlivé kombinace (bez pořadí, s možností opakování) jsou:
{1,1}, {1,2}, {1,3}, {1,4}, {1,5}, {2,2}, {2, 3}, {2,4}, {2, 5}, {3, 3}, {3,4}, {3, 5}, {4,4}, {4, 5}, {5,5}. Celkem tedy existuje 15 kombinací druhé třídy s opakováním. □
Příklad 1.38. Kolika způsoby lze vybrat 4 bonbóny ze 3 různých druhů, pokud nezáleží na pořadí a bonbóny se mohou opakovat?
Řešení: Jde o kombinace s opakováním (n = 3, k = 4):
□
Příklad 1.39. Kolika způsoby lze rozdělit 10 jablek mezi 3 děti, pokud každé dítě může dostat libovolný počet jablek?
Řešení: Označme Xi,X2,x% počet jablek pro jednotlivé děti. Hledáme počet řešení v nezáporných celých číslech rovnice
Xi + X2 + X% = 10.
To je ekvivalentní kombinacím s opakováním (n = 3, k = 10), tedy
□
Příklad 1.40. Kolika způsoby lze rozdělit 8 identických bonbónů mezi 4 děti?
Řešení: Analogicky hledáme počet řešení v nezáporných celých číslech rovnice X1+X2+X3+X4 = 8. Proto
□
Příklad 1.41. Kolika způsoby lze vybrat 6 květin z 5 druhů, pokud se mohou opakovat? Řešení: Jde o kombinace s opakováním (n = 5, k = 6):
□
Příklad 1.42. Zjistěte, kolik existuje různých kvádrů, pro něž platí, že délka každé hrany je přirozené číslo z intervalu [2; 5], přičemž nezáleží na pořadí stran.
Kombinatorika
22
Řešení: Délky hran kvádru můžeme popsat trojicí (a,b,c), kde a,b,c G {2,3,4,5} a nezáleží na pořadí (tj. trojice (2,3,5) je totéž co (5,3,2)). Jde tedy o výběr 3 prvků z 4 hodnot s opakováním: n = 4, k = 3.
Celkem existuje 20 různých kvádrů. □
1.4.3    Souhrnné příklady
Příklad 1.43. Jsou dány cifry 1,2,3,4,5. Cifry nelze opakovat. Kolik je možno vytvořit z těchto cifer čísel, která jsou:
• a) pětimístná, sudá,
b) pětimístná, končící dvojčíslím 21,
• c) pětimístná, menší než 30 000,
• d) trojmístná, lichá,
• e) čtyřmístná, větší než 2 000,
• f) dvojmístná nebo trojmístná.
Řešení: ad a) Pětimístné sudé číslo musí končit cifrou 2 nebo 4 (2 možnosti). Zbylé čtyři pozice vyplníme permutací zbývajících čtyř cifer:
2 • P(4) = 2 • 4! = 2 • 24 = 48.
ad b) Číslo má tvar XXX21. Na první tři pozice lze dosadit libovolné uspořádání tří zbývajících cifer:
P(3) = 3! = 6.
ad c) Podmínka „menší než 30 000" znamená, že první cifra je 1 nebo 2 (2 možnosti). Zbylé čtyři pozice vyplníme permutací zbývajících čtyř cifer:
2 • P(4) = 48.
ad d) Trojmístné liché číslo musí končit cifrou 1, 3 nebo 5 (3 možnosti). Zbylé dvě pozice obsadíme dvěma různými ciframi ze zbývajících čtyř, přičemž pořadí rozhoduje (variace bez opakování):
3 • \/2(4) = 3 • (4 • 3) = 36.
ad e) Čtyřmístné číslo větší než 2 000 má tisíce 2, 3, 4 nebo 5 (4 možnosti). Zbylé tři pozice obsadíme třemi různými ciframi ze zbývajících čtyř, pořadí rozhoduje:
4 ■ \/3(4) = 4 • (4 • 3 • 2) = 96.
23
Základy statistiky
ad f) Hledáme počet dvojmístných nebo trojmístných čísel (neslučitelné případy), proto použijeme pravidlo součtu:
V2(5) + V3(5) = (5 • 4) + (5 • 4 • 3) = 20 + 60 = 80.
□
Příklad 1.44. Kolik různých státních poznávacích značek tvaru 4M9 XX-XX existuje s alespoň dvěma trojkami? (Na místech X mohou být jen číslice.)
Řešení: Na čtyřech pozicích X počítáme řetězce číslic s alespoň dvěma trojkami, tj. s právě 2,
3 nebo 4 trojkami. Označme xr počet značek s právě r trojkami.
4 trojky: jediná možnost 33-33, tedy
x 4 = 1.
3 trojky: zvolíme pozici, na které není trojka (4 možnosti). Na zbývající pozici lze dát jednu z 9 číslic {0,1,2,4,5,6,7,8,9}:
x3 = Q • 9 = 4 • 9 = 36.
(Pozn.: ekvivalentně x3 =      ■ 9.)
2 trojky: nejprve zvolíme, na kterých 2 pozicích jsou trojky: (^j = 6 možností. Zbylé dvě pozice vyplníme libovolnými číslicemi z množiny 9 možností, přičemž opakování je dovoleno a pořadí pozic je dáno (variace s opakováním):
x2 = Q . g2 = 6 • 81 = 486.
Celkový počet požadovaných značek je
x = x2 + x3 + x4 = 486 + 36 + 1 = 523.
□
OV této kapitole jsme se seznámili se základními pojmy kombinatoriky, tj. s metodami pro počítání počtu možností výběru a uspořádání prvků. Klíčovým krokem při řešení úloh bylo vždy rozhodnout, zda záleží na pořadí a zda je dovoleno opakování.
Probrali jsme tři základní typy úloh:
• Variace - uspořádané výběry k prvků z n (pořadí rozhoduje), a to bez opakování i s opakováním.
• Permutace - uspořádání všech n prvků (speciální případ variací pro k = n), opět bez opakování i s opakováním.
• Kombinace - výběry k prvků z n bez ohledu na pořadí (pořadí nerozhoduje), bez opakování i s opakováním.
Kombinatorika
24
Dále jsme používali základní principy pro počítání počtu možností:
' Pravidlo součinu - pro postupy složené z několika po sobě jdoucích kroků (násobení počtu možností v jednotlivých krocích).
' Pravidlo součtu - pro volbu z několika vzájemně neslučitelných možností (sčítání počtu možností).
' Princip inkluze a exkluze - pro výpočet počtu prvků ve sjednocení množin se zohledněním průniků.
Cílem kapitoly bylo, abyste uměli správně rozpoznat typ úlohy, zvolit odpovídající postup a výsledek interpretovat.
1. Státní poznávací značku tvoří dvě písmena, tři číslice a další dvě písmena (formát AAXXXAA, kde A je písmeno a X číslice). Kolik různých značek lze vytvořit, pokud můžeme vybírat z 25 písmen a 10 číslic?   [390 625 000]
2. Kolik různých šestimístných čísel lze sestavit z cifer 1, 2 a 3, pokud se cifry mohou opakovat? [729]
3. V MHD se kdysi používaly lístky s devíti čtverečky označenými čísly 1 až 9. Po nastoupení cestující zasunul lístek do strojku, který prodírkoval tři nebo čtyři z nich (specificky pro dané vozidlo a den). Kolik je různých způsobů produkování lístku? [210]
4. Kolika způsoby mohou sedět v kině sedm kamarádů (A, B, C, D, E, F, G) na sedadlech 1 až 7 tak, aby kamarád B seděl na sedadle č. 4 a kamarád G na sedadle č. 2? [120]
5. Do tanečního kroužku přišlo 24 chlapců a 15 dívek. Kolik různých párů lze vytvořit, pokud pár tvoří vždy dvojice chlap ec-dívka? [360]
6. Ve třídě je 20 žáků. Kolika způsoby lze vybrat dvojici pro týdenní službu? [190]
7. Kolik hráčů se zúčastnilo turnaje ve stolním tenise, pokud se ve dvouhře odehrálo 21 utkání a každý hráč hrál s každým právě jednou? [7]
8. Ve třídě je 20 dívek a 15 chlapců. Kolik různých pětičlenných hlídek na branné závody lze vytvořit, pokud v každé hlídce mají být 3 dívky a 2 chlapci?   [119 700]
9. Hokejové družstvo má 20 hráčů: 13 útočníků, 5 obránců a 2 brankáře. Kolik různých sestav může trenér vytvořit, pokud sestava má obsahovat 3 útočníky, 2 obránce a 1 brankáře?   [5 720]
10. Učitel má k dispozici 20 aritmetických a 30 geometrických úloh. Na písemné práci mají být dvě aritmetické a tři geometrické úlohy. Kolik má učitel možností k vytvoření písemné práce?   [771400]
11. Ze 7 mužů a 4 žen máme vytvořit 6člennou skupinu, ve které mají být 3 ženy. Kolika způsoby lze takovou skupinu vytvořit? [140]
12. Učitel má vybrat na recitační soutěž tři studenty ze třídy 3.A a dva studenty ze třídy 3.B. V 3. A je 22 studentů a v 3.B je 17 studentů. Kolik má učitel možností výběru? [209440]
13. Kolik existuje způsobů, jak uspořádat sedadla pro kamarády A, B, C, D a E tak, aby kamarád A seděl vedle kamaráda C? [48]
25
Základy statistiky
14. Latinská abeceda má 26 písmen. Kolik různých ôpísmenných „slov" lze vytvořit, pokud se písmena mohou opakovat?   [308 915 776]
15. Státní poznávací značka tvoří 7 znaků. Na prvních třech pozicích může být číslice nebo písmeno, na zbývajících čtyřech jen číslice. Kolik různých značek lze vytvořit, pokud použijeme 28 písmen a 10 číslic?   [548 720 000]
16. Na hodině tělesné výchovy stojí v řadě 5 dívek, z nichž dvě jsou sestry. Kolika způsoby lze rozestavit dívky tak, aby sestry stály vedle sebe? [48]
Literatura k tématu:
[1] OTIPKA, P., SMAJSTRLA, V. Pravděpodobnost a statistika [online]. 1. vydání. Ostrava: VŠB-TU Ostrava, 2007 [cit. 2024-09-09]. ISBN 80-248-1194-4. Dostupné z: https://homel.vsb.cz/~oti73/cdpastl/
[2] CALDA, E., DUPAC, V. (2008). Matematika pro gymnázia: Kombinatorika, pravděpodobnost, statistika (5. vydání, dotisk 2011). Praha: Prométheus. ISBN 978-80-7196-365-3.
Kapitola 2
Pravděpodobnost jevů
Po prostudování této kapitoly budete umět:
' objasnit pojmy náhodný pokus, náhodný jev, operace s jevy a jejich použití, • představit klasickou a geometrickou pravděpodobnost,
> řešit typové úlohy z oblasti pravděpodobnosti včetně podmíněné pravděpodobnosti, nezávislosti a Bayesovy věty.
Klíčová slova:
Náhodný pokus, náhodný jev, klasická pravděpodobnost, geometrická pravděpodobnost, operace s jevy, podmíněná pravděpodobnost, nezávislé jevy, úplná pravděpodobnost, Ba-yesova věta.
27
Základy statistiky
Náhled kapitoly
V této kapitole se zaměříme na základní pojmy a pravidla teorie pravděpodobnosti, která tvoří výchozí rámec pro následné statistické metody. Nejprve zavedeme pojmy náhodný pokus a náhodný jev a ukážeme si, jak s jevy pracovat pomocí základních operací (sjednocení, průnik, doplněk). Poté představíme klasickou a geometrickou pravděpodobnost a procvičíme je na typových příkladech.
Dále se budeme věnovat podmíněné pravděpodobnosti a pojmu nezávislosti jevů, které umožňují analyzovat složitější situace. Kapitolu uzavřeme pravidlem úplné pravděpodobnosti a Bayesovou větou, jež jsou klíčové pro řadu aplikací (např. aktualizace pravděpodobností na základě nové informace).
Cíle kapitoly
Po prostudování této kapitoly byste měli být schopni:
• definovat náhodný pokus a náhodný jev a pracovat s operacemi s jevy,
• používat klasickou a geometrickou pravděpodobnost v typových úlohách,
• vypočítat podmíněnou pravděpodobnost a rozhodnout o nezávislosti jevů,
• aplikovat pravidlo úplné pravděpodobnosti a Bayesovu větu.
Časová náročnost
Doporučený čas na zvládnutí kapitoly je přibližně 4-5 hodin (výklad + průběžné řešení příkladů + samostatné procvičení).
2.1    Základní pojmy
Definice 2.1. Náhodný pokus je opakovatelný proces, jehož výsledek nelze předem jednoznačně určit, i když jsou podmínky pokusu stejné. Množinu všech možných výsledků náhodného pokusu nazýváme prostor elementárních jevů a označujeme ji íl.
Například při hodu hrací kostkou je Q = {1, 2, 3,4, 5,6}.
Definice 2.2. Náhodný jev je podmnožina prostoru elementárních jevů, tedy A C fž. Řekneme, že jev A nastal, právě když výsledek náhodného pokusu patří do A.
Například při hodu kostkou může být jev A „padne sudé číslo", tedy A = {2,4,6}.
Pravděpodobnost jevů
28
Druhy náhodných jevů
Definice 2.3. Nechť A, B C Q jsou náhodné jevy.
' Jev jistý je jev, který nastane vždy. Platí A = Q a jeho pravděpodobnost je
P(Q) = 1.
' Jev nemožný je jev, který nikdy nenastane. Platí A = 0 a jeho pravděpodobnost je
P(0) = 0.
' Jev elementární je jev, který obsahuje právě jeden výsledek, tj. má tvar {co} pro nějaké co G Q.
• Jev složený je jev, který obsahuje alespoň dva výsledky.
• Doplněk jevu A (opačný jev) je jev
Ac = Q \ A,
tj. nastane právě tehdy, když jev A nenastane.
' Neslučitelné (disjunktní) jevy A a, B jsou takové, že nemohou nastat současně, tedy
in5 = 0.
• Slučitelné jevy A a B jsou takové, že mohou nastat současně, tedy
A n B ^q>.
2.2    Klasická pravděpodobnost
Definice 2.4. Nechť náhodný pokus má konečný prostor elementárních jevů Q a nechť všechny elementární výsledky jsou stejně pravděpodobné (rovnoměrný model). Potom klasická pravděpodobnost jevu A je
p^j^ počet příznivých výsledků
celkový počet možných výsledků Pozn.: Pokud si prostor výsledků zapisujeme jako množinu, pak „počet prvků množiny" se
|íí|-
značí \A\ a |íž| a lze psát také P (A) — —
29
Základy statistiky
Kdy lze použít klasickou pravděpodobnost?
Q je konečná a její prvky (elementární jevy) jsou jednoznačně určeny.
Všechny elementární jevy jsou stejně pravděpodobné (např. férová kostka, férová mince).
Pozn.: Nezávislost opakovaných pokusů není předpokladem samotného vzorce P (A) \A\/\Q\; je důležitá až při modelování více pokusů (např. dva hody kostkou).
Příklad 2.5. Hod hrací kostkou je klasickým příkladem náhodného pokusu. Popište prostor elementárních jevů a uveďte příklady jevů.
Řešení: Náhodný pokus: hod hrací kostkou. Prostor elementárních jevů je
íl = {1,2,3,4,5,6}.
Příklady náhodných jevů:
• A = {1,3,5}: „padne liché číslo", B = {4,5,6}: „padne číslo > 4",
• 0: „padne číslo > 6" (jev nemožný),
• Q: „padne číslo mezi 1 a 6" (jev jistý),
> jevy „padne sudé číslo" a „padne liché číslo" jsou neslučitelné, protože jejich průnik je prázdný.
□
Příklad 2.6. Při hodu kostkou určete pravděpodobnost jevů:
• a) A: „padne číslo 5",
• b) B: „padne číslo < 2".
Řešení: Protože všechny výsledky jsou stejně pravděpodobné a |fž| = 6, dostáváme:
□
Příklad 2.7. S jakou pravděpodobností padne při hodu dvěma hracími kostkami součet:
• a) 6,
Pravděpodobnost jevů
30
b) menší než 7?
Řešení: Uvažujme uspořádané dvojice kde i je výsledek na první kostce a j na druhé.
Platí      = 6 • 6 = 36.
ad a) Součet 6 nastane pro pět dvojic:
(1,5),(2,4),(3,3),(4,2),(5,1).
Proto
5
P(součet 6) = ^7.
ad b) Součet menší než 7 znamená součet 2,3,4,5 nebo 6. Počty možností jsou postupně 1, 2, 3,4, 5, celkem tedy 1 + 2 + 3 + 4 + 5 = 15 příznivých dvojic. Proto
15 5 P(součet < 7) = - = -.
□
Příklad 2.8. V cele předběžného zadržení sedí vedle sebe 10 podezřelých, z toho 3 ženy. Jaká je pravděpodobnost, že všechny tři ženy sedí vedle sebe?
Řešení: Uvažujme všechna možná uspořádání 10 různých osob v řadě. Celkový počet uspořádání je
n = 10!.
Aby všechny tři ženy seděly vedle sebe, budeme je chápat jako jeden „blok". Pak máme celkem 8 objektů (blok žen + 7 mužů), které lze uspořádat v řadě
způsoby. Uvnitř bloku se ženy mohou prohodit
3!
způsoby. Počet příznivých uspořádání je tedy
m = 8! • 3!.
Hledaná pravděpodobnost je
m    8! • 3!       6 1
n       10!      10-9 15'
□
Příklad 2.9. Stanovte pravděpodobnost jevu, že z 10 náhodně vytažených bridžových karet budou alespoň 3 esa. (V balíčku je 52 karet, z toho 4 esa.)
Řešení: Označme A jev „vytáhneme alespoň 3 esa". To znamená „vytáhneme právě 3 esa" nebo „vytáhneme právě 4 esa". Tyto případy jsou neslučitelné, proto
P(A) = P(A3) + P(A4),
kde As je jev „právě 3 esa" a A4 je jev „právě 4 esa".
Celkový počet výběrů 10 karet z 52 je (^). Dále:
31
Základy statistiky
pro A3 vybíráme 3 esa ze 4 a zbylých 7 karet z 48 ne-es, pro At vybíráme všechna 4 esa a zbylých 6 karet z 48 ne-es.
Proto
(4\ /48\ /4\ f 48
= ^7^'     p(^) = ^ (9 Co
a tedy
/4\ /48\   ,   /4\ /48
P(A)
3/ V 7 / _ V4/ V 6
52 10
□
Příklad 2.10. Při slosování sportky je z osudí vylosováno 6 čísel ze 49. Poté je ze zbývajících 43 čísel vylosováno dodatkové číslo. Při správném tipování:
• a) šesti čísel získává sázející výhru 1. pořadí,
• b) pěti čísel a dodatkového čísla (5+1) získává sázející výhru 2. pořadí,
• c) pěti čísel získává sázející výhru 3. pořadí,
• d) čtyř čísel získává sázející výhru 4. pořadí,
• e) tří čísel získává sázející výhru 5. pořadí.
Vypočítejte pravděpodobnosti, se kterými při vsazeném jednom sloupci vyhrajete v 1. tahu výhry a)-e).
Řešení: V jednom sloupci tipujeme 6 čísel. Základní počet všech možných šestic je
M = 13 983 816.
ad a)  (6 správných) Jediný příznivý případ je, že tipovaná šestice je přesně vylosovaná:
1
P(6)
ad b) (5+1) Tipujeme 5 čísel z vylosované šestice a zároveň tipujeme dodatkové číslo. To lze provést
0-0-
způsoby, proto
fe\ íi
P(5 + 1)
51 VI
49\ /49
Pravděpodobnost jevů
32
ad c) (5 správných, bez dodatkového) Tipujeme 5 čísel z vylosované šestice a šesté tipované číslo musí být z ostatních 43 čísel, která nejsou vylosována v hlavní šestici ani jako dodatkové:
„51     (3(?) **
ad d) (4 správná) Tipujeme 4 čísla z vylosované šestice a zbývající 2 tipovaná čísla volíme z oněch 43 nevylosovaných čísel:
ad e) (3 správná) Tipujeme 3 čísla z vylosované šestice a zbývající 3 tipovaná čísla volíme z 43 nevylosovaných čísel:
□
2.3    Geometrická pravděpodobnost
Definice 2.11. Geometrická pravděpodobnost je model, ve kterém jsou všechny výsledky náhodného pokusu rovnoměrně rozloženy v nějaké geometrické oblasti (např. na úsečce, v rovině nebo v prostoru). Pravděpodobnost jevu A se pak určuje jako poměr míry příznivé části k míře celé oblasti:
délka / plocha / objem příznivé části délka / plocha / objem celé oblasti
Používáme ji typicky tehdy, když výsledek pokusu závisí na spojité veličině (čas, poloha bodu, úhel apod.).
Příklad 2.12. Jaká je pravděpodobnost, že meteorit dopadne na pevninu, víme-li, že pevnina má rozlohu 149 milionů km2 a moře 361 milionů km2?
Řešení: Celková plocha (pevnina + moře) je
S = 149 + 361 = 510 milionů km2.
Pravděpodobnost dopadu na pevninu určíme jako poměr ploch:
149
P(pevnina) = -« 0,2922.
510
□
33
Základy statistiky
Příklad 2.13. Je dán kruh o poloměru 10 cm. Uvnitř je vyznačena kruhová oblast o poloměru 5 cm. Jaká je pravděpodobnost, že náhodně zvolený bod z většího kruhu padne do menšího kruhu?
Řešení: Plocha většího kruhu je
5Ut$í = 7T • 102 = 1007T cm2,
plocha menšího kruhu je
umenší = 7T • 52 = 257T Clil2.
Hledaná pravděpodobnost je poměr ploch:
p _ umenší _   257T _ Svétši 1007T
□
Příklad 2.14. Dva známí se domluví, že se sejdou na určitém místě mezi 15:00 a 16:00. Každý z nich po příchodu čeká nejvýše 20 minut. Jaká je pravděpodobnost, že se setkají?
Řešení: Označme x čas (v minutách po 15:00), kdy přijde první osoba, a y čas příchodu druhé osoby. Předpokládáme rovnoměrné a nezávislé příchody, tedy (x,y) je rovnoměrně rozložen v čtverci [0,60] x [0,60].
Setkají se právě tehdy, když
\x-y\< 20.
Celková plocha čtverce je
Sn = 60 • 60 = 3600.
Nevyhovující oblasti tvoří dva shodné pravoúhlé trojúhelníky v rozích čtverce (nad přímkou y = x + 20 a pod přímkou y = x — 20). Každý má odvěsny délky 40, tedy obsah
Stroj = \ • 40 • 40 = 800. Celková nevyhovující plocha je 2 • 800 = 1600, a proto příznivá plocha je
SA = 3600 - 1600 = 2000.
Hledaná pravděpodobnost je
netkají Se) = fl = ^ = 5 « 0,5556. dq     3600 9
□
Pravděpodobnost jevů
34
2.4    Statistická pravděpodobnost
Definice 2.15. Statistická pravděpodobnost (frekventistické pojetí) vychází z relativní četnosti výskytu jevu při opakování téhož náhodného pokusu. Označme n počet provedených pokusů a Nn(A) počet pokusů, ve kterých nastal jev A. Relativní četnost jevu A je
HA) - ^
n
Je-li možné uvažovat dlouhou řadu pokusů za stejných podmínek, pak pravděpodobnost jevu A chápeme jako limitu relativní četnosti:
P (A) = lim u A) = lim ^ľÍS..
n—í-oo n—í-oo yi
V praxi pracujeme s odhadem P (A) ~ fn(A) pro velké n.
Kdy má statistická pravděpodobnost smysl?
• pokus lze opakovat za (přibližně) stejných podmínek,
> jednotlivá opakování lze považovat za nezávislá a stejně rozdělená (i.i.d. model), pro dostatečně velké n se relativní četnosti stabilizují (zákon velkých čísel).
Statistická pravděpodobnost je vhodná tehdy, když máme k dispozici data z opakovaných pozorování a chceme na jejich základě odhadnout pravděpodobnosti jevů.
Poznámka k diskrétním a spojitým situacím
' Diskrétní situace: Jevy často odpovídají konkrétním hodnotám (např. „padne 6"). Pravděpodobnosti lze odhadovat relativními četnostmi jednotlivých hodnot.
Spojitá situace: Pro spojitou náhodnou veličinu je pro každou konkrétní hodnotu typicky P(X = x) = 0. Odhady proto děláme pro intervaly (např. P(170 < X < 175)) pomocí četností v intervalech; při jemnějším dělení intervalů pak přecházíme k pojmu hustoty pravděpodobnosti.
Příklad 2.16 (spojitý případ). Sledujme dobu, po kterou se zákazníci zdržují v obchodě. Čas pobytu byl zaznamenán a rozdělen do intervalů o délce 5 minut. Data o četnostech pro jednotlivé intervaly shrnuje tabulka:
Určete statistické pravděpodobnosti pro jednotlivé intervaly.
Řešení: Celkem bylo sledováno n = 200 zákazníků. Statistické pravděpodobnosti odhadneme
35
Základy statistiky
Tab. 1: Četnosti doby pobytu zákazníků v obchodě (intervaly 5 minut)
Interval (min)	Četnost
<0;5)	77
(5; 10)	83
(10; 15)	25
(15; 20)	15
Celkem	200
relativními četnostmi:
P«0;5))
77 2ÔÔ
0,385,
25
P«10;15))« —= 0,125
P((5; 10))
83 2ÔÔ
0,415,
15
P«15;20))« — = 0,075.
Odhady tvoří rozdělení pravděpodobnosti na zvolených intervalech (součet je 1).
□
2.5    Podmíněna pravděpodobnost a nezávislé jevy
Podmíněná pravděpodobnost
Definice 2.17. Podmíněná pravděpodobnost je pravděpodobnost jevu A za předpokladu, že nastal jev B. Označuje se P(A \ B) a je definována jako:
P{A | B) = P{p^],   pokud P(P)>0.
Tento koncept je užitečný v mnoha praktických situacích, například při odhadu pravděpodobnosti úspěchu produktu na trhu, pokud víme, že byl úspěšný v podobném segmentu.
Nezávislé jevy
Definice 2.18. Nezávislé jevy jsou takové jevy, jejichž výskyt jeden druhého neovlivňuje. To znamená, že pravděpodobnost výskytu jednoho jevu neovlivňuje pravděpodobnost výskytu druhého jevu. Pokud jsou dva jevy A a, B nezávislé, pak platí následující rovnost:
P(Af]B) =P(A)-P(B).
Pravděpodobnost jevů
36
Tato rovnost říká, že pravděpodobnost současného výskytu jevů A a B (jejich průniku) je součinem pravděpodobností jednotlivých jevů. Nezávislost je důležitý koncept, který se často vyskytuje v reálných situacích, například při opakovaných náhodných pokusech, jako je házení kostkou nebo mincí. V těchto případech výsledek jednoho hodu neovlivňuje výsledek následujících hodů, a proto jsou tyto pokusy nezávislé.
Skupinově nezávislé jevy
Definice 2.19. Jevy A, B a, C jsou skupinově nezávislé, jestliže platí následující podmínky:
' Nezávislost po dvou: Každá dvojice jevů musí být nezávislá, což znamená, že pro všechny dvojice jevů platí:
P(Af]B) =P(A)-P(B),
P(AnC) =P(A)-P(C), P(BnC) =P(B)-P(C).
• Nezávislost po třech: Pro tři jevy zároveň musí platit, že průnik všech tří jevů odpovídá součinu jejich pravděpodobností:
P (A n B n C) = P (Ä) ■ P (B) ■ P {C).
Pokud jsou splněny všechny tyto podmínky, říkáme, že jevy A, B a C jsou skupinově nezávislé. Tato vlastnost je klíčová v situacích, kde analyzujeme souběh více nezávislých jevů, a je využívána v pravděpodobnostních modelech, jako je například rozklad nezávislých náhodných veličin.
Příklad 2.20 (mini-příklad). Z balíčku 52 karet vytáhneme jednu kartu. Nechť
A = {karta je eso},       B = {karta je piková}.
Určete P (A | B).
Řešení: Platí P (A) = ^, P{B) = || a P{A fl B) =     (pikové eso je právě jedno). Proto
P(A | B)
p {A n B) _ ± _ i
P(B)        § 13'
□
Příklad 2.21. Házíme dvěma férovými mincemi. Určete pravděpodobnost jevu:
• A: padne líc a rub (v libovolném pořadí),
• B: na první minci padne líc.
37
Základy statistiky
Určete pravděpodobnost jevu A za předpokladu, že nastal jev B.
Řešení: Možné výsledky hodu dvěma mincemi (uspořádané dvojice) jsou:
1. mince
2. mince
LÍC LÍC
RUB
LÍC
RUB
LÍC
RUB
RUB
Nejprve určíme pravděpodobnosti potřebné pro podmínění. Jev B nastane ve dvou ze čtyř stejně pravděpodobných výsledků, tedy
P(B) =
Jev Af] B znamená: na první minci je líc a zároveň padne líc i rub, takže na druhé minci musí být rub. To je právě jeden výsledek ze čtyř, tedy
Příklad 2.22. Studenti při zkoušení mohou dostat tři otázky. První student je připraven pouze na 1. otázku, druhý pouze na 2. otázku, třetí pouze na 3. otázku a čtvrtý je připraven na všechny tři otázky. Náhodně vybereme jednoho studenta. Uvažujme jevy:
• A\. vybraný student dokáže zodpovědět 1. otázku,
• A2: vybraný student dokáže zodpovědět 2. otázku,
• A3: vybraný student dokáže zodpovědět 3. otázku.
Ukažte, že jevy Ai, A2, A% jsou po dvou nezávislé, ale nejsou vzájemně nezávislé.
Řešení: Označme studenty (1), (2), (3), (4) podle zadání; každý je vybrán se stejnou pravděpodobností 1/4.
Jednotlivé jevy. Jev A\ nastane, pokud byl vybrán student (1) nebo (4), tedy
Podle definice podmíněné pravděpodobnosti:
□
Pravděpodobnost jevů
38
Průniky dvojic. Jev A\ fl A2 nastane právě tehdy, když byl vybrán student (4) (jen ten umí obě otázky), tedy
P(A1nA2) = 1-.
Stejně platí
P(A1 n A3) = P{A2 n A3) = i. Proto pro každou dvojici i ^ j dostáváme
P{AlnA]) = \=l-.l-=P{Al)P{A]), a jevy jsou po dvou nezávislé.
Průnik trojice. Jev A\ f\A2 C\A3 opět nastane pouze tehdy, když byl vybrán student (4), tedy
P(A1nA2nA3) = i.
Kdyby byly jevy vzájemně nezávislé, muselo by platit
P(A, nA2n A3) = P(^)P(A2)P(A3) = l--l-.l-=1-.
Protože jevy Ai,A2,A3 nejsou vzájemně nezávislé. □
2.6    Úplná pravděpodobnost a Bayesova věta
Úplná pravděpodobnost
Definice 2.23. Nechť Bi,..., Bn tvoří rozklad prostoru íl, tj.
n
BíDBj =0 {i Ý j),       \jBí = tt,       a      P(Bí) > 0 pro všechna i. Potom pro libovolný jev A platí zákon úplné pravděpodobnosti
n n
P(A) = J2P(An Bi) = E P(Bi) P(A | Bi).
í=i í=i
Poznámka 2.24. Smysl vzorce: jev A může nastat v různých „scénářích" B1}... ,Bn. Celková pravděpodobnost P (A) je vážený průměr podmíněných pravděpodobností P{A \ B i) s vahami
Příklad 2.25. V obchodě jsou tři pokladny. Na pokladně 1 dojde k chybě v účtování s pravděpodobností 0,1, na pokladně 2 s pravděpodobností 0,05 a na pokladně 3 s pravděpodobností 0,2. Pravděpodobnosti, že zákazník bude odbaven pokladnami 1, 2 a 3, jsou postupně 0,3, 0,25 a 0,45. Jaká je pravděpodobnost, že zákazník opouštějící obchod má chybný účet?
39
Základy statistiky
Řešení: Označme A jev „došlo k chybě v účtování" a Hi jev „zákazník byl odbaven na i-té pokladně", i = 1,2,3. Jevy H1}H2,H3 tvoří rozklad prostoru (zákazník projde právě jednou pokladnou), proto použijeme zákon úplné pravděpodobnosti:
P{A) = J2P{Ht)P{A\Ht).
i=i
Dosadíme:
P (A) = 0,3 • 0,1 + 0,25 • 0,05 + 0,45 • 0,2. P(A) = 0,03 + 0,0125 + 0,09 = 0,1325. Pravděpodobnost chybného účtu je tedy 0,1325 (tj. přibližně 13,25%). □
Bayesova věta
Definice 2.26. Nechť B±,..., Bn tvoří rozklad prostoru Q (tj. Bi fl B j = 0 pro i ^ j, \Ji=i Bi = Q a P{Bi) > 0). Potom pro libovolný jev A s P (A) > 0 platí Bayesova věta:
P(Bt | A)
P (A	Bi) P(Bi)	
Y.n3=1P(A		
Jmenovatel je celková pravděpodobnost jevu A, tj. podle zákona úplné pravděpodobnosti
P(A) = J2P(A\BJ)P(Bj).
Poznámka 2.27. Bayesova věta „obrací podmínku": z pravděpodobnosti důsledku při dané příčině P{A | B i) a z apriorní pravděpodobnosti příčiny P{Bi) určíme aposteriorní pravděpodobnost příčiny po pozorování důsledku P(Bi \ A).
Příklad 2.28 (Bayesova věta). V obchodě jsou tři pokladny. Pravděpodobnost chyby v účtování je na pokladnách 1, 2, 3 postupně 0,1, 0,05 a 0,2. Pravděpodobnosti odbavení zákazníků pokladnami 1, 2, 3 jsou 0,3, 0,25 a 0,45. Pokud dojde k chybě v účtování, jaká je pravděpodobnost, že k ní došlo na třetí pokladně?
Řešení: Označme A jev „došlo k chybě" a Hi jev „zákazník byl odbaven na i-té pokladně", i = 1,2,3. Hledáme P(H3 | A).
Nejprve určíme P (A) zákonem úplné pravděpodobnosti:
P(A) = 0,3 • 0,1 + 0,25 • 0,05 + 0,45 • 0,2 = 0,1325. Pak použijeme Bayesovu větu:
P(H, | A) = PiA ' H?lPW = = « 0,6792.
v  3 1   ; P (A) 0,1325 0,1325
Pravděpodobnost, že chyba vznikla na třetí pokladně, je přibližně 67,92 %. □
Pravděpodobnost jevů
40
Příklad 2.29 (Pozitivní lékařský test). Prevalence výskytu AIDS v populaci je 0,6%. Test má senzitivitu 99,9 % (tj. je pozitivní s pravděpodobností 0,999, je-li osoba nakažená) a specificitu 99% (tj. je negativní s pravděpodobností 0,99, je-li osoba zdravá). Jaká je pravděpodobnost, že osoba s pozitivním testem má skutečně AIDS?
Řešení: Označme:
A: osoba má AIDS, tedy P (A) = 0,006, • Ä: osoba nemá AIDS, tedy P(A) = 0,994, T+: test je pozitivní.
Ze zadání:
P(T+ | A) = 0,999,      P(T+ | ~Á) = 1 - 0,99 = 0,01. Použijeme Bayesovu větu:
P (A | T+)
Dosadíme:
P(T+		A) P{A)	
P(T+	A) P{A)	+ P(T+	A) P{A)
* , °>999 • 0>006 0,005994
P(A  T+ =-----= --« 0,376.
v   1     ;    0,999-0,006 + 0,01-0,994 0,015934
Pravděpodobnost, že osoba s pozitivním testem má skutečně AIDS, je přibližně 37,6 %. □
Pozor (typická chyba / base-rate fallacy): Vysoká senzitivita a specificita ještě neznamenají, že P{A | T+) bude blízko 1. Výsledek výrazně závisí na prevalenci P (A): je-li nemoc vzácná, mohou falešně pozitivní výsledky tvořit velkou část všech pozitivních testů.
Interpretace (test na vzácné onemocnění): Uvažujme 10 000 náhodně vybraných osob. Při prevalenci 0,6% očekáváme asi 0,006 • 10 000 = 60 nakažených a 9 940 zdravých. Z nakažených bude test pozitivní přibližně u 0,999 • 60 ~ 60 osob, zatímco ze zdravých bude falešně pozitivních asi 0,01 -9 940 ~ 99 osob. Celkem tedy bude pozitivních zhruba 60 + 99 = 159 osob, z nichž nakažených je asi 60, takže
60
P(A | T+) « — « 0,38, což odpovídá vypočtené hodnotě 0,376.
41
Základy statistiky
2.7    Opakované pokusy
Definice 2.30. Opakované pokusy jsou situace, kdy tentýž náhodný pokus provádíme vícekrát za stejných podmínek. Zajímá nás zejména rozdělení počtu výskytů určitého jevu v n opakováních.
2.7.1     Nezávislé pokusy
Definice 2.31. Nezávislé opakované pokusy jsou takové, v nichž výsledek jednoho pokusu neovlivňuje výsledky dalších pokusů. V každém pokusu má sledovaný jev (např. „úspěch") stejnou pravděpodobnost.
Poznámka 2.32. Typickým příkladem je opakovaný hod férovou mincí nebo kostkou. V praxi se s nezávislými pokusy setkáme např. při testování shodně vyrobených kusů (každý testovaný kus je jiný exemplář) nebo při opakovaném náhodném výběru.
Definice 2.33 (Bernoulliho schéma (binomické rozdělení)). Mějme n nezávislých pokusů, v nichž může nastat jev A („úspěch") s pravděpodobností p; označme q = 1 — p. Nechť X je počet úspěchů v n pokusech. Potom X má binomické rozdělení a pro k = 0,1,... ,n platí
P{X = k) = (n\pkqn-k.
Nejpravděpodobnější počet úspěchů (modus). Nejpravděpodobnější hodnota k splňuje
(n + l)p — 1 < k < {n + l)p.
Je-li (n + l)p celé číslo, existují dvě nejpravděpodobnější hodnoty: k = (n + l)p — 1 a k = (n + l)p; jinak je modus jednoznačný a platí k = [(n + l)p\.
Příklad 2.34. Házíme šestkrát férovou hrací kostkou. Vypočtěte pravděpodobnost, že šestka padne právě dvakrát.
Řešení: Jde o Bernoulliho schéma s parametry n = 6, p = | („úspěch" = „padne šestka") a Numericky:
P(* = 2) = 15 ■ i ■= « 0,2009.
v        ; 36   1296 46656
Pravděpodobnost, že šestka padne právě dvakrát, je tedy přibližně 0,2009. □
Pravděpodobnost jevů
42
Příklad 2.35. Sportovní střelec zasáhne cíl při každém výstřelu s pravděpodobností p = 0,8. Vypočtěte pravděpodobnost, že při 5 výstřelech budou v cíli:
1. právě 2 zásahy,
2. nejvýše jeden zásah,
3. alespoň 2 zásahy.
Řešení: Počet zásahů označme X. Při nezávislých výstřelech platí X ~ Bi(« = 5,p = 0,8), tedy
P(X = k)= Q(0,8)fc(0,2)5"fc.
1. Pravděpodobnost právě 2 zásahů:
P(X = 2) = Q (0,8)2(0,2)3 = 10 • 0,64 • 0,008 = 0,0512.
2. Pravděpodobnost nejvýše jednoho zásahu:
P(X < 1) = P(X = 0) + P(X = 1),
P(X = 0) = Q (0,8)°(0,2)5 = (0,2)5 = 0,00032,
P(X = 1) = Q (O^)1^)4 = 5 • 0,8 • 0,0016 = 0,0064, P{X < 1) = 0,00032 + 0,0064 = 0,00672.
3. Pravděpodobnost alespoň dvou zásahů:
P(X > 2) = 1 - P(X < 1) = 1 - 0,00672 = 0,99328.
□
Příklad 2.36. Pravděpodobnost, že náhodně vybraný student bude znát učivo, je p = 0,05. Jaká je pravděpodobnost, že mezi dvaceti vybranými studenty bude:
a) právě 5 znalých studentů,
• b) nejvýše 2 znalí studenti,
• c) alespoň jeden znalý student?
Řešení: Označme X počet znalých studentů mezi n = 20 náhodně vybranými. Předpokládáme nezávislost a stejnou pravděpodobnost znalosti, tedy X ~ Bi(20,0,05) a
P(X = k)= r°j(0,05)fc(0,95)20^.
43
Základy statistiky
a) Pravděpodobnost, že budou právě 5 znalí:
P(X = 5)= ^(0,05)5(0,95)15
= 15504 • 0,0000003125 • 0,463291 « 0,002245.
b) Pravděpodobnost, že budou nejvýše 2 znalí:
P(X < 2) = P(X = 0) + P(X = 1) + P(X = 2), P(X = 0) = (0,95)20 « 0,358486,
P(X = 1) = ^ (0,05)(0,95)19 = 1 • (0,95)19 « 0,377354,
P(X = 2) = ^ (0,05)2(0,95)18 = 190 • 0,0025 • (0,95)18 « 0,188677, P(X < 2) « 0,358486 + 0,377354 + 0,188677 = 0,924516.
c) Pravděpodobnost, že bude alespoň jeden znalý:
P(X > 1) = 1 - P(X = 0) = 1 - (0,95)20 « 1 - 0,358486 = 0,641514.
□
2.7.2     Závislé pokusy
Definice 2.37. Závislé opakované pokusy jsou takové, v nichž výsledek jednoho pokusu mění pravděpodobnosti v pokusech následujících. Typicky se to děje tehdy, když po provedení pokusu dojde ke změně podmínek (např. změna složení urny po výběru bez vracení).
Poznámka 2.38. Nejčastějším modelem závislých opakovaných pokusů v základním kurzu je výběr bez vracení. Počet „úspěchů" ve výběru pak má hypergeometrické rozdělení.
Definice 2.39 (Výběr bez vracení (hypergeometrické rozdělení)). Mějme soubor N prvků, z nichž M má sledovanou vlastnost („úspěch") a N — M ji nemá („neúspěch"). Náhodně vybereme bez vracení n prvků. Označme X počet vybraných prvků se sledovanou vlastností. Potom pro k = 0,1,..., n (přesněji pro ta k, pro něž má výraz smysl) platí
P(X = k)
M\ ÍN-M k ) \ n—k
N'
Příklad 2.40. V osudí jsou 2 bílé a 3 černé koule. Určete pravděpodobnost toho, že:
Pravděpodobnost jevů
44
• a) vytáhneme naráz 3 koule a budou 2 černé a 1 bílá,
• b) vytáhneme po jedné bez vracení 2 černé a 1 bílou (v libovolném pořadí).
Řešení: V obou případech jde o tentýž výběr bez vracení, jen jinak popsaný.
ad a) Naráz vybíráme n = 3 koule z N = 5, přičemž „úspěch" definujeme jako „černá koule". Tedy M = 3 a chceme k = 2:
P(X = 2) = = — = 0,6.
10
ad b) Při postupném výběru bez vracení a požadavku „2 černé a 1 bílá v libovolném pořadí" dostaneme stejnou pravděpodobnost jako v bodě a). Např. pro konkrétní pořadí CBC platí
P(ČBČ) = - • - • - = -. v      ;    5   4   3 5
Stejnou pravděpodobnost mají i pořadí CCB a BCC, takže
1
P(2 černé a 1 bílá) = 3 • - = 0,6.
5
□
Příklad 2.41. Mezi 15 výrobky je 5 zmetků. Vybereme 3 výrobky. Jaká je pravděpodobnost, že právě jeden z nich je vadný, jestliže:
• a) vybereme všechny 3 najednou,
• b) vybíráme po jednom bez vracení?
Řešení: Opět jde v obou případech o tentýž výběr bez vracení. Označme X počet vadných kusů ve výběru. Máme N = 15, M = 5 (vadné), n = 3 a chceme k = 1:
a) (2°)     5-45    225 45
P(X = 1) = v =-=-= — « 0,4945.
v        ;       /15^        455      455 91
ad a) Výsledek je přímo uveden výše.
ad b) Při postupném výběru bez vracení lze stejně dojít součtem přes pořadí (V = vadný, D = dobrý):
P(VDD) = 1 ■ 12 . 1,   P(DVD) = — . -5---—    P(DDV) = 1» . JL . 1,
v       7    15   14   13       v       7    15   14   13       v       7    15   14 13
a tedy P(X = 1) = P(VDD) + P(DVD) + P(DDV), což dá stejný výsledek §. □
45
Základy statistiky
2.8    Souhrnné příklady
Příklad 2.42. Mějme pět vstupenek po 100 Kč, tři vstupenky po 300 Kč a dvě vstupenky po 500 Kč. Náhodně vybereme tři vstupenky (bez vracení). Určete pravděpodobnost toho, že:
• a) alespoň dvě z těchto vstupenek mají stejnou hodnotu,
• b) všechny tři vstupenky stojí dohromady 700 Kč.
Řešení: Celkem je N = 10 vstupenek a vybíráme n = 3, takže počet všech stejně pravděpodobných výběrů je
ad a) Řešíme přes opačný jev. Opačný jev k „alespoň dvě mají stejnou hodnotu" je „všechny tři mají různé hodnoty", tj. jedna za 100 Kč, jedna za 300 Kč a jedna za 500 Kč. Počet takových výběrů je (i) (')(;), tedy
; ? í
P(všechny různé
Proto
'!)©(?)    -     30 3
10
3
ad b) Součet 700 Kč může nastat jen ve dvou typech výběrů:
5\ Í3\
2h
P(alespoň dvě stejné) = 1 — P(všechny různé) = 1 —     /in\     = 1 — y^ = y = 0,75.
(100, 300, 300): (° (100, 100, 500):
Tedy
r5\ /3\   ,   Í5\ (2
i 15 +20 7
P(celkem 700 Kč) = ^ ^ 1Q ^ W = = - « 0,2917.
□
Příklad 2.43. Z celkové produkce závodu jsou 4% zmetků a z dobrých výrobků je 75 % standardních. Určete pravděpodobnost, že náhodně vybraný výrobek je standardní.
Řešení: Označme:
A = {výrobek je dobrý (není zmetek)},       B = {výrobek je standardní}.
Zadání říká, že P (A) = 0,96 a P{B \ A) = 0,75. Standardní výrobek musí být dobrý, tedy B C A a, platí
P(B) = P (A n B) = P (A) P (B I A) = 0,96 • 0,75 = 0,72.
□
Pravděpodobnost jevů
46
Příklad 2.44. Z výrobků určitého druhu dosahuje 95 % předepsanou kvalitu. V určitém závodě, který vyrábí 80 % celkové produkce, má předepsanou kvalitu 98 % výrobků. Mějme náhodně vybraný výrobek předepsané kvality. Jaká je pravděpodobnost, že byl vyroben ve výše uvedeném závodě?
Řešení: Označme:
A = {výrobek je ze zmíněného závodu},       B = {výrobek je předepsané kvality}.
Hledáme P (A | B). Známe
P {A) = 0,8,   P(Á) = 0,2,   P(B | A) = 0,98.
Dále je dáno, že celkově platí P{B) = 0,95. (To je klíčový údaj; bez něj nelze P (A | B) určit.) Použijeme Bayesovu větu:
P (A  B) = —i—'   \ v  ; =--- =--« 0,8253.
V   1   ; P(B) 0,95 0,95
□
O
V této kapitole jsme zavedli základní pojmy teorie pravděpodobnosti a ukázali jsme jejich použití na typových úlohách. Pracovali jsme s modely, ve kterých pravděpodobnost vyjadřuje míru nejistoty výsledku náhodného pokusu, a naučili jsme se rozlišovat situace s konečným i spojitým prostorem výsledků.
' Náhodný pokus - opakovatelný proces, jehož výsledek nelze předem jistě určit (např. hod kostkou, losování). Množinu všech možných výsledků nazýváme prostor elementárních jevů íl.
• Náhodný jev - podmnožina íž; jev A nastane právě tehdy, když výsledek pokusu patří do A. Rozlišili jsme jev jistý, nemožný, elementární a složený a uvedli základní vztahy mezi jevy (doplněk, průnik, sjednocení, neslučitelnost).
' Klasická pravděpodobnost - v konečném prostoru Q se stejně pravděpodobnými elementárními jevy platí
počet příznivých výsledků počet všech výsledků
Typicky např. při hodu férovou kostkou je P({padne 6}) = |.
Geometrická pravděpodobnost - v „kontinuálním" modelu určíme pravděpodobnost jako poměr délek/obsahů/objemů, např.
velikost příznivé oblasti velikost celé oblasti
Statistická (frekvenční) pravděpodobnost pravděpodobnost jevu interpretujeme jako limitu relativní četnosti v dlouhé řadě opakování pokusu; v praxi ji odhadujeme z dat.
47
Základy statistiky
' Podmíněná pravděpodobnost - pravděpodobnost jevu A za podmínky že nastal jev B,
PIA I B) = P(B) > 0.
• Nezávislost jevů - jevy A a, B jsou nezávislé, jestliže
P(Af]B) = P(A)P(B),
a upozornili jsme na rozdíl mezi nezávislostí po dvou a vzájemnou (skupinovou) nezávislostí.
Zákon úplné pravděpodobnosti a Bayesova věta použili jsme rozklad prostoru na disjunktní případy a vypočítali pravděpodobnosti „zpětně" (pravděpodobnost příčiny při známém důsledku).
Opakované pokusy - pro nezávislé opakované dichotomické pokusy jsme uvedli Bernoulliho schéma (binomický vzorec) a pro výběr bez vracení hypergeomet-rické rozdělení.
Získané pojmy a vzorce tvoří základ pro následující kapitoly: umožňují jednak správně modelovat náhodné situace, jednak přesně interpretovat výsledné pravděpodobnosti v kontextu daného problému.
1. Máme 230 výrobků, mezi nimiž je 20 nekvalitních. Vybereme 15 výrobků bez vracení. Jaká je pravděpodobnost, že mezi 15 vybranými bude právě 10 dobrých (a tedy 5 nekvalitních)? [0,00448]
2. Pacienta lze kontrolovat v čase od 7 do 20 hodin. Vycházky má od 13 do 15 hodin. Jaká je pravděpodobnost, že při náhodně zvolené kontrole v intervalu (7; 20) bude pacient doma k zastižení? [11/13]
3. Dva sportovní střelci střílejí nezávisle na sebe do jednoho terče (každý jednou). Pravděpodobnost zásahu prvního střelce je 0,8, druhého 0,4. Při střelbě byl v terči právě jeden zásah. Jaká je pravděpodobnost, že terč zasáhl první střelec? [0,857]
4. Pravděpodobnost výhry hráče v jedné partii je 0,6. Určete nejpravděpodobnější počet výher hráče v deseti odehraných partiích. [6]
5. Série 100 výrobků je kontrolována náhodným výběrem 5 kusů bez vracení. Série je považována za „špatnou", je-li alespoň jeden z pěti vybraných výrobků vadný. Vypočtěte pravděpodobnost, že série bude vyhodnocena jako špatná, víme-li, že obsahuje 5% vadných výrobků. [0,230]
6. V telefonním seznamu náhodně vybereme jedno šestimístné číslo (může začínat nulou) a předpokládáme, že v seznamu jsou použita všechna šestimístná čísla. Jaká je pravděpodobnost, že číslo:
a. neobsahuje číslici 0? [0,53144]
b. obsahuje alespoň jednu číslici 3? [0,46856]
c. obsahuje právě jednu číslici 3? [0,35429]
Pravděpodobnost jevů
48
Literatura k tématu:
[1] OTIPKA, P., SMAJSTRLA, V. Pravděpodobnost a statistika [online]. 1. vydání. Ostrava: VŠB-TU Ostrava, 2007 [cit. 2024-09-09]. ISBN 80-248-1194-4. Dostupné z: https://homel.vsb.cz/~oti73/cdpastl/
[2] CALDA, E., DUPAC, V. (2008). Matematika pro gymnázia: Kombinatorika, pravděpodobnost, statistika (5. vydání, dotisk 2011). Praha: Prométheus. ISBN 978-80-7196-365-3.
[3] ZVÁRA, K. a ŠTĚPÁN, J. Pravděpodobnost a matematická statistika. Matfyzpress, 2019. ISBN 978-80-7378-388-4.
Kapitola 3
Náhodná veličina
Po prostudování této kapitoly budete umět:
• rozlišovat mezi diskrétními a spojitými náhodnými veličinami,
' chápat rozdíl mezi pravděpodobnostní funkcí (pro diskrétní veličiny) a hustotou pravděpodobnosti (pro spojité veličiny),
vypočítat střední hodnotu, rozptyl a směrodatnou odchylku pro různá rozdělení náhodných veličin,
' chápat význam distribuční funkce a umět ji interpretovat pro různé typy náhodných veličin,
' sestavit pravděpodobnostní funkci, hustotu pravděpodobnosti a distribuční funkci a graficky je znázornit.
Klíčová slova:
Diskrétní rozdělení, spojité rozdělení, pravděpodobnostní funkce, distribuční funkce, hustota pravděpodobnosti, střední hodnota, rozptyl, šikmost a špičatost.
Náhodná veličina
50
Náhled kapitoly
V této kapitole navážeme na pojem náhodného jevu z předchozí části a zavedeme si klíčový pojem teorie pravděpodobnosti - náhodnou veličinu. Ta nám umožňuje převést abstraktní výsledky náhodných pokusů do světa čísel. Dále se podíváme, jak je možné pomocí rozdělení pravděpodobnosti určit, s jakou šancí budou tyto číselné hodnoty nastávat.
Kapitola se zaměřuje na rozlišení diskrétních a spojitých náhodných veličin a na způsoby výpočtu jejich základních charakteristik: střední hodnoty, rozptylu a směrodatné odchylky.
Cíle kapitoly
Cílem této kapitoly je prohloubení základů teorie pravděpodobnosti a upevnění poznatků o náhodných veličinách a jejich rozděleních, které budou nezbytným předpokladem pro metody induktivní statistiky v následujících kapitolách.
Časová náročnost
Doporučený čas na zvládnutí kapitoly je přibližně 4 až 5 hodin. Tento čas zahrnuje čtení textu, pochopení základních pojmů a principů, řešení ukázkových příkladů a samostatné procvičení výpočtů základních charakteristik.
Náhodný jev a náhodná veličina
Definice 3.1. Náhodný jev je událost, která může, ale nemusí nastat v rámci nějakého pokusu nebo procesu. Můžeme si ho představit jako výsledek experimentu, který závisí na náhodě. Pravděpodobnost je míra, která kvantifikuje možnost, že k danému náhodnému jevu dojde, a pohybuje se v rozmezí od 0 (jev nemožný) do 1 (jev jistý). Například pravděpodobnost, že při hodu kostkou padne číslo 6, je |, protože existuje 6 možných výsledků a každý má stejnou šanci nastat.
Definice 3.2. Náhodná veličina je proměnná, která může nabývat různých (reálných) hodnot v závislosti na výsledku náhodného pokusu. Například při hodu kostkou může náhodná veličina X představující výsledek hodu nabývat hodnot 1,2,3,4,5 nebo 6. Každý z těchto výsledků je výsledek náhodného procesu.
Náhodné veličiny slouží především k tomu, abychom abstraktním výsledkům náhodných pokusů (např. „padne líc") přiřadili konkrétní číselné hodnoty, se kterými lze dále matematicky a statisticky pracovat.
51
Základy statistiky
Příklady náhodných veličin mohou být:
• Počet líců při deseti hodech mincí.
' Počet zákazníků, kteří navštíví obchod v určitém dni.
Výška náhodně vybraného člověka z populace. ' Doba, za kterou přijede autobus na zastávku.
Výsledek hodu dvěma kostkami (součet bodů). ' Počet vadných kusů ve výrobní sérii 100 produktů.
Tyto příklady ukazují různé typy náhodných veličin - některé jsou diskrétní (počet líců, počet zákazníků), jiné spojité (výška člověka, čas čekání).
Rozdělení pravděpodobnosti
Rozdělení pravděpodobnosti popisuje, jak jsou pravděpodobnosti jednotlivých možných výsledků náhodné veličiny rozloženy. Například u hodu (férovou) kostkou mají všechny výsledky (hodnoty 1 až 6) stejnou pravděpodobnost, tedy |. V praxi však ne vždy všechny výsledky mají stejnou pravděpodobnost. Rozdělení pravděpodobnosti tedy udává, s jakou pravděpodobností různé hodnoty náhodné veličiny nastanou.
Rozdělení pravděpodobnosti nám tedy poskytuje obraz o tom, jak často můžeme očekávat jednotlivé výsledky náhodného pokusu.
V závislosti na typu náhodné veličiny rozlišujeme dvě hlavní kategorie: diskrétní a spojité náhodné veličiny.
3.1    Rozdělení pravděpodobnosti diskrétní náhodné veličiny
Diskrétní náhodná veličina nabývá pouze konečného nebo spočetně nekonečného množství možných hodnot. Příkladem diskrétní náhodné veličiny je počet vadných výrobků v sérii nebo počet zákazníků přicházejících do obchodu za jeden den. Diskrétní náhodná veličina je jednoznačně určena posloupností reálných čísel {xn} a posloupností pravděpodobností {pn = P(X = xn)}.
Příklad 3.3. Diskrétní náhodná veličina X nabývá hodnot M = {1,2,4,5}    s pravděpodobnostmi    p (k) = P (X = k), kde
1111
= g, P(2) = ^ M4) = jj, P(5) = 4 a P(x) = 0 Jinak-
Náhodná veličina
52
Zapisujeme také pomocí tabulky či obrázku:
k	1	2	4	5
P (X = k)	i 3	i 4	i 6	i 4
1/3 ■ 1M ■ 116 ■
Definice 3.4. Diskrétní náhodné veličiny mají svou pravděpodobnostní funkci, která přiřazuje každé hodnotě náhodné veličiny určitou pravděpodobnost P{X = x,j) = pi} pro M, kde Xi je možná hodnota diskrétní náhodné veličiny X, a Pí je pravděpodobnost, že X nabude hodnoty x,i.
Vlastnosti pravděpodobnostní funkce:
p(x) > 0   Wx G IR,
xeM
Výpočet pravděpodobnosti (jevu B):
P{X eB)=Y,P(x = Xi) = P&i)
(součet pravděpodobností všech výsledků, které patří do množiny B; protože nenulové pravděpodobnosti jsou pouze pro hodnoty z množiny M, sčítáme reálně jen na průniku B DM.)
Definice 3.5 (Distribuční funkce). Distribuční funkce náhodné veličiny X je reálná funkce F : IR —y (0; 1) definovaná vztahem
F(x) = P(X <x),   x e R.
Příklad 3.6 (distribuční funkce diskrétní náhodné veličiny). Diskrétní náhodná veličina X nabývá hodnot M = {1,2,4,5} s pravděpodobnostmi p (k) = P{X = k), kde p(l) = |, p(2) = \, p(4) = \, p(5) = \ a p(x) = 0 jinak.
Určete příslušnou distribuční funkci.
53
Základy statistiky
Řešení: Vycházíme z toho, že distribuční funkce je „zajímavá" jen v bodech, kde je pravděpodobnostní funkce kladná. V těchto bodech dochází u distribuční funkce ke skokovému růstu právě o hodnotu pravděpodobnostní funkce v tomto bodě. Mezi těmito body je konstantní. Praktické je tedy vypočítat hodnoty F v těchto bodech a připsat je do již známé tabulky pro pravděpodobnostní funkci:
k	1	2	4	5
P(X = k)	i 3	i 4	1 6	1 4
F(k) = J2k^kP(X = kt)	1 3	I + I = X 3^4 12	7,1 _ 3 12   '   6 4	3+1 = 1 4^4 x
Dále F můžeme zapsat na jednotlivých intervalech, které nám pokryjí celé
X	(-oo; 1)	<i;2)	(2; 4)	(4; 5)	(5;oo)
F(x)	0	i 3	7 12	3 4	1
A nakonec i takto:
F(x)
i
3
3
4
X < 1,
1 < x < 2,
2 < x < 4, 4 < x < 5, x > 5.
Nej názornější stejně budou grafy na obrázku 1.
1/3 — 1/4 — 1/6 —
Obr. 1: Pravděpodobnostní a distribuční funkce k příkladu 3.6
□
Z příkladu 3.6 sice můžeme odpozorovat některé vlastnosti distribuční funkce, ale raději si je zde vypíšeme:
Náhodná veličina
54
Vlastnosti distribuční funkce:
. F(x) E <0;1>,
• F je neklesající,
• F je zprava spojitá,
• F je definovaná na IR,
• lim F (x) = 0,     lim F (x) = 1,
x^—oo x^oo
• P(X = x q) = F (x q) — lim F (x)   (výška skoku v bodě xq).
Příklad 3.7. V osudí je 5 bílých a 7 červených míčků. Náhodná veličina X představuje počet bílých míčků mezi pěti vybranými. Vytvořte pravděpodobnostní a distribuční funkci této náhodné veličiny.
Řešení: Náhodná veličina X nabývá hodnot {0,1,2,3,4,5}. Z teorie pravděpodobnosti víme, že se jedná o výběr bez vracení (závislé pokusy). Můžeme tedy sestavit pravděpodobnostní funkci pro jednotlivé hodnoty X pomocí vzorce pro hypergeometrické rozdělení:
P(X = x) =
Na základě této funkce vytvoříme tabulku pravděpodobností:
	0	1	2	3	4	5
Pí	21 792	175 792	350 792	210 792	35 792	1 792
Pravděpodobnostní funkci lze graficky znázornit pomocí bodového nebo úsečkového (hůlkového) diagramu.
Distribuční funkce F(x) bude mít skoky v bodech 0,1, 2,3,4, 5. Hodnoty funkce F(x) v těchto bodech jsou určeny jako součet všech předcházejících pravděpodobností pf.
F(xí) = P(X < Xi). Tabulka pro hodnoty distribuční funkce ve skocích:
	0	1	2	3	4	5
F(xí)	21 792	196 792	546 792	756 792	791 792	1
55
Základy statistiky
Graf distribuční funkce u diskrétní náhodné veličiny tvoří schodovitý diagram (funkce je po částech konstantní a v bodech x i má skoky). □
3.2    Rozdělení pravděpodobnosti spojité náhodné veličiny
Spojitá náhodná veličina nabývá hodnot z nějakého intervalu reálných čísel. Příkladem může být výška náhodně vybraného člověka nebo doba, kterou zákazník stráví v obchodě. Spojité náhodné veličiny nemají konkrétní pravděpodobnosti pro jednotlivé hodnoty (pravděpodobnostní funkci), ale místo toho pracují s tzv. hustotou pravděpodobnosti, která určuje pravděpodobnost, že náhodná veličina nabyde hodnoty z určitého intervalu.
Definice 3.8. Náhodná veličina X s distribuční funkcí F se nazývá spojitá, jestliže existuje nezáporná funkce /: IR —> IR taková, že
F(x) = ľ f(t) dt,   \/x e R.
J — oo
Funkce f (x) se nazývá hustota (rozdělení pravděpodobností) náhodné veličiny X.
Vlastnosti hustoty:
f(x) > 0,
/oo f(t)dt =1    =>-  plocha pod křivkou hustoty vyjadřuje celkovou pravděpodob--oo
' —oo
nost
f(x) = F'{x) v každém bodě x, kde F' existuje, P{a<X<b) = F(b) - F {a) = / f (i) dt,
J a
P (a < X <b) = P{a < X <b) = P{a < X < b) = P (a < X < b),
P(XeB)= í f(t)dt.
Jb
Výpočet pravděpodobností pomocí F(x) a f(x) na nekonečném intervalu:
P(V<0) = F(0)= f° f(t)dt.
Toto je znázorněno na obrázku 2.
Náhodná veličina
56
Obr. 2: Výpočet pravděpodobností na nekonečném intervalu
Výpočet pravděpodobností pomocí F (x) a f (x) na konečném intervalu:
P(-2 < X < 0) = P(0) - F (-2) = y° f (t) dt. Toto je znázorněno na obrázku 3.
Obr. 3: Výpočet pravděpodobností na konečném intervalu
Příklad 3.9. Náhodná veličina X je dána distribuční funkcí:
Í0, x<0, F (x) = j t> 0<x<2, [l, x>2.
Určete hustotu pravděpodobnosti f (x), znázorněte graficky F (x) a f (x), a vypočtěte P(0,4 < X < 1,6).
57
Základy statistiky
Řešení: Hustotu pravděpodobnosti f(x) získáme derivací distribuční funkce F(x):
'0, x < 0,
,0, x>2.
Graf distribuční funkce F(x) a hustoty pravděpodobnosti f(x) by vypadal následovně:
> Distribuční funkce F(x): Kvadratický nárůst od 0 do 1 v intervalu 0 < x < 2.
' Hustota pravděpodobnosti f(x): Lineární funkce rostoucí od 0 do 1 v intervalu 0 < x < 2.
Pravděpodobnost P(0,4 < X < 1,6) vypočítáme jako:
,    \       ,    \     1,62    0,42     2,56    0,16 2,4 P(0,4 < X < 1,6) = F(l,6) - F(0,4) =-L---\- = _L---T = ^ = 0,6.
□
Příklad 3.10. Hustota pravděpodobnosti náhodné veličiny X má tvar:
I a ■ x,   0 < x < 2, /(£) = <
1 0, jinak.
Určete koeficient a, distribuční funkci F(x) a vypočtěte P(0 < X < 1).
Řešení: Nejdříve určíme koeficient a. Platí, že integrál hustoty pravděpodobnosti přes celý definiční obor musí být roven 1:
2
a ■ x dx = 1.
o
ŕ n	x2	2	4
/  i di = a ■		= a	- = 2a
/o	y	0	2
Po integraci dostáváme:
Z toho plyne, že 2a = 1, tedy a = |.
Distribuční funkci F(x) získáme integrací hustoty pravděpodobnosti:
'0, x < 0,
^) = Uoae5-ídí = é-T = T. 0<x<2, 1, x>2.
Nyní vypočítáme pravděpodobnost P(0 < X < 1):
l2 1
P(0 < X < 1) = P(l) - P(0) = — - 0 = - = 0,25.
□
Příklad 3.11. Určete konstanty A a, B tak, aby funkce F(x) = A + B ■ arctan(rr) definovaná pro všechna reálná čísla byla distribuční funkcí rozložení náhodné veličiny.
Náhodná veličina
58
Řešení: Aby funkce F(x) byla distribuční funkcí, musí splňovat následující podmínky:
1. lim^-oo F(x) = 0,
2. lim^oo F(x) = 1.
Z první podmínky plyne:
lim (A + B ■ arctan(rr)) = A + B ■ (--) = 0.
Z toho vyplývá, že A =
Z druhé podmínky plyne:
lim (A + B ■ arctan(rr)) = A + B ■ - = 1.
x^oo 2
Dosazením A = -^r dostáváme:
-+ B-- = 1    =>    Bn = l 5 = -.
2 2 7T
Tedy A=\.
Distribuční funkce má tedy tvar:
1 1
= —|— • arctan(rr).
2 7T
□
3.3    Číselné charakteristiky náhodné veličiny
Pravděpodobnostní funkce nebo hustota nám dávají kompletní a detailní obraz o chování náhodné veličiny. V praxi ale často potřebujeme tento složitý obraz shrnout do několika málo srozumitelných čísel, abychom mohli různá data rychle porovnávat. Zajímá nás především:
Kde je „střed"? (Jaký výsledek můžeme v průměru očekávat?)
Jak velký je „rozptyl"? (Jak moc hodnoty kolísají kolem tohoto středu?)
Jaký je „tvar"? (Je rozdělení symetrické, nebo je vychýlené na jednu stranu?)
59
Základy statistiky
Střední hodnota
Střední hodnota není nic jiného než teoretický průměr. Udává hodnotu, kolem které by se ustálil průměr výsledků, kdybychom náhodný pokus opakovali mnohokrát (ideálně nekonečně-krát).
U diskrétní veličiny ji spočítáme jako klasický vážený průměr, kde vahami jsou pravděpodobnosti jednotlivých výsledků. U spojité veličiny nahradíme sumu integrálem.
Definice 3.12. Střední hodnota (očekávaná hodnota, z angl. Expected value) diskrétní náhodné veličiny X je definována jako:
E(X) =J2^-P(X = Xi) =
i i
Definice 3.13. Střední hodnota spojité náhodné veličiny X je definována jako integrál z hodnot náhodné veličiny vážených její hustotou pravděpodobnosti:
/oo x- f(x) dx. -oo
Modus (Nejčastější hodnota)
Kromě průměru nás často zajímá i to, jaká hodnota je v daném rozdělení ta vůbec nejtypičtější.
Definice 3.14. Modus je hodnota náhodné veličiny, která má nejvyšší pravděpodobnost výskytu. Značíme ji Mo(X).
• U diskrétní veličiny je to hodnota x, pro kterou je P{X = x) největší.
U spojité veličiny je to hodnota (bod na ose x), kde má hustota f(x) svůj nejvyšší vrchol.
Rozptyl a směrodatná odchylka
Představte si dva střelce: oba mají průměrný zásah přesně do středu terče (stejná střední hodnota). První střelec ale trefuje desítky a devítky, zatímco druhý střídá okraje terče (jedničky a dvojky) s náhodnými trefami do středu. Potřebujeme tedy míru, která nám ukáže, jak moc se výsledky odchylují od průměru.
Náhodná veličina
60
Definice 3.15. Rozptyl (z angl. Variance) měří průměrnou čtvercovou odchylku hodnot od střední hodnoty. Pro diskrétní veličinu:
D(X) = Var(X) = £>ť - E{X)f ■ Pi.
i
Pro spojitou veličinu:
/oo (x - E{X)f ■ f{x) dx = E{X2) - \E{X)}2. -oo
Protože se rozptyl počítá v „kvadrátech" (na druhou), vycházejí nám nepraktické jednotky -pokud měříme výšku v cm, rozptyl vyjde v cm2. Proto v praxi drtivou většinu času používáme směrodatnou odchylku, která nás odmocněním vrátí do původních jednotek.
Definice 3.16. Směrodatná odchylka je druhá odmocnina z rozptylu:
a(X) = JĎ{X)-
Poskytuje nám přirozené měřítko toho, jak daleko od středu (v původních jednotkách) můžeme typicky očekávat další hodnoty.
Koeficienty šikmosti a špičatosti
Zatímco střední hodnota a rozptyl řeší polohu a šířku rozdělení, koeficienty šikmosti a špičatosti popisují jeho tvar.
Definice 3.17 (Koeficient šikmosti náhodné veličiny X).
E[{X-E{X)f]
7i
Interpretace šikmosti (71):
71 = 0: Rozdělení je symetrické (např. dokonalý zvonovitý tvar). Platí, že E{X) « Mo(X).
7i > 0: Rozdělení je protáhlé napravo (tzv. pravostranná asymetrie). Typickým příkladem jsou mzdy - většina lidí má průměrnou či podprůměrnou mzdu (kopec vlevo), ale malá skupina extrémně bohatých táhne dlouhý „ocas" grafu doprava. Platí: Mo(X) < E(X).
71 < 0: Rozdělení je protáhlé nalevo (ocas grafu směřuje doleva).
61
Základy statistiky
Definice 3.18 (Koeficient špičatosti náhodné veličiny X).
E [(X - £(X))41
72
3.
Interpretace špičatosti (72): Špičatost měří, jak velká část pravděpodobnosti je koncentrována blízko středu v porovnání s „chvosty" (okraji) rozdělení.
■ 72 = 0: Normální (Gaussovo) rozdělení. (Proto je ve vzorci odečtena trojka, aby normální rozdělení vyšlo jako etalon s nulou).
■ 72 > 0: Rozdělení je „špičatější" s tlustšími okraji. Hodnoty jsou buď silně nahuštěné u středu, nebo naopak obsahují extrémní odchylky.
■ 72 < 0: Rozdělení je „plošší". Hodnoty jsou rovnoměrněji rozprostřeny do šířky, extrémy se nevyskytují tak často.
Příklad 3.19. Náhodná veličina X je dána tabulkou:
	1	2	3	4
Pí	0,3	0,1	0,4	?
Určete její základní číselné charakteristiky.
Řešení: Nejprve zjistíme chybějící hodnotu pravděpodobnosti p4:
p4 = 1- (P1+P2+P3) = 1- (0,3 + 0,1 + 0,4) = 0,2. Nyní vypočítáme jednotlivé číselné charakteristiky. Použijeme následující tabulku:
X;L	1	2	3	4	E
Pí	0,3	0,1	0,4	0,2	1,0
%í' Pí	0,3	0,2	1,2	0,8	2,5
x2 ■ pi	0,3	0,4	3,6	3,2	7,5
Střední hodnota (průměr): E(X) = 2,5
Rozptyl: D(X) = E(X2) - [E(X)}2 = 7,5 - (2,5)2 = 7,5 - 6,25 = 1,25
Směrodatná odchylka: <t(X) = -y/1,25 ~ 1,1 lř
□
Náhodná veličina
62
Příklad 3.20. Náhodná veličina X má hustotu pravděpodobnosti:
/(*)
2x, 0<x<l, 0, jinak.
Určete její základní číselné charakteristiky (střední hodnotu, rozptyl a směrodatnou odchylku)
Řešení: Nejprve vypočítáme střední hodnotu a následně rozptyl pomocí prvního a druhého obecného momentu:
1. Střední hodnota (E(X)):
E(X) = ľ x ■ f (x) dx = ľ 2x2 dx = 2 Jo Jo
X
y
2 3'
2. Rozptyl (D(X)): Nejprve určíme očekávanou hodnotu E(X2):
E(X2) = ľ x2 ■ f (x) dx = ľ 2x3 dx = 2 Jo Jo
X
1
2'
Rozptyl se pak vypočítá ze vztahu D(X) = E{X2) — [E(X)Ý
D(X)
1     f2\2    1    4 9
2    V3/      2    9 lí
3. Směrodatná odchylka (a(X)):
ffW=/5(í) = ^= 3^5» 0,236.
Výsledné základní číselné charakteristiky jsou:
Střední hodnota: E{X)
Rozptyl: D(X) = ±
Směrodatná odchylka: u{X) 0,236.
□
63
Základy statistiky
3.4    Kvantilové charakteristiky náhodné veličiny
Kvantily spojitých rozdělení
Definice 3.21. Kvantil spojitého rozdělení je hodnota na ose x (viz obrázek 4), která rozděluje oblast pod hustotou pravděpodobnosti na dvě části s přesně danou plochou. Pro p-kvantil xp platí, že plocha pod křivkou hustoty vlevo od xp je rovna p, tj.
Obr. 4: Znázornění hustoty a p-kvantilu xp pro spojité rozdělení pravděpodobnosti (viz definici 3.21)
Speciální kvantily:
' Medián (2:0,5) Je 50%-kvantil. Rozděluje celkovou pravděpodobnost na dvě stejné poloviny - jedna polovina hodnot leží pod mediánem, druhá polovina nad ním.
' Kvartily jsou kvantily, které rozdělují data na čtvrtiny. První (dolní) kvartil (Q±) je 25%-kvantil, druhý kvartil je medián (Q2) a třetí (horní) kvartil (Q3) je 75%-kvantil.
' Decily rozdělují rozdělení na desetiny. Například první decil (Di) je 10%-kvantil, pátý decil (-D5) odpovídá mediánu, a devátý decil (-Dg) je 90%-kvantil.
' Percentily rozdělují rozdělení na 100 částí. Například první percentil (Px) je 1%-kvantil, padesátý percentil (p50) odpovídá mediánu a devadesátý devátý percentil (p99) je 99%-kvantil.
Definice
kde p e (0; 1).
Plocha p
Náhodná veličina
64
Další běžně používané kvantily mohou zahrnovat tercily (dělí rozdělení na třetiny) a kvintily (dělí rozdělení na pětiny).
Speciálním případem kvantilu je kritická hodnota, používaná při statistických testech. Ta označuje mezní hodnotu, která odděluje oblast zamítnutí a nezamítnutí nulové hypotézy (viz kapitolu Testování statistických hypotéz).
Určování kvantilů
Kvantily se určují z tabulek nebo se pohodlně počítají pomocí softwaru. My budeme většinou používat excelovské funkce, jako jsou:
pro normální rozdělení funkce NORM. INV(p; fi; a), pro Studentovo rozdělení funkce T.INV(p; v) a pro F-rozdělení funkce F. INV(p; v\\ u2) ■
Všechny mají v názvu INV. Tím se poukazuje na to, že jde vlastně o inverzní funkci k distribuční funkci daného rozdělení:
F(xp) = p    -<=^    F~1(p) = xp,
tedy zatímco F k zadané hodnotě xp na ose x vypočte pravděpodobnost p, tak F~ľ (tedy inverze k F) vypočte k zadané pravděpodobnosti p hodnotu kvantilu xp na ose x.
Příklad 3.22. Určete první decil rro,i a třetí kvartil 2:0,75 Pro náhodnou veličinu X s hustotou pravděpodobnosti:
/(*)
i, 0<x<2, 0, jinak.
Řešení: Hustota pravděpodobnosti f(x) je konstantní v intervalu 0 < x < 2. Distribuční funkce F{x) je určena jako integrál hustoty:
Í0, x<0, F(x) = i §,   0 < x < 2, [l, x>2.
Decil £0,1 je hodnota, pro kterou platí F^xq^) = 0,1. Hledáme tedy:
í|i = 0,1    =>    x0,! = 0,2. Třetí kvartil x0j5 je hodnota, pro kterou platí -^(^0,75) = 0,75:
íH2p = 0,75 x0J5 = 1,5.
Výsledné hodnoty jsou:
První decil: rr0ii = 0,2
65
Základy statistiky
• Třetí kvartil: x0j5 = 1,5
□
Příklad 3.23. Náhodná veličina X má hustotu pravděpodobnosti: Určete modus.
\x2e x,   0 < x < oo,
0, jinak.
Řešení: Modus je hodnota, ve které hustota pravděpodobnosti f(x) dosahuje svého maxima. Nejprve spočítáme první derivaci funkce f(x) pro x > 0:
2
Poté položíme derivaci rovnu nule:
f(x) = - ■ (2xe-x - x2e-x) = -xe-x(2 - x).
1
-xe-x{2 - x) = 0.
Vzhledem k tomu, že e x > 0 pro všechna x, má tato rovnice kořeny x = 0 a x = 2. Jelikož hledáme maximum na intervalu x > 0, uvažujeme pouze stacionární bod x = 2.
Ověříme, že se jedná skutečně o maximum, a to výpočtem druhé derivace (derivujeme výraz \e-x{2x - x2)):
f"(x) = - \-e-x(2x - x2) + e-x(2 - 2x)\ = -e^(x2 - Ax + 2).
2
Dosadíme náš stacionární bod x = 2:
2
f (2) = l-e-2{22 - 4 • 2 + 2) = ^(4 - 8 + 2) = V2(-2) = -e~2.
Protože hodnota druhé derivace je záporná (—e~2 < 0), jedná se v tomto bodě o lokální maximum.
Výsledný modus je Mo = 2. □
OTato kapitola se zaměřuje na náhodné veličiny a jejich základní charakteristiky. Náhodné veličiny jsou proměnné, které nabývají různých číselných hodnot v závislosti na výsledku náhodného pokusu. Kapitola vysvětluje rozdíl mezi diskrétními a spojitými náhodnými veličinami a ukazuje, že zatímco diskrétní veličiny popisujeme pravděpodobnostní funkcí, u spojitých využíváme hustotu pravděpodobnosti. Společným nástrojem pro oba typy je pak distribuční funkce, která představuje kumulativní pravděpodobnost.
Hlavními číselnými charakteristikami náhodných veličin jsou střední hodnota a rozptyl, které poskytují informace o teoretické průměrné hodnotě veličiny a o tom, jak moc
Náhodná veličina
66
se jednotlivé hodnoty od tohoto průměru odchylují. V kapitole jsou vysvětleny i další charakteristiky jako šikmosť a špičatost, které popisují asymetrii a celkový tvar rozdělení. Důležitou mírou polohy jsou také kvantily (např. medián, kvartily či decily).
Pro diskrétní náhodné veličiny jsou uvedeny postupy výpočtu střední hodnoty a rozptylu na základě vážených součtů. U spojitých náhodných veličin se k určení těchto charakteristik používají integrály.
1. Co je to náhodná veličina?
2. Jaký je rozdíl mezi diskrétní a spojitou náhodnou veličinou?
3. Jakým způsobem se vyjadřuje pravděpodobnostní funkce pro diskrétní náhodnou veličinu?
4. Co je to distribuční funkce a jaký má význam?
5. Jak se počítá střední hodnota pro diskrétní náhodnou veličinu?
6. Jaký je vztah mezi pravděpodobnostní funkcí (resp. hustotou pravděpodobnosti) a distribuční funkcí?
7. Co je to rozptyl a jak se počítá pro náhodnou veličinu?
8. Jaký je význam charakteristik šikmosti a špičatosti pro popis náhodné veličiny?
9. Náhodná veličina X nabývá hodnot 1,2,3,4 s pravděpodobnostmi 0,1; 0,2; 0,3; 0,4. Vypočítejte střední hodnotu a rozptyl veličiny X. [Střední hodnota: 3,0; Rozptyl: 1,0]
10. Pro spojitou náhodnou veličinu X je dána hustota pravděpodobnosti f(x) = 2x pro x G (0; 1) a f(x) = 0 jinak. Vypočítejte střední hodnotu a rozptyl této veličiny. [Střední hodnota: |; Rozptyl: X]
11. Představte si hod kostkou, kde náhodná veličina X udává počet padlých bodů. Sestrojte pravděpodobnostní a distribuční funkci této náhodné veličiny. [Pravděpodobnostní funkce: P(X = k) = | pro k = 1,2, 3,4, 5, 6; Distribuční funkce: f{x) = 0 pro x < 1, f{x) = | pro k < x < k + 1 (kde k E {1, 2, 3,4, 5}) a f (x) = 1 pro x > 6]
12. Hustota pravděpodobnosti náhodné veličiny X má tvar:
(0, pro x < 1,
x — \,   pro 1 < x < 2, 0, pro x > 2.
Určete distribuční funkci. [Distribuční funkce f(x) je dána: f(x) = 0 pro x < 1, f (x) = y - f pro 1 < x < 2, f (x) = 1 pro x > 2]
13. Náhodná veličina X je určena tabulkou:
X	-2	0	2	4	6
P (X = Xi)	0,1	?	0,2	0,3	0,2
Určete hodnotu pravděpodobnosti pro X = 0, distribuční funkci a pravděpodobnost jevu, že náhodná veličina nabude kladných hodnot. [Pravděpodobnost pro X = 0: 0,2; Distribuční funkce nabývá ve skocích hodnot f(—2) = 0,1, -F(O) = 0,3, f(2) = 0,5, -F(4) = 0,8, f(6) = 1; Pravděpodobnost kladných hodnot: 0,7]
67
Základy statistiky
e
Literatura k tématu:
[1] HINDLS, R. Statistika pro ekonomy. 8. vyd. Praha: Professional Publishing, 2007. ISBN 978-80-869-4643-6. ISBN 978-80-867-3208-8.
[2] MAREK, L. Statistika v příkladech. 2. vyd. Praha: Kamil Mařík - Professional Publishing, 2015. ISBN 978-80-743-1153-6.
[3] OTIPKA, P., SMAJSTRLA, V. Pravděpodobnost a statistika [online]. 1. vydání. Ostrava: VŠB-TU Ostrava, 2007 [cit. 2024-09-09]. ISBN 80-248-1194-4. Dostupné z: https://homel.vsb.cz/~oti73/cdpastl/
[4] ZVÁRA, K. a ŠTĚPÁN, J. Pravděpodobnost a matematická statistika. Matfyzpress, 2019. ISBN 978-80-7378-388-4.
Kapitola 4
Základní typy rozdělení pravděpodobnosti diskrétní náhodné veličiny
Po prostudování této kapitoly budete umět:
> rozpoznat situace, kdy je vhodné k modelování použít binomické, Poissonovo nebo hypergeometrické rozdělení,
vypočítat pravděpodobnosti a další charakteristiky u konkrétních diskrétních rozdělení,
' aplikovat poznatky na modelování situací z reálného života pomocí těchto rozdělení,
pomocí excelovských funkcí vypočíst hodnoty pravděpodobnostních a distribučních funkcí.
Klíčová slova:
Diskrétní náhodná veličina, binomické rozdělení, hypergeometrické rozdělení, Poissonovo rozdělení, pravděpodobnostní funkce, distribuční funkce.
69
Základy statistiky
Náhled kapitoly
V této kapitole se zaměříme na základní typy rozdělení pravděpodobnosti, které se používají u diskrétních náhodných veličin. Probereme binomické, hypergeometrické a Poissonovo rozdělení. Ukážeme si, jak každé z nich funguje a kdy se používá. Důraz bude kladen nejen na teorii, ale především na praktické příklady, které ukáží, jak tato rozdělení použít při řešení reálných problémů i umělých modelových situací. Tato rozdělení tvoří nezbytný základ pro mnoho aplikací statistiky a pravděpodobnosti v praxi.
Cíle kapitoly
Cílem je pochopit různé typy rozdělení pravděpodobnosti u diskrétních náhodných veličin s ohledem na jejich využití při modelování reálných procesů.
Časová náročnost
Na tuto kapitolu si vyhraďte přibližně 3 hodiny. Tento čas zahrnuje jak studium teorie, tak procvičování příkladů a praktických aplikací, které vám pomohou lépe pochopit chování a využití probíraných rozdělení.
4.1    Binomické rozdělení
Definice
Definice 4.1. Binomické rozdělení Bi(n;p) modeluje počet úspěchů v pevně daném počtu nezávislých pokusů, kde každý pokus má dva možné výsledky (úspěch nebo neúspěch) a pravděpodobnost úspěchu je ve všech pokusech konstantní.
Pravděpodobnost k úspěchů z n pokusů je dána vzorcem:
p{x = k)= (n\p\i-py-\
kde n je celkový počet pokusů, k je počet úspěchů {k = 0,1,..., n), p je pravděpodobnost úspěchu v každém jednotlivém pokusu a (?) je kombinační číslo.
Základní typy rozdělení pravděpodobnosti diskrétní náhodné veličiny
70
Základní číselné charakteristiky
Střední hodnota: E(X) = n ■ p Rozptyl: D(X) = n ■ p ■ (1 - p)
Grafy pravděpodobnostní a distribuční funkce
Grafy pravděpodobnostní funkce (PDF) a distribuční funkce (CDF) pro binomické rozdělení s počtem pokusů n = 10 a pravděpodobností úspěchu p = 0,5 jsou na obrázku 5.
0.3
0.2
o.i
I lBi(10; 0,5)
0.5
Bi(10; 0,5)
0 2
4 6 k
10
0 2
4 6 k
10
Obr. 5: Pravděpodobnostní a distribuční funkce binomického rozdělení pro n = 10 a p = 0,5
Excelovské funkce
Pro práci s binomickým rozdělením lze v Excelu využít následující funkce:
Pravděpodobnostní funkce: Funkce BIN0M. Dl ST (k; n; p; NEPRAVDA) vrací pravděpodobnost přesně k úspěchů z n pokusů.
Distribuční funkce: Funkce BIN0M.DIST(k; n; p; PRAVDA) vrací kumulativní pravděpodobnost, tedy pravděpodobnost, že nastane nejvýše k úspěchů (tj. 0,1,... ,k úspěchů).
71
Základy statistiky
4.2    Hypergeometricke rozdelení
Definice
Definice 4.2. Hypergeometricke rozdělení Hg(iV; M; n) modeluje počet úspěchů při náhodném výběru n objektů z celkové populace N, kde přesně M objektů z této populace představuje úspěch. Výběr probíhá bez vracení (vybraný objekt se nevrací zpět, čímž se mění pravděpodobnost v dalším tahu).
Pravděpodobnost právě k úspěchů je dána vzorcem:
P(X = k) =
M\ ÍN-M k I V n—k
N
kde N je velikost populace, M je celkový počet úspěšných objektů v populaci, n je počet vybíraných objektů (velikost vzorku) a A; je počet úspěchů ve vzorku.
Základní číselné charakteristiky
Střední hodnota: E(X) =
Mfi      M \ N-n
Rozptyl: D(X) = n§  1 - f , N_±
Grafy pravděpodobnostní a distribuční funkce
Grafy pravděpodobnostní funkce (PDF) a distribuční funkce (CDF) pro hypergeometricke rozdělení s parametry N = 50, M = 20, n = 10 jsou na obrázku 6.
Excelovské funkce
Pro práci s hypergeometrickým rozdělením lze v Excelu použít následující funkce:
■ Pravděpodobnostní funkce: Funkce HYPGEOM. Dl ST (k; n; M; N; NEPRAVDA) vrací pravděpodobnost přesně k úspěchů.
Distribuční funkce: Funkce HYPGEOM.DIST(k; n; M; N; PRAVDA) vrací kumulativní
pravděpodobnost, tedy pravděpodobnost nejvýše k úspěchů.
Základní typy rozdělení pravděpodobnosti diskrétní náhodné veličiny
72
0.3
0.2
o.i
o
			1	IHg(50; 20; 10)		
						
						
1					1	
0.5
0       2       4 6
k
10
0
		1		
				
		-Hg(50; 20; 10)		
0       2       4 6
k
10
Obr. 6: Pravděpodobnostní a distribuční funkce hypergeometrického rozdělení pro N = 50, M = 20 a n = 10
4.3    Poissonovo rozdělení
Kdy použít Poissonovo rozdělení?
Na rozdíl od binomického nebo hypergeometrického rozdělení, kde máme pevně daný celkový počet pokusů n (a tedy nemůžeme mít více úspěchů než n), u Poissonova rozdělení neexistuje horní hranice možného počtu událostí {k = 0,1, 2,...).
Tento model se používá pro situace, kdy počítáme výskyt (často poměrně vzácných) událostí, které nastávají náhodně v nějakém spojitém kontinuu - typicky v čase, na určité ploše nebo v určitém objemu.
Typické příklady Poissonova rozdělení:
' Počet zákazníků, kteří přijdou k pokladně během jedné hodiny.
• Počet tiskových chyb na jedné stránce knihy.
' Počet dopravních nehod na určité křižovatce za měsíc.
• Počet kazů na 100 metrech vyrobené látky.
Další velmi důležitou vlastností je, že Poissonovo rozdělení skvěle funguje jako aproximace binomického rozdělení pro situace, kdy máme obrovský počet pokusů (n —> oo), ale pravděpodobnost úspěchu v jednom pokusu je mizivě malá (p —y 0). V takovém případě se výpočet obrovských kombinačních čísel nahradí mnohem jednodušším Poissonovým rozdělením, kde stačí položit střední hodnotu A = n ■ p.
73
Základy statistiky
Definice
Definice 4.3. Poissonovo rozdělení Po(A) modeluje počet událostí, které nastanou v pevně daném čase nebo prostoru, za předpokladu, že tyto události nastávají nezávisle na sobě s konstantní střední intenzitou (průměrem) A.
Pravděpodobnost, že v daném intervalu nastane právě k událostí, je dána vzorcem:
\ke~x
P(X = k) -
k\ '
kde A je očekávaný (průměrný) počet událostí v daném intervalu, k je sledovaný počet událostí a e je Eulerovo číslo.
Základní číselné charakteristiky
• Střední hodnota: E(X) = A . Rozptyl: D(X) = A
Poznámka: Poissonovo rozdělení je unikátní tím, že se jeho střední hodnota rovná rozptylu.
Grafy pravděpodobnostní a distribuční funkce
Grafy pravděpodobnostní funkce (PDF) a distribuční funkce (CDF) pro Poissonovo rozdělení s parametrem A = 3 jsou na obrázku 7.
0.3
0.2
X o.i
o
						lil	M3)
							
						1	-
0.5
0       2       4 6
k
10
0
				
			— I	M3)
0       2       4 6
k
10
Obr. 7: Pravděpodobnostní a distribuční funkce Poissonova rozdělení pro A = 3
Excelovské funkce
Pro práci s Poissonovým rozdělením lze v Excelu použít následující funkce:
Základní typy rozdělení pravděpodobnosti diskrétní náhodné veličiny
74
■ Pravděpodobnostní funkce: Funkce P0ISS0N.DIST(k; A; NEPRAVDA) vrací pravděpodobnost, že nastane přesně k událostí.
' Distribuční funkce: Funkce P0ISS0N.DIST(k; A; PRAVDA) vrací kumulativní pravděpodobnost, tedy že nastane nejvýše k událostí.
4.4    Některá další diskrétní rozdělení
Než se pustíme do složitějších výpočtů, zmíníme pro úplnost ještě dvě velmi jednoduchá rozdělení, se kterými se v praxi (a často i v běžném životě) setkáváme zcela intuitivně.
1. Alternativní rozdělení Alt(p)
Popisuje ten vůbec nejjednodušší náhodný pokus, který má pouze dva možné výsledky - typicky úspěch, nebo neúspěch. Uvažujme například hod mincí.
Výsledkem je náhodná veličina X, která nabývá pouze hodnot 1 (úspěch, např. padne líc) s pravděpodobností p, nebo 0 (neúspěch, padne rub) s pravděpodobností 1 — p.
Poznámka: Binomické rozdělení není nic jiného než součet n nezávislých alternativních rozdělení.
2. Diskrétní rovnoměrné rozdělení R(n)
Popisuje situaci, kdy má všech n možných výsledků náhodného pokusu zcela stejnou pravděpodobnost.
' Typickým příkladem je hod klasickou šestistěnnou kostkou. Prostor možných výsledků je M = {1,2,3,4,5,6}. Každé číslo má pravděpodobnost přesně |. Modelujeme jej jako R(6).
4.5    Řešené příklady
Binomické rozdělení
Příklad 4.4 (Binomické rozdělení). Student má potíže s ranním vstáváním. Proto někdy zaspí a nestihne přednášku, která začíná již v 9 hodin. Pravděpodobnost, že zaspí, je 0,3. V semestru je 12 přednášek, což znamená 12 nezávislých pokusů dorazit na přednášku včas. Nalezněte pravděpodobnost, že student nestihne přednášku v důsledku zaspání v polovině nebo více případů.
75
Základy statistiky
Řešení: Jedná se o binomické rozdělení 52(12; 0,3) s parametry n = 12 a p = 0,3. Hledaná pravděpodobnost (zaspí v 6 a více případech) je:
P(X > 6) = 1 - P(X < 5).
Tuto pravděpodobnost lze snadno vypočítat pomocí distribuční funkce binomického rozdělení, například pomocí funkce BINOM.DIST v Excelu:
P(X > 6) = 1 - BIN0M.DISK5; 12; 0,3; PRAVDA) « 1 - 0,8822 = 0,1178.
Pravděpodobnost, že zaspí polovinu a více přednášek, je zhruba 11,8 %. □
Příklad 4.5 (Binomické rozdělení). V obchodě probíhá reklamní akce pro zákazníky. Z dlouhodobých statistik je známo, že šance na výhru reklamního dárku je pro každého zákazníka 5 % (tedy p = 0,05) a výsledky jednotlivých zákazníků jsou na sobě nezávislé. Jaká je pravděpodobnost, že z 20 nově příchozích zákazníků alespoň 2 vyhrají?
Řešení: Tento problém modelujeme jako binomické rozdělení Bi(20; 0,05) s parametry n = 20 a p = 0,05. Hledáme pravděpodobnost:
P(X > 2) = 1 - P(X < 2) = 1 - [P(X = 0) + P(X = 1)].
Pravděpodobnosti pro 0 a 1 výherce (lze spočítat dosazením do vzorce nebo v Excelu jako BINOM.DISKk; 20; 0,05; NEPRAVDA)) jsou:
P(X = 0) = 0,3585   a   P(X = 1) = 0,3773.
Proto:
P(X > 2) = 1 - (0,3585 + 0,3773) = 1 - 0,7358 = 0,2642. Pravděpodobnost, že vyhrají alespoň 2 zákazníci z 20, je přibližně 26,4%. □
Poissonovo rozdělení
Příklad 4.6 (Poissonovo rozdělení). Předpokládejme, že realitní makléř jedná v průměru s pěti zákazníky za den. Zjistěte, jaká je pravděpodobnost, že počet zákazníků makléře za jeden den bude větší než 4.
Řešení: Náhodná veličina X - počet zákazníků - splňuje kritéria pro Poissonovo rozdělení -Po(A) s průměrem A = 5. Hledáme pravděpodobnost, že X > 4:
P(X > 4) = 1 - P(X < A).
Tuto pravděpodobnost lze vypočítat pomocí kumulativní funkce P0ISS0N.DIST v Excelu:
P(X > 4) = 1 - P0ISS0N.DISK4; 5; PRAVDA) « 1 - 0,4405 = 0,5595.
Pravděpodobnost, že bude jednat s více než 4 zákazníky, je necelých 56 %. □
Příklad 4.7 (Poissonovo rozdělení). V průměru přistanou na místním letišti během jedné hodiny 3 letadla. Jaká je pravděpodobnost, že během jedné hodiny přistanou přesně 2 letadla?
Řešení: Náhodná veličina X - počet přistání - splňuje kritéria pro Poissonovo rozdělení Po(A) s parametrem A = 3. Hledaná pravděpodobnost je:
32e-3
P(X = 2) = « 0,2240.
Tuto pravděpodobnost lze případně snadno vypočítat i pomocí funkce P0ISS0N.DIST(2; 3; NEPRAVDA) v Excelu. □
Základní typy rozdělení pravděpodobnosti diskrétní náhodné veličiny
76
Hypergeometrické rozdělení
Příklad 4.8 (Hypergeometrické rozdělení). Mezi stovkou výrobků je 20 zmetků. Vybereme deset výrobků a sledujeme počet zmetků mezi vybranými.
Řešení: V tomto případě má náhodná veličina X (počet vybraných zmetků) hypergeometrické rozdělení H g (100; 20; 10). Pravděpodobnostní funkce je dána vztahem:
M\ ÍN-M k ) \ n—k
w
P(X = k) --
kde N = 100, M = 20, n = 10 a k je počet zmetků mezi vybranými výrobky.
Například pravděpodobnost, že mezi deseti vybranými výrobky budou přesně 3 zmetky, lze vypočítat jako P(X = 3):
20\ /80
p(x =3) = ^Á^r «°>2092-
( 10 J
Tuto pravděpodobnost snadno získáme i v Excelu pomocí funkce:
HYPGE0M.DIST(3; 10; 20; 100; NEPRAVDA).
□
Příklad 4.9 (Hypergeometrické rozdělení). V krabici je 20 kuliček, z nichž 8 je červených a 12 modrých. Náhodně vybereme 5 kuliček bez vracení. Jaká je pravděpodobnost, že vybereme přesně 3 červené kuličky?
Řešení: Tento problém modelujeme jako hypergeometrické rozdělení Hg(N; M;n), kde úspěchem je vytažení červené kuličky. Parametry jsou:
N = 20,   M = 8,   n = 5.
Hledaná pravděpodobnost je:
P(X = 3) :
Po dosazení hodnot (kombinačních čísel) dostáváme:
P(X = 3) = = „ 0,2384.
v        ;     15504 15504
Pravděpodobnost vytažení přesně 3 červených kuliček je tedy zhruba 23,8%.
I tento výpočet lze snadno provést pomocí funkce v Excelu: HYPGE0M.DIST(3; 5; 8; 20; NEPRAVDA). □
OV této kapitole byla představena základní diskrétní rozdělení pravděpodobnosti, která se velmi často vyskytují v praxi (některým jsme se věnovali podrobněji, dalším jen v rámci úvodních příkladů). Seznámili jsme se s charakteristikami a použitím těchto rozdělení:
77
Základy statistiky
' Alternativní rozdělení Alt (p) - Popisuje náhodný experiment se dvěma možnými výsledky (úspěch/neúspěch). Využívá se např. při modelování jednoho hodu mincí.
' Rovnoměrné rozdělení R(n) - Předpokládá, že všech n možných výsledků má stejnou pravděpodobnost. Používá se např. při hodu spravedlivou kostkou.
' Binomické rozdělení Bi(n;p) - Popisuje počet úspěchů při pevně daném počtu n nezávislých pokusů, kde každý pokus má stejnou pravděpodobnost úspěchu p. Příkladem je situace, kdy se sleduje počet ranních zaspání studenta během celého semestru.
' Poissonovo rozdělení -Po(A) - Používá se k modelování počtu výskytů událostí v pevném časovém nebo prostorovém intervalu, kde není shora omezen počet pokusů. V praxi jde např. o modelování počtu zákazníků přicházejících k realitnímu makléři.
• Hypergeometrické rozdělení Hg(N; M; n) - Popisuje pravděpodobnost určitého počtu úspěchů při výběru n objektů bez vracení z konečné populace N. Příkladem je sledování počtu vadných výrobků při jednorázovém náhodném výběru vzorku z výrobní dávky.
Ol. Jaké jsou základní číselné charakteristiky binomického rozdělení? 2. Jak vypadá pravděpodobnostní funkce binomického rozdělení pro n = 10 a p = 0,5? 3. Co modeluje Poissonovo rozdělení?
4. Jaký je vzorec pro pravděpodobnost, že Poissonova náhodná veličina X nabude hodnoty k, pokud má parametr A?
5. Jaký je vztah mezi střední hodnotou a rozptylem u Poissonova rozdělení?
6. Jaké typické aplikace má Poissonovo rozdělení v reálném světě?
7. Co modeluje hypergeometrické rozdělení?
8. Jaký je rozdíl mezi binomickým a hypergeometrickým rozdělením z hlediska způsobu výběru?
9. V dodávce 80 polotovarů je 8 (tj. 10%) vadných. Náhodně vybereme (najednou, tj. „bez vracení") 5 kusů polotovarů k další kompletaci. Jaká je pravděpodobnost, že mezi vybranými prvky bude maximálně jeden vadný? [0,9246]
10. Ve skladišti závodu je 5 000 výrobků stejného typu. Pravděpodobnost toho, že daný výrobek nevydrží kontrolní zapojení (je vadný), je 0,1 %. Najděte pravděpodobnost, že z výrobků na skladě více než dva nevydrží kontrolní zapojení. [0,8753]
11. Korektura 500 stránek obsahuje celkem 500 nalezených tiskových chyb. Najděte pravděpodobnost toho, že na jedné náhodně vybrané stránce jsou nejméně tři chyby. [0,0803]
12. Najděte pravděpodobnost toho, že mezi 200 náhodně vybranými výrobky se vyskytnou více než tři zmetky, když v průměru je zmetkovitost výroby těchto výrobků 1%. [0,1429 pomocí Poissonovy aproximace, resp. 0,1420 při přesném výpočtu binomickým rozdělením]
Základní typy rozdělení pravděpodobnosti diskrétní náhodné veličiny
78
Literatura k tématu:
[1] HINDLS, R. Statistika pro ekonomy. 8. vyd. Praha: Professional Publishing, 2007. ISBN 978-80-869-4643-6. ISBN 978-80-867-3208-8.
[2] MAREK, L. Statistika v příkladech. 2. vyd. Praha: Kamil Mařík - Professional Publishing, 2015. ISBN 978-80-743-1153-6.
[3] OTIPKA, P., SMAJSTRLA, V. Pravděpodobnost a statistika [online]. 1. vydání. Ostrava: VŠB-TU Ostrava, 2007 [cit. 2024-09-09]. ISBN 80-248-1194-4. Dostupné z: https://homel.vsb.cz/~oti73/cdpastl/
[4] ZVÁRA, K. a ŠTĚPÁN, J. Pravděpodobnost a matematická statistika. Matfyzpress, 2019. ISBN 978-80-7378-388-4.
Kapitola 5
Základní typy rozdělení pravděpodobnosti spojité náhodné veličiny
Po prostudování této kapitoly budete umět:
vyjmenovat základní spojitá rozdělení pravděpodobnosti i s jejich důležitými vlastnostmi,
vypočítat základní charakteristiky daných typů rozdělení pravděpodobnosti,
pomocí excelovských funkcí vypočíst hodnoty hustoty pravděpodobnosti a distribučních funkcí spojitých rozdělení,
• pomocí excelovských funkcí vypočíst kvantily spojitých rozdělení.
Klíčová slova:
Spojitá náhodná veličina, rovnoměrné rozdělení, exponenciální rozdělení, normální rozdělení, hustota pravděpodobnosti, distribuční funkce, střední hodnota, rozptyl, kvantil.
Základní typy rozdělení pravděpodobnosti spojité náhodné veličiny
80
Náhled kapitoly
Tato kapitola se zaměřuje na základní typy rozdělení pravděpodobnosti pro spojité náhodné veličiny. Seznámíme se s rozděleními, jako je rovnoměrné, exponenciální a normální rozdělení. Každé z těchto rozdělení má specifické vlastnosti a používá se v různých situacích při modelování náhodných jevů. Kromě teoretického popisu si také ukážeme, jak tato rozdělení aplikovat v praxi a jak vypočítat pravděpodobnosti, kvantily a další charakteristiky. V kapitole jsou uvedeny příklady, které demonstrují užití spojitých rozdělení v reálných situacích.
Cíle kapitoly
Cílem je pochopit a rozlišovat základní typy rozdělení pravděpodobnosti pro spojité náhodné veličiny a aplikovat tyto poznatky při řešení úloh z praxe.
Časová náročnost
Pro tuto kapitolu doporučujeme vyčlenit přibližně 3 hodiny. Tento čas zahrnuje jak studium teoretických částí, tak procvičování praktických příkladů a aplikací.
5.1    Normální rozdělení
Kde se s ním setkáme a proč je tak důležité?
Normální (Gaussovo) rozdělení je nej důležitějším rozdělením v celé statistice. Nese název „normální", protože velmi dobře popisuje chování mnoha veličin v přírodě i ve společnosti za „normálních" okolností - tedy tam, kde na výsledek působí velké množství drobných, vzájemně nezávislých a náhodných vlivů.
Typické příklady normálního rozdělení:
Výška a hmotnost dospělých lidí v určité populaci.
• Hodnoty IQ v populaci.
Chyby při fyzikálních měřeních (nepřesnost přístroje a pozorovatele).
• Rozměry součástek sjíždějících z výrobní linky.
81
Základy statistiky
Definice
Definice 5.1. Normální rozdělení N(fi; a2) je spojité rozdělení pravděpodobnosti, které je symetrické kolem své střední hodnoty fi a má typický zvonovitý tvar (tzv. Gaussova křivka). Je jednoznačně určeno dvěma parametry: střední hodnotou fi (určuje polohu vrcholu) a směrodatnou odchylkou o (určuje šířku a zploštění zvonu).
Hustota normálního rozdělení je dána vzorcem:
Obr. 8: Jeden z hrdých otců normálního rozdělení (vytvořeno pomocí ChatGPT, OpenAI)
Střední hodnota: E(X) = fi    (Je to zároveň i modus a medián). Rozptyl: D(X) = a2
Symetrie: Rozdělení je dokonale symetrické, koeficient šikmosti 71 = 0.
Velmi užitečnou pomůckou pro rychlou představu o datech s normálním rozdělením je tzv. Pravidlo tří sigma (Empirické pravidlo 68—95—99,7%). Říká nám, kolik procent všech hodnot leží v určitých vzdálenostech od průměru:
kde fi je střední hodnota a a2 je rozptyl.
Základní číselné charakteristiky a Empirické pravidlo
Základní typy rozdělení pravděpodobnosti spojité náhodné veličiny
82
• Přibližně 68,3 % hodnot leží v intervalu (fi — a; fi + a).
• Přibližně 95,5 % hodnot leží v intervalu (fi — 2a; fi + 2a).
• Přibližně 99,7 % hodnot leží v intervalu (fi — 3a; fi + 3a) (téměř všechny hodnoty).
Normované (standardizované) normální rozdělení
Pro usnadnění výpočtů a možnost používat statistické tabulky se zavádí speciální případ. Pokud má veličina střední hodnotu fi = 0 a rozptyl a2 = 1, hovoříme o normovaném normálním rozdělení a značíme jej ÍV(0; 1).
Jakoukoliv náhodnou veličinu X s normálním rozdělením N(fi; a2) můžeme jednoduše převést (standardizovat) na normovanou veličinu Z pomocí transformace:
a
Veličina Z nám pak udává, o kolik směrodatných odchylek se původní hodnota X liší od průměru.
Grafy hustot a distribučních funkcí
Grafy znázorňující hustoty a distribuční funkce normálního rozdělení pro různé hodnoty fi a a2 jsou uvedeny na obrázcích 9 a 10.
-4       -2        0 2 4 -4       -2        0 2 4
Obr. 9: Grafy hustot a distribučních funkcí normálního rozdělení s různými rozptyly
Excelovské funkce
Pro práci s normálním rozdělením lze v Excelu použít následující funkce:
■ Distribuční funkce (CDF): Funkce NORM.DISKx; //; a; PRAVDA) vrací hodnotu distribuční funkce (kumulativní pravděpodobnost, tedy plochu pod křivkou od -oo po i).
' Kvantilová funkce: Funkce N0RM.INV(p; //; a) vrací kvantil pro danou pravděpodobnost p.
83
Základy statistiky
Obr. 10: Grafy hustot a distribučních funkcí normálního rozdělení s různými středními hodnotami
Hustota (PDF): Funkce NORM. Dl ST (x; fi; a; NEPRAVDA) vrací hodnotu hustoty. (Pozor, u spojitých rozdělení se nejedná o pravděpodobnost! Používá se převážně k vykreslování grafů.)
Pro práci s normovaným normálním rozdělením (// = 0, a = 1) lze použít specializované zkrácené funkce:
■ Distribuční funkce (CDF): NORM.S.DISKx; PRAVDA)
Kvantilová funkce: NORM. S. INV (p)
■ Hustota (PDF): NORM.S.DISKx; NEPRAVDA)
5.2    Rovnoměrné rozdělení
Kde se s ním setkáme?
Rovnoměrné rozdělení je vůbec nej jednodušším spojitým modelem. Používáme ho v situacích, kdy víme, že hodnota leží v určitém intervalu, ale nemáme absolutně žádný důvod předpokládat, že by se koncentrovala kolem nějakého středu (jako u normálního rozdělení) nebo na kraji. Zkrátka „všechno je stejně možné".
Základní typy rozdělení pravděpodobnosti spojité náhodné veličiny
84
Typické příklady spojitého rovnoměrného rozdělení:
Chyby ze zaokrouhlování: Pokud zaokrouhlujeme čísla na celé koruny chyba zaokrouhlení se rovnoměrně rozkládá v intervalu (—0,5; 0,5).
Doba čekání: Přijdete-li na zastávku tramvaje, u které neznáte jízdní řád, a víte jen, že jezdí přesně každých 10 minut. Vaše doba čekání je rovnoměrně rozdělena v intervalu (0; 10) minut.
Generátory náhodných čísel v počítačích.
Definice
Definice 5.2. Rovnoměrné rozdělení U (a; b) je spojité rozdělení pravděpodobnosti, kde každá hodnota z intervalu (a; b) má zcela stejnou šanci na výskyt (přesněji řečeno: hustota pravděpodobnosti je konstantní). Je určeno dvěma parametry: dolní mezí a a horní mezí b.
Hustota rovnoměrného rozdělení je dána vzorcem:
-r^—   pro a < x < b, f(x;a,b) = { b-a   1       -    - ' [0 jinak.
Základní číselné charakteristiky
Střední hodnota: E(X) = g^    (Leží přesně uprostřed intervalu). Rozptyl: D(X) =
Symetrie: Rovnoměrné rozdělení je dokonale symetrické kolem své střední hodnoty (7i = 0).
Grafy hustoty a distribuční funkce
Grafy hustoty a distribuční funkce rovnoměrného rozdělení pro různé hodnoty a a b jsou uvedeny na obrázku 11.
Výpočty v Excelu
Na rozdíl od normálního rozdělení **nemá** standardní Excel pro rovnoměrné rozdělení žádnou předpřipravenou funkci (jako např. UNIF0RM.DIST). Není ale vůbec potřeba, protože vzorce jsou
85
Základy statistiky
Obr. 11: Grafy hustot a distribučních funkcí rovnoměrného rozdělení (různé parametry a a b)
triviální a zadáváme je do buněk pomocí obyčejné aritmetiky:
' Hustota (PDF): Zapíšeme vzorec =l/(b-a).
' Distribuční funkce (CDF): Pro hodnoty x uvnitř intervalu (a; b) počítáme pravděpodobnost P(X < x) jako =(x-a)/(b-a).
' Kvantilová funkce: Pokud chceme najít hodnotu x pro zadanou pravděpodobnost p, otočíme vzorec: =a + p* (b-a).
5.3    Exponenciální rozdělení
Kde se s ním setkáme a jak souvisí s Poissonovým rozdělením?
Exponenciální rozdělení úzce souvisí s Poissonovým rozdělením z předchozí kapitoly. Zatímco Poissonovo rozdělení nám říká, kolik událostí nastane za určitý čas (např. kolik zákazníků přijde do obchodu za hodinu), exponenciální rozdělení modeluje dobu čekání mezi těmito jednotlivými událostmi (např. jak dlouho budeme čekat, než do obchodu vejde další zákazník).
Typické příklady exponenciálního rozdělení:
• Doba mezi příjezdy dvou po sobě jdoucích autobusů na zastávku.
• Doba obsluhy jednoho zákazníka u pokladny nebo na lince podpory.
' Doba bezporuchového chodu (životnost) určitých elektronických součástek nebo žárovek.
Časový rozestup mezi dvěma dopravními nehodami na daném úseku dálnice.
Základní typy rozdělení pravděpodobnosti spojité náhodné veličiny
86
Definice
Definice 5.3. Exponenciální rozdělení Exp(X) je spojité rozdělení pravděpodobnosti, které se používá k modelování doby čekání na výskyt určité náhodné události. Parametr A představuje intenzitu výskytu událostí (průměrný počet událostí za jednotku času).
Hustota exponenciálního rozdělení je dána vzorcem:
f(x;\)
kde A > 0 je parametr rychlosti (intenzity) a e je Eulerovo číslo.
Ae Xx pro x > 0, 0 pro x < 0,
Základní číselné charakteristiky
Střední hodnota: E(X) Rozptyl: D(X) = ±
(Tedy průměrná doba čekání).
Asymetrie: Exponenciální rozdělení je silně asymetrické (pravostranná asymetrie), má dlouhý chvost směrem k vyšším hodnotám na ose x.
Grafy hustoty a distribuční funkce
Grafy hustoty a distribuční funkce exponenciálního rozdělení pro různé hodnoty A jsou uvedeny na obrázku 12.
Ä 0.5
—1— V i \ \ \ 1 \ \ \ \ \ l \ l M			— Exp(l) --- Exp(2) -Exp(0,5)	
				
*s \\ N. *	\			
				
				
4 5
0.5
/ / / / / I /	✓*			_________
1 / !// •I ■' '/■'	y			
			— Exp(l) --- Exp(2) Exp(0,5)	
X
2 3
x
Obr. 12: Grafy hustot a distribučních funkcí exponenciálního rozdělení pro různé parametry A
Výpočty v Excelu
Pro práci s exponenciálním rozdělením v Excelu můžeme použít následující postupy:
87
Základy statistiky
■ Distribuční funkce (CDF): Funkce EXPON. Dl ST (x; A; PRAVDA) vrací hodnotu distribuční funkce (pravděpodobnost, že čekání bude kratší nebo rovno x).
• Hustota pravděpodobnosti (PDF): Funkce EXPON.DIST(x; A; NEPRAVDA) vrací hodnotu hustoty. (Připomínáme: u spojitých rozdelení PDF neudává pravděpodobnost, funkce slouží spíše ke kreslení grafů.)
• Kvantilová funkce: Excel pro exponenciální rozdělení standardně nemá inverzní funkci (typu EXPON. INV). Kvantil pro zadanou pravděpodobnost p a parametr A se proto jednoduše spočítá inverzním vzorcem pomocí logaritmu: =-LN(l-p)/A.
5.4    Řešené příklady
Příklad 5.4 (Rovnoměrné rozdělení U(a;b)). Tramvajová linka číslo 8 odjíždí v dopoledních hodinách ze zastávky každých 10 minut. Vypočtěte pravděpodobnost, že na ni budete dopoledne čekat déle než 7 minut.
Řešení: Doba čekání je náhodná veličina X, která má rovnoměrné rozdělení pravděpodobnosti - v našem případě £7(0; 10). Pro rovnoměrné rozdělení U (a; b) platí:
m = l^ a-x-b>
I 0, jinak.
V našem případě a = 0 a b = 10, takže hustota pravděpodobnosti je:
i, 0<x<10, 0, jinak.
0, x < 0, ^, 0<x<10,
1, x > 10.
Pravděpodobnost, že budeme čekat déle než 7 minut, spočítáme pomocí distribuční funkce jako doplněk:
P(X > 7) = 1 - P(X < 7) = 1 - F{7) = 1 - ^ = 0,3.
□
Příklad 5.5 (Exponenciální rozdělení Exp(X)). Doba čekání hosta na pivo je v restauraci U Lva průměrně 5 minut. Předpokládáme, že se řídí exponenciálním rozdělením. Určete:
1. hustotu pravděpodobnosti náhodné veličiny, která je dána dobou čekání na pivo,
2. pravděpodobnost, že budeme čekat na pivo déle než 12 minut,
3. dobu čekání, během které bude zákazník obsloužen s pravděpodobností 0,9.
Distribuční funkce F(x) je:
F(x)
Základní typy rozdělení pravděpodobnosti spojité náhodné veličiny
88
Řešení:     1. Hustota pravděpodobnosti pro exponenciální rozdělení Exp(X) je dána vztahem:
V '     (0, x<0.
V našem případě je střední doba čekání E(X) = j = 5, takže intenzita A = | = 0,2. Hustota pravděpodobnosti tedy je:
= Í0,2e—, x > 0,
V 7     (0, x<0.
2. Příslušná distribuční funkce F(x) je tvaru:
Í0, x < 0,
W     \l-e-0-2*, x>0.
Pravděpodobnost, že budeme čekat déle než 12 minut, je:
P(X > 12) = 1 - F(12) = 1 - (l - e"0'2'12) = e~2'4 « 0,0907.
3. Hledáme kvantil, tedy dobu čekání t, při které bude zákazník obsloužen s pravděpodobností 0,9:
P(X <t) = l- e~0'2í = 0,9.
Z toho plyne:
e-°<2i = 0,l -0,2ŕ = ln(0,l) ŕ = ^^«11,51.
Zákazník bude obsloužen s pravděpodobností 90% do zhruba 11,5 minuty.
□
Příklad 5.6 (Normální rozdělení N(fi; o2)). Jaká je pravděpodobnost, že náhodná veličina X, která má rozdělení N(10; 9), nabude hodnoty:
1. menší než 16,
2. větší než 10,
3. v mezích od 7 do 22?
Řešení: V našem případě je /i = 10 a rozptyl a2 = 9. Směrodatná odchylka je tedy a = \/9 = 3. Výpočty provedeme s využitím distribuční funkce F(x) = P(X < x), jejíž hodnoty snadno získáme v Excelu pomocí funkce N0RM.DIST.
1. Pravděpodobnost, že X < 16, odpovídá přímo hodnotě distribuční funkce:
P(X < 16) = F(16) « N0RM.DISTQ6; 10; 3; PRAVDA) « 0,9772.
89
Základy statistiky
2. Pravděpodobnost, že X > 10, spočítáme jako doplněk do jedničky. Vzhledem k tomu, že hodnota 10 je přesně střední hodnota (a rozdělení je symetrické), výsledek musí být polovina:
P(X > 10) = 1 -F(10) = 1 -NORM.DISTCIO; 10; 3; PRAVDA) = 1 - 0,5 = 0,5.
3. Pravděpodobnost, že X nabude hodnoty v intervalu 7 < X < 22, určíme jako rozdíl hodnot distribuční funkce v horní a dolní mezi intervalu:
P(7 < X < 22) = F(22) - F(7)
Pomocí Excelu:
N0RM.DISK22; 10; 3; PRAVDA)-N0RM.DIST(7; 10; 3; PRAVDA)     0,9999—0,1587 = 0,8412.
□
OV této kapitole jsme se zabývali základními spojitými rozděleními pravděpodobnosti, která se hojně používají v praxi. Seznámili jsme se s jejich vlastnostmi, praktickým použitím a s metodami výpočtu pravděpodobností a charakteristik.
' Rovnoměrné rozdělení U (a; b) - Tento typ rozdělení se používá tehdy, když má náhodná veličina stejnou pravděpodobnost výskytu v každém bodě intervalu (a; b). V této kapitole jsme si ukázali, jak vypočítat pravděpodobnosti a distribuční funkci rovnoměrně rozdělené náhodné veličiny a jaké jsou její základní charakteristiky (střední hodnota, rozptyl).
' Exponenciální rozdělení Exp(X) - Exponenciální rozdělení se používá při modelování času mezi událostmi v procesech, které se vyskytují s konstantní intenzitou. V praxi může jít například o dobu čekání na obsluhu. Zabývali jsme se výpočtem pravděpodobností, distribuční funkcí a určením časových intervalů, v nichž nastanou události s danou pravděpodobností (kvantily).
' Normální rozdělení N(fi; a2) - Toto rozdělení, často označované jako Gaussovo, je jedním z nej důležitějších rozdělení vůbec. Modeluje mnohé reálné procesy a veličiny v přírodě i společnosti. V kapitole jsme si ukázali, jak pomocí normálního rozdělení odhadnout pravděpodobnosti pro různé intervaly hodnot, jak vypočítat hodnoty distribuční funkce a jak využít software (Excel) při výpočtech.
V této kapitole jsme se zaměřili také na aplikace těchto rozdělení ve formě řešených příkladů, které zahrnovaly výpočty pravděpodobností a interpretaci získaných výsledků. Naučili jsme se rozlišovat situace, kdy je vhodné použít jednotlivé typy spojitých rozdělení, a získali jsme praktické dovednosti pro jejich nasazení.
Kapitola poskytuje pevný základ pro pochopení spojitých náhodných veličin a jejich rozložení, což je klíčové pro analýzu a modelování reálných dat v nejrůznějších oblastech od ekonomie po strojové učení.
Základní typy rozdělení pravděpodobnosti spojité náhodné veličiny
90
1. Jaké jsou hlavní rozdíly mezi spojitým a diskrétním rozdělením pravděpodobnosti? Uveďte příklady spojitých rozdělení.
2. Co je to distribuční funkce náhodné veličiny a jaký je její význam? Jaký tvar má distribuční funkce pro rovnoměrné rozdělení?
3. Vysvětlete, co rozumíme pod termínem hustota pravděpodobnosti. Jaká je hustota pravděpodobnosti pro exponenciální rozdělení?
4. Jaké jsou základní charakteristiky normálního rozdělení N(fi; o"2)? Proč je toto rozdělení tak důležité v teorii pravděpodobnosti a statistice?
5. Jaké jsou aplikace exponenciálního rozdělení v praxi? Vysvětlete, v jakých situacích je vhodné jej použít.
6. K čemu se používá rovnoměrné rozdělení? Jak se vypočítá střední hodnota a rozptyl rovnoměrně rozdělené náhodné veličiny?
7. Jaké vlastnosti musí mít data, aby bylo možné použít normální rozdělení pro jejich modelování a analýzu?
8. Jaké jsou klíčové rozdíly mezi pravděpodobnostní funkcí (u diskrétních veličin) a hustotou pravděpodobnosti (u spojitých veličin)? Jakou hodnotu pravděpodobnosti P(X = x) má spojitá veličina v jednom konkrétním bodě?
9. Co rozumíme pod pojmem střední hodnota náhodné veličiny? Jak se liší střední hodnota mezi rovnoměrným, exponenciálním a normálním rozdělením?
10. Jaký je vztah mezi intenzitou A v exponenciálním rozdělení a střední dobou čekání na událost?
11. Náhodná veličina X má normované normální rozdělení N(0; 1). Určete:
a. P(X < 2,31) [0,9896]
b. P(X < -1,1) [0,1357]
c. P(-0,41 < X < 2,92) [0,6573]
12. Váha v uhelných skladech váží s chybou, jejíž střední hodnota je 30 kg, přičemž váha v průměru ukazuje méně (tedy fi = —30 kg). Náhodné chyby mají normální rozdělení pravděpodobnosti se směrodatnou odchylkou o = 100 kg. Jaká je pravděpodobnost, že chyba zjištěné váhy nepřekročí v absolutní hodnotě 90 kg? [0,6106]
13. Uvažujme rovnoměrně rozdělenou náhodnou veličinu X na intervalu (2; 10). Vypočtěte:
a. Střední hodnotu a rozptyl.    [Střední hodnota: 6, Rozptyl: 5,33]
b. P(X > 7) [0,375]
14. Cas mezi událostmi je modelován exponenciálním rozdělením s intenzitou A = 0,5. Jaká je pravděpodobnost, že čas mezi dvěma událostmi bude menší než 3 minuty? [0,7769]
©Literatura k tématu: [1] HINDLS, R. Statistika pro ekonomy. 8. vyd. Praha: Professional Publishing, 2007. ISBN 978-80-869-4643-6. ISBN 978-80-867-3208-8.
91
Základy statistiky
[2] MAREK, L. Statistika v příkladech. 2. vyd. Praha: Kamil Mařík - Professional Publishing, 2015. ISBN 978-80-743-1153-6.
[3] OTIPKA, P., SMAJSTRLA, V. Pravděpodobnost a statistika [online]. 1. vydání. Ostrava: VŠB-TU Ostrava, 2007 [cit. 2024-09-09]. ISBN 80-248-1194-4. Dostupné z: https://homel.vsb.cz/~oti73/cdpastl/
[4] ZVÁRA, K. a ŠTĚPÁN, J. Pravděpodobnost a matematická statistika. Matfyzpress, 2019. ISBN 978-80-7378-388-4.
Kapitola 6
Náhodný vektor
Po prostudování této kapitoly budete umět:
určit hustotu pravděpodobnosti a distribuční funkci náhodného vektoru,
vypočítat marginální funkce náhodného vektoru a charakteristiky náhodného vek toru - kovarianci a koeficient korelace.
Klíčová slova:
Náhodný vektor, hustota pravděpodobnosti, distribuční funkce, kovariance, koeficient ko relace.
93
Základy statistiky
Náhled kapitoly
V této kapitole se zaměříme na pojem náhodného vektoru, což je rozšíření náhodné veličiny na případ dvou nebo více veličin současně. Probereme základní vlastnosti náhodného vektoru, společné a marginální rozdělení, a ukážeme si, jak lze analyzovat závislosti mezi jednotlivými složkami vektoru. Dále se budeme věnovat výpočtu číselných charakteristik, jako je střední hodnota, kovariance a koeficient korelace, a jejich významu při práci s vícerozměrnými daty.
Cíle kapitoly
Cílem je formálně pochopit, jak pracovat s více náhodnými veličinami současně a jakými nástroji lze měřit lineární závislost mezi nimi.
Časová náročnost
Pro zvládnutí této kapitoly doporučujeme věnovat přibližně 3 hodiny studiu teorie, výpočtu charakteristik náhodného vektoru a řešení praktických příkladů.
6.1    Dvourozměrný náhodný vektor
Náhodný vektor představuje rozšíření pojmu náhodné veličiny na případ dvou a více náhodných veličin současně. Popisuje pravděpodobnostní chování více veličin a umožňuje analyzovat jejich společnou distribuci a závislosti mezi nimi. V této kapitole se zaměříme na případ dvourozměrného náhodného vektoru.
Definice 6.1 (Náhodný vektor). Náhodný vektor (X,Y) je uspořádaná dvojice náhodných veličin. Pro popis jeho pravděpodobnostní struktury se využívá společná pravděpodobnostní funkce p(x,y) u diskrétních veličin nebo hustota pravděpodobnosti f(x,y) u spojitých veličin.
Definice 6.2 (Společná pravděpodobnostní funkce a hustota pravděpodobnosti). V případě diskrétních veličin je společná pravděpodobnostní funkce p(x,y) = P(X = x,Y = y) definována jako pravděpodobnost, že X = x a, Y = y. U spojitých veličin je společná hustota pravděpodobnosti f(x,y) definována tak, že pro pravděpodobnost výskytu v dané oblasti platí:
P(X e (x1;x2),Y e (yi;y2)) =       / f(x,y)dydx.
Náhodný vektor
94
Definice 6.3 (Marginální rozdělení). Marginální rozdělení popisuje pravděpodobnostní chování jednotlivých složek náhodného vektoru (jakoby izolovaně). U diskrétních veličin získáme marginální pravděpodobnosti pi(x) a p2{y) sečtením přes druhou proměnnou:
Pi(x) = ^2p(x,v), P2(y) = J2p(x>v)-
y x Pro spojité veličiny získáme marginální hustoty f\(x) a f2{y) integrací:
fi(x) =      f(x,y)dy,   f2(y) = / f(x,y)dx.
Definice 6.4 (Distribuční funkce). Distribuční funkce náhodného vektoru F(x,y) je definována jako:
F(x,y) = P(X <x,Y <y).
U spojitých veličin platí:
ex í-y
F(x,y) = I     / f(u,v)dvdu.
Definice 6.5 (Podmíněné rozdělení). Podmíněná pravděpodobnost p(x \ y) je definována jako podíl společné a marginální pravděpodobnosti:
píx y) = —T~r Pro P2\y) > o. My)
Pro spojité veličiny je podmíněná hustota definována obdobně:
f(x\y) = %4 pro f2(y)>o.
Definice 6.6 (Číselné charakteristiky náhodného vektoru). Mezi základní charakteristiky náhodného vektoru (X, Y) patří střední hodnota, rozptyl a kovariance:
/oo x ■ fi(x) dx (spojité).
Kovariance Cov(X, Y) vyjadřuje míru společné variability obou veličin a počítá se jako: Cov(X,Y) = E[(X - E(X))(Y - E(Y))} = E(XY) - E(X)E(Y).
95
Základy statistiky
Definice 6.7 (Koeficient korelace). Koeficient korelace p(X,Y) vyjadřuje míru lineární závislosti mezi veličinami X a Y. Je definován vztahem:
,(jr,v) = íW>,
ax ■ cry
kde ax a oy jsou směrodatné odchylky veličin laľ. Hodnota p(X, Y) leží vždy v intervalu
<-i;i>-
6.2    Řešené príklady
Příklad 6.8. Najděte konstantu c, tak aby funkce:
f(x,y)
byla hustotou pravděpodobnosti nějakého spojitého náhodného vektoru (X,Y).
-y
0, jinak
Cifri,   2 <x< 3,0 <y<l,
Řešení: Aby byla funkce f(x,y) korektní hustotou pravděpodobnosti, musí být její integrál přes celý definiční obor roven 1:
rl ŕ-3
\   \ c-- dx dy = 1.
Jo Í2   1 + y2
Integrál lze rozdělit na součin dvou jednorozměrných integrálů:
-1 ŕ  x2 í ŕ   i     \  ( ŕ
dx dy = I /      ~    dy \ ■ [ I  x2 dx ) .
o Í2 1 + y \Jo l + yz    ) \J2
Vnitřní integrál je:
c co	X3	3 27	8 19
/  x dx =	-	= — —	
to	3	2 3	
/-- dy = [arctan(í/)](l1 = arctan(l) — arctan(O) = —.
jo 1+r 4
Vnější integrál je:
,i i
T
Celková hodnota integrálu je tedy:
f1 [3   x2    n   n      n   19 19tt
/   /-- dxdy = — ■ — =-.
Jo h 1 + y2 4   3 12
Z podmínky pro hustotu vyplývá:
19tt     _ 12
12 19tt Hustota pravděpodobnosti má tedy výsledný tvar:
f(x,y)
12 -  x 2<x<3,0<y<l,
19tt    1+y2 i
0, jinak.
□
Náhodný vektor
96
Příklad 6.9. Studenti z jedné studijní skupiny byli na zkoušce z matematiky a fyziky s těmito výsledky (první hodnota v uspořádané dvojici označuje známku z matematiky, druhá z fyziky):
(1,1), (1, 2), (1, 3), (2, 2), (2, 3), (2,3), (3, 2), (3, 2), (3,3), (3, 3), (3, 3), (3,3), (3, 3), (3,4), (3,4), (4, 3), (4, 3), (4,4), (4,4), (4,4).
1. Vytvořte pravděpodobnostní tabulku náhodného vektoru (X,Y), kde X je výsledek z matematiky a V z fyziky.
2. Určete marginální pravděpodobnostní funkce pi{x) a P2{y)-
3. Určete hodnoty distribuční funkce F(x,y).
4. Určete podmíněné pravděpodobnosti p{x \ y).
Řešení: Celkový počet studentů je n = 20.
1. Pravděpodobnostní tabulka pro náhodný vektor (X,Y):
X\Y	1	2	3	4
1	0,05	0,05	0,05	0
2	0	0,05	0,10	0
3	0	0,10	0,25	0,10
4	0	0	0,10	0,15
Čísla v buňkách vznikla jako relativní četnosti dvojic, např. dvojice (3, 2) je v datech dvakrát, takže p(3, 2) =     = 0,10.
2. Marginální pravděpodobnostní funkce pi(x) a P2{y)'-
X\Y	i	2	3	4	Pi(ar)
1	0,05	0,05	0,05	0	0,15
2	0	0,05	0,10	0	0,15
3	0	0,10	0,25	0,10	0,45
4	0	0	0,10	0,15	0,25
P2(y)	0,05	0,20	0,50	0,25	1,00
Marginální pravděpodobnosti pi(x) jsou zkrátka řádkové součty a P2(y) sloupcové součty.
3. Distribuční funkce F(x,y):
Distribuční funkce F(x,y) je součtem všech pravděpodobností pro pole vlevo nahoře od daného bodu {X < x a Y < y). Příklad výpočtu pro F(3, 3):
F(3, 3) = P(X < 3, Y < 3) = 0,05 + • • • + 0,25 = 0,65.
97
Základy statistiky
Tabulka hodnot distribuční funkce:
X\Y	1	2	3	4
1	0,05	0,10	0,15	0,15
2	0,05	0,15	0,30	0,30
3	0,05	0,25	0,65	0,75
4	0,05	0,25	0,75	1,00
4. Podmíněné pravděpodobnosti p(x \ y):
Získáme je dělením hodnot uvnitř tabulky příslušnou marginální pravděpodobností sloupce P2(y)-
Např. p(3 | 3) =      = 0,50. Tabulka podmíněných pravděpodobností:
X\Y	1	2	3	4
1	1,00	0,25	0,10	0,00
2	0,00	0,25	0,20	0,00
3	0,00	0,50	0,50	0,40
4	0,00	0,00	0,20	0,60
□
Příklad 6.10. Určete číselné charakteristiky náhodného vektoru (X, Y), který je zadán tabulkou:
Y\X	2	3	6
1	0,15	0,20	0,10
3	0,20	0,05	0,30
Řešení: Budeme postupovat krok za krokem:
1. Střední hodnota E(X) a E(Y): Vypočítají se jako vážený průměr s vahami odpovídajícími marginálním pravděpodobnostem:
E(X) = 2 • (0,15 + 0,20) + 3 • (0,20 + 0,05) + 6 • (0,10 + 0,30) = 2 • 0,35 + 3 • 0,25 + 6 • 0,40 = 3,85. E(Y) = 1 • (0,15 + 0,20 + 0,10) + 3 • (0,20 + 0,05 + 0,30) = 1 • 0,45 + 3 • 0,55 = 2,10.
2. Rozptyl D(X) a D(Y):
D(X) = y£y£(xi-E(X))2-p(xi,yj)
i j
D(X) = (2 - 3,85)2 • 0,35 + (3 - 3,85)2 • 0,25 + (6 - 3,85)2 • 0,40 = = (-1,85)2 • 0,35 + (-0,85)2 • 0,25 + 2,152 • 0,40 = 1,197875 + 0,180625 + 1,849 = 3,2275.
Náhodný vektor
98
D(Y) = (1 - 2,10)2 • 0,45 + (3 - 2,10)2 • 0,55 = (-1,10)2 • 0,45 + 0,902 • 0,55 = 0,99.
3. Kovariance Cov(X, Y):
Cov(X,Y) = EE(^ " Eix)) ■ ÍVi ~ E(Y))-p(x,t,yj).
i j
Rychlejší výpočet je přes vztah Cov(X, Y) = E(XY) —E(X)E{Y). Očekávaná hodnota součinu je:
E(XY) = (2 • 1 • 0,15) + (3 • 1 • 0,20) + (6 • 1 • 0,10) + (2 • 3 • 0,20) + (3 • 3 • 0,05) + (6 • 3 • 0,30) = 8,55. Kovariance je tedy:
Cov(X, Y) = 8,55 - (3,85 • 2,10) = 8,55 - 8,085 = 0,465.
4. Koeficient korelace p(X,Y):
Cov(X,Y) 0,465 0,465
p(X, Y) = v  '   ;= = = « —-« 0,26.
lD{X) ■ D{Y)     V^275 • 0,99 1,7875
Jedná se o poměrně slabou pozitivní lineární závislost mezi náhodnými veličinami laľ. □
Příklad 6.11. Vypočtěte střední hodnotu náhodné veličiny X náhodného vektoru, který je určen hustotou pravděpodobnosti:
f{x^) = \\^x + y)i o<x<f,o<í,<|,
'        1 0, jinak.
Řešení: Střední hodnota složky X je dána dvojným integrálem:
E(X) = /    /   x ■ - sin(x + y) dx dy. Jo Jo 2
Nejprve integrujeme podle proměnné x (metodou per partes, kde u = x, v' = sin(x + y))\
x sin(x + y) dx = —x cos(x + y) + sin(x + y). Po dosazení mezí 0 a | pro vnitřní integrál máme:
\-x cos(x + y) + sin(x + í/)]02 =      cos      + yj + sin      + yj - sin(y).
S využitím goniometrických vzorců cos^+y) = — sin(y) a sin(|+í/) = cos(y) obdržíme vnitřní část jako:
7T
-sin(y) + cos(y) - sin(y).
Tento výsledek nyní integrujeme podle y na intervalu od 0 do | a nezapomeneme vynásobit konstantou | stojící před integrálem:
E(X) = ^jj        - l) Sin(y) + cos^)) dy. Základní integrály dají [—cos(í/)] a [sin(í/)], po dosazení mezí:
'(f-l)-(O-(-!))+ (1-0)
E(X) = I
1  /7T \ 7T
2U-1 + 1) = 4'
□
99
Základy statistiky
OV této kapitole jsme se seznámili s konceptem náhodného vektoru, který představuje rozšíření pojmu náhodné veličiny na případ dvou a více náhodných veličin současně. Náhodný vektor popisuje pravděpodobnostní chování více veličin a umožňuje analyzovat jejich společnou distribuci a závislosti mezi nimi.
V této kapitole jsme rovněž řešili praktické příklady, ve kterých jsme aplikovali výše uvedené koncepty. Náhodný vektor je důležitým nástrojem při analýze dat, kde je třeba zkoumat více proměnných současně a jejich vzájemné vztahy. Tato kapitola poskytuje základní porozumění tomu, jak tyto závislosti modelovat a analyzovat.
' Definice náhodného vektoru: Náhodný vektor (X, Y) je uspořádaná dvojice náhodných veličin. Pro popis jeho pravděpodobnostní struktury se využívá společná pravděpodobnostní funkce (u diskrétních veličin) nebo hustota pravděpodobnosti (u spojitých veličin).
Společná pravděpodobnostní funkce a hustota pravděpodobnosti: V případě diskrétních veličin (X,Y) je společná pravděpodobnostní funkce p(x,y) definována jako pravděpodobnost, že X = x a, Y = y. U spojitých veličin je obdobně definována společná hustota pravděpodobnosti f(x,y).
• Marginální rozdělení: Marginální rozdělení p\(x) a p2{y) popisuje pravděpodobnostní chování jednotlivých složek náhodného vektoru. Získává se součtem (u diskrétních veličin) nebo integrací (u spojitých veličin) přes všechny hodnoty druhé veličiny.
' Distribuční funkce: Distribuční funkce náhodného vektoru F(x,y) je definována jako pravděpodobnost, že X < x a Y < y.
• Podmíněné rozdělení: Podmíněné rozdělení p(x \ y) popisuje pravděpodobnost, že náhodná veličina X nabude hodnoty x, pokud je známo, že Y = y. Pro spojité veličiny se obdobně definuje podmíněná hustota pravděpodobnosti.
Číselné charakteristiky náhodného vektoru: Mezi základní číselné charakteristiky patří střední hodnota, rozptyl, kovariance a koeficient korelace. Tyto charakteristiky umožňují popsat závislosti mezi složkami náhodného vektoru a míru jejich vzájemné závislosti.
' Koeficient korelace: Koeficient korelace p(X, Y) udává míru lineární závislosti mezi veličinami X a Y. Hodnota p se pohybuje v intervalu (—1; 1), kde hodnoty blízké 1 nebo -1 indikují silnou pozitivní, resp. negativní závislost, zatímco hodnoty blízké 0 indikují slabou nebo žádnou závislost.
1. Co je to dvourozměrný náhodný vektor a jak se liší od jednorozměrné náhodné veličiny?
2. Jak je definována společná pravděpodobnostní funkce dvou náhodných veličin X a
Y?
3. Vysvětlete rozdíl mezi marginálním a podmíněným rozdělením náhodného vektoru.
4. Jak se vypočítá marginální rozdělení z dvourozměrného náhodného vektoru?
5. Jaká je definice kovariance a co vyjadřuje o závislosti mezi náhodnými veličinami X
a Yl
6. Co vyjadřuje koeficient korelace a v jakém intervalu se jeho hodnota pohybuje?
Náhodný vektor
100
Jaký je vztah mezi kovariancí a koeficientem korelace pro náhodný vektor (X, Y)l
Uveďte příklad praktického využití dvourozměrného náhodného vektoru v ekonomii nebo managementu.
Náhodný vektor (X, Y) má pravděpodobnostní funkci zadanou tabulkou:
X\Y	1	2	3
-1	0,15	0,05	0,10
0	0,10	0,10	0,15
1	0,05	0,10	0,20
Určete:
a. P(X = 0,F = 3) [0,15]
b. P (X < 0,5, Y < 2,5) [0,40]
c. P (X >0,Y > 2,5) [0,20]
d. marginální rozdělení P(X)   [P (X = -1) = 0,30, P (X = 0) = 0,35, P (X = 1) = 0,35]
e. marginální rozdělení P{Y)   [P (Y = 1) = 0,30, P (Y = 2) = 0,25, P (Y = 3) = 0,45]
10. Pro náhodný vektor daný následující tabulkou vypočtěte koeficient korelace:
X\Y	1	0
1	0,05	0,01
0	0,02	0,92
[Koeficient korelace p(X, Y) 0,7558]
7.
8.
9.
e
Literatura k tématu:
[1] ANDĚL, J. Statistické metody. 5. vyd. Praha: Matfyzpress, 2019. ISBN 978-80-7378-381-5.
[2] HINDLS, R. Statistika pro ekonomy. 8. vyd. Praha: Professional Publishing, 2007. ISBN 978-80-869-4643-6. ISBN 978-80-867-3208-8.
[3] MAREK, L. Statistika v příkladech. 2. vyd. Praha: Kamil Mařík - Professional Publishing, 2015. ISBN 978-80-743-1153-6.
[4] OTIPKA, P., SMAJSTRLA, V. Pravděpodobnost a statistika [online]. 1. vydání. Ostrava: VŠB-TU Ostrava, 2007 [cit. 2024-09-09]. ISBN 80-248-1194-4. Dostupné z: https://homel.vsb.cz/~oti73/cdpastl/
[5] ZVÁRA, K. a ŠTĚPÁN, J. Pravděpodobnost a matematická statistika. Matfyzpress, 2019. ISBN 978-80-7378-388-4.
Kapitola 7
Statistický soubor s jedním
argumentem
Po prostudování této kapitoly budete umět:
určit základní popisné charakteristiky statistického souboru s jedním argumentem (viz klíčová slova),
• využít k těmto výpočtům statistický software (Excel).
Klíčová slova:
Základní soubor, statistická jednotka, četnosti, grafické znázornění četností, aritmetický průměr, modus, kvantily, medián, kvartily, decily, percentily, rozptyl, směrodatná odchylka.
Statistický soubor s jedním argumentem
102
Náhled kapitoly
V předchozích kapitolách jsme se věnovali spíše teoretickým modelům, zde se dostáváme k práci s daty. Tato kapitola se zaměřuje na základní popisné statistiky statistického souboru s jedním argumentem (s jednou proměnnou). Probereme různé druhy četností, jejich tabulkové a grafické znázorňování, dále různé míry polohy a variability dat. Prostě vše, co nám umožní mít ucelenější představu o rozložení dat. V následující kapitole tyto prostředky rozšíříme na dvourozměrný případ, kde nám k popisu jednotlivých proměnných přibude i jejich vzájemný vztah.
Cíle kapitoly
Cílem této kapitoly je získat základní potřebné dovednosti při práci s jednoduchými daty z pohledu popisné statistiky, tedy umět provádět potřebné výpočty a chápat jejich výsledky.
Časová náročnost
Pro tuto kapitolu doporučujeme vyčlenit přibližně 3 hodiny, které zahrnují jak studium teoretických částí, tak procvičování praktických příkladů a aplikací.
7.1    Základní pojmy a vlastnosti
Pravděpodobnost vs. statistika
Pravděpodobnost je matematický model reality. Jedná se o idealizovaný, abstraktní model, který pracuje s jednou nebo více náhodnými veličinami, jejichž rozdělení je známé. Z podstaty věci je tento model nepozorovatelný - představuje pouze naši abstrakci skutečnosti.
Pravděpodobnost se zabývá náhodnými veličinami a jejich rozdělením.
Jejím cílem je popsat, jak by se náhodné veličiny mohly chovat v určitém modelu.
Pravděpodobnostní modely jsou používány v mnoha oblastech pro predikci nejistých jevů.
Statistika naopak vychází z pozorování (měření) hodnot konkrétních veličin. Statistika zkoumá jevy na rozsáhlém souboru dat a činí o nich závěry pomocí statistické indukce. Výsledky z malého vzorku jsou zobecňovány na rozsáhlejší populaci.
103
Základy statistiky
Statistika používá odhady, protože žádný konečný výběr nemůže poskytovat úplnou informaci o rozdělení náhodných veličin v populaci.
Statistika hledá pravidelnosti a souvislosti v datech a zobecňuje výsledky na širší soubor, než byl ten, ze kterého byly odvozeny.
Vychází z reálných dat, na jejichž základě činí závěry o celkové populaci.
Příklady aplikací statistiky:
' Mají lidé, kteří pravidelně cvičí, lepší zdravotní ukazatele než ti, kteří necvičí?
• Je průměrná výše příjmů v určité oblasti závislá na vzdělání obyvatel?
Jaká je pravděpodobnost, že nový produkt na trhu uspěje na základě výsledků z testovacího vzorku?
Data
Data představují klíčový prvek statistických analýz. Jedná se o pozorování, která provádíme za účelem zodpovězení položených otázek.
Matematicky: data jsou realizací náhodné veličiny. Jedná se tedy o konkrétní hodnoty, které náhodná veličina může nabýt při experimentu nebo měření.
Datové tabulky: Data jsou často organizována ve formě tabulek, kde řádky představují jednotlivá pozorování, zatímco sloupce odpovídají měřeným proměnným.
' Řádky: Pozorování se týkají nezávislých subjektů náhodného výběru, jako jsou osoby, experimenty nebo jednotky sledování.
Sloupce: Každý sloupec odpovídá určité měřené veličině, například věk, pohlaví, výška, váha apod.
Software: Pro správu a zpracování dat se používá řada softwarových nástrojů. Nejčastěji jsou využívány databázové systémy nebo tabulkové procesory, jako je Excel.
Statistický software: K analýze dat slouží specializované statistické programy, jako jsou SAS, Statistica, SPSS, R nebo Python.
Ve statistice hraje správná organizace a správa dat zásadní roli, protože dobře strukturovaná data umožňují efektivnější analýzu a zajišťují správnost výsledků.
Statistický soubor s jedním argumentem
104
Popisná statistika
Popisná statistika představuje základní část statistické analýzy. Jejím cílem je sumarizovat a jednoduše popsat data, která máme k dispozici.
Pojmový aparát statistiky: Zahrnuje základní statistické pojmy, jako jsou průměr, medián, rozptyl, směrodatná odchylka, kvartily a další.
Základní nástroj analýzy dat: Pomocí popisných statistik můžeme rychle získat přehled o základních vlastnostech dat. Například průměr poskytuje informaci o střední hodnotě souboru, zatímco rozptyl nám řekne, jak jsou data rozložena kolem této hodnoty.
Prostředky pro prezentaci dat a výsledků: Popisná statistika je často doprovázena vizuálními nástroji, jako jsou grafy, tabulky a diagramy, které umožňují efektivní prezentaci dat a usnadňují jejich interpretaci.
Příkladem aplikace popisné statistiky může být analýza průměrných platů v různých regionech, kde nás může zajímat nejen střední hodnota platu, ale také rozptyl a medián, abychom lépe porozuměli rozložení příjmů v dané populaci.
Základní pojmy ve statistice
Pro práci se statistickými daty je důležité nejprve pochopit několik základních pojmů:
Definice 7.1. Statistická jednotka je objekt, který chceme zkoumat. Může se jednat o osoby, domácnosti, firmy, organismy, obce, kraje atd. Každá statistická jednotka je nositelem určité vlastnosti, která nás zajímá a kterou zkoumáme.
Definice 7.2. Statistický soubor je množina statistických jednotek, které jsou předmětem našeho zkoumání:
Základní soubor: Množina všech statistických jednotek, jejichž vlastnosti chceme poznat. Tento soubor zahrnuje veškeré objekty, které odpovídají naší studii, např. všechny domácnosti v určitém kraji.
Výběrový soubor: Množina skutečně vyšetřovaných statistických jednotek, které jsou náhodně vybrány ze základního souboru. Tento výběr by měl být reprezentativní pro celou populaci.
105
Základy statistiky
Definice 7.3. Statistický znak je vlastnost, která je zjišťována na každé statistické jednotce. Tato vlastnost je v rámci statistiky považována za náhodnou veličinu. Mezi běžné statistické znaky patří např. pohlaví, věk, výška, hmotnost, počet dětí, barva očí, dopravní prostředek, počet úrazů, jméno.
Definice 7.4. Rozsah souboru (často označován jako n) představuje počet zkoumaných statistických jednotek v daném souboru.
Typy statistických znaků
Statistické znaky se dělí do několika kategorií podle svého charakteru:
Kvalitativní znaky (někdy nazývané kategorické): Jedná se o slovní nebo katego-riální znaky, které nemohou být vyjádřeny numericky. Příkladem jsou pohlaví, barva očí nebo dopravní prostředek, který statistická jednotka používá.
Kvantitativní znaky (číselné, numerické):
Spojité znaky: Mohou nabývat jakékoli hodnoty na určitých intervalech, např. výška, hmotnost nebo věk. Tyto znaky mohou být měřeny s libovolnou přesností.
' Diskrétní znaky: Nabývají pouze určitých konkrétních hodnot, např. počet dětí nebo počet úrazů. Tyto znaky mají omezený počet možných hodnot.
Alternativní znaky: Tyto znaky mohou nabývat pouze dvou hodnot, např. zda osoba kouří či nikoli, nebo zda byl test úspěšný či neúspěšný.
Množné znaky: Jedná se o znaky, které mohou nabývat tří a více hodnot, např. dopravní prostředek (auto, kolo, autobus).
Jednorozměrný statistický soubor
V jednorozměrném statistickém souboru se zabýváme pouze jedním statistickým znakem X a jeho hodnotami v rámci výběrového souboru.
Statistický soubor s jedním argumentem
106
Označení:	
	■ ,£n} výběrový soubor: Každá Si je statistická jednotka.
• X: statistický znak, který zkoumáme na každé statistické jednotce.	
• xf hodnota znaku X na objektu Sj, kde j = 1,... ,n.	
(xi,..	. ,xn): datový soubor, který obsahuje hodnoty znaku X pro všechny jednotky.
	.., rE(n)): uspořádaný datový soubor, tj. x^ < ■ ■ ■ < X(ny
(x{1],.	.. ,X[r]): vektor variant znaku X, tj. různé hodnoty, které znak X nabývá, kde
x[i] ŕ	pro i Ý j-
Jednorozměrný statistický soubor nám umožňuje analyzovat hodnoty určitého znaku v rámci výběrového souboru a zjišťovat jejich rozložení.
7.2    Rozložení četností
Kde se s ním setkáme v praxi?
Rozložení četností je ten vůbec nejzákladnější nástroj pro práci s daty. Setkáme se s ním všude, kde potřebujeme z nepřehledné hromady surových dat získat rychlý přehled - ať už jde o přehled známek studentů z písemky, analýzu počtu prodaných kusů zboží v jednotlivých dnech, nebo rozdělení velikostí bot prodaných v e-shopu.
Rozložení četností slouží ke zpřehlednění datového souboru. Při této analýze sledujeme, kolikrát se jednotlivé hodnoty nebo intervaly hodnot vyskytují v našem výběrovém souboru.
Bodové rozložení četností: Používá se pro diskrétní znaky s malým počtem variant, kdy četnost přiřazujeme jednotlivým variantám (hodnotám).
Intervalové rozložení četností: Používá se pro diskrétní znaky s velkým počtem variant nebo pro spojité znaky, kdy četnost přiřazujeme třídícím intervalům.
Bodové rozložení četností
Bodové rozložení četností se vztahuje k jednotlivým hodnotám diskrétního znaku a zahrnuje následující typy četností:
107
Základy statistiky
Definice 7.5. (Absolutní) četnost varianty xyy. označována jako rij, představuje počet výskytů hodnoty xy] ve výběrovém souboru.
Definice 7.6. Relativní četnost varianty xyy. označována jako pj = kde n je celkový počet pozorování. Relativní četnost můžeme chápat jako empirickou pravděpodobnost.
Definice 7.7. (Absolutní) kumulativní četnost prvních j variant: označována jako Nj = ni + • • • + rij, představuje součet četností prvních j variant.
Definice 7.8. Relativní kumulativní četnost prvních j variant: označována jako Fj = = pi + • • • + Pj, představuje kumulativní relativní četnost, což je suma relativních četností až po j-tou variantu.
Definice 7.9. Empirická distribuční funkce pro bodové rozložení četností je definována následovně:
(0     pro x < X[i] Fj   pro x{j] < x < x[j+1],   j = 1,..., r - 1 1     pro x > X[r]
Tato funkce zachycuje rozložení četností ve výběrovém souboru a zobrazuje kumulativní pravděpodobnost dosažení určité hodnoty.
Příklad 7.10 (Bodové rozložení četností). Při zápočtu ze statistiky se studenti podrobili testu, ve kterém mohli získat 0 až 15 bodů. Výsledky testu jsou následující:
5, 10, 6, 7, 0, 2, 2, 4, 8, 10, 12, 15, 0, 0, 4, 2, 7, 10, 15, 0, 6, 5, 6, 9, 8, 7, 10, 12, 6, 0.
Vytvořte tabulku rozložení bodových četností (absolutních, relativních a kumulativních relativních) a nakreslete graf empirické distribuční funkce.
Řešení: Bodové rozložení četností je zobrazeno v tabulce 2 a graf empirické distribuční funkce na obrázku 13. □
Tento příklad ilustruje základní práci s bodovým rozložením četností, které umožňuje zjistit, kolik studentů dosáhlo určitého výsledku v testu a jak se tyto výsledky kumulují v rámci celého souboru.
Statistický soubor s jedním argumentem
108
Tab. 2: Bodové rozložení četností výsledků testu z příkladu 7.10
Body	n3	P; (%)	Fs (%)
0	5	16,7	16,7
2	3	10,0	26,7
4	2	6,7	33,4
5	2	6,7	40,1
6	4	13,3	53,4
7	3	10,0	63,4
8	2	6,7	70,1
9	1	3,3	73,4
10	4	13,3	86,7
12	2	6,7	93,4
15	2	6,7	100,0
Celkem	30	100,0	-
0,934 0^867
0,734 0 701 0^634
0,534
0,401 0 334 0^267
0,167
4 5 6 7 8 9 10 12
15
x
Obr. 13: Graf empirické distribuční funkce pro bodové rozložení četností z příkladu 7.10
109
Základy statistiky
Intervalové rozložení četností
Od bodového se liší tím, že na počátku celkový interval (rozsah) hodnot rozdělíme na menší podintervaly (rozsahy) a následně četnosti přiřazujeme celým těmto podintervalům. Po tomto kroku již vše funguje jako u bodových četností. Ukažme si to na následujícím příkladu.
Příklad 7.11 (Intervalové rozložení četností). U 70 žen byla změřena hladina hemoglobinu s přesností 0,1 g/100 ml. Výsledky jsou následující:
10,2; 13,7; 10,4; 14,9; 11,5; 12,0; 11,0; 13,3; 12,9; 12,1; 9,4; 13,2; 10,8; 11,7; 10,5; 13,7; 11,8; 14,1; 10,3; 13,6; 12,1; 12,9; 11,4; 12,7; 10,6; 11,4; 11,9; 9,3; 13,3; 14,6; 11,2; 11,7; 10,9; 10,4; 12,0; 12,9; 11,1; 10,2; 11,6; 12,5; 13,4; 12,1; 9,7; 11,3; 10,9; 14,7; 10,8; 13,3; 11,9; 11,4; 12,5; 13,0; 11,6; 13,4; 12,3; 11,0; 14,6; 11,1; 13,5; 10,9; 13,1; 11,8; 12,2; 8,5; 10,1; 10,7; 11,3; 12,8; 13,9; 15,2.
Vytvořte tabulku rozložení intervalových četností (absolutních, relativních a kumulativních relativních).
Řešení: Intervalové rozložení četností je zobrazeno v tabulce 3. □ Tab. 3: Intervalové rozložení četností hladiny hemoglobinu u žen z příkladu 7.11
Hladina hemoglobinu v g/100 ml	n3	PS (%)	Fi (%)
8,0 8,9	1	1,4	1,4
9,0 9,9	3	4,3	5,7
10,0 10,9	14	20,0	25,7
11,0 11,9	19	27,1	52,9
12,0 12,9	14	20,0	72,9
13,0 13,9	13	18,6	91,4
14,0 14,9	5	7,1	98,6
15,0 15,9	1	1,4	100,0
Celkem	70	100,0	-
Tento příklad ilustruje základní práci s intervalovým rozložením četností, které nám umožňuje zjistit rozložení hodnot v rámci měřeného souboru a sledovat kumulativní četnosti pro jednotlivé intervaly.
7.2.1     Grafické znázornění četností
Znázorňujeme relativní a absolutní četnosti nebo relativní a absolutní kumulativní četnosti.
Statistický soubor s jedním argumentem
110
Koláčový graf
Koláčový graf se používá pro zobrazení absolutních i relativních četností, ale v obou případech vypadá stejně. Liší se jen popiskami (absolutními nebo relativními, ale mohou tam být i obě). Na obrázku 14 je příklad koláčového grafu, který zobrazuje rozložení prodeje různých kategorií produktů ve firmě.
■ Produkty A
■ Produkty B
■ Produkty C □ Produkty D
■ Produkty E
Obr. 14: Koláčový graf rozložení prodeje produktů ve firmě
Histogram (sloupcový graf)
Histogram je sloupcový graf, který používáme pro znázornění rozložení četností. U bodového rozložení četností přiřadíme hodnotě xy] obdélník, jehož výška je úměrná zjištěné četnosti. Na obrázku 15 je histogram výsledků testu ze statistiky z příkladu 7.10.
—	5						t						t				
		3	2 \		l			3	2					í	I 2		
										]							
0 2 4 5 6 7 8 9 10 12 15 Počet bodů
Obr. 15: Histogram absolutních četností výsledků testu ze statistiky z příkladu 7.10
Histogram pro hladinu hemoglobinu (v g/100 ml) z příkladu 7.11 je na obrázku 16. Každý sloupec pokrývá celý rozsah daného intervalu.
111
Základy statistiky
a,1
O
(ľ >o
>
(ľ tí
0,3
0,2
0,1
8 9 10 11 12 13 14 15 Hladina hemoglobinu [g/100 ml]
7.3
Obr. 16: Histogram relativních četností hladiny hemoglobinu z příkladu 7.11
Charakteristiky polohy a variability
Kde se s nimi setkáme v praxi?
Zatímco rozložení četností (tabulky a grafy) nám dává detailní pohled na celá data, v praxi často potřebujeme soubor popsat a porovnat jen pomocí několika málo čísel. Například při hodnocení platů ve firmě nás zajímá průměrný plat, nebo ještě lépe medián (typický plat očištěný o extrémně vysoké odměny managementu). Dále nás zajímá, jak moc se platy od tohoto středu liší - jsou všichni placeni zhruba stejně, nebo jsou mezi platy propastné rozdíly? K tomu právě slouží charakteristiky polohy (kde je střed dat) a variability (jak moc jsou data rozptýlená).
Charakteristiky polohy a variability jsou základními nástroji pro popis rozložení dat.
Mezi charakteristiky polohy patří například aritmetický průměr, medián, modus a výběrové kvantily. Tyto charakteristiky poskytují informace o střední hodnotě dat a jejich umístění na číselné ose.
Charakteristiky variability zahrnují mj. rozptyl, směrodatnou odchylku, rozpětí a interkvar-tilové rozpětí. Tyto charakteristiky popisují, jak jsou data rozptýlena kolem střední hodnoty. Společně tyto charakteristiky umožňují komplexní popis a analýzu statistických dat.
Míry polohy
Míry polohy, nebo také charakteristiky centrální tendence, popisují střední hodnotu dat a poskytují přehled o tom, kde se data nejvíce koncentrují. Mezi nej důležitější charakteristiky patří:
Aritmetický průměr (x) - Nejběžnější charakteristika centrální tendence, která se počítá jako podíl součtu všech hodnot a jejich počtu:
_     1 n
x        y X{;
Statistický soubor s jedním argumentem
112
kde n je celkový počet hodnot a x i jsou jednotlivé hodnoty.
' Medián (x) - Střední hodnota uspořádaných dat. U lichého počtu hodnot je medián prostřední hodnota, u sudého počtu hodnot je medián průměr dvou prostředních hodnot. Medián je velmi vhodný pro data s odlehlými (extrémními) hodnotami, protože jimi není na rozdíl od průměru ovlivněn.
' Modus (x) - Hodnota, která se v datech vyskytuje nejčastěji. V některých případech mohou data mít více než jeden modus, což se označuje jako vícemodální (multimodální) rozložení.
Harmonický průměr (řřharm) - Je vhodný pro průměrování poměrových veličin, jako je například výpočet průměrné rychlosti na stejně dlouhých úsecích:
_ n
^harm = j~
Geometrický průměr (xgeoni) - Používá se pro data, která se vztahují k růstu nebo procentním změnám (např. průměrný meziroční koeficient růstu):
geom
\
n*<= n
Xi
i=i
Ví=l
Výběrové kvantily - Hodnoty, které dělí uspořádaný datový soubor na daný počet stejně velkých částí. Kvantil na úrovni a (kde a G (0; 1)) odděluje dolních 100a % hodnot od zbylých horních 100(1 — a) %. Nejčastěji používané kvantily jsou:
• První kvartil (0,25-kvantil) - Hodnota, pod kterou leží 25% dat.
• Medián (0,50-kvantil) - Hodnota, pod kterou leží 50% dat.
• Třetí kvartil (0,75-kvantil) - Hodnota, pod kterou leží 75 % dat.
Výběrové kvantily se obvykle určí z uspořádaných dat jako hodnoty, které odpovídají pozicím P = a (n + 1), kde a je zvolená hladina kvantilu a n je počet pozorování. Pokud pozice není celé číslo, používá se k přesnému výpočtu lineární interpolace mezi dvěma sousedními hodnotami (je dobré vědět, že různé softwary jako Excel nebo R mohou používat mírně odlišné vzorce pro výpočet interpolace).
Aritmetický průměr
Pozorování x±,..., xn představují hodnoty znaku zjištěné na jednotlivých statistických jednotkách z nesetříděného datového souboru. Aritmetický průměr je základní mírou polohy, která se počítá jako součet všech pozorování dělený jejich počtem.
Definice 7.12. Aritmetický průměr (nesetříděného) souboru:
_ X\ ~\~ ' ' ' ~\~ 1 ^—r
X /  . X{
n n ,
i=i
113
Základy statistiky
Definice 7.13. Aritmetický průměr z rozložení četností (tzv. vážený průměr, kde vahami jsou absolutní četnosti):
_ _ X[i\ni H-----h X[r]nr _ 1 -A
ni + ••• + nr np[  111 J
kde xy] jsou jednotlivé varianty znaku a    jsou jejich absolutní četnosti (přičemž    nj = n)-
Definice 7.14. Vážený aritmetický průměr:
Pokud je soubor rozdělen do s dílčích skupin (podsložek), které mají své vlastní dílčí průměry Xi a rozsahy n,-n můžeme celkový průměr vypočítat takto:
_ _ Xyj = l •E'ifl'i _ 1   \ ^ _
ni-\-----\-ns nf^
Tento vzorec se používá například při výpočtech, kdy jednotlivé části souboru mají různé velikosti (váhy), které je třeba zohlednit při výpočtu celkového průměru.
Vhodné a nevhodné využití aritmetického průměru
Aritmetický průměr je velmi užitečná míra centrální tendence v situacích, kdy jsou data rovnoměrně rozložena a nejsou ovlivněna extrémními hodnotami.
Vhodné využití:
Aritmetický průměr je vhodný pro soubory dat, které mají symetrické rozdělení (například normální rozdělení), protože průměr zde dobře reprezentuje skutečný střed dat.
Používá se ve statistikách výkonu, výzkumu nebo finanční analýze, kde jsou hodnoty vyvážené a nemají extrémní odchylky.
Nevhodné využití:
' Aritmetický průměr je nevhodný pro soubory dat, které mají výrazně asymetrické (se-šikmené) rozdělení nebo obsahují odlehlé (extrémní) hodnoty. V těchto případech může průměr znatelně zkreslovat představu o datech. Například u příjmů, kde několik málo osob má velmi vysoké příjmy, bude aritmetický průměr vyšší než příjem většiny populace.
' Průměr také nelze smysluplně použít v situacích, kde jsou data kvalitativní (mají nominální nebo ordinální povahu, například jména, pohlaví nebo úroveň vzdělání). Zde matematická operace sčítání postrádá smysl.
V těchto případech je vhodnější použít jiné míry polohy. U asymetrických nebo extrémními hodnotami zatížených dat volíme medián, který lépe vystihuje „typickou" hodnotu. Pro nominální data je pak jedinou smysluplnou charakteristikou modus.
Statistický soubor s jedním argumentem
114
Výběrové kvantily
Definice 7.15. Mějme setříděný soubor, tedy hodnoty dat jsou uspořádané vzestupně: ^(i) < x(2) < • • • < x{n)i kde indexy označují pořadí hodnot v setříděném souboru.
Výběrový a-kvantil (kde a G (0; 1)) je hodnota, která rozděluje seřazený datový soubor na dvě části tak, že:
• alespoň 100a % všech dat je menších nebo rovných xa,
• alespoň 100(1 — a) % všech dat je větších nebo rovných xa.
Určení výběrového a-kvantilu z dat
Postup určení výběrového a-kvantilu závisí na tom, zda hodnota an (kde n je celkový počet pozorování) je přirozené číslo, nebo nikoliv:
' Pokud je an = c, kde c je přirozené číslo,	pak výběrový a-kvantil je průměr hodnot
na pozicích x^ a X(c+1y.	
~  _ XM xa	+ z(c+1) 2
• Pokud an není přirozené číslo, zaokrouhluj	eme an nahoru na nejbližší vyšší přirozené
číslo c a položíme:	
xa	
Pozor na výpočet v softwaru (Excel)!
Výše uvedený postup je klasický "papírový"algoritmus založený na krokové funkci. Pokud ale k výpočtu použijete Excel (funkce PERCENTIL. INC nebo KVARTIL. INC), pravděpodobně dostanete mírně odlišné číslo. Excel totiž k výpočtu používá spojitou lineární interpolaci mezi hodnotami. Z didaktického hlediska jsou správně oba přístupy, u rozsáhlých datových souborů se jejich výsledky prakticky neliší.
Pojmenované kvantily
Některé z často používaných kvantilů mají svá specifická jména:
' Medián (0,50-kvantil) - Hodnota, která dělí data na dvě stejně velké části, tedy 50% dat je menší nebo rovno této hodnotě a 50 % je větší nebo rovno.
Kvartily - Speciální kvantily, které dělí data na čtyři stejné části:
115
Základy statistiky
• První kvartil (0,25-kvantil) - Hodnota, pod kterou leží 25% dat.
• Druhý kvartil (0,50-kvantil) - Medián.
• Třetí kvartil (0,75-kvantil) - Hodnota, pod kterou leží 75 % dat. Decily - Kvantily, které dělí data na deset stejných částí:
• První decil (0,10-kvantil) - Hodnota, pod kterou leží 10% dat.
' Druhý decil (0,20-kvantil) - Hodnota, pod kterou leží 20 % dat, atd.
• Devátý decil (0,90-kvantil) - Hodnota, pod kterou leží 90 % dat.
Percentily - Kvantily, které dělí data na sto stejných částí:
• První percentil (0,01-kvantil) - Hodnota, pod kterou leží 1 % dat.
• Pátý percentil (0,05-kvantil) - Hodnota, pod kterou leží 5% dat.
' Devadesátý pátý percentil (0,95-kvantil) - Hodnota, pod kterou leží 95 % dat.
Medián jako speciální případ výběrového kvantilu
Medián je speciálním případem výběrového kvantilu pro a = 0,5. Tento kvantil rozdělí data na dvě stejně velké části.
Případ lichého n:
Pro lichý počet pozorování n není hodnota n x 0,5 přirozené číslo. Proto podle obecného postupu výpočtu kvantilu zaokrouhlíme n x 0,5 nahoru na nejbližší celé číslo, což určí pořadí mediánu:
^0,5 = ^("±1)-
Tento vzorec plyne z obecného pravidla zaokrouhlení kvantilu nahoru, kdy medián je hodnota na pozici
Příklad 7.16 (Výpočet mediánu pro lichý počet hodnot). Mějme soubor o lichém počtu hodnot n = 7, seřazených jako x^ < x^) < • • • < ^(7)- Určete medián.
Řešení: Hodnota n x 0,5 = 7x 0,5 = 3,5. Tuto hodnotu zaokrouhlíme nahoru na 4 (což odpovídá
Ha)-
vzorci      = 4). Medián bude hodnota na čtvrté pozici, tedy rr0,5 = ^(4)- □
Případ sudého n:
Pro sudý počet pozorování n je hodnota n x 0,5 přirozené číslo. Proto medián, stejně jako obecný kvantil pro přirozené hodnoty n x a, bude průměrem dvou hodnot na pozicích:
% ( n \  ~\~ % ( ri _i_ -i \
^0,5 - g •
Příklad 7.17 (Výpočet mediánu pro sudý počet hodnot). Mějme soubor o sudém počtu hodnot n = 8, seřazených jako x^ < X(2) < • • • < ^(8)- Určete medián.
Řešení: Hodnota n x 0,5 = 8 x 0,5 = 4. Jedná se o celé číslo, takže medián je průměrem hodnot na 4. a 5. pozici:
_ z(4) + z(5)
Xo'5 "       2 •
□
Statistický soubor s jedním argumentem
116
Tímto způsobem medián vyplývá jako speciální případ obecného výpočtu výběrového kvantilu, kde pro liché n postupujeme zaokrouhlením nahoru a pro sudé n použijeme průměr dvou středních hodnot:
Definice 7.18. Mějme uspořádaný datový soubor. Potom medián definujeme takto:
x^n±L^ pro liché n,
x0,5
^ ^ —-   pro sudé n.
Příklad 7.19 (Výpočet kvantilů - n sudé). Ve výrobě se v posledním půl roce v jednotlivých měsících vyskytl následující počet úrazů: 1, 3, 2, 4, 2, 4. Určete medián, první (dolní) kvartil ^o,25 a třetí (horní) kvartil žo,75 počtu úrazů za měsíc.
Řešení: Nejprve data uspořádáme vzestupně podle velikosti:
1,2,2,3,4,4
Rozsah souboru je n = 6.
' Medián: Jelikož an = 0,5 • 6 = 3 je celé číslo, medián je průměrem hodnot na 3. a 4. pozici:
_ x(3) + x{4) _ 2 + 3
x°<5 ~     2     " ~2~ ~ 2,5
' První kvartil: an = 6 • 0,25 = 1,5. Výsledek není celé číslo, zaokrouhlujeme nahoru na 2. pozici: ž0,25 = X(2) = 2.
' Třetí kvartil: an = 6 • 0,75 = 4,5. Zaokrouhlujeme nahoru na 5. pozici: žo,75 = ^(5) = 4.
□
Příklad 7.20 (Výpočet kvantilů - n liché). Ve výrobě se v posledním půl roce v jednotlivých měsících vyskytl následující počet úrazů: 1, 3, 2, 4, 2, 4, 1. Určete medián, první a třetí kvartil počtu úrazů za měsíc.
Řešení: Data uspořádáme vzestupně:
1,1,2,2,3,4,4
Rozsah souboru je n = 7.
• Medián: an = 7 ■ 0,5 = 3,5 =>• zaokrouhlujeme nahoru na 4. pozici:
^0,5 = X(A) = 2
' První kvartil: an = 7 ■ 0,25 = 1,75 =>• zaokrouhlujeme nahoru na 2. pozici: žo,25 =
X(2) = I-
117
Základy statistiky
' Třetí kvartil: an = 7-0,75 = 5,25 =>• zaokrouhlujeme nahoru na 6. pozici: x0j5 = = 4.
□
Příklad 7.21 (Kvantily z tabulky četností). Uvažujme data x daná následující tabulkou rozložení četností:
X\J]	1	2	3	4
	10	12	6	3
Určete první decil xq:i, první kvartil a třetí kvartil.
Řešení: Celkový rozsah souboru je n = 10 + 12 + 6 + 3 = 31. Pro snadnější určení pozic si můžeme představit (nebo vypsat pomocí kumulativních četností) pořadí hodnot:
• 1. až 10. hodnota jsou 1,
• 11. až 22. hodnota jsou 2,
• 23. až 28. hodnota jsou 3,
• 29. až 31. hodnota jsou 4.
Výpočet jednotlivých kvantilů:
První decil (0,10-kvantil): an = 31 • 0,1 = 3,1 =>• hledáme x^y Podle seznamu je žo,i = 1-
První kvartil (0,25-kvantil): an = 31 • 0,25 = 7,75 =>• hledáme x^)- Podle seznamu je
^0,25 = 1-
' Třetí kvartil (0,75-kvantil): an = 31-0,75 = 23,25 =>• hledáme x^4)- Tato pozice spadá do třetí skupiny, tedy ž0,75 = 3.
□
Využití výběrových kvantilů
Výběrové kvantily mají široké využití v různých oborech statistiky a aplikovaných věd. Zde jsou uvedeny některé praktické příklady využití kvantilů:
• Hladina cholesterolu v krvi
Jakou hladinu cholesterolu v krvi nepřekročí 90 % zdravé populace České republiky? Výběrový 0,90-kvantil (90. percentil) by zde představoval referenční hodnotu pro stanovení diagnostických limitů, která se běžně využívá v klinické praxi. Podobně jsou stanoveny referenční hodnoty pro další ukazatele krevního obrazu, například hladinu cukru, trigly-ceridů nebo krevní tlak.
Statistický soubor s jedním argumentem
118
• Délka lišek
Jakou délku nepřekročí 95 % lišek? Zde můžeme využít výběrový 0,05-kvantil a 0,95-kvantil k určení rozmezí, ve kterém se nachází většina jedinců dané populace. Například pokud délka lišek spadá do rozmezí 58-90 cm, můžeme říci, že pouze 5 % lišek je delších než 90 cm a pouze 5% lišek je kratších než 58 cm. Tyto kvantily pomáhají určit, které jedince považujeme za „typické" a které za extrémní.
• Stoletá voda
Jak definovat pojem stoletá voda? Výběrový 0,99-kvantil se často používá v hydrologii k definici stoleté vody. Jde o takovou výši maximálního ročního průtoku, která je v průměru překročena pouze jednou za sto let (tedy v 1 % případů). Tato hodnota je zásadní pro projektování protipovodňových opatření a infrastruktury.
• Požadavky na kapitál pojišťoven
Jakou výši kapitálu musí pojišťovny v EU držet, aby minimalizovaly riziko úpadku? Regulace Solvency II vyžaduje, aby pojišťovny držely kapitál na úrovni odpovídající 0,995-kvantilu možných finančních ztrát v ročním horizontu. To znamená, že pojišťovna musí být schopna pokrýt rizika v 99,5 % případů a pouze v 0,5 % situací (extrémně nepříznivý vývoj) může dojít k ohrožení její solventnosti.
• Testování (SCIO testy, srovnávací zkoušky)
Při hodnocení výsledků plošných testů se často využívá tzv. percentil. Pokud student dosáhne 75. percentilu (tedy 0,75-kvantilu), znamená to, že dopadl lépe než nebo stejně jako 75 % všech ostatních účastníků. Na základě těchto kvantilů mohou školy identifikovat 25 % nejúspěšnějších (nad horním kvartilem) nebo naopak studenty vyžadující zvýšenou podporu (pod dolním kvartilem).
• Percentilové grafy v pediatrii
Kvantily jsou základem růstových grafů, které pediatři používají ke sledování vývoje dítěte (výška, váha, obvod hlavy). Pokud se křivka vývoje dítěte drží stabilně kolem určitého kvantilu, je jeho vývoj považován za přirozený, i když je dítě například drobnější než průměr.
Shrnutí
Výběrové kvantily jsou univerzálním nástrojem, který se využívá v mnoha oblastech - od medicíny a biologie přes hydrologii až po finance a školství. Pomáhají nám stanovit normy (referenční meze), identifikovat extrémní hodnoty a objektivně porovnávat jednotlivce s celou populací.
Míry variability
Míry absolutní variability
Míry absolutní variability popisují rozsah rozptýlenosti dat v původních jednotkách (např. v Kč, metrech apod.).
119
Základy statistiky
Definice 7.22. Variační obor (x^y,x^) - Interval vymezený nejmenší a největší
hodnotou.
Variační rozpětí R = x^ — x^ - Rozdíl mezi největší a nejmenší hodnotou.
' Kvartilové rozpětí Rq = žo,75 — ^0,25 ~~ Rozdíl mezi třetím a prvním kvartilem (šířka „krabice" v boxplotu).
Kvartilová odchylka      - Polovina kvartilového rozpětí.
Definice 7.23. Rozptyl D(X) - (V literatuře také s2). Pro neseskupená data jej počítáme jako průměrnou čtvercovou odchylku od aritmetického průměru (ve výběrové verzi dělíme n - 1):
1 n
D(X) = —^t-x)2 í=i
Pro data vyjádřená pomocí četností (seskupená) je rozptyl definován jako:
1 r
D(X) = —— J2(xm ~ ž?nv kde n j je absolutní četnost varianty x^y
Definice 7.24. Směrodatná odchylka - Druhá odmocnina z rozptylu. Udává, o kolik se hodnoty v průměru odchylují od aritmetického průměru v původních jednotkách:
sx = y/D(X)
Míry relativní variability
Míry relativní variability jsou bezrozměrná čísla. Používají se k porovnání variability mezi různými soubory, které mají odlišné jednotky nebo výrazně odlišné úrovně průměrů.
Statistický soubor s jedním argumentem
120
Definice 7.25. Variační koeficient:		
		
	X	
Obvykle se vyjadřuje v procentech (Vx	100%).	Pokud je Vx > 0,5 (50%), považujeme
soubor za silně rozptýlený (nehomogenní	).	
Relativní kvartilová odchylka:		
Qr ~	^0,75 —	^0,25
	^0,75 +	^0,25
Příklad 7.26 (Porovnání variability platů). Ve dvou firmách byly zkoumány měsíční platy zaměstnanců (v tisících Kč). Firma A: 25, 28, 30, 32, 35. Firma B: 20, 22, 24, 26, 80. Porovnejte variabilitu platů pomocí směrodatné odchylky a variačního koeficientu.
Řešení: 1. Aritmetické průměry:
25 + 28 + 30 + 32 + 35           _      20 + 22 + 24 + 26 + 80 xA =---= 30,   xB =---= 34,4
2. Rozptyly D(X):
(25 - 30)2 + (28 - 30)2 + (30 - 30)2 + (32 - 30)2 + (35 - 30)2     25 + 4 + 0 + 4 + 25 D(X)A =---=---= 14,5
(20 - 34,4)2 + (22 - 34,4)2 + (24 - 34,4)2 + (26 - 34,4)2 + (80 - 34,4)2 2619,2 D(X)B =---=    4    = 654,8
3. Směrodatné odchylky:
sA = y/u$ « 3,81,   sB = yfěMfi « 25,59
4. Variační koeficienty:
3 81 95 59
V a = ^7T « °'127 (tj- 12'7%)   Vb = ifr « 0,744 (tj. 74,4%)
Závěr: Variabilita ve firmě A je nízká (12,7%), platová struktura je zde vyrovnaná. Ve firmě B je variabilita extrémní (74,4%), což je způsobeno odlehlou hodnotou 80 tisíc Kč. Směrodatná odchylka ve firmě B je téměř sedmkrát vyšší než ve firmě A. □
7.4    Míry tvaru rozdělení
Kromě charakteristik polohy a variability existují i charakteristiky, které popisují tvar rozdělení dat (zda je rozdělení symetrické, či nikoliv, a jak moc je „špičaté").
121
Základy statistiky
Definice 7.27. Výběrová šikmost (skewness) měří asymetrii rozdělení dat:
71 = (n-l)(n-2)éí 7i = 0: Rozdělení je symetrické (např. normální rozdělení).
7i > 0: Pozitivní šikmost (sešikmení doprava) - většina hodnot je nahlucena vlevo, vpravo je dlouhý „ocas".
7i < 0: Negativní šikmost (sešikmení doleva) - většina hodnot je vpravo, vlevo je dlouhý „ocas".
[Image of positive and negative skewness]
Definice 7.28. Výběrová špičatost (kurtosis, exces) měří „koncentraci" dat kolem středu v porovnání s normálním rozdělením:
n(n + l) ™{Xi-x\4 3(n-lf
^ = 7Z-Tul—^71-
(n- l)(n-2)(n-3) ^ V   sx   J (n-2)(n-3)
72 = 0: Špičatost odpovídá normálnímu rozdělení.
72 > 0: Špičatější rozdělení (více hodnot je blízko průměru a zároveň v extrémních koncích).
72 < 0: Plošší rozdělení (hodnoty jsou rozprostřeny rovnoměrněji).
Příklad 7.29 (Výpočet šikmosti a špičatosti). V následující tabulce jsou uvedeny hodnoty datového souboru: 2, 3, 5, 7, 8, 10. Spočítejte výběrovou šikmost a špičatost tohoto souboru.
Řešení: 1. Aritmetický průměr a směrodatná odchylka:
2 + 3 + 5 + 7 + 8 + 10 35 x =-q-= y ~ 5>833
'i
'1 NO 46,833
- 5>ť - 5,833)2 « J—^— « 3,061
2. Výběrová šikmost (71): Dosadíme do vzorce pro n = 6:
5    6  /-£. _ 5 833\3
7i = n E   ^TT^T—    ~ °>3 • ("1,312 - 0,944 - 0,028 + 0,163 + 0,376 + 1,084) « 0,19* 5 • 4 ^ \   3,061 /
Rozdělení má mírnou pozitivní šikmost.
3. Výběrová špičatost (72): Dosadíme do vzorce pro n = 6:
6-7    6   /       5 833\4 3.25
72 =-V------« 0,7 • 5,575 - 6,25 « -2,347
1     5-4-3f^V   3>061   /      4-3       ' '
Statistický soubor s jedním argumentem
122
Rozdělení je výrazně plošší než normální rozdělení (což je u takto malého rovnoměrně rozloženého souboru očekávané). □
7.5    Řešené příklady
Příklad 7.30 (Četnosti statistického souboru). Určete relativní, kumulativní a relativní kumulativní četnosti dat z tabulky:
x\j]	0	1	2	3	4
n3	7	44	56	30	12
Řešení: Nejprve vypočítáme celkový rozsah souboru n:
5
n = J2 rij = 7 + 44 + 56 + 30 + 12 = 149. Relativní četnosti p j = ^- se vypočítají jako podíl absolutní četnosti a celkového počtu prvků:
x\j]	0	1	2	3	4	E
	7	44	56	30	12	149
Pj	0,047	0,295	0,376	0,201	0,081	1,000
Nyní určíme kumulativní četnosti Nj = Y^\=\nk a relativní kumulativní četnosti Fj =
xlJ]	0	1	2	3	4
	7	51	107	137	149
F3	0,047	0,342	0,718	0,919	1,000
□
Příklad 7.31 (Charakteristiky statistického souboru). Vypočtěte modus, kvartily, aritmetický průměr, rozptyl, směrodatnou odchylku, šikmost a špičatost variační řady dané tabulkou:
x\j]	0	1	2	3	4
n3	7	44	51	30	12
Řešení: Celkový počet prvků je n = 7 + 44 + 51 + 30 + 12 = 144.
1. Modus: Hodnota s nejvyšší četností (n^ = 51) je Mo = 2.
2. Kvartily:
123
Základy statistiky
' První kvartil (a = 0,25): an = 0,25 • 144 = 36. Pozice je celé číslo, bereme průměr 36. a 37. hodnoty. Obě leží v druhé skupině (Nľ = 7, N2 = 51), tedy žo,25 = 1-
' Medián (a = 0,50): an = 0,5 • 144 = 72. Průměr 72. a 73. hodnoty. Obě leží ve třetí skupině (iV2 = 51, N3 = 102), tedy ž0,5 = 2.
■ Třetí kvartil (a = 0,75): an = 0,75 • 144 = 108. Průměr 108. a 109. hodnoty. Obě leží ve čtvrté skupině (N3 = 102, ív4 = 132), tedy žo,75 = 3.
3. Aritmetický průměr:
0 • 7 + 1 • 44 + 2 • 51 + 3 • 30 + 4 • 12 284
x =-=-« 1,972.
144 144
4. Rozptyl D(X):
= n^-žf-n, ^ (0-l,972)2-7+--- + (4 -l,972)2-12 ^ 149,889 ^ 1   ' n 144 144    ~ '
5. Směrodatná odchylka sx:
sx = ^D(X) « ^TLPAI~ « 1,020.
6. Sikmost 7X:
71 = E("b1"f-^ - 0,252. n • sx
Kladná hodnota naznačuje, že rozdělení je mírně sešikmené doprava.
7. Spičatost 72:
X\ 1 — ~x}^ ' n ■
72 = ±±LJ^-J-1 _ 3 ~ 2,446 - 3 « -0,554.
n-sx
Záporná hodnota značí, že rozdělení je o něco plošší než normální rozdělení. □
OV této kapitole jsme prozkoumali základní charakteristiky jednorozměrného statistického souboru. Zaměřili jsme se na popisné statistiky, které nám umožňují stručně a jasně popsat vlastnosti datového souboru.
' Aritmetický průměr (x) popisuje „střední" hodnotu v souboru, je však citlivý na extrémní hodnoty.
' Medián (^0,5) rozděluje uspořádaný soubor na dvě stejně velké části a poskytuje dobrou představu o typické hodnotě i v asymetrických souborech.
• Modus (x) je nejčastěji se vyskytující hodnota v souboru.
' Rozptyl D(X) a směrodatná odchylka sx jsou míry variability, které udávají, jak moc jsou hodnoty rozptýleny kolem průměru.
Sikmost (7l) hodnotí asymetrii (sešikmení) rozložení, zatímco spičatost (72) popisuje koncentraci dat kolem středu v porovnání s normálním rozdělením.
Statistický soubor s jedním argumentem
124
Ukázali jsme si, jak tyto charakteristiky vypočítat a interpretovat, což je klíčové pro správné pochopení dat v praktických aplikacích.
1. Co je to aritmetický průměr a jak se vypočítá? Uveďte rozdíl mezi prostým a váženým průměrem.
2. Jaký je rozdíl mezi mediánem a aritmetickým průměrem?
3. Kdy je didakticky i statisticky vhodnější použít k popisu středu dat medián místo průměru?
4. Co vyjadřuje rozptyl D(X) a jaký má matematický vztah ke směrodatné odchylce
5. Jaký význam má šikmost a špičatost (exces) při analýze rozložení dat? Nakreslete, jak vypadá pozitivně zešikmené rozdělení.
6. Jak se vypočítá relativní četnost pj a kumulativní relativní četnost Fp. Co vyjadřuje hodnota F j = 1?
7. Co jsou to kvartily a jak se určí jejich pozice v datovém souboru o rozsahu nl
8. Určete medián a průměr měsíční spotřeby elektrické energie (kWh) v bytech z následujících údajů:
169, 108, 26, 43, 114, 68, 35, 183, 103, 266, 74, 205, 62, 230, 85, 487, 120, 148, 91, 18, 58, 96, 295, 42, 137. [103; 130,52]
9. Zkoušky životnosti žárovek daly následující výsledky (v hodinách):
606, 1249, 267, 44, 510, 340, 109, 1957, 463, 801, 1082, 169, 233, 1734, 1458, 80, 1023, 2736, 917, 459.
Určete průměrnou dobu životnosti žárovek a jejich výběrový rozptyl. [811,85; 519 375,9]
e
Literatura k tématu:
[1] HINDLS, R. Statistika pro ekonomy. 8. vyd. Praha: Professional Publishing, 2007. ISBN 978-80-869-4643-6. ISBN 978-80-867-3208-8.
[2] MAREK, L. Statistika v příkladech. 2. vyd. Praha: Kamil Mařík - Professional Publishing, 2015. ISBN 978-80-743-1153-6.
[3] OTIPKA, P., SMAJSTRLA, V. Pravděpodobnost a statistika [online]. 1. vydání. Ostrava: VŠB-TU Ostrava, 2007 [cit. 2024-09-09]. ISBN 80-248-1194-4. Dostupné z: https://homel.vsb.cz/~oti73/cdpastl/
[4] ZVÁRA, K. a ŠTĚPÁN, J. Pravděpodobnost a matematická statistika. Matfyzpress, 2019. ISBN 978-80-7378-388-4.
I
Kapitola 8
Statistický soubor se dvěma
argumenty
Po prostudování této kapitoly budete umět:
určit základní charakteristiky dvourozměrného statistického souboru, vypočítat střední hodnotu, rozptyl a kovarianci pro dvourozměrný soubor, využít vhodné grafické nástroje pro vizualizaci dvourozměrných dat, ' interpretovat výsledky analýzy závislosti mezi dvěma znaky.
©Klíčová slova: Dvourozměrný soubor, aritmetický průměr, kovariance, rozptyl, směrodatná odchylka, kontingenční tabulka, bodový graf.
Statistický soubor se dvěma argumenty
126
Tab. 4: Ukázka dvourozměrného statistického souboru
Statistická jednotka	Znak X (Výška v cm)	Znak Y (Hmotnost v kg)
1	170	65
2	165	70
3	180	80
4	175	75
5	160	60
Náhled kapitoly
Zde přímo navazujeme na předchozí kapitolu, její látku rozšíříme na případ dvou proměnných. Novinkou budou pojmy specifické pro tento dvojrozměrný případ, například kontingenční tabulky, bodové grafy a kovariance, které popisují vztahy dvojice proměnných. Pokročilejší metody, jako jsou regrese a korelace, si necháme až na další kapitoly.
Cíle kapitoly
Cílem této kapitoly je získat povědomí o rozdílu mezi jednorozměrným a dvojrozměrným případem a nachystat si pojem kovariance pro další kapitolu.
Časová náročnost
Pro tuto kapitolu doporučujeme vyčlenit přibližně 2 hodiny, které zahrnují jak studium teoretických částí, tak procvičování praktických příkladů a aplikací.
Úvod
Dvourozměrný statistický soubor se skládá z dvojic hodnot (argumentů), kde každý argument představuje hodnotu jiného statistického znaku měřeného na stejných statistických jednotkách. Tento typ souboru je používán k analýze vztahů mezi dvěma různými proměnnými, například výškou a hmotností osob, věkem a platem zaměstnanců, apod.
Každá statistická jednotka je tedy charakterizována dvojicí hodnot, které spolu mohou nebo nemusí být nějakým způsobem závislé. Dvourozměrný statistický soubor nám umožňuje analyzovat nejen vlastnosti jednotlivých znaků samostatně, ale i vztah mezi nimi.
Příklad dvourozměrného statistického souboru je v tabulce 4:
V tomto příkladu je znak X výška v centimetrech a znak Y hmotnost v kilogramech. Každý řádek představuje jednu statistickou jednotku (například jednu osobu), na které jsou měřeny oba znaky současně.
127
Základy statistiky
8.1    Základní pojmy
Statistická jednotka: Objekt, na kterém jsou měřeny oba znaky. Může to být osoba, firma, stroj apod. Každá statistická jednotka má přiřazenou dvojici hodnot - jednu pro každý znak.
Znak X: První proměnná, která je měřena na všech statistických jednotkách. Například výška osob nebo věk zaměstnanců.
Znak Y: Druhá proměnná, která je rovněž měřena na stejných statistických jednotkách jako znak X. Například hmotnost osob nebo plat zaměstnanců.
Dvojice hodnot: Každá statistická jednotka má přiřazenou dvojici hodnot (x,-ny,j), kde Xi je hodnota znaku X a y i je hodnota znaku Y pro i-tou statistickou jednotku.
Statistický soubor: Množina všech dvojic hodnot (xi,yi), (x2,y2), ■ ■ ■, (xn,yn), kde n je počet statistických jednotek.
Rozsah souboru: Počet statistických jednotek v souboru, označovaný jako n. V dvourozměrném souboru je rozsah stejný pro oba znaky, protože oba znaky jsou měřeny na stejných jednotkách.
Můžeme se vrátit k tabulce 4, kde jsou statistickými jednotkami jednotlivé osoby, znakem X je výška a znakem Y je hmotnost. Rozsah souboru n = 5.
8.2    Tabulkové a grafické zobrazení dvourozměrných dat
Při práci s dvourozměrným statistickým souborem je důležité umět data správně zobrazit. Existují různé způsoby, jak data vizualizovat a interpretovat. Mezi nejběžnější metody patří kontingenční tabulky a bodové grafy.
Kontingenční tabulky
Kontingenční tabulky se používají pro dvourozměrné soubory s diskrétními znaky. Tabulka obsahuje četnosti výskytu jednotlivých kombinací hodnot znaků X a Y. Tyto tabulky poskytují přehled o tom, jak často se různé kombinace hodnot vyskytují ve statistickém souboru.
Statistický soubor se dvěma argumenty
128
Řádky tabulky představují jednotlivé kategorie znaku X.
Sloupce tabulky představují jednotlivé kategorie znaku Y.
Buňky tabulky obsahují absolutní četnosti kombinací hodnot X aY.
Tab. 5: Ukázka kontingenční tabulky
	Y1	Y2	Y3
x1	5	7	3
x2	8	12	4
x3	6	2	9
Příklad kontingenční tabulky je v tabulce 5, kde jsou zobrazeny četnosti kombinací hodnot X a Y. Například hodnota 5 znamená, že kombinace X\ a Y\ se vyskytuje pětkrát.
Kontingenční tabulky jsou užitečné pro analýzu závislosti mezi dvěma diskrétními znaky. Mohou být základem pro další metody analýzy, jako je například výpočet podmíněných pravděpodobností nebo chi-kvadrát test závislosti.
Bodové grafy
Bodové grafy (scatter plots) se používají pro dvourozměrné soubory, kde oba znaky nabývají spojitých hodnot. Na ose x je vynášen znak X a na ose y znak Y. Každá dvojice hodnot (xi} í/j) se zobrazuje jako bod v rovině.
"150   155   160   165   170   175   180   185 190 Výška (cm)
Obr. 17: Ukázka bodového grafu
Příklad bodového grafu je na obrázku 17. Každý bod v grafu představuje jednu statistickou jednotku a její hodnoty znaků X a Y. Například bod na souřadnicích (160, 60) odpovídá jednotce s výškou 160 cm a hmotností 60 kg.
CO
o
70
60
129
Základy statistiky
Bodové grafy umožňují vizuálně analyzovat vztah mezi dvěma znaky. Pokud jsou body uspořádány podél určité linie nebo křivky, může to naznačovat nějaký druh závislosti mezi znaky laľ. Tyto grafy jsou základním nástrojem pro identifikaci vzorů a závislostí v datech.
Grafická zobrazení nám pomáhají lépe pochopit vztah mezi dvěma znaky. V případě bodového grafu může například kladná korelace znamenat, že vyšší hodnoty znaku X jsou často doprovázeny vyššími hodnotami znaku Y. Naopak záporná korelace by znamenala, že vyšší hodnoty jednoho znaku jsou spojeny s nižšími hodnotami druhého.
Kontingenční tabulky nám umožňují odhalit závislosti mezi kategoriemi dvou znaků. Pokud se některé kombinace kategorií vyskytují mnohem častěji než jiné, může to naznačovat silnou závislost mezi znaky.
Tabulkové a grafické metody jsou důležité nástroje pro první krok analýzy dvourozměrných statistických souborů, protože poskytují vizuální a kvantitativní přehled o datech.
8.3    Míry polohy a variability pro dvourozměrný soubor
8.3.1     Míry polohy
Podobně jako u jednorozměrného statistického souboru, můžeme i u dvourozměrného souboru vypočítat míry polohy pro oba znaky laľ. Tyto míry zahrnují aritmetický průměr, medián a modus.
Pro každý znak zvlášť můžeme vypočítat aritmetický průměr, který udává střední hodnotu daného znaku v souboru.
Zde X je průměrná hodnota znaku X a Y je průměrná hodnota znaku Y. Výpočty probíhají stejným způsobem jako v jednorozměrném souboru.
Příklad 8.1. Pro dvourozměrný statistický soubor z předchozího příkladu (výška a hmotnost osob) bychom vypočítali průměrnou výšku a hmotnost následovně:
Interpretace grafických zobrazení
Aritmetický průměr
x = —
i=l lb i=l
X =
170 + 165 + 180 + 175 + 160
5
170 cm
Statistický soubor se dvěma argumenty
130
65 + 70 + 80 + 75 + 60 V =-z-= 70 kg.
5
Podobným způsobem by se vypočítaly mediány a modus pro oba znaky. □
8.3.2     Míry variability a kovariance
Míry variability pro dvourozměrný statistický soubor jsou obdobné jako u jednorozměrného souboru, přičemž jsou vypočítávány zvlášť pro každý znak laľ.
Rozptyl a směrodatná odchylka
Rozptyl a směrodatná odchylka se pro dvourozměrný soubor počítají obdobně jako v jednorozměrném případě, zvlášť pro každý znak:
Y     n 1 n
4 =—7H(^-^)2, 4 =—-J2(yí-y)2-
Směrodatná odchylka je druhá odmocnina rozptylu:
Podrobnosti o rozptylu a směrodatné odchylce byly probrány v předchozí kapitole o jednorozměrném statistickém souboru.
Kovariance
Kovariance měří míru vzájemné závislosti mezi dvěma znaky laľ. Je-li kovariance kladná, znamená to, že se vysoké hodnoty znaku X pojí s vysokými hodnotami znaku Y. Záporná kovariance naopak naznačuje, že vyšší hodnoty jednoho znaku se pojí s nižšími hodnotami druhého znaku.
Definice 8.2. Kovariance se vypočítá podle vzorce:
1 n
Cov(X, Y) = —— 5>ť - x){Vi - y). n    1 i=i
Pokud jsou hodnoty X a,Y nezávislé, je jejich kovariance blízká nule.
Příklad 8.3. Uvažujme opět dvourozměrný statistický soubor (výška a hmotnost osob) (tabulka 4). Vypočteme kovarianci.
131
Základy statistiky
Řešení: Nejprve vypočítáme průměry:
x = 170,   y = 70.
Poté vypočítáme kovarianci:
Cov(X,Y) = -J—[(170- 170)(65-70) + (165-170)(70-70) + - •• + (160-170)(60-70)1 = 50. 5 — 1
Tato kladná hodnota kovariance naznačuje, že mezi výškou a hmotností existuje pozitivní vztah — vyšší osoby mají obecně vyšší hmotnost. □
8.4    Řešené příklady
Příklad 8.4. Vypočítejte základní číselné charakteristiky dvourozměrného statistického souboru. Tabulka uvádí hodnoty Xa,Y pro jednotlivá pozorování:
x\y	20	30	40	50	60	70	80
250	19	5					
350	23	116	11				
450	1	41	98	9			
550		4	32	65	7		
650		1	4	21	46	3	
750			1	2	11	13	1
850					1	3	2
Řešení: Pro řešení vypočítáme:
1. Průměry:
x = — ■ 259800 « 481,1,   y = — • 22030 « 40,80. 540 ' '   y 540
2. Rozptyly:
4 = — • 134490000 - 481,l2 « 17587,65,   sl = — • 989900 - 40,82 « 168,81. x    540 ' '   '     Y    540 '
3. Směrodatné odchylky:
sx ~ 132,62,   sy « 12,99.
4. Kovariance:
Cov( V V) = — • 11427500 - 481,1 • 40,8 « 1534,49.
v > ;   540 '
□
Statistický soubor se dvěma argumenty
132
Příklad 8.5. Vypočítejte číselné charakteristiky dvourozměrného statistického souboru, který je zadán tabulkou:
X	27	31	87	93	114	124	190	193	250	254	264	272	308	324
y	28	21	71	36	30	43	54	54	59	25	82	22	38	22
371	372	440	442	502	503	506	522	556	620	624
56	63	46	24	33	40	41	28	53	38	66
Řešení: Výpočty provedeme pomocí Excelu: 1. Průměry:
_    7989 _ 1073
x =-319,56,   y =-
25 25
42,92.
2. Rozptyly:
3371599 25
319,562 « 32745,37, s2Y
52945 25
42,922 « 275,67.
3. Směrodatné odchylky:
sx ~ 180,96,   sY « 16,60.
4. Kovariance:
3492^0
Cov(V, Y) =--319,56 • 42,92 « 254,48.
25
□
OV této kapitole jsme se seznámili s dvourozměrným statistickým souborem, který analyzuje dvojice hodnot (xi,yi) pro každou statistickou jednotku. Pro oba znaky jsme vypočítali základní míry polohy (průměr, medián, modus) a variability (rozptyl, směrodatná odchylka).
Představili jsme kovarianci jako nástroj k měření závislosti mezi dvěma znaky, kde kladná kovariance ukazuje na pozitivní vztah a záporná na negativní.
Kromě výpočtů jsme se věnovali kontingenčním tabulkám pro diskrétní znaky a bodovým grafům pro spojité znaky, které umožňují vizuální analýzu vztahů mezi znaky.
Tato kapitola připravuje základ pro další analýzy závislostí mezi dvěma znaky, které budou následovat v příštích kapitolách.
133
Základy statistiky
8.5
Kontrolní otázky
1. Jaký je rozdíl mezi jednorozměrným a dvourozměrným statistickým souborem?
2. Jak vypočítáme aritmetický průměr pro dvourozměrný statistický soubor?
3. Co znamená kovariance a jaký má význam při analýze dvourozměrného souboru?
4. Jaká je interpretace kladné a záporné hodnoty kovariance?
5. Jaký grafický nástroj lze použít pro vizualizaci dvourozměrného statistického souboru, kde oba znaky jsou spojité?
6. Jak funguje kontingenční tabulka a kdy ji použijeme?
7. Jaký je vztah mezi rozptylem a směrodatnou odchylkou pro jednotlivé znaky v dvourozměrném statistickém souboru?
8. Proč používáme bodový graf (scatter plot) při analýze dvourozměrných dat a co nám ukazuje o závislosti mezi znaky X a Yl
9. U 130 zákrsků bylo zjištěno stáří stromu v letech (argument X) a sklizeň v jistém roce v kg (argument Y). Podle údajů v tabulce určete kovarianci.
X\Y	4	5	6	7	8	9	10	11
3	6	0	0	0	0	0	0	0
4	0	5	10	2	0	0	0	0
5	0	0	0	2	8	3	0	0
6	0	0	0	0	0	12	10	0
7	0	0	0	0	0	8	15	4
8	0	0	0	0	4	16	8	0
9	0	3	12	2	0	0	0	0
[Cov(X,Y) « 1,12]
e
Literatura k tématu:
[1] HINDLS, R. Statistika pro ekonomy. 8. vyd. Praha: Professional Publishing, 2007. ISBN 978-80-869-4643-6. ISBN 978-80-867-3208-8.
[2] MAREK, L. Statistika v příkladech. 2. vyd. Praha: Kamil Mařík - Professional Publishing, 2015. ISBN 978-80-743-1153-6.
[3] OTIPKA, P., SMAJSTRLA, V. Pravděpodobnost a statistika [online]. 1. vydání. Ostrava: VŠB-TU Ostrava, 2007 [cit. 2024-09-09]. ISBN 80-248-1194-4. Dostupné z: https://homel.vsb.cz/~oti73/cdpastl/
[4] ZVÁRA, K. a ŠTĚPÁN, J. Pravděpodobnost a matematická statistika. Matfyzpress, 2019. ISBN 978-80-7378-388-4.
Kapitola 9
Regresní a korelační analýza
Po prostudování této kapitoly budete umět:
> vysvětlit, co korelační koeficient popisuje a jaké jsou jeho varianty,
> vypočítat Pearsonův korelační koeficient na základě zadaných dat.
• interpretovat výsledky korelační analýzy,
používat Excel nebo jiný statistický software k výpočtu korelačních koeficientů,
• odhadovat parametry lineárního regresního modelu,
• aplikovat lineární regresi na reálná data,
• používat Excel a modul Analýza dat - Regrese pro výpočty.
Klíčová slova:
Korelační koeficient, statistická závislost, lineární vztah, ineární regrese, regresní analýza, regresní koeficienty, Excel, modul Analýza dat.
135
Základy statistiky
Náhled kapitoly
V této kapitole navážeme na předchozí kapitolu, kde jsme zkoumali vztah dvou statistických znaků. Zde se seznámíme s dvěma pokročilejšími metodami analýzy těchto závislostí.
Korelační analýza slouží k měření síly a směru lineárního vztahu mezi dvěma proměnnými. Probereme různé varianty korelačních koeficientů a jejich využití v praxi, zejména Pearsonův korelační koeficient, který je nejčastěji používán. Ukážeme si také omezení tohoto koeficientu a situace, kdy je vhodné použít alternativní metody.
Metoda lineární regrese umožňuje odhadnout vztah mezi závislou a nezávislou proměnnou pomocí přímky (případně i jiné křivky).
Obě metody se naučíme provádět i v Excelu.
Cíle kapitoly
Cílem této kapitoly je praktické seznámení s dvěma metodami, korelační a regresní analýzou, které nám umožňují studovat vztah (závislost) dvou statistických znaků.
Odhad času potřebného ke studiu
Odhaduje se, že studium této kapitoly zabere přibližně 3 hodiny. Tento čas zahrnuje čtení textu, pochopení teoretických konceptů a řešení příkladů (i v Excelu).
9.1    Princip korelační analýzy
Co je to korelační koeficient?
Korelační koeficient je statistická míra, která určuje sílu a směr vztahu mezi dvěma proměnnými. Pearsonův korelační koeficient, označovaný jako r, měří lineární vztah mezi dvěma spojitými proměnnými a nabývá hodnot mezi -1 a 1. Pokud je r = 1, jedná se o perfektní pozitivní lineární vztah, pokud r = — 1, jedná se o perfektní negativní lineární vztah, a pokud r = 0, neexistuje žádná lineární závislost mezi proměnnými.
Výpočet korelačního koeficientu
Definice 9.1. Pearsonův korelační koeficient je definován vztahem:
Cov(X, Y) =     J2(xt - x) ■ (yt - y)
kde Xi a yri jsou jednotlivé hodnoty obou proměnných, a x a y jsou jejich průměry.
Regresní a korelační analýza
136
Řešené příklady
Příklad 9.2. Mějme data o prodejích produktů ve dvou různých regionech. Vypočítejte Pear-sonův korelační koeficient a určete, zda mezi těmito proměnnými existuje lineární vztah.
Prodeje	(ReÉ	pon 1)	10	15 20	25 30
Prodeje	(ReÉ	pon 2)	12	18 25	24 28
Řešení: Nejprve vypočítáme průměry x = 20 a y = 21 A. Poté provedeme výpočet Pearsonova korelačního koeficientu podle výše uvedeného vzorce. Korelační koeficient r ps 0.88, což ukazuje na silnou pozitivní lineární závislost mezi prodeji v obou regionech.
Excel: Korelační koeficient lze spočítat pomocí funkce C0RREL(arrayl, array2) v Excelu.
Příklad 9.3. Mějme data o počtu zákazníků navštěvujících obchod a průměrné denní tržby. Vypočítejte korelační koeficient a určete, zda existuje lineární závislost.
Počet zákazníků	50	60	70	80 90
Denní tržby (v tis. Kč)	20	25	30	28 35
Řešení: Vypočítáme průměry x = 70 a y = 27.6. Pomocí vzorce pro korelační koeficient získáme r ~ 0.91, což značí velmi silnou pozitivní lineární závislost mezi počtem zákazníků a tržbami.
Excel: Pomocí funkce C0RREL(arrayl, array2) lze získat stejný výsledek. □
Příklad 9.4. Zde JSOU dcltcl pro prodej dvou produktů v různých týdnech. Určete, zda mezi prodejem těchto produktů existuje lineární vztah.
Prodeje	produktu	A	100	105 110	95 115	90 120	85	125	80
Prodeje	produktu	B	200	180 205	185 190	185 190	195	200	190
Řešení: Průměry pro produkt A a produkt B jsou x = 102.5 a y = 192. Po výpočtu korelačního koeficientu dostaneme r ps 0.08, což naznačuje velmi slabou nebo žádnou lineární závislost mezi prodeji těchto produktů.
Excel: Výpočet pomocí C0RREL(arrayl, array2) v Excelu také ukazuje, že korelace je blízká nule, tedy nevýznamná. □
Historie a varianty korelačních koeficientů
Historie korelačních koeficientů sahá až do 19. století, kdy Francis Galton poprvé navrhl metody pro kvantifikaci statistických vztahů mezi proměnnými. Na jeho práci navázal Karl Pearson, který formalizoval a popularizoval Pearsonův korelační koeficient.
137
Základy statistiky
V průběhu času byly vyvinuty další varianty korelačních koeficientů pro specifické účely:
Spearmanův korelační koeficient (Spearman's rho): Používá se, pokud data nejsou normálně rozložena nebo vykazují monotónní, nikoli lineární vztah.
Kendallův tau: Měří sílu vztahu mezi pořadím hodnot a používá se zejména u malých souborů dat.
Point-biserial correlation: Využívá se pro měření korelace mezi spojitou a binární proměnnou.
Každý z těchto korelačních koeficientů má své specifické aplikace a závisí na typu dat, které jsou analyzovány. Korelační analýza našla využití v mnoha oblastech, včetně psychologie, ekonomie, marketingu a biostatistiky.
Kdy je korelační koeficient vhodný?
Korelační koeficient popisuje sílu a směr lineárního vztahu mezi dvěma spojitými proměnnými. Jeho použití je vhodné, pokud jsou splněny následující podmínky:
Obě proměnné mají přibližně normální rozložení. Vztah mezi proměnnými je lineární.
Nejsou přítomny výrazné odlehlé hodnoty, které by ovlivnily výsledek.
Použití Pearsonova korelačního koeficientu je nevhodné, pokud vztah mezi proměnnými není lineární nebo pokud se jedná o ordinální data, u nichž je vhodnější použít Spearmanův korelační koeficient nebo Kendallův tau.
Praktické cvičení
Mějte následující data pro dva produkty a určete, zda existuje lineární závislost mezi jejich prodeji:
Prodeje	produktu A	5   10   15  20 25
Prodeje	produktu B	8   12   17  22 24
Spočítejte korelační koeficient pomocí výše uvedeného vzorce nebo pomocí Excelu (C0RREL(arrayl, array2)). Na základě výsledku určete, zda mezi těmito proměnnými existuje lineární závislost.
Regresní a korelační analýza
138
9.2    Princip lineární regrese
Úvodní příklad
Představte si, že jste ekonomický analytik ve společnosti, která chce předpovědět tržby na základě výdajů na reklamu. Máte k dispozici následující data z posledních 10 měsíců (tabulka 6).
Tab. 6: Ukázková data pro lineární regresi
Měsíc	1	2	3	4 5	6	7	8	9	10
Reklama (tis. Kč)	20	25	30	35 40	45	50	55	60	65
Tržby (tis. Kč)	200	220	250	280 310	330	360	390	420	450
Cílem je zjistit, jak silný je vztah mezi výdaji na reklamu a tržbami, a vytvořit model, který umožní předpovědět tržby při různých úrovních výdajů na reklamu.
Formulace problému
• Závislá proměnná (Y): Tržby (tis. Kč).
' Nezávislá proměnná (X): Výdaje na reklamu (tis. Kč).
Cíl analýzy
Pomocí lineární regrese odhadnout vztah mezi výdaji na reklamu a tržbami a posoudit, zda je tento vztah statisticky významný.
Co je to lineární regrese?
Lineární regrese je statistická metoda používaná k modelování vztahu mezi závislou proměnnou a jednou nebo více nezávislými proměnnými. V případě jednoduché lineární regrese se jedná o vztah mezi dvěma proměnnými, který je modelován pomocí přímky.
139
Základy statistiky
Regresní model
Lineární regresní model lze vyjádřit rovnicí:
kde:
F je závislá proměnná,
X je nezávislá proměnná,
/3q je absolutní člen (intercept),
fli je směrnice přímky (sklon),
e je náhodná chyba (reziduálni složka).
Metoda nejmenších čtverců
Parametry (30 a /3i jsou odhadnuty pomocí metody nejmenších čtverců, která minimalizuje součet čtverců odchylek mezi skutečnými hodnotami Y a predikovanými hodnotami Y:
min J2(Vi ~ Víf = min ~ Po ~ Pixi
,2
Odhady parametrů
Odhady parametrů fi0 a (3i lze vypočítat pomocí vzorců:
Ei=i(xi-x)(yi -y)
P
Po = y- fe
kde x a, y jsou průměry laľ.
Regresní a korelační analýza
140
Předpoklady lineární regrese
Aby byly odhady parametrů platné, musí být splněny následující předpoklady:
• Linearita: Vztah mezi V a V je lineární.
' Homoskedasticita: Rozptyl náhodné složky e je konstantní pro všechna X.
• Nezávislost: Hodnoty náhodné složky e jsou nezávislé.
• Normalita: Náhodná složka e je normálně rozložena.
Historické poznámky
Metoda lineární regrese byla poprvé formálně představena anglickým statistikem Sir Prancis Galtonem v 19. století při studiu dědičnosti výšky mezi rodiči a dětmi. Termín regrese pochází z Galtonova pozorování, že extrémní hodnoty mají tendenci "regresovat" k průměru v následující generaci.
Později Karl Pearson a Ronald A. Fisher rozvinuli matematické základy regresní analýzy a metodu nejmenších čtverců, která je dnes standardním nástrojem v statistice a ekonometrice.
Odhad parametrů a interpretace Výpočet odhadů
Pomocí výše uvedených vzorců lze spočítat odhady J3q a J3\ na základě dostupných dat.
Interpretace parametrů
Směrnice přímky Udává změnu v závislé proměnné Y při jednotkové změně
nezávislé proměnné X.
Absolutní člen 0o)'- Hodnota závislé proměnné Y, když nezávislá proměnná X je nulová.
141
Základy statistiky
9.3    Řešené příklady
Příklad 9.5. Vyrovnejte data v tabulce regresní přímkou:
X	5	15	25	35	45	55	65
y	3,5	5,2	5,5	6,1	5,9	6,4	7,8
Řešení: Ukážeme, jak by se tato úloha řešila v Excelu:
1. Nejdříve označíme data a klikneme na Vložit Graf, přičemž vybereme typ grafu XY bodový (obrázek 18).
C* T   = Seirtl - Ercel
j       VLOŽENI       KOaoiENÍ STRÁNKY      VZORCE       0ATA       REVIZE ZOBRAZENÍ
m m SB*-* t%X * ě t s ě|
DůpO"uť«n*      Tabulka   Obrirky Onlnt A Moie ap*kjte -    CMjpwuien* Kůrňingentni   4fKijrW<Svý ^k>\ipí(r.ý VlMtupp/   PriJel ČatóvÉ Hype«t(
:.Un^ll.L.JI.: .-.h,L,L,.   A* " ' .-.,LK. j   ■      .   ■» n.J. - -"U---
iň^íficniutnuty                         antzzKy a*                                       grary —'    ^- t|r»T' [abidfcy                                    llmlracc                    Ouplrtty                                  1 Bodový																	DůKirTy                   oia ůo« "   >■•',                         fMrr Odki							
i|cjo|i|r|o|H| i												IbJ \vi					H          N          0          P a							
																								
											1*   T   l__£±. I_—L													
																								
	/		15		35	45			55		6!													
	v		£2	5,5		5r9			M		7.													
												uMnový												
												*.   1 a.												
												oj. [«£			•fy-									
											L	j! D*ii. b«)e>-t 9												
																								
							■																	
																								
																								
										•		•												
																								
								*																
																								
																								
																								
								1ti           20           »           40           Ml           «0 70																
																								
																								
Obr. 18: Vložení bodového grafu
2. Máme-li aktivní okno grafu, v nabídce + vybereme možnost Spojnice trendu (obrázek 19).
																	
																	
	<	j>-o-c y													rvky grafu		
													0 h i		0 Osy		
		3 7 6 2 1 0													□    Názvy os		
											■				3    Název grafu		
							-•-		■	•					□ Popisky dat □ Chybové úsečky		
	(			•											0 Mřížka n   i=—a,		
			•											1 1    Spojnice trendu >			
																	
																	
																	
	(		)               10              20              30              40              50              60 7									Q	i				
																	
																	
Obr. 19: Přidání spojnice trendu
Regresní a korelační analýza
142
3. V rámci volby můžete volit i jiné křivky než přímku, a také vložit rovnici přímky přímo do grafu (obrázek 20):
_ :
i,j       U.i       |m        |m        M lTÍ~
±
Formát spojnice rnendu T x MoAttniivoMKi mnu *
> - i\\
Ľ o,
L_
\ľ Ol
JntHL-± hafnutu ip-:4*íi*™íi Ě
Obr. 20: Nastavení lineární regrese
4. Výsledkem je rovnice regrese y = 0,0561 • x + 3,8089. Z grafu vidíme, že rovnice dobře vystihuje závislost proměnných.
Řešení bez použití Excelu:
Pro výpočet regresní přímky použijeme vzorce:
y = J31-x + J30,
kde:
Po
nYxf - (Yxí)2
Y Ví - a Y Xj n
Pro naše data:
J2 Xi = 5 + 15 + 25 + 35 + 45 + 55 + 65 = 245,
J2 Ví = 3,5 + 5,2 + 5,5 + 6,1 + 5,9 + 6,4 + 7,8 = 40,4,
J2 x2 = 52 + 152 + 252 + 352 + 452 + 552 + 652 = 8575,
J2 xiVi = 5 • 3,5 + 15 • 5,2 + 25 • 5,5 + 35 • 6,1 + 45 • 5,9 + 55 • 6,4 + 65 • 7,
1601,5.
Dosadíme do vzorců:
(31 = 7 ' !.60ll5_7 245-!40'4 = 0,0561,
Po
7 ■ 8575 - 2452 40,4 - 0,0561 • 245 7
3,8089.
143
Základy statistiky
Rovnice regresní přímky je tedy:
y = 0,0561 - x + 3,8089.
□
Příklad 9.6. Použijte data z úvodního příkladu (tabulka 6) a odhadněte lineární regresní model pro vztah mezi výdaji na reklamu a tržbami. Určete odhady parametrů (30 a (3i.
Řešení: Krok 1: Výpočet průměrů
_    EEi*»     20 + 25 + --- + 65
x =- =- = 42,5,
10 10
_    EEižft     200 + 220 + --- + 450
y =- =-= 321.
y        10 10
Krok 2: Výpočet odhadu (3-
s _ e!=i(^ -x){ví -v) 11 e^fe-*)2
Spočítáme jednotlivé sumy:
J2(xí - x)(yí - y) = J2(xtyt) - nxy^
2 _2
x,-, — nx .
Výpočty:
Vytvoříme tabulku pro výpočty (část výpočtů):
i	Xí	Yi	XjYi	x?
1	20	200	4000	400
2	25	220	5 500	625
3	30	250	7500	900
4	35	280	9 800	1225
5	40	310	12400	1600
6	45	330	14850	2 025
7	50	360	18 000	2 500
8	55	390	21450	3 025
9	60	420	25 200	3 600
10	65	450	29 250	4 225
e	425	3210	147950	20125
A tedy
Ř     ^XiVi-rixy     147950 - 10-42,5-321
pl     e x\ - nx2        20 125 - 10 • (42,5)2   ~ Ó^Z'
Regresní a korelační analýza
144
Výpočet /30:
j30 = y - fax = 321 - 5,5882 • 42,5 = 321 - 237,5 = 83,5. Regresní rovnice:
Ý = 5,5882V + 83,5.
Výpočty v Excelu: Kromě postupu přímo v Excelu, jak jsme si to předvedli v předchozím příkladu, můžeme použít i pokročilejší modul Analýza dat - Regrese:
Postup:
1. Vložíme data do dvou sloupců: X (Reklama) a Y (Tržby).
2. Spustíme Analýza dat a vybereme Regrese.
3. Nastavíme vstupní rozsahy pro závislou a nezávislou proměnnou.
4. Zvolíme výstupní oblast a případně další možnosti (např. reziduálni grafy).
Výstupem bude tabulka s odhady parametrů, ale také jejich směrodatnými chybami, hodnotami ŕ-statistik a P-hodnotami.
Interpretace výsledků z Excelu:
Výsledky mohou vypadat například takto:
Parametr	Odhad	Směr. chyba	t	P-hodnota
h	83,5	5,0	16,7	0,0000
	5,5882	0,2	27,9	0,0000
Rozhodnutí:
Protože P-hodnota pro /3i je mnohem menší než a = 0,05, zamítáme nulovou hypotézu H0 : fli = 0. Regresní koeficient fii je tedy statisticky významný.
□
OV této kapitole jsme se zabývali korelační a regresní analýzou, která slouží k analýze závislostí mezi dvěma kvantitativními znaky. Korelace hodnotí sílu a směr lineárního vztahu mezi dvěma proměnnými pomocí korelačního koeficientu Txy- Pozitivní korelace značí, že s růstem jedné proměnné roste i druhá, zatímco negativní korelace ukazuje opačný vztah.
Regresní analýza pak umožňuje vyjádřit tento vztah pomocí matematického modelu. Nejčastěji se používá lineární regresní model, který popisuje vztah mezi závisle proměnnou
145
Základy statistiky
Y a nezávislou proměnnou X pomocí přímky. Parametry modelu, jako je směrnice a průsečík, jsou odhadovány metodou nejmenších čtverců.
V rámci kapitoly jsme si ukázali, jak tyto metody aplikovat na konkrétní data, jak interpretovat výsledky korelace a regrese. Důležitou součástí byla také vizualizace dat pomocí bodových grafů a regresních přímek.
1. Co je korelační koeficient a jaká je jeho interpretace?
2. Jaký je rozdíl mezi korelační a regresní analýzou?
3. Jak se vypočítá koeficient korelace txy mezi dvěma proměnnými?
4. Co znamená hodnota korelačního koeficientu blízká 1, 0 nebo —1?
5. Co je to lineární regrese a k čemu slouží?
6. Jak se odhadují parametry lineárního regresního modelu?
7. Co vyjadřuje směrnice a průsečík regresní přímky?
8. Jaké grafické nástroje se používají k vizualizaci výsledků korelační a regresní analýzy?
9. Uvažujme následující data, která představují počet hodin fyzického cvičení za týden a spotřebu kalorií (v tisících) pěti osob:
Osoba	Hodiny cvičení za týden (X)	Spotřeba kalorií (Y, v tisících)
1	3	2,2
2	5	2,8
3	7	3,1
4	8	3,5
5	10	4,0
Vypočítejte korelační koeficient mezi počtem hodin cvičení a spotřebou kalorií a interpretujte výsledek.    [r = 0,98]
10. V následující tabulce jsou uvedeny hodnoty proměnných X a,Y, kde X představuje počet hodin studia a Y dosažené skóre v testu:
Osoba	Hodiny studia (X)	Skóre (Y)
1	2	50
2	3	55
3	4	60
4	5	60
5	6	70
Určete parametry lineární regresní přímky pro závislost skóre na počtu hodin studia (vztah mezi V a V) a napište rovnici regresní přímky.   [Y = 2X + 51]
Regresní a korelační analýza
146
Literatura k tématu:
[1] HINDLS, R. Statistika pro ekonomy. 8. vyd. Praha: Professional Publishing, 2007. ISBN 978-80-869-4643-6. ISBN 978-80-867-3208-8.
[2] MAREK, L. Statistika v příkladech. 2. vyd. Praha: Kamil Mařík - Professional Publishing, 2015. ISBN 978-80-743-1153-6.
[3] OTIPKA, P., SMAJSTRLA, V. Pravděpodobnost a statistika [online]. 1. vydání. Ostrava: VŠB-TU Ostrava, 2007 [cit. 2024-09-09]. ISBN 80-248-1194-4. Dostupné z: https://homel.vsb.cz/~oti73/cdpastl/
[4] ZVÁRA, K. a ŠTĚPÁN, J. Pravděpodobnost a matematická statistika. Matfyzpress, 2019. ISBN 978-80-7378-388-4.
Kapitola 10
Časové řady
Po prostudování této kapitoly budete umět:
• definovat a vysvětlit základní pojmy časových řad,
popsat klíčové složky časových řad, jako jsou trend, sezónnost a náhodná složka,
• rozlišit mezi stacionárními a nestacionárními časovými řadami,
• interpretovat grafickou analýzu časových řad.
Klíčová slova:
Časová řada, trend, sezónnost, cykličnost, stacionarita, grafická analýza.
Časové řady
148
Náhled kapitoly
V této kapitole se seznámíme s konceptem časových řad a jejich základními charakteristikami. Časové řady představují posloupnost hodnot sledovaných (většinou) v pravidelných časových intervalech. Tyto řady se používají k analýze dat v mnoha oblastech, jako jsou ekonomie, finance a další disciplíny. Probereme základní složky časových řad, jako jsou trend, sezónnost, cyklické jevy a náhodné výkyvy. Naučíme se, jak tyto složky rozlišit a interpretovat pomocí grafických metod.
Cíle kapitoly
Cílem této kapitoly je představit časové řady jako důležitý nástroj pro analýzu dat sledovaných v čase. Studenti se naučí rozpoznávat základní složky časových řad, pochopí rozdíl mezi stacionárními a nestacionárními řadami a budou schopni provést základní grafickou analýzu.
Odhad času potřebného ke studiu
Odhaduje se, že studium této kapitoly zabere přibližně 2 hodiny. Tento čas zahrnuje čtení textu, pochopení teoretických konceptů a interpretaci grafických analýz časových řad.
Úvod
Definice 10.1. Časové řady představují posloupnost hodnot, které jsou zaznamenávány v pravidelných nebo nepravidelných časových intervalech. Každá hodnota časové řady odpovídá určitému okamžiku nebo časovému úseku. Tento typ dat umožňuje analyzovat změny proměnné v čase a může odhalit různé vzorce chování proměny dat, jako jsou trendy (růst nebo pokles ve větším časovém měřítku) nebo sezónní výkyvy.
Příkladem časové řady může být vývoj ceny akcií na burze, počet prodaných výrobků v obchodě za jednotlivé měsíce nebo denní teplota zaznamenaná meteorologickou stanicí.
Kde se časové řady využívají?
Časové řady se využívají v mnoha oblastech, kde je třeba analyzovat a předvídat vývoj veličin v čase. Mezi nejčastější aplikace patří:
Ekonomie a finance: Analýza vývoje cen akcií, kurzů měn, inflace nebo nezaměstnanosti.
Marketing: Předpovědi poptávky, prodejních trendů, či sezónních výkyvů v tržbách.
Meteorologie: Analýza teplotních změn, srážkových úhrnů nebo předpovědi počasí na základě historických dat.
Výrobní procesy: Monitoring a analýza výkonnosti výrobních zařízení v čase, sledování kvality nebo optimalizace výrobních kapacit.
149
Základy statistiky
Díky těmto aplikacím je možné provádět analýzy, které pomáhají organizacím předvídat budoucí vývoj a lépe plánovat své aktivity.
10.1    Základní pojmy časových řad
Pozorování a časová osa
Časová řada je posloupnost hodnot určité veličiny, které jsou měřeny nebo zaznamenávány v nějakých (většinou pravidelných) časových intervalech.
Definice 10.2. Každá časová řada má dvě klíčové složky:
Časová osa: Zahrnuje jednotlivé časové body (např. dny, měsíce, roky), ve kterých jsou hodnoty proměnné zaznamenány.
Hodnoty proměnné: Reprezentují sledovanou veličinu (např. teplotu, cenu akcií, prodeje).
Časové řady jsou důležité pro zkoumání změn a trendů v průběhu času, což nám potenciálně umožňuje predikovat budoucí hodnoty na základě předchozích dat.
Trend, sezónnost, cykličnost a náhodná složka
Definice 10.3. Časovou řadu můžeme rozložit na několik základních složek:
Trend: Dlouhodobý směr vývoje časové řady, který může být vzestupný, sestupný nebo konstantní. Představuje systematickou změnu hodnot v čase.
Sezónnost: Krátkodobé pravidelné fluktuace, které se opakují v určitém časovém období (např. roční období, měsíční prodeje).
Cykličnost: Dlouhodobé nepravidelné výkyvy, které nejsou striktně periodické, ale mohou souviset s ekonomickými nebo jinými cykly.
Náhodná složka: Nepravidelné, nepředvídatelné výkyvy, které nelze vysvětlit trendem, sezónností ani cykličností. Tato složka představuje vlivy, které nejsou systematické a mohou být způsobeny různými náhodnými faktory.
Rozklad časové řady na tyto složky nám umožňuje lépe pochopit její strukturu a provádět analýzy, které jsou užitečné například při modelování a predikci.
Časové řady
150
10.2    Typy časových řad
Deterministické a stochastické časové řady
Definice 10.4. Časové řady můžeme rozdělit do dvou základních kategorií:
Deterministické časové řady: U těchto řad je budoucí vývoj plně určen předchozími hodnotami. Neobsahují žádnou náhodnou složku a jsou často popsány jednoduchými matematickými funkcemi, například lineárním nebo exponenciálním trendem.
Stochastické časové řady: Tyto řady obsahují náhodnou složku, což znamená, že jejich budoucí vývoj není zcela předvídatelný. Příkladem je fluktuace na finančních trzích, kde se vývoj ceny akcie v čase nedá přesně určit.
Rozlišení mezi deterministickými a stochastickými řadami je klíčové pro výběr vhodných metod analýzy a předpovědí.
Stacionární a nestacionární časové řady
Definice 10.5. Další důležité dělení časových řad je na stacionární a nestacionární:
Stacionární časové řady: Časová řada je stacionární, pokud její statistické vlastnosti (např. průměr a rozptyl) zůstávají v čase konstantní. To znamená, že v průběhu času nepozorujeme žádný výrazný trend ani změny v kolísání hodnot. Stacionární časové řady jsou často jednodušší na analýzu a modelování.
Nestacionární časové řady: V těchto řadách dochází ke změnám v čase, například k růstu nebo poklesu průměru, změnám v rozptylu nebo výskytu sezónních výkyvů. Pro analýzu nestacionárních časových řad je obvykle nutné aplikovat metody, které tyto změny zohlední, například diferenciaci.
Stacionarita je důležitý koncept, protože mnoho statistických metod předpokládá, že časová řada je stacionární. Pokud není, je třeba použít vhodné transformace, které pomohou dosáhnout stacionarity.
151
Základy statistiky
10.3    Analýza časových řad
Grafická analýza časových řad
Jedním z prvních kroků při analýze časové řady je vizuální zkoumání jejích vlastností pomocí grafů. Grafická analýza časových řad nám umožňuje identifikovat základní složky časové řady jako jsou trend, sezónnost nebo náhodné výkyvy.
Definice 10.6. Mezi nejčastěji používané grafické nástroje patří:
Časový graf: Zobrazuje hodnoty časové řady na vertikální ose a časové body na horizontální ose. Tento graf je ideální pro identifikaci dlouhodobých trendů a sezónních výkyvů.
Sezónní diagram: Používá se k vizualizaci opakujících se sezónních vzorců. Umožňuje snadno rozpoznat, zda má časová řada pravidelné sezónní fluktuace v průběhu jednotlivých období (například různé měsíce nebo roční období).
Bodový diagram (scatter plot): Může být použit ke zkoumání závislosti mezi hodnotami časové řady v různých časových intervalech. Tento graf může odhalit autokorelaci (závislost mezi hodnotami v různých časech).
Grafická analýza poskytuje rychlý přehled o struktuře časové řady a je často prvním krokem před aplikací pokročilejších analytických metod.
Rozklad časové řady
Pro lepší pochopení struktury časové řady je často užitečné rozložit ji na jednotlivé složky: trend, sezónnost a náhodnou složku. Tento rozklad umožňuje oddělit systematické vlivy od náhodných výkyvů, což usnadňuje interpretaci a předpovědi.
Definice 10.7. Rozklad časové řady lze provést pomocí několika metod, například:
Additivní model: Předpokládá, že časová řada je součtem trendu, sezónnosti a náhodné složky. Tento model je vhodný, pokud amplituda sezónních výkyvů zůstává konstantní v čase.
Multiplikativní model: Předpokládá, že časová řada je součinem trendu, sezónnosti a náhodné složky. Tento model je vhodný, pokud se amplituda sezónních výkyvů mění s velikostí časové řady (například větší pro vyšší hodnoty časové řady).
Rozklad časové řady nám umožňuje lépe porozumět jejím jednotlivým složkám a případně predikovat budoucí hodnoty na základě trendů a sezónních vzorců.
Časové řady
152
10.4    Charakteristiky časových řad
Charakteristiky časových řad
Při analýze časových řad se používají základní charakteristiky růstu, které nám umožňují kvantifikovat změny hodnot mezi jednotlivými časovými body.
Definice 10.8. Mezi hlavní charakteristiky patří:
Absolutní přírůstky (diference): Rozdíl mezi hodnotami časové řady ve dvou po sobě jdoucích obdobích. Absolutní přírůstek Axt pro období t je dán vztahem:
Axt = xt - xt-i,
kde xt je hodnota časové řady v období t a xt-\ je hodnota v předchozím období.
Koeficienty růstu: Poměr mezi hodnotou časové řady v období t a hodnotou v předchozím období t — 1. Koeficient růstu kt je dán vztahem:
h
xt-i
Tento koeficient nám ukazuje relativní změnu hodnot mezi dvěma obdobími.
Průměrné charakteristiky
Pro získání obecnějšího obrazu o vývoji časové řady v delším období používáme
Definice 10.9. průměrné charakteristiky:
Průměrný absolutní přírůstek: Jedná se o průměr všech absolutních přírůstků časové řady a vypočítá se jako:
Průměrný přírůstek = ^r~2--
n — 1
kde n je počet období.
Průměrný koeficient růstu: Tento koeficient vyjadřuje průměrnou relativní změnu časové řady v průběhu několika období. Vypočítá se jako geometrický průměr koeficientů růstu:
i
n ^*
Tyto průměrné charakteristiky poskytují přehled o celkovém trendu časové řady.
153
Základy statistiky
Aplikace v praxi
Charakteristiky růstu lze využít k analýze změn v různých oblastech, jako je produkce, prodej nebo zásoby. Například pomocí průměrného absolutního přírůstku lze sledovat, jak se postupně mění objem výroby v továrně, a průměrný koeficient růstu nám může ukázat, zda růst prodeje vykazuje stabilní tempo nebo kolísá mezi obdobími.
10.5    Řešené příklady
Příklad 10.10. Mějme následující časovou řadu, která představuje počet prodaných kusů určitého produktu v obchodě za posledních 10 měsíců:
(120,150,130,170,160,180,200,190,210,230)
Vaším úkolem je:
1. Vykreslit časový graf této časové řady.
2. Identifikovat, zda časová řada obsahuje trend.
Řešení: 1. Pro vykreslení časového grafu použijeme hodnoty z časové řady na vertikální ose a čas (v měsících) na horizontální ose. Graf ukazuje, jak se počet prodaných kusů mění v čase.
2. Z časového grafu můžeme vidět, že počet prodaných kusů má obecně rostoucí trend. Ne v každém měsíci se počet prodaných kusů zvyšuje, ale celkově je jasný pozitivní růst. Tato časová řada tedy obsahuje trend.
□
Časové řady
154
Příklad 10.11. Určete elementární charakteristiky růstu časové řady sledující výrobu plynu v letech 1980 - 1985.
rok	1980	1981	1982	1983	1984	1985
výroba (m3)	1286	1363	1393	1495	1571	1610
Řešení: Řešení:
rok	výroba (m3) yt	absolutní přírůstky	koeficienty růstu
1980	1286		
1981	1363	77	1,060
1982	1393	30	1,022
1983	1495	102	1,073
1984	1571	76	1,051
1985	1610	39	1,025
Průměrný absolutní přírůstek:
-x-    E Ayt    (í/2 - Ví) + (ž/3 — ž/2) H-----h (yn - ž/n-i)    yn - yi    1610 - 1286
A =-=- =- =-= 64,8
n — 1 n — 1 n — 1 5
Průměrný koeficient růstu:
V Vž/i   V2   ys        Vn-i     V 1286 '
□
10.6    Softwarová analýza časových řad
V předchozích dvou příkladech jsme si předvedli jen velmi základní výpočty.
155
Základy statistiky
Pro pokročilejší analýzu časových řad lze využít různé softwarové nástroje, které nabízejí specializované funkce a metody:
Excel: Excel umožňuje provádět základní analýzu časových řad, jako je vykreslování časových grafů nebo výpočet klouzavých průměrů. Pro pokročilejší analýzy je možné použít doplněk Analýza dat, který zahrnuje funkce pro regresní analýzu nebo sezónní dekompozici.
R: Ve statistické softwaru R jsou k dispozici speciální balíčky, jako například f orecast nebo tseries, které poskytují nástroje pro modelování časových řad, jako jsou ARIMA modely, exponenciální vyrovnávání a testy stacionarity. R je velmi flexibilní a široce využívaný pro komplexní analýzy.
Wolfram Alpha: Wolfram Alpha je interaktivní nástroj, který umožňuje provádět základní analýzu časových řad, jako je vykreslení grafů nebo výpočet trendů. Méně se hodí pro komplexní statistické modely, ale je užitečný pro rychlé vizualizace a základní výpočty.
Použití konkrétního softwaru závisí na potřebách analýzy - Excel je vhodný pro jednodušší úlohy a rychlou vizualizaci, zatímco R poskytuje nástroje pro pokročilé statistické modely, a Wolfram Alpha nabízí snadno přístupnou platformu pro základní výpočty.
Příklad 10.12. Ukázka grafických výstupů při analýze časové řady počtu cestujících. Data jsou součástí instalace softwaru R.
Řešení: Nejprve uvedeme programový kód, který nám v R, mimo jiné, vytvoří zmíněné grafické výstupy:
# Načtení datasetu AirPassengers data("AirPassengers")
# Základní informace o datasetu summary(AirPassengers)
plot(AirPassengers, main="Počet cestujících v letecké dopravě (1949-1960)", ylab="Počet cestujících", xlab="Rok", col="blue")
# Decompose časové řady (rozklad na trend, sezónnost a náhodnou složku) decomposed <- decompose(AirPassengers)
plot(decomposed, col="darkred")
# Autokorelační graf
acf(AirPassengers, main="Autokorelační funkce pro AirPassengers")
# ARIMA model pro předpověď library(forecast)
model <- auto.arima(AirPassengers) forecasted <- forecast(model, h=24)
# Graf předpovědi
plot(forecasted, main="Předpověď počtu cestujících na příští 2 roky", col="green")
# Výstup modelu summary(model)
Časové řady
156
Pokračujeme ukázkou grafů.
Na obrázku 21 na straně 156 je znázorněna časová řada počtu cestujících.
' Na obrázku 22 na straně 156 je provedena tzv. dekompozice (rozklad) časové řady na trendovou, sezónní a náhodnou složku.
Na obrázku 23 na straně 156 je ukázka předpovědi.
□
V této kapitole jsme se věnovali časovým řadám, které popisují vývoj veličin v čase. Hlavní body zahrnují:
Základní pojmy: Probrali jsme časovou osu, hodnoty proměnných a základní složky časové řady, jako jsou trend, sezónnost a náhodné výkyvy.
1 Typy časových řad: Rozdělili jsme časové řady na deterministické a stochastické, stacionární a nestacionární.
Charakteristiky růstu: Představili jsme absolutní přírůstky, koeficienty růstu a jejich průměrné hodnoty jako nástroje pro kvantifikaci změn časové řady.
Kapitola poskytuje jen velmi základní nástroje pro analýzu časových řad v různých oborech.
1. Jaké jsou základní složky časové řady? Uveďte příklady každé z nich.
2. Jaký je rozdíl mezi stacionární a nestacionární časovou řadou?
3. Jaký je význam průměrného absolutního přírůstku a průměrného koeficientu růstu v analýze časových řad?
4. V jakých situacích byste použili multiplicativní model namísto aditivního modelu pro rozklad časové řady?
5. Vysvětlete, jak lze využít Excel, R nebo Wolfram Alpha pro analýzu časových řad. Jaké jsou hlavní rozdíly mezi těmito nástroji?
6. Majitel prodejny evidoval čtvrtletně objem prodeje ovocných kompotů a jejich zásoby na počátku čtvrtletí.
čtvrtletí	prodej ks	zásoby ks
I.	560	220
II.	480	210
III.	520	215
IV.	550	200
Na konci 4. čtvrtletí bylo v zásobě 150 ovocných kompotů. Vypočtěte průměrný čtvrtletní prodej a průměrnou čtvrtletní zásobu ovocných kompotů.    [527,5, 199]
157
Základy statistiky
' ;
íl ;
Obr. 21: Graf časové řady z příkladu 10.12
Obr. 22: Dekompozice časové řady z příkladu 10.12
Obr. 23: Graf předpovědi časové řady z příkladu 10.12
Časové řady
158
7. Časová řada následujících hodnot představuje počet prodaných kusů elektroniky v obchodě za posledních 12 měsíců:
(120,130,110,150,140,160,170,165,180,175,190,185)
a. Vypočtěte absolutní přírůstky pro každý měsíc.
b. Vypočtěte koeficient růstu pro každý měsíc.
c. Určete průměrný absolutní přírůstek a průměrný koeficient růstu. [...,...,7,27, 1,0217]
Literatura k tématu:
[1] HINDLS, R. Statistika pro ekonomy. 8. vyd. Praha: Professional Publishing, 2007. ISBN 978-80-869-4643-6. ISBN 978-80-867-3208-8.
[2] MAREK, L. Statistika v příkladech. 2. vyd. Praha: Kamil Mařík - Professional Publishing, 2015. ISBN 978-80-743-1153-6.
[3] OTIPKA, P., SMAJSTRLA, V. Pravděpodobnost a statistika [online]. 1. vydání. Ostrava: VŠB-TU Ostrava, 2007 [cit. 2024-09-09]. ISBN 80-248-1194-4. Dostupné z: https://homel.vsb.cz/~oti73/cdpastl/
[4] ZVÁRA, K. a ŠTĚPÁN, J. Pravděpodobnost a matematická statistika. Matfyzpress, 2019. ISBN 978-80-7378-388-4.
Kapitola 11
Induktivní statistika
Po prostudování této kapitoly budete umět:
• určit bodový odhad zvolených parametrů,
určit intervalový odhad (interval spolehlivosti) střední hodnoty a rozptylu při zvolené hladině spolehlivosti,
použít nástroje Excelu a R pro výpočty bodových a intervalových odhadů v praktických příkladech.
Klíčová slova:
Bodový odhad, intervalový odhad, střední hodnota, rozptyl, Excel, R.
Induktivní statistika
160
Náhled kapitoly
V této kapitole se budeme věnovat základním nástrojům induktivní statistiky, kterými jsou bodové a intervalové odhady. Tyto odhady umožňují na základě výběrových dat vyvodit závěry o základním souboru, což je klíčová součást statistické analýzy. Naučíme se, jak vypočítat bodový a intervalový odhad střední hodnoty (průměru) a rozptylu, a to jak teoreticky, tak i prakticky s využitím programů Excel a R.
Cíle kapitoly
Cílem této kapitoly je pochopit hlavní myšlenku induktivní statistiky a naučit se odhadovat parametry základního souboru pomocí bodových a intervalových odhadů.
Odhad času potřebného ke studiu
Studium této kapitoly by mělo zabrat přibližně 2 hodiny. Tento čas zahrnuje prostudování teorie, porozumění odhadovým metodám a zvládnutí praktických výpočtů v Excelu a R.
Úvod
Zopakujme si, že statistika je obor, který se zabývá sběrem, analýzou a interpretací hromadných pozorování a výsledků opakovaných pokusů. Je rozdělena na dva hlavní typy:
Deskriptívni (popisná) statistika: Zaměřuje se na uspořádání datových souborů, jejich popis a účelnou sumarizaci.
Induktivní statistika: Pomocí empirických poznatků umožňuje vytvářet vědecky odůvodněné obecné závěry. Tento přístup je založen na teorii pravděpodobnosti.
Stejně jako statistika, i lidské myšlení lze rozdělit na různé typy podle způsobu uvažování. Mezi nejvýznamnější typy patří:
Deduktivní myšlení
Deduktivní myšlení je proces, při kterém vyvozujeme závěry z obecných zákonitostí nebo pravidel. Z obecných principů vytváříme specifické závěry, které se uplatňují v jednotlivých případech. Deduktivní myšlení zajišťuje přesné a logické usuzování.
Příklad: Všichni lidé jsou smrtelní. Sokrates je člověk. Tudíž Sokrates je smrtelný.
161
Základy statistiky
Induktivní myšlení
Induktivní myšlení vychází z konkrétních pozorování jednotlivých případů a zobecňuje je do obecných závěrů. Na rozdíl od dedukce, indukce často pracuje s nejistotou, protože závěry jsou ovlivněny subjektivními postoji a mají omezenou platnost.
Příklad: Každé ráno, kdy jsem pozoroval východ slunce, slunce skutečně vyšlo. Proto mohu induktivně usoudit, že slunce vyjde i zítra ráno.
Další typy myšlení
Abduktivní myšlení: Vyvozování nejpravděpodobnějšího vysvětlení na základě dostupných informací. Často se používá při řešení neúplných problémů, kde se snažíme najít nej lepší hypotézu.
Příklad: „Zem je mokrá, pravděpodobně pršelo."
Kreativní myšlení: Schopnost generovat nové a originální nápady nebo řešení. Zaměřuje se na netradiční přístupy k řešení problémů.
Příklad: „Namísto tradičního reklamačního procesu navrhneme zcela nový způsob zákaznického servisu pomocí umělé inteligence."
Kritické myšlení: Proces systematického hodnocení a zkoumání informací, argumentů a důkazů. Cílem je dospět ke správným závěrům založeným na logice a důkazech.
Příklad: „Tento článek tvrdí, že určité potraviny jsou škodlivé, ale podívejme se na důkazy a ověřme, zda to podporují i jiné studie."
Statistická indukce je proces, při kterém pomocí statistických metod dokážeme vytvářet obecné závěry z dostupných dat. Jejich spolehlivost lze kvantifikovat pomocí pravděpodobnosti. Základem statistické indukce je práce s výběrem a základním souborem.
Základní soubor (populace)
Základní soubor, někdy označován jako populace, je množina všech prvků, které jsou předmětem zkoumání. Tento soubor může být:
Konečný: Např. počet obyvatel v určité zemi.
Nekonečný: Hypotetický soubor, který je ideální a v realitě neexistuje.
Prvky základního souboru mají různé vlastnosti, nazývané znaky. Tyto znaky dělíme na:
Induktivní statistika
162
Kvalitativní:
Nominálni: Vlastnosti, které lze pouze pojmenovat (např. barva očí).
Ordinální: Vlastnosti, které lze uspořádat (např. spokojenost zákazníků na škále 1 až 5).
Kvantitativní:
Diskrétní: Hodnoty mohou nabývat pouze určitých hodnot (např. počet dětí v rodině).
Spojité: Hodnoty mohou nabývat jakékoliv hodnoty v daném intervalu (např. výška člověka).
Výběr
Výběr je část základního souboru, kterou zkoumáme a na základě které usuzujeme na celou populaci. Aby byl výběr reprezentativní, musí odpovídat vlastnostem celého základního souboru. Pokud není výběr reprezentativní, jedná se o selektivní výběr.
Metody výběru:
Náhodný výběr: Prvky vybíráme náhodně, například losováním nebo pomocí tabulek náhodných čísel.
Mechanický (systematický) výběr: Prvky vybíráme podle pevně stanoveného pravidla (např. každý třetí prvek).
Oblastní (stratifikovaný) výběr: Základní soubor je rozdělen na homogenní oblasti, ze kterých jsou prvky vybírány náhodně.
Skupinový výběr: Používá se pro velké populace, kdy vybíráme celé skupiny prvků (např. domácnosti nebo rodiny).
Vícestupňový výběr: Prvky jsou vybírány postupně z různých úrovní hierarchie (např. město - domácnost - osoba).
ni    Odhady v induktivní statistice
V oblasti induktivní statistiky se nejčastěji zaměřujeme na odhadování parametrů základního souboru na základě výběrových dat. Mezi hlavní parametry, které odhadujeme, patří:
163
Základy statistiky
' Průměr (střední hodnota): Odhadujeme střední hodnotu populace na základě průměru ve výběru.
• Rozptyl: Odhadujeme rozptyl populace na základě výběrového rozptylu.
' Proporce: Odhady podílů určité charakteristiky v populaci (např. podíl lidí s určitým názorem).
Zde se konkrétně zaměříme na bodový a intervalový odhad průměru (střední hodnoty) a rozptylu.
11.1.1     Bodový a intervalový odhad průměru (střední hodnoty)
Bodový odhad průměru
Definice 11.1. Bodový odhad průměru vyjadřuje nejlepší odhad skutečné střední hodnoty populace na základě výběrového průměru. Bodový odhad střední hodnoty fi se vypočítá jako:
1 n
kde Xi jsou jednotlivé hodnoty z výběru a n je počet pozorování.
Praktický výpočet v Excelu:
V Excelu můžete bodový odhad průměru vypočítat pomocí funkce PRŮMĚR:
=PRŮMĚR(A1:A10), kde rozsah buněk A1:A10 obsahuje hodnoty výběru.
Praktický výpočet v R:
V R můžete bodový odhad průměru spočítat funkcí mean():
mean(data), kde data je vektor obsahující hodnoty výběru.
Induktivní statistika
164
Intervalový odhad průměru
Definice 11.2. Intervalový odhad poskytuje rozsah hodnot, ve kterém se s určitou pravděpodobností nachází skutečný průměr populace. Intervalový odhad pro střední hodnotu fi s danou hladinou spolehlivosti 1 — a se vypočítá jako:
kde Ui_a/2 je kvantil normálního rozdělení pro zvolenou hladinu spolehlivosti, a je směrodatná odchylka populace (případně odhad ze vzorku) a n je velikost výběru.
Praktický výpočet v Excelu:
Intervalový odhad průměru lze v Excelu vypočítat pomocí následujícího postupu:
1. Výpočet průměru: =PRŮMĚR(A1: A10)
2. Výpočet směrodatné odchylky: =SM0DCH. VÝBĚR. S (AI: A10)
3. Výpočet velikosti výběru: =P0ČET(A1:A10)
4. K výpočtu kvantilu normálního rozdělení použijeme funkci NORM. INV nebo NORM. S. INV, např. pro hladinu spolehlivosti 95%: =N0RM. S. INV(0,975)
5. Intervalový odhad pak získáme jako průměr ± iti_a/2 ' 7^-
Praktický výpočet v R:
V R můžeme intervalový odhad průměru vypočítat pomocí kombinace funkcí:
mean(data) + c(-l, 1) * qnorm(0.975) * sd(data)/sqrt(length(data))
165
Základy statistiky
11.1.2     Bodový a intervalový odhad rozptylu
Bodový odhad rozptylu
Definice 11.3. Bodový odhad rozptylu vyjadřuje nejlepší odhad skutečného rozptylu populace na základě výběrového rozptylu. Bodový odhad rozptylu o2 se vypočítá jako:
1 n
kde (1 je průměr výběru a Xi jsou jednotlivé hodnoty z výběru.
Praktický výpočet v Excelu:
V Excelu můžete bodový odhad rozptylu vypočítat pomocí funkce VAR.S:
=VAR.S(A1:A10)
Praktický výpočet v R:
V R můžete bodový odhad rozptylu vypočítat funkcí var():
var(data)
Intervalový odhad rozptylu
Definice 11.4. Intervalový odhad rozptylu lze vypočítat	s využitím \2 rozdělení, které se
používá pro odhady rozptylu. Intervalový odhad rozptylu	s hladinou spolehlivosti 1 — a se
vypočítá jako:	
/(n-l)-a2 (n-l)-a2\	
\ Xl-a/2,n-l        Xa/2,n-l 1	
kde Xa/2n-i Je kvantil \2 rozdělení.	
Induktivní statistika
166
Praktický výpočet v Excelu:
Intervalový odhad rozptylu můžete vypočítat pomocí následujících kroků:
1. Výpočet rozptylu: =VAR.S(A1 :A10)
2. Výpočet velikosti výběru: =P0ČET(A1:A10)
3. K výpočtu kvantilu %2 rozdělení použijte funkci CHISQ. INV, např.: =CHISQ. INV(0,975; n-1)
4. Intervalový odhad rozptylu pak získáme dosazením o vzorce pro interval.
Praktický výpočet v R:
V R můžeme intervalový odhad rozptylu vypočítat pomocí následujícího kódu:
n <- length(data)
var(data) * (n-1) / qchisq(c(0.975, 0.025), n-1) Tento výpočet nám poskytne dolní a horní hranici intervalového odhadu rozptylu.
ii2    Řešené příklady
Příklad 11.5. Při měření průměru vačkového hřídele na 250 součástkách bylo zjištěno, že výběrový průměr činí xp = 995,6 a výběrová disperze s2 = 134,7. Předpokládáme, že soubor má normální rozdělení. Určete interval spolehlivosti pro střední hodnotu základního souboru při hladině významnosti a = 0,05.
Řešení: Pro odhad střední hodnoty základního souboru fi na základě výběrových dat se používá interval spolehlivosti ve tvaru:
(xp - A; xp + A) ,
kde xp je výběrový průměr, A je tzv. mezní chyba odhadu a určuje se podle vztahu:
V tomto výrazu:
• s je směrodatná odchylka výběru,
' n je počet pozorování (v našem případě n = 250),
167
Základy statistiky
iíi-s je kritická hodnota normálního rozdělení odpovídající zvolené hladině významnosti a.
Pro hladinu významnosti a = 0,05 je hodnota = NORM.S.INV(0,975) « 1,96.
Nyní vypočítáme mezní chybu odhadu A:
A = v ,_- • 1,96 « 1,441558.
Intervalový odhad střední hodnoty fi je tedy:
(xp - A; xp + A) = (995,6 - 1,441558; 995,6 + 1,441558) = (994,1584; 997,0416).
Z toho plyne, že s 95 % spolehlivostí lze tvrdit, že skutečná střední hodnota průměru vačkového hřídele leží v intervalu (994,1584; 997,0416). □
Příklad 11.6. Určete oboustranný konfidenční interval rozptylu normálně rozloženého základního souboru pro hladiny spolehlivosti 0,90, 0,95 a 0,99, když u výběru s rozsahem n = 12 byl zjištěn rozptyl s2 = 0,64. Posuďte získané výsledky.
Řešení: Pro výpočet konfidenčního intervalu pro rozptyl a2 normálně rozloženého základního souboru použijeme vztah:
2 2
n■s 0        n-s
< a2 <
Xi-a(ro-l) x|(n-l)' kde
• n = 12 je rozsah výběru,
• s2 = 0,64 je výběrový rozptyl,
X^_a{n — 1) a xl(n — 1) jsou kritické hodnoty Pearsonova rozdělení s n — 1 = 11 stupni volnosti.
1. Případ: Hladina spolehlivosti 0,90
Pro hladinu spolehlivosti 1 — a = 0,90 je a = 0,10. Kritické hodnoty jsou:
XJj,o5(ll) = CHIINV(0,05; 11) « 19,675, Xo 95(H) = CHIINV(0,95; 11) « 4,575.
Dosazením do vztahu:
12-0,64      0 12-0,64
<a2<
19,675  ~     ~ 4,575 0,390 < a2 < 1,678.
2. Případ: Hladina spolehlivosti 0,95
Pro hladinu spolehlivosti 1 — a = 0,95 je a = 0,05. Kritické hodnoty jsou:
Xo,025(H) = CHIINV(0,025; 11) « 22,362,
Induktivní statistika
168
X2975(ll) = CHIINV(0,975; 11) « 3,816.
Dosazením do vztahu:
12-0,64      0 12-0,64
<a2<
22,362  -     -   3,816 7 0,343 < a2 < 2,012.
3. Případ: Hladina spolehlivosti 0,99
Pro hladinu spolehlivosti 1 — a = 0,99 je a = 0,01. Kritické hodnoty jsou:
^(ll) = CHIINV(0,005; 11) « 26,757, Xo,995(ll) = CHIINV(0,995; 11) « 2,603.
Dosazením do vztahu:
12-0,64      2 12-0,64 26,757 - °" -   2,603 '
0,287 < a2 < 2,952.
Z výsledků vidíme, že s rostoucí hladinou spolehlivosti se konfidenční interval rozšiřuje. □
OV této kapitole jsme se věnovali základním metodám induktivní statistiky, zejména bodovým a intervalovým odhadům, které jsou klíčovými nástroji pro usuzování o parametrech základního souboru na základě výběrových dat.
V kapitole byl kladen důraz na praktické využití těchto metod v Excelu a R, kde byly představeny konkrétní funkce pro výpočet bodových a intervalových odhadů, jako např. PRŮMĚR, SM0DCH. VÝBĚR, N0RM.S.INV a CHISQ.INV v Excelu a mean(), var O, qnorm() a qchisqO v R.
1. Vysvětlete, co je bodový odhad a jak se liší od intervalového odhadu.
2. Jaké jsou hlavní složky při výpočtu intervalového odhadu pro střední hodnotu? Vysvětlete, co znamená hladina spolehlivosti.
3. Kdy použijete pro intervalový odhad průměru normální rozdělení a kdy Studentovo r-rozdělení?
4. Jaký je rozdíl mezi intervalovým odhadem pro střední hodnotu a intervalovým odhadem pro rozptyl? Uveďte vzorce a vysvětlete jednotlivé členy.
5. Co znamená, že intervalový odhad má hladinu spolehlivosti 95 %? Může být tento odhad vždy správný?
6. Jaký je význam kritické hodnoty v kontextu intervalových odhadů? Jak se liší kritické hodnoty pro různé hladiny spolehlivosti?
7. Jakou roli hraje velikost výběru při výpočtu intervalových odhadů? Jak se mění šířka intervalu s rostoucím počtem pozorování?
169
Základy statistiky
8. Byla měřena délka trvání určitého procesu. Z 12 měření byla zjištěna střední doba trvání procesu 44 s a směrodatná odchylka 4 s. Sestrojte 90 % a 95 % interval spolehlivosti pro očekávanou délku procesu za předpokladu normálního rozdělení. [90 % Cl: (42,02; 45,98), 95 % Cl: (41,45; 46,55)]
9. Při měření kapacity sady kondenzátoru bylo provedeno 10 měření s výsledky: 152, 156, 148, 153, 150, 156, 140, 155, 145, 148. Odhadněte interval spolehlivosti pro kapacitu těchto kondenzátom se spolehlivostí a) 90 %, b) 95 %. [90 % Cl: (146,41; 154,19), 95 % Cl: (145,58; 155,02)]
10. Určete intervalový odhad s 90 % spolehlivostí střední hodnoty a směrodatné odchylky pro následující hodnoty: 606, 1249, 267, 44, 510, 340, 109, 1957, 463, 801, 1086, 169, 233, 1734, 1458, 80, 1023, 2736, 917, 459.    [90 % Cl: (487,87; 1224,73)]
11. Vzorek 20 studentů měl průměrnou dobu studia na zkoušku 5,6 hodiny se směrodatnou odchylkou 1,2 hodiny. Určete 95 % interval spolehlivosti pro průměrnou dobu studia celé populace studentů, pokud předpokládáme, že délka studia má normální rozdělení.    [95 % Cl: (5,00; 6,20)]
12. Po změření výšky 30 osob bylo zjištěno, že průměrná výskaje 172 cm a směrodatná odchylka je 5 cm. Sestrojte 99 % interval spolehlivosti pro průměrnou výšku celé populace.    [99 % Cl: (169,49; 174,51)]
13. Při experimentu s délkou životnosti určitého druhu baterie bylo zaznamenáno 15 hodnot. Výběrový průměr životnosti je 500 hodin a směrodatná odchylka je 40 hodin. Určete 90 % interval spolehlivosti pro očekávanou délku životnosti baterií. [90 % Cl: (481,80; 518,20)]
14. Vzorek 25 produktů měl výběrový rozptyl 0,36. Určete interval spolehlivosti pro rozptyl populace na hladině významnosti 0,05.    [95 % Cl: (0,219; 0,693)]
Literatura k tématu:
[1] HINDLS, R. Statistika pro ekonomy. 8. vyd. Praha: Professional Publishing, 2007. ISBN 978-80-869-4643-6. ISBN 978-80-867-3208-8.
[2] MAREK, L. Statistika v příkladech. 2. vyd. Praha: Kamil Mařík - Professional Publishing, 2015. ISBN 978-80-743-1153-6.
[3] OTIPKA, P., SMAJSTRLA, V. Pravděpodobnost a statistika [online]. 1. vydání. Ostrava: VŠB-TU Ostrava, 2007 [cit. 2024-09-09]. ISBN 80-248-1194-4. Dostupné z: https://homel.vsb.cz/~oti73/cdpastl/
[4] ZVÁRA, K. a ŠTĚPÁN, J. Pravděpodobnost a matematická statistika. Matfyzpress, 2019. ISBN 978-80-7378-388-4.
Kapitola 12
Využití softwaru při řešení statistických úloh
Po prostudování této kapitoly budete umět:
využít software pro řešení vybraných statistických úloh, ' načíst data z externích zdrojů do Excelu, • analyzovat rozsáhlejší data v Excelu.
O
Klíčová slova:
MS Excel, Wolfram Alpha, R, statistické úlohy, data z internetu, analýza dat.
171
Základy statistiky
Náhled kapitoly
Tato kapitola se zaměřuje na využití softwarových nástrojů pro řešení statistických úloh. Nejprve shrneme hlavní funkce a možnosti Excelu, který jsme používali v předchozích kapitolách. Dále se podíváme na Wolfram Alpha, což je výkonný výpočetní nástroj, vhodný pro rychlé teoretické výpočty, ale méně vhodný pro práci s rozsáhlými datovými sadami. Nakonec se informativně seznámíme s R, jehož hlavní výhoda spočívá v pokročilých analýzách dat, které však vyžadují instalaci softwaru a základní znalost programování. Kapitolu zakončíme praktickými příklady s reálnými daty z internetu.
Cíle kapitoly
Cílem této kapitoly je naučit studenty využívat různé nástroje pro statistické výpočty. Studenti si zopakují základní funkce Excelu, naučí se používat Wolfram Alpha k řešení menších úloh a získají základní povědomí o možnostech softwaru R. Důraz bude kladen na praktické aplikace těchto nástrojů při analýze aktuálních dat dostupných na internetu.
Odhad času potřebného ke studiu
Studium této kapitoly zabere přibližně 3 hodiny, včetně času na procvičování. Tento čas zahrnuje shrnutí práce s Excelem, seznámení s Wolfram Alpha, informativní přehled o R a řešení praktických příkladů.
Úvod
V této kapitole se budeme věnovat třem hlavním nástrojům pro řešení statistických úloh: MS Excel, Wolfram Alpha a R. Každý z nich má své výhody i omezení. Excel je široce dostupný a praktický nástroj, Wolfram Alpha umožňuje rychlé teoretické výpočty a R je silný nástroj pro pokročilé analýzy, ale vyžaduje určité programovací dovednosti. Zaměříme se především na Excel a Wolfram Alpha, zatímco R bude představen spíše informativně.
Excel jsme již používali v předchozích kapitolách, proto zde shrneme jeho hlavní funkce a ukážeme, jak je aplikovat na aktuální data. Wolfram Alpha bude vysvětlen více od začátku, jelikož jsme s ním zatím moc nepracovali. U složitějších analýz, jako je regresní analýza nebo práce s rozsáhlými daty, doporučujeme používat R, které však vyžaduje programování.
V této kapitole se také podíváme, jak stáhnout aktuální data z veřejně dostupných zdrojů, například z ČNB , a jak tato data analyzovat pomocí Excelu.
12.1    Shrnutí práce s MS Excel
V této sekci si shrneme hlavní statistické funkce a možnosti, které jsme v Excelu již používali v předchozích kapitolách. Excel je nástroj široce dostupný a je ideální pro základní statistické úlohy, zejména pro práci s menšími datovými soubory a pro vizualizaci dat.
Využití softwaru při řešení statistických úloh
172
Základní statistické funkce v Excelu
PRŮMĚR - slouží k výpočtu průměrné hodnoty datové sady. =PRŮMĚR(A1:A10)
SMODCH.VÝBĚR.S - vypočítá směrodatnou odchylku výběru. =SM0DCH.VÝBĚR.S(AI:A10)
VAR.S - slouží k výpočtu výběrového rozptylu dat. =VAR.S(A1:A10)
COVARIANCE.P - vypočítá kovarianci mezi dvěma datovými sadami. =COVARIANCE.P(AI:A10;Bl:BIO)
CORREL - slouží k výpočtu korelačního koeficientu mezi dvěma proměnnými. =C0RREL(A1:A10;B1:B10)
Modul Analýza dat
Excel obsahuje modul Analýza dat, který poskytuje více pokročilých statistických nástrojů:
Popisná statistika - zobrazí základní souhrnné statistiky jako je průměr, medián, směrodatná odchylka a rozptyl.
Histogram - vizualizace dat v podobě rozdělení četností. Ukázka je na obrázku 24.
Regresní analýza - nástroj pro výpočet regresních koeficientů a analýzu vztahu mezi proměnnými.
Korelační matice - výpočet korelačních koeficientů mezi více proměnnými.
Postup pro použití modulu Analýza dat:
1. Aktivujte modul Analýza dat (Pokud není modul aktivní, přidejte jej přes Možnosti Excelu —Doplňky —Analytické nástroje).
2. Zvolte požadovanou metodu analýzy, např. Popisná statistika.
3. Vyberte oblast dat, na kterých chcete analýzu provést, a potvrďte volbu.
4. Výsledky se zobrazí v novém listu nebo ve zvoleném rozsahu buněk.
173
Základy statistiky
Histogram
25,035      2M2      26,512      25,223      25,3«      25 BM      25.Í75 23,2EE      25,45      1 \ ■-■ 34334
Tri*/
Obr. 24: Ukázka histogramu (četnosti a kumulativní relativní četnosti) z modulu Analýza dat
Tento modul je velmi užitečný pro provádění rychlých analýz a statistických výpočtů, které by jinak vyžadovaly více manuálních kroků.
Grafické zpracování dat
Excel také poskytuje nástroje pro vytváření vizuálních reprezentací dat:
Sloupcové grafy - vhodné pro vizualizaci kategoriálních dat. Spojnicové grafy - ideální pro znázornění časových řad.
• Bodové grafy - často používané při regresní a korelační analýze.
• Histogram - pro znázornění rozdělení četností.
Všechny tyto grafy lze snadno vytvořit prostřednictvím nástroje Vložit —Grafy. Vizualizace dat je důležitou součástí analýzy, protože poskytuje okamžitý náhled na strukturu a rozdělení dat.
Ilustrativní příklad
Příklad 12.1. Máme následující data o výnosech akcií za poslední 10 dnů: 3, 5, 2, 7, 6, 8, 4, 7, 9, 5. Pomocí Excelu vypočítejte průměr, směrodatnou odchylku a vytvořte histogram těchto dat.
Řešení: V Excelu použijeme následující funkce:
• Průměr: =PRŮMĚR(A1: A10) = 5,6.
• Směrodatná odchylka (výběrová): =SM0DCH. VÝBĚR. S (AI: A10) = 2,059.
' Histogram vytvoříme pomocí modulu Analýza dat —Histogram, kde zvolíme intervaly a četnosti.
□
Využití softwaru při řešení statistických úloh
174
12.2    Představení Wolfram Alpha a R
V minulé sekci jsme shrnuli základní práci s excelovskými funkcemi a moduly. V této části se podíváme na další softwarové nástroje, konkrétně Wolfram Alpha a R.
12.2.1     Srovnání R a Wolfram Alpha
1) Licencování:
R: Otevřený software, zdarma, licencován pod GPL. Komunita neustále přidává nové balíčky. Je nutné ho nainstalovat na lokální počítač, ale existují i některé online služby pro běh R.
Wolfram Alpha: Komerční produkt. Základní verze je zdarma, pokročilé funkce vyžadují předplatné Wolfram Alpha Pro. Dostupný interaktivně online, bez potřeby instalace.
2) Použití pro statistické výpočty:
R: Pokrývá širokou škálu statistických výpočtů, od základních po pokročilé metody (na co si člověk vzpomene).
Wolfram Alpha: Umožňuje základní statistické výpočty, rychlé a snadné použití, vhodné pro rychlé dotazy.
3) Šířka záběru:
R: Zaměřeno hlavně na statistiku a analýzu dat. Lze rozšířit o balíčky pro různé oblasti (text mining, geografická data, strojové učení).
Wolfram Alpha: Pokrývá širokou škálu oborů (matematika, další vědy, ekonomie), ale s omezenými možnostmi pro pokročilé statistické analýzy.
12.2.2     Základní příkazy ve Wolfram Alpha
Wolfram Alpha umožňuje provádět různé typy výpočtů, jako je výpočet průměru, směrodatné odchylky, rozptylu a mnoho dalších. Zde jsou některé základní příkazy, které lze zadat přímo
175
Základy statistiky
do vyhledávacího pole Wolfram Alpha:
Mean of {data} - vypočítá průměr datové sady.
Mean of {3, 5, 2, 7, 6, 8, 4, 7, 9, 5}    -ř 5.6
Standard deviation of {data} - vypočítá směrodatnou odchylku datové sady. Standard deviation of {3, 5, 2, 7, 6, 8, 4, 7, 9, 5}    ->• 2.059
Variance of {data} - vypočítá rozptyl datové sady.
Variance of {3, 5, 2, 7, 6, 8, 4, 7, 9, 5}    ->• 4.24
Correlation between {datal} and {data2} vypočítá korelační koeficient mezi dvěma sadami dat.
Correlation between {3, 5, 2} and {7, 8, 4}    ->• 0.866
Po zadání do vyhledávače Wolfram Alpha systém automaticky provede výpočet. Výsledky jsou doplněny o další související informace, jako jsou grafy nebo dodatečné statistické hodnoty.
Ilustrativní příklady
Příklad 12.2 (Regresní analýza ve Wolfram Alpha). Zadejte linear regression of {(1,2), (2,3), (3,5)}.
Řešení: Po zadání Wolfram Alpha vypočítá regresní přímku ve tvaru y = ax + b, kde a je směrnice a b průsečík.
Výstup:       y = 1.5x + 0.5
Wolfram Alpha rovněž poskytne graf a hodnotu koeficientu determinace (R2), což je užitečné pro hodnocení kvality modelu. □
Příklad 12.3. Vyzkoušejte ve Wolfram Alpha následující příkazy a prozkoumejte jejich výstupy:
{10, 12, 8, 14, 11, 9, 15, 13} . five number summary {20, 25, 18, 30, 22, 19, 28, 30, 24} . variance {20, 25, 18, 30, 22, 19, 28, 30, 24} . median {20, 25, 18, 30, 22, 19, 28, 30, 24} • poisson distribution
normal distribution, mean=0, sd=2
Využití softwaru při řešení statistických úloh
176
Student t, 17 degrees of freedom
Wolfram Alpha nám poskytuje okamžité výsledky, které lze použít pro další analýzu nebo kontrolu správnosti našich výpočtů. V následující sekci se podíváme na informativní přehled o využití softwaru R.
R je volně dostupný programovací jazyk zaměřený na statistické výpočty a datovou analýzu. I když jeho využití není v tomto kurzu klíčové, stojí za to jej zmínit jako výkonný nástroj pro složitější úlohy, které mohou být mimo možnosti Excelu nebo Wolfram Alpha. V této části si ukážeme několik základních funkcí v R, které se používají pro statistické úlohy, a to spíše informativně, bez nutnosti provádět výpočty během výuky.
R nabízí širokou škálu funkcí, které jsou velmi užitečné při řešení statistických úloh. Zde je přehled některých základních příkazů:
mean() - vypočítá průměr zadaných dat.
12.2.3
Použití R pro statistické úlohy
Základní příkazy v R pro statistické výpočty
mean(c(3, 5, 2, 7, 6, 8, 4, 7, 9, 5))    ->• 5,6.
sd()
vypočítá výběrovou směrodatnou odchylku zadaných dat.
sd(c(3, 5, 2, 7, 6, 8, 4, 7, 9, 5)) 2,22.
var ()
vypočítá výběrový rozptyl zadaných dat.
var(c(3, 5, 2, 7, 6, 8, 4, 7, 9, 5)) 4,93.
cor ()
vypočítá korelační koeficient mezi dvěma sadami dat.
cor(c(3, 5, 2), c(7, 8, 4)) 0,891.
lm()
provádí lineární regresi.
lm(y ~x, data = dataframe)
Tato funkce provede lineární regresní analýzu mezi proměnnými x a y v datovém rámci dataframe.
177
Základy statistiky
Výhody a nevýhody R
Výhody:
• R je zdarma a otevřený software, který je snadno dostupný.
' Nabízí širokou škálu funkcí a knihoven pro různé statistické metody, od jednoduchých výpočtů po složité modelování.
Je vhodný pro analýzu velkých datových sad, které by byly v Excelu obtížně zpracovatelné.
' Možnost vytvářet pokročilé vizualizace a grafy přímo z dat (pomocí programovéh kódu). Nevýhody:
' R vyžaduje určitou znalost programování, což může být pro začínající studenty obtížné. Ovšem tuto nevýhodu lze do značné míry potlačit s asistencí AI.
Pro mnoho uživatelů je Excel jednodušší a intuitivnější, zejména pro menší a jednodušší úlohy.
Ilustrativní příklad
Příklad 12.4. Zvažte následující data o cenách produktů v obchodech: {10, 12, 8, 14, 11, 9, 15, 13}. Pomocí R vypočítejte průměr, směrodatnou odchylku a rozptyl. Napište příkazy a uveďte, co každý z nich dělá.
Řešení:      • Průměr: mean(c(10, 12, 8, 14, 11, 9, 15, 13)) =11,5.
Směrodatná odchylka (výběrová): sd(c(10, 12, 8, 14, 11, 9, 15, 13)) = 2,44. . Rozptyl (výběrový): var(c( 10, 12, 8, 14, 11, 9, 15, 13)) =6.
□
12.3    Analýza dat z externích zdrojů
V této sekci se zaměříme na příklady rozsáhlejších statistických úloh, které zahrnují stahování dat z internetu, jejich zpracování v Excelu, grafické znázornění a následné výpočty popisných statistik a korelace. Zaměříme se na reálná data z ČNB (kurzy měn) a akciových trhů.
Kde hledat statistická data na internetu?
Existuje mnoho dostupných zdrojů, ze kterých lze stahovat reálná statistická data. Klasicky ve formě souborů, například ve formátu csv, nebo přímým napojením. Mezi ty české patří například Český statistický úřad (czso.cz) a ČNB (cnb.cz). Z těch zahraničních například Eu-rostat (ec.europa.eu/eurostat) a Světová banka (data.worldbank.org), případně Yahoo Finance (finance.yahoo.com) a Google Finance (google.com/finance).
Využití softwaru při řešení statistických úloh
178
Načítání dat z vnějších zdrojů do Excel u
V Excelu existuje několik možností, jak načítat a transformovat data z různých externích zdrojů. Tyto možnosti umožňují zpracovávat data nejen ze souborů na lokálním disku, ale také z online zdrojů s aktuálními informacemi. Mezi základní možnosti patří (viz obrázek 25:
Soubor   Domů    Vložení    Rozložení stránky    Vzorce    Data F
s a a h i a a i
Načíst Z Text/ Z Z tabulky Z obrázku Poslední Existující i data v    CSV    webu  nebo oblasti       v        zdroje připojení
Načíst a transformovat data
Obr. 25: Excel: Skupina Načíst a transformovat data na kartě Data
Načítání z Text/CSV
Pomocí této funkce lze načíst data z textových souborů (.txt) nebo souborů CSV (.csv). Jedná se o jednoduchý způsob, jak dostat strukturovaná data do Excelu.
Načítání z webu
Tato možnost umožňuje přímé načtení dat z webové stránky. Excel si z webu stáhne tabulková data a umožní je dále zpracovávat. To je zvláště užitečné pro načítání kurzů měn, cen akcií nebo jiných finančních dat, která se pravidelně aktualizují.
Načítání z tabulky nebo oblasti
Tento nástroj umožňuje načítat data přímo z jiných tabulek v Excelu nebo z definovaných oblastí buněk. Hodí se při práci s velkými datovými sadami rozdělenými do více souborů.
Načítání z obrázku
Excel dokáže načítat data přímo z obrázků, což je užitečné pro digitalizaci dat v tištěných tabulkách nebo grafech. Stačí nahrát obrázek a Excel rozpozná strukturu dat.
Načítání z webových API a online zdrojů
Excel umožňuje načítání dat z online zdrojů pomocí webových API. Tato funkce je klíčová pro práci s aktuálními daty, například z finančních trhů, online databází nebo jiných služeb poskytujících aktualizované informace. Pomocí rozhraní API lze získat přístup k datům, která se pravidelně aktualizují, což je ideální pro tvorbu reportů nebo analýz založených na živých datech.
Poslední zdroje
V této části Excelu je možné rychle znovu načíst data z posledních použitých zdrojů. To usnadňuje opakované aktualizace dat z těchto zdrojů.
Existující připojení
Tato funkce umožňuje správu a opětovné využití dříve nastavených připojení k datovým zdrojům, jako jsou databáze, webové služby nebo další Excelové soubory.
179
Základy statistiky
Načítání dat z online zdrojů je pro analýzy v Excelu zásadní, zejména pokud pracujeme s dynamickými daty, která se často mění. Pomocí těchto nástrojů je možné zajistit, že naše tabulky budou obsahovat aktuální a relevantní informace pro daný účel.
Ilustrativní příklad
Příklad 12.5 (Načtení a analýza tabulky kurzů měn z ČNB).     1. Na stránkách ČNB najděte údaje „Kurzy devizového trhu - roční historie" a vyberte rok 2024 (obrázek 26)1 .
Kurzy devizového trhu - roční historie
Pošta - Fišer liri - O...    Q IS ImIVSO    § SAS* Logon Mař
trliy/devizovy-:rl"/kLiTy-o-=viic-l/eh o-lrhL/íurzy-is^-ovshiO-t-iu/ic-k tvr?ľok=2024H
:'.   Course: SAS Acade.
KK|l EUR 11 GBP|l HKD|199 HUF! I 24_.6S5| |24,675 124., 650
24^480 Í4,i53í> 124,560 124,655
Obr. 26: ČNB: Kurzy devizového trhu - roční historie - zadání roku 2024
2. Zkopírujte odkaz a použijte jej v Excelu Z webu (obrázek 27).
-> Data -> (Načíst a transformovat data)
Z webu
S Základni    O Upřesnění
Adresa URL_
yviz ovy-tih/kiJ rzy-d eviz ov eh o -trhu /burzy-deviz ove ho- tr h u/rok, ttt? r ck - 202í|
OK Ziusit
15,278 15,201 15,137 15,059 14,951 15,052 15,037 15,061
12,621 12,616 12,602 12,578 12,517 12,578 12,558 12,606
4,609 16,938 26,524
4.584 16,932 26,473
4.585 16,88 26,455 4,583 16,853 26,399
4,57 16,712 26,31
4,595 16,829 26,419
4,589 16,762 26,317
4,599 16,801 26,4
Obr. 27: Načtení dat z ČNB do Excelu pomocí volby Data -> Z webu
3. Pomocí volby Analýza dat -> Popisná statistika  vypočtěte popisné statistiky pro všechny měny (na zvláštní list).
4. Pomocí volby Analýza dat -> Korelace   vypočtěte korelační koeficienty pro všechny dvojice měn (na zvláštní list).
5. Pomocí podmíněného formátování korelační koeficienty obarvěte podle velikosti. Zvlášť zvýrazněte hodnoty větší než 0,9. (obrázek 28).
6. Jak si vysvětlujete tak vysokou pozitivní lineární korelaci?
7. Vyberte jednu dvojici z předchozího bodu a vytvořte pro ni bodový graf.
1AUD - Australský dolar, BGN - Bulharské leva, BRL - Brazilský real, CAD - Kanadský dolar, CHF -Švýcarský frank, CNY - Čínský júan, DKK - Dánská koruna, EUR - Euro, GBP - Britská libra, HKD -Hongkongský dolar, HUF - Maďarský forint (kurz za 100 jednotek), IDR - Indonéská rupie (kurz za 1000 jednotek), ILS - Izraelský nový šekel, INR - Indická rupie (kurz za 100 jednotek), ISK - Islandská koruna (kurz za 100 jednotek), JPY - Japonský jen (kurz za 100 jednotek), KRW - Jihokorejský won (kurz za 100 jednotek), MXN - Mexické peso, MYR - Malajsijský ringgit, NOK - Norská koruna, NZD - Novozélandský dolar, PHP -Filipínské peso (kurz za 100 jednotek), PLN - Polský zlotý, RON - Rumunský lei, SEK - Švédská koruna, SGD - Singapurský dolar, THB - Thajský baht (kurz za 100 jednotek), TRY - Turecká lira (kurz za 100 jednotek), USD - Americký dolar, XDR - Speciální práva čerpání (měna používaná MMF), ZAR - Jihoafrický rand.
Využití softwaru při řešení statistických úloh
180
Á	A	B	C	D	E	F	
1		1AUD	1BGN	1BRL	1CAD	1CHF	1
2	1AUD	1					
3	1BGN	0,56662	1				
4	1BRL	-0,26862	-0,03034	1			
5	1CAD	0,27497	0,54962	0,70436	1		
6	1CHF	0,1362	0,47057	-0,2287	0,11274	1	
7	1CNY	0,489	0,83009	0,20362	0,71783	0,42913	
8	1 DKK	0,56791	0,99647	-0,00012	0,57281	0,46649	1
9	1EUR	0,57007	0,99703	-0,02245	0,55534	0,4615	
10	1GBP	0,74454	0,80486	-0,45514	0,15803	0,49149	
11	1HKD	0,45092	0,67855	0,30423	0,7807	0,02264	
Obr. 28: Podmíněné formát tabulky korelačních koeficientů
12.3.1     Excelovské nástroje pro analýzu akcií Využití datového typu Akcie v Excelu
Datový typ Akcie umožňuje získávat aktuální finanční údaje o veřejně obchodovaných společnostech. Pro jeho použití stačí zadat název společnosti nebo její ticker (např. "AAPĽ'pro Apple) do buňky, následně zvolit z karty Data možnost Akcie. Excel poté poskytne aktuální údaje jako cena, tržní kapitalizace, P/E ratio atd., ale i samotný ticker. Tyto údaje se automaticky aktualizují (minimálně při každém otevření souboru).
Získaný ticker lze následně využít ve funkci STOCKHISTORY pro načtení historických dat obchodování dané akcie.
Použití funkce STOCKHISTORY
Syntaxe je následující:
=ST0CKHIST0RY("ticker"; "start_date";  "end_date";  [interval];   [headers]; [propertyO];  [propertyl];  . . .)
Příklad použití pro načtení denních uzavíracích cen akcií Microsoftu za září 2024: =ST0CKHIST0RY("MSFT"; "2024-09-01"; "2024-09-30"; 0; 1; 0; 5)
Tento vzorec vrátí tabulku obsahující data a uzavírací ceny pro každý obchodní den v uvedeném období. Funkce STOCKHISTORY je vhodná pro analýzu historických finančních dat a sledování časových řad.
Ilustrativní příklady
Příklad 12.6 (Analýza uzavíracích cen akcií firem NVIDIA a Intel). Pomocí datového typu Akcie zjistěte tickery firem NVIDIA a Intel.
181
Základy statistiky
Pomocí funkce STOCKHISTORY načtěte uzavírací denní ceny jejich akcií v období od 1. srpna 2024 do 30. září 2024.
Tyto dvě časové řady graficky znázorněte, vypočtěte pro ně základní popisné statistiky a proveďte jejich korelační analýzu.
Řešení: 1. Tickery
Nejprve získáme tickery společností NVIDIA a Intel pomocí datového typu Akcie:
• Do buněk vložíme názvy společností (NVIDIA, Intel).
Označíme buňky s názvy a na kartě Data zvolíme možnost Akcie. Excel automaticky přiřadí k názvům společností jejich tickery.
. NVIDIA má ticker NVDA, Intel INTC.
2. Zisk historických uzavíracích cen
Pro získání denních uzavíracích cen akcií obou společností v období od 1. srpna 2024 do 30. září 2024 použijeme následující funkce:
=ST0CKHIST0RY("NVDA"; "2024-08-01"; "2024-09-30"; 0; 1; 0; 1) =ST0CKHIST0RY("INTC"; "2024-08-01"; "2024-09-30"; 0; 1; 0; 1)
Experimujte s tímto zápisem tak, abyste získali tabulku o třech sloupcích: datum, ceny NVIDIA, ceny Intel. Tato funkce načte uzavírací ceny pro každý obchodní den v uvedeném období. Získané datové řady budou použity pro další analýzu.
3. Grafické znázornění časových řad
Po získání uzavíracích cen vytvoříme spojnicový graf, který vizuálně znázorní vývoj uzavíracích cen akcií NVIDIA a Intel:
Označíme sloupce s daty (datum, uzavírací ceny NVIDIA a Intel).
• Na kartě Vložení zvolíme typ grafu Spojnicový graf.
' Excel vygeneruje graf, který zobrazí vývoj cen akcií obou společností v průběhu sledovaného období.
4. Korelační analýza
Pro určení míry lineární závislosti mezi cenami akcií NVIDIA a Intel použijeme funkci CORREL. Vzorec pro výpočet korelačního koeficientu mezi dvěma časovými řadami uzavíracích cen je následující:
=C0RREL(B2:B45, C2:C45)\approx 0{,}249.
Využití softwaru při řešení statistických úloh
182
Funkce vrátila korelační koeficient o hodnotě 0,249, který popisujeme jako slabou pozitivní korelaci. Mějme ale na paměti, že korelační koeficient popisuje jen lineární závislost, a tak je vždy užitečné si celkový obraz doplnit obrázkem. V tomto případě je bodový graf na obrázku 29. Můžeme na něm zaznamenat jednu odlehlou hodnotu (v takovém případě bychom měli prověřit, zda nejde o chybnou hodnotu, resp. zjistit, jak mohla nastat). Na obrázku je znatelný drobný nárůst vertikálních hodnot (souřadnic) při růstu horizontálních hodnot. Uvědomme si také, že v tomto typu grafu není zachycena časová složka dat.
$29,00 $27,00 $26,00 $23,00 $21,00 $ 19,00 $ 17,00 $9.								
								
								
						• •		
			•		• • •	•	•	
		• ••	• •   • • ■ a	•	• • • • • • •	•	• • • •	
		•						
	.00            $100,00           $105.00           $110,00           $115,00           $120.00           $125,00 $130,00							
Obr. 29: Bodový graf cen akcií NVIDIA (horizontální osa) a Intel (vertikální osa) z příkladu 12.6
□
Příklad 12.7 (Analýza maximálního rozdílu mezi maximálními a minimálními denními cenami). Zvolte si tři firmy. Získejte jejich tickery a maximální a minimální denní ceny za jedno roční období, končící na konci předminulého měsíce (vzhledem ke dni, kdy příklad počítáte).
Následně pro každou akcii vypočtěte denní rozdíly mezi maximální a minimální cenou. Poté najděte pro každou firmu nejvyšší hodnotu těchto denních rozdílů (tzv. maximální denní rozpětí) a tyto tři hodnoty porovnejte.
Protože ceny akcií mohou být velmi rozdílné, je nutné výsledky porovnávat relativně. Nejprve pro každou akcii spočítejte tzv. průměrnou denní cenu jako průměr maximální a minimální ceny pro každý den. Z těchto průměrů vypočtěte jejich průměrnou hodnotu za celé období.
Nakonec relativně porovnejte maximální denní rozpětí s touto průměrnou cenou (v procentech). Toto procentuální vyjádření vám umožní porovnat, která akcie vykazuje největší cenové výkyvy vzhledem ke své průměrné ceně.
12.3.2     Načítání externích statistických dat v R
Ač Exel lze dobře použít pro import aktuálních finančních a dalších statistických dat, tak ten, kdo ovládá práci v R má situaci mnohem pohodlnější.
183
Základy statistiky
R nabízí několik balíčků, které usnadňují přímé načítání aktuálních statistických a finančních dat z externích zdrojů. Mezi nej používanější patří
' quantmod, který umožňuje získávat data o cenách akcií, měnových kurzech a dalších finančních údajích z Yahoo Finance a FRED.
' Balíček wbstats poskytuje přístup k datům Světové banky, včetně ukazatelů inflace, HDP a dalších makroekonomických dat.
' Pro evropská data lze použít balíček eurostat, který umožňuje stahovat data o ekonomických a sociálních ukazatelích v rámci členských států EU.
' Kromě toho balíček f redr poskytuje přístup k bohaté databázi ekonomických ukazatelů FRED.
Tyto nástroje v R umožňují rychlé a efektivní načítání aktuálních dat pro další analýzu. Samozřejmě, samostatná data nestačí, je třeba nejprve nastudovat jejich strukturu, označení a význam.
O
V této kapitole jsme se věnovali statistické analýze z pohledu použitého softwaru, přirozeně s největším důrazem na MS Excel, ale prošli jsme i možnosti Wolfram Alpha a R. Zaměřili jsme se na výpočty základních statistik, korelační analýzu a tvorbu grafických výstupů. Ukázali jsme také, jakým způsobem lze data načítat do Excelu z externích zdrojů a jak je následně zpracovat.
Wolfram Alpha byl představen jako jednoduchý nástroj pro rychlé výpočty pravděpodobností a dalších základních statistických úloh, kdy není třeba složitého programování.
R bylo popsáno jako pokročilý nástroj pro statistickou analýzu, který je vhodný pro práci s rozsáhlými datovými soubory, jejich vizualizaci a modelování, a umožňuje přímé načítání externích dat z různých statistických zdrojů, jako jsou například Světová banka nebo Eurostat.
1. Jaké zdroje lze využít pro stahování statistických dat z internetu?
2. Jaké jsou základní kroky pro načtení externích dat do Excelu?
3. Popište postup pro vytvoření grafu časových řad v Excelu.
4. Jaké funkce v Excelu použijete pro výpočet průměru, mediánu a směrodatné odchylky?
5. Co je Pearsonův korelační koeficient a jak se v Excelu vypočítá?
6. Kdy je vhodné použít Wolfram Alpha pro statistické výpočty? Uveďte příklady.
7. Jakým způsobem lze analyzovat a znázornit data z akciových trhů?
Využití softwaru při řešení statistických úloh
184
8. Stáhněte data o inflaci z webu Českého statistického úřadu (https://www.czso. cz) za posledních 10 let. Načtěte tato data do Excelu, analyzujte je pomocí grafu časové řady a vypočítejte základní statistiky (průměr, medián, směrodatná odchylka, minimum, maximum).
9. Získejte data o cenách akcií tří ropných společností za tři roky (začátek a konec si zvolte sami) pomocí funkce STOCKHISTORY. Vypočtěte jejich popisné statistiky. Vytvořte graf s těmito třemi časovými řadami. Proveďte jejich korelační analýzu včetně bodových grafů. Komentujte výsledky (největší podobnosti a rozdíly).
©Literatura k tématu: [1] PRAŽSKÁ BURZA CENNÝCH PAPÍRŮ. Dostupné z: https://www.pse.cz/. [2] YAHOO FINANCE. Dostupné z: https://finance.yahoo.com/.
[3] MICROSOFT EXCEL. Podpora pro statistické funkce. Dostupné z: https: //support. microsoft.com/excel.
[4] WOLFRAM ALPHA. Online nástroj pro výpočty. Dostupné z: https: //www. wolf ramalpha. com/.
[5] R CORE TEAM. (2023). R: A Language and Environment for Statistical Computing. R Foundation for Statistical Computing, Vienna, Austria. Dostupné z: https: // cran.r-project.org/manuals.html.
[6] ČESKÁ NÁRODNÍ BANKA (ČNB) - Data. Česká národní banka. (2023). Data a statistiky. Dostupné z: https://www.cnb.cz/cs/statistika/.
[7] EUROSTAT. Statistiky Evropské unie. Dostupné z: https : //ec. europa. eu/eurostat.
[8] SVĚTOVÁ BANKA. (2023). Data Světové banky. Dostupné z: https: //data.worldbank. org/.
[9] ČESKÝ STATISTICKÝ ÚŘAD (ČSÚ). Data a statistiky České republiky. Dostupné z: https : //www. czso . cz/.
Seznam literatury a použitých zdrojů
[1] ANDĚL, J. Statistické metody. 5. vyd. Praha: Matfyzpress, 2019. ISBN 978-80-7378-381-5.
[2] CALDA, E., DUPAC, V. (2008). Matematika pro gymnázia: Kombinatorika, pravděpodobnost, statistika (5. vydání, dotisk 2011). Praha: Prometheus. ISBN 978-80-7196-365-3.
[3] HANSEN, B. Probability and Statistics for Economists. Princeton University Press, 2022. ISBN 9780691236148.
[4] HENDL, J. Základy matematiky, logiky a statistiky pro sociologii a ostatní společenské vědy v příkladech. 3. vyd., Karolinum, 20232. ISBN 978-80-246-5400-3.
[5] HINDLS, R. Statistika pro ekonomy. 8. vyd. Praha: Professional Publishing, 2007. ISBN 978-80-869-4643-6.
[6] HONG, Y. Probability and Statistics for Economists. World Scientific, 2017. ISBN 9789813228818.
[7] JANÁČEK, J. Statistika jednoduše. Grada, 2022. ISBN 978-80-271-1738-3.
[8] KELLER, G. Statistics for Management and Economics. 12th ed., Cengage Learning, 2022. ISBN 9780357714393.
[9] MAREK, L. Statistika v příkladech. 2. vyd. Praha: Kamil Mařík - Professional Publishing, 2015. ISBN 978-80-743-1153-6.
[10] NEUBAUER, J. a SEDLAČÍK, M. Základy statistiky: Aplikace v technických a ekonomických oborech - 3., rozšířené vydání. Grada, 2021. ISBN 978-80-271-3421-2.
[11] OPENAI. Asistovaná příprava studijní opory pomocí ChatGPT. OpenAI. Dostupné na https://chat.openai.com, 2024.
[12] OTIPKA, P., SMAJSTRLA, V. Pravděpodobnost a statistika [online]. 1. vydání. Ostrava: VŠB-TU Ostrava, 2007 [cit. 2024-09-09]. ISBN 80-248-1194-4.
[13] ŘEZANKOVÁ, H. a kol. Úvod do statistiky. 2. dotisk 1. vyd., Oeconomica, nakladatelství VŠE, 2019. ISBN 9788024523019.
[14] ZVÁRA, K. a ŠTĚPÁN, J. Pravděpodobnost a matematická statistika. Matfyzpress, 2019. ISBN 978-80-7378-388-4.
185
Seznam obrázků
1 Pravděpodobnostní a distribuční funkce k příkladu 3.6 .............. 52
2 Výpočet pravděpodobností na nekonečném intervalu................ 55
3 Výpočet pravděpodobností na konečném intervalu................. 55
4 Znázornění hustoty a p-kvantilu xp pro spojité rozdělení pravděpodobnosti (viz definici 3.21)...................................... 62
5 Pravděpodobnostní a distribuční funkce binomického rozdělení pro n = 10 a
p = 0,5......................................... 69
6 Pravděpodobnostní a distribuční funkce hypergeometrického rozdělení pro N =
50, M = 20 a n = 10................................. 71
7 Pravděpodobnostní a distribuční funkce Poissonova rozdělení pro A = 3..... 72
8 Jeden z hrdých otců normálního rozdělení (vytvořeno pomocí ChatGPT, OpenAI) 80
9 Grafy hustot a distribučních funkcí normálního rozdělení s různými rozptyly   . . 81
10 Grafy hustot a distribučních funkcí normálního rozdělení s různými středními hodnotami....................................... 82
11 Grafy hustot a distribučních funkcí rovnoměrného rozdělení (různé parametry a
a b)........................................... 84
12 Grafy hustot a distribučních funkcí exponenciálního rozdělení pro různé parametry A .......................................... 85
13 Graf empirické distribuční funkce pro bodové rozložení četností z příkladu 7.10 . 107
14 Koláčový graf rozložení prodeje produktů ve firmě................. 109
15 Histogram absolutních četností výsledků testu ze statistiky z příkladu 7.10  ... 109
16 Histogram relativních četností hladiny hemoglobinu z příkladu 7.11....... 110
17 Ukázka bodového grafu................................127
18 Vložení bodového grafu................................140
19 Přidání spojnice trendu................................140
20 Nastavení lineární regrese ..............................141
21 Graf časové řady z příkladu 10.12..........................156
22 Dekompozice časové řady z příkladu 10.12.....................156
23 Graf předpovědi časové řady z příkladu 10.12....................156
24 Ukázka histogramu (četnosti a kumulativní relativní četnosti) z modulu Analýza
dat........................................... 172
25 Excel: Skupina Načíst a transformovat data na kartě Data............ 177
26 ČNB: Kurzy devizového trhu - roční historie - zadání roku 2024 ......... 178
27 Načtení dat z ČNB do Excelu pomocí volby Data -> Z webu........... 178
28 Podmíněné formát tabulky korelačních koeficientů................. 179
29 Bodový graf cen akcií NVIDIA (horizontální osa) a Intel (vertikální osa) z příkladu 12.6....................................... 181
186
187
Základy statistiky
Seznam tabulek
1 Četnosti doby pobytu zákazníků v obchodě (intervaly 5 minut).......... 34
2 Bodové rozložení četností výsledků testu z příkladu 7.10 ............. 107
3 Intervalové rozložení četností hladiny hemoglobinu u žen z příkladu 7.11..... 108
4 Ukázka dvourozměrného statistického souboru................... 125
5 Ukázka kontingenční tabulky ............................ 127
6 Ukázková data pro lineární regresi.......................... 137