ZÁKLADY STATISTIKY STUDIJNÍ OPORA PRO KOMBINOVANÉ STUDIUM Moravská vysoká škola Olomouc, o.p.s., 2024 ZÁKLADY STATISTIKY RNDr. Jiří Fišer Ph.D. © Moravská vysoká škola Olomouc, o. p. s. Autoři: RNDr. Jiří FIŠER, Ph.D. Olomouc 2024 Obsah Úvod 8 1 Kombinatorika 10 1.1 Základní pojmy a vlastnosti............................. 12 1.2 Variace......................................... 15 1.2.1 Variace bez opakování............................ 15 1.2.2 Variace s opakováním............................. 16 1.3 Permutace....................................... 17 1.3.1 Permutace bez opakování........................... 17 1.3.2 Permutace s opakováním........................... 17 1.4 Kombinace....................................... 18 1.4.1 Kombinace bez opakování.......................... 19 1.4.2 Kombinace s opakováním........................... 20 1.4.3 Souhrnné příklady .............................. 22 2 Pravděpodobnost jevů 26 2.1 Základní pojmy.................................... 27 2.2 Klasická pravděpodobnost.............................. 28 2.3 Geometrická pravděpodobnost............................ 32 2.4 Statistická pravděpodobnost............................. 34 2.5 Podmíněná pravděpodobnost a nezávislé jevy ................... 35 2.6 Úplná pravděpodobnost a Bayesova věta...................... 38 2.7 Opakované pokusy.................................. 41 2.7.1 Nezávislé pokusy............................... 41 2.7.2 Závislé pokusy ................................ 43 2.8 Souhrnné příklady .................................. 45 3 Náhodná veličina 49 3.1 Rozdělení pravděpodobnosti diskrétní náhodné veličiny.............. 51 3.2 Rozdělení pravděpodobnosti spojité náhodné veličiny ................................... 55 3.3 Číselné charakteristiky náhodné veličiny ...................... 58 3.4 Kvantilové charakteristiky náhodné veličiny......................................... 63 4 Základní typy rozdělení pravděpodobnosti diskrétní náhodné veličiny 67 4.1 Binomické rozdělení.................................. 68 4.2 Hypergeometrické rozdělení ............................. 69 4.3 Poissonovo rozdělení................................. 71 4.4 Řešené příklady.................................... 72 5 Základní typy rozdělení pravděpodobnosti spojité náhodné veličiny 76 5 5.1 Normální rozdělení.................................. 77 5.2 Rovnoměrné rozdělení ................................ 80 5.3 Exponenciální rozdělení ............................... 81 5.4 Řešené příklady.................................... 82 6 Náhodný vektor 87 6.1 Dvourozměrný náhodný vektor............................ 88 6.2 Řešené příklady.................................... 90 7 Statistický soubor s jedním argumentem 99 7.1 Základní pojmy a vlastnosti............................. 100 7.2 Rozložení četností................................... 104 7.2.1 Grafické znázornění četností......................... 107 7.3 Charakteristiky polohy a variability......................... 109 7.3.1 Míry polohy.................................. 109 7.3.2 Míry variability................................ 116 7.4 Míry tvaru rozdělení................................. 118 7.5 Řešené příklady.................................... 119 8 Statistický soubor se dvěma argumenty 124 8.1 Základní pojmy.................................... 126 8.2 Tabulkové a grafické zobrazení dvourozměrných dat................ 126 8.3 Míry polohy a variability pro dvourozměrný soubor................ 128 8.3.1 Míry polohy.................................. 128 8.3.2 Míry variability a kovariance......................... 129 8.4 Řešené příklady.................................... 130 8.5 Kontrolní otázky................................... 132 9 Regresní a korelační analýza 133 9.1 Princip korelační analýzy............................... 134 9.2 Princip lineární regrese................................ 137 9.3 Řešené příklady.................................... 140 10 Časové řady 146 10.1 Základní pojmy časových řad ............................ 148 10.2 Typy časových řad.................................. 149 10.3 Analýza časových řad................................. 150 10.4 Charakteristiky časových řad ............................ 151 10.5 Řešené příklady.................................... 152 10.6 Softwarová analýza časových řad .......................... 153 11 Induktivní statistika 158 11.1 Odhady v induktivní statistice............................ 161 11.1.1 Bodový a intervalový odhad průměru (střední hodnoty).......... 162 11.1.2 Bodový a intervalový odhad rozptylu.................... 164 11.2 Řešené příklady.................................... 165 12 Využití softwaru při řešení statistických úloh 169 12.1 Shrnutí práce s MS Excel............................... 170 12.2 Představení Wolfram Alpha a R........................... 173 12.2.1 Srovnání R a Wolfram Alpha ........................ 173 12.2.2 Základní příkazy ve Wolfram Alpha..................... 173 12.2.3 Použití R pro statistické úlohy........................ 175 12.3 Analýza dat z externích zdrojů ........................... 176 12.3.1 Excelovské nástroje pro analýzu akcií.................... 179 12.3.2 Načítání externích statistických dat v R .................. 181 Seznam literatury a použitých zdrojů 184 Seznam obrázků 185 Seznam tabulek 186 Úvod Vítejte ve světě statistiky Vítejte ve studijní opoře pro předmět Základy statistiky, určené především studentům bakalářského studia ekonomicky a businessově zaměřených oborů. Skripta vás provedou základními pojmy a metodami statistiky s důrazem na jejich využití při analýze a zpracování dat v praxi. Tato studijní opora se částečně překrývá s materiály pro navazující studium. V bakalářském studiu klademe důraz zejména na porozumění principům, správnou interpretaci výsledků a samostatné řešení typických úloh. V navazujícím studiu se témata dále rozšiřují (do hloubky i do šířky) a rozvíjejí se pokročilejší aplikace statistiky. Struktura skript Kapitoly jsou uspořádány tak, aby na sebe logicky navazovaly a umožnily postupné prohlubování znalostí. Každá kapitola rozvíjí dovednosti potřebné pro zvládnutí témat, která následují. ' Kombinatorika - Základní kombinatorické pojmy (variace, permutace, kombinace). Tyto nástroje jsou klíčové zejména pro pravděpodobnostní výpočty. ' Pravděpodobnost jevů - Základní principy pravděpodobnosti: klasická a geometrická pravděpodobnost, podmíněná pravděpodobnost a Bayesova věta. ' Náhodná veličina a její rozdělení - Pojem náhodné veličiny a rozdělení pravděpodobnosti; diskrétní a spojité rozdělení a jejich základní charakteristiky. Základní typy rozdělení pravděpodobnosti Vybraná rozdělení často používaná v praxi: binomické, hypergeometrické, Poissonovo a normální rozdělení (včetně typických situací, kde je použít). ' Náhodný vektor - Více náhodných veličin současně: sdružené rozdělení, podmíněná rozdělení, kovariance a korelace (základ pro analýzu vztahů mezi veličinami). Statistický soubor a jeho analýza - Zpracování dat: třídění, tabulky četností, grafy, charakteristiky polohy a variability. ' Regresní a korelační analýza - Analýza vztahů mezi proměnnými: korelace a jednoduchá regrese jako nástroje pro popis a predikci. Časové řady - Základy analýzy dat v čase; jednoduché postupy pro popis trendu a sezónnosti. ' Induktivní statistika - Odhady parametrů, intervaly spolehlivosti a testování hypotéz; závěry o populaci na základě výběru. Využití statistických softwarů - Základní práce se softwarem (zejména MS Excel, dále R a Wolfram Alpha) pro výpočty a prezentaci výsledků. Každá kapitola obsahuje teoretický výklad i praktické příklady. Cílem je, abyste nejen zvládli výpočty, ale především rozuměli významu a interpretaci získaných výsledků. Co vás v kapitolách čeká Každá kapitola začíná stručným uvedením tématu a cíli, kterých byste měli po jejím prostudování dosáhnout. Dále kapitoly obvykle obsahují: ' Teoretický výklad - Vysvětlení pojmů, metod a postupů včetně podmínek jejich použití. • Řešené příklady - Typické úlohy s postupem řešení. • Rámečky - Zvýraznění klíčových poznatků a shrnutí postupů. • Shrnutí - Rekapitulace hlavních bodů kapitoly. Kontrolní otázky a příklady - Úlohy pro ověření porozumění. U vybraných příkladů jsou uvedeny výsledky v hranatých závorkách pro rychlou kontrolu. Praktická aplikace a význam softwaru Statistika jev ekonomické a manažerské praxi nepostradatelným nástrojem. Ve skriptech proto klademe důraz nejen na teorii, ale i na její praktické využití: výběr vhodné metody, správný výpočet a především interpretaci výsledků v kontextu úlohy. V průběhu studia zjistíte, že statistický software (zejména MS Excel) výrazně usnadňuje výpočty a práci s daty. Pokud zvládnete i základy prostředí R, rozšíříte své možnosti analýzy dat a zvýšíte efektivitu i kontrolu nad postupem výpočtu. Motivace a podpora Cílem skript je pomoci vám osvojit si statistiku jako praktický jazyk pro práci s daty. Učte se postupně: nejprve porozumět zadání, zvolit vhodný postup, provést výpočet a na závěr výsledek smysluplně interpretovat. Chyby jsou přirozenou součástí učení; důležité je umět je rozpoznat a opravit. Věříme, že pro vás budou tato skripta užitečným průvodcem a oporou při studiu i při řešení praktických úloh. Kapitola 1 Kombinatorika Po prostudování této kapitoly budete umět: > rozlišovat mezi variacemi, kombinacemi a permutacemi (s opakováním i bez opakování) , • rozpoznat, kdy v úloze záleží na pořadí a kdy nikoli, • rozlišovat situace s opakováním a bez opakování, > řešit typové úlohy s využitím pravidla součinu a pravidla součtu (příp. principu inkluze a exkluze). Klíčová slova: Kombinatorika, faktoriál, kombinační číslo, variace bez opakování, variace s opakováním, kombinace bez opakování, kombinace s opakováním, permutace bez opakování, permutace s opakováním, pravidlo součinu, pravidlo součtu, princip inkluze a exkluze. 11 Základy statistiky Náhled kapitoly Kombinatorika se zabývá počítáním počtu možností, jak vybrat nebo uspořádat prvky z dané množiny. V této kapitole zavedeme a procvičíme tři základní typy úloh: ' permutace (uspořádání všech prvků), > variace (uspořádání vybraných prvků), ' kombinace (výběr bez ohledu na pořadí). U každého typu budeme rozlišovat, zda se prvky mohou opakovat (výběr s opakováním), nebo nikoli (výběr bez opakování). Základním vodítkem při volbě metody bude odpověď na dvě otázky: Záleží na pořadí? a Je povoleno opakování? Důraz bude kladen na řešení typových úloh, které tvoří přirozený základ pro následující kapitolu o pravděpodobnosti. Cíle kapitoly Po prostudování této kapitoly byste měli být schopni: > rozhodnout, zda je daná situace permutace, variace, nebo kombinace, > rozlišit úlohy s opakováním a bez opakování, • správně zvolit a použít odpovídající vzorec a výsledek interpretovat, řešit typové úlohy s využitím pravidla součinu a pravidla součtu (příp. principu inkluze a exkluze). Časová náročnost Doporučený čas na zvládnutí kapitoly je přibližně 3-4 hodiny: přečtení výkladu, průběžné řešení ukázkových příkladů a samostatné procvičení na úlohách na konci kapitoly. Uvedený odhad předpokládá, že cílem není pouze dosadit do vzorce, ale také umět správně rozpoznat typ úlohy. Kombinatorika 12 í.i Základní pojmy a vlastnosti Co je to kombinatorika? Definice 1.1. Kombinatorika je část matematiky, která se zabývá počítáním počtu možností, jak z dané množiny prvků • prvky vybrat (výběr) nebo • prvky uspořádat (uspořádání), přičemž rozhodujícími otázkami bývá, zda záleží na pořadí a zdaje povoleno opakování prvků. Kombinatorika se v základních úlohách nejčastěji opírá o tři pojmy: • Permutace - uspořádání všech prvků (pořadí rozhoduje). • Variace - uspořádání vybraných k prvků z n (pořadí rozhoduje). ' Kombinace - výběr k prvků z n bez ohledu na pořadí (pořadí nerozhoduje). Kombinatorika je důležitým základem zejména pro teorii pravděpodobnosti a statistiku; využití má také v informatice, optimalizaci a kryptografii. Kombinatorické pravidlo součinu Definice 1.2. (Kombinatorické) pravidlo součinu říká: lze-li určitý postup rozdělit na k po sobě jdoucích kroků tak, že v i-tém kroku existuje rti možností (pro i = 1,..., k), pak celkový počet možností je ni-n2.....nk. Příklad 1.3. V restauraci jsou na výběr 3 druhy předkrmů, 4 druhy hlavních jídel a 2 druhy dezertů. Kolika způsoby lze sestavit menu (předkrm, hlavní jídlo, dezert)? Řešení: V každém chodu volíme nezávisle jednu možnost, proto použijeme pravidlo součinu: 3 • 4 • 2 = 24. Menu lze sestavit 24 způsoby. □ 13 Základy statistiky Kombinatorické pravidlo součtu Definice 1.4. (Kombinatorické) pravidlo součtu říká: lze-li volbu provést buď jedním z ni způsobů nebo jedním z n2 způsobů a tyto možnosti jsou vzájemně neslučitelné (tj. nelze je realizovat současně), potom celkový počet možností je ni + n2. Příklad 1.5. V knihovně je 5 beletristických knih a 3 odborné knihy. Kolik různých knih si můžete vybrat, pokud si můžete vzít právě jednu knihu: buď beletrii, nebo odbornou? Řešení: Možnosti výběru jsou neslučitelné (vybírá se právě jedna kniha), proto platí: 5 + 3 = 8. Vybrat lze 8 různých knih. □ Princip inkluze a exkluze Definice 1.6. Princip inkluze a exkluze slouží k určení počtu prvků ve sjednocení množin A1}..., An. Platí n \A1uA2u---uAn\ = J2\A\- E l^nA,-|+ J2 \Ar\AjnAk\ i=l 1<*<Í<" l<í 1. Příklad 1.12. Vypočtěte hodnotu 5!. Řešení: 5! = 1 • 2-3-4-5 = 120. □ Faktoriál se používá zejména v kombinatorice (např. při výpočtu počtu permutací, variací a kombinací). Hodnota n\ roste s n velmi rychle, proto se ve výpočtech často pracuje se zkracováním výrazů s faktoriály. 15 Základy statistiky 1.2 Variace Variace jsou uspořádané výběry z dané množiny prvků. Budeme rozlišovat dvě situace: • bez opakování - každý prvek lze vybrat nejvýše jednou, • s opakováním - prvky lze vybírat opakovaně. 1.2.1 Variace bez opakování Příklad 1.13. Vypište všechny uspořádané dvojice ze základní množiny prvků {1, a, B}, pokud se prvky nemohou opakovat. Kolik jich je? Řešení: Jde o „variace druhé třídy ze tří prvků bez opakování" (též „2-prvkové variace ze tří prvků bez opakování"). Vypíšeme všechny možnosti: (l,a), (a,l), (1,5), (5,1), (a,B), (B,a). Celkem tedy dostáváme 6 uspořádaných dvojic. □ Při větších hodnotách n a A; je vypisování všech možností nepraktické. Proto odvodíme vzorec pro počet variací. Definice 1.14. Variace bez opakování jsou uspořádané fc-prvkové výběry z n prvků, přičemž každý prvek může být vybrán nejvýše jednou. Počet variací k-té třídy z n prvků (bez opakování) je Vk(n) = 7-T7í = n(n — 1) ■ ■ ■ (n — k + 1). (n — k )!--„-' k činitelů Zde platí 0 < k < n. Příklad 1.15. Kolik různých uspořádaných trojic lze vybrat z množiny {1, 2, 3,4, 5}, pokud se prvky nemohou opakovat? Řešení: Jde o variace třetí třídy z pěti prvků bez opakování: 5' 5' 120 V3(5) = -^-^y = - = — = 60, příp. V3(5) = 5 • 4 • 3 = 60. □ Příklad 1.16. Kolika způsoby lze obsadit první tři místa v závodě s 10 účastníky, pokud se o umístění nelze dělit? Kombinatorika 16 Řešení: Pořadí (1., 2., 3. místo) je rozhodující a každý účastník může obsadit nejvýše jedno místo, proto použijeme variace bez opakování: 10' V3(10) =--- = 10 • 9 • 8 = 720. SK ' (10-3)! □ 1.2.2 Variace s opakováním Definice 1.17. Variace s opakováním jsou uspořádané fc-prvkové výběry z n prvků, přičemž prvky lze vybírat opakovaně. Počet variací k-té třídy z n prvků s opakováním je V£ (n) = nk = n ■ n ■ ■ ■ ■ ■ n . k činitelů Zde platí fc>0an> 1. Příklad 1.18. Kolik různých trojciferných čísel lze vytvořit pomocí cifer 1,2,3,4,5, pokud se cifry mohou opakovat? Řešení: Na každé ze tří pozic lze zvolit jednu z 5 cifer, opakování je dovoleno, proto: V* (5) = 53 = 125. □ Příklad 1.19. Kolik různých čtyřmístných PIN kódů lze vytvořit, pokud každé místo může obsahovat cifru od 0 do 9 a cifry se mohou opakovat? Řešení: Jde o variace s opakováním, kde n = 10 a k = 4: 17(10) = 104 = 10 000. □ Příklad 1.20. Kolik různých značek lze vytvořit v Morseove abecedě, pokud se sestavují z teček a čárek do skupin o délce 1 až 3? Řešení: Základní množina má n = 2 znaky (tečka a čárka) a opakování je dovoleno. Počet značek délky k je V£(2) = 2k. Protože délky 1, 2 a 3 představují neslučitelné případy, použijeme pravidlo součtu: V* (2) + V2*(2) + V;{2) = 21 + 22 + 23 = 2 + 4 + 8 = 14. □ 17 Základy statistiky 1.3 Permutace Permutace jsou uspořádání všech prvků dané množiny. Jde o speciální případ variací, kdy vybíráme k = n prvků, takže pořadí vždy rozhoduje. Budeme rozlišovat permutace bez opakování (všechny prvky jsou různé) a s opakováním (některé prvky se opakují a jsou nerozlišitelné). 1.3.1 Permutace bez opakování Definice 1.21. Permutace bez opakování jsou uspořádání všech n navzájem různých prvků. Počet permutací je P(n) = n\. Příklad 1.22. Vypište všechny permutace množiny prvků {l,a,B} a ověřte, že jejich počet odpovídá vzorci. Řešení: Vypíšeme všechny možnosti uspořádání tří různých prvků: (l,a,B), (l,B,a), (a,l,B), (a,B,l), (B,l, a), (B,a,l). Celkem je permutací 6, což odpovídá P(3) = 3! = 6. □ Příklad 1.23. Kolika způsoby lze uspořádat 6 různých knih na polici? Řešení: Jde o permutace šesti prvků: P(6) = 6! = 720. □ 1.3.2 Permutace s opakováním Definice 1.24. Permutace s opakováním nastávají tehdy, když v souboru n prvků se některé prvky opakují a jsou nerozeznatelné. Nechť existuje k typů prvků a i-tf typ se opakuje n^-krát, kde n = ni + n2 H-----h nk. Počet různých uspořádání je p* (n) =___ ni'n2'-'nfel ; m!n2!---Tifc!' Vzorec zohledňuje, že prohození dvou stejných prvků nevytváří nové uspořádání. Kombinatorika 18 Příklad 1.25. Vypište všechny permutace multmnožiny {l,a,a} a ověřte, že jejich počet odpovídá vzorci. Řešení: Rozlišitelná uspořádání jsou: (l,a, a), (a, l,a), (a, a, 1). Celkem jsou 3. Zde je n = 3, prvek 1 se vyskytuje jednou (ni = 1) a prvek a dvakrát (n2 = 2), proto 3! 6 K^) = ^ = 2 = 3. □ Příklad 1.26. Kolik různých šesticiferných čísel lze vytvořit z číslic 1,1,2,2,2,3? Řešení: Máme n = 6 číslic, přičemž 1 se opakuje dvakrát, 2 třikrát a 3 jednou, tedy (ni,ri2, n^) = (2,3,1): 6' 72D □ Příklad 1.27 (Uspořádání písmen ve slově). Kolik různých uspořádání písmen lze vytvořit ze všech deseti písmen slova STATISTIKA"? Řešení: Ve slově STATISTIKA je n = 10 písmen. Počty opakování jsou: S:2, T:3, A : 2, J : 2, K : 1. Proto , x 10! 3 628 800 3 628 800 „ P* 10 =.....=-=-= 75 600. 2,3,2,2,11 ; 2!3!2!2!1! 2-6-2-2 48 Celkem lze vytvořit 75 600 různých uspořádání. □ Příklad 1.28 (Tvorba řad korálků). Máme 8 korálků, z nichž 4 jsou červené, 3 modré a 1 zelený. Kolik různých řad (lineárních uspořádání) korálků lze vytvořit, pokud korálky stejné barvy nerozlišujeme? Řešení: Jde o permutace s opakováním: n = 8, počty opakování jsou (4, 3,1), tedy P* (*)- 81 - 40320 - 280 Pw(8) - 4!3!i! - ŠÍT ~ 280' □ i.4 Kombinace Kombinace jsou výběry prvků z dané množiny, při kterých nezáleží na pořadí. Budeme rozlišovat kombinace bez opakování (každý prvek lze vybrat nejvýše jednou) a kombinace s opakováním (prvky lze vybírat opakovaně). 19 Základy statistiky Kombinační číslo Definice 1.29. Kombinační číslo (binomický koeficient) {J^j udává počet způsobů, jak vybrat k prvků z n různých prvků bez opakování a bez ohledu na poradí. Pro 0 < k < n platí / n\ n\ k) k\(n-k)V Příklad 1.30. Vypočítejte kombinační číslo Řešení: Použijeme vzorec a vhodně zkrátíme: Í7\ 7! 7-6-5-4! 7-6-5 210 ,3/ 3! 4! (3-2-1)4! 3-2-1 6 35. □ 1.4.1 Kombinace bez opakování Definice 1.31. Kombinace bez opakování je výběr k prvků z n různých prvků, kde na pořadí nezáleží a každý prvek lze vybrat nejvýše jednou. Počet takových výběrů je c' 1, k > 0. ky ' \ k ) \ ra-1 y fc (n-l) ~ ~ Příklad 1.37. Najděte všechny kombinace druhé třídy s opakováním z množiny M = {1,2,3,4, 5}. 21 Základy statistiky Řešení: Zde jen = 5aA; = 2, proto Jednotlivé kombinace (bez pořadí, s možností opakování) jsou: {1,1}, {1,2}, {1,3}, {1,4}, {1,5}, {2,2}, {2, 3}, {2,4}, {2, 5}, {3, 3}, {3,4}, {3, 5}, {4,4}, {4, 5}, {5,5}. Celkem tedy existuje 15 kombinací druhé třídy s opakováním. □ Příklad 1.38. Kolika způsoby lze vybrat 4 bonbóny ze 3 různých druhů, pokud nezáleží na pořadí a bonbóny se mohou opakovat? Řešení: Jde o kombinace s opakováním (n = 3, k = 4): □ Příklad 1.39. Kolika způsoby lze rozdělit 10 jablek mezi 3 děti, pokud každé dítě může dostat libovolný počet jablek? Řešení: Označme xi,X2,xs počet jablek pro jednotlivé děti. Hledáme počet řešení v nezáporných celých číslech rovnice Xi + X2 + X% = 10. To je ekvivalentní kombinacím s opakováním (n = 3, k = 10), tedy □ Příklad 1.40. Kolika způsoby lze rozdělit 8 identických bonbónů mezi 4 děti? Řešení: Analogicky hledáme počet řešení v nezáporných celých číslech rovnice X1+X2+X3+X4 = 8. Proto □ Příklad 1.41. Kolika způsoby lze vybrat 6 květin z 5 druhů, pokud se mohou opakovat? Řešení: Jde o kombinace s opakováním (n = 5, k = 6): □ Příklad 1.42. Zjistěte, kolik existuje různých kvádrů, pro něž platí, že délka každé hrany je přirozené číslo z intervalu [2; 5], přičemž nezáleží na pořadí stran. Kombinatorika 22 Řešení: Délky hran kvádru můžeme popsat trojicí (a,b,c), kde a,b,c G {2,3,4,5} a nezáleží na pořadí (tj. trojice (2,3,5) je totéž co (5,3,2)). Jde tedy o výběr 3 prvků z 4 hodnot s opakováním: n = 4, k = 3. Celkem existuje 20 různých kvádrů. □ 1.4.3 Souhrnné příklady Příklad 1.43. Jsou dány cifry 1,2,3,4,5. Cifry nelze opakovat. Kolik je možno vytvořit z těchto cifer čísel, která jsou: • a) pětimístná, sudá, b) pětimístná, končící dvojčíslím 21, • c) pětimístná, menší než 30 000, • d) trojmístná, lichá, • e) čtyřmístná, větší než 2 000, • f) dvojmístná nebo trojmístná. Řešení: ad a) Pětimístné sudé číslo musí končit cifrou 2 nebo 4 (2 možnosti). Zbylé čtyři pozice vyplníme permutací zbývajících čtyř cifer: 2 • P(4) = 2 • 4! = 2 • 24 = 48. ad b) Číslo má tvar XXX21. Na první tři pozice lze dosadit libovolné uspořádání tří zbývajících cifer: P(3) = 3! = 6. ad c) Podmínka „menší než 30 000" znamená, že první cifra je 1 nebo 2 (2 možnosti). Zbylé čtyři pozice vyplníme permutací zbývajících čtyř cifer: 2 • P(4) = 48. ad d) Trojmístné liché číslo musí končit cifrou 1, 3 nebo 5 (3 možnosti). Zbylé dvě pozice obsadíme dvěma různými ciframi ze zbývajících čtyř, přičemž pořadí rozhoduje (variace bez opakování): 3 • \/2(4) = 3 • (4 • 3) = 36. ad e) Čtyřmístné číslo větší než 2 000 má tisíce 2, 3, 4 nebo 5 (4 možnosti). Zbylé tři pozice obsadíme třemi různými ciframi ze zbývajících čtyř, pořadí rozhoduje: 4 ■ \/3(4) = 4 • (4 • 3 • 2) = 96. 23 Základy statistiky ad f) Hledáme počet dvojmístných nebo trojmístných čísel (neslučitelné případy), proto použijeme pravidlo součtu: V2(5) + V3(5) = (5 • 4) + (5 • 4 • 3) = 20 + 60 = 80. □ Příklad 1.44. Kolik různých státních poznávacích značek tvaru 4M9 XX-XX existuje s alespoň dvěma trojkami? (Na místech X mohou být jen číslice.) Řešení: Na čtyřech pozicích X počítáme řetězce číslic s alespoň dvěma trojkami, tj. s právě 2, 3 nebo 4 trojkami. Označme xr počet značek s právě r trojkami. 4 trojky: jediná možnost 33-33, tedy x 4 = 1. 3 trojky: zvolíme pozici, na které není trojka (4 možnosti). Na zbývající pozici lze dát jednu z 9 číslic {0,1,2,4,5,6,7,8,9}: x3 = Q • 9 = 4 • 9 = 36. (Pozn.: ekvivalentně x3 = ■ 9.) 2 trojky: nejprve zvolíme, na kterých 2 pozicích jsou trojky: ^) = 6 možností. Zbylé dvě pozice vyplníme libovolnými číslicemi z množiny 9 možností, přičemž opakování je dovoleno a pořadí pozic je dáno (variace s opakováním): x2 = Q . g2 = 6 • 81 = 486. Celkový počet požadovaných značek je x = x2 + x3 + x4 = 486 + 36 + 1 = 523. □ OV této kapitole jsme se seznámili se základními pojmy kombinatoriky, tj. s metodami pro počítání počtu možností výběru a uspořádání prvků. Klíčovým krokem při řešení úloh bylo vždy rozhodnout, zda záleží na pořadí a zda je dovoleno opakování. Probrali jsme tři základní typy úloh: • Variace - uspořádané výběry k prvků z n (pořadí rozhoduje), a to bez opakování i s opakováním. • Permutace - uspořádání všech n prvků (speciální případ variací pro k = n), opět bez opakování i s opakováním. • Kombinace - výběry k prvků z n bez ohledu na pořadí (pořadí nerozhoduje), bez opakování i s opakováním. Kombinatorika 24 Dále jsme používali základní principy pro počítání počtu možností: ' Pravidlo součinu - pro postupy složené z několika po sobě jdoucích kroků (násobení počtu možností v jednotlivých krocích). ' Pravidlo součtu - pro volbu z několika vzájemně neslučitelných možností (sčítání počtu možností). ' Princip inkluze a exkluze - pro výpočet počtu prvků ve sjednocení množin se zohledněním průniků. Cílem kapitoly bylo, abyste uměli správně rozpoznat typ úlohy, zvolit odpovídající postup a výsledek interpretovat. 1. Státní poznávací značku tvoří dvě písmena, tři číslice a další dvě písmena (formát AAXXXAA, kde A je písmeno a X číslice). Kolik různých značek lze vytvořit, pokud můžeme vybírat z 25 písmen a 10 číslic? [390 625 000] 2. Kolik různých šestimístných čísel lze sestavit z cifer 1, 2 a 3, pokud se cifry mohou opakovat? [729] 3. V MHD se kdysi používaly lístky s devíti čtverečky označenými čísly 1 až 9. Po nastoupení cestující zasunul lístek do strojku, který prodírkoval tři nebo čtyři z nich (specificky pro dané vozidlo a den). Kolik je různých způsobů produkování lístku? [210] 4. Kolika způsoby mohou sedět v kině sedm kamarádů (A, B, C, D, E, F, G) na sedadlech 1 až 7 tak, aby kamarád B seděl na sedadle č. 4 a kamarád G na sedadle č. 2? [120] 5. Do tanečního kroužku přišlo 24 chlapců a 15 dívek. Kolik různých párů lze vytvořit, pokud pár tvoří vždy dvojice chlap ec-dívka? [360] 6. Ve třídě je 20 žáků. Kolika způsoby lze vybrat dvojici pro týdenní službu? [190] 7. Kolik hráčů se zúčastnilo turnaje ve stolním tenise, pokud se ve dvouhře odehrálo 21 utkání a každý hráč hrál s každým právě jednou? [7] 8. Ve třídě je 20 dívek a 15 chlapců. Kolik různých pětičlenných hlídek na branné závody lze vytvořit, pokud v každé hlídce mají být 3 dívky a 2 chlapci? [119 700] 9. Hokejové družstvo má 20 hráčů: 13 útočníků, 5 obránců a 2 brankáře. Kolik různých sestav může trenér vytvořit, pokud sestava má obsahovat 3 útočníky, 2 obránce a 1 brankáře? [5 720] 10. Učitel má k dispozici 20 aritmetických a 30 geometrických úloh. Na písemné práci mají být dvě aritmetické a tři geometrické úlohy. Kolik má učitel možností k vytvoření písemné práce? [771400] 11. Ze 7 mužů a 4 žen máme vytvořit 6člennou skupinu, ve které mají být 3 ženy. Kolika způsoby lze takovou skupinu vytvořit? [140] 12. Učitel má vybrat na recitační soutěž tři studenty ze třídy 3.A a dva studenty ze třídy 3.B. V 3. A je 22 studentů a v 3.B je 17 studentů. Kolik má učitel možností výběru? [209440] 13. Kolik existuje způsobů, jak uspořádat sedadla pro kamarády A, B, C, D a E tak, aby kamarád A seděl vedle kamaráda C? [48] 25 Základy statistiky 14. Latinská abeceda má 26 písmen. Kolik různých ôpísmenných „slov" lze vytvořit, pokud se písmena mohou opakovat? [308 915 776] 15. Státní poznávací značka tvoří 7 znaků. Na prvních třech pozicích může být číslice nebo písmeno, na zbývajících čtyřech jen číslice. Kolik různých značek lze vytvořit, pokud použijeme 28 písmen a 10 číslic? [548 720 000] 16. Na hodině tělesné výchovy stojí v řadě 5 dívek, z nichž dvě jsou sestry. Kolika způsoby lze rozestavit dívky tak, aby sestry stály vedle sebe? [48] Literatura k tématu: [1] OTIPKA, P., SMAJSTRLA, V. Pravděpodobnost a statistika [online]. 1. vydání. Ostrava: VŠB-TU Ostrava, 2007 [cit. 2024-09-09]. ISBN 80-248-1194-4. Dostupné z: https://homel.vsb.cz/~oti73/cdpastl/ [2] CALDA, E., DUPAC, V. (2008). Matematika pro gymnázia: Kombinatorika, pravděpodobnost, statistika (5. vydání, dotisk 2011). Praha: Prométheus. ISBN 978-80-7196-365-3. Kapitola 2 Pravděpodobnost jevů Po prostudování této kapitoly budete umět: ' objasnit pojmy náhodný pokus, náhodný jev, operace s jevy a jejich použití, • představit klasickou a geometrickou pravděpodobnost, > řešit typové úlohy z oblasti pravděpodobnosti včetně podmíněné pravděpodobnosti, nezávislosti a Bayesovy věty. Klíčová slova: Náhodný pokus, náhodný jev, klasická pravděpodobnost, geometrická pravděpodobnost, operace s jevy, podmíněná pravděpodobnost, nezávislé jevy, úplná pravděpodobnost, Ba-yesova věta. 27 Základy statistiky Náhled kapitoly V této kapitole se zaměříme na základní pojmy a pravidla teorie pravděpodobnosti, která tvoří výchozí rámec pro následné statistické metody. Nejprve zavedeme pojmy náhodný pokus a náhodný jev a ukážeme si, jak s jevy pracovat pomocí základních operací (sjednocení, průnik, doplněk). Poté představíme klasickou a geometrickou pravděpodobnost a procvičíme je na typových příkladech. Dále se budeme věnovat podmíněné pravděpodobnosti a pojmu nezávislosti jevů, které umožňují analyzovat složitější situace. Kapitolu uzavřeme pravidlem úplné pravděpodobnosti a Bayesovou větou, jež jsou klíčové pro řadu aplikací (např. aktualizace pravděpodobností na základě nové informace). Cíle kapitoly Po prostudování této kapitoly byste měli být schopni: • definovat náhodný pokus a náhodný jev a pracovat s operacemi s jevy, • používat klasickou a geometrickou pravděpodobnost v typových úlohách, • vypočítat podmíněnou pravděpodobnost a rozhodnout o nezávislosti jevů, • aplikovat pravidlo úplné pravděpodobnosti a Bayesovu větu. Časová náročnost Doporučený čas na zvládnutí kapitoly je přibližně 4-5 hodin (výklad + průběžné řešení příkladů + samostatné procvičení). 2.1 Základní pojmy Definice 2.1. Náhodný pokus je opakovatelný proces, jehož výsledek nelze předem jednoznačně určit, i když jsou podmínky pokusu stejné. Množinu všech možných výsledků náhodného pokusu nazýváme prostor elementárních jevů a označujeme ji íl. Například při hodu hrací kostkou je Q = {1, 2, 3,4, 5,6}. Definice 2.2. Náhodný jev je podmnožina prostoru elementárních jevů, tedy A C fž. Řekneme, že jev A nastal, právě když výsledek náhodného pokusu patří do A. Například při hodu kostkou může být jev A „padne sudé číslo", tedy A = {2,4,6}. Pravděpodobnost jevů 28 Druhy náhodných jevů Definice 2.3. Nechť A, B C Q jsou náhodné jevy. ' Jev jistý je jev, který nastane vždy. Platí A = Q a jeho pravděpodobnost je P(Q) = 1. ' Jev nemožný je jev, který nikdy nenastane. Platí A = 0 a jeho pravděpodobnost je P(0) = 0. ' Jev elementární je jev, který obsahuje právě jeden výsledek, tj. má tvar {co} pro nějaké co G Q. • Jev složený je jev, který obsahuje alespoň dva výsledky. • Doplněk jevu A (opačný jev) je jev Ac = Q \ A, tj. nastane právě tehdy, když jev A nenastane. ' Neslučitelné (disjunktní) jevy A a, B jsou takové, že nemohou nastat současně, tedy in5 = 0. • Slučitelné jevy A a B jsou takové, že mohou nastat současně, tedy A n B ^q>. 2.2 Klasická pravděpodobnost Definice 2.4. Nechť náhodný pokus má konečný prostor elementárních jevů Q a nechť všechny elementární výsledky jsou stejně pravděpodobné (rovnoměrný model). Potom klasická pravděpodobnost jevu A je p^j^ počet příznivých výsledků celkový počet možných výsledků Pozn.: Pokud si prostor výsledků zapisujeme jako množinu, pak „počet prvků množiny" se |íí|- značí \A\ a |íž| a lze psát také P (A) — — 29 Základy statistiky Kdy lze použít klasickou pravděpodobnost? Q je konečná a její prvky (elementární jevy) jsou jednoznačně určeny. Všechny elementární jevy jsou stejně pravděpodobné (např. férová kostka, férová mince). Pozn.: Nezávislost opakovaných pokusů není předpokladem samotného vzorce P (A) \A\/\Q\; je důležitá až při modelování více pokusů (např. dva hody kostkou). Příklad 2.5. Hod hrací kostkou je klasickým příkladem náhodného pokusu. Popište prostor elementárních jevů a uveďte příklady jevů. Řešení: Náhodný pokus: hod hrací kostkou. Prostor elementárních jevů je íl = {1,2,3,4,5,6}. Příklady náhodných jevů: • A = {1,3,5}: „padne liché číslo", B = {4,5,6}: „padne číslo > 4", • 0: „padne číslo > 6" (jev nemožný), • Q: „padne číslo mezi 1 a 6" (jev jistý), > jevy „padne sudé číslo" a „padne liché číslo" jsou neslučitelné, protože jejich průnik je prázdný. □ Příklad 2.6. Při hodu kostkou určete pravděpodobnost jevů: • a) A: „padne číslo 5", • b) B: „padne číslo < 2". Řešení: Protože všechny výsledky jsou stejně pravděpodobné a |fž| = 6, dostáváme: □ Příklad 2.7. S jakou pravděpodobností padne při hodu dvěma hracími kostkami součet: • a) 6, Pravděpodobnost jevů 30 b) menší než 7? Řešení: Uvažujme uspořádané dvojice kde i je výsledek na první kostce a j na druhé. Platí = 6 • 6 = 36. ad a) Součet 6 nastane pro pět dvojic: (1,5),(2,4),(3,3),(4,2),(5,1). Proto 5 P(součet 6) = ^7. ad b) Součet menší než 7 znamená součet 2,3,4,5 nebo 6. Počty možností jsou postupně 1, 2, 3,4, 5, celkem tedy 1 + 2 + 3 + 4 + 5 = 15 příznivých dvojic. Proto 15 5 P(součet < 7) = - = -. □ Příklad 2.8. V cele předběžného zadržení sedí vedle sebe 10 podezřelých, z toho 3 ženy. Jaká je pravděpodobnost, že všechny tři ženy sedí vedle sebe? Řešení: Uvažujme všechna možná uspořádání 10 různých osob v řadě. Celkový počet uspořádání je n = 10!. Aby všechny tři ženy seděly vedle sebe, budeme je chápat jako jeden „blok". Pak máme celkem 8 objektů (blok žen + 7 mužů), které lze uspořádat v řadě způsoby. Uvnitř bloku se ženy mohou prohodit 3! způsoby. Počet příznivých uspořádání je tedy m = 8! • 3!. Hledaná pravděpodobnost je m 8! • 3! 6 1 n 10! 10-9 15' □ Příklad 2.9. Stanovte pravděpodobnost jevu, že z 10 náhodně vytažených bridžových karet budou alespoň 3 esa. (V balíčku je 52 karet, z toho 4 esa.) Řešení: Označme A jev „vytáhneme alespoň 3 esa". To znamená „vytáhneme právě 3 esa" nebo „vytáhneme právě 4 esa". Tyto případy jsou neslučitelné, proto P(A) = P(A3) + P(A4), kde As je jev „právě 3 esa" a A4 je jev „právě 4 esa". Celkový počet výběrů 10 karet z 52 je (^). Dále: 31 Základy statistiky pro A3 vybíráme 3 esa ze 4 a zbylých 7 karet z 48 ne-es, pro At vybíráme všechna 4 esa a zbylých 6 karet z 48 ne-es. Proto (4\ /48\ /4\ f 48 = ^7^' p(^) = ^ (9 Co a tedy /4\ /48\ , /4\ /48 P(A) 3/ V 7 / _ V4/ V 6 52 10 □ Příklad 2.10. Při slosování sportky je z osudí vylosováno 6 čísel ze 49. Poté je ze zbývajících 43 čísel vylosováno dodatkové číslo. Při správném tipování: • a) šesti čísel získává sázející výhru 1. pořadí, • b) pěti čísel a dodatkového čísla (5+1) získává sázející výhru 2. pořadí, • c) pěti čísel získává sázející výhru 3. pořadí, • d) čtyř čísel získává sázející výhru 4. pořadí, • e) tří čísel získává sázející výhru 5. pořadí. Vypočítejte pravděpodobnosti, se kterými při vsazeném jednom sloupci vyhrajete v 1. tahu výhry a)-e). Řešení: V jednom sloupci tipujeme 6 čísel. Základní počet všech možných šestic je /49\ M = 13 983 816. ad a) (6 správných) Jediný příznivý případ je, že tipovaná šestice je přesně vylosovaná: 1 P(6) ad b) (5+1) Tipujeme 5 čísel z vylosované šestice a zároveň tipujeme dodatkové číslo. To lze provést 0-0- způsoby, proto fe\ íi P(5 + 1) 51 VI 49\ /49 Pravděpodobnost jevů 32 ad c) (5 správných, bez dodatkového) Tipujeme 5 čísel z vylosované šestice a šesté tipované číslo musí být z ostatních 43 čísel, která nejsou vylosována v hlavní šestici ani jako dodatkové: „51 (3(?) ** ad d) (4 správná) Tipujeme 4 čísla z vylosované šestice a zbývající 2 tipovaná čísla volíme z oněch 43 nevylosovaných čísel: ad e) (3 správná) Tipujeme 3 čísla z vylosované šestice a zbývající 3 tipovaná čísla volíme z 43 nevylosovaných čísel: □ 2.3 Geometrická pravděpodobnost Definice 2.11. Geometrická pravděpodobnost je model, ve kterém jsou všechny výsledky náhodného pokusu rovnoměrně rozloženy v nějaké geometrické oblasti (např. na úsečce, v rovině nebo v prostoru). Pravděpodobnost jevu A se pak určuje jako poměr míry příznivé části k míře celé oblasti: délka / plocha / objem příznivé části délka / plocha / objem celé oblasti Používáme ji typicky tehdy, když výsledek pokusu závisí na spojité veličině (čas, poloha bodu, úhel apod.). Příklad 2.12. Jaká je pravděpodobnost, že meteorit dopadne na pevninu, víme-li, že pevnina má rozlohu 149 milionů km2 a moře 361 milionů km2? Řešení: Celková plocha (pevnina + moře) je S = 149 + 361 = 510 milionů km2. Pravděpodobnost dopadu na pevninu určíme jako poměr ploch: 149 P(pevnina) = -« 0,2922. 510 □ 33 Základy statistiky Příklad 2.13. Je dán kruh o poloměru 10 cm. Uvnitř je vyznačena kruhová oblast o poloměru 5 cm. Jaká je pravděpodobnost, že náhodně zvolený bod z většího kruhu padne do menšího kruhu? Řešení: Plocha většího kruhu je 5Ut$í = 7T • 102 = 1007T cm2, plocha menšího kruhu je umenší = 7T • 52 = 257T Clil2. Hledaná pravděpodobnost je poměr ploch: p _ umenší _ 257T _ Svétši 1007T □ Příklad 2.14. Dva známí se domluví, že se sejdou na určitém místě mezi 15:00 a 16:00. Každý z nich po příchodu čeká nejvýše 20 minut. Jaká je pravděpodobnost, že se setkají? Řešení: Označme x čas (v minutách po 15:00), kdy přijde první osoba, a y čas příchodu druhé osoby. Předpokládáme rovnoměrné a nezávislé příchody, tedy (x,y) je rovnoměrně rozložen v čtverci [0,60] x [0,60]. Setkají se právě tehdy, když \x-y\< 20. Celková plocha čtverce je Sn = 60 • 60 = 3600. Nevyhovující oblasti tvoří dva shodné pravoúhlé trojúhelníky v rozích čtverce (nad přímkou y = x + 20 a pod přímkou y = x — 20). Každý má odvěsny délky 40, tedy obsah Stroj = \ • 40 • 40 = 800. Celková nevyhovující plocha je 2 • 800 = 1600, a proto příznivá plocha je SA = 3600 - 1600 = 2000. Hledaná pravděpodobnost je netkají Se) = fl = ^ = 5 « 0,5556. Sq 3600 9 □ Pravděpodobnost jevů 34 2.4 Statistická pravděpodobnost Definice 2.15. Statistická pravděpodobnost (frekventistické pojetí) vychází z relativní četnosti výskytu jevu při opakování téhož náhodného pokusu. Označme n počet provedených pokusů a Nn(A) počet pokusů, ve kterých nastal jev A. Relativní četnost jevu A je HA) - ^ n Je-li možné uvažovat dlouhou řadu pokusů za stejných podmínek, pak pravděpodobnost jevu A chápeme jako limitu relativní četnosti: P (A) = lim u A) = lim ^ľÍS.. n—í-oo n—í-oo yi V praxi pracujeme s odhadem P (A) ~ fn(A) pro velké n. Kdy má statistická pravděpodobnost smysl? • pokus lze opakovat za (přibližně) stejných podmínek, > jednotlivá opakování lze považovat za nezávislá a stejně rozdělená (i.i.d. model), pro dostatečně velké n se relativní četnosti stabilizují (zákon velkých čísel). Statistická pravděpodobnost je vhodná tehdy, když máme k dispozici data z opakovaných pozorování a chceme na jejich základě odhadnout pravděpodobnosti jevů. Poznámka k diskrétním a spojitým situacím ' Diskrétní situace: Jevy často odpovídají konkrétním hodnotám (např. „padne 6"). Pravděpodobnosti lze odhadovat relativními četnostmi jednotlivých hodnot. Spojitá situace: Pro spojitou náhodnou veličinu je pro každou konkrétní hodnotu typicky P(X = x) = 0. Odhady proto děláme pro intervaly (např. P(170 < X < 175)) pomocí četností v intervalech; při jemnějším dělení intervalů pak přecházíme k pojmu hustoty pravděpodobnosti. Příklad 2.16 (spojitý případ). Sledujme dobu, po kterou se zákazníci zdržují v obchodě. Čas pobytu byl zaznamenán a rozdělen do intervalů o délce 5 minut. Data o četnostech pro jednotlivé intervaly shrnuje tabulka: Určete statistické pravděpodobnosti pro jednotlivé intervaly. Řešení: Celkem bylo sledováno n = 200 zákazníků. Statistické pravděpodobnosti odhadneme 35 Základy statistiky Tab. 1: Četnosti doby pobytu zákazníků v obchodě (intervaly 5 minut) Interval (min) Četnost <0;5) 77 (5; 10) 83 (10; 15) 25 (15; 20) 15 Celkem 200 relativními četnostmi: P«0;5)) 77 2ÔÔ 0,385, 25 P«10;15))« —= 0,125 P«5; 10)) 83 2ÔÔ 0,415, 15 P«15;20))« — = 0,075. Odhady tvoří rozdělení pravděpodobnosti na zvolených intervalech (součet je 1). □ 2.5 Podmíněna pravděpodobnost a nezávislé jevy Podmíněná pravděpodobnost Definice 2.17. Podmíněná pravděpodobnost je pravděpodobnost jevu A za předpokladu, že nastal jev B. Označuje se P{A\B) a je definována jako: P{A\B) = P{^\ pokud P(P)>0. Tento koncept je užitečný v mnoha praktických situacích, například při odhadu pravděpodobnosti úspěchu produktu na trhu, pokud víme, že byl úspěšný v podobném segmentu. Nezávislé jevy Definice 2.18. Nezávislé jevy jsou takové jevy, jejichž výskyt jeden druhého neovlivňuje. To znamená, že pravděpodobnost výskytu jednoho jevu neovlivňuje pravděpodobnost výskytu druhého jevu. Pokud jsou dva jevy A a, B nezávislé, pak platí následující rovnost: P(Af]B) =P(A)-P(B). Pravděpodobnost jevů 36 Tato rovnost říká, že pravděpodobnost současného výskytu jevů A a B (jejich průniku) je součinem pravděpodobností jednotlivých jevů. Nezávislost je důležitý koncept, který se často vyskytuje v reálných situacích, například při opakovaných náhodných pokusech, jako je házení kostkou nebo mincí. V těchto případech výsledek jednoho hodu neovlivňuje výsledek následujících hodů, a proto jsou tyto pokusy nezávislé. Skupinově nezávislé jevy Definice 2.19. Jevy A, B a, C jsou skupinově nezávislé, jestliže platí následující podmínky: ' Nezávislost po dvou: Každá dvojice jevů musí být nezávislá, což znamená, že pro všechny dvojice jevů platí: P(Af]B) =P(A)-P(B), P(AnC) =P(A)-P(C), P(BnC) =P(B)-P(C). • Nezávislost po třech: Pro tři jevy zároveň musí platit, že průnik všech tří jevů odpovídá součinu jejich pravděpodobností: P (A n B n C) = P (Ä) ■ P (B) ■ P {C). Pokud jsou splněny všechny tyto podmínky, říkáme, že jevy A, B a C jsou skupinově nezávislé. Tato vlastnost je klíčová v situacích, kde analyzujeme souběh více nezávislých jevů, a je využívána v pravděpodobnostních modelech, jako je například rozklad nezávislých náhodných veličin. Příklad 2.20 (mini-příklad). Z balíčku 52 karet vytáhneme jednu kartu. Nechť A = {karta je eso}, B = {karta je piková}. Určete P (A | B). Řešení: Platí P (A) = ^, P{B) = || a P{A fl B) = (pikové eso je právě jedno). Proto P(A | B) p {A n B) _ ± _ i P(B) § 13' □ Příklad 2.21. Házíme dvěma férovými mincemi. Určete pravděpodobnost jevu: • A: padne líc a rub (v libovolném pořadí), • B: na první minci padne líc. 37 Základy statistiky Určete pravděpodobnost jevu A za předpokladu, že nastal jev B. Řešení: Možné výsledky hodu dvěma mincemi (uspořádané dvojice) jsou: 1. mince 2. mince LÍC LÍC RUB LÍC RUB LÍC RUB RUB Nejprve určíme pravděpodobnosti potřebné pro podmínění. Jev B nastane ve dvou ze čtyř stejně pravděpodobných výsledků, tedy P(B) = Jev Af] B znamená: na první minci je líc a zároveň padne líc i rub, takže na druhé minci musí být rub. To je právě jeden výsledek ze čtyř, tedy Příklad 2.22. Studenti při zkoušení mohou dostat tři otázky. První student je připraven pouze na 1. otázku, druhý pouze na 2. otázku, třetí pouze na 3. otázku a čtvrtý je připraven na všechny tři otázky. Náhodně vybereme jednoho studenta. Uvažujme jevy: • A\. vybraný student dokáže zodpovědět 1. otázku, • A2: vybraný student dokáže zodpovědět 2. otázku, • A3: vybraný student dokáže zodpovědět 3. otázku. Ukažte, že jevy Ai, A2, A% jsou po dvou nezávislé, ale nejsou vzájemně nezávislé. Řešení: Označme studenty (1), (2), (3), (4) podle zadání; každý je vybrán se stejnou pravděpodobností 1/4. Jednotlivé jevy. Jev A\ nastane, pokud byl vybrán student (1) nebo (4), tedy Podle definice podmíněné pravděpodobnosti: □ Pravděpodobnost jevů 38 Průniky dvojic. Jev A\ fl A2 nastane právě tehdy, když byl vybrán student (4) (jen ten umí obě otázky), tedy P(A1nA2) = 1-. Stejně platí P(A1 n A3) = P{A2 n A3) = i. Proto pro každou dvojici i ^ j dostáváme P{AlnA]) = -A=l-.l-=P{AAP{A]), a jevy jsou po dvou nezávislé. Průnik trojice. Jev A\ f\A2 C\A3 opět nastane pouze tehdy, když byl vybrán student (4), tedy P(A1nA2nA3) = i. Kdyby byly jevy vzájemně nezávislé, muselo by platit P(A, nA2n A3) = P(^)P(A2)P(A3) = l--l-.l-=1-. Protože jevy Ai,A2,A3 nejsou vzájemně nezávislé. □ 2.6 Úplná pravděpodobnost a Bayesova věta Úplná pravděpodobnost Definice 2.23. Nechť Bi,..., Bn tvoří rozklad prostoru íl, tj. n BíDBj =0 {i Ý j), \jBí = tt, a P(Bí) > 0 pro všechna i. Potom pro libovolný jev A platí zákon úplné pravděpodobnosti n n P(A) = J2P(An Bi) = E P(Bi) P(A | BA. í=i í=i Poznámka 2.24. Smysl vzorce: jev A může nastat v různých „scénářích" B1}... ,Bn. Celková pravděpodobnost P{A) je vážený průměr podmíněných pravděpodobností P{A \ Bi) s vahami Příklad 2.25. V obchodě jsou tři pokladny. Na pokladně 1 dojde k chybě v účtování s pravděpodobností 0,1, na pokladně 2 s pravděpodobností 0,05 a na pokladně 3 s pravděpodobností 0,2. Pravděpodobnosti, že zákazník bude odbaven pokladnami 1, 2 a 3, jsou postupně 0,3, 0,25 a 0,45. Jaká je pravděpodobnost, že zákazník opouštějící obchod má chybný účet? 39 Základy statistiky Řešení: Označme A jev „došlo k chybě v účtování" a Hi jev „zákazník byl odbaven na i-té pokladně", i = 1,2,3. Jevy Hi,H2,H3 tvoří rozklad prostoru (zákazník projde právě jednou pokladnou), proto použijeme zákon úplné pravděpodobnosti: P{A) = J2P{Ht)P{A\Ht). i=i Dosadíme: P (A) = 0,3 • 0,1 + 0,25 • 0,05 + 0,45 • 0,2. P(A) = 0,03 + 0,0125 + 0,09 = 0,1325. Pravděpodobnost chybného účtu je tedy 0,1325 (tj. přibližně 13,25%). □ Bayesova věta Definice 2.26. Nechť B±,..., Bn tvoří rozklad prostoru Q (tj. Bi fl B j = 0 pro i ^ j, \Ji=i Bi = Q a P{Bi) > 0). Potom pro libovolný jev A s P (A) > 0 platí Bayesova věta: P(Bt | A) P (A Bi) P(Bi) Y.n3=1P(A Jmenovatel je celková pravděpodobnost jevu A, tj. podle zákona úplné pravděpodobnosti P(A) = J2P(A\BJ)P(Bj). Poznámka 2.27. Bayesova věta „obrací podmínku": z pravděpodobnosti důsledku při dané příčině P{A | B i) a z apriorní pravděpodobnosti příčiny P{Bi) určíme aposteriorní pravděpodobnost příčiny po pozorování důsledku P(Bi \ A). Příklad 2.28 (Bayesova věta). V obchodě jsou tři pokladny. Pravděpodobnost chyby v účtování je na pokladnách 1, 2, 3 postupně 0,1, 0,05 a 0,2. Pravděpodobnosti odbavení zákazníků pokladnami 1, 2, 3 jsou 0,3, 0,25 a 0,45. Pokud dojde k chybě v účtování, jaká je pravděpodobnost, že k ní došlo na třetí pokladně? Řešení: Označme A jev „došlo k chybě" a H i jev „zákazník byl odbaven na i-té pokladně", i = 1,2,3. Hledáme P(H3 | A). Nejprve určíme P (A) zákonem úplné pravděpodobnosti: P(A) = 0,3 • 0,1 + 0,25 • 0,05 + 0,45 • 0,2 = 0,1325. Pak použijeme Bayesovu větu: P(H, | A) = PiA ' H*lPW = = « 0,6792. v 3 1 ; P (A) 0,1325 0,1325 Pravděpodobnost, že chyba vznikla na třetí pokladně, je přibližně 67,92 %. □ Pravděpodobnost jevů 40 Příklad 2.29 (Pozitivní lékařský test). Prevalence výskytu AIDS v populaci je 0,6%. Test má senzitivitu 99,9 % (tj. je pozitivní s pravděpodobností 0,999, je-li osoba nakažená) a specificitu 99% (tj. je negativní s pravděpodobností 0,99, je-li osoba zdravá). Jaká je pravděpodobnost, že osoba s pozitivním testem má skutečně AIDS? Řešení: Označme: A: osoba má AIDS, tedy P (A) = 0,006, • Ä: osoba nemá AIDS, tedy P(A) = 0,994, T+: test je pozitivní. Ze zadání: P(T+ | A) = 0,999, P(T+ | ~Á) = 1 - 0,99 = 0,01. Použijeme Bayesovu větu: P (A | T+) Dosadíme: P(T+ A) P{A) P(T+ A) P{A) + P(T+ A) P{A) * , °>999 • 0>006 0,005994 P(A T+ =-----= --« 0,376. v 1 ; 0,999-0,006 + 0,01-0,994 0,015934 Pravděpodobnost, že osoba s pozitivním testem má skutečně AIDS, je přibližně 37,6 %. □ Pozor (typická chyba / base-rate fallacy): Vysoká senzitivita a specificita ještě neznamenají, že P{A | T+) bude blízko 1. Výsledek výrazně závisí na prevalenci P (A): je-li nemoc vzácná, mohou falešně pozitivní výsledky tvořit velkou část všech pozitivních testů. Interpretace (test na vzácné onemocnění): Uvažujme 10 000 náhodně vybraných osob. Při prevalenci 0,6% očekáváme asi 0,006 • 10 000 = 60 nakažených a 9 940 zdravých. Z nakažených bude test pozitivní přibližně u 0,999 • 60 ~ 60 osob, zatímco ze zdravých bude falešně pozitivních asi 0,01 -9 940 ~ 99 osob. Celkem tedy bude pozitivních zhruba 60 + 99 = 159 osob, z nichž nakažených je asi 60, takže 60 P(A | T+) « — « 0,38, což odpovídá vypočtené hodnotě 0,376. 41 Základy statistiky 2.7 Opakované pokusy Definice 2.30. Opakované pokusy jsou situace, kdy tentýž náhodný pokus provádíme vícekrát za stejných podmínek. Zajímá nás zejména rozdělení počtu výskytů určitého jevu v n opakováních. 2.7.1 Nezávislé pokusy Definice 2.31. Nezávislé opakované pokusy jsou takové, v nichž výsledek jednoho pokusu neovlivňuje výsledky dalších pokusů. V každém pokusu má sledovaný jev (např. „úspěch") stejnou pravděpodobnost. Poznámka 2.32. Typickým příkladem je opakovaný hod férovou mincí nebo kostkou. V praxi se s nezávislými pokusy setkáme např. při testování shodně vyrobených kusů (každý testovaný kus je jiný exemplář) nebo při opakovaném náhodném výběru. Definice 2.33 (Bernoulliho schéma (binomické rozdělení)). Mějme n nezávislých pokusů, v nichž může nastat jev A („úspěch") s pravděpodobností p; označme q = 1 — p. Nechť X je počet úspěchů v n pokusech. Potom X má binomické rozdělení a pro k = 0,1,... ,n platí P{X = k) = (n\pkqn-k. Nejpravděpodobnější počet úspěchů (modus). Nejpravděpodobnější hodnota k splňuje (n + l)p — 1 < k < {n + l)p. Je-li (n + l)p celé číslo, existují dvě nejpravděpodobnější hodnoty: k = (n + l)p — 1 a k = (n + l)p; jinak je modus jednoznačný a platí k = [(n + l)p\. Příklad 2.34. Házíme šestkrát férovou hrací kostkou. Vypočtěte pravděpodobnost, že šestka padne právě dvakrát. Řešení: Jde o Bernoulliho schéma s parametry n = 6, p = | („úspěch" = „padne šestka") a Numericky: P(* = 2) = 15 ■ i ■= « 0,2009. v ; 36 1296 46656 Pravděpodobnost, že šestka padne právě dvakrát, je tedy přibližně 0,2009. □ Pravděpodobnost jevů 42 Příklad 2.35. Sportovní střelec zasáhne cíl při každém výstřelu s pravděpodobností p = 0,8. Vypočtěte pravděpodobnost, že při 5 výstřelech budou v cíli: 1. právě 2 zásahy, 2. nejvýše jeden zásah, 3. alespoň 2 zásahy. Řešení: Počet zásahů označme X. Při nezávislých výstřelech platí X ~ Bi(n = 5,p = 0,8), tedy P(X = k)= Q(0,8)fc(0,2)5"fc. 1. Pravděpodobnost právě 2 zásahů: P(X = 2) = Q (0,8)2(0,2)3 = 10 • 0,64 • 0,008 = 0,0512. 2. Pravděpodobnost nejvýše jednoho zásahu: P(X < 1) = P(X = 0) + P(X = 1), P(X = 0) = Q (0,8)°(0,2)5 = (0,2)5 = 0,00032, P(X = 1) = Q (O^)1^)4 = 5 • 0,8 • 0,0016 = 0,0064, P{X < 1) = 0,00032 + 0,0064 = 0,00672. 3. Pravděpodobnost alespoň dvou zásahů: P(X > 2) = 1 - P(X < 1) = 1 - 0,00672 = 0,99328. □ Příklad 2.36. Pravděpodobnost, že náhodně vybraný student bude znát učivo, je p = 0,05. Jaká je pravděpodobnost, že mezi dvaceti vybranými studenty bude: a) právě 5 znalých studentů, • b) nejvýše 2 znalí studenti, • c) alespoň jeden znalý student? Řešení: Označme X počet znalých studentů mezi n = 20 náhodně vybranými. Předpokládáme nezávislost a stejnou pravděpodobnost znalosti, tedy X ~ Bi(20,0,05) a P(X = k)= r°j(0,05)fc(0,95)20^. 43 Základy statistiky a) Pravděpodobnost, že budou právě 5 znalí: P(X = 5)= ^(0,05)5(0,95)15 = 15504 • 0,0000003125 • 0,463291 « 0,002245. b) Pravděpodobnost, že budou nejvýše 2 znalí: P(X < 2) = P(X = 0) + P(X = 1) + P(X = 2), P(X = 0) = (0,95)20 « 0,358486, P(X = 1) = ^ (0,05)(0,95)19 = 1 • (0,95)19 « 0,377354, P(X = 2) = ^ (0,05)2(0,95)18 = 190 • 0,0025 • (0,95)18 « 0,188677, P(X < 2) « 0,358486 + 0,377354 + 0,188677 = 0,924516. c) Pravděpodobnost, že bude alespoň jeden znalý: P(X > 1) = 1 - P(X = 0) = 1 - (0,95)20 « 1 - 0,358486 = 0,641514. □ 2.7.2 Závislé pokusy Definice 2.37. Závislé opakované pokusy jsou takové, v nichž výsledek jednoho pokusu mění pravděpodobnosti v pokusech následujících. Typicky se to děje tehdy, když po provedení pokusu dojde ke změně podmínek (např. změna složení urny po výběru bez vracení). Poznámka 2.38. Nejčastějším modelem závislých opakovaných pokusů v základním kurzu je výběr bez vracení. Počet „úspěchů" ve výběru pak má hypergeometrické rozdělení. Definice 2.39 (Výběr bez vracení (hypergeometrické rozdělení)). Mějme soubor N prvků, z nichž M má sledovanou vlastnost („úspěch") a N — M ji nemá („neúspěch"). Náhodně vybereme bez vracení n prvků. Označme X počet vybraných prvků se sledovanou vlastností. Potom pro k = 0,1,..., n (přesněji pro ta k, pro něž má výraz smysl) platí P(X = k) M\ ÍN-M k ) \ n—k N' Příklad 2.40. V osudí jsou 2 bílé a 3 černé koule. Určete pravděpodobnost toho, že: Pravděpodobnost jevů 44 • a) vytáhneme naráz 3 koule a budou 2 černé a 1 bílá, • b) vytáhneme po jedné bez vracení 2 černé a 1 bílou (v libovolném pořadí). Řešení: V obou případech jde o tentýž výběr bez vracení, jen jinak popsaný. ad a) Naráz vybíráme n = 3 koule z N = 5, přičemž „úspěch" definujeme jako „černá koule". Tedy M = 3 a chceme k = 2: P(X = 2) = = — = 0,6. 10 ad b) Při postupném výběru bez vracení a požadavku „2 černé a 1 bílá v libovolném pořadí" dostaneme stejnou pravděpodobnost jako v bodě a). Např. pro konkrétní pořadí CBC platí P(ČBČ) = - • - • - = -. v ; 5 4 3 5 Stejnou pravděpodobnost mají i pořadí CCB a BCC, takže 1 P(2 černé a 1 bílá) = 3 • - = 0,6. 5 □ Příklad 2.41. Mezi 15 výrobky je 5 zmetků. Vybereme 3 výrobky. Jaká je pravděpodobnost, že právě jeden z nich je vadný, jestliže: • a) vybereme všechny 3 najednou, • b) vybíráme po jednom bez vracení? Řešení: Opět jde v obou případech o tentýž výběr bez vracení. Označme X počet vadných kusů ve výběru. Máme N = 15, M = 5 (vadné), n = 3 a chceme k = 1: a) (2°) 5-45 225 45 P(X = 1) = v =-=-= — « 0,4945. v ; /15^ 455 455 91 ad a) Výsledek je přímo uveden výše. ad b) Při postupném výběru bez vracení lze stejně dojít součtem přes pořadí (V = vadný, D = dobrý): P(VDD) = 1 ■ 12 . 1, P(DVD) = — . -5---— P(DDV) = 1» . JL . 1, v 7 15 14 13 v 7 15 14 13 v 7 15 14 13 a tedy P(X = 1) = P(VDD) + P(DVD) + P(DDV), což dá stejný výsledek §. □ 45 Základy statistiky 2.8 Souhrnné příklady Příklad 2.42. Mějme pět vstupenek po 100 Kč, tři vstupenky po 300 Kč a dvě vstupenky po 500 Kč. Náhodně vybereme tři vstupenky (bez vracení). Určete pravděpodobnost toho, že: • a) alespoň dvě z těchto vstupenek mají stejnou hodnotu, • b) všechny tři vstupenky stojí dohromady 700 Kč. Řešení: Celkem je N = 10 vstupenek a vybíráme n = 3, takže počet všech stejně pravděpodobných výběrů je ad a) Řešíme přes opačný jev. Opačný jev k „alespoň dvě mají stejnou hodnotu" je „všechny tři mají různé hodnoty", tj. jedna za 100 Kč, jedna za 300 Kč a jedna za 500 Kč. Počet takových výběrů je (i) (')(;), tedy ; ? í P(všechny různé Proto '!)©(?) - 30 3 10 3 ad b) Součet 700 Kč může nastat jen ve dvou typech výběrů: 5\ Í3\ 2h P(alespoň dvě stejné) = 1 — P(všechny různé) = 1 — /in\ = 1 — y^ = y = 0,75. (100, 300, 300): (° (100, 100, 500): Tedy r5\ /3\ , Í5\ (2 i 15 +20 7 P(celkem 700 Kč) = ^ ^ 1Q ^ W = = - « 0,2917. □ Příklad 2.43. Z celkové produkce závodu jsou 4% zmetků a z dobrých výrobků je 75 % standardních. Určete pravděpodobnost, že náhodně vybraný výrobek je standardní. Řešení: Označme: A = {výrobek je dobrý (není zmetek)}, B = {výrobek je standardní}. Zadání říká, že P (A) = 0,96 a P{B \ A) = 0,75. Standardní výrobek musí být dobrý, tedy B C A a, platí P(B) = P (A n B) = P (A) P (B I A) = 0,96 • 0,75 = 0,72. □ Pravděpodobnost jevů 46 Příklad 2.44. Z výrobků určitého druhu dosahuje 95 % předepsanou kvalitu. V určitém závodě, který vyrábí 80 % celkové produkce, má předepsanou kvalitu 98 % výrobků. Mějme náhodně vybraný výrobek předepsané kvality. Jaká je pravděpodobnost, že byl vyroben ve výše uvedeném závodě? Řešení: Označme: A = {výrobek je ze zmíněného závodu}, B = {výrobek je předepsané kvality}. Hledáme P (A | B). Známe P {A) = 0,8, P(Á) = 0,2, P(B | A) = 0,98. Dále je dáno, že celkově platí P{B) = 0,95. (To je klíčový údaj; bez něj nelze P (A | B) určit.) Použijeme Bayesovu větu: P (A B) = —i—' \ v ; =--- =--« 0,8253. V 1 ; P(B) 0,95 0,95 □ O V této kapitole jsme zavedli základní pojmy teorie pravděpodobnosti a ukázali jsme jejich použití na typových úlohách. Pracovali jsme s modely, ve kterých pravděpodobnost vyjadřuje míru nejistoty výsledku náhodného pokusu, a naučili jsme se rozlišovat situace s konečným i spojitým prostorem výsledků. ' Náhodný pokus - opakovatelný proces, jehož výsledek nelze předem jistě určit (např. hod kostkou, losování). Množinu všech možných výsledků nazýváme prostor elementárních jevů íl. • Náhodný jev - podmnožina íž; jev A nastane právě tehdy, když výsledek pokusu patří do A. Rozlišili jsme jev jistý, nemožný, elementární a složený a uvedli základní vztahy mezi jevy (doplněk, průnik, sjednocení, neslučitelnost). ' Klasická pravděpodobnost - v konečném prostoru Q se stejně pravděpodobnými elementárními jevy platí počet příznivých výsledků počet všech výsledků Typicky např. při hodu férovou kostkou je P({padne 6}) = |. Geometrická pravděpodobnost - v „kontinuálním" modelu určíme pravděpodobnost jako poměr délek/obsahů/objemů, např. velikost příznivé oblasti velikost celé oblasti Statistická (frekvenční) pravděpodobnost pravděpodobnost jevu interpretujeme jako limitu relativní četnosti v dlouhé řadě opakování pokusu; v praxi ji odhadujeme z dat. 47 Základy statistiky ' Podmíněná pravděpodobnost - pravděpodobnost jevu A za podmínky, že nastal jev B, PIA I B) = P(B) > 0. • Nezávislost jevů - jevy A a, B jsou nezávislé, jestliže P(Af]B) = P(A)P(B), a upozornili jsme na rozdíl mezi nezávislostí po dvou a vzájemnou (skupinovou) nezávislostí. Zákon úplné pravděpodobnosti a Bayesova věta použili jsme rozklad prostoru na disjunktní případy a vypočítali pravděpodobnosti „zpětně" (pravděpodobnost příčiny při známém důsledku). Opakované pokusy - pro nezávislé opakované dichotomické pokusy jsme uvedli Bernoulliho schéma (binomický vzorec) a pro výběr bez vracení hypergeomet-rické rozdělení. Získané pojmy a vzorce tvoří základ pro následující kapitoly: umožňují jednak správně modelovat náhodné situace, jednak přesně interpretovat výsledné pravděpodobnosti v kontextu daného problému. 1. Máme 230 výrobků, mezi nimiž je 20 nekvalitních. Vybereme 15 výrobků bez vracení. Jaká je pravděpodobnost, že mezi 15 vybranými bude právě 10 dobrých (a tedy 5 nekvalitních)? [0,00448] 2. Pacienta lze kontrolovat v čase od 7 do 20 hodin. Vycházky má od 13 do 15 hodin. Jaká je pravděpodobnost, že při náhodně zvolené kontrole v intervalu (7; 20) bude pacient doma k zastižení? [11/13] 3. Dva sportovní střelci střílejí nezávisle na sebe do jednoho terče (každý jednou). Pravděpodobnost zásahu prvního střelce je 0,8, druhého 0,4. Při střelbě byl v terči právě jeden zásah. Jaká je pravděpodobnost, že terč zasáhl první střelec? [0,857] 4. Pravděpodobnost výhry hráče v jedné partii je 0,6. Určete nejpravděpodobnější počet výher hráče v deseti odehraných partiích. [6] 5. Série 100 výrobků je kontrolována náhodným výběrem 5 kusů bez vracení. Série je považována za „špatnou", je-li alespoň jeden z pěti vybraných výrobků vadný. Vypočtěte pravděpodobnost, že série bude vyhodnocena jako špatná, víme-li, že obsahuje 5% vadných výrobků. [0,230] 6. V telefonním seznamu náhodně vybereme jedno šestimístné číslo (může začínat nulou) a předpokládáme, že v seznamu jsou použita všechna šestimístná čísla. Jaká je pravděpodobnost, že číslo: a. neobsahuje číslici 0? [0,53144] b. obsahuje alespoň jednu číslici 3? [0,46856] c. obsahuje právě jednu číslici 3? [0,35429] Pravděpodobnost jevů 48 Literatura k tématu: [1] OTIPKA, P., SMAJSTRLA, V. Pravděpodobnost a statistika [online]. 1. vydání. Ostrava: VŠB-TU Ostrava, 2007 [cit. 2024-09-09]. ISBN 80-248-1194-4. Dostupné z: https://homel.vsb.cz/~oti73/cdpastl/ [2] CALDA, E., DUPAC, V. (2008). Matematika pro gymnázia: Kombinatorika, pravděpodobnost, statistika (5. vydání, dotisk 2011). Praha: Prométheus. ISBN 978-80-7196-365-3. [3] ZVÁRA, K. a ŠTĚPÁN, J. Pravděpodobnost a matematická statistika. Matfyzpress, 2019. ISBN 978-80-7378-388-4. Kapitola 3 Náhodná veličina Po prostudování této kapitoly budete umět: > rozlišovat mezi diskrétními a spojitými náhodnými veličinami a jejich pravděpodobnostními funkcemi, vypočítat střední hodnotu, rozptyl a směrodatnou odchylku pro různá rozdělení náhodných veličin, ' chápat význam distribuční funkce a umět ji interpretovat pro různé typy náhodných veličin, vytvořit pravděpodobnostní a distribuční funkci pro diskrétní a spojitou náhodnou veličinu a graficky je znázornit. Klíčová slova: Diskrétní rozdělení, spojité rozdělení, pravděpodobnostní funkce, distribuční funkce, hustota pravděpodobnosti, střední hodnota, rozptyl, šikmost a špičatost. Náhodná veličina 50 Náhled kapitoly Pro lepší pochopení toho, jak pravděpodobnost funguje, je důležité se seznámit s pojmy náhodného jevu a náhodné veličiny, které slouží k popisu náhodných procesů. Dále se podíváme, jak je možné pomocí rozdělení pravděpodobnosti určit pravděpodobnost výskytu různých hodnot náhodné veličiny v rámci určitého systému. Kapitola se zaměřuje na klíčové koncepty, jako jsou pravděpodobnostní rozdělení, diskrétní a spojité náhodné veličiny, a způsoby výpočtu střední hodnoty, rozptylu a směrodatné odchylky. Cíle kapitoly Cílem této kapitoly je zopakování (srovnání znalostí) základů teorie pravděpodobnosti a těch poznatků o náhodných veličinách a jejich rozděleních pravděpodobnosti, které budou potřeba v následujících kapitolách. Odhad času potřebného ke studiu Pro zvládnutí této kapitoly je doporučeno věnovat studiu přibližně 4 až 5 hodin. Tento čas zahrnuje čtení textu, pochopení základních pojmů a principů pravděpodobnosti, řešení příkladů a procvičení výpočtů základních pravděpodobnostních charakteristik. Náhodný jev a náhodná veličina Definice 3.1. Náhodný jev je událost, která může, ale nemusí nastat v rámci nějakého pokusu nebo procesu. Můžeme si ho představit jako výsledek experimentu, který závisí na náhodě. Pravděpodobnost je míra, která kvantifikuje možnost, že k danému náhodnému jevu dojde, a pohybuje se v rozmezí od 0 (jevu nelze dosáhnout) do 1 (jev nastane s jistotou). Například pravděpodobnost, že při hodu kostkou padne číslo 6, je |, protože existuje 6 možných výsledků a každý má stejnou šanci nastat. Definice 3.2. Náhodná veličina je proměnná, která může nabývat různých (reálných) hodnot v závislosti na výsledku náhodného pokusu. Například při hodu kostkou může náhodná veličina X představující výsledek hodu nabývat hodnot 1,2,3,4,5 nebo 6. Každý z těchto výsledků je výsledek náhodného procesu. Náhodné veličiny, které mohou nabývat různých hodnot v závislosti na výsledku náhodného jevu, se používají k popisu výsledků náhodných procesů. 51 Základy statistiky Příklady náhodných veličin mohou být: • Počet lvů při deseti hodech mincí. ' Počet zákazníků, kteří navštíví obchod v určitém dni. Výška náhodně vybraného člověka z populace. ' Doba, za kterou přijede autobus na zastávku. Výsledek hodu dvěma kostkami (součet bodů). ' Počet vadných kusů ve výrobní sérii 100 produktů. Tyto příklady ukazují různé typy náhodných veličin - některé jsou diskrétní (počet hlav, počet zákazníků), jiné spojité (výška člověka, čas čekání). Rozdělení pravděpodobnosti Rozdělení pravděpodobnosti popisuje, jak jsou pravděpodobnosti jednotlivých možných výsledků náhodné veličiny rozloženy. Například u hodu (férovou) kostkou mají všechny výsledky (hodnoty 1 až 6) stejnou pravděpodobnost, tedy |. V praxi však ne vždy všechny výsledky mají stejnou pravděpodobnost. Rozdělení pravděpodobnosti tedy udává, s jakou pravděpodobností různé hodnoty náhodné veličiny nastanou. Rozdělení pravděpodobnosti nám tedy poskytuje obraz o tom, jak často můžeme očekávat jednotlivé výsledky náhodného pokusu. V závislosti na typu náhodné veličiny rozlišujeme dvě hlavní kategorie: diskrétní a spojité náhodné veličiny. 3.1 Rozdělení pravděpodobnosti diskrétní náhodné veličiny Diskrétní náhodná veličina nabývá pouze konečného nebo spočetně nekonečného množství možných hodnot. Příkladem diskrétní náhodné veličiny je počet vadných výrobků v sérii nebo počet zákazníků přicházejících do obchodu za jeden den. Diskrétní náhodná veličina je jednoznačně určena posloupností reálných čísel {xn} a posloupností pravděpodobností {pn = P(X = xn)}. Příklad 3.3. Diskrétní náhodná veličina X nabývá hodnot M = {1,2,4,5} s pravděpodobnostmi p (k) = P[X = k], kde 1111 = g, P(2) = 4> M4) = jj, P(5) = 4 a p(x) = 0 Jinak- Náhodná veličina 52 i - Zapisujeme také pomocí tabulky či obrázku: S 1/3 — k 1 2 4 5 P (X = k) i 3 i 4 i 6 i 4 0 12 3 4 5 _x_ Definice 3.4. Diskrétní náhodné veličiny mají svou pravděpodobnostní funkci, která přiřazuje každé hodnotě náhodné veličiny určitou pravděpodobnost P{X = x,j) = pi} i = 1,... ,m, kde Xi je možná hodnota diskrétní náhodné veličiny X, a Pí je pravděpodobnost, že X nabude hodnoty Xi. Vlastnosti pravděpodobnostní funkce: • p{x) > 0 Mx E IR, xeM Výpočet pravděpodobnosti (jevu B) P(XeB)= J2 P(x = xn)= J2 pM n:x„eBnM n:x„eBnM (součet pravděpodobností všech čísel/výsledků, která patří do B; jelikož nenulové pravděpodobnosti jsou jen v M, tak proto B fl M.) Definice 3.5 (Distribuční funkce). Distribuční funkce náhodné veličiny X je reálná funkce F : IR —y (0; 1) definovaná vztahem F(x) = P(X 5. F(ar) i 3 7_ 12 3 4 Nej názornější stejně budou grafy na obrázku 1. 1/3 — 1/4 — 1/6 — Obr. 1: Pravděpodobnostní a distribuční funkce k příkladu 3.6 □ Z příkladu 3.6 sice můžeme odpozorovat některé vlasnosti distribuční funkce, ale raději si je zde vypíšeme: Náhodná veličina 54 Vlastnosti distribuční funkce: . F(x) e (0,1), • -F je neklesající, • -F je zprava spojitá, • -F je definovaná na IR, • lim F (x) = 0, lim F (x) = 1, x^—oo x^oo • P(X = x q) = F (x q) — lim F (x) (výška skoku v bodě xq). Příklad 3.7. V osudí je 5 bílých a 7 červených míčků. Náhodná veličina X představuje počet bílých míčků mezi pěti vybranými. Vytvořte pravděpodobnostní a distribuční funkci této náhodné veličiny. Řešení: Náhodná veličina X nabývá hodnot {0,1,2,3,4,5}. Z teorie pravděpodobnosti víme, že se jedná o opakované závislé pokusy. Můžeme tedy sestavit pravděpodobnostní funkci pro jednotlivé hodnoty X: P(X = x) = Na základě této funkce vytvoříme tabulku pravděpodobností: 0 1 2 3 4 5 Pi 21 792 175 792 350 792 210 792 35 792 1 792 Pravděpodobnostní funkce může být graficky znázorněna pomocí bodového grafu, úsečkového diagramu nebo histogramu. Distribuční funkce F(x) bude mít skoky v bodech 0,1,2,3,4,5. Hodnoty funkce F(x) jsou určeny jako součet všech předcházejících hodnot pf. F(xí) = P(X < Xi). Tabulka pro distribuční funkci: 0 1 2 3 4 5 F(xí) 21 792 196 792 546 792 756 792 791 792 792 792 55 Základy statistiky Graf distribuční funkce může být znázorněn jako spojitý schodovitý diagram. □ 3.2 Rozdělení pravděpodobnosti spojité náhodné veličiny Spojitá náhodná veličina nabývá hodnot z nějakého intervalu reálných čísel. Příkladem může být výška náhodně vybraného člověka nebo doba, kterou zákazník stráví v obchodě. Spojité náhodné veličiny nemají konkrétní pravděpodobnosti pro jednotlivé hodnoty (pravděpodobnostní funkci), ale místo toho pracují s tzv. hustotou pravděpodobnosti, která určuje pravděpodobnost, že náhodná veličina nabyde hodnoty z určitého intervalu. Definice 3.8. Náhodná veličina X s distribuční funkcí F se nazývá spojitá, jestliže existuje nezáporná funkce /: IR —> IR taková, že Funkce f(x) se nazývá hustota (rozdělení pravděpodobností) náhodné veličiny X. Vlastnosti hustoty: f(x) > 0 oo f(t) dt = 1 =>• plocha pod křivkou hustoty vyjadřuje pravděpodobnost — oo f(x) = F'{x) v každém bodě x, kde F' existuje, P(a < X < b) = F(b) - F(á) P (a < X < b) = P (a < X < b) = P (a < X < b) = P (a < X < b) Výpočet pravděpodobností pomocí F(x) a f(x) na nekonečném intervalu: Toto je znázorněno na obrázku 2. Náhodná veličina 56 Obr. 2: Výpočet pravděpodobností na nekonečném intervalu Výpočet pravděpodobností pomocí F (x) a f (x) na konečném intervalu: P(-2 < e < 0) = P(0) - P(-2) = /° /(í) dŕ. Toto je znázorněno na obrázku 3. Obr. 3: Výpočet pravděpodobností na konečném intervalu Příklad 3.9. Náhodná veličina X je dána distribuční funkcí: Í0, x<0, F (x) = j t> 0 < x < 4, [l, x > 4. Určete hustotu pravděpodobnosti f (x), znázorněte graficky F (x) a f (x), a vypočtěte P(0,4 < X < 1,6). 57 Základy statistiky Řešení: Hustotu pravděpodobnosti f(x) získáme derivací distribuční funkce F(x): '0, x < 0, /(*)HŽ(t) = !> 0 4. Graf distribuční funkce F(x) a hustoty pravděpodobnosti f(x) je následující: > Distribuční funkce F(x): Kvadratický nárůst od 0 do 1 v intervalu 0 < x < 4. • Hustota pravděpodobnosti f(x): Lineární funkce | v intervalu 0 < x < 4. Pravděpodobnost P(0,4 < X < 1,6) vypočítáme jako: P,0,4 < X < lfi) = Fd.6) - F(0,4) = ílf - <2f = ?f - M = M = 0.6. □ Příklad 3.10. Hustota pravděpodobnosti náhodné veličiny X má tvar: a ■ x, 0 < x < 2, 0, jinak. Určete koeficient a, distribuční funkci F(x) a vypočtěte P(0 < X < 1). Řešení: Nejdříve určíme koeficient a. Platí, že integrál hustoty pravděpodobnosti přes celý definiční obor musí být roven 1: 2 a ■ x dx = 1. o ŕ , x2 2 4 / xdx = a • = a - = 2a k y 0 2 Po integraci dostáváme: Z toho plyne, že 2a = 1, tedy a = |. Distribuční funkci P(x) získáme integrací hustoty pravděpodobnosti: Í0, x<0, [l, x>2. Nyní vypočítáme pravděpodobnost P(0 < X < 1): l2 1 P(0 < X < 1) = P(l) - P(0) = — - 0 = - = 0,25. □ Příklad 3.11. Určete konstanty A a, B tak, aby funkce F(x) = A + B ■ arctan(rr) definovaná pro všechna reálná čísla byla distribuční funkcí rozložení náhodné veličiny. Náhodná veličina 58 Řešení: Aby funkce F(x) byla distribuční funkcí, musí splňovat následující podmínky: 1. lim^-oo F(x) = 0, 2. lim^oo F(x) = 1. Z první podmínky plyne: lim (A + B ■ arctan(rr)) = A + B ■ (--) =0. Z toho vyplývá, ze A = Z druhé podmínky plyne: lim (A + B ■ arctan(rr)) = A + B ■ - = 1. Dosazením A = -^r dostáváme: -B7T „ 7T „ „1 -+ 5-- = l => Bn = l 5 = -. 2 2 7T Tedy A=\. Distribuční funkce má tedy tvar: 1 1 F(x) = —I— • arctan(rr). 2 7T □ 3.3 Číselné charakteristiky náhodné veličiny Střední hodnota, rozptyl a směrodatná odchylka jsou klíčové charakteristiky, které popisují rozdělení náhodné veličiny. Střední hodnota Definice 3.12. Střední hodnota (očekávaná hodnota) diskrétní náhodné veličiny X se počítá jako vážený průměr všech možných hodnot náhodné veličiny: E(X) =J2^-P(X = Xi) = i i 59 Základy statistiky Definice 3.13. Střední hodnota spojité náhodné veličiny X je definována jako integrál z hodnot náhodné veličiny vážených hustotou pravděpodobnosti: E(X) = x- f(x) dx. Rozptyl Definice 3.14. Rozptyl diskrétní náhodné veličiny měří, jak jsou jednotlivé hodnoty rozloženy kolem střední hodnoty: D(X) = Var(X) = - E{X)f ■ P(X = Xi) = - E{X)f ■ Pi. Definice 3.15. Rozptyl spojité náhodné veličiny je definován jako: D{X) = Var(X) = / (x - E{X)f ■ f(x) dx = E{X2) - [E{X)f. Směrodatná odchylka Směrodatná odchylka nám poskytuje měřítko, jak daleko jsou hodnoty náhodné veličiny od její střední hodnoty. Koeficient šikmosti a špičatosti Koeficienty šikmosti a špičatosti popisují tvar křivky hustoty nebo pravděpodobnostní funkce. Definice 3.17 (Koeficient šikmosti náhodné veličiny X). E[{X-E{X)f] 7i = (\D(X)f • 7i = 0: rozdělení je symetrické, ■ 7i > 0: rozdělení je protáhlé napravo (např. mzdy), Náhodná veličina 60 • 71 < 0: rozdělení je protáhlé nalevo. Vztah mezi koeficientem šikmosti, střední hodnotou, mediánem a modem: 7i = 0:£(X)=x0,5 = MO(l), 7i < 0 : E{X) < x0:5 < Mo(X), 7i > 0 : Mo(X) < rr0,5 < E(X). Definice 3.18 (Koeficient špičatosti náhodné veličiny X). E [(X - E{X)Y] 72 =-,--3. (/Ď(V))4 „Měří" stupeň koncentrace hodnot okolo středu ve srovnání s ostatními hodnotami, veličina s nízkým koeficientem špičatosti (72 < 0) obsahuje hodnoty velmi vzdálené od středu, ' čím špičatější rozdělení (72 > 0), tím více jsou hodnoty soustředěné okolo středu. Modus Definice 3.19. Modus (nejčastější hodnota) je hodnota náhodné veličiny, která má nej-vyšší pravděpodobnost výskytu. U diskrétní náhodné veličiny je to hodnota x, pro kterou P(X = x) dosahuje maxima. U spojité náhodné veličiny je to hodnota, kde hustota pravděpodobnosti f(x) dosahuje svého vrcholu. Příklad 3.20. Náhodná veličina X je dána tabulkou: 1 2 3 4 Pí 0,3 0,1 0,4 ? Určete její číselné charakteristiky. Řešení: Nejprve zjistíme chybějící hodnotu pravděpodobnosti p^. p4 = 1- (P1+P2+P3) = 1- (0,3 + 0,1 + 0,4) = 0,2. Nyní vypočítáme jednotlivé číselné charakteristiky. Použijeme následující tabulku: 61 Základy statistiky 1 2 3 4 E Pi 0,3 0,1 0,4 0,2 - •E i ' Pi 0,3 0,2 1,2 0,8 2,5 x2 ■ Pi 0,3 0,4 3,6 3,2 7,5 X3 - pi 0,3 0,8 10,8 12,8 24,7 xj-pi 0,3 1,6 32,4 51,2 85,5 Střední hodnota (průměr): E (X) = 2,5 Rozptyl: D(X) = 7,5 - (2,5)2 = 7,5 - 6,25 = 1,25 Směrodatná odchylka: cr(X) = -y/1,25 ~ 1,11í □ 2x, 0 1. Decil £0,1 je hodnota, pro kterou platí F(xq^) = 0,1. Hledáme tedy: í|i = 0,1 x0,! = 0,2. Třetí kvartil x0j5 je hodnota, pro kterou platí ^(2^0,75) = 0,75: íH2p = 0,75 x0J5 = 1,5. Výsledné hodnoty jsou: První decil: rr0ii = 0,2 65 Základy statistiky • Třetí kvartil: x0j5 = 1,5 □ Příklad 3.24. Náhodná veličina X má hustotu pravděpodobnosti: Určete modus. \x2e x, 0 < x < oo, 0, jinak. Řešení: Modus je hodnota, ve které hustota pravděpodobnosti f(x) dosahuje svého maxima. Nejprve spočítáme první derivaci funkce f(x): f'(x) = - ■ (2xe-x - x2e-x) = -xe-x ■ (2 - x). 2 Poté položíme derivaci rovnu nule: ^xe~x ■ (2 - x) = 0. Tato rovnice má dvě řešení: x = 0 nebo x = 2. Jelikož x = 0 není v definičním oboru, jedná se o maximum v bodě x = 2. Ověříme, že se skutečně jedná o maximum tím, že vypočítáme druhou derivaci: f"{x)=l-e-x.[{2-x)-x] = -l-e-x. Protože druhá derivace je záporná pro x = 2, jedná se o maximum. Výsledný modus je Mo = 2. □ OTato kapitola se zaměřuje na náhodné veličiny a jejich základní charakteristiky. Náhodné veličiny jsou proměnné, které nabývají různých hodnot v závislosti na výsledku náhodného pokusu. Vysvětluje rozdíl mezi diskrétními a spojitými náhodnými veličinami, jejich pravděpodobnostními funkcemi a distribučními funkcemi. Hlavními charakteristikami náhodných veličin jsou střední hodnota a rozptyl, které poskytují informace o průměrné hodnotě veličiny a o tom, jak moc se jednotlivé hodnoty od této průměrné hodnoty odchylují. V kapitole jsou vysvětleny i další charakteristiky, jako šikmost a špičatost, které popisují asymetrii a tvar rozdělení. Pro diskrétní náhodné veličiny jsou uvedeny postupy výpočtu střední hodnoty a rozptylu na základě pravděpodobností jednotlivých hodnot. U spojitých náhodných veličin se používají integrály k určení těchto charakteristik. Kapitola se rovněž zabývá vztahem mezi pravděpodobnostní a distribuční funkcí, kdy distribuční funkce představuje kumulativní pravděpodobnost. Náhodná veličina 66 1. Co je to náhodná veličina? 2. Jaký je rozdíl mezi diskrétní a spojitou náhodnou veličinou? 3. Jakým způsobem se vyjadřuje pravděpodobnostní funkce pro diskrétní náhodnou veličinu? 4. Co je to distribuční funkce a jaký má význam? 5. Jak se počítá střední hodnota pro diskrétní náhodnou veličinu? 6. Jaký je vztah mezi pravděpodobnostní funkcí a distribuční funkcí? 7. Co je to rozptyl a jak se počítá pro náhodnou veličinu? 8. Jaký je význam charakteristik šikmosti a špičatosti pro popis náhodné veličiny? 9. Náhodná veličina X nabývá hodnot 1,2,3,4 s pravděpodobnostmi 0,1; 0,2; 0,3; 0,4. Vypočítejte střední hodnotu a rozptyl veličiny X. [Střední hodnota: 3,0; Rozptyl: 1,0] 10. Pro spojitou náhodnou veličinu X je dána hustota pravděpodobnosti f(x) = 2y2 pro y G [0,1]. Vypočítejte střední hodnotu a rozptyl této veličiny. [Střední hodnota: 0,5; Rozptyl: |] 11. Představte si hod kostkou, kde náhodná veličina X udává počet padlých bodů. Sestrojte pravděpodobnostní a distribuční funkci této náhodné veličiny. [Pravděpodobnostní funkce: P(X = k) = | pro k = 1,2, 3,4, 5, 6; Distribuční funkce: f{x) = 0 pro x < 1, f{x) = | pro k 6] 12. Hustota pravděpodobnosti náhodné veličiny X má tvar: (0, pro x < 1, x — \, pro 1 < x < 2, 0, pro x > 2. Určete distribuční funkci. [Distribuční funkce f(x) je dána: f(x) = 0 pro x < 1, f (x) = y - f pro 1 < x < 2, f (x) = 1 pro x > 2] 13. Náhodná veličina X je určena tabulkou: X -2 0 2 4 6 p 0,1 ? 0,2 0,3 0,2 ), distribuční fun íCÍ c Určete hodnotu pravděpodobnosti pro X jevu, že náhodná veličina nabude kladných hodnot. [Pravděpodobnost pro X = 0: 0,2; Pravděpodobnost kladných hodnot: 0,7] e Literatura k tématu: [1] HINDLS, R. Statistika pro ekonomy. 8. vyd. Praha: Professional Publishing, 2007. ISBN 978-80-869-4643-6. ISBN 978-80-867-3208-8. [2] MAREK, L. Statistika v příkladech. 2. vyd. Praha: Kamil Mařík - Professional Publishing, 2015. ISBN 978-80-743-1153-6. [3] OTIPKA, P., SMAJSTRLA, V. Pravděpodobnost a statistika [online]. 1. vydání. Ostrava: VŠB-TU Ostrava, 2007 [cit. 2024-09-09]. ISBN 80-248-1194-4. Dostupné z: https://homel.vsb.cz/~oti73/cdpastl/ [4] ZVÁRA, K. a ŠTĚPÁN, J. Pravděpodobnost a matematická statistika. Matfyzpress, 2019. ISBN 978-80-7378-388-4. Kapitola 4 Základní typy rozdělení pravděpodobnosti diskrétní náhodné veličiny Po prostudování této kapitoly budete umět: > rozpoznat situace, kdy je vhodné k modelování použít binomické, Poissonovo nebo hypergeometrické rozdělení, vypočítat pravděpodobnosti a další charakteristiky u konkrétních diskrétních rozdělení, ' aplikovat poznatky na modelování situací z reálného života pomocí těchto rozdělení. pomocí excelovských funkcí vypočíst hodnoty pravděpodobnostních a distribušních funkcí. Klíčová slova: Diskrétní náhodná veličina, rozdělení pravděpodobnosti, pravděpodobnostní funkce, distribuční funkce. Základní typy rozdělení pravděpodobnosti diskrétní náhodné veličiny 68 Náhled kapitoly V této kapitole se zaměříme na základní typy rozdělení pravděpodobnosti, které se používají u diskrétních náhodných veličin. Probereme binomické, hypergeometrické a Poissonovo. Ukážeme si, jak každé z nich funguje a kdy se používá. Důraz bude kladen nejen na teorii, ale především na praktické příklady, které ukáží, jak tato rozdělení použít při řešení reálných i nereálných problémů. Tato rozdělení tvoří základ pro mnoho aplikací statistiky a pravděpodobnosti v praxi. Cíle kapitoly Cílem je pochopit různé typy rozdělení pravděpodobnosti u diskrétních náhodných veličin s ohledem na jejich využití při modelování. Časová náročnost Na tuto kapitolu si vyhraďte přibližně 3 hodiny. Tento čas zahrnuje jak studium teorie, tak procvičování příkladů a praktických aplikací, které vám pomohou lépe pochopit dané rozdělení. 4.1 Binomické rozdělení Definice Definice 4.1. Binomické rozdělení Bi(n,p) modeluje počet úspěchů v pevně daném počtu nezávislých pokusů, kde každý pokus má dva možné výsledky (úspěch nebo neúspěch) a pravděpodobnost úspěchu je konstantní. Pravděpodobnost k úspěchů z n pokusů je dána vzorcem: P{X = k)={^P\l-P)n-\ kde n je počet pokusů, k je počet úspěchů, p je pravděpodobnost úspěchu v každém pokusu a (?) je kombinační číslo. Základní číselné charakteristiky Střední hodnota: E(X) = np, Rozptyl: D(X) = np(l-p). 69 Základy statistiky Grafy pravděpodobnostní a distribuční funkce Grafy pravděpodobnostní funkce (PDF) a distribuční funkce (CDF) pro binomické rozdělení s n = 10 a p = 0,5 jsou na obrázku 5. 0.3 0.2 K o.i I IBi(10;0,5) VI o 4 6 k 10 1 0.8 0.6 0.4 0.2 0 ŕ -Bi(10;0,5) o 4 6 k 10 Obr. 5: Pravděpodobnostní a distribuční funkce binomického rozdělení pro n = 10 a p = 0,5 Excelovské funkce Pro práci s binomickým rozdělením lze v Excelu použít následující funkce: ' Pravděpodobnostní funkce (PDF): Funkce BIN0M. Dl ST (k; n; p; FALŠE) vrací pravděpodobnost přesně k úspěchů. ' Distribuční funkce (CDF): Funkce BIN0M. Dl ST (k; n; p; TRUE) vrací pravděpodobnost nejvýše k úspěchů. 4.2 Hypergeometrické rozdelení Definice Definice 4.2. Hypergeometrické rozdělení Hg(iV, M, n) modeluje pravděpodobnost k úspěchů při náhodném výběru n objektů z populace N, kde M objektů z této populace jsou úspěchy. Výběr probíhá bez vracení. Pravděpodobnost k úspěchů je dána vzorcem: P(X = k) = M\ ÍN-M k I \ n—k kde N je velikost populace, M je počet úspěšných objektů v populaci, n je počet vybraných objektů a A; je počet úspěchů. Základní typy rozdělení pravděpodobnosti diskrétní náhodné veličiny 70 Základní číselné charakteristiky Střední hodnota: E(X) = Rozptyl: D(X) = nf (l - f) l Grafy pravděpodobnostní a distribuční funkce Grafy pravděpodobnostní funkce (PDF) a distribuční funkce (CDF) pro hypergeometrické rozdělení s parametry N = 50, M = 20, n = 10 jsou na obrázku 6. 0.3 0.2 o.i o 1 lHg(50; 20; 10) 1 1 0 2 4 6 k 10 VI i 0.8 0.6 0.4 0.2 0 1 _ -Hg(50; 20; 10) 0 4 6 k 10 Obr. 6: Pravděpodobnostní a distribuční funkce hypergeometrického rozdělení pro N = 50, M = 20 a n = 10 Excelovské funkce Pro práci s hypergeometrickým rozdělením lze v Excelu použít následující funkce: ■ Pravděpodobnostní funkce (PDF): Funkce HYPGE0M. Dl ST (k; n; M; N; FALŠE) vrací pravděpodobnost přesně k úspěchů. Distribuční funkce (CDF): Funkce HYPGEOM.DISKk; n; M; N; TRUE) vrací pravděpodobnost nejvýše k úspěchů. 71 Základy statistiky 4.3 Poissonovo rozdělení Definice Definice 4.3. Poissonovo rozdělení Po(A) modeluje počet událostí, které nastanou v pevně daném čase nebo prostoru, za předpokladu, že tyto události nastávají nezávisle na sobě s konstantní střední intenzitou A. Pravděpodobnost, že v daném intervalu nastane právě k událostí, je dána vzorcem: \ke~x m = *) = —, kde A je očekávaný počet událostí v daném intervalu a A; je počet událostí. Základní číselné charakteristiky Střední hodnota: E(X) = A, Rozptyl: D(X) = A. Grafy pravděpodobnostní a distribuční funkce Grafy pravděpodobnostní funkce (PDF) a distribuční funkce (CDF) pro Poissonovo rozdělení s parametrem A = 3 jsou na obrázku 7. 0.3 0.2 K o.i o 1 iPoisson(A = 3) 1 0 2 4 6 k 10 VI i 0.8 0.6 0.4 0.2 0 -Poisson(A = 3) 0 4 6 k 10 Obr. 7: Pravděpodobnostní a distribuční funkce Poissonova rozdělení pro A = 3 Základní typy rozdělení pravděpodobnosti diskrétní náhodné veličiny 72 Excelovské funkce Pro práci s Poissonovým rozdělením lze v Excelu použít následující funkce: ■ Pravděpodobnostní funkce (PDF): Funkce POISSON.DISKk; A; FALŠE) vrací pravděpodobnost přesně k událostí. ■ Distribuční funkce (CDF): Funkce POISSON.DISKk; A; TRUE) vrací pravděpodobnost nejvýše k událostí. 4.4 Řešené příklady Některá další rozdělení Příklad 4.4 (Alternativní rozdělení Alt(p)). V tomto příkladu si ukážeme alternativní rozdělení, které popisuje náhodný experiment s dvěma možnými výsledky. Uvažujme hod mincí, kde mohou nastat pouze dva výsledky: líc nebo rub. Tento experiment můžeme modelovat alternativním rozdělením Alt(p), kde: • Prostor možných výsledků je Q = {líc, rub}. Pravděpodobnost úspěchu (např. padnutí líce) je p, pravděpodobnost neúspěchu (padnutí rubu) je 1 — p. Výsledkem je náhodná veličina X, která nabývá hodnot 0 (neúspěch) nebo 1 (úspěch). Tedy: M = {0,1} a X = {0,1}. Jedná se o typické použití alternativního rozdělení. Příklad 4.5 (Rovnoměrné rozdělení R(n)). Rovnoměrné rozdělení R(n) popisuje situaci, kdy všechny možné výsledky mají stejnou pravděpodobnost. Uvažujme hod klasickou šestistěnnou kostkou, kde je pravděpodobnost každého čísla od 1 do 6 stejná: • Prostor možných výsledků je M = {1, 2, 3,4, 5, 6}. • Každý z těchto výsledků má pravděpodobnost |. V tomto případě se jedná o rovnoměrné rozdělení R(6), které modeluje pravděpodobnostní chování při hodu kostkou. Binomické rozdělení Příklad 4.6 (Binomické rozdělení Bi(n,p)). Student má potíže s ranním vstáváním. Proto někdy zaspí a nestihne přednášku, která začíná již v 9 hodin. Pravděpodobnost, že zaspí, je 0,3. V semestru je 12 přednášek, což znamená 12 nezávislých pokusů dorazit na přednášku včas. 73 Základy statistiky Nalezněte pravděpodobnost, že student nestihne přednášku v důsledku zaspání v polovině nebo více případů. Jedná se o binomické rozdělení Bi(n, p) s parametry n = 12 a p = 0,3. Hledaná pravděpodobnost je: P(X > 6) = 1 - P(X < 6). Tuto pravděpodobnost lze snadno vypočítat pomocí distribuční funkce binomického rozdělení, například pomocí funkce BINOMDIST v Excelu. Příklad 4.7 (Binomické rozdělení Bi(n,p)). V obchodě probíhá reklamní akce, při které zákazníci losují ze 100 kupónů. Každý kupón může být výherní s pravděpodobností 0,05. Každý zákazník losuje jeden kupón a šance na výhru je pro každého stejná. Jaká je pravděpodobnost, že z 20 zákazníků alespoň 2 vyhrají? Tento problém modelujeme jako binomické rozdělení Bi(n,p) s parametry n = 20 a p = 0,05. Hledáme pravděpodobnost: P(X > 2) = 1 - P(X < 2) = 1 - [P(X = 0) + P(X = 1)]. Pravděpodobnost P(X = 0) = 0,3585 a P(X = 1) = 0,3773. Proto: P(X > 2) = 1 - (0,3585 + 0,3773) = 0,2642. Tuto pravděpodobnost lze také spočítat pomocí funkce BINOMDIST v Excelu. Poissonovo rozdělení Příklad 4.8 (Poissonovo rozdělení Po(A)). Předpokládejme, že realitní makléř jedná v průměru s pěti zákazníky za den. Zjistěte, jaká je pravděpodobnost, že počet zákazníků makléře zajeden den bude větší než 4. Náhodná veličina X - počet zákazníků - splňuje kritéria pro Poissonovo rozdělení Po(A) s parametrem A = 5. Hledáme: P(X > 4) = 1 - P(X < A). Tuto pravděpodobnost lze vypočítat pomocí funkce P0ISS0N v Excelu. Příklad 4.9 (Poissonovo rozdělení Po(A)). V průměru přistane na místním letišti během jedné hodiny 3 letadla. Jaká je pravděpodobnost, že během jedné hodiny přistanou přesně 2 letadla? Náhodná veličina X - počet přistání - splňuje kritéria pro Poissonovo rozdělení Po(A) s parametrem A = 3. Hledaná pravděpodobnost je: 32e-3 P(X = 2) = = 0,2240. Tuto pravděpodobnost lze snadno vypočítat pomocí funkce P0ISS0N v Excelu. Hypergeometrické rozdělení Příklad 4.10 (Hypergeometrické rozdělení H(N,M,n)). Mezi stovkou výrobků je 20 zmetků. Vybereme deset výrobků a sledujeme počet zmetků mezi vybranými. Základní typy rozdělení pravděpodobnosti diskrétní náhodné veličiny 74 V tomto případě má náhodná veličina X hypergeometrické rozdělení iJ(100, 20,10). Pravděpodobnostní funkce je dána vztahem: P(X = k) M\ ÍN-M k ) \ n—k Ň n kde N = 100, M = 20, n = 10 a k je počet zmetků mezi vybranými výrobky. Například pravděpodobnost, že mezi deseti vybranými výrobky budou 3 zmetky, lze vypočítat jako P(X = 3). Příklad 4.11 (Hypergeometrické rozdělení H(N,K,n)). V krabici je 20 kuliček, z nichž 8 je červených a 12 modrých. Náhodně vybereme 5 kuliček bez vracení. Jaká je pravděpodobnost, že vybereme přesně 3 červené kuličky? Tento problém modelujeme jako hypergeometrické rozdělení H(N,K,n) s parametry: N = 20, K = 8, n = 5. Hledaná pravděpodobnost je: P(X = 3) Po dosazení hodnot dostáváme: 8\ Í12 m 20 5 v ; /250^ 15504 Tuto pravděpodobnost lze také vypočítat pomocí funkce HYPGEOM.DIST v Excelu. OV této kapitole byla představena základní diskrétní rozdělení pravděpodobnosti, která se často vyskytují v praxi (některým jsme se věnovali podrobněji, dalším jen v praktických příkladech). Seznámili jsme se s charakteristikami a použitím těchto rozdělení: ' Alternativní rozdělení A(p) - Popisuje náhodný experiment s dvěma možnými výsledky (např. úspěch/neúspěch). Využívá se např. při modelování hodu mincí. ' Rovnoměrné rozdělení R(n) - Předpokládá, že všechny výsledky mají stejnou pravděpodobnost. Používá se např. při hodu kostkou, kde každé číslo má stejnou pravděpodobnost. ' Binomické rozdělení Bi(n,p) - Popisuje počet úspěchů při pevně daném počtu nezávislých pokusů, kde každý pokus má stejnou pravděpodobnost úspěchu. Příkladem je situace, kdy se sleduje počet úspěchů při opakovaných pokusech, jako je např. ranní docházka studenta. ' Poissonovo rozdělení Po(A) - Používá se k modelování počtu výskytů události v pevném časovém nebo prostorovém intervalu. V praxi může jít např. o modelování počtu zákazníků přicházejících k realitnímu makléři. • Hypergeometrické rozdělení H(N,M,n) - Popisuje pravděpodobnost určitého počtu úspěchů při výběru bez vracení z konečné populace. Příkladem je sledování počtu vadných výrobků při náhodném výběru z výrobní dávky. 75 Základy statistiky 1. Jaké jsou základní číselné charakteristiky binomického rozdělení? 2. Jak vypadá pravděpodobnostní funkce binomického rozdělení pro n = 10 a p = 0,5? 3. Co modeluje Poissonovo rozdělení? 4. Jaký je vzorec pro pravděpodobnost, že Poissonova náhodná veličina X nabude hodnoty k, pokud má parametr A? 5. Jaký je vztah mezi střední hodnotou a rozptylem u Poissonova rozdělení? 6. Jaké typické aplikace má Poissonovo rozdělení v reálném světě? 7. Co modeluje hypergeometrické rozdělení? 8. Jaký je rozdíl mezi binomickým a hypergeometrickým rozdělením? 9. V dodávce 80 polotovarů je 8 (tj. 10 %) vadných. Náhodně vybereme (najednou, tj. „bez vracení") 5 kusů polotovarů k další kompletaci. Jaká je pravděpodobnost, že mezi vybranými prvky bude maximálně jeden vadný? [0,7248] 10. Ve skladišti závodu je 5 000 výrobků stejného typu. Pravděpodobnost toho, že daný výrobek nevydrží kontrolní zapojení, je 0,1 %. Najděte pravděpodobnost, že z výrobků na skladě více než dva nevydrží kontrolní zapojení. [0,0036] 11. Korektura 500 stránek obsahuje 500 nalezených tiskových chyb. Najděte pravděpodobnost toho, že na stránce jsou nejméně tři chyby. [0,0803] 12. Najděte pravděpodobnost toho, že mezi 200 výrobky se vyskytnou více než tři zmetky, když v průměru je zmetkovitost výroby těchto výrobků 1 %. [0,1423] e Literatura k tématu: [1] HINDLS, R. Statistika pro ekonomy. 8. vyd. Praha: Professional Publishing, 2007. ISBN 978-80-869-4643-6. ISBN 978-80-867-3208-8. [2] MAREK, L. Statistika v příkladech. 2. vyd. Praha: Kamil Mařík - Professional Publishing, 2015. ISBN 978-80-743-1153-6. [3] OTIPKA, P., SMAJSTRLA, V. Pravděpodobnost a statistika [online]. 1. vydání. Ostrava: VŠB-TU Ostrava, 2007 [cit. 2024-09-09]. ISBN 80-248-1194-4. Dostupné z: https://homel.vsb.cz/~oti73/cdpastl/ [4] ZVÁRA, K. a ŠTĚPÁN, J. Pravděpodobnost a matematická statistika. Matfyzpress, 2019. ISBN 978-80-7378-388-4. Kapitola 5 Základní typy rozdělení pravděpodobnosti spojité náhodné veličiny Po prostudování této kapitoly budete umět: vyjmenovat základní spojitá rozdělení pravděpodobnosti i s jejich důležitými vlastnostmi, vypočítat základní charakteristiky daných typů rozdělení pravděpodobnosti, pomocí excelovských funkcí vypočíst hodnoty hustot a distribušních funkcí spojitých rozdělení, • pomocí excelovských funkcí vypočíst kvantily spojitých rozdělení. Klíčová slova: Rozdělení pravděpodobnosti, hustota funkce, distribuční funkce, střední hodnota, rozptyl, kvant il. 77 Základy statistiky Náhled kapitoly Tato kapitola se zaměřuje na základní typy rozdělení pravděpodobnosti pro spojité náhodné veličiny. Seznámíme se s rozděleními, jako je normální, exponenciální a rovnoměrné rozdělení. Každé z těchto rozdělení má specifické vlastnosti a používá se v různých situacích při modelování náhodných jevů. Kromě teoretického popisu si také ukážeme, jak tato rozdělení aplikovat v praxi a jak vypočítat pravděpodobnosti a další charakteristiky. V kapitole jsou uvedeny příklady, které demonstrují užití spojitých rozdělení v reálných situacích. Cíle kapitoly Cílem je pochopit a rozlišovat základní typy rozdělení pravděpodobnosti pro spojité náhodné veličiny a aplikovat tyto poznatky při řešení úloh z praxe. Časová náročnost Pro tuto kapitolu doporučujeme vyčlenit přibližně 3 hodiny, které zahrnují jak studium teoretických částí, tak procvičování praktických příkladů a aplikací. 5.1 Normální rozdělení Definice Definice 5.1. Normální rozdělení N(fi,a2) je rozdělení pravděpodobnosti, které je symetrické kolem střední hodnoty fi a jeho tvar je zvonovitý. Je určeno dvěma parametry: střední hodnotou fi a směrodatnou odchylkou o. Hustota normálního rozdělení je dána vzorcem: fí i\ 1 ( (x-^)2\ /(w) = v^expr^^J' kde fi je střední hodnota a a2 je rozptyl. Rozdělení ÍV(0; 1) se nazývá normované (nebo standardizované) normální rozdělení a je ve statistice velmi důležité. Základní typy rozdělení pravděpodobnosti spojité náhodné veličiny 78 Obr. 8: Jeden z hrdých otců normálního rozdělení (vytvořeno pomocí ChatGPT, openAI) Základní číselné charakteristiky Střední hodnota: fi Rozptyl: a2 Symetrie: Normální rozdělení je symetrické kolem střední hodnoty fi. Grafy hustot a distribuční funkce Grafy znázorňující hustoty a distribuční funkce normálního rozdělení pro různé hodnoty fi a o jsou uvedeny na obrázcích 9 a 10. 0.8 0.6 0.2 0 1 - N(0,1) -- - N(0,0.25) ■■ N(0,1.5) 7 i 1 1 1 > \ l l 1 1 1 1 I r \ / - ' i V \ \» \ \N o x 0.8 0.6 0.4 0.2 0 - N(0,1 -- - N(0;0,25) ■■ N(0;l,5) 4 0 x Obr. 9: Grafy hustot a distribučních funkcí normálního rozdělení s různými rozptyly 79 Základy statistiky 0.4 0.3 S 0.2 -N(0,1) _ —N(-l,l) -N(-2,l) i i i \ i \ ' i / 1 y /1 x \ \ \ ■ : i i i ; ! i / \ j i / \ / \ x \ x \ \ \ x \ \ \ / / t j \ \ \ \ — -6 -4 -2 0 2 4 x 1 0.8 0.6 0.4 0.2 0 -N(0,1) - —N(-l,l) -N(-2,l) ** Z t f t i t / : i / / / / / / / / » t t / * / t / / i ■6 -4 -2 0 x Obr. 10: Grafy hustot a distribučních funkcí normálního rozdělení s různými středními hodnotami Excelovské funkce Pro práci s normálním rozdělením lze v Excelu použít následující funkce: Hustota pravděpodobnosti (PDF): Funkce N0RM. Dl ST (x; //; a; FALŠE) vrací hodnotu hustoty pravděpodobnosti. Distribuční funkce (CDF): Funkce N0RM.DIST(x; //; a; TRUE) vrací hodnotu distribuční funkce. ' Kvantilová funkce: Funkce N0RM.INV(p; //; a) vrací kvantil pro danou pravděpodobnost p, střední hodnotu fi a směrodatnou odchylku a. Pro práci s normovaným normálním rozdělením (// = 0, čt = 1) lze použít specializované funkce: Hustota pravděpodobnosti (PDF): Funkce N0RM.S.DIST(x; FALŠE) vrací hodnotu hustoty pravděpodobnosti. Distribuční funkce (CDF): Funkce N0RM.S.DIST(x; TRUE) vrací hodnotu distribuční funkce. Kvantilová funkce: Funkce N0RM. S. INV(p) vrací kvantil pro danou pravděpodobnost p. Základní typy rozdělení pravděpodobnosti spojité náhodné veličiny 80 5.2 Rovnomerne rozdelení Definice Definice 5.2. Rovnoměrné rozdělení U(a,b) je rozdělení pravděpodobnosti, kde každá hodnota z intervalu [a, b] má stejnou pravděpodobnost. Je určeno dvěma parametry: dolní mezí a a horní mezí b. Hustota rovnoměrného rozdělení je dána vzorcem: 1 f(x;a,b) b — a pro a < x < b. Toto rozdělení se používá, pokud je každá hodnota v určitém rozsahu stejně pravděpodobná. Základní číselné charakteristiky Střední hodnota: 1. (b-a)2 Rozptyl: 12 Symetrie: Rovnoměrné rozdělení je symetrické kolem střední hodnoty. Grafy hustoty a distribuční funkce Grafy hustoty a distribuční funkce rovnoměrného rozdělení pro různé hodnoty a a b jsou uvedeny na obrázku 11. 0.6 0.4 ^ 0.2 -1/(0,5) — C/(l,4) 0.5 "-[/(0, 5) " — C/(l,4) / / / / . / / / x / x t x /X / f / X / / / X / y t X / z y 1 x x Obr. 11: Grafy hustot a distribučních funkcí rovnoměrného rozdělení (různé parametry a a b) 81 Základy statistiky Excelovské funkce Pro práci s rovnoměrným rozdělením lze v Excelu použít následující funkce: ■ Hustota pravděpodobnosti (PDF): Funkce UNIFORM.DIST(x; a; b; FALŠE) vrací hodnotu hustoty pravděpodobnosti. Distribuční funkce (CDF): Funkce UNIFORM.DIST(x; a; b; TRUE) vrací hodnotu distribuční funkce. ' Kvantilová funkce: Funkce UNIFORM. INV(p; a; b) vrací kvantil pro danou pravděpodobnost p, dolní mez a a horní mez b. 5.3 Exponenciální rozdělení Definice Definice 5.3. Exponenciální rozdělení Exp(X) je rozdělení pravděpodobnosti, které modeluje dobu mezi nezávislými náhodnými událostmi, které se vyskytují s konstantní průměrnou mírou. Parametr A představuje intenzitu událostí (průměrný počet výskytů za jednotku času). Hustota exponenciálního rozdělení je dána vzorcem: f(x; A) = Xe-Xx pro x > 0, kde A > 0 je parametr udávající rychlost procesu. Tento typ rozdělení se používá pro modelování například doby čekání na příchod události. Základní číselné charakteristiky Střední hodnota: ^ Rozptyl: ^ Asymetrie: Exponenciální rozdělení je asymetrické, má delší pravý chvost. Grafy hustoty a distribuční funkce Grafy hustoty a distribuční funkce exponenciálního rozdělení pro různé hodnoty A jsou uvedeny na obrázku 12. Základní typy rozdělení pravděpodobnosti spojité náhodné veličiny 82 012345 012345 Obr. 12: Grafy hustot a distribučních funkcí exponenciálního rozdělení pro různé parametry A Excelovské funkce Pro práci s exponenciálním rozdělením lze v Excelu použít následující funkce: ■ Hustota pravděpodobnosti (PDF): Funkce EXP0N.DIST(x; A; FALŠE) vrací hodnotu hustoty pravděpodobnosti. ■ Distribuční funkce (CDF): Funkce EXP0N.DIST(x; A; TRUE) vrací hodnotu distribuční funkce. ' Kvantilová funkce: Funkce EXPON. INV(p; A) vrací kvantil pro danou pravděpodobnost p a parametr A. 5.4 Řešené příklady Příklad 5.4 (Rovnoměrné rozdělení R(a,b)). Tramvajová linka číslo 8 odjíždí v dopoledních hodinách ze zastávky každých 10 minut. Vypočtěte pravděpodobnost, že na ni budete dopoledne čekat déle než 7 minut. Doba čekání je náhodná veličina X, která má rovnoměrné rozdělení pravděpodobnosti - v našem případě R(0,10). Řešení: Pro rovnoměrné rozdělení R(a, b) platí: f(x) = lÁí' a-X-b' I 0, jinak. V našem případě a = 0 a b = 10, takže hustota pravděpodobnosti je: '<*>=fr °-;-10' 0, j mak. 83 Základy statistiky Distribuční funkce F (x) je: í O, x < O, F(x) = UQ, 010. Pravděpodobnost, že budeme čekat déle než 7 minut, je: P(X>7) = 1- F (7) = 1 - ^ = 0,3. □ Příklad 5.5 (Exponenciální rozdělení E (X)). Doba čekání hosta na pivo je v restauraci U Lva průměrně 5 minut. Určete: 1. hustotu pravděpodobnosti náhodné veličiny, která je dána dobou čekání na pivo, 2. pravděpodobnost, že budeme čekat na pivo déle než 12 minut, 3. dobu čekání, během které bude zákazník obsloužen s pravděpodobností 0,9. Jedná se tedy o exponenciální rozdělení pravděpodobnosti. Řešení: 1. Hustota pravděpodobnosti pro exponenciální rozdělení E(X) je dána vztahem: V ' [0, x<0. V našem případě je střední doba čekání j = 5, takže A = | = 0,2. Hustota pravděpodobnosti tedy je: Í0,2e-«.-, ,>0, V ' (0, x<0. 2. Distribuční funkce F(x) je: 0, x < 0, 1 - e-°'2x, x > 0. Pravděpodobnost, že budeme čekat déle než 12 minut, je: P(X > 12) = 1 - F(12) = 1 - (1 - e"0'2'12) = e"2'4 « 0,0907. 3. Hledáme dobu čekání t, při které bude zákazník obsloužen s pravděpodobností 0,9: P(X 10, je: P(X > 10) = 1 - F(10) = 1 - N0RMDIST(10,10, 3,1) = 0,5. 4. Pravděpodobnost, že X nabude hodnoty v intervalu 7 < X < 22, je: P(7 < X < 22) = F(22) - F{7) « N0RMDIST(22,10, 3,1) - N0RMDIST(7,10, 3,1) « 0,8413. □ OV této kapitole jsme se zabývali základními spojitými rozděleními pravděpodobnosti, která se hojně používají v praxi. Seznámili jsme se s jejich vlastnostmi, praktickým použitím a s metodami výpočtu pravděpodobností a charakteristik. ' Rovnoměrné rozdělení R(a, b) - Tento typ rozdělení se používá tehdy, když má náhodná veličina stejnou pravděpodobnost výskytu na každém bodě intervalu (a, b). V této kapitole jsme si ukázali, jak vypočítat pravděpodobnosti a distribuční funkci rovnoměrně rozdělené náhodné veličiny a jaké jsou její základní charakteristiky (střední hodnota, rozptyl). 85 Základy statistiky ' Exponenciální rozdělení E(X) - Exponenciální rozdělení se používá při modelování času mezi událostmi v procesech, které se vyskytují s konstantní intenzitou. V praxi může jít například o dobu čekání na obsluhu. Zabývali jsme se výpočtem pravděpodobností, distribuční funkcí a časovými intervaly, v nichž nastanou určité události s danou pravděpodobností. ' Normální rozdělení N(fi, a2) - Toto rozdělení, často označované jako Gaussovo, je jedním z nej důležitějších rozdělení v teorii pravděpodobnosti. Modeluje mnohé reálné procesy, jako jsou měření s chybami. V kapitole jsme si ukázali, jak pomocí normálního rozdělení odhadnout pravděpodobnosti pro různé intervaly hodnot, jak vypočítat hodnoty distribuční funkce a jak využít tabulky či software při výpočtech. V této kapitole jsme se zaměřili také na aplikace těchto rozdělení ve formě řešených příkladů, které zahrnovaly výpočty pravděpodobností a interpretace získaných výsledků. Naučili jsme se rozlišovat situace, kdy je vhodné použít jednotlivé typy spojitých rozdělení, a získali jsme praktické dovednosti při jejich použití. Kapitola poskytuje pevný základ pro pochopení spojitých náhodných veličin a jejich rozdělení, které jsou klíčové pro analýzu a modelování reálných dat v různých oblastech, od statistiky po strojové učení. Ol. Jaké jsou hlavní rozdíly mezi spojitým a diskrétním rozdělením pravděpodobnosti? Uveďte příklady spojitých rozdělení. 2. Co je to distribuční funkce náhodné veličiny a jaký je její význam? Jaký tvar má distribuční funkce pro rovnoměrné rozdělení? 3. Vysvětlete, co rozumíme pod termínem hustota pravděpodobnosti. Jaká je hustota pravděpodobnosti pro exponenciální rozdělení? 4. Jaké jsou základní charakteristiky normálního rozdělení N(fi, o"2)? Proč je toto rozdělení tak důležité v teorii pravděpodobnosti a statistice? 5. Jaké jsou aplikace exponenciálního rozdělení v praxi? Vysvětlete, v jakých situacích je vhodné použít exponenciální rozdělení. 6. K čemu se používá rovnoměrné rozdělení? Jak se vypočítá střední hodnota a rozptyl rovnoměrně rozdělené náhodné veličiny? 7. Jakou roli hraje normální rozdělení při testování statistických hypotéz? Jaké vlastnosti musí mít data, aby bylo možné použít normální rozdělení pro analýzu? 8. Jaké jsou klíčové rozdíly mezi pravděpodobnostní funkcí a hustotou pravděpodobnosti? Jakou hodnotu má hustota pravděpodobnosti v konkrétním bodě pro normální rozdělení? 9. Co rozumíme pod pojmem střední hodnota náhodné veličiny? Jak se liší střední hodnota mezi rovnoměrným, exponenciálním a normálním rozdělením? 10. Jaký je vztah mezi intenzitou A v exponenciálním rozdělení a střední dobou mezi událostmi? 11. Náhodná veličina X má rozdělení N(0,1). Určete: a. P(X < 2,31) [0,9896] b. P(X < -1,1) [0,1357] Základní typy rozdělení pravděpodobnosti spojité náhodné veličiny 86 c. P(-0,41 < X < 2,92) [0,6599] 12. Váha v uhelných skladech váží s chybou 30 kg, přičemž snižuje váhu. Náhodné chyby mají normální rozdělení pravděpodobnosti se o = 100 kg. Jaká je pravděpodobnost, že chyba zjištěné váhy nepřekročí v absolutní hodnotě 90 kg? [0,6730] 13. Rovnoměrně rozdělená náhodná veličina X na intervalu (2,10). Vypočtěte: a. Střední hodnotu a rozptyl. [Střední hodnota: 6, Rozptyl: 5,33] b. P(X > 7) [0,375] 14. Čas mezi událostmi je modelován exponenciálním rozdělením s intenzitou A = 0,5. Jaká je pravděpodobnost, že čas mezi dvěma událostmi bude menší než 3 minuty? [0,7769] Literatura k tématu: [1] HINDLS, R. Statistika pro ekonomy. 8. vyd. Praha: Professional Publishing, 2007. ISBN 978-80-869-4643-6. ISBN 978-80-867-3208-8. [2] MAREK, L. Statistika v příkladech. 2. vyd. Praha: Kamil Mařík - Professional Publishing, 2015. ISBN 978-80-743-1153-6. [3] OTIPKA, P., SMAJSTRLA, V. Pravděpodobnost a statistika [online]. 1. vydání. Ostrava: VŠB-TU Ostrava, 2007 [cit. 2024-09-09]. ISBN 80-248-1194-4. Dostupné z: https://homel.vsb.cz/~oti73/cdpastl/ [4] ZVÁRA, K. a ŠTĚPÁN, J. Pravděpodobnost a matematická statistika. Matfyzpress, 2019. ISBN 978-80-7378-388-4. Kapitola 6 Náhodný vektor Po prostudování této kapitoly budete umět: určit hustotu pravděpodobnosti a distribuční funkci náhodného vektoru, vypočítat marginální funkce náhodného vektoru a charakteristiky náhodného vek toru - kovarianci a koeficient korelace. Klíčová slova: Náhodný vektor, hustota pravděpodobnosti, distribuční funkce, kovariance, koeficient ko relace. Náhodný vektor 88 Náhled kapitoly V této kapitole se zaměříme na pojem náhodného vektoru, což je rozšíření náhodné veličiny na případ dvou nebo více veličin současně. Probereme základní vlastnosti náhodného vektoru, společné a marginální rozdělení, a ukážeme si, jak lze analyzovat závislosti mezi jednotlivými složkami vektoru. Dále se budeme věnovat výpočtu číselných charakteristik, jako je střední hodnota, kovariance a koeficient korelace, a jejich významu při práci s náhodnými veličinami. Na praktických příkladech uvidíme, jak lze tyto pojmy využít. Cíle kapitoly Cílem je pochopit, proč je důležité pracovat s více náhodnými veličinami současně a jaký přínos to má pro analýzu dat. Časová náročnost Pro zvládnutí této kapitoly doporučujeme věnovat přibližně 3 hodiny studiu teorie, výpočtu charakteristik náhodného vektoru a řešení praktických příkladů, které vám pomohou lépe porozumět závislostem mezi náhodnými veličinami. 6.1 Dvourozměrný náhodný vektor Náhodný vektor představuje rozšíření pojmu náhodné veličiny na případ dvou a více náhodných veličin současně. Popisuje pravděpodobnostní chování více veličin a umožňuje analyzovat jejich společnou distribuci a závislosti mezi nimi. V této kapitole se zaměříme na případ dvourozměrného náhodného vektoru. Definice 6.1 (Náhodný vektor). Náhodný vektor (X,Y) je uspořádaná dvojice náhodných veličin. Pro popis jeho pravděpodobnostní struktury se využívá společná pravděpodobnostní funkce p(x,y) u diskrétních veličin nebo hustota pravděpodobnosti f(x,y) u spojitých veličin. Definice 6.2 (Společná pravděpodobnostní funkce a hustota pravděpodobnosti). V případě diskrétních veličin je společná pravděpodobnostní funkce p(x,y) = P(X = x,Y = y) definována jako pravděpodobnost, že X = x a, Y = y. U spojitých veličin je společná hustota pravděpodobnosti f(x,y) definována tak, že: P(X e (x1,x2),Y e (y1,y2)) = / f(x,y)dydx. 89 Základy statistiky Definice 6.3 (Marginální rozdělení). Marginální rozdělení popisuje pravděpodobnostní chování jednotlivých složek náhodného vektoru. U diskrétních veličin získáme marginální pravděpodobnosti pi(x) a P2(y) jako: Pi(x) = ^2p(x,v), P2(y) = J2p(x>v)- y x Pro spojité veličiny získáme marginální hustoty f\(x) a f2{y) integrací: /oo roo f(x,y)dy, f2(y) = / f(x,y)dx. -oo J — oo Definice 6.4 (Distribuční funkce). Distribuční funkce náhodného vektoru F(x,y) je definována jako: F(x,y) = P(X °-My) Pro spojité veličiny je podmíněná hustota definována obdobně: f{x\y) = f-Wv Pro h(y)>o-Í2{y) Definice 6.6 (Číselné charakteristiky náhodného vektoru). Mezi základní charakteristiky náhodného vektoru (X, Y) patří střední hodnota, rozptyl a kovariance: /oo x ■ fi(x) dx (spojité). X -oo Kovariance Cov(X, Y) se počítá jako: Cov(X,F) = E[(X - E[X])(Y - E[Y])] = E[XY] - E[X]E[Y]. Náhodný vektor 90 Definice 6.7 (Koeficient korelace). Koeficient korelace p(X,Y) vyjadřuje míru lineární závislosti mezi veličinami laľ. Definice koeficientu korelace je: p(.Y,yH^I), kde o~x a oy jsou směrodatné odchylky veličin X a Y. Hodnota p(X, Y) se pohybuje v intervalu ( — 1,1). 6.2 Řešené příklady Příklad 6.8. Najděte konstantu c, tak aby funkce: cj$^, 2 0, Y > 2,5) [0,20] d. marginální rozdělení P(X) [P (X = -1) = 0,30, P (X = 0) = 0,35, P (X = 1) = 0,35] e. marginální rozdělení P{Y) [P (Y = 1) = 0,30, P (Y = 2) = 0,25, P (Y = 3) = 0,45] 10. Pro náhodný vektor daný následující tabulkou vypočtěte koeficient korelace: Náhodný vektor 98 X\Y 1 0 1 0,05 0,01 0 0,02 0,92 [Koeficient korelace p(X, Y) 0,7558] e Literatura k tématu: [1] ANDĚL, J. Statistické metody. 5. vyd. Praha: Matfyzpress, 2019. ISBN 978-80-7378-381-5. [2] HINDLS, R. Statistika pro ekonomy. 8. vyd. Praha: Professional Publishing, 2007. ISBN 978-80-869-4643-6. ISBN 978-80-867-3208-8. [3] MAREK, L. Statistika v příkladech. 2. vyd. Praha: Kamil Mařík - Professional Publishing, 2015. ISBN 978-80-743-1153-6. [4] OTIPKA, P., SMAJSTRLA, V. Pravděpodobnost a statistika [online]. 1. vydání. Ostrava: VŠB-TU Ostrava, 2007 [cit. 2024-09-09]. ISBN 80-248-1194-4. Dostupné z: https://homel.vsb.cz/~oti73/cdpastl/ [5] ZVÁRA, K. a ŠTĚPÁN, J. Pravděpodobnost a matematická statistika. Matfyzpress, 2019. ISBN 978-80-7378-388-4. Kapitola 7 Statistický soubor s jedním argumentem Po prostudování této kapitoly budete umět: určit základní popisné charakteristiky statistického souboru s jedním argumentem (viz klíčová slova), • využít k těmto výpočtům statistický software (Excel). Klíčová slova: Základní soubor, statistická jednotka, četnosti, grafické znázornění četností, aritmetický průměr, modus, kvantily, medián, kvartily, decily, percentily, rozptyl, směrodatná odchylka. Statistický soubor s jedním argumentem 100 Náhled kapitoly V předchozích kapitolách jsme se věnovali spíše teoretickým modelům, zde se dostáváme k práci s daty. Tato kapitola se zaměřuje na základní popisné statistiky statistického souboru s jedním argumentem (s jednou proměnnou). Probereme různé druhy četností, jejich tabulkové a grafické znázorňování, dále různé míry polohy a variability dat. Prostě vše, co nám umožní mít ucelenější představu o rozložení dat. V následující kapitole tyto prostředky rozšíříme na dvourozměrný případ, kde nám k popisu jednotlivých proměnných přibude i jejich vzájemný vztah. Cíle kapitoly Cílem této kapitoly je získat základní potřebné dovednosti při práci s jednoduchými daty z pohledu popisné statistiky, tedy umět provádět potřebné výpočty a chápat jejich výsledky. Časová náročnost Pro tuto kapitolu doporučujeme vyčlenit přibližně 3 hodiny, které zahrnují jak studium teoretických částí, tak procvičování praktických příkladů a aplikací. 7.1 Základní pojmy a vlastnosti Pravděpodobnost vs. statistika Pravděpodobnost je matematický model reality. Jedná se o idealizovaný, abstraktní model, který pracuje s jednou nebo více náhodnými veličinami, jejichž rozdělení je známé. Z podstaty věci je tento model nepozorovatelný - představuje pouze naši abstrakci skutečnosti. Pravděpodobnost se zabývá náhodnými veličinami a jejich rozdělením. Jejím cílem je popsat, jak by se náhodné veličiny mohly chovat v určitém modelu. Pravděpodobnostní modely jsou používány v mnoha oblastech pro predikci nejistých jevů. Statistika naopak vychází z pozorování (měření) hodnot konkrétních veličin. Statistika zkoumá jevy na rozsáhlém souboru dat a činí o nich závěry pomocí statistické indukce. Výsledky z malého vzorku jsou zobecňovány na rozsáhlejší populaci. 101 Základy statistiky Statistika používá odhady, protože žádný konečný výběr nemůže poskytovat úplnou informaci o rozdělení náhodných veličin v populaci. Statistika hledá pravidelnosti a souvislosti v datech a zobecňuje výsledky na širší soubor, než byl ten, ze kterého byly odvozeny. Vychází z reálných dat, na jejichž základě činí závěry o celkové populaci. Příklady aplikací statistiky: ' Mají lidé, kteří pravidelně cvičí, lepší zdravotní ukazatele než ti, kteří necvičí? • Je průměrná výše příjmů v určité oblasti závislá na vzdělání obyvatel? Jaká je pravděpodobnost, že nový produkt na trhu uspěje na základě výsledků z testovacího vzorku? Data Data představují klíčový prvek statistických analýz. Jedná se o pozorování, která provádíme za účelem zodpovězení položených otázek. Matematicky: data jsou realizací náhodné veličiny. Jedná se tedy o konkrétní hodnoty, které náhodná veličina může nabýt při experimentu nebo měření. Datové tabulky: Data jsou často organizována ve formě tabulek, kde řádky představují jednotlivá pozorování, zatímco sloupce odpovídají měřeným proměnným. ' Řádky: Pozorování se týkají nezávislých subjektů náhodného výběru, jako jsou osoby, experimenty nebo jednotky sledování. Sloupce: Každý sloupec odpovídá určité měřené veličině, například věk, pohlaví, výška, váha apod. Software: Pro správu a zpracování dat se používá řada softwarových nástrojů. Nejčastěji jsou využívány databázové systémy nebo tabulkové procesory, jako je Excel. Statistický software: K analýze dat se specializované statistické programy, jako jsou SAS, Statistica, SPSS, R nebo Python. Ve statistice hraje správná organizace a správa dat zásadní roli, protože dobře strukturovaná data umožňují efektivnější analýzu a zajišťují správnost výsledků. Statistický soubor s jedním argumentem 102 Popisná statistika Popisná statistika představuje základní část statistické analýzy. Jejím cílem je sumarizovat a jednoduše popsat data, která máme k dispozici. Pojmový aparát statistiky: Zahrnuje základní statistické pojmy, jako jsou průměr, medián, rozptyl, směrodatná odchylka, kvartily a další. Základní nástroj analýzy dat: Pomocí popisných statistik můžeme rychle získat přehled o základních vlastnostech dat. Například průměr poskytuje informaci o střední hodnotě souboru, zatímco rozptyl nám řekne, jak jsou data rozložena kolem této hodnoty. Prostředky pro prezentaci dat a výsledků: Popisná statistika je často doprovázena vizuálními nástroji, jako jsou grafy, tabulky a diagramy, které umožňují efektivní prezentaci dat a usnadňují jejich interpretaci. Příkladem aplikace popisné statistiky může být analýza průměrných platů v různých regionech, kde nás může zajímat nejen střední hodnota platu, ale také rozptyl a medián, abychom lépe porozuměli rozložení příjmů v dané populaci. Základní pojmy ve statistice Pro práci se statistickými daty je důležité nejprve pochopit několik základních pojmů: Definice 7.1. Statistická jednotka je objekt, který chceme zkoumat. Může se jednat o osoby, domácnosti, firmy, organismy, obce, kraje, atd. Každá statistická jednotka je nositelem určité vlastnosti, která nás zajímá, a kterou zkoumáme. Definice 7.2. Statistický soubor je množina statistických jednotek, které jsou předmětem našeho zkoumání: Základní soubor: Množina všech statistických jednotek, jejichž vlastnosti chceme poznat. Tento soubor zahrnuje veškeré objekty, které odpovídají naší studii, např. všechny domácnosti v určitém kraji. Výběrový soubor: Množina skutečně vyšetřovaných statistických jednotek, které jsou náhodně vybrány ze základního souboru. Tento výběr by měl být reprezentativní pro celou populaci. 103 Základy statistiky Definice 7.3. Statistický znak je vlastnost, která je zjišťována na každé statistické jednotce. Tato vlastnost je v rámci statistiky považována za náhodnou veličinu. Mezi běžné statistické znaky patří např. pohlaví, věk, výška, hmotnost, počet dětí, barva očí, dopravní prostředek, počet úrazů, jméno. Definice 7.4. Rozsah souboru (označován často jako n) představuje počet zkoumaných statistických jednotek v daném souboru. Typy statistických znaků Statistické znaky se dělí do několika kategorií podle svého charakteru: Kvalitativní znaky (někdy nazývané kategorické): Jedná se o slovní nebo katego-riální znaky, které nemohou být vyjádřeny numericky. Příkladem jsou pohlaví, barva očí, nebo dopravní prostředek, který statistická jednotka používá. Kvantitativní znaky (číslené, numerické): Spojité znaky: Mohou nabývat jakékoli hodnoty na určitých intervalech, např. výška, hmotnost nebo věk. Tyto znaky mohou být měřeny s libovolnou přesností. ' Diskrétní znaky: Nabývají pouze určitých konkrétních hodnot, např. počet dětí nebo počet úrazů. Tyto znaky mají omezený počet možných hodnot. Alternativní znaky: Tyto znaky mohou nabývat pouze dvou hodnot, např. zda osoba kouří či nikoli, nebo zda byl test úspěšný či neúspěšný. Množné znaky: Jedná se o znaky, které mohou nabývat tří a více hodnot, např. dopravní prostředek (auto, kolo, autobus). Jednorozměrný statistický soubor V jednorozměrném statistickém souboru se zabýváme pouze jedním statistickým znakem X a jeho hodnotami v rámci výběrového souboru. Statistický soubor s jedním argumentem 104 Označení: ■ ,£n} výběrový soubor: Každá Si je statistická jednotka. • X: statistický znak, který zkoumáme na každé statistické jednotce. • xf hodnota znaku X na objektu Sj, kde j = 1,... ,n. (xi,.. . ,xn): datový soubor, který obsahuje hodnoty znaku X pro všechny jednotky. (x(i), .., rE(n)): uspořádaný datový soubor, tj. x^ < ■ ■ ■ < X(ny (x{1],. .. ,X[r]): vektor variant znaku X, tj. různé hodnoty, které znak X nabývá, kde x[i] ŕ x[j] Pro i Ý 3. Jednorozměrný statistický soubor nám umožňuje analyzovat hodnoty určitého znaku v rámci výběrového souboru a zjišťovat jejich rozložení. 7.2 Rozložení četností Rozložení četností slouží ke zpřehlednění datového souboru. Při této analýze sledujeme, kolikrát se jednotlivé hodnoty nebo intervaly hodnot vyskytují v našem výběrovém souboru. Bodové rozložení četností: Používá se pro diskrétní znaky s malým počtem variant, kdy četnost přiřazujeme jednotlivým variantám (hodnotám). Intervalové rozložení četností: Používá se pro diskrétní znaky s velkým počtem variant nebo pro spojité znaky, kdy četnost přiřazujeme třídícím intervalům. Bodové rozložení četností Bodové rozložení četností se vztahuje k jednotlivým hodnotám diskrétního znaku a zahrnuje následující typy četností: Definice 7.5. (Absolutní) četnost varianty x^y. označována jako nj, představuje počet výskytů hodnoty xy] ve výběrovém souboru. 105 Základy statistiky Definice 7.6. Relativní četnost varianty xyy. označována jako n j Pj = — > n kde n je celkový počet pozorování. Relativní četnost můžeme chápat jako empirickou pravděpodobnost. Definice 7.7. (Absolutní) kumulativní četnost prvních j variant: označována jako Nj = ni H-----\-rij, představuje součet četností prvních j variant. Definice 7.8. Relativní kumulativní četnost prvních j variant: označována jako Fj = =Pl + ••• +Pj, n představuje kumulativní relativní četnost, což je suma relativních četností až po j-tou variantu. Definice 7.9. Empirická distribuční funkce pro bodové rozložení četností je definována následovně: (0 pro x < X[i] Fj pro x{j] < x < x[j+1], j = 1,..., r - 1 1 pro x > X[r] Tato funkce zachycuje rozložení četností ve výběrovém souboru a zobrazuje kumulativní pravděpodobnost dosažení určité hodnoty. Příklad 7.10 (Bodové rozložení četností). Při zápočtu ze statistiky se studenti podrobili testu, ve kterém mohli získat 0 až 15 bodů. Výsledky testu jsou následující: 5, 10, 6, 7, 0, 2, 2, 4, 8, 10, 12, 15, 0, 0, 4, 2, 7, 10, 15, 0, 6, 5, 5, 6, 9, 8, 7, 10, 12, 6, 0. Vytvořte tabulku rozložení bodových čeností (absolutních, relativních a kumulativních relativních) a nakreslete graf empirické distribuční funkce. Řešení: Bodové rozložení četností je zobrazeno v tabulce 2 a graf empirické distribuční funkce na obrázku 13. □ Tento příklad ilustruje základní práci s bodovým rozložením četností, které umožňuje zjistit, kolik studentů dosáhlo určitého výsledku v testu a jak se tyto výsledky kumulují v rámci celého souboru. Statistický soubor s jedním argumentem 106 Tab. 2: Bodové rozložení četností výsledků testu z příkladu 7.10 Body ni Pi (%) Fj (%) 0 5 16,7 16,7 2 3 10,0 26,7 4 2 6,7 33,4 5 2 6,7 40,1 6 4 13,3 53,4 7 3 10,0 63,4 8 2 6,7 70,1 9 1 3,3 73,4 10 4 13,3 86,7 12 2 6,7 93,4 15 2 6,7 100,0 Celkem 30 100,0 - 0 2 4 5 6 7 8 9 10 12 15 Obr. 13: Graf empirické distribuční funkce pro bodové rozložení četností z příkladu 7.10 1 0,934 0,867 0,734 0,701 0,634 0,534 0,401 0,334 0,267 0,167 107 Základy statistiky Intervalové rozložení četností Od bodového se liší tím, že na počátku celkový interval (rozsah) hodnot rozdělíme na menší podintervaly (rozsahy) a následně četnosti přiřazujeme celým těmto podintervalům. Po tomto kroku již vše funguje jako u bodových četností. Ukažme si to na následujícím příkladu. Příklad 7.11 (Intervalové rozložení četností). U 70 žen byla změřena hladina hemoglobinu s přesností 0,1 g/100 ml. Výsledky jsou následující: 10,2; 13,7; 10,4; 14,9; 11,5; 12,0; 11,0; 13,3; 12,9; 12,1; 9,4; 13,2; 10,8; 11,7; 10,5; 13,7; 11,8; 14,1; 10,3; 13,6; 12,1; 12,9; 11,4; 12,7; 10,6; 11,4; 11,9; 9,3; 13,3; 14,6; 11,2; 11,7; 10,9; 10,4; 12,0; 12,9; 11,1; 10,2; 11,6; 12,5; 13,4; 12,1; 9,7; 11,3; 10,9; 14,7; 10,8; 13,3; 11,9; 11,4; 12,5; 13,0; 11,6; 13,4; 12,3; 11,0; 14,6; 11,1; 13,5; 10,9; 13,1; 11,8; 12,2. Vytvořte tabulku rozložení intervalových čeností (absolutních, relativních a kumulativních relativních). Řešení: Intervalové rozložení četností je zobrazeno v tabulce 3. □ Tab. 3: Intervalové rozložení četností hladiny hemoglobinu u žen z příkladu 7.11 Hladina hemoglobinu v g/100 ml n3 PS (%) Fi (%) 8,0 8,9 1 1,4 1,4 9,0 9,9 3 4,3 5,7 10,0 10,9 14 20,0 25,7 11,0 11,9 19 27,1 52,9 12,0 12,9 14 20,0 72,9 13,0 13,9 13 18,6 91,4 14,0 14,9 5 7,1 98,6 15,0 15,9 1 1,4 100,0 Celkem 70 100,0 - Tento příklad ilustruje základní práci s intervalovým rozložením četností, které nám umožňuje zjistit rozložení hodnot v rámci měřeného souboru a sledovat kumulativní četnosti pro jednotlivé intervaly. 7.2.1 Grafické znázornění četností Znázorňujeme relativní a absolutní četnosti nebo relativní a absolutní kumulativní četnosti. Statistický soubor s jedním argumentem 108 Koláčový graf Koláčový graf se používá pro zobrazení absolutních i relativních četností, ale v obou případech vypadá stejně. Liší se jen popiskami (absolutními nebo relativními, ale mohou tam být i obě). Na obrázku 14 je příklad koláčového grafu, který zobrazuje rozložení prodeje různých kategorií produktů ve firmě. ■ Produkty A ■ Produkty B ■ Produkty C □ Produkty D ■ Produkty E Obr. 14: Koláčový graf rozložení prodeje produktů ve firmě Histogram (sloupcový graf) Histogram je sloupcový graf, který používáme pro znázornění rozložení četností. U bodového rozložení četností přiřadíme hodnotě xy] obdélník, jehož výška je úměrná zjištěné četnosti. Na obrázku 15 je histogram výsledků testu ze statistiky z příkladu 7.10. 5 t t i > i l > 0 2 4 5 6 7 8 9 10 12 15 Obr. 15: Histogram absolutních četností výsledků testu ze statistiky z příkladu 7.10 Histogram pro hladinu hemoglobinu (v g/100 ml) z příkladu 7.11 je na obrázku 16. Každý sloupec pokrývá celý rozsah daného intervalu. 109 Základy statistiky 8 9 10 11 12 13 14 15 Obr. 16: Histogram relativních četností hladiny hemoglobinu z příkladu 7.11 7.3 Charakteristiky polohy a variability Charakteristiky polohy a variability jsou základními nástroji pro popis rozložení dat. Mezi charakteristiky polohy patří například aritmetický průměr, medián, modus a výběrové kvantily. Tyto charakteristiky poskytují informace o střední hodnotě dat a jejich umístění. Charakteristiky variability zahrnují mj. rozptyl, směrodatnou odchylku, rozpětí a interkvar-tilové rozpětí. Tyto charakteristiky popisují, jak jsou data rozptýlena kolem střední hodnoty. Společně tyto charakteristiky umožňují komplexní popis a analýzu statistických dat. 7.3.1 Míry polohy Míry polohy, nebo také charakteristiky centrální tendence, popisují střední hodnotu dat a poskytují přehled o tom, kde se data nejvíce koncentrují. Mezi nej důležitější charakteristiky patří: ' Aritmetický průměr - Aritmetický průměr je nejběžnější charakteristika centrální tendence, která se počítá jako součet všech hodnot dělený jejich počtem: _ 1 n X > X;t, n r—f i=i kde n je počet hodnot a x i jsou jednotlivé hodnoty. ' Medián - Medián je střední hodnota uspořádaných dat. U lichého počtu hodnot je medián prostřední hodnota, u sudého počtu hodnot je medián průměr dvou prostředních hodnot. Medián je vhodný pro data s odlehlými hodnotami, protože není těmito extrémy ovlivněn. ' Modus - Modus je hodnota, která se v datech vyskytuje nejčastěji. V některých případech mohou data mít více než jeden modus, což se označuje jako multimodální rozdělení. Harmonický průměr - Harmonický průměr je vhodný pro průměrování veličin, které jsou podíly nebo kde jsou extrémy ve významu: _ n •^harm v^n ~ • Statistický soubor s jedním argumentem 110 Geometrický průměr - Geometrický průměr je vhodný pro data, která se vztahují k růstu nebo procentním změnám: •^geom ( Xi J \i=l / Výběrové kvantily - Výběrové kvantily jsou hodnoty, které dělí seřazený výběr do daného počtu stejně velkých částí. Nejčastěji používané kvantily jsou: První kvartil (0,25 kvantil) - Hodnota, pod kterou leží 25% dat. • Medián (0,5 kvantil) - Hodnota, pod kterou leží 50% dat. Třetí kvartil (0,75 kvantil) - Hodnota, pod kterou leží 75% dat. Výběrové kvantily se určí z uspořádaných dat jako hodnoty, které odpovídají pozicím a(n + 1), kde a je daný kvantil a n je počet pozorování. Pokud pozice není celé číslo, používá se lineární interpolace. Tyto charakteristiky jsou klíčové pro popis rozložení dat a mají široké uplatnění v mnoha oblastech statistické analýzy, od popisu jednoduchých souborů dat po složitější ekonomické či demografické analýzy. Aritmetický průměr Pozorování x±,... ,xn jsou náhodné hodnoty z nesetříděného nebo setříděného souboru. Aritmetický průměr je základní mírou polohy, která se počítá jako součet všech pozorování dělený jejich počtem. Definice 7.13. Aritmetický průměr setříděného souboru: rrjipi H-----h X[r]nr _ 1 ni H-----Ynr n t=i Definice 7.14 (Vážený aritmetický průměr). Pokud je soubor rozdělen do s dílčích souborů, které mají své vlastní průměry x,j_ a rozsahy n,-n můžeme vypočítat vážený aritmetický průměr: X = rii H-----Vns 111 Základy statistiky Tento vzorec se používá například při výpočtech, kdy jednotlivé části souboru mají různé váhy nebo velikosti, které je třeba zohlednit při výpočtu celkového průměru. Vhodné a nevhodné využití aritmetického průměru Aritmetický průměr je velmi užitečná míra centrální tendence v situacích, kdy jsou data rovnoměrně rozložena a nejsou ovlivněna extrémními hodnotami. Vhodné využití: Aritmetický průměr je vhodný pro soubory dat, které mají symetrické rozdělení (například normální rozdělení), protože průměr zde dobře reprezentuje střed dat. Používá se ve statistikách výkonu, výzkumu nebo finanční analýze, kde jsou hodnoty vyvážené a nemají extrémní odchylky. Nevhodné využití: ' Aritmetický průměr je nevhodný pro soubory dat, které mají výrazně asymetrické rozdělení nebo obsahují odlehlé (extrémní) hodnoty. V těchto případech může průměr zkreslovat skutečný střed dat. Například u příjmů, kde několik málo osob má velmi vysoké příjmy, bude aritmetický průměr vyšší než většina příjmů. Průměr také nemusí být reprezentativní v situacích, kde jsou data kategorizovaná nebo mají nominální povahu (například jména nebo pohlaví), kde není možné spočítat „průměr". V těchto případech je vhodnější použít jiné míry polohy, jako je medián nebo modus, které lépe popisují střední hodnoty asymetrických nebo kategoriálních dat. Výběrové kvantily Definice 7.15. Mějme setříděný soubor tedy hodnoty dat jsou uspořádané vzestupně: ^(i) < x(2) < • • • < x{n)i kde indexy označují pořadí hodnot v setříděném souboru. Výběrový a-kvantil je hodnota, která rozděluje seřazený datový soubor na dvě části tak, že: alespoň 100a % všech dat je menších nebo rovných xa, • alespoň 100(1 — a) % všech dat je větších nebo rovných xa. Statistický soubor s jedním argumentem 112 Určení výběrového a-kvantilu z dat Postup určení výběrového a-kvantilu závisí na tom, zda hodnota an (kde n je počet pozorování) je přirozené číslo nebo nikoliv: ' Pokud je an = c, kde c je přirozené číslo, pak výběrový a-kvantil je průměr hodnot na pozicích x^ a x(c+l)'- X(c) + X(c+1) 2 • Pokud an není přirozené číslo, zaokrouhlujeme an na nejbližší vyšší přirozené číslo c a položíme: Xa X(c)' Pojmenované kvantily Některé z kvantilů mají svá specifická jména: ' Medián (0,5 kvantil) - Hodnota, která dělí data na dvě stejně velké části, tedy 50% dat je menší nebo rovno této hodnotě a 50% je větší nebo rovno. Kvartily - Speciální kvantily, které dělí data na čtyři stejné části: První kvartil (0,25 kvantil) - Hodnota, pod kterou leží 25% dat. • Druhý kvartil (0,5 kvantil) - Medián. Třetí kvartil (0,75 kvantil) - Hodnota, pod kterou leží 75% dat. • Decily - Kvantily, které dělí data na deset stejných částí: • První decil (0,1 kvantil) - Hodnota, pod kterou leží 10% dat. • Druhý decil (0,2 kvantil) - Hodnota, pod kterou leží 20% dat, atd. • Devátý decil (0,9 kvantil) - Hodnota, pod kterou leží 90% dat. • Percentily - Kvantily, které dělí data na sto stejných částí: • První percentil (0,01 kvantil) - Hodnota, pod kterou leží 1% dat. • Pátý percentil (0,05 kvantil) - Hodnota, pod kterou leží 5% dat. ' Devadesátý pátý percentil (0,95 kvantil) - Hodnota, pod kterou leží 95% dat. Medián jako speciální případ výběrového kvantilu Medián je speciálním případem výběrového kvantilu pro a = 0,5. Tento kvantil rozdělí data na dvě stejně velké části. 113 Základy statistiky Případ lichého n Pro lichý počet pozorování n, hodnota n x 0,5 není přirozené číslo. Proto podle obecného postupu výpočtu kvantilu zaokrouhlíme n x 0,5 nahoru na nejbližší celé číslo, což určí pořadí mediánu: ^0,5 = X^n+iy Tento vzorec plyne z obecného pravidla zaokrouhlení kvantilu nahoru, kdy medián je hodnota na pozici Příklad 7.16. Mějme soubor o lichém počtu hodnot n = 7, seřazených jako x^ < X(2) < • • • < X(jy Medián bude hodnota na pozici ^1 = 4, tedy ž0,5 = ^(4)- D Případ sudého n Pro sudý počet pozorování n, hodnota n x 0,5 je přirozené číslo. Proto medián, stejně jako obecný kvantil pro přirozené hodnoty n x a, bude průměrem dvou hodnot na pozicích: % ( n \ ~\~ % ( ri _i_ -i \ ^0,5 - g • Příklad 7.17. Pro soubor o sudém počtu hodnot n = 8 je n x 0,5 = 4, takže medián je průměrem hodnot na 4. a 5. pozici: _ Z(4) + Z(5) x°<5 ~ 2 • □ Tímto způsobem medián vyplývá jako speciální případ obecného výpočtu výběrového kvantilu, kde pro liché n postupujeme zaokrouhlením nahoru a pro sudé n použijeme průměr dvou středních hodnot: Definice 7.18. Mějme setříděný soubor. Potom medián definujeme takto: x^n+i-j pro liché n, Med(x) = xq^j ^! 3 7—- pro sudé n. Příklad 7.19 (n sudé). Ve výrobě se v posledním půl roce v jednotlivých měsících vyskytl následující počet úrazů: 1, 3, 2, 4, 2, 4. Určete medián, dolní kvartil ž0,25 a horní kvartil ž0,75 počtu úrazů za měsíc. Řešení: Počty uspořádáme vzestupně: 1,2,2,3,4,4 • Medián: _ x(3) + rg(4) _ 2 + 3 Xo<5 ~ 2 " ~Y~ ~ 2,5 • Dolní kvartil: an = 6 • 0,25 = 1,5 =>• žo,25 = ^(2) = 2 • Horní kvartil: an = 6 • 0,75 = 4,5 =>• Žq,75 = ^(5) = 4 Statistický soubor s jedním argumentem 114 □ Příklad 7.20 (n liché). Ve výrobě se v posledním půl roce v jednotlivých měsících vyskytl následující počet úrazů: 1, 3, 2, 4, 2, 4, 1. Určete medián, dolní a horní kvartil počtu úrazů za měsíc. Řešení: Počty uspořádáme vzestupně: 1,1,2,2,3,4,4 Medián: n+1 7+1 a = = 4 ^0,5 = Z(4) = 2 Dolní kvartil: an = 7 ■ 0,25 = 1,75 =>• 2:0,25 = £(2) = 1 Horní kvartil: = 7 • 0,75 = 5,25 =>• Žq,75 = £(6) = 4 Příklad 7.21. Uvažujme data x daná následující tabulkou x Určete první decil žo,i? dolní kvartil a horní kvartil. Řešení: Rozepíšeme si data podle jejich velikosti a četností: ^(1) = • • • = X(10) = 1, 12 3 4 10 12 6 3 1 £(ii) = • • • = rr(22) = 2, 1 ^(23) = • • • = £(28) = 3, 1 ^(29) = • • • = X(3i) = 4. Vidíme, že rozsah souboru je n = 31. Přejdeme k výpočtu jednotlivých kvantilů: • 0,1 kvantil: an = 31 • 0,1 = 3,1 =>• žo,i = ^(4) = 1 • Dolní kvartil: an = 31 • 0,25 = 7,75 =>• £0,25 = £(8) = 1 • Horní kvartil: an = 31 • 0,75 = 23,25 =>• žo,75 = £(24) = 3 □ □ 115 Základy statistiky Využití výběrových kvantilů Výběrové kvantily mají široké využití v různých oborech statistiky a aplikovaných věd. Zde jsou uvedeny některé praktické příklady využití kvantilů: Hladina cholesterolu v krvi Jakou hladinu cholesterolu v krvi nepřekročí 90 % zdravé populace České republiky? Výběrový 90% kvantil by zde představoval referenční hodnotu pro stanovení diagnostických limitů, která se běžně využívá v klinické praxi. Podobně jsou stanoveny referenční hodnoty pro další ukazatele krevního obrazu, například hladinu cukru, triglyceridů nebo krevní tlak. ' Délka lišek Jakou délku nepřekročí 95 % lišek? Zde můžeme využít výběrového 5% a 95% kvantilů k určení rozmezí, ve kterém se nachází většina jedinců dané populace. Například, pokud délka lišek spadá do rozmezí 58-90 cm, můžeme říci, že pouze 5 % lišek je delších než 90 cm a pouze 5 % lišek je kratších než 58 cm. Tyto kvantily pomáhají určit, které jedince považujeme za „typické" a které za extrémní. Stoletá voda Jak definovat pojem stoletá voda? Výběrový 99% kvantil se často používá v hydrologii k definici staleté vody, což je taková výše maximálního ročního průtoku, která je překročena pouze v 1 % případů. Tato hodnota je důležitá pro plánování protipovodňových opatření a pro stavbu infrastruktury v blízkosti vodních toků. ' Požadavky na kapitál pojišťoven Jakou výši kapitálu musí pojišťovny EU držet, aby snížily riziko platební neschopnosti? Pojišťovny jsou regulovány evropskou směrnicí Sol-vency II, která mimo jiné vyžaduje, aby pojišťovny držely kapitál na úrovni, která pokrývá 99,5 % možných finančních rizik v průběhu jednoho roku. Tento požadavek odpovídá výběrovému 99,5% kvantilů. Směrnice tedy stanovuje, že pouze v 0,5 % případů může nastat situace, kdy by pojišťovna nemohla splnit své závazky. ' Testování pomocí SCIO testů SCIO testy jsou jedním z nástrojů pro hodnocení úrovně znalostí žáků a studentů. Například při hodnocení výsledků SCIO testů z matematiky se často využívá kvantily pro stanovení referenčních hranic. Výběrový 25% kvantil určuje hranici pro čtvrtinu nejméně úspěšných studentů, zatímco výběrový 75% kvantil identifikuje hranici, nad kterou se nachází čtvrtina nej úspěšnějších studentů. Na základě těchto kvantilů mohou školy a zřizovatelé porovnávat výkonnost studentů mezi jednotlivými ročníky nebo regiony a stanovovat cíle pro zlepšení výuky. ' Percentilové grafy Kvantily se také často používají k tvorbě percentilových grafů, které poskytují přehled o rozložení dané populace. Percentilové grafy jsou běžně využívány například v pediatrii k porovnávání vývoje růstu dětí vůči standardním referenčním hodnotám. Shrnutí Výběrové kvantily jsou univerzálním nástrojem, který se využívá v mnoha oblastech lidské činnosti - od medicíny, přes hydrologii až po finance a pojišťovnictví. Pomáhají určit referenční hodnoty, identifikovať extrémní případy nebo poskytnout náhled na distribuci dat. Statistický soubor s jedním argumentem 116 7.3.2 Míry variability Míry absolutní variability Míry absolutní variability popisují rozsah variability bez ohledu na střední hodnotu dat. Mezi tyto míry patří: Definice 7.22. Variační obor (x^,x^) - Interval mezi nejmenší a největší hodno- tou v datech. Variační rozpětí R = x^ — x^ - Rozdíl mezi největší a nejmenší hodnotou v datech. ' Kvartilové rozpětí Rq = žo.75 — ^0.25 - Rozdíl mezi třetím a prvním kvartilem. Kvartilová odchylka - Polovina kvartilového rozpětí. Definice 7.23. Rozptyl - Střední kvadratická odchylka hodnot od průměru: 1 11 S x / (Xj X) . n -1- 1=1 Pro seskupená data je rozptyl definován jako: k 1 k i=i kde n,i je četnost hodnoty g^. Míry relativní variability Míry relativní variability se používají k porovnání variability mezi různými datovými soubory, které mohou mít rozdílné jednotky nebo měřítko: 117 Základy statistiky Definice 7.25. Variační koeficient v; X je relativní míra variability vyjádřená jako podíl směrodatné odchylky a aritmetického prů- měru. Relativní kvartilová odchylka Q r ^0.75 — ^0.25 ^0.75 + ^0.25 je míra relativní variability založená na kvartilech. Míry absolutní variability hodnotí rozptyl v datech přímo, zatímco míry relativní variability umožňují lépe srovnávat datové soubory s různými měřítky. Příklad 7.26. Ve dvou firmách byly zkoumány měsíční platy zaměstnanců. Ve firmě A jsou platy následující (v tisících Kč): 25, 28, 30, 32, 35. Ve firmě B jsou platy (v tisících Kč): 20, 22, 24, 26, 80. Porovnejte variabilitu platů ve firmách A a B pomocí rozptylu a variačního koeficientu. Řešení: Nejprve vypočteme aritmetický průměr pro obě firmy: 25 + 28 + 30 + 32 + 35 xA 5 30, 20 + 22 + 24 + 26 + 80 xB =-z-= 34,4. 5 Dále spočítáme rozptyl pro obě firmy: Pro firmu A: 1 3 a 5 - 1 (25 - 30)2 + (28 - 30)2 + (30 - 30)2 + (32 - 30)2 + (35 - 30)2 -44 = 11. Pro firmu B: 3B 5- 1 (20 - 34,4)2 + (22 - 34,4)2 + (24 - 34,4)2 + (26 - 34,4)2 + (80 - 34,4)2 4 -3637,6 = 909,4. Nyní vypočítáme variační koeficienty pro obě firmy: Pro firmu A: VA = — = — ~ 0,11. xA 30 Pro firmu B: Statistický soubor s jedním argumentem 118 Závěr: Variabilita platů ve firmě A je výrazně nižší než ve firmě B. Variační koeficient ve firmě B je mnohem vyšší kvůli extrémně vysokému platu (80 tisíc Kč), který zvyšuje rozptyl a tedy i míru variability. □ 7.4 Míry tvaru rozdělení Kromě charakteristik polohy a variability existují i charakteristiky, které popisují tvar rozdělení dat. Mezi hlavní charakteristiky tvaru rozdělení patří: Definice 7.27. Výběrová šikmost (skewness) měří asymetrii rozdělení dat: n ^ ( Xj — x x 3 7l= (n-l)(n-2)éí Kladná hodnota značí pozitivní šikmost (ocas na pravé straně je delší), záporná hodnota značí negativní šikmost (ocas na levé straně je delší). Definice 7.28. Výběrová špičatost (kurtosis) - Měří „ostrost" vrcholu rozdělení dat: Sj=l (Xi x) 0 72 = -1--3, nebo také korigovaná verze, která funguje i pro malé výběry: n(n + l) ^{Xi-xY 3(n-l)2 ^2 ~~ ím _ ~\\(rr, _ 0\írr, _ 0\ (n - l)(n - 2)(n - 3) ^ V sx ) (n-2)(n-3)' Hodnota vyšší než 0 značí rozdělení s vyšší špičatostí než normální rozdělení, hodnota nižší než 0 značí rozdělení s plošším tvarem. Příklad 7.29. V následující tabulce jsou uvedeny hodnoty datového souboru: 2, 3, 5, 7, 8, 10. Spočítejte výběrovou šikmost a špičatost tohoto datového souboru. Řešení: Nejprve vypočteme aritmetický průměr a směrodatnou odchylku: 2 + 3 + 5 + 7 + 8 + 10 roo x =-= 5.83. 6 Směrodatná odchylka (výběrová) je: 1 A, II, 5- = \ 1—, £(** " T)2 = \IH(2 ~ 5>83)2 + (3 " 5>83)2 + • • • + (10 - 5,83)2] = 2,93. \ 6- 1 f=í V 5 Výběrová šikmost (skewness): 119 Základy statistiky Výběrová šikmost se počítá podle vzorce: _ 6 A /Xi-x\3 71 " (6-1X6-2)^1^^ • Pro náš datový soubor po dosazení jednotlivých členů získáme: 7i « 0,0465. Tato hodnota znamená, že rozdělení má velmi malou pozitivní šikmost (ocas na pravé straně je nepatrně delší). Výběrová špičatost (kurtosis): Výběrová špičatost se počítá podle vzorce: 6(6 + 1) ^/Xi-x\4 3(6-l)2 72 ~ (6-l)(6-2)(6-3)^l sx ) ~ (6-2)(6-3)' Po dosazení členů a výpočtu získáme: 72 « -1,4137. Tato hodnota znamená, že rozdělení má plošší vrchol než normální rozdělení. □ 7.5 Řešené příklady Příklad 7.30. Určete relativní, kumulativní a relativní kumulativní četnosti dat z tabulky: 0 1 2 3 4 Tli 7 44 56 30 12 Řešení: Nejprve vypočítáme celkový počet prvků n: 5 n = rii = 7 + 44 + 56 + 30 + 12 = 149. Relativní četnosti p,~ se vypočítají jako podíl absolutní četnosti n,i a celkového počtu prvků n: 0 1 2 3 4 E Tli 7 44 56 30 12 149 Pi 0,047 0,295 0,376 0,201 0,081 1 Nyní vypočítáme kumulativní četnosti Nf. Statistický soubor s jedním argumentem 120 Nt = J2ny Například pro rrp] = 1: jV2 = 7 + 44 = 51. Podobně pro další hodnoty: 0 1 2 3 4 7 51 107 137 149 Relativní kumulativní četnosti Fi se vypočítají jako podíl kumulativní četnosti N a celkového počtu prvků n: F = —. n Například pro rr^j = 2: 107 F3 =-« 0,71* 3 149 Tabulka relativních kumulativních četností: 0 1 2 3 4 Fi 0,047 0,342 0,718 0,919 1 □ Příklad 7.31. Vypočtěte empirické charakteristiky: modus, kvartily, střední hodnotu, rozptyl, směrodatnou odchylku, šikmost a špičatost (exces) variační řady: 0 1 2 3 4 Tli 7 44 51 30 12 Řešení: Nejprve vypočítáme celkový počet prvků n: 5 n = 53 rij = 7 + 44 + 51 + 30 + 12 = 144- 1. Modus: 121 Základy statistiky Modus je hodnota s nejvyšší četností: Mo = 2. 2. Kvartily: Pořadí kvartilů vypočítáme pomocí a ■ n, kde a je hodnota kvantilu: a = 0,25 : a ■ n = 0,25 • 144 = 36. Kvartil žo,25 Je tedy průměr hodnot na pozicích 36 a 37 v uspořádaném souboru, což odpovídá hodnotě: ^0,25 — —^— ~~ Podobně pro medián (druhý kvartil): a = 0,5: a ■ n = 0,5 • 144 = 72. Medián žq,5 Je tedy průměr hodnot na pozicích 72 a 73 v uspořádaném souboru, což odpovídá hodnotě: 2 + 2 x0,5 = = 2. A pro třetí kvartil: a = 0,75 : a-n = 0,75 • 144 = 108. Třetí kvartil žo,75 Je tedy průměru hodnot na pozicích 108 a 109 v uspořádaném souboru, což odpovídá hodnotě: ~ _3 + 3 o ^0,75 — —^— — 3. Aritmetický průměr x: Aritmetický průměr se vypočítá takto: Ei=i zrn -m 0 • 7 + 1 • 44 + 2 • 51 + 3 • 30 + 4 • 12 284 x =--=- =-?a 1,97. E-=i^ 144 144 4. Rozptyl s2.: Rozptyl se vypočítá jako: 2 _ ^2j=l(x[i] ~ x)2 " ni eí=i rii _ (0 - 1,97)2 ■ 7 + (1 - 1,97)2 ■ 44 + (2 - 1,97)2 ■ 51 + (3 - 1,97)2 ■ 30 + (4 - 1,97)2 ■ 12 ~ 144 « 0,872. 5. Směrodatná odchylka sx: Statistický soubor s jedním argumentem 122 Směrodatná odchylka je odmocnina rozptylu: sx = Js2x « VOJŠTÍ « 0,934. 6. Šikmost 7i: Sikmost se vypočítá jako: eí=i(z[í] - x)3 ■ m 7i = Po dosazení získáme hodnotu přibližně: 7i « -0,11. Hodnota blízká 0 naznačuje, že rozdělení je téměř symetrické. 7. Spičatost 72: Spičatost se vypočítá jako: 72 =- 5 4--3. Po dosazení získáme hodnotu přibližně: 72 « -0,57. Záporná hodnota naznačuje ploché rozdělení. □ OV této kapitole jsme prozkoumali základní charakteristiky jednorozměrného statistického souboru. Zaměřili jsme se na popisné statistiky jako průměr, medián, modus, rozptyl, směrodatnou odchylku, šikmost a spičatost. Aritmetický průměr popisuje „průměrnou" hodnotu v souboru. ' Medián rozděluje soubor na dvě stejně velké části a je méně citlivý na extrémní hodnoty než průměr. • Modus je nejčastěji se vyskytující hodnota. ' Rozptyl a směrodatná odchylka udávají, jak moc se hodnoty liší od průměru. • Sikmost hodnotí asymetrii rozložení, spičatost popisuje tvar vrcholu rozložení. Ukázali jsme si, jak tyto charakteristiky vypočítat a interpretovat. Jsou klíčové pro analýzu dat v různých oblastech výzkumu a praxe. 123 Základy statistiky e 1. Co je to aritmetický průměr a jak se vypočítá? 2. Jaký je rozdíl mezi mediánem a aritmetickým průměrem? 3. Kdy je vhodnější použít medián místo průměru? 4. Co vyjadřuje rozptyl a jaký má vztah ke směrodatné odchylce? 5. Jaký význam má šikmost a špičatost (exces) při analýze rozložení dat? 6. Jak se vypočítá relativní četnost a kumulativní relativní četnost? 7. Co jsou to kvartily, jaký je jejich vztah ke kvantilům? 8. Určete medián a průměr měsíční spotřeby elektrické energie (kWh) v bytech z následujících údajů: 169, 108, 26, 43, 114, 68, 35, 183, 103, 266, 74, 205, 62, 230, 85, 487, 120, 148, 91, 18, 58, 96, 295, 42, 137. [103, 151,64] 9. Zkoušky životnosti žárovek daly následující výsledky (v hodinách): 606, 1249, 267, 44, 510, 340, 109, 1957, 463, 801, 1082, 169, 233, 1734, 1458, 80, 1023, 2736, 917, 459. Určete průměrnou dobu životnosti žárovek a jejich rozptyl. [938,35, 757,9] Literatura k tématu: [1] HINDLS, R. Statistika pro ekonomy. 8. vyd. Praha: Professional Publishing, 2007. ISBN 978-80-869-4643-6. ISBN 978-80-867-3208-8. [2] MAREK, L. Statistika v příkladech. 2. vyd. Praha: Kamil Mařík - Professional Publishing, 2015. ISBN 978-80-743-1153-6. [3] OTIPKA, P., SMAJSTRLA, V. Pravděpodobnost a statistika [online]. 1. vydání. Ostrava: VŠB-TU Ostrava, 2007 [cit. 2024-09-09]. ISBN 80-248-1194-4. Dostupné z: https://homel.vsb.cz/~oti73/cdpastl/ [4] ZVÁRA, K. a ŠTĚPÁN, J. Pravděpodobnost a matematická statistika. Matfyzpress, 2019. ISBN 978-80-7378-388-4. I Kapitola 8 Statistický soubor se dvěma argumenty Po prostudování této kapitoly budete umět: určit základní charakteristiky dvourozměrného statistického souboru, vypočítat střední hodnotu, rozptyl a kovarianci pro dvourozměrný soubor, využít vhodné grafické nástroje pro vizualizaci dvourozměrných dat, ' interpretovat výsledky analýzy závislosti mezi dvěma znaky. ©Klíčová slova: Dvourozměrný soubor, aritmetický průměr, kovariance, rozptyl, směrodatná odchylka, kontingenční tabulka, bodový graf. 125 Základy statistiky Tab. 4: Ukázka dvourozměrného statistického souboru Statistická jednotka Znak X (Výška v cm) Znak Y (Hmotnost v kg) 1 170 65 2 165 70 3 180 80 4 175 75 5 160 60 Náhled kapitoly Zde přímo navazujeme na předchozí kapitolu, její látku rozšíříme na případ dvou proměnných. Novinkou budou pojmy specifické pro tento dvojrozměrný případ, například kontingenční tabulky, bodové grafy a kovariance, které popisují vztahy dvojice proměnných. Pokročilejší metody, jako jsou regrese a korelace, si necháme až na další kapitoly. Cíle kapitoly Cílem této kapitoly je získat povědomí o rozdílu mezi jednorozměrným a dvojrozměrným případem a nachystat si pojem kovariance pro další kapitolu. Časová náročnost Pro tuto kapitolu doporučujeme vyčlenit přibližně 2 hodiny, které zahrnují jak studium teoretických částí, tak procvičování praktických příkladů a aplikací. Úvod Dvourozměrný statistický soubor se skládá z dvojic hodnot (argumentů), kde každý argument představuje hodnotu jiného statistického znaku měřeného na stejných statistických jednotkách. Tento typ souboru je používán k analýze vztahů mezi dvěma různými proměnnými, například výškou a hmotností osob, věkem a platem zaměstnanců, apod. Každá statistická jednotka je tedy charakterizována dvojicí hodnot, které spolu mohou nebo nemusí být nějakým způsobem závislé. Dvourozměrný statistický soubor nám umožňuje analyzovat nejen vlastnosti jednotlivých znaků samostatně, ale i vztah mezi nimi. Příklad dvourozměrného statistického souboru je v tabulce 4: V tomto příkladu je znak X výška v centimetrech a znak Y hmotnost v kilogramech. Každý řádek představuje jednu statistickou jednotku (například jednu osobu), na které jsou měřeny oba znaky současně. Statistický soubor se dvěma argumenty 126 8.1 Základní pojmy Statistická jednotka: Objekt, na kterém jsou měřeny oba znaky. Může to být osoba, firma, stroj apod. Každá statistická jednotka má přiřazenou dvojici hodnot - jednu pro každý znak. Znak X: První proměnná, která je měřena na všech statistických jednotkách. Například výška osob nebo věk zaměstnanců. Znak Y: Druhá proměnná, která je rovněž měřena na stejných statistických jednotkách jako znak X. Například hmotnost osob nebo plat zaměstnanců. Dvojice hodnot: Každá statistická jednotka má přiřazenou dvojici hodnot (x,-ny,j), kde Xi je hodnota znaku X a y i je hodnota znaku Y pro i-tou statistickou jednotku. Statistický soubor: Množina všech dvojic hodnot (xi,yi), (x2,y2), ■ ■ ■, (xn,yn), kde n je počet statistických jednotek. Rozsah souboru: Počet statistických jednotek v souboru, označovaný jako n. V dvourozměrném souboru je rozsah stejný pro oba znaky, protože oba znaky jsou měřeny na stejných jednotkách. Můžeme se vrátit k tabulce 4, kde jsou statistickými jednotkami jednotlivé osoby, znakem X je výška a znakem Y je hmotnost. Rozsah souboru n = 5. 8.2 Tabulkové a grafické zobrazení dvourozměrných dat Při práci s dvourozměrným statistickým souborem je důležité umět data správně zobrazit. Existují různé způsoby, jak data vizualizovat a interpretovat. Mezi nejběžnější metody patří kontingenční tabulky a bodové grafy. Kontingenční tabulky Kontingenční tabulky se používají pro dvourozměrné soubory s diskrétními znaky. Tabulka obsahuje četnosti výskytu jednotlivých kombinací hodnot znaků X a Y. Tyto tabulky poskytují přehled o tom, jak často se různé kombinace hodnot vyskytují ve statistickém souboru. 127 Základy statistiky Řádky tabulky představují jednotlivé kategorie znaku X. Sloupce tabulky představují jednotlivé kategorie znaku Y. Buňky tabulky obsahují absolutní četnosti kombinací hodnot X a,Y. Tab. 5: Ukázka kontingenční tabulky Y1 Y2 Y3 x1 5 7 3 x2 8 12 4 x3 6 2 9 Příklad kontingenční tabulky je v tabulce 5, kde jsou zobrazeny četnosti kombinací hodnot X a Y. Například hodnota 5 znamená, že kombinace X\ a Y\ se vyskytuje pětkrát. Kontingenční tabulky jsou užitečné pro analýzu závislosti mezi dvěma diskrétními znaky. Mohou být základem pro další metody analýzy, jako je například výpočet podmíněných pravděpodobností nebo chi-kvadrát test závislosti. Bodové grafy Bodové grafy (scatter plots) se používají pro dvourozměrné soubory, kde oba znaky nabývají spojitých hodnot. Na ose x je vynášen znak X a na ose y znak Y. Každá dvojice hodnot (x,-n í/j) se zobrazuje jako bod v rovině. "150 155 160 165 170 175 180 185 190 Výška (cm) Obr. 17: Ukázka bodového grafu Příklad bodového grafu je na obrázku 17. Každý bod v grafu představuje jednu statistickou jednotku a její hodnoty znaků V a V. Například bod na souřadnicích (160, 60) odpovídá jednotce s výškou 160 cm a hmotností 60 kg. CO O 70 60 Statistický soubor se dvěma argumenty 128 Bodové grafy umožňují vizuálně analyzovat vztah mezi dvěma znaky. Pokud jsou body uspořádány podél určité linie nebo křivky může to naznačovat nějaký druh závislosti mezi znaky laľ. Tyto grafy jsou základním nástrojem pro identifikaci vzorů a závislostí v datech. Grafická zobrazení nám pomáhají lépe pochopit vztah mezi dvěma znaky. V případě bodového grafu může například kladná korelace znamenat, že vyšší hodnoty znaku X jsou často doprovázeny vyššími hodnotami znaku Y. Naopak záporná korelace by znamenala, že vyšší hodnoty jednoho znaku jsou spojeny s nižšími hodnotami druhého. Kontingenční tabulky nám umožňují odhalit závislosti mezi kategoriemi dvou znaků. Pokud se některé kombinace kategorií vyskytují mnohem častěji než jiné, může to naznačovat silnou závislost mezi znaky. Tabulkové a grafické metody jsou důležité nástroje pro první krok analýzy dvourozměrných statistických souborů, protože poskytují vizuální a kvantitativní přehled o datech. 8.3 Míry polohy a variability pro dvourozměrný soubor 8.3.1 Míry polohy Podobně jako u jednorozměrného statistického souboru, můžeme i u dvourozměrného souboru vypočítat míry polohy pro oba znaky laľ. Tyto míry zahrnují aritmetický průměr, medián a modus. Pro každý znak zvlášť můžeme vypočítat aritmetický průměr, který udává střední hodnotu daného znaku v souboru. Zde X je průměrná hodnota znaku X a Y je průměrná hodnota znaku Y. Výpočty probíhají stejným způsobem jako v jednorozměrném souboru. Příklad 8.1. Pro dvourozměrný statistický soubor z předchozího příkladu (výška a hmotnost osob) bychom vypočítali průměrnou výšku a hmotnost následovně: Interpretace grafických zobrazení Aritmetický průměr x = — i=l lb i=l X = 170 + 165 + 180 + 175 + 160 5 170 cm 129 Základy statistiky 65 + 70 + 80 + 75 + 60 V =-z-= 70 kg. 5 Podobným způsobem by se vypočítaly mediány a modus pro oba znaky. □ 8.3.2 Míry variability a kovariance Míry variability pro dvourozměrný statistický soubor jsou obdobné jako u jednorozměrného souboru, přičemž jsou vypočítávány zvlášť pro každý znak laľ. Rozptyl a směrodatná odchylka Rozptyl a směrodatná odchylka se pro dvourozměrný soubor počítají obdobně jako v jednorozměrném případě, zvlášť pro každý znak: Y n 1 n 4 =—7j2(xí-žf, 4 =—-J2(yí-y)2- n - 1 n~ 1 £í Směrodatná odchylka je druhá odmocnina rozptylu: Podrobnosti o rozptylu a směrodatné odchylce byly probrány v předchozí kapitole o jednorozměrném statistickém souboru. Kovariance Kovariance měří míru vzájemné závislosti mezi dvěma znaky laľ. Je-li kovariance kladná, znamená to, že se vysoké hodnoty znaku X pojí s vysokými hodnotami znaku Y. Záporná kovariance naopak naznačuje, že vyšší hodnoty jednoho znaku se pojí s nižšími hodnotami druhého znaku. Definice 8.2. Kovariance se vypočítá podle vzorce: 1 n Cov(A, Y) = —— 5>ť - x){Vi - y). n 1 i=i Pokud jsou hodnoty X &.Y nezávislé, je jejich kovariance blízká nule. Příklad 8.3. Uvažujme opět dvourozměrný statistický soubor (výška a hmotnost osob) (tabulka 4). Vypočteme kovarianci. Statistický soubor se dvěma argumenty 130 Řešení: Nejprve vypočítáme průměry: x = 170, y = 70. Poté vypočítáme kovarianci: Cov(X,Y) = -J—[(170- 170)(65-70) + (165-170)(70-70) + - •• + (160-170)(60-70)1 = 50. 5 — 1 Tato kladná hodnota kovariance naznačuje, že mezi výškou a hmotností existuje pozitivní vztah — vyšší osoby mají obecně vyšší hmotnost. □ 8.4 Řešené příklady Příklad 8.4. Vypočítejte základní číselné charakteristiky dvourozměrného statistického souboru. Tabulka uvádí hodnoty Xa,Y pro jednotlivá pozorování: x\y 20 30 40 50 60 70 80 250 19 5 350 23 116 11 450 1 41 98 9 550 4 32 65 7 650 1 4 21 46 3 750 1 2 11 13 1 850 1 3 2 Řešení: Pro řešení vypočítáme: 1. Průměry: x = — ■ 259800 « 481,1, y = — • 22030 « 40,80. 540 ' ' y 540 2. Rozptyly: 4 = — • 134490000 - 481,l2 « 17587,65, sl = — • 989900 - 40,82 « 168,81. x 540 ' ' ' Y 540 ' 3. Směrodatné odchylky: sx ~ 132,62, sY « 12,99. 4. Kovariance: Cov( V V) = — • 11427500 - 481,1 • 40,8 « 1534,49. v ' ) 540 ' □ 131 Základy statistiky Příklad 8.5. Vypočítejte číselné charakteristiky dvourozměrného statistického souboru, který je zadán tabulkou: X 27 31 87 93 114 124 190 193 250 254 264 272 308 324 y 28 21 71 36 30 43 54 54 59 25 82 22 38 22 371 372 440 442 502 503 506 522 556 620 624 56 63 46 24 33 40 41 28 53 38 66 Řešení: Výpočty provedeme pomocí Excelu: 1. Průměry: _ 7989 _ 1073 x =-319,56, y =- 25 25 42,92. 2. Rozptyly: 3371599 25 319,562 « 32745,37, s2Y 52945 25 42,922 « 275,67. 3. Směrodatné odchylky: sx ~ 180,96, sY « 16,60. 4. Kovariance: 3492^0 Cov(A, Y) =--319,56 • 42,92 « 254,48. 25 □ OV této kapitole jsme se seznámili s dvourozměrným statistickým souborem, který analyzuje dvojice hodnot (xi,yi) pro každou statistickou jednotku. Pro oba znaky jsme vypočítali základní míry polohy (průměr, medián, modus) a variability (rozptyl, směrodatná odchylka). Představili jsme kovarianci jako nástroj k měření závislosti mezi dvěma znaky, kde kladná kovariance ukazuje na pozitivní vztah a záporná na negativní. Kromě výpočtů jsme se věnovali kontingenčním tabulkám pro diskrétní znaky a bodovým grafům pro spojité znaky, které umožňují vizuální analýzu vztahů mezi znaky. Tato kapitola připravuje základ pro další analýzy závislostí mezi dvěma znaky, které budou následovat v příštích kapitolách. Statistický soubor se dvěma argumenty 132 8.5 Kontrolní otázky 1. Jaký je rozdíl mezi jednorozměrným a dvourozměrným statistickým souborem? 2. Jak vypočítáme aritmetický průměr pro dvourozměrný statistický soubor? 3. Co znamená kovariance a jaký má význam při analýze dvourozměrného souboru? 4. Jaká je interpretace kladné a záporné hodnoty kovariance? 5. Jaký grafický nástroj lze použít pro vizualizaci dvourozměrného statistického souboru, kde oba znaky jsou spojité? 6. Jak funguje kontingenční tabulka a kdy ji použijeme? 7. Jaký je vztah mezi rozptylem a směrodatnou odchylkou pro jednotlivé znaky v dvourozměrném statistickém souboru? 8. Proč používáme bodový graf (scatter plot) při analýze dvourozměrných dat a co nám ukazuje o závislosti mezi znaky X a Yl 9. U 130 zákrsků bylo zjištěno stáří stromu v letech (argument X) a sklizeň v jistém roce v kg (argument Y). Podle údajů v tabulce určete kovarianci. X\Y 4 5 6 7 8 9 10 11 3 6 0 0 0 0 0 0 0 4 0 5 10 2 0 0 0 0 5 0 0 0 2 8 3 0 0 6 0 0 0 0 0 12 10 0 7 0 0 0 0 0 8 15 4 8 0 0 0 0 4 16 8 0 9 0 3 12 2 0 0 0 0 [Cov(X,Y) « 1,12] e Literatura k tématu: [1] HINDLS, R. Statistika pro ekonomy. 8. vyd. Praha: Professional Publishing, 2007. ISBN 978-80-869-4643-6. ISBN 978-80-867-3208-8. [2] MAREK, L. Statistika v příkladech. 2. vyd. Praha: Kamil Mařík - Professional Publishing, 2015. ISBN 978-80-743-1153-6. [3] OTIPKA, P., SMAJSTRLA, V. Pravděpodobnost a statistika [online]. 1. vydání. Ostrava: VŠB-TU Ostrava, 2007 [cit. 2024-09-09]. ISBN 80-248-1194-4. Dostupné z: https://homel.vsb.cz/~oti73/cdpastl/ [4] ZVÁRA, K. a ŠTĚPÁN, J. Pravděpodobnost a matematická statistika. Matfyzpress, 2019. ISBN 978-80-7378-388-4. Kapitola 9 Regresní a korelační analýza Po prostudování této kapitoly budete umět: > vysvětlit, co korelační koeficient popisuje a jaké jsou jeho varianty, > vypočítat Pearsonův korelační koeficient na základě zadaných dat. • interpretovat výsledky korelační analýzy, používat Excel nebo jiný statistický software k výpočtu korelačních koeficientů, • odhadovat parametry lineárního regresního modelu, • aplikovat lineární regresi na reálná data, • používat Excel a modul Analýza dat - Regrese pro výpočty. Klíčová slova: Korelační koeficient, statistická závislost, lineární vztah, ineární regrese, regresní analýza, regresní koeficienty, Excel, modul Analýza dat. Regresní a korelační analýza 134 Náhled kapitoly V této kapitole navážeme na předchozí kapitolu, kde jsme zkoumali vztah dvou statistických znaků. Zde se seznámíme s dvěma pokročilejšími metodami analýzy těchto závislostí. Korelační analýza slouží k měření síly a směru lineárního vztahu mezi dvěma proměnnými. Probereme různé varianty korelačních koeficientů a jejich využití v praxi, zejména Pearsonův korelační koeficient, který je nejčastěji používán. Ukážeme si také omezení tohoto koeficientu a situace, kdy je vhodné použít alternativní metody. Metoda lineární regrese umožňuje odhadnout vztah mezi závislou a nezávislou proměnnou pomocí přímky (případně i jiné křivky). Obě metody se naučíme provádět i v Excelu. Cíle kapitoly Cílem této kapitoly je praktické seznámení s dvěma metodami, korelační a regresní analýzou, které nám umožňují studovat vztah (závislost) dvou statistických znaků. Odhad času potřebného ke studiu Odhaduje se, že studium této kapitoly zabere přibližně 3 hodiny. Tento čas zahrnuje čtení textu, pochopení teoretických konceptů a řešení příkladů (i v Excelu). 9.1 Princip korelační analýzy Co je to korelační koeficient? Korelační koeficient je statistická míra, která určuje sílu a směr vztahu mezi dvěma proměnnými. Pearsonův korelační koeficient, označovaný jako r, měří lineární vztah mezi dvěma spojitými proměnnými a nabývá hodnot mezi -1 a 1. Pokud je r = 1, jedná se o perfektní pozitivní lineární vztah, pokud r = — 1, jedná se o perfektní negativní lineární vztah, a pokud r = 0, neexistuje žádná lineární závislost mezi proměnnými. Výpočet korelačního koeficientu Definice 9.1. Pearsonův korelační koeficient je definován vztahem: Cov(X, Y) = J2(xt - x) ■ (yt - y) kde Xi a yri jsou jednotlivé hodnoty obou proměnných, a x a y jsou jejich průměry. 135 Základy statistiky Řešené příklady Příklad 9.2. Mějme data o prodejích produktů ve dvou různých regionech. Vypočítejte Pear-sonův korelační koeficient a určete, zda mezi těmito proměnnými existuje lineární vztah. Prodeje (ReÉ pon 1) 10 15 20 25 30 Prodeje (ReÉ pon 2) 12 18 25 24 28 Řešení: Nejprve vypočítáme průměry x = 20 a y = 21 A. Poté provedeme výpočet Pearsonova korelačního koeficientu podle výše uvedeného vzorce. Korelační koeficient r « 0.88, což ukazuje na silnou pozitivní lineární závislost mezi prodeji v obou regionech. Excel: Korelační koeficient lze spočítat pomocí funkce C0RREL(arrayl, array2) v Excelu. Příklad 9.3. Mějme data o počtu zákazníků navštěvujících obchod a průměrné denní tržby. Vypočítejte korelační koeficient a určete, zda existuje lineární závislost. Počet zákazníků 50 60 70 80 90 Denní tržby (v tis. Kč) 20 25 30 28 35 Řešení: Vypočítáme průměry x = 70 a y = 27.6. Pomocí vzorce pro korelační koeficient získáme r 0.91, což značí velmi silnou pozitivní lineární závislost mezi počtem zákazníků a tržbami. Excel: Pomocí funkce C0RREL(arrayl, array2) lze získat stejný výsledek. □ Příklad 9.4. Zde JSOU dcltcl pro prodej dvou produktů v různých týdnech. Určete, zda mezi prodejem těchto produktů existuje lineární vztah. Prodeje produktu A 100 105 110 95 115 90 120 85 125 80 Prodeje produktu B 200 180 205 185 190 185 190 195 200 190 Řešení: Průměry pro produkt A a produkt B jsou x = 102.5 a y = 192. Po výpočtu korelačního koeficientu dostaneme r « 0.08, což naznačuje velmi slabou nebo žádnou lineární závislost mezi prodeji těchto produktů. Excel: Výpočet pomocí C0RREL(arrayl, array2) v Excelu také ukazuje, že korelace je blízká nule, tedy nevýznamná. □ Historie a varianty korelačních koeficientů Historie korelačních koeficientů sahá až do 19. století, kdy Francis Galton poprvé navrhl metody pro kvantifikaci statistických vztahů mezi proměnnými. Na jeho práci navázal Karl Pearson, který formalizoval a popularizoval Pearsonův korelační koeficient. Regresní a korelační analýza 136 V průběhu času byly vyvinuty další varianty korelačních koeficientů pro specifické účely: Spearmanův korelační koeficient (Spearman's rho): Používá se, pokud data nejsou normálně rozložena nebo vykazují monotónní, nikoli lineární vztah. Kendallův tau: Měří sílu vztahu mezi pořadím hodnot a používá se zejména u malých souborů dat. Point-biserial correlation: Využívá se pro měření korelace mezi spojitou a binární proměnnou. Každý z těchto korelačních koeficientů má své specifické aplikace a závisí na typu dat, které jsou analyzovány. Korelační analýza našla využití v mnoha oblastech, včetně psychologie, ekonomie, marketingu a biostatistiky. Kdy je korelační koeficient vhodný? Korelační koeficient popisuje sílu a směr lineárního vztahu mezi dvěma spojitými proměnnými. Jeho použití je vhodné, pokud jsou splněny následující podmínky: Obě proměnné mají přibližně normální rozložení. Vztah mezi proměnnými je lineární. Nejsou přítomny výrazné odlehlé hodnoty, které by ovlivnily výsledek. Použití Pearsonova korelačního koeficientu je nevhodné, pokud vztah mezi proměnnými není lineární nebo pokud se jedná o ordinální data, u nichž je vhodnější použít Spearmanův korelační koeficient nebo Kendallův tau. Praktické cvičení Mějte následující data pro dva produkty a určete, zda existuje lineární závislost mezi jejich prodeji: Prodeje produktu A 5 10 15 20 25 Prodeje produktu B 8 12 17 22 24 Spočítejte korelační koeficient pomocí výše uvedeného vzorce nebo pomocí Excelu (C0RREL(arrayl, array2)). Na základě výsledku určete, zda mezi těmito proměnnými existuje lineární závislost. 137 Základy statistiky 9.2 Princip lineární regrese Úvodní příklad Představte si, že jste ekonomický analytik ve společnosti, která chce předpovědět tržby na základě výdajů na reklamu. Máte k dispozici následující data z posledních 10 měsíců (tabulka 6). Tab. 6: Ukázková data pro lineární regresi Měsíc 1 2 3 4 5 6 7 8 9 10 Reklama (tis. Kč) 20 25 30 35 40 45 50 55 60 65 Tržby (tis. Kč) 200 220 250 280 310 330 360 390 420 450 Cílem je zjistit, jak silný je vztah mezi výdaji na reklamu a tržbami, a vytvořit model, který umožní předpovědět tržby při různých úrovních výdajů na reklamu. Formulace problému • Závislá proměnná (Y): Tržby (tis. Kč). ' Nezávislá proměnná (X): Výdaje na reklamu (tis. Kč). Cíl analýzy Pomocí lineární regrese odhadnout vztah mezi výdaji na reklamu a tržbami a posoudit, zda je tento vztah statisticky významný. Co je to lineární regrese? Lineární regrese je statistická metoda používaná k modelování vztahu mezi závislou proměnnou a jednou nebo více nezávislými proměnnými. V případě jednoduché lineární regrese se jedná o vztah mezi dvěma proměnnými, který je modelován pomocí přímky. Regresní a korelační analýza 138 Regresní model Lineární regresní model lze vyjádřit rovnicí: kde: F je závislá proměnná, X je nezávislá proměnná, /3q je absolutní člen (intercept), fli je směrnice přímky (sklon), e je náhodná chyba (reziduálni složka). Metoda nejmenších čtverců Parametry (30 a /3i jsou odhadnuty pomocí metody nejmenších čtverců, která minimalizuje součet čtverců odchylek mezi skutečnými hodnotami Y a predikovanými hodnotami Y: min J2(Vi ~ Vif = mi«n J2(yt - Po- PiXi ,2 Odhady parametrů Odhady parametrů (30 a (3i lze vypočítat pomocí vzorců: Ei=i(xi-x)(yi -y) P Po = y- fe kde x a. y jsou průměry laľ. 139 Základy statistiky Předpoklady lineární regrese Aby byly odhady parametrů platné, musí být splněny následující předpoklady: • Linearita: Vztah mezi X a Y je lineární. ' Homoskedasticita: Rozptyl náhodné složky e je konstantní pro všechna X. • Nezávislost: Hodnoty náhodné složky e jsou nezávislé. • Normalita: Náhodná složka e je normálně rozložena. Historické poznámky Metoda lineární regrese byla poprvé formálně představena anglickým statistikem Sir Prancis Galtonem v 19. století při studiu dědičnosti výšky mezi rodiči a dětmi. Termín regrese pochází z Galtonova pozorování, že extrémní hodnoty mají tendenci "regresovat" k průměru v následující generaci. Později Karl Pearson a Ronald A. Fisher rozvinuli matematické základy regresní analýzy a metodu nejmenších čtverců, která je dnes standardním nástrojem v statistice a ekonometrice. Odhad parametrů a interpretace Výpočet odhadů Pomocí výše uvedených vzorců lze spočítat odhady J3q a J3\ na základě dostupných dat. Interpretace parametrů Směrnice přímky Udává změnu v závislé proměnné Y při jednotkové změně nezávislé proměnné X. Absolutní člen 0o)'- Hodnota závislé proměnné Y, když nezávislá proměnná X je nulová. Regresní a korelační analýza 140 9.3 Řešené příklady Příklad 9.5. Vyrovnejte data v tabulce regresní přímkou: X 5 15 25 35 45 55 65 y 3,5 5,2 5,5 6,1 5,9 6,4 7,8 Řešení: Ukážeme, jak by se tato úloha řešila v Excelu: 1. Nejdříve označíme data a klikneme na Vložit Graf, přičemž vybereme typ grafu XY bodový (obrázek 18). C* T = Seirtl - Ercel j VLOŽENI ROaolENI STRÁNKY VZORCE 0ATA REVIZE ZOG RAZE h I m m b b2'*-» tl'-t * ^ ^ t= Í &opo"uťen* Tabuľa Ofcfirky Onkn« £ Maje ipHt*ce • OopWuíen* ~ . Koríling*nini SpfljrWový SlOjptfr^ Vieitupy/ PriJel Čaíavi HypeHť iňCíífícni UDWfcy antzzKy a* a.rjry —' ^- <|riT -|jtiu*y llmlricc OnplAty 1 Bodový "••■)••', fMrr Odki i|cjo|i|r|a|H| i IbJ \vi H N 0 p a 1* T l__£±. I_—L z & 15 35 55 6! v £2 5,5 5r9 M ľ. uMnový *. 1 a. OJ. L j! Ctiji mm 9 ■ • • * lí JO W 40 W « TU Obr. 18: Vložení bodového grafu 2. Máme-li aktivní okno grafu, v nabídce + vybereme možnost Spojnice trendu (obrázek 19). < j>-o-c y rvky grafu 0 H i 0 Osy 3 7 6 Z 1 0 □ Názvy os ■ 3 Název grafu -•- ■ • □ Popisky dat □ Chybové úsečky ( • 0 Mřížka n i=—a, • 1 1 Spojnice trendu > ( ) 10 20 30 40 50 60 7 Q i Obr. 19: Přidání spojnice trendu 141 Základy statistiky 3. V rámci volby můžete volit i jiné křivky než přímku, a také vložit rovnici přímky přímo do grafu (obrázek 20): _ : i,j U.i |m |m M lTÍ~ ± Formit spojnice rnendu T x MoAttniivoMKi mnu * > - i\\ * UOÍKHII MM 1UHMJ Ľ o, L_ \ľ Ol JntHL-± hafnutu ip-:4*íi*™íi R Obr. 20: Nastavení lineární regrese 4. Výsledkem je rovnice regrese y = 0,0561 • x + 3,8089. Z grafu vidíme, že rovnice dobře vystihuje závislost proměnných. Řešení bez použití Excelu: Pro výpočet regresní přímky použijeme vzorce: y = J31-x + J30, kde: Po nYxf - (Yxí)2 Y Ví - a Y Xj n Pro naše data: J2 Xi = 5 + 15 + 25 + 35 + 45 + 55 + 65 = 245, J2 Ví = 3,5 + 5,2 + 5,5 + 6,1 + 5,9 + 6,4 + 7,8 = 40,4, J2 x2 = 52 + 152 + 252 + 352 + 452 + 552 + 652 = 8575, J2 xiVi = 5 • 3,5 + 15 • 5,2 + 25 • 5,5 + 35 • 6,1 + 45 • 5,9 + 55 • 6,4 + 65 • 7, 1601,5. Dosadíme do vzorců: h = 1«^^!= 0,0561, Po 7 ■ 8575 - 2452 40,4 - 0,0561 • 245 7 3,8089. Regresní a korelační analýza 142 Rovnice regresní přímky je tedy: y = 0,0561 - x + 3,8089. □ Příklad 9.6. Použijte data z úvodního příkladu (tabulka 6) a odhadněte lineární regresní model pro vztah mezi výdaji na reklamu a tržbami. Určete odhady parametrů (30 a (3i. Řešení: Krok 1: Výpočet průměrů _ J2]0=1xt 20 + 25 + --- + 65 x =- =- = 42,5, 10 10 _ EEižft 200 + 220 + --- + 450 y =- =-= 321. y 10 10 Krok 2: Výpočet odhadu (3- s _ e!=i(^ -x){ví -v) 11 e^fe-*)2 Spočítáme jednotlivé sumy: J2(xí - x)(yí - y) = J2(xíVí) - nxv> 2 _2 x,-, — nx . Výpočty: Vytvoříme tabulku pro výpočty (část výpočtů): i Xí Yi XjYi x? 1 20 200 4000 400 2 25 220 5 500 625 3 30 250 7500 900 4 35 280 9 800 1225 5 40 310 12400 1600 6 45 330 14850 2 025 7 50 360 18 000 2 500 8 55 390 21450 3 025 9 60 420 25 200 3 600 10 65 450 29 250 4 225 e 425 3210 147950 20125 A tedy Ř ^XiVi-rixy 147950 - 10-42,5-321 Pl J2x2-nx2 20 125 - 10 • (42,5)2 ~ Ó^Z' 143 Základy statistiky Výpočet /30: j30 = y - fax = 321 - 5,5882 • 42,5 = 321 - 237,5 = 83,5. Regresní rovnice: Ý = 5,5882V + 83,5. Výpočty v Excelu: Kromě postupu přímo v Excelu, jak jsme si to předvedli v předchozím příkladu, můžeme použít i pokročilejší modul Analýza dat - Regrese: Postup: 1. Vložíme data do dvou sloupců: X (Reklama) a Y (Tržby). 2. Spustíme Analýza dat a vybereme Regrese. 3. Nastavíme vstupní rozsahy pro závislou a nezávislou proměnnou. 4. Zvolíme výstupní oblast a případně další možnosti (např. reziduálni grafy). Výstupem bude tabulka s odhady parametrů, ale také jejich směrodatnými chybami, hodnotami ŕ-statistik a P-hodnotami. Interpretace výsledků z Excelu: Výsledky mohou vypadat například takto: Parametr Odhad Směr. chyba t P-hodnota h 83,5 5,0 16,7 0,0000 5,5882 0,2 27,9 0,0000 Rozhodnutí: Protože P-hodnota pro /3i je mnohem menší než a = 0,05, zamítáme nulovou hypotézu H0 : fli = 0. Regresní koeficient fii je tedy statisticky významný. □ OV této kapitole jsme se zabývali korelační a regresní analýzou, která slouží k analýze závislostí mezi dvěma kvantitativními znaky. Korelace hodnotí sílu a směr lineárního vztahu mezi dvěma proměnnými pomocí korelačního koeficientu Txy- Pozitivní korelace značí, že s růstem jedné proměnné roste i druhá, zatímco negativní korelace ukazuje opačný vztah. Regresní analýza pak umožňuje vyjádřit tento vztah pomocí matematického modelu. Nejčastěji se používá lineární regresní model, který popisuje vztah mezi závisle proměnnou Regresní a korelační analýza 144 Y a nezávislou proměnnou X pomocí přímky. Parametry modelu, jako je směrnice a průsečík, jsou odhadovány metodou nejmenších čtverců. V rámci kapitoly jsme si ukázali, jak tyto metody aplikovat na konkrétní data, jak interpretovat výsledky korelace a regrese. Důležitou součástí byla také vizualizace dat pomocí bodových grafů a regresních přímek. 1. Co je korelační koeficient a jaká je jeho interpretace? 2. Jaký je rozdíl mezi korelační a regresní analýzou? 3. Jak se vypočítá koeficient korelace txy mezi dvěma proměnnými? 4. Co znamená hodnota korelačního koeficientu blízká 1, 0 nebo —1? 5. Co je to lineární regrese a k čemu slouží? 6. Jak se odhadují parametry lineárního regresního modelu? 7. Co vyjadřuje směrnice a průsečík regresní přímky? 8. Jaké grafické nástroje se používají k vizualizaci výsledků korelační a regresní analýzy? 9. Uvažujme následující data, která představují počet hodin fyzického cvičení za týden a spotřebu kalorií (v tisících) pěti osob: Osoba Hodiny cvičení za týden (X) Spotřeba kalorií (Y, v tisících) 1 3 2,2 2 5 2,8 3 7 3,1 4 8 3,5 5 10 4,0 Vypočítejte korelační koeficient mezi počtem hodin cvičení a spotřebou kalorií a interpretujte výsledek. [r = 0,98] 10. V následující tabulce jsou uvedeny hodnoty proměnných V a V, kde X představuje počet hodin studia a Y dosažené skóre v testu: Osoba Hodiny studia (X) Skóre (Y) 1 2 50 2 3 55 3 4 60 4 5 60 5 6 70 Určete parametry lineární regresní přímky pro závislost skóre na počtu hodin studia (vztah mezi V a V) a napište rovnici regresní přímky. [Y = 2X + 51] 145 Základy statistiky e Literatura k tématu: [1] HINDLS, R. Statistika pro ekonomy. 8. vyd. Praha: Professional Publishing, 2007. ISBN 978-80-869-4643-6. ISBN 978-80-867-3208-8. [2] MAREK, L. Statistika v příkladech. 2. vyd. Praha: Kamil Mařík - Professional Publishing, 2015. ISBN 978-80-743-1153-6. [3] OTIPKA, P., SMAJSTRLA, V. Pravděpodobnost a statistika [online]. 1. vydání. Ostrava: VŠB-TU Ostrava, 2007 [cit. 2024-09-09]. ISBN 80-248-1194-4. Dostupné z: https://homel.vsb.cz/~oti73/cdpastl/ [4] ZVÁRA, K. a ŠTĚPÁN, J. Pravděpodobnost a matematická statistika. Matfyzpress, 2019. ISBN 978-80-7378-388-4. Kapitola 10 Časové řady Po prostudování této kapitoly budete umět: • definovat a vysvětlit základní pojmy časových řad, popsat klíčové složky časových řad, jako jsou trend, sezónnost a náhodná složka, • rozlišit mezi stacionárními a nestacionárními časovými řadami, • interpretovat grafickou analýzu časových řad. Klíčová slova: Časová řada, trend, sezónnost, cykličnost, stacionarita, grafická analýza. 147 Základy statistiky Náhled kapitoly V této kapitole se seznámíme s konceptem časových řad a jejich základními charakteristikami. Časové řady představují posloupnost hodnot sledovaných (většinou) v pravidelných časových intervalech. Tyto řady se používají k analýze dat v mnoha oblastech, jako jsou ekonomie, finance a další disciplíny. Probereme základní složky časových řad, jako jsou trend, sezónnost, cyklické jevy a náhodné výkyvy. Naučíme se, jak tyto složky rozlišit a interpretovat pomocí grafických metod. Cíle kapitoly Cílem této kapitoly je představit časové řady jako důležitý nástroj pro analýzu dat sledovaných v čase. Studenti se naučí rozpoznávat základní složky časových řad, pochopí rozdíl mezi stacionárními a nestacionárními řadami a budou schopni provést základní grafickou analýzu. Odhad času potřebného ke studiu Odhaduje se, že studium této kapitoly zabere přibližně 2 hodiny. Tento čas zahrnuje čtení textu, pochopení teoretických konceptů a interpretaci grafických analýz časových řad. Úvod Definice 10.1. Časové řady představují posloupnost hodnot, které jsou zaznamenávány v pravidelných nebo nepravidelných časových intervalech. Každá hodnota časové řady odpovídá určitému okamžiku nebo časovému úseku. Tento typ dat umožňuje analyzovat změny proměnné v čase a může odhalit různé vzorce chování proměny dat, jako jsou trendy (růst nebo pokles ve větším časovém měřítku) nebo sezónní výkyvy. Příkladem časové řady může být vývoj ceny akcií na burze, počet prodaných výrobků v obchodě za jednotlivé měsíce nebo denní teplota zaznamenaná meteorologickou stanicí. Kde se časové řady využívají? Časové řady se využívají v mnoha oblastech, kde je třeba analyzovat a předvídat vývoj veličin v čase. Mezi nejčastější aplikace patří: Ekonomie a finance: Analýza vývoje cen akcií, kurzů měn, inflace nebo nezaměstnanosti. Marketing: Předpovědi poptávky, prodejních trendů, či sezónních výkyvů v tržbách. Meteorologie: Analýza teplotních změn, srážkových úhrnů nebo předpovědi počasí na základě historických dat. Výrobní procesy: Monitoring a analýza výkonnosti výrobních zařízení v čase, sledování kvality nebo optimalizace výrobních kapacit. Časové řady 148 Díky těmto aplikacím je možné provádět analýzy, které pomáhají organizacím předvídat budoucí vývoj a lépe plánovat své aktivity. 10.1 Základní pojmy časových řad Pozorování a časová osa Časová řada je posloupnost hodnot určité veličiny, které jsou měřeny nebo zaznamenávány v nějakých (většinou pravidelných) časových intervalech. Definice 10.2. Každá časová řada má dvě klíčové složky: Časová osa: Zahrnuje jednotlivé časové body (např. dny, měsíce, roky), ve kterých jsou hodnoty proměnné zaznamenány. Hodnoty proměnné: Reprezentují sledovanou veličinu (např. teplotu, cenu akcií, prodeje). Časové řady jsou důležité pro zkoumání změn a trendů v průběhu času, což nám potenciálně umožňuje predikovat budoucí hodnoty na základě předchozích dat. Trend, sezónnost, cykličnost a náhodná složka Definice 10.3. Časovou řadu můžeme rozložit na několik základních složek: Trend: Dlouhodobý směr vývoje časové řady, který může být vzestupný, sestupný nebo konstantní. Představuje systematickou změnu hodnot v čase. Sezónnost: Krátkodobé pravidelné fluktuace, které se opakují v určitém časovém období (např. roční období, měsíční prodeje). Cykličnost: Dlouhodobé nepravidelné výkyvy, které nejsou striktně periodické, ale mohou souviset s ekonomickými nebo jinými cykly. Náhodná složka: Nepravidelné, nepředvídatelné výkyvy, které nelze vysvětlit trendem, sezónností ani cykličností. Tato složka představuje vlivy, které nejsou systematické a mohou být způsobeny různými náhodnými faktory. Rozklad časové řady na tyto složky nám umožňuje lépe pochopit její strukturu a provádět analýzy, které jsou užitečné například při modelování a predikci. 149 Základy statistiky 10.2 Typy časových řad Deterministické a stochastické časové řady Definice 10.4. Časové řady můžeme rozdělit do dvou základních kategorií: Deterministické časové řady: U těchto řad je budoucí vývoj plně určen předchozími hodnotami. Neobsahují žádnou náhodnou složku a jsou často popsány jednoduchými matematickými funkcemi, například lineárním nebo exponenciálním trendem. Stochastické časové řady: Tyto řady obsahují náhodnou složku, což znamená, že jejich budoucí vývoj není zcela předvídatelný. Příkladem je fluktuace na finančních trzích, kde se vývoj ceny akcie v čase nedá přesně určit. Rozlišení mezi deterministickými a stochastickými řadami je klíčové pro výběr vhodných metod analýzy a předpovědí. Stacionární a nestacionární časové řady Definice 10.5. Další důležité dělení časových řad je na stacionární a nestacionární: Stacionární časové řady: Časová řada je stacionární, pokud její statistické vlastnosti (např. průměr a rozptyl) zůstávají v čase konstantní. To znamená, že v průběhu času nepozorujeme žádný výrazný trend ani změny v kolísání hodnot. Stacionární časové řady jsou často jednodušší na analýzu a modelování. Nestacionární časové řady: V těchto řadách dochází ke změnám v čase, například k růstu nebo poklesu průměru, změnám v rozptylu nebo výskytu sezónních výkyvů. Pro analýzu nestacionárních časových řad je obvykle nutné aplikovat metody, které tyto změny zohlední, například diferenciaci. Stacionarita je důležitý koncept, protože mnoho statistických metod předpokládá, že časová řada je stacionární. Pokud není, je třeba použít vhodné transformace, které pomohou dosáhnout stacionarity. Časové řady 150 10.3 Analýza časových řad Grafická analýza časových řad Jedním z prvních kroků při analýze časové řady je vizuální zkoumání jejích vlastností pomocí grafů. Grafická analýza časových řad nám umožňuje identifikovat základní složky časové řady, jako jsou trend, sezónnost nebo náhodné výkyvy. Definice 10.6. Mezi nejčastěji používané grafické nástroje patří: Časový graf: Zobrazuje hodnoty časové řady na vertikální ose a časové body na horizontální ose. Tento graf je ideální pro identifikaci dlouhodobých trendů a sezónních výkyvů. Sezónní diagram: Používá se k vizualizaci opakujících se sezónních vzorců. Umožňuje snadno rozpoznat, zda má časová řada pravidelné sezónní fluktuace v průběhu jednotlivých období (například různé měsíce nebo roční období). Bodový diagram (scatter plot): Může být použit ke zkoumání závislosti mezi hodnotami časové řady v různých časových intervalech. Tento graf může odhalit autokorelaci (závislost mezi hodnotami v různých časech). Grafická analýza poskytuje rychlý přehled o struktuře časové řady a je často prvním krokem před aplikací pokročilejších analytických metod. Rozklad časové řady Pro lepší pochopení struktury časové řady je často užitečné rozložit ji na jednotlivé složky: trend, sezónnost a náhodnou složku. Tento rozklad umožňuje oddělit systematické vlivy od náhodných výkyvů, což usnadňuje interpretaci a předpovědi. Definice 10.7. Rozklad časové řady lze provést pomocí několika metod, například: Additivní model: Předpokládá, že časová řada je součtem trendu, sezónnosti a náhodné složky. Tento model je vhodný, pokud amplituda sezónních výkyvů zůstává konstantní v čase. Multiplikativní model: Předpokládá, že časová řada je součinem trendu, sezónnosti a náhodné složky. Tento model je vhodný, pokud se amplituda sezónních výkyvů mění s velikostí časové řady (například větší pro vyšší hodnoty časové řady). Rozklad časové řady nám umožňuje lépe porozumět jejím jednotlivým složkám a případně predikovat budoucí hodnoty na základě trendů a sezónních vzorců. 151 Základy statistiky 10.4 Charakteristiky časových řad Charakteristiky časových řad Při analýze časových řad se používají základní charakteristiky růstu, které nám umožňují kvantifikovat změny hodnot mezi jednotlivými časovými body. Definice 10.8. Mezi hlavní charakteristiky patří: Absolutní přírůstky (diference): Rozdíl mezi hodnotami časové řady ve dvou po sobě jdoucích obdobích. Absolutní přírůstek Axt pro období t je dán vztahem: Axt = xt - xt-i, kde xt je hodnota časové řady v období t a xt-\ je hodnota v předchozím období. Koeficienty růstu: Poměr mezi hodnotou časové řady v období t a hodnotou v předchozím období t — 1. Koeficient růstu kt je dán vztahem: h xt-i Tento koeficient nám ukazuje relativní změnu hodnot mezi dvěma obdobími. Průměrné charakteristiky Pro získání obecnějšího obrazu o vývoji časové řady v delším období používáme Definice 10.9. průměrné charakteristiky: Průměrný absolutní přírůstek: Jedná se o průměr všech absolutních přírůstků časové řady a vypočítá se jako: Průměrný přírůstek = ^r~2-- n — 1 kde n je počet období. Průměrný koeficient růstu: Tento koeficient vyjadřuje průměrnou relativní změnu časové řady v průběhu několika období. Vypočítá se jako geometrický průměr koeficientů růstu: i n ^* Tyto průměrné charakteristiky poskytují přehled o celkovém trendu časové řady. Časové řady 152 Aplikace v praxi Charakteristiky růstu lze využít k analýze změn v různých oblastech, jako je produkce, prodej nebo zásoby. Například pomocí průměrného absolutního přírůstku lze sledovat, jak se postupně mění objem výroby v továrně, a průměrný koeficient růstu nám může ukázat, zda růst prodeje vykazuje stabilní tempo nebo kolísá mezi obdobími. 10.5 Řešené příklady Příklad 10.10. Mějme následující časovou řadu, která představuje počet prodaných kusů určitého produktu v obchodě za posledních 10 měsíců: (120,150,130,170,160,180,200,190,210,230) Vaším úkolem je: 1. Vykreslit časový graf této časové řady. 2. Identifikovat, zda časová řada obsahuje trend. Řešení: 1. Pro vykreslení časového grafu použijeme hodnoty z časové řady na vertikální ose a čas (v měsících) na horizontální ose. Graf ukazuje, jak se počet prodaných kusů mění v čase. 2. Z časového grafu můžeme vidět, že počet prodaných kusů má obecně rostoucí trend. Ne v každém měsíci se počet prodaných kusů zvyšuje, ale celkově je jasný pozitivní růst. Tato časová řada tedy obsahuje trend. □ 153 Základy statistiky Příklad 10.11. Určete elementární charakteristiky růstu časové řady sledující výrobu plynu v letech 1980 - 1985. rok 1980 1981 1982 1983 1984 1985 výroba (m3) 1286 1363 1393 1495 1571 1610 Řešení: Řešení: rok výroba (m3) yt absolutní přírůstky koeficienty růstu 1980 1286 1981 1363 77 1,060 1982 1393 30 1,022 1983 1495 102 1,073 1984 1571 76 1,051 1985 1610 39 1,025 Průměrný absolutní přírůstek: -x- E Ayt (í/2 - yi) + (ž/3 — ÍJ2) H-----V (yn ~ ž/n-i) Vn - yi 1610 - 1286 A =-=- =- =-= 64,8 n — 1 n — 1 n — 1 5 Průměrný koeficient růstu: V Vž/i V2 V3 Vn-i V 1286 ' □ 10.6 Softwarová analýza časových řad V předchozích dvou příkladech jsme si předvedli jen velmi základní výpočty. Časové řady 154 Pro pokročilejší analýzu časových řad lze využít různé softwarové nástroje, které nabízejí specializované funkce a metody: Excel: Excel umožňuje provádět základní analýzu časových řad, jako je vykreslování časových grafů nebo výpočet klouzavých průměrů. Pro pokročilejší analýzy je možné použít doplněk Analýza dat, který zahrnuje funkce pro regresní analýzu nebo sezónní dekompozici. R: Ve statistické softwaru R jsou k dispozici speciální balíčky, jako například f orecast nebo tseries, které poskytují nástroje pro modelování časových řad, jako jsou ARIMA modely, exponenciální vyrovnávání a testy stacionarity. R je velmi flexibilní a široce využívaný pro komplexní analýzy. Wolfram Alpha: Wolfram Alpha je interaktivní nástroj, který umožňuje provádět základní analýzu časových řad, jako je vykreslení grafů nebo výpočet trendů. Méně se hodí pro komplexní statistické modely, ale je užitečný pro rychlé vizualizace a základní výpočty. Použití konkrétního softwaru závisí na potřebách analýzy - Excel je vhodný pro jednodušší úlohy a rychlou vizualizaci, zatímco R poskytuje nástroje pro pokročilé statistické modely, a Wolfram Alpha nabízí snadno přístupnou platformu pro základní výpočty. Příklad 10.12. Ukázka grafických výstupů při analýze časové řady počtu cestujících. Data jsou součástí instalace softwaru R. Řešení: Nejprve uvedeme programový kód, který nám v R, mimo jiné, vytvoří zmíněné grafické výstupy: # Načtení datasetu AirPassengers data("AirPassengers") # Základní informace o datasetu summary(AirPassengers) plot(AirPassengers, main="Počet cestujících v letecké dopravě (1949-1960)", ylab="Počet cestujících", xlab="Rok", col="blue") # Decompose časové řady (rozklad na trend, sezónnost a náhodnou složku) decomposed <- decompose(AirPassengers) plot(decomposed, col="darkred") # Autokorelační graf acf(AirPassengers, main="Autokorelační funkce pro AirPassengers") # ARIMA model pro předpověď library(forecast) model <- auto.arima(AirPassengers) forecasted <- forecast(model, h=24) # Graf předpovědi plot(forecasted, main="Předpověď počtu cestujících na příští 2 roky", col="green") # Výstup modelu summary(model) 155 Základy statistiky Pokračujeme ukázkou grafů. Na obrázku 21 na straně 156 je znázorněna časová řada počtu cestujících. ' Na obrázku 22 na straně 156 je provedena tzv. dekompozice (rozklad) časové řady na trendovou, sezónní a náhodnou složku. Na obrázku 23 na straně 156 je ukázka předpovědi. □ V této kapitole jsme se věnovali časovým řadám, které popisují vývoj veličin v čase. Hlavní body zahrnují: Základní pojmy: Probrali jsme časovou osu, hodnoty proměnných a základní složky časové řady, jako jsou trend, sezónnost a náhodné výkyvy. 1 Typy časových řad: Rozdělili jsme časové řady na deterministické a stochastické, stacionární a nestacionární. Charakteristiky růstu: Představili jsme absolutní přírůstky, koeficienty růstu a jejich průměrné hodnoty jako nástroje pro kvantifikaci změn časové řady. Kapitola poskytuje jen velmi základní nástroje pro analýzu časových řad v různých oborech. 1. Jaké jsou základní složky časové řady? Uveďte příklady každé z nich. 2. Jaký je rozdíl mezi stacionární a nestacionární časovou řadou? 3. Jaký je význam průměrného absolutního přírůstku a průměrného koeficientu růstu v analýze časových řad? 4. V jakých situacích byste použili multiplicativní model namísto aditivního modelu pro rozklad časové řady? 5. Vysvětlete, jak lze využít Excel, R nebo Wolfram Alpha pro analýzu časových řad. Jaké jsou hlavní rozdíly mezi těmito nástroji? 6. Majitel prodejny evidoval čtvrtletně objem prodeje ovocných kompotů a jejich zásoby na počátku čtvrtletí. čtvrtletí prodej ks zásoby ks I. 560 220 II. 480 210 III. 520 215 IV. 550 200 Na konci 4. čtvrtletí bylo v zásobě 150 ovocných kompotů. Vypočtěte průměrný čtvrtletní prodej a průměrnou čtvrtletní zásobu ovocných kompotů. [527,5, 199] Časové řady 156 ' ; íl ; Obr. 21: Graf časové řady z příkladu 10.12 Obr. 22: Dekompozice časové řady z příkladu 10.12 Obr. 23: Graf předpovědi časové řady z příkladu 10.12 157 Základy statistiky 7. Časová řada následujících hodnot představuje počet prodaných kusů elektroniky v obchodě za posledních 12 měsíců: (120,130,110,150,140,160,170,165,180,175,190,185) a. Vypočtěte absolutní přírůstky pro každý měsíc. b. Vypočtěte koeficient růstu pro každý měsíc. c. Určete průměrný absolutní přírůstek a průměrný koeficient růstu. [...,...,7,27, 1,0217] Literatura k tématu: [1] HINDLS, R. Statistika pro ekonomy. 8. vyd. Praha: Professional Publishing, 2007. ISBN 978-80-869-4643-6. ISBN 978-80-867-3208-8. [2] MAREK, L. Statistika v příkladech. 2. vyd. Praha: Kamil Mařík - Professional Publishing, 2015. ISBN 978-80-743-1153-6. [3] OTIPKA, P., SMAJSTRLA, V. Pravděpodobnost a statistika [online]. 1. vydání. Ostrava: VŠB-TU Ostrava, 2007 [cit. 2024-09-09]. ISBN 80-248-1194-4. Dostupné z: https://homel.vsb.cz/~oti73/cdpastl/ [4] ZVÁRA, K. a ŠTĚPÁN, J. Pravděpodobnost a matematická statistika. Matfyzpress, 2019. ISBN 978-80-7378-388-4. Kapitola 11 Induktivní statistika Po prostudování této kapitoly budete umět: • určit bodový odhad zvolených parametrů, určit intervalový odhad (interval spolehlivosti) střední hodnoty a rozptylu při zvolené hladině spolehlivosti, použít nástroje Excelu a R pro výpočty bodových a intervalových odhadů v praktických příkladech. Klíčová slova: Bodový odhad, intervalový odhad, střední hodnota, rozptyl, Excel, R. 159 Základy statistiky Náhled kapitoly V této kapitole se budeme věnovat základním nástrojům induktivní statistiky, kterými jsou bodové a intervalové odhady. Tyto odhady umožňují na základě výběrových dat vyvodit závěry o základním souboru, což je klíčová součást statistické analýzy. Naučíme se, jak vypočítat bodový a intervalový odhad střední hodnoty (průměru) a rozptylu, a to jak teoreticky, tak i prakticky s využitím programů Excel a R. Cíle kapitoly Cílem této kapitoly je pochopit hlavní myšlenku induktivní statistiky a naučit se odhadovat parametry základního souboru pomocí bodových a intervalových odhadů. Odhad času potřebného ke studiu Studium této kapitoly by mělo zabrat přibližně 2 hodiny. Tento čas zahrnuje prostudování teorie, porozumění odhadovým metodám a zvládnutí praktických výpočtů v Excelu a R. Úvod Zopakujme si, že statistika je obor, který se zabývá sběrem, analýzou a interpretací hromadných pozorování a výsledků opakovaných pokusů. Je rozdělena na dva hlavní typy: Deskriptívni (popisná) statistika: Zaměřuje se na uspořádání datových souborů, jejich popis a účelnou sumarizaci. Induktivní statistika: Pomocí empirických poznatků umožňuje vytvářet vědecky odůvodněné obecné závěry. Tento přístup je založen na teorii pravděpodobnosti. Stejně jako statistika, i lidské myšlení lze rozdělit na různé typy podle způsobu uvažování. Mezi nejvýznamnější typy patří: Deduktivní myšlení Deduktivní myšlení je proces, při kterém vyvozujeme závěry z obecných zákonitostí nebo pravidel. Z obecných principů vytváříme specifické závěry, které se uplatňují v jednotlivých případech. Deduktivní myšlení zajišťuje přesné a logické usuzování. Příklad: Všichni lidé jsou smrtelní. Sokrates je člověk. Tudíž Sokrates je smrtelný. Induktivní statistika 160 Induktivní myšlení Induktivní myšlení vychází z konkrétních pozorování jednotlivých případů a zobecňuje je do obecných závěrů. Na rozdíl od dedukce, indukce často pracuje s nejistotou, protože závěry jsou ovlivněny subjektivními postoji a mají omezenou platnost. Příklad: Každé ráno, kdy jsem pozoroval východ slunce, slunce skutečně vyšlo. Proto mohu induktivně usoudit, že slunce vyjde i zítra ráno. Další typy myšlení Abduktivní myšlení: Vyvozování nejpravděpodobnějšího vysvětlení na základě dostupných informací. Často se používá při řešení neúplných problémů, kde se snažíme najít nej lepší hypotézu. Příklad: „Zem je mokrá, pravděpodobně pršelo." Kreativní myšlení: Schopnost generovat nové a originální nápady nebo řešení. Zaměřuje se na netradiční přístupy k řešení problémů. Příklad: „Namísto tradičního reklamačního procesu navrhneme zcela nový způsob zákaznického servisu pomocí umělé inteligence." Kritické myšlení: Proces systematického hodnocení a zkoumání informací, argumentů a důkazů. Cílem je dospět ke správným závěrům založeným na logice a důkazech. Příklad: „Tento článek tvrdí, že určité potraviny jsou škodlivé, ale podívejme se na důkazy a ověřme, zda to podporují i jiné studie." Statistická indukce je proces, při kterém pomocí statistických metod dokážeme vytvářet obecné závěry z dostupných dat. Jejich spolehlivost lze kvantifikovat pomocí pravděpodobnosti. Základem statistické indukce je práce s výběrem a základním souborem. Základní soubor (populace) Základní soubor, někdy označován jako populace, je množina všech prvků, které jsou předmětem zkoumání. Tento soubor může být: Konečný: Např. počet obyvatel v určité zemi. Nekonečný: Hypotetický soubor, který je ideální a v realitě neexistuje. Prvky základního souboru mají různé vlastnosti, nazývané znaky. Tyto znaky dělíme na: 161 Základy statistiky Kvalitativní: Nominálni: Vlastnosti, které lze pouze pojmenovat (např. barva očí). Ordinální: Vlastnosti, které lze uspořádat (např. spokojenost zákazníků na škále 1 až 5). Kvantitativní: Diskrétní: Hodnoty mohou nabývat pouze určitých hodnot (např. počet dětí v rodině). Spojité: Hodnoty mohou nabývat jakékoliv hodnoty v daném intervalu (např. výška člověka). Výběr Výběr je část základního souboru, kterou zkoumáme a na základě které usuzujeme na celou populaci. Aby byl výběr reprezentativní, musí odpovídat vlastnostem celého základního souboru. Pokud není výběr reprezentativní, jedná se o selektivní výběr. Metody výběru: Náhodný výběr: Prvky vybíráme náhodně, například losováním nebo pomocí tabulek náhodných čísel. Mechanický (systematický) výběr: Prvky vybíráme podle pevně stanoveného pravidla (např. každý třetí prvek). Oblastní (stratifikovaný) výběr: Základní soubor je rozdělen na homogenní oblasti, ze kterých jsou prvky vybírány náhodně. Skupinový výběr: Používá se pro velké populace, kdy vybíráme celé skupiny prvků (např. domácnosti nebo rodiny). Vícestupňový výběr: Prvky jsou vybírány postupně z různých úrovní hierarchie (např. město - domácnost - osoba). ni Odhady v induktivní statistice V oblasti induktivní statistiky se nejčastěji zaměřujeme na odhadování parametrů základního souboru na základě výběrových dat. Mezi hlavní parametry, které odhadujeme, patří: Induktivní statistika 162 ' Průměr (střední hodnota): Odhadujeme střední hodnotu populace na základě průměru ve výběru. • Rozptyl: Odhadujeme rozptyl populace na základě výběrového rozptylu. ' Proporce: Odhady podílů určité charakteristiky v populaci (např. podíl lidí s určitým názorem). Zde se konkrétně zaměříme na bodový a intervalový odhad průměru (střední hodnoty) a rozptylu. 11.1.1 Bodový a intervalový odhad průměru (střední hodnoty) Bodový odhad průměru Definice 11.1. Bodový odhad průměru vyjadřuje nejlepší odhad skutečné střední hodnoty populace na základě výběrového průměru. Bodový odhad střední hodnoty fi se vypočítá jako: 1 n kde Xi jsou jednotlivé hodnoty z výběru a n je počet pozorování. Praktický výpočet v Excelu: V Excelu můžete bodový odhad průměru vypočítat pomocí funkce PRŮMĚR: =PRŮMĚR(A1:A10), kde rozsah buněk A1:A10 obsahuje hodnoty výběru. Praktický výpočet v R: V R můžete bodový odhad průměru spočítat funkcí mean(): mean(data), kde data je vektor obsahující hodnoty výběru. 163 Základy statistiky Intervalový odhad průměru Definice 11.2. Intervalový odhad poskytuje rozsah hodnot, ve kterém se s určitou pravděpodobností nachází skutečný průměr populace. Intervalový odhad pro střední hodnotu fi s danou hladinou spolehlivosti 1 — a se vypočítá jako: kde Ui_a/2 je kvantil normálního rozdělení pro zvolenou hladinu spolehlivosti, a je směrodatná odchylka populace (případně odhad ze vzorku) a n je velikost výběru. Praktický výpočet v Excelu: Intervalový odhad průměru lze v Excelu vypočítat pomocí následujícího postupu: 1. Výpočet průměru: =PRŮMĚR(A1: A10) 2. Výpočet směrodatné odchylky: =SM0DCH. VÝBĚR. S (AI: A10) 3. Výpočet velikosti výběru: =P0ČET(A1:A10) 4. K výpočtu kvantilu normálního rozdělení použijeme funkci NORM. INV nebo NORM. S. INV, např. pro hladinu spolehlivosti 95%: =N0RM. S. INV(0,975) 5. Intervalový odhad pak získáme jako průměr ± iti_a/2 ' 7^- Praktický výpočet v R: V R můžeme intervalový odhad průměru vypočítat pomocí kombinace funkcí: mean(data) + c(-l, 1) * qnorm(0.975) * sd(data)/sqrt(length(data)) Induktivní statistika 164 11.1.2 Bodový a intervalový odhad rozptylu Bodový odhad rozptylu Definice 11.3. Bodový odhad rozptylu vyjadřuje nejlepší odhad skutečného rozptylu populace na základě výběrového rozptylu. Bodový odhad rozptylu o2 se vypočítá jako: 1 n z2 = —- A)2, i=i kde (1 je průměr výběru a Xi jsou jednotlivé hodnoty z výběru. Praktický výpočet v Excelu: V Excelu můžete bodový odhad rozptylu vypočítat pomocí funkce VAR.S: =VAR.S(A1:A10) Praktický výpočet v R: V R můžete bodový odhad rozptylu vypočítat funkcí var(): var(data) Intervalový odhad rozptylu Definice 11.4. Intervalový odhad rozptylu lze vypočítat s využitím x2 rozdělení, které se používá pro odhady rozptylu. Intervalový odhad rozptylu s hladinou spolehlivosti 1 — a se vypočítá jako: /(n-l)-a2 (n-l)-a2\ \ Xl-a/2,n-l Xa/2,n-l 1 kde Xa/2n-i Je kvantil \2 rozdělení. 165 Základy statistiky Praktický výpočet v Excelu: Intervalový odhad rozptylu můžete vypočítat pomocí následujících kroků: 1. Výpočet rozptylu: =VAR.S(A1 :A10) 2. Výpočet velikosti výběru: =P0ČET(A1:A10) 3. K výpočtu kvantilu %2 rozdělení použijte funkci CHISQ. INV, např.: =CHISQ. INV(0,975; n-1) 4. Intervalový odhad rozptylu pak získáme dosazením o vzorce pro interval. Praktický výpočet v R: V R můžeme intervalový odhad rozptylu vypočítat pomocí následujícího kódu: n <- length(data) var(data) * (n-1) / qchisq(c(0.975, 0.025), n-1) Tento výpočet nám poskytne dolní a horní hranici intervalového odhadu rozptylu. ii2 Řešené příklady Příklad 11.5. Při měření průměru vačkového hřídele na 250 součástkách bylo zjištěno, že výběrový průměr činí xp = 995,6 a výběrová disperze s2 = 134,7. Předpokládáme, že soubor má normální rozdělení. Určete interval spolehlivosti pro střední hodnotu základního souboru při hladině významnosti a = 0,05. Řešení: Pro odhad střední hodnoty základního souboru fi na základě výběrových dat se používá interval spolehlivosti ve tvaru: (xp - A; xp + A) , kde xp je výběrový průměr, A je tzv. mezní chyba odhadu a určuje se podle vztahu: V tomto výrazu: • s je směrodatná odchylka výběru, ' n je počet pozorování (v našem případě n = 250), Induktivní statistika 166 iíi-s je kritická hodnota normálního rozdělení odpovídající zvolené hladině významnosti a. Pro hladinu významnosti a = 0,05 je hodnota = NORM.S.INV(0,975) « 1,96. Nyní vypočítáme mezní chybu odhadu A: A = v ,_- • 1,96 « 1,441558. Intervalový odhad střední hodnoty fi je tedy: (xp - A; xp + A) = (995,6 - 1,441558; 995,6 + 1,441558) = (994,1584; 997,0416). Z toho plyne, že s 95 % spolehlivostí lze tvrdit, že skutečná střední hodnota průměru vačkového hřídele leží v intervalu (994,1584; 997,0416). □ Příklad 11.6. Určete oboustranný konfidenční interval rozptylu normálně rozloženého základního souboru pro hladiny spolehlivosti 0,90, 0,95 a 0,99, když u výběru s rozsahem n = 12 byl zjištěn rozptyl s2 = 0,64. Posuďte získané výsledky. Řešení: Pro výpočet konfidenčního intervalu pro rozptyl a2 normálně rozloženého základního souboru použijeme vztah: 2 2 n■s 0 n-s < a2 < Xi-a(ro-l) x|(n-l)' kde • n = 12 je rozsah výběru, • s2 = 0,64 je výběrový rozptyl, X^_a{n — 1) a xl(n — 1) jsou kritické hodnoty Pearsonova rozdělení s n — 1 = 11 stupni volnosti. 1. Případ: Hladina spolehlivosti 0,90 Pro hladinu spolehlivosti 1 — a = 0,90 je a = 0,10. Kritické hodnoty jsou: XJj,o5(ll) = CHIINV(0,05; 11) « 19,675, Xo 95(H) = CHIINV(0,95; 11) « 4,575. Dosazením do vztahu: 12-0,64 0 12-0,64 • 2.059 Variance of {data} - vypočítá rozptyl datové sady. Variance of {3, 5, 2, 7, 6, 8, 4, 7, 9, 5} ->• 4.24 Correlation between {datal} and {data2} vypočítá korelační koeficient mezi dvěma sadami dat. Correlation between {3, 5, 2} and {7, 8, 4} ->• 0.866 Po zadání do vyhledávače Wolfram Alpha systém automaticky provede výpočet. Výsledky jsou doplněny o další související informace, jako jsou grafy nebo dodatečné statistické hodnoty. Ilustrativní příklady Příklad 12.2 (Regresní analýza ve Wolfram Alpha). Zadejte linear regression of {(1,2), (2,3), (3,5)}. Řešení: Po zadání Wolfram Alpha vypočítá regresní přímku ve tvaru y = ax + b, kde a je směrnice a b průsečík. Výstup: y = 1.5x + 0.5 Wolfram Alpha rovněž poskytne graf a hodnotu koeficientu determinace (R2), což je užitečné pro hodnocení kvality modelu. □ Příklad 12.3. Vyzkoušejte ve Wolfram Alpha následující příkazy a prozkoumejte jejich výstupy: {10, 12, 8, 14, 11, 9, 15, 13} . five number summary {20, 25, 18, 30, 22, 19, 28, 30, 24} . variance {20, 25, 18, 30, 22, 19, 28, 30, 24} . median {20, 25, 18, 30, 22, 19, 28, 30, 24} • poisson distribution normal distribution, mean=0, sd=2 175 Základy statistiky Student t, 17 degrees of freedom Wolfram Alpha nám poskytuje okamžité výsledky, které lze použít pro další analýzu nebo kontrolu správnosti našich výpočtů. V následující sekci se podíváme na informativní přehled o využití softwaru R. R je volně dostupný programovací jazyk zaměřený na statistické výpočty a datovou analýzu. I když jeho využití není v tomto kurzu klíčové, stojí za to jej zmínit jako výkonný nástroj pro složitější úlohy, které mohou být mimo možnosti Excelu nebo Wolfram Alpha. V této části si ukážeme několik základních funkcí v R, které se používají pro statistické úlohy, a to spíše informativně, bez nutnosti provádět výpočty během výuky. R nabízí širokou škálu funkcí, které jsou velmi užitečné při řešení statistických úloh. Zde je přehled některých základních příkazů: mean() - vypočítá průměr zadaných dat. 12.2.3 Použití R pro statistické úlohy Základní příkazy v R pro statistické výpočty mean(c(3, 5, 2, 7, 6, 8, 4, 7, 9, 5)) ->• 5,6. sd() vypočítá výběrovou směrodatnou odchylku zadaných dat. sd(c(3, 5, 2, 7, 6, 8, 4, 7, 9, 5)) 2,22. var () vypočítá výběrový rozptyl zadaných dat. var(c(3, 5, 2, 7, 6, 8, 4, 7, 9, 5)) 4,93. cor () vypočítá korelační koeficient mezi dvěma sadami dat. cor(c(3, 5, 2), c(7, 8, 4)) 0,891. lm() provádí lineární regresi. lm(y ~x, data = dataframe) Tato funkce provede lineární regresní analýzu mezi proměnnými x a y v datovém rámci dataframe. Využití softwaru při řešení statistických úloh 176 Výhody a nevýhody R Výhody: • R je zdarma a otevřený software, který je snadno dostupný. ' Nabízí širokou škálu funkcí a knihoven pro různé statistické metody, od jednoduchých výpočtů po složité modelování. Je vhodný pro analýzu velkých datových sad, které by byly v Excelu obtížně zpracovatelné. ' Možnost vytvářet pokročilé vizualizace a grafy přímo z dat (pomocí programovéh kódu). Nevýhody: ' R vyžaduje určitou znalost programování, což může být pro začínající studenty obtížné. Ovšem tuto nevýhodu lze do značné míry potlačit s asistencí AI. Pro mnoho uživatelů je Excel jednodušší a intuitivnější, zejména pro menší a jednodušší úlohy. Ilustrativní příklad Příklad 12.4. Zvažte následující data o cenách produktů v obchodech: {10, 12, 8, 14, 11, 9, 15, 13}. Pomocí R vypočítejte průměr, směrodatnou odchylku a rozptyl. Napište příkazy a uveďte, co každý z nich dělá. Řešení: • Průměr: mean(c(10, 12, 8, 14, 11, 9, 15, 13)) =11,5. Směrodatná odchylka (výběrová): sd(c(10, 12, 8, 14, 11, 9, 15, 13)) = 2,44. . Rozptyl (výběrový): var(c( 10, 12, 8, 14, 11, 9, 15, 13)) =6. □ 12.3 Analýza dat z externích zdrojů V této sekci se zaměříme na příklady rozsáhlejších statistických úloh, které zahrnují stahování dat z internetu, jejich zpracování v Excelu, grafické znázornění a následné výpočty popisných statistik a korelace. Zaměříme se na reálná data z ČNB (kurzy měn) a akciových trhů. Kde hledat statistická data na internetu? Existuje mnoho dostupných zdrojů, ze kterých lze stahovat reálná statistická data. Klasicky ve formě souborů, například ve formátu csv, nebo přímým napojením. Mezi ty české patří například Český statistický úřad (czso.cz) a ČNB (cnb.cz). Z těch zahraničních například Eu-rostat (ec.europa.eu/eurostat) a Světová banka (data.worldbank.org), případně Yahoo Finance (finance.yahoo.com) a Google Finance (google.com/finance). 177 Základy statistiky Načítání dat z vnějších zdrojů do Excel u V Excelu existuje několik možností, jak načítat a transformovat data z různých externích zdrojů. Tyto možnosti umožňují zpracovávat data nejen ze souborů na lokálním disku, ale také z online zdrojů s aktuálními informacemi. Mezi základní možnosti patří (viz obrázek 25: Soubor Domů Vložení Rozložení stránky Vzorce Data F s a a h i a a i Načíst Z Text/ Z Z tabulky Z obrázku Poslední Existující i data v CSV webu nebo oblasti v zdroje připojení Načíst a transformovat data Obr. 25: Excel: Skupina Načíst a transformovat data na kartě Data Načítání z Text/CSV Pomocí této funkce lze načíst data z textových souborů (.txt) nebo souborů CSV (.csv). Jedná se o jednoduchý způsob, jak dostat strukturovaná data do Excelu. Načítání z webu Tato možnost umožňuje přímé načtení dat z webové stránky. Excel si z webu stáhne tabulková data a umožní je dále zpracovávat. To je zvláště užitečné pro načítání kurzů měn, cen akcií nebo jiných finančních dat, která se pravidelně aktualizují. Načítání z tabulky nebo oblasti Tento nástroj umožňuje načítat data přímo z jiných tabulek v Excelu nebo z definovaných oblastí buněk. Hodí se při práci s velkými datovými sadami rozdělenými do více souborů. Načítání z obrázku Excel dokáže načítat data přímo z obrázků, což je užitečné pro digitalizaci dat v tištěných tabulkách nebo grafech. Stačí nahrát obrázek a Excel rozpozná strukturu dat. Načítání z webových API a online zdrojů Excel umožňuje načítání dat z online zdrojů pomocí webových API. Tato funkce je klíčová pro práci s aktuálními daty, například z finančních trhů, online databází nebo jiných služeb poskytujících aktualizované informace. Pomocí rozhraní API lze získat přístup k datům, která se pravidelně aktualizují, což je ideální pro tvorbu reportů nebo analýz založených na živých datech. Poslední zdroje V této části Excelu je možné rychle znovu načíst data z posledních použitých zdrojů. To usnadňuje opakované aktualizace dat z těchto zdrojů. Existující připojení Tato funkce umožňuje správu a opětovné využití dříve nastavených připojení k datovým zdrojům, jako jsou databáze, webové služby nebo další Excelové soubory. Využití softwaru při řešení statistických úloh 178 Načítání dat z online zdrojů je pro analýzy v Excelu zásadní, zejména pokud pracujeme s dynamickými daty, která se často mění. Pomocí těchto nástrojů je možné zajistit, že naše tabulky budou obsahovat aktuální a relevantní informace pro daný účel. Ilustrativní příklad Příklad 12.5 (Načtení a analýza tabulky kurzů měn z ČNB). 1. Na stránkách ČNB najděte údaje „Kurzy devizového trhu - roční historie" a vyberte rok 2024 (obrázek 26)1 . Kurzy devizového trhu - roční historie Pošta - Fišer liri - O... Q IS ImIVSO § SAS* Logon Mař trliy/devizovy-:rl"/kLiTy-o-=viic-l/eh o-lrhL/íurzy-is^-ovshiO-t-iu/ic-k tvr?ľok=2024H :'. Course: SAS Aoade. KK|l EUR 11 GBP|l HKD|199 HUF! I 24_.6S5| |24,675 I24,650 24,Ě3^J 24^480 Í4,i53í> 124,560 124,655 Obr. 26: ČNB: Kurzy devizového trhu - roční historie - zadání roku 2024 2. Zkopírujte odkaz a použijte jej v Excelu Z webu (obrázek 27). -> Data -> (Načíst a transformovat data) Z webu S Základni O Upřesnění Adresa URL_ yviz ovy-tih/kiJ rzy-d eviz ov eh o -trhu /burzy-deviz ove ho- tr h u/rok, ttt? r ck - 202í| OK Ziusit 15,278 15,201 15,137 15,059 14,951 15,052 15,037 15,061 12,621 12,616 12,602 12,578 12,517 12,578 12,558 12,606 4,609 16,938 26,524 4.584 16,932 26,473 4.585 16,88 26,455 4,583 16,853 26,399 4,57 16,712 26,31 4,595 16,829 26,419 4,589 16,762 26,317 4,599 16,801 26,4 Obr. 27: Načtení dat z ČNB do Excelu pomocí volby Data -> Z webu 3. Pomocí volby Analýza dat -> Popisná statistika vypočtěte popisné statistiky pro všechny měny (na zvláštní list). 4. Pomocí volby Analýza dat -> Korelace vypočtěte korelační koeficienty pro všechny dvojice měn (na zvláštní list). 5. Pomocí podmíněného formátování korelační koeficienty obarvěte podle velikosti. Zvlášť zvýrazněte hodnoty větší než 0,9. (obrázek 28). 6. Jak si vysvětlujete tak vysokou pozitivní lineární korelaci? 7. Vyberte jednu dvojici z předchozího bodu a vytvořte pro ni bodový graf. 1AUD - Australský dolar, BGN - Bulharské leva, BRL - Brazilský real, CAD - Kanadský dolar, CHF -Švýcarský frank, CNY - Čínský júan, DKK - Dánská koruna, EUR - Euro, GBP - Britská libra, HKD -Hongkongský dolar, HUF - Maďarský forint (kurz za 100 jednotek), IDR - Indonéská rupie (kurz za 1000 jednotek), ILS - Izraelský nový šekel, INR - Indická rupie (kurz za 100 jednotek), ISK - Islandská koruna (kurz za 100 jednotek), JPY - Japonský jen (kurz za 100 jednotek), KRW - Jihokorejský won (kurz za 100 jednotek), MXN - Mexické peso, MYR - Malajsijský ringgit, NOK - Norská koruna, NZD - Novozélandský dolar, PHP -Filipínské peso (kurz za 100 jednotek), PLN - Polský zlotý, RON - Rumunský lei, SEK - Švédská koruna, SGD - Singapurský dolar, THB - Thajský baht (kurz za 100 jednotek), TRY - Turecká lira (kurz za 100 jednotek), USD - Americký dolar, XDR - Speciální práva čerpání (měna používaná MMF), ZAR - Jihoafrický rand. 179 Základy statistiky Á A B C D E F 1 1AUD 1BGN 1BRL 1CAD 1CHF 1 2 1AUD 1 3 1BGN 0,56662 1 4 1BRL -0,26862 -0,03034 1 5 1CAD 0,27497 0,54962 0,70436 1 6 1CHF 0,1362 0,47057 -0,2287 0,11274 1 7 1CNY 0,489 0,83009 0,20362 0,71783 0,42913 8 1 DKK 0,56791 0,99647 -0,00012 0,57281 0,46649 1 9 1EUR 0,57007 0,99703 -0,02245 0,55534 0,4615 10 1GBP 0,74454 0,80486 -0,45514 0,15803 0,49149 11 1HKD 0,45092 0,67855 0,30423 0,7807 0,02264 Obr. 28: Podmíněné formát tabulky korelačních koeficientů 12.3.1 Excelovské nástroje pro analýzu akcií Využití datového typu Akcie v Excelu Datový typ Akcie umožňuje získávat aktuální finanční údaje o veřejně obchodovaných společnostech. Pro jeho použití stačí zadat název společnosti nebo její ticker (např. "AAPĽ'pro Apple) do buňky, následně zvolit z karty Data možnost Akcie. Excel poté poskytne aktuální údaje jako cena, tržní kapitalizace, P/E ratio atd., ale i samotný ticker. Tyto údaje se automaticky aktualizují (minimálně při každém otevření souboru). Získaný ticker lze následně využít ve funkci STOCKHISTORY pro načtení historických dat obchodování dané akcie. Použití funkce STOCKHISTORY Syntaxe je následující: =ST0CKHIST0RY("ticker"; "start_date"; "end_date"; [interval]; [headers]; [propertyO]; [propertyl]; . . .) Příklad použití pro načtení denních uzavíracích cen akcií Microsoftu za září 2024: =ST0CKHIST0RY("MSFT"; "2024-09-01"; "2024-09-30"; 0; 1; 0; 5) Tento vzorec vrátí tabulku obsahující data a uzavírací ceny pro každý obchodní den v uvedeném období. Funkce STOCKHISTORY je vhodná pro analýzu historických finančních dat a sledování časových řad. Ilustrativní příklady Příklad 12.6 (Analýza uzavíracích cen akcií firem NVIDIA a Intel). Pomocí datového typu Akcie zjistěte tickery firem NVIDIA a Intel. Využití softwaru při řešení statistických úloh 180 Pomocí funkce ST0CKHIST0RY načtěte uzavírací denní ceny jejich akcií v období od 1. srpna 2024 do 30. září 2024. Tyto dvě časové řady graficky znázorněte, vypočtěte pro ně základní popisné statistiky a proveďte jejich korelační analýzu. Řešení: 1. Tickery Nejprve získáme tickery společností NVIDIA a Intel pomocí datového typu Akcie: • Do buněk vložíme názvy společností (NVIDIA, Intel). Označíme buňky s názvy a na kartě Data zvolíme možnost Akcie. Excel automaticky přiřadí k názvům společností jejich tickery. . NVIDIA má ticker NVDA, Intel INTC. 2. Zisk historických uzavíracích cen Pro získání denních uzavíracích cen akcií obou společností v období od 1. srpna 2024 do 30. září 2024 použijeme následující funkce: =ST0CKHIST0RY("NVDA"; "2024-08-01"; "2024-09-30"; 0; 1; 0; 1) =ST0CKHIST0RY("INTC"; "2024-08-01"; "2024-09-30"; 0; 1; 0; 1) Experimujte s tímto zápisem tak, abyste získali tabulku o třech sloupcích: datum, ceny NVIDIA, ceny Intel. Tato funkce načte uzavírací ceny pro každý obchodní den v uvedeném období. Získané datové řady budou použity pro další analýzu. 3. Grafické znázornění časových řad Po získání uzavíracích cen vytvoříme spojnicový graf, který vizuálně znázorní vývoj uzavíracích cen akcií NVIDIA a Intel: Označíme sloupce s daty (datum, uzavírací ceny NVIDIA a Intel). • Na kartě Vložení zvolíme typ grafu Spojnicový graf. ' Excel vygeneruje graf, který zobrazí vývoj cen akcií obou společností v průběhu sledovaného období. 4. Korelační analýza Pro určení míry lineární závislosti mezi cenami akcií NVIDIA a Intel použijeme funkci CORREL. Vzorec pro výpočet korelačního koeficientu mezi dvěma časovými řadami uzavíracích cen je následující: =C0RREL(B2:B45, C2:C45)\approx 0{,}249. 181 Základy statistiky Funkce vrátila korelační koeficient o hodnotě 0,249, který popisujeme jako slabou pozitivní korelaci. Mějme ale na paměti, že korelační koeficient popisuje jen lineární závislost, a tak je vždy užitečné si celkový obraz doplnit obrázkem. V tomto případě je bodový graf na obrázku 29. Můžeme na něm zaznamenat jednu odlehlou hodnotu (v takovém případě bychom měli prověřit, zda nejde o chybnou hodnotu, resp. zjistit, jak mohla nastat). Na obrázku je znatelný drobný nárůst vertikálních hodnot (souřadnic) při růstu horizontálních hodnot. Uvědomme si také, že v tomto typu grafu není zachycena časová složka dat. $29,00 $27,00 $26,00 $23,00 $21,00 $ 19,00 $ 17,00 $9. • • • • • • • • • •• • • • • ■ a • • • • • • • • • • • • • • .00 $100,00 $105.00 $110,00 $115,00 $120.00 $125,00 $130,00 Obr. 29: Bodový graf cen akcií NVIDIA (horizontální osa) a Intel (vertikální osa) z příkladu 12.6 □ Příklad 12.7 (Analýza maximálního rozdílu mezi maximálními a minimálními denními cenami). Zvolte si tři firmy. Získejte jejich tickery a maximální a minimální denní ceny za jedno roční období, končící na konci předminulého měsíce (vzhledem ke dni, kdy příklad počítáte). Následně pro každou akcii vypočtěte denní rozdíly mezi maximální a minimální cenou. Poté najděte pro každou firmu nejvyšší hodnotu těchto denních rozdílů (tzv. maximální denní rozpětí) a tyto tři hodnoty porovnejte. Protože ceny akcií mohou být velmi rozdílné, je nutné výsledky porovnávat relativně. Nejprve pro každou akcii spočítejte tzv. průměrnou denní cenu jako průměr maximální a minimální ceny pro každý den. Z těchto průměrů vypočtěte jejich průměrnou hodnotu za celé období. Nakonec relativně porovnejte maximální denní rozpětí s touto průměrnou cenou (v procentech). Toto procentuální vyjádření vám umožní porovnat, která akcie vykazuje největší cenové výkyvy vzhledem ke své průměrné ceně. 12.3.2 Načítání externích statistických dat v R Ač Exel lze dobře použít pro import aktuálních finančních a dalších statistických dat, tak ten, kdo ovládá práci v R má situaci mnohem pohodlnější. Využití softwaru při řešení statistických úloh 182 R nabízí několik balíčků, které usnadňují přímé načítání aktuálních statistických a finančních dat z externích zdrojů. Mezi nej používanější patří ' quantmod, který umožňuje získávat data o cenách akcií, měnových kurzech a dalších finančních údajích z Yahoo Finance a FRED. ' Balíček wbstats poskytuje přístup k datům Světové banky, včetně ukazatelů inflace, HDP a dalších makroekonomických dat. ' Pro evropská data lze použít balíček eurostat, který umožňuje stahovat data o ekonomických a sociálních ukazatelích v rámci členských států EU. ' Kromě toho balíček f redr poskytuje přístup k bohaté databázi ekonomických ukazatelů FRED. Tyto nástroje v R umožňují rychlé a efektivní načítání aktuálních dat pro další analýzu. Samozřejmě, samostatná data nestačí, je třeba nejprve nastudovat jejich strukturu, označení a význam. O V této kapitole jsme se věnovali statistické analýze z pohledu použitého softwaru, přirozeně s největším důrazem na MS Excel, ale prošli jsme i možnosti Wolfram Alpha a R. Zaměřili jsme se na výpočty základních statistik, korelační analýzu a tvorbu grafických výstupů. Ukázali jsme také, jakým způsobem lze data načítat do Excelu z externích zdrojů a jak je následně zpracovat. Wolfram Alpha byl představen jako jednoduchý nástroj pro rychlé výpočty pravděpodobností a dalších základních statistických úloh, kdy není třeba složitého programování. R bylo popsáno jako pokročilý nástroj pro statistickou analýzu, který je vhodný pro práci s rozsáhlými datovými soubory, jejich vizualizaci a modelování, a umožňuje přímé načítání externích dat z různých statistických zdrojů, jako jsou například Světová banka nebo Eurostat. 1. Jaké zdroje lze využít pro stahování statistických dat z internetu? 2. Jaké jsou základní kroky pro načtení externích dat do Excelu? 3. Popište postup pro vytvoření grafu časových řad v Excelu. 4. Jaké funkce v Excelu použijete pro výpočet průměru, mediánu a směrodatné odchylky? 5. Co je Pearsonův korelační koeficient a jak se v Excelu vypočítá? 6. Kdy je vhodné použít Wolfram Alpha pro statistické výpočty? Uveďte příklady. 7. Jakým způsobem lze analyzovat a znázornit data z akciových trhů? 183 Základy statistiky 8. Stáhněte data o inflaci z webu Českého statistického úřadu (https://www.czso. cz) za posledních 10 let. Načtěte tato data do Excelu, analyzujte je pomocí grafu časové řady a vypočítejte základní statistiky (průměr, medián, směrodatná odchylka, minimum, maximum). 9. Získejte data o cenách akcií tří ropných společností za tři roky (začátek a konec si zvolte sami) pomocí funkce STOCKHISTORY. Vypočtěte jejich popisné statistiky. Vytvořte graf s těmito třemi časovými řadami. Proveďte jejich korelační analýzu včetně bodových grafů. Komentujte výsledky (největší podobnosti a rozdíly). ©Literatura k tématu: [1] PRAŽSKÁ BURZA CENNÝCH PAPÍRŮ. Dostupné z: https://www.pse.cz/. [2] YAHOO FINANCE. Dostupné z: https://finance.yahoo.com/. [3] MICROSOFT EXCEL. Podpora pro statistické funkce. Dostupné z: https: //support. microsoft.com/excel. [4] WOLFRAM ALPHA. Online nástroj pro výpočty. Dostupné z: https: //www. wolf ramalpha. com/. [5] R CORE TEAM. (2023). R: A Language and Environment for Statistical Computing. R Foundation for Statistical Computing, Vienna, Austria. Dostupné z: https: // cran.r-project.org/manuals.html. [6] ČESKÁ NÁRODNÍ BANKA (ČNB) - Data. Česká národní banka. (2023). Data a statistiky. Dostupné z: https://www.cnb.cz/cs/statistika/. [7] EUROSTAT. Statistiky Evropské unie. Dostupné z: https : //ec. europa. eu/eurostat. [8] SVĚTOVÁ BANKA. (2023). Data Světové banky. Dostupné z: https: //data.worldbank. org/. [9] ČESKÝ STATISTICKÝ ÚŘAD (ČSÚ). Data a statistiky České republiky. Dostupné z: https : //www. czso . cz/. Seznam literatury a použitých zdrojů [1] ANDĚL, J. Statistické metody. 5. vyd. Praha: Matfyzpress, 2019. ISBN 978-80-7378-381-5. [2] CALDA, E., DUPAC, V. (2008). Matematika pro gymnázia: Kombinatorika, pravděpodobnost, statistika (5. vydání, dotisk 2011). Praha: Prometheus. ISBN 978-80-7196-365-3. [3] HANSEN, B. Probability and Statistics for Economists. Princeton University Press, 2022. ISBN 9780691236148. [4] HENDL, J. Základy matematiky, logiky a statistiky pro sociologii a ostatní společenské vědy v příkladech. 3. vyd., Karolinum, 20232. ISBN 978-80-246-5400-3. [5] HINDLS, R. Statistika pro ekonomy. 8. vyd. Praha: Professional Publishing, 2007. ISBN 978-80-869-4643-6. [6] HONG, Y. Probability and Statistics for Economists. World Scientific, 2017. ISBN 9789813228818. [7] JANÁČEK, J. Statistika jednoduše. Grada, 2022. ISBN 978-80-271-1738-3. [8] KELLER, G. Statistics for Management and Economics. 12th ed., Cengage Learning, 2022. ISBN 9780357714393. [9] MAREK, L. Statistika v příkladech. 2. vyd. Praha: Kamil Mařík - Professional Publishing, 2015. ISBN 978-80-743-1153-6. [10] NEUBAUER, J. a SEDLAČÍK, M. Základy statistiky: Aplikace v technických a ekonomických oborech - 3., rozšířené vydání. Grada, 2021. ISBN 978-80-271-3421-2. [11] OPENAI. Asistovaná příprava studijní opory pomocí ChatGPT. OpenAI. Dostupné na https://chat.openai.com, 2024. [12] OTIPKA, P., SMAJSTRLA, V. Pravděpodobnost a statistika [online]. 1. vydání. Ostrava: VŠB-TU Ostrava, 2007 [cit. 2024-09-09]. ISBN 80-248-1194-4. [13] ŘEZANKOVÁ, H. a kol. Úvod do statistiky. 2. dotisk 1. vyd., Oeconomica, nakladatelství VŠE, 2019. ISBN 9788024523019. [14] ZVÁRA, K. a ŠTĚPÁN, J. Pravděpodobnost a matematická statistika. Matfyzpress, 2019. ISBN 978-80-7378-388-4. 184 Seznam obrázků 1 Pravděpodobnostní a distribuční funkce k příkladu 3.6 .............. 53 2 Výpočet pravděpodobností na nekonečném intervalu................ 56 3 Výpočet pravděpodobností na konečném intervalu................. 56 4 Znázornění hustoty a p-kvantilu xp pro spojité rozdělení pravděpodobnosti (viz definici 3.22)...................................... 63 5 Pravděpodobnostní a distribuční funkce binomického rozdělení pro n = 10 a p = 0,5......................................... 69 6 Pravděpodobnostní a distribuční funkce hypergeometrického rozdělení pro N = 50, M = 20 a n = 10................................. 70 7 Pravděpodobnostní a distribuční funkce Poissonova rozdělení pro A = 3..... 71 8 Jeden z hrdých otců normálního rozdělení (vytvořeno pomocí ChatGPT, openAI) 78 9 Grafy hustot a distribučních funkcí normálního rozdělení s různými rozptyly . . 78 10 Grafy hustot a distribučních funkcí normálního rozdělení s různými středními hodnotami....................................... 79 11 Grafy hustot a distribučních funkcí rovnoměrného rozdělení (různé parametry a a b)........................................... 80 12 Grafy hustot a distribučních funkcí exponenciálního rozdělení pro různé parametry A .......................................... 82 13 Graf empirické distribuční funkce pro bodové rozložení četností z příkladu 7.10 . 106 14 Koláčový graf rozložení prodeje produktů ve firmě................. 108 15 Histogram absolutních četností výsledků testu ze statistiky z příkladu 7.10 ... 108 16 Histogram relativních četností hladiny hemoglobinu z příkladu 7.11....... 109 17 Ukázka bodového grafu................................ 127 18 Vložení bodového grafu................................ 140 19 Přidání spojnice trendu................................ 140 20 Nastavení lineární regrese .............................. 141 21 Graf časové řady z příkladu 10.12.......................... 156 22 Dekompozice časové řady z příkladu 10.12..................... 156 23 Graf předpovědi časové řady z příkladu 10.12.................... 156 24 Ukázka histogramu (četnosti a kumulativní relativní četnosti) z modulu Analýza dat........................................... 172 25 Excel: Skupina Načíst a transformovat data na kartě Data............ 177 26 ČNB: Kurzy devizového trhu - roční historie - zadání roku 2024 ......... 178 27 Načtení dat z ČNB do Excelu pomocí volby Data -> Z webu........... 178 28 Podmíněné formát tabulky korelačních koeficientů................. 179 29 Bodový graf cen akcií NVIDIA (horizontální osa) a Intel (vertikální osa) z příkladu 12.6....................................... 181 185 SEZNAM TABULEK 186 Seznam tabulek 1 Četnosti doby pobytu zákazníků v obchodě (intervaly 5 minut).......... 35 2 Bodové rozložení četností výsledků testu z příkladu 7.10 ............. 106 3 Intervalové rozložení četností hladiny hemoglobinu u žen z příkladu 7.11..... 107 4 Ukázka dvourozměrného statistického souboru................... 125 5 Ukázka kontingenční tabulky ............................ 127 6 Ukázková data pro lineární regresi.......................... 137