ZÁKLADY STATISTIKY STUDIJNÍ OPORA PRO KOMBINOVANÉ STUDIUM Moravská vysoká škola Olomouc, o.p.s., 2024 ZÁKLADY STATISTIKY RNDr. Jiří Fišer Ph.D. © Moravská vysoká škola Olomouc, o. p. s. Autoři: RNDr. Jiří FIŠER, Ph.D. Olomouc 2024 Obsah Úvod 7 1 Kombinatorika 9 1.1 Základní pojmy a vlastnosti............................. 11 1.2 Variace......................................... 14 1.2.1 Variace bez opakování............................ 14 1.2.2 Variace s opakováním............................. 15 1.3 Permutace....................................... 16 1.3.1 Permutace bez opakování........................... 16 1.3.2 Permutace s opakováním........................... 16 1.4 Kombinace....................................... 17 1.4.1 Kombinace bez opakování.......................... 18 1.4.2 Kombinace s opakováním........................... 19 1.4.3 Souhrnné příklady .............................. 21 2 Pravděpodobnost jevů 25 2.1 Základní pojmy.................................... 26 2.2 Klasická pravděpodobnost.............................. 27 2.3 Geometrická pravděpodobnost............................ 31 2.4 Statistická pravděpodobnost............................. 33 2.5 Podmíněná pravděpodobnost a nezávislé jevy ................... 34 2.6 Úplná pravděpodobnost a Bayesova věta...................... 37 2.7 Opakované pokusy.................................. 40 2.7.1 Nezávislé pokusy............................... 40 2.7.2 Závislé pokusy ................................ 42 2.8 Souhrnné příklady .................................. 44 3 Náhodná veličina 48 3.1 Rozdělení pravděpodobnosti diskrétní náhodné veličiny.............. 50 3.2 Rozdělení pravděpodobnosti spojité náhodné veličiny ................................... 54 3.3 Číselné charakteristiky náhodné veličiny ...................... 57 3.4 Kvantilové charakteristiky náhodné veličiny......................................... 62 4 Základní typy rozdělení pravděpodobnosti diskrétní náhodné veličiny 67 4.1 Binomické rozdělení.................................. 68 4.2 Hypergeometrické rozdělení ............................. 70 4.3 Poissonovo rozdělení................................. 71 4.4 Některá další diskrétní rozdělení........................... 73 4.5 Řešené příklady.................................... 73 5 5 Základní typy rozdělení pravděpodobnosti spojité náhodné veličiny 78 5.1 Normální rozdělení.................................. 79 5.2 Rovnoměrné rozdělení ................................ 82 5.3 Exponenciální rozdělení ............................... 84 5.4 Řešené příklady.................................... 86 6 Náhodný vektor 91 6.1 Dvourozměrný náhodný vektor............................ 92 6.2 Řešené příklady.................................... 94 7 Statistický soubor s jedním argumentem 100 7.1 Základní pojmy a vlastnosti.............................101 7.2 Rozložení četností...................................105 7.2.1 Grafické znázornění četností.........................108 7.3 Charakteristiky polohy a variability.........................110 7.4 Míry tvaru rozdělení.................................119 7.5 Řešené příklady....................................121 8 Statistický soubor se dvěma argumenty 124 8.1 Základní pojmy....................................126 8.2 Tabulkové a grafické zobrazení dvourozměrných dat................126 8.3 Míry polohy a variability pro dvourozměrný soubor................128 8.3.1 Míry polohy..................................128 8.3.2 Míry variability a kovariance.........................129 8.4 Řešené příklady....................................130 8.5 Kontrolní otázky...................................132 9 Regresní a korelační analýza 133 9.1 Princip korelační analýzy...............................134 9.2 Princip lineární regrese................................137 9.3 Řešené příklady....................................140 10 Časové řady 146 10.1 Základní pojmy časových řad ............................148 10.2 Typy časových řad..................................149 10.3 Analýza časových řad.................................150 10.4 Charakteristiky časových řad ............................151 10.5 Řešené příklady....................................152 10.6 Softwarová analýza časových řad ..........................153 11 Induktivní statistika 158 11.1 Odhady v induktivní statistice............................161 11.1.1 Bodový a intervalový odhad průměru (střední hodnoty)..........162 11.1.2 Bodový a intervalový odhad rozptylu....................164 11.2 Řešené příklady....................................165 12 Využití softwaru při řešení statistických úloh 169 12.1 Shrnutí práce s MS Excel...............................170 12.2 Představení Wolfram Alpha a R...........................173 12.2.1 Srovnání R a Wolfram Alpha ........................173 12.2.2 Základní příkazy ve Wolfram Alpha.....................173 12.2.3 Použití R pro statistické úlohy........................ 175 12.3 Analýza dat z externích zdrojů ........................... 176 12.3.1 Excelovské nástroje pro analýzu akcií.................... 179 12.3.2 Načítání externích statistických dat v R .................. 181 Seznam literatury a použitých zdrojů 184 Seznam obrázků 185 Seznam tabulek 185 Úvod Vítejte ve světě statistiky Vítejte ve studijní opoře pro předmět Základy statistiky, určené především studentům bakalářského studia ekonomicky a businessově zaměřených oborů. Skripta vás provedou základními pojmy a metodami statistiky s důrazem na jejich využití při analýze a zpracování dat v praxi. Tato studijní opora se částečně překrývá s materiály pro navazující studium. V bakalářském studiu klademe důraz zejména na porozumění principům, správnou interpretaci výsledků a samostatné řešení typických úloh. V navazujícím studiu se témata dále rozšiřují (do hloubky i do šířky) a rozvíjejí se pokročilejší aplikace statistiky. Struktura skript Kapitoly jsou uspořádány tak, aby na sebe logicky navazovaly a umožnily postupné prohlubování znalostí. Každá kapitola rozvíjí dovednosti potřebné pro zvládnutí témat, která následují. ' Kombinatorika - Základní kombinatorické pojmy (variace, permutace, kombinace). Tyto nástroje jsou klíčové zejména pro pravděpodobnostní výpočty. ' Pravděpodobnost jevů - Základní principy pravděpodobnosti: klasická a geometrická pravděpodobnost, podmíněná pravděpodobnost a Bayesova věta. ' Náhodná veličina a její rozdělení - Pojem náhodné veličiny a rozdělení pravděpodobnosti; diskrétní a spojité rozdělení a jejich základní charakteristiky. Základní typy rozdělení pravděpodobnosti Vybraná rozdělení často používaná v praxi: binomické, hypergeometrické, Poissonovo a normální rozdělení (včetně typických situací, kde je použít). ' Náhodný vektor - Více náhodných veličin současně: sdružené rozdělení, podmíněná rozdělení, kovariance a korelace (základ pro analýzu vztahů mezi veličinami). Statistický soubor a jeho analýza - Zpracování dat: třídění, tabulky četností, grafy, charakteristiky polohy a variability. ' Regresní a korelační analýza - Analýza vztahů mezi proměnnými: korelace a jednoduchá regrese jako nástroje pro popis a predikci. Časové řady - Základy analýzy dat v čase; jednoduché postupy pro popis trendu a sezónnosti. ' Induktivní statistika - Odhady parametrů, intervaly spolehlivosti a testování hypotéz; závěry o populaci na základě výběru. Využití statistických softwarů - Základní práce se softwarem (zejména MS Excel, dále R a Wolfram Alpha) pro výpočty a prezentaci výsledků. Každá kapitola obsahuje teoretický výklad i praktické příklady. Cílem je, abyste nejen zvládli výpočty, ale především rozuměli významu a interpretaci získaných výsledků. Co vás v kapitolách čeká Každá kapitola začíná stručným uvedením tématu a cíli, kterých byste měli po jejím prostudování dosáhnout. Dále kapitoly obvykle obsahují: ' Teoretický výklad - Vysvětlení pojmů, metod a postupů včetně podmínek jejich použití. • Řešené příklady - Typické úlohy s postupem řešení. • Rámečky - Zvýraznění klíčových poznatků a shrnutí postupů. • Shrnutí - Rekapitulace hlavních bodů kapitoly. Kontrolní otázky a příklady - Úlohy pro ověření porozumění. U vybraných příkladů jsou uvedeny výsledky v hranatých závorkách pro rychlou kontrolu. Praktická aplikace a význam softwaru Statistika jev ekonomické a manažerské praxi nepostradatelným nástrojem. Ve skriptech proto klademe důraz nejen na teorii, ale i na její praktické využití: výběr vhodné metody, správný výpočet a především interpretaci výsledků v kontextu úlohy. V průběhu studia zjistíte, že statistický software (zejména MS Excel) výrazně usnadňuje výpočty a práci s daty. Pokud zvládnete i základy prostředí R, rozšíříte své možnosti analýzy dat a zvýšíte efektivitu i kontrolu nad postupem výpočtu. Motivace a podpora Cílem skript je pomoci vám osvojit si statistiku jako praktický jazyk pro práci s daty. Učte se postupně: nejprve porozumět zadání, zvolit vhodný postup, provést výpočet a na závěr výsledek smysluplně interpretovat. Chyby jsou přirozenou součástí učení; důležité je umět je rozpoznat a opravit. Věříme, že pro vás budou tato skripta užitečným průvodcem a oporou při studiu i při řešení praktických úloh. Kapitola 1 Kombinatorika Po prostudování této kapitoly budete umět: > rozlišovat mezi variacemi, kombinacemi a permutacemi (s opakováním i bez opakování) , • rozpoznat, kdy v úloze záleží na pořadí a kdy nikoli, • rozlišovat situace s opakováním a bez opakování, > řešit typové úlohy s využitím pravidla součinu a pravidla součtu (příp. principu inkluze a exkluze). Klíčová slova: Kombinatorika, faktoriál, kombinační číslo, variace bez opakování, variace s opakováním, kombinace bez opakování, kombinace s opakováním, permutace bez opakování, permutace s opakováním, pravidlo součinu, pravidlo součtu, princip inkluze a exkluze. 11 Základy statistiky Náhled kapitoly Kombinatorika se zabývá počítáním počtu možností, jak vybrat nebo uspořádat prvky z dané množiny. V této kapitole zavedeme a procvičíme tři základní typy úloh: ' permutace (uspořádání všech prvků), > variace (uspořádání vybraných prvků), ' kombinace (výběr bez ohledu na pořadí). U každého typu budeme rozlišovat, zda se prvky mohou opakovat (výběr s opakováním), nebo nikoli (výběr bez opakování). Základním vodítkem při volbě metody bude odpověď na dvě otázky: Záleží na pořadí? a Je povoleno opakování? Důraz bude kladen na řešení typových úloh, které tvoří přirozený základ pro následující kapitolu o pravděpodobnosti. Cíle kapitoly Po prostudování této kapitoly byste měli být schopni: > rozhodnout, zda je daná situace permutace, variace, nebo kombinace, > rozlišit úlohy s opakováním a bez opakování, • správně zvolit a použít odpovídající vzorec a výsledek interpretovat, řešit typové úlohy s využitím pravidla součinu a pravidla součtu (příp. principu inkluze a exkluze). Časová náročnost Doporučený čas na zvládnutí kapitoly je přibližně 3-4 hodiny: přečtení výkladu, průběžné řešení ukázkových příkladů a samostatné procvičení na úlohách na konci kapitoly. Uvedený odhad předpokládá, že cílem není pouze dosadit do vzorce, ale také umět správně rozpoznat typ úlohy. Kombinatorika 12 í.i Základní pojmy a vlastnosti Co je to kombinatorika? Definice 1.1. Kombinatorika je část matematiky, která se zabývá počítáním počtu možností, jak z dané množiny prvků • prvky vybrat (výběr) nebo • prvky uspořádat (uspořádání), přičemž rozhodujícími otázkami bývá, zda záleží na pořadí a zdaje povoleno opakování prvků. Kombinatorika se v základních úlohách nejčastěji opírá o tři pojmy: • Permutace - uspořádání všech prvků (pořadí rozhoduje). • Variace - uspořádání vybraných k prvků z n (pořadí rozhoduje). ' Kombinace - výběr k prvků z n bez ohledu na pořadí (pořadí nerozhoduje). Kombinatorika je důležitým základem zejména pro teorii pravděpodobnosti a statistiku; využití má také v informatice, optimalizaci a kryptografii. Kombinatorické pravidlo součinu Definice 1.2. (Kombinatorické) pravidlo součinu říká: lze-li určitý postup rozdělit na k po sobě jdoucích kroků tak, že v i-tém kroku existuje rti možností (pro i = 1,..., k), pak celkový počet možností je ni-n2.....nk. Příklad 1.3. V restauraci jsou na výběr 3 druhy předkrmů, 4 druhy hlavních jídel a 2 druhy dezertů. Kolika způsoby lze sestavit menu (předkrm, hlavní jídlo, dezert)? Řešení: V každém chodu volíme nezávisle jednu možnost, proto použijeme pravidlo součinu: 3 • 4 • 2 = 24. Menu lze sestavit 24 způsoby. □ 13 Základy statistiky Kombinatorické pravidlo součtu Definice 1.4. (Kombinatorické) pravidlo součtu říká: lze-li volbu provést buď jedním z ni způsobů nebo jedním z n2 způsobů a tyto možnosti jsou vzájemně neslučitelné (tj. nelze je realizovat současně), potom celkový počet možností je ni + n2. Příklad 1.5. V knihovně je 5 beletristických knih a 3 odborné knihy. Kolik různých knih si můžete vybrat, pokud si můžete vzít právě jednu knihu: buď beletrii, nebo odbornou? Řešení: Možnosti výběru jsou neslučitelné (vybírá se právě jedna kniha), proto platí: 5 + 3 = 8. Vybrat lze 8 různých knih. □ Princip inkluze a exkluze Definice 1.6. Princip inkluze a exkluze slouží k určení počtu prvků ve sjednocení množin A1}..., An. Platí n \A1uA2u---uAn\ = J2\A\- E l^nA,-|+ J2 \Ar\AjnAk\ i=l 1<*<Í<" l<í 1. Příklad 1.12. Vypočtěte hodnotu 5!. Řešení: 5! = 1 • 2-3-4-5 = 120. □ Faktoriál se používá zejména v kombinatorice (např. při výpočtu počtu permutací, variací a kombinací). Hodnota n\ roste s n velmi rychle, proto se ve výpočtech často pracuje se zkracováním výrazů s faktoriály. 15 Základy statistiky 1.2 Variace Variace jsou uspořádané výběry z dané množiny prvků. Budeme rozlišovat dvě situace: • bez opakování - každý prvek lze vybrat nejvýše jednou, • s opakováním - prvky lze vybírat opakovaně. 1.2.1 Variace bez opakování Příklad 1.13. Vypište všechny uspořádané dvojice ze základní množiny prvků {1, a, B}, pokud se prvky nemohou opakovat. Kolik jich je? Řešení: Jde o „variace druhé třídy ze tří prvků bez opakování" (též „2-prvkové variace ze tří prvků bez opakování"). Vypíšeme všechny možnosti: (l,a), (a,l), (1,5), (5,1), (a,B), (B,a). Celkem tedy dostáváme 6 uspořádaných dvojic. □ Při větších hodnotách n a A; je vypisování všech možností nepraktické. Proto odvodíme vzorec pro počet variací. Definice 1.14. Variace bez opakování jsou uspořádané fc-prvkové výběry z n prvků, přičemž každý prvek může být vybrán nejvýše jednou. Počet variací k-té třídy z n prvků (bez opakování) je Vk(n) = 7-T7í = n(n — 1) ■ ■ ■ (n — k + 1). (n — k)l--„-' k činitelů Zde platí 0 < k < n. Příklad 1.15. Kolik různých uspořádaných trojic lze vybrat z množiny {1, 2, 3,4, 5}, pokud se prvky nemohou opakovat? Řešení: Jde o variace třetí třídy z pěti prvků bez opakování: 5' 5' 120 V3(5) = -^-^y = - = — = 60, příp. V3(5) = 5 • 4 • 3 = 60. □ Příklad 1.16. Kolika způsoby lze obsadit první tři místa v závodě s 10 účastníky, pokud se o umístění nelze dělit? Kombinatorika 16 Řešení: Pořadí (1., 2., 3. místo) je rozhodující a každý účastník může obsadit nejvýše jedno místo, proto použijeme variace bez opakování: 10' V3(10) =--- = 10 • 9 • 8 = 720. SK ' (10-3)! □ 1.2.2 Variace s opakováním Definice 1.17. Variace s opakováním jsou uspořádané fc-prvkové výběry z n prvků, přičemž prvky lze vybírat opakovaně. Počet variací k-té třídy z n prvků s opakováním je V£ (n) = nk = n ■ n ■ ■ ■ ■ ■ n . k činitelů Zde platí fc>0an> 1. Příklad 1.18. Kolik různých trojciferných čísel lze vytvořit pomocí cifer 1,2,3,4,5, pokud se cifry mohou opakovat? Řešení: Na každé ze tří pozic lze zvolit jednu z 5 cifer, opakování je dovoleno, proto: V* (5) = 53 = 125. □ Příklad 1.19. Kolik různých čtyřmístných PIN kódů lze vytvořit, pokud každé místo může obsahovat cifru od 0 do 9 a cifry se mohou opakovat? Řešení: Jde o variace s opakováním, kde n = 10 a k = 4: 17(10) = 104 = 10 000. □ Příklad 1.20. Kolik různých značek lze vytvořit v Morseove abecedě, pokud se sestavují z teček a čárek do skupin o délce 1 až 3? Řešení: Základní množina má n = 2 znaky (tečka a čárka) a opakování je dovoleno. Počet značek délky k je V£(2) = 2k. Protože délky 1, 2 a 3 představují neslučitelné případy, použijeme pravidlo součtu: V* (2) + V2*(2) + V;{2) = 21 + 22 + 23 = 2 + 4 + 8 = 14. □ 17 Základy statistiky 1.3 Permutace Permutace jsou uspořádání všech prvků dané množiny. Jde o speciální případ variací, kdy vybíráme k = n prvků, takže pořadí vždy rozhoduje. Budeme rozlišovat permutace bez opakování (všechny prvky jsou různé) a s opakováním (některé prvky se opakují a jsou nerozlišitelné). 1.3.1 Permutace bez opakování Definice 1.21. Permutace bez opakování jsou uspořádání všech n navzájem různých prvků. Počet permutací je P(n) = n\. Příklad 1.22. Vypište všechny permutace množiny prvků {l,a,B} a ověřte, že jejich počet odpovídá vzorci. Řešení: Vypíšeme všechny možnosti uspořádání tří různých prvků: (l,a,B), (l,B,a), (a,l,B), (a,B,l), (B,l, a), (B,a,l). Celkem je permutací 6, což odpovídá P(3) = 3! = 6. □ Příklad 1.23. Kolika způsoby lze uspořádat 6 různých knih na polici? Řešení: Jde o permutace šesti prvků: P(6) = 6! = 720. □ 1.3.2 Permutace s opakováním Definice 1.24. Permutace s opakováním nastávají tehdy, když v souboru n prvků se některé prvky opakují a jsou nerozeznatelné. Nechť existuje k typů prvků a i-tf typ se opakuje n^-krát, kde n = ni + n2 H-----h nk. Počet různých uspořádání je p* (n) =___ ni'n2'-'nfel ; m!n2!---Tifc!' Vzorec zohledňuje, že prohození dvou stejných prvků nevytváří nové uspořádání. Kombinatorika 18 Příklad 1.25. Vypište všechny permutace multmnožiny {l,a,a} a ověřte, že jejich počet odpovídá vzorci. Řešení: Rozlišitelná uspořádání jsou: (l,a, a), (a, l,a), (a, a, 1). Celkem jsou 3. Zde je n = 3, prvek 1 se vyskytuje jednou (ni = 1) a prvek a dvakrát (n2 = 2), proto 3! 6 K^) = ^ = 2 = 3. □ Příklad 1.26. Kolik různých šesticiferných čísel lze vytvořit z číslic 1,1,2,2,2,3? Řešení: Máme n = 6 číslic, přičemž 1 se opakuje dvakrát, 2 třikrát a 3 jednou, tedy (ni,ri2, n^) = (2,3,1): fil 720 □ Příklad 1.27 (Uspořádání písmen ve slově). Kolik různých uspořádání písmen lze vytvořit ze všech deseti písmen slova STATISTIKA"? Řešení: Ve slově STATISTIKA je n = 10 písmen. Počty opakování jsou: S:2, T:3, A : 2, J : 2, K : 1. Proto , x 10! 3 628 800 3 628 800 „ P* 10 =.....=-=-= 75 600. 2,3,2,2,11 ; 2!3!2!2!1! 2-6-2-2 48 Celkem lze vytvořit 75 600 různých uspořádání. □ Příklad 1.28 (Tvorba řad korálků). Máme 8 korálků, z nichž 4 jsou červené, 3 modré a 1 zelený. Kolik různých řad (lineárních uspořádání) korálků lze vytvořit, pokud korálky stejné barvy nerozlišujeme? Řešení: Jde o permutace s opakováním: n = 8, počty opakování jsou (4, 3,1), tedy P* (*)- 81 - 40320 - 280 Pw(8) - 4!3!i! - ŠÍT ~ 280' □ i.4 Kombinace Kombinace jsou výběry prvků z dané množiny, při kterých nezáleží na pořadí. Budeme rozlišovat kombinace bez opakování (každý prvek lze vybrat nejvýše jednou) a kombinace s opakováním (prvky lze vybírat opakovaně). 19 Základy statistiky Kombinační číslo Definice 1.29. Kombinační číslo (binomický koeficient) {J^j udává počet způsobů, jak vybrat k prvků z n různých prvků bez opakování a bez ohledu na poradí. Pro 0 < k < n platí / n\ n\ k) k\(n-k)V Příklad 1.30. Vypočítejte kombinační číslo Řešení: Použijeme vzorec a vhodně zkrátíme: Í7\ 7! 7-6-5-4! 7-6-5 210 ,3/ 3! 4! (3-2-1)4! 3-2-1 6 35. □ 1.4.1 Kombinace bez opakování Definice 1.31. Kombinace bez opakování je výběr k prvků z n různých prvků, kde na pořadí nezáleží a každý prvek lze vybrat nejvýše jednou. Počet takových výběrů je c' 1, k > 0. ky ' \ k ) \ ra-1 y (n-l) ~ ~ Příklad 1.37. Najděte všechny kombinace druhé třídy s opakováním z množiny M = {1,2,3,4, 5}. 21 Základy statistiky Řešení: Zde jen = 5aA; = 2, proto Jednotlivé kombinace (bez pořadí, s možností opakování) jsou: {1,1}, {1,2}, {1,3}, {1,4}, {1,5}, {2,2}, {2, 3}, {2,4}, {2, 5}, {3, 3}, {3,4}, {3, 5}, {4,4}, {4, 5}, {5,5}. Celkem tedy existuje 15 kombinací druhé třídy s opakováním. □ Příklad 1.38. Kolika způsoby lze vybrat 4 bonbóny ze 3 různých druhů, pokud nezáleží na pořadí a bonbóny se mohou opakovat? Řešení: Jde o kombinace s opakováním (n = 3, k = 4): □ Příklad 1.39. Kolika způsoby lze rozdělit 10 jablek mezi 3 děti, pokud každé dítě může dostat libovolný počet jablek? Řešení: Označme Xi,X2,x% počet jablek pro jednotlivé děti. Hledáme počet řešení v nezáporných celých číslech rovnice Xi + X2 + X% = 10. To je ekvivalentní kombinacím s opakováním (n = 3, k = 10), tedy □ Příklad 1.40. Kolika způsoby lze rozdělit 8 identických bonbónů mezi 4 děti? Řešení: Analogicky hledáme počet řešení v nezáporných celých číslech rovnice X1+X2+X3+X4 = 8. Proto □ Příklad 1.41. Kolika způsoby lze vybrat 6 květin z 5 druhů, pokud se mohou opakovat? Řešení: Jde o kombinace s opakováním (n = 5, k = 6): □ Příklad 1.42. Zjistěte, kolik existuje různých kvádrů, pro něž platí, že délka každé hrany je přirozené číslo z intervalu [2; 5], přičemž nezáleží na pořadí stran. Kombinatorika 22 Řešení: Délky hran kvádru můžeme popsat trojicí (a,b,c), kde a,b,c G {2,3,4,5} a nezáleží na pořadí (tj. trojice (2,3,5) je totéž co (5,3,2)). Jde tedy o výběr 3 prvků z 4 hodnot s opakováním: n = 4, k = 3. Celkem existuje 20 různých kvádrů. □ 1.4.3 Souhrnné příklady Příklad 1.43. Jsou dány cifry 1,2,3,4,5. Cifry nelze opakovat. Kolik je možno vytvořit z těchto cifer čísel, která jsou: • a) pětimístná, sudá, b) pětimístná, končící dvojčíslím 21, • c) pětimístná, menší než 30 000, • d) trojmístná, lichá, • e) čtyřmístná, větší než 2 000, • f) dvojmístná nebo trojmístná. Řešení: ad a) Pětimístné sudé číslo musí končit cifrou 2 nebo 4 (2 možnosti). Zbylé čtyři pozice vyplníme permutací zbývajících čtyř cifer: 2 • P(4) = 2 • 4! = 2 • 24 = 48. ad b) Číslo má tvar XXX21. Na první tři pozice lze dosadit libovolné uspořádání tří zbývajících cifer: P(3) = 3! = 6. ad c) Podmínka „menší než 30 000" znamená, že první cifra je 1 nebo 2 (2 možnosti). Zbylé čtyři pozice vyplníme permutací zbývajících čtyř cifer: 2 • P(4) = 48. ad d) Trojmístné liché číslo musí končit cifrou 1, 3 nebo 5 (3 možnosti). Zbylé dvě pozice obsadíme dvěma různými ciframi ze zbývajících čtyř, přičemž pořadí rozhoduje (variace bez opakování): 3 • \/2(4) = 3 • (4 • 3) = 36. ad e) Čtyřmístné číslo větší než 2 000 má tisíce 2, 3, 4 nebo 5 (4 možnosti). Zbylé tři pozice obsadíme třemi různými ciframi ze zbývajících čtyř, pořadí rozhoduje: 4 ■ \/3(4) = 4 • (4 • 3 • 2) = 96. 23 Základy statistiky ad f) Hledáme počet dvojmístných nebo trojmístných čísel (neslučitelné případy), proto použijeme pravidlo součtu: V2(5) + V3(5) = (5 • 4) + (5 • 4 • 3) = 20 + 60 = 80. □ Příklad 1.44. Kolik různých státních poznávacích značek tvaru 4M9 XX-XX existuje s alespoň dvěma trojkami? (Na místech X mohou být jen číslice.) Řešení: Na čtyřech pozicích X počítáme řetězce číslic s alespoň dvěma trojkami, tj. s právě 2, 3 nebo 4 trojkami. Označme xr počet značek s právě r trojkami. 4 trojky: jediná možnost 33-33, tedy x 4 = 1. 3 trojky: zvolíme pozici, na které není trojka (4 možnosti). Na zbývající pozici lze dát jednu z 9 číslic {0,1,2,4,5,6,7,8,9}: x3 = Q • 9 = 4 • 9 = 36. (Pozn.: ekvivalentně x3 = ■ 9.) 2 trojky: nejprve zvolíme, na kterých 2 pozicích jsou trojky: (^j = 6 možností. Zbylé dvě pozice vyplníme libovolnými číslicemi z množiny 9 možností, přičemž opakování je dovoleno a pořadí pozic je dáno (variace s opakováním): x2 = Q . g2 = 6 • 81 = 486. Celkový počet požadovaných značek je x = x2 + x3 + x4 = 486 + 36 + 1 = 523. □ OV této kapitole jsme se seznámili se základními pojmy kombinatoriky, tj. s metodami pro počítání počtu možností výběru a uspořádání prvků. Klíčovým krokem při řešení úloh bylo vždy rozhodnout, zda záleží na pořadí a zda je dovoleno opakování. Probrali jsme tři základní typy úloh: • Variace - uspořádané výběry k prvků z n (pořadí rozhoduje), a to bez opakování i s opakováním. • Permutace - uspořádání všech n prvků (speciální případ variací pro k = n), opět bez opakování i s opakováním. • Kombinace - výběry k prvků z n bez ohledu na pořadí (pořadí nerozhoduje), bez opakování i s opakováním. Kombinatorika 24 Dále jsme používali základní principy pro počítání počtu možností: ' Pravidlo součinu - pro postupy složené z několika po sobě jdoucích kroků (násobení počtu možností v jednotlivých krocích). ' Pravidlo součtu - pro volbu z několika vzájemně neslučitelných možností (sčítání počtu možností). ' Princip inkluze a exkluze - pro výpočet počtu prvků ve sjednocení množin se zohledněním průniků. Cílem kapitoly bylo, abyste uměli správně rozpoznat typ úlohy, zvolit odpovídající postup a výsledek interpretovat. 1. Státní poznávací značku tvoří dvě písmena, tři číslice a další dvě písmena (formát AAXXXAA, kde A je písmeno a X číslice). Kolik různých značek lze vytvořit, pokud můžeme vybírat z 25 písmen a 10 číslic? [390 625 000] 2. Kolik různých šestimístných čísel lze sestavit z cifer 1, 2 a 3, pokud se cifry mohou opakovat? [729] 3. V MHD se kdysi používaly lístky s devíti čtverečky označenými čísly 1 až 9. Po nastoupení cestující zasunul lístek do strojku, který prodírkoval tři nebo čtyři z nich (specificky pro dané vozidlo a den). Kolik je různých způsobů produkování lístku? [210] 4. Kolika způsoby mohou sedět v kině sedm kamarádů (A, B, C, D, E, F, G) na sedadlech 1 až 7 tak, aby kamarád B seděl na sedadle č. 4 a kamarád G na sedadle č. 2? [120] 5. Do tanečního kroužku přišlo 24 chlapců a 15 dívek. Kolik různých párů lze vytvořit, pokud pár tvoří vždy dvojice chlap ec-dívka? [360] 6. Ve třídě je 20 žáků. Kolika způsoby lze vybrat dvojici pro týdenní službu? [190] 7. Kolik hráčů se zúčastnilo turnaje ve stolním tenise, pokud se ve dvouhře odehrálo 21 utkání a každý hráč hrál s každým právě jednou? [7] 8. Ve třídě je 20 dívek a 15 chlapců. Kolik různých pětičlenných hlídek na branné závody lze vytvořit, pokud v každé hlídce mají být 3 dívky a 2 chlapci? [119 700] 9. Hokejové družstvo má 20 hráčů: 13 útočníků, 5 obránců a 2 brankáře. Kolik různých sestav může trenér vytvořit, pokud sestava má obsahovat 3 útočníky, 2 obránce a 1 brankáře? [5 720] 10. Učitel má k dispozici 20 aritmetických a 30 geometrických úloh. Na písemné práci mají být dvě aritmetické a tři geometrické úlohy. Kolik má učitel možností k vytvoření písemné práce? [771400] 11. Ze 7 mužů a 4 žen máme vytvořit 6člennou skupinu, ve které mají být 3 ženy. Kolika způsoby lze takovou skupinu vytvořit? [140] 12. Učitel má vybrat na recitační soutěž tři studenty ze třídy 3.A a dva studenty ze třídy 3.B. V 3. A je 22 studentů a v 3.B je 17 studentů. Kolik má učitel možností výběru? [209440] 13. Kolik existuje způsobů, jak uspořádat sedadla pro kamarády A, B, C, D a E tak, aby kamarád A seděl vedle kamaráda C? [48] 25 Základy statistiky 14. Latinská abeceda má 26 písmen. Kolik různých ôpísmenných „slov" lze vytvořit, pokud se písmena mohou opakovat? [308 915 776] 15. Státní poznávací značka tvoří 7 znaků. Na prvních třech pozicích může být číslice nebo písmeno, na zbývajících čtyřech jen číslice. Kolik různých značek lze vytvořit, pokud použijeme 28 písmen a 10 číslic? [548 720 000] 16. Na hodině tělesné výchovy stojí v řadě 5 dívek, z nichž dvě jsou sestry. Kolika způsoby lze rozestavit dívky tak, aby sestry stály vedle sebe? [48] Literatura k tématu: [1] OTIPKA, P., SMAJSTRLA, V. Pravděpodobnost a statistika [online]. 1. vydání. Ostrava: VŠB-TU Ostrava, 2007 [cit. 2024-09-09]. ISBN 80-248-1194-4. Dostupné z: https://homel.vsb.cz/~oti73/cdpastl/ [2] CALDA, E., DUPAC, V. (2008). Matematika pro gymnázia: Kombinatorika, pravděpodobnost, statistika (5. vydání, dotisk 2011). Praha: Prométheus. ISBN 978-80-7196-365-3. Kapitola 2 Pravděpodobnost jevů Po prostudování této kapitoly budete umět: ' objasnit pojmy náhodný pokus, náhodný jev, operace s jevy a jejich použití, • představit klasickou a geometrickou pravděpodobnost, > řešit typové úlohy z oblasti pravděpodobnosti včetně podmíněné pravděpodobnosti, nezávislosti a Bayesovy věty. Klíčová slova: Náhodný pokus, náhodný jev, klasická pravděpodobnost, geometrická pravděpodobnost, operace s jevy, podmíněná pravděpodobnost, nezávislé jevy, úplná pravděpodobnost, Ba-yesova věta. 27 Základy statistiky Náhled kapitoly V této kapitole se zaměříme na základní pojmy a pravidla teorie pravděpodobnosti, která tvoří výchozí rámec pro následné statistické metody. Nejprve zavedeme pojmy náhodný pokus a náhodný jev a ukážeme si, jak s jevy pracovat pomocí základních operací (sjednocení, průnik, doplněk). Poté představíme klasickou a geometrickou pravděpodobnost a procvičíme je na typových příkladech. Dále se budeme věnovat podmíněné pravděpodobnosti a pojmu nezávislosti jevů, které umožňují analyzovat složitější situace. Kapitolu uzavřeme pravidlem úplné pravděpodobnosti a Bayesovou větou, jež jsou klíčové pro řadu aplikací (např. aktualizace pravděpodobností na základě nové informace). Cíle kapitoly Po prostudování této kapitoly byste měli být schopni: • definovat náhodný pokus a náhodný jev a pracovat s operacemi s jevy, • používat klasickou a geometrickou pravděpodobnost v typových úlohách, • vypočítat podmíněnou pravděpodobnost a rozhodnout o nezávislosti jevů, • aplikovat pravidlo úplné pravděpodobnosti a Bayesovu větu. Časová náročnost Doporučený čas na zvládnutí kapitoly je přibližně 4-5 hodin (výklad + průběžné řešení příkladů + samostatné procvičení). 2.1 Základní pojmy Definice 2.1. Náhodný pokus je opakovatelný proces, jehož výsledek nelze předem jednoznačně určit, i když jsou podmínky pokusu stejné. Množinu všech možných výsledků náhodného pokusu nazýváme prostor elementárních jevů a označujeme ji íl. Například při hodu hrací kostkou je Q = {1, 2, 3,4, 5,6}. Definice 2.2. Náhodný jev je podmnožina prostoru elementárních jevů, tedy A C fž. Řekneme, že jev A nastal, právě když výsledek náhodného pokusu patří do A. Například při hodu kostkou může být jev A „padne sudé číslo", tedy A = {2,4,6}. Pravděpodobnost jevů 28 Druhy náhodných jevů Definice 2.3. Nechť A, B C Q jsou náhodné jevy. ' Jev jistý je jev, který nastane vždy. Platí A = Q a jeho pravděpodobnost je P(Q) = 1. ' Jev nemožný je jev, který nikdy nenastane. Platí A = 0 a jeho pravděpodobnost je P(0) = 0. ' Jev elementární je jev, který obsahuje právě jeden výsledek, tj. má tvar {co} pro nějaké co G Q. • Jev složený je jev, který obsahuje alespoň dva výsledky. • Doplněk jevu A (opačný jev) je jev Ac = Q \ A, tj. nastane právě tehdy, když jev A nenastane. ' Neslučitelné (disjunktní) jevy A a, B jsou takové, že nemohou nastat současně, tedy in5 = 0. • Slučitelné jevy A a B jsou takové, že mohou nastat současně, tedy A n B ^q>. 2.2 Klasická pravděpodobnost Definice 2.4. Nechť náhodný pokus má konečný prostor elementárních jevů Q a nechť všechny elementární výsledky jsou stejně pravděpodobné (rovnoměrný model). Potom klasická pravděpodobnost jevu A je p^j^ počet příznivých výsledků celkový počet možných výsledků Pozn.: Pokud si prostor výsledků zapisujeme jako množinu, pak „počet prvků množiny" se |íí|- značí \A\ a |íž| a lze psát také P (A) — — 29 Základy statistiky Kdy lze použít klasickou pravděpodobnost? Q je konečná a její prvky (elementární jevy) jsou jednoznačně určeny. Všechny elementární jevy jsou stejně pravděpodobné (např. férová kostka, férová mince). Pozn.: Nezávislost opakovaných pokusů není předpokladem samotného vzorce P (A) \A\/\Q\; je důležitá až při modelování více pokusů (např. dva hody kostkou). Příklad 2.5. Hod hrací kostkou je klasickým příkladem náhodného pokusu. Popište prostor elementárních jevů a uveďte příklady jevů. Řešení: Náhodný pokus: hod hrací kostkou. Prostor elementárních jevů je íl = {1,2,3,4,5,6}. Příklady náhodných jevů: • A = {1,3,5}: „padne liché číslo", B = {4,5,6}: „padne číslo > 4", • 0: „padne číslo > 6" (jev nemožný), • Q: „padne číslo mezi 1 a 6" (jev jistý), > jevy „padne sudé číslo" a „padne liché číslo" jsou neslučitelné, protože jejich průnik je prázdný. □ Příklad 2.6. Při hodu kostkou určete pravděpodobnost jevů: • a) A: „padne číslo 5", • b) B: „padne číslo < 2". Řešení: Protože všechny výsledky jsou stejně pravděpodobné a |fž| = 6, dostáváme: □ Příklad 2.7. S jakou pravděpodobností padne při hodu dvěma hracími kostkami součet: • a) 6, Pravděpodobnost jevů 30 b) menší než 7? Řešení: Uvažujme uspořádané dvojice kde i je výsledek na první kostce a j na druhé. Platí = 6 • 6 = 36. ad a) Součet 6 nastane pro pět dvojic: (1,5),(2,4),(3,3),(4,2),(5,1). Proto 5 P(součet 6) = ^7. ad b) Součet menší než 7 znamená součet 2,3,4,5 nebo 6. Počty možností jsou postupně 1, 2, 3,4, 5, celkem tedy 1 + 2 + 3 + 4 + 5 = 15 příznivých dvojic. Proto 15 5 P(součet < 7) = - = -. □ Příklad 2.8. V cele předběžného zadržení sedí vedle sebe 10 podezřelých, z toho 3 ženy. Jaká je pravděpodobnost, že všechny tři ženy sedí vedle sebe? Řešení: Uvažujme všechna možná uspořádání 10 různých osob v řadě. Celkový počet uspořádání je n = 10!. Aby všechny tři ženy seděly vedle sebe, budeme je chápat jako jeden „blok". Pak máme celkem 8 objektů (blok žen + 7 mužů), které lze uspořádat v řadě způsoby. Uvnitř bloku se ženy mohou prohodit 3! způsoby. Počet příznivých uspořádání je tedy m = 8! • 3!. Hledaná pravděpodobnost je m 8! • 3! 6 1 n 10! 10-9 15' □ Příklad 2.9. Stanovte pravděpodobnost jevu, že z 10 náhodně vytažených bridžových karet budou alespoň 3 esa. (V balíčku je 52 karet, z toho 4 esa.) Řešení: Označme A jev „vytáhneme alespoň 3 esa". To znamená „vytáhneme právě 3 esa" nebo „vytáhneme právě 4 esa". Tyto případy jsou neslučitelné, proto P(A) = P(A3) + P(A4), kde As je jev „právě 3 esa" a A4 je jev „právě 4 esa". Celkový počet výběrů 10 karet z 52 je (^). Dále: 31 Základy statistiky pro A3 vybíráme 3 esa ze 4 a zbylých 7 karet z 48 ne-es, pro At vybíráme všechna 4 esa a zbylých 6 karet z 48 ne-es. Proto (4\ /48\ /4\ f 48 = ^7^' p(^) = ^ (9 Co a tedy /4\ /48\ , /4\ /48 P(A) 3/ V 7 / _ V4/ V 6 52 10 □ Příklad 2.10. Při slosování sportky je z osudí vylosováno 6 čísel ze 49. Poté je ze zbývajících 43 čísel vylosováno dodatkové číslo. Při správném tipování: • a) šesti čísel získává sázející výhru 1. pořadí, • b) pěti čísel a dodatkového čísla (5+1) získává sázející výhru 2. pořadí, • c) pěti čísel získává sázející výhru 3. pořadí, • d) čtyř čísel získává sázející výhru 4. pořadí, • e) tří čísel získává sázející výhru 5. pořadí. Vypočítejte pravděpodobnosti, se kterými při vsazeném jednom sloupci vyhrajete v 1. tahu výhry a)-e). Řešení: V jednom sloupci tipujeme 6 čísel. Základní počet všech možných šestic je M = 13 983 816. ad a) (6 správných) Jediný příznivý případ je, že tipovaná šestice je přesně vylosovaná: 1 P(6) ad b) (5+1) Tipujeme 5 čísel z vylosované šestice a zároveň tipujeme dodatkové číslo. To lze provést 0-0- způsoby, proto fe\ íi P(5 + 1) 51 VI 49\ /49 Pravděpodobnost jevů 32 ad c) (5 správných, bez dodatkového) Tipujeme 5 čísel z vylosované šestice a šesté tipované číslo musí být z ostatních 43 čísel, která nejsou vylosována v hlavní šestici ani jako dodatkové: „51 (3(?) ** ad d) (4 správná) Tipujeme 4 čísla z vylosované šestice a zbývající 2 tipovaná čísla volíme z oněch 43 nevylosovaných čísel: ad e) (3 správná) Tipujeme 3 čísla z vylosované šestice a zbývající 3 tipovaná čísla volíme z 43 nevylosovaných čísel: □ 2.3 Geometrická pravděpodobnost Definice 2.11. Geometrická pravděpodobnost je model, ve kterém jsou všechny výsledky náhodného pokusu rovnoměrně rozloženy v nějaké geometrické oblasti (např. na úsečce, v rovině nebo v prostoru). Pravděpodobnost jevu A se pak určuje jako poměr míry příznivé části k míře celé oblasti: délka / plocha / objem příznivé části délka / plocha / objem celé oblasti Používáme ji typicky tehdy, když výsledek pokusu závisí na spojité veličině (čas, poloha bodu, úhel apod.). Příklad 2.12. Jaká je pravděpodobnost, že meteorit dopadne na pevninu, víme-li, že pevnina má rozlohu 149 milionů km2 a moře 361 milionů km2? Řešení: Celková plocha (pevnina + moře) je S = 149 + 361 = 510 milionů km2. Pravděpodobnost dopadu na pevninu určíme jako poměr ploch: 149 P(pevnina) = -« 0,2922. 510 □ 33 Základy statistiky Příklad 2.13. Je dán kruh o poloměru 10 cm. Uvnitř je vyznačena kruhová oblast o poloměru 5 cm. Jaká je pravděpodobnost, že náhodně zvolený bod z většího kruhu padne do menšího kruhu? Řešení: Plocha většího kruhu je 5Ut$í = 7T • 102 = 1007T cm2, plocha menšího kruhu je umenší = 7T • 52 = 257T Clil2. Hledaná pravděpodobnost je poměr ploch: p _ umenší _ 257T _ Svétši 1007T □ Příklad 2.14. Dva známí se domluví, že se sejdou na určitém místě mezi 15:00 a 16:00. Každý z nich po příchodu čeká nejvýše 20 minut. Jaká je pravděpodobnost, že se setkají? Řešení: Označme x čas (v minutách po 15:00), kdy přijde první osoba, a y čas příchodu druhé osoby. Předpokládáme rovnoměrné a nezávislé příchody, tedy (x,y) je rovnoměrně rozložen v čtverci [0,60] x [0,60]. Setkají se právě tehdy, když \x-y\< 20. Celková plocha čtverce je Sn = 60 • 60 = 3600. Nevyhovující oblasti tvoří dva shodné pravoúhlé trojúhelníky v rozích čtverce (nad přímkou y = x + 20 a pod přímkou y = x — 20). Každý má odvěsny délky 40, tedy obsah Stroj = \ • 40 • 40 = 800. Celková nevyhovující plocha je 2 • 800 = 1600, a proto příznivá plocha je SA = 3600 - 1600 = 2000. Hledaná pravděpodobnost je netkají Se) = fl = ^ = 5 « 0,5556. dq 3600 9 □ Pravděpodobnost jevů 34 2.4 Statistická pravděpodobnost Definice 2.15. Statistická pravděpodobnost (frekventistické pojetí) vychází z relativní četnosti výskytu jevu při opakování téhož náhodného pokusu. Označme n počet provedených pokusů a Nn(A) počet pokusů, ve kterých nastal jev A. Relativní četnost jevu A je HA) - ^ n Je-li možné uvažovat dlouhou řadu pokusů za stejných podmínek, pak pravděpodobnost jevu A chápeme jako limitu relativní četnosti: P (A) = lim u A) = lim ^ľÍS.. n—í-oo n—í-oo yi V praxi pracujeme s odhadem P (A) ~ fn(A) pro velké n. Kdy má statistická pravděpodobnost smysl? • pokus lze opakovat za (přibližně) stejných podmínek, > jednotlivá opakování lze považovat za nezávislá a stejně rozdělená (i.i.d. model), pro dostatečně velké n se relativní četnosti stabilizují (zákon velkých čísel). Statistická pravděpodobnost je vhodná tehdy, když máme k dispozici data z opakovaných pozorování a chceme na jejich základě odhadnout pravděpodobnosti jevů. Poznámka k diskrétním a spojitým situacím ' Diskrétní situace: Jevy často odpovídají konkrétním hodnotám (např. „padne 6"). Pravděpodobnosti lze odhadovat relativními četnostmi jednotlivých hodnot. Spojitá situace: Pro spojitou náhodnou veličinu je pro každou konkrétní hodnotu typicky P(X = x) = 0. Odhady proto děláme pro intervaly (např. P(170 < X < 175)) pomocí četností v intervalech; při jemnějším dělení intervalů pak přecházíme k pojmu hustoty pravděpodobnosti. Příklad 2.16 (spojitý případ). Sledujme dobu, po kterou se zákazníci zdržují v obchodě. Čas pobytu byl zaznamenán a rozdělen do intervalů o délce 5 minut. Data o četnostech pro jednotlivé intervaly shrnuje tabulka: Určete statistické pravděpodobnosti pro jednotlivé intervaly. Řešení: Celkem bylo sledováno n = 200 zákazníků. Statistické pravděpodobnosti odhadneme 35 Základy statistiky Tab. 1: Četnosti doby pobytu zákazníků v obchodě (intervaly 5 minut) Interval (min) Četnost <0;5) 77 (5; 10) 83 (10; 15) 25 (15; 20) 15 Celkem 200 relativními četnostmi: P«0;5)) 77 2ÔÔ 0,385, 25 P«10;15))« —= 0,125 P((5; 10)) 83 2ÔÔ 0,415, 15 P«15;20))« — = 0,075. Odhady tvoří rozdělení pravděpodobnosti na zvolených intervalech (součet je 1). □ 2.5 Podmíněna pravděpodobnost a nezávislé jevy Podmíněná pravděpodobnost Definice 2.17. Podmíněná pravděpodobnost je pravděpodobnost jevu A za předpokladu, že nastal jev B. Označuje se P(A \ B) a je definována jako: P{A | B) = P{p^], pokud P(P)>0. Tento koncept je užitečný v mnoha praktických situacích, například při odhadu pravděpodobnosti úspěchu produktu na trhu, pokud víme, že byl úspěšný v podobném segmentu. Nezávislé jevy Definice 2.18. Nezávislé jevy jsou takové jevy, jejichž výskyt jeden druhého neovlivňuje. To znamená, že pravděpodobnost výskytu jednoho jevu neovlivňuje pravděpodobnost výskytu druhého jevu. Pokud jsou dva jevy A a, B nezávislé, pak platí následující rovnost: P(Af]B) =P(A)-P(B). Pravděpodobnost jevů 36 Tato rovnost říká, že pravděpodobnost současného výskytu jevů A a B (jejich průniku) je součinem pravděpodobností jednotlivých jevů. Nezávislost je důležitý koncept, který se často vyskytuje v reálných situacích, například při opakovaných náhodných pokusech, jako je házení kostkou nebo mincí. V těchto případech výsledek jednoho hodu neovlivňuje výsledek následujících hodů, a proto jsou tyto pokusy nezávislé. Skupinově nezávislé jevy Definice 2.19. Jevy A, B a, C jsou skupinově nezávislé, jestliže platí následující podmínky: ' Nezávislost po dvou: Každá dvojice jevů musí být nezávislá, což znamená, že pro všechny dvojice jevů platí: P(Af]B) =P(A)-P(B), P(AnC) =P(A)-P(C), P(BnC) =P(B)-P(C). • Nezávislost po třech: Pro tři jevy zároveň musí platit, že průnik všech tří jevů odpovídá součinu jejich pravděpodobností: P (A n B n C) = P (Ä) ■ P (B) ■ P {C). Pokud jsou splněny všechny tyto podmínky, říkáme, že jevy A, B a C jsou skupinově nezávislé. Tato vlastnost je klíčová v situacích, kde analyzujeme souběh více nezávislých jevů, a je využívána v pravděpodobnostních modelech, jako je například rozklad nezávislých náhodných veličin. Příklad 2.20 (mini-příklad). Z balíčku 52 karet vytáhneme jednu kartu. Nechť A = {karta je eso}, B = {karta je piková}. Určete P (A | B). Řešení: Platí P (A) = ^, P{B) = || a P{A fl B) = (pikové eso je právě jedno). Proto P(A | B) p {A n B) _ ± _ i P(B) § 13' □ Příklad 2.21. Házíme dvěma férovými mincemi. Určete pravděpodobnost jevu: • A: padne líc a rub (v libovolném pořadí), • B: na první minci padne líc. 37 Základy statistiky Určete pravděpodobnost jevu A za předpokladu, že nastal jev B. Řešení: Možné výsledky hodu dvěma mincemi (uspořádané dvojice) jsou: 1. mince 2. mince LÍC LÍC RUB LÍC RUB LÍC RUB RUB Nejprve určíme pravděpodobnosti potřebné pro podmínění. Jev B nastane ve dvou ze čtyř stejně pravděpodobných výsledků, tedy P(B) = Jev Af] B znamená: na první minci je líc a zároveň padne líc i rub, takže na druhé minci musí být rub. To je právě jeden výsledek ze čtyř, tedy Příklad 2.22. Studenti při zkoušení mohou dostat tři otázky. První student je připraven pouze na 1. otázku, druhý pouze na 2. otázku, třetí pouze na 3. otázku a čtvrtý je připraven na všechny tři otázky. Náhodně vybereme jednoho studenta. Uvažujme jevy: • A\. vybraný student dokáže zodpovědět 1. otázku, • A2: vybraný student dokáže zodpovědět 2. otázku, • A3: vybraný student dokáže zodpovědět 3. otázku. Ukažte, že jevy Ai, A2, A% jsou po dvou nezávislé, ale nejsou vzájemně nezávislé. Řešení: Označme studenty (1), (2), (3), (4) podle zadání; každý je vybrán se stejnou pravděpodobností 1/4. Jednotlivé jevy. Jev A\ nastane, pokud byl vybrán student (1) nebo (4), tedy Podle definice podmíněné pravděpodobnosti: □ Pravděpodobnost jevů 38 Průniky dvojic. Jev A\ fl A2 nastane právě tehdy, když byl vybrán student (4) (jen ten umí obě otázky), tedy P(A1nA2) = 1-. Stejně platí P(A1 n A3) = P{A2 n A3) = i. Proto pro každou dvojici i ^ j dostáváme P{AlnA]) = \=l-.l-=P{Al)P{A]), a jevy jsou po dvou nezávislé. Průnik trojice. Jev A\ f\A2 C\A3 opět nastane pouze tehdy, když byl vybrán student (4), tedy P(A1nA2nA3) = i. Kdyby byly jevy vzájemně nezávislé, muselo by platit P(A, nA2n A3) = P(^)P(A2)P(A3) = l--l-.l-=1-. Protože jevy Ai,A2,A3 nejsou vzájemně nezávislé. □ 2.6 Úplná pravděpodobnost a Bayesova věta Úplná pravděpodobnost Definice 2.23. Nechť Bi,..., Bn tvoří rozklad prostoru íl, tj. n BíDBj =0 {i Ý j), \jBí = tt, a P(Bí) > 0 pro všechna i. Potom pro libovolný jev A platí zákon úplné pravděpodobnosti n n P(A) = J2P(An Bi) = E P(Bi) P(A | Bi). í=i í=i Poznámka 2.24. Smysl vzorce: jev A může nastat v různých „scénářích" B1}... ,Bn. Celková pravděpodobnost P (A) je vážený průměr podmíněných pravděpodobností P{A \ B i) s vahami Příklad 2.25. V obchodě jsou tři pokladny. Na pokladně 1 dojde k chybě v účtování s pravděpodobností 0,1, na pokladně 2 s pravděpodobností 0,05 a na pokladně 3 s pravděpodobností 0,2. Pravděpodobnosti, že zákazník bude odbaven pokladnami 1, 2 a 3, jsou postupně 0,3, 0,25 a 0,45. Jaká je pravděpodobnost, že zákazník opouštějící obchod má chybný účet? 39 Základy statistiky Řešení: Označme A jev „došlo k chybě v účtování" a Hi jev „zákazník byl odbaven na i-té pokladně", i = 1,2,3. Jevy H1}H2,H3 tvoří rozklad prostoru (zákazník projde právě jednou pokladnou), proto použijeme zákon úplné pravděpodobnosti: P{A) = J2P{Ht)P{A\Ht). i=i Dosadíme: P (A) = 0,3 • 0,1 + 0,25 • 0,05 + 0,45 • 0,2. P(A) = 0,03 + 0,0125 + 0,09 = 0,1325. Pravděpodobnost chybného účtu je tedy 0,1325 (tj. přibližně 13,25%). □ Bayesova věta Definice 2.26. Nechť B±,..., Bn tvoří rozklad prostoru Q (tj. Bi fl B j = 0 pro i ^ j, \Ji=i Bi = Q a P{Bi) > 0). Potom pro libovolný jev A s P (A) > 0 platí Bayesova věta: P(Bt | A) P (A Bi) P(Bi) Y.n3=1P(A Jmenovatel je celková pravděpodobnost jevu A, tj. podle zákona úplné pravděpodobnosti P(A) = J2P(A\BJ)P(Bj). Poznámka 2.27. Bayesova věta „obrací podmínku": z pravděpodobnosti důsledku při dané příčině P{A | B i) a z apriorní pravděpodobnosti příčiny P{Bi) určíme aposteriorní pravděpodobnost příčiny po pozorování důsledku P(Bi \ A). Příklad 2.28 (Bayesova věta). V obchodě jsou tři pokladny. Pravděpodobnost chyby v účtování je na pokladnách 1, 2, 3 postupně 0,1, 0,05 a 0,2. Pravděpodobnosti odbavení zákazníků pokladnami 1, 2, 3 jsou 0,3, 0,25 a 0,45. Pokud dojde k chybě v účtování, jaká je pravděpodobnost, že k ní došlo na třetí pokladně? Řešení: Označme A jev „došlo k chybě" a Hi jev „zákazník byl odbaven na i-té pokladně", i = 1,2,3. Hledáme P(H3 | A). Nejprve určíme P (A) zákonem úplné pravděpodobnosti: P(A) = 0,3 • 0,1 + 0,25 • 0,05 + 0,45 • 0,2 = 0,1325. Pak použijeme Bayesovu větu: P(H, | A) = PiA ' H?lPW = = « 0,6792. v 3 1 ; P (A) 0,1325 0,1325 Pravděpodobnost, že chyba vznikla na třetí pokladně, je přibližně 67,92 %. □ Pravděpodobnost jevů 40 Příklad 2.29 (Pozitivní lékařský test). Prevalence výskytu AIDS v populaci je 0,6%. Test má senzitivitu 99,9 % (tj. je pozitivní s pravděpodobností 0,999, je-li osoba nakažená) a specificitu 99% (tj. je negativní s pravděpodobností 0,99, je-li osoba zdravá). Jaká je pravděpodobnost, že osoba s pozitivním testem má skutečně AIDS? Řešení: Označme: A: osoba má AIDS, tedy P (A) = 0,006, • Ä: osoba nemá AIDS, tedy P(A) = 0,994, T+: test je pozitivní. Ze zadání: P(T+ | A) = 0,999, P(T+ | ~Á) = 1 - 0,99 = 0,01. Použijeme Bayesovu větu: P (A | T+) Dosadíme: P(T+ A) P{A) P(T+ A) P{A) + P(T+ A) P{A) * , °>999 • 0>006 0,005994 P(A T+ =-----= --« 0,376. v 1 ; 0,999-0,006 + 0,01-0,994 0,015934 Pravděpodobnost, že osoba s pozitivním testem má skutečně AIDS, je přibližně 37,6 %. □ Pozor (typická chyba / base-rate fallacy): Vysoká senzitivita a specificita ještě neznamenají, že P{A | T+) bude blízko 1. Výsledek výrazně závisí na prevalenci P (A): je-li nemoc vzácná, mohou falešně pozitivní výsledky tvořit velkou část všech pozitivních testů. Interpretace (test na vzácné onemocnění): Uvažujme 10 000 náhodně vybraných osob. Při prevalenci 0,6% očekáváme asi 0,006 • 10 000 = 60 nakažených a 9 940 zdravých. Z nakažených bude test pozitivní přibližně u 0,999 • 60 ~ 60 osob, zatímco ze zdravých bude falešně pozitivních asi 0,01 -9 940 ~ 99 osob. Celkem tedy bude pozitivních zhruba 60 + 99 = 159 osob, z nichž nakažených je asi 60, takže 60 P(A | T+) « — « 0,38, což odpovídá vypočtené hodnotě 0,376. 41 Základy statistiky 2.7 Opakované pokusy Definice 2.30. Opakované pokusy jsou situace, kdy tentýž náhodný pokus provádíme vícekrát za stejných podmínek. Zajímá nás zejména rozdělení počtu výskytů určitého jevu v n opakováních. 2.7.1 Nezávislé pokusy Definice 2.31. Nezávislé opakované pokusy jsou takové, v nichž výsledek jednoho pokusu neovlivňuje výsledky dalších pokusů. V každém pokusu má sledovaný jev (např. „úspěch") stejnou pravděpodobnost. Poznámka 2.32. Typickým příkladem je opakovaný hod férovou mincí nebo kostkou. V praxi se s nezávislými pokusy setkáme např. při testování shodně vyrobených kusů (každý testovaný kus je jiný exemplář) nebo při opakovaném náhodném výběru. Definice 2.33 (Bernoulliho schéma (binomické rozdělení)). Mějme n nezávislých pokusů, v nichž může nastat jev A („úspěch") s pravděpodobností p; označme q = 1 — p. Nechť X je počet úspěchů v n pokusech. Potom X má binomické rozdělení a pro k = 0,1,... ,n platí P{X = k) = (n\pkqn-k. Nejpravděpodobnější počet úspěchů (modus). Nejpravděpodobnější hodnota k splňuje (n + l)p — 1 < k < {n + l)p. Je-li (n + l)p celé číslo, existují dvě nejpravděpodobnější hodnoty: k = (n + l)p — 1 a k = (n + l)p; jinak je modus jednoznačný a platí k = [(n + l)p\. Příklad 2.34. Házíme šestkrát férovou hrací kostkou. Vypočtěte pravděpodobnost, že šestka padne právě dvakrát. Řešení: Jde o Bernoulliho schéma s parametry n = 6, p = | („úspěch" = „padne šestka") a Numericky: P(* = 2) = 15 ■ i ■= « 0,2009. v ; 36 1296 46656 Pravděpodobnost, že šestka padne právě dvakrát, je tedy přibližně 0,2009. □ Pravděpodobnost jevů 42 Příklad 2.35. Sportovní střelec zasáhne cíl při každém výstřelu s pravděpodobností p = 0,8. Vypočtěte pravděpodobnost, že při 5 výstřelech budou v cíli: 1. právě 2 zásahy, 2. nejvýše jeden zásah, 3. alespoň 2 zásahy. Řešení: Počet zásahů označme X. Při nezávislých výstřelech platí X ~ Bi(« = 5,p = 0,8), tedy P(X = k)= Q(0,8)fc(0,2)5"fc. 1. Pravděpodobnost právě 2 zásahů: P(X = 2) = Q (0,8)2(0,2)3 = 10 • 0,64 • 0,008 = 0,0512. 2. Pravděpodobnost nejvýše jednoho zásahu: P(X < 1) = P(X = 0) + P(X = 1), P(X = 0) = Q (0,8)°(0,2)5 = (0,2)5 = 0,00032, P(X = 1) = Q (O^)1^)4 = 5 • 0,8 • 0,0016 = 0,0064, P{X < 1) = 0,00032 + 0,0064 = 0,00672. 3. Pravděpodobnost alespoň dvou zásahů: P(X > 2) = 1 - P(X < 1) = 1 - 0,00672 = 0,99328. □ Příklad 2.36. Pravděpodobnost, že náhodně vybraný student bude znát učivo, je p = 0,05. Jaká je pravděpodobnost, že mezi dvaceti vybranými studenty bude: a) právě 5 znalých studentů, • b) nejvýše 2 znalí studenti, • c) alespoň jeden znalý student? Řešení: Označme X počet znalých studentů mezi n = 20 náhodně vybranými. Předpokládáme nezávislost a stejnou pravděpodobnost znalosti, tedy X ~ Bi(20,0,05) a P(X = k)= r°j(0,05)fc(0,95)20^. 43 Základy statistiky a) Pravděpodobnost, že budou právě 5 znalí: P(X = 5)= ^(0,05)5(0,95)15 = 15504 • 0,0000003125 • 0,463291 « 0,002245. b) Pravděpodobnost, že budou nejvýše 2 znalí: P(X < 2) = P(X = 0) + P(X = 1) + P(X = 2), P(X = 0) = (0,95)20 « 0,358486, P(X = 1) = ^ (0,05)(0,95)19 = 1 • (0,95)19 « 0,377354, P(X = 2) = ^ (0,05)2(0,95)18 = 190 • 0,0025 • (0,95)18 « 0,188677, P(X < 2) « 0,358486 + 0,377354 + 0,188677 = 0,924516. c) Pravděpodobnost, že bude alespoň jeden znalý: P(X > 1) = 1 - P(X = 0) = 1 - (0,95)20 « 1 - 0,358486 = 0,641514. □ 2.7.2 Závislé pokusy Definice 2.37. Závislé opakované pokusy jsou takové, v nichž výsledek jednoho pokusu mění pravděpodobnosti v pokusech následujících. Typicky se to děje tehdy, když po provedení pokusu dojde ke změně podmínek (např. změna složení urny po výběru bez vracení). Poznámka 2.38. Nejčastějším modelem závislých opakovaných pokusů v základním kurzu je výběr bez vracení. Počet „úspěchů" ve výběru pak má hypergeometrické rozdělení. Definice 2.39 (Výběr bez vracení (hypergeometrické rozdělení)). Mějme soubor N prvků, z nichž M má sledovanou vlastnost („úspěch") a N — M ji nemá („neúspěch"). Náhodně vybereme bez vracení n prvků. Označme X počet vybraných prvků se sledovanou vlastností. Potom pro k = 0,1,..., n (přesněji pro ta k, pro něž má výraz smysl) platí P(X = k) M\ ÍN-M k ) \ n—k N' Příklad 2.40. V osudí jsou 2 bílé a 3 černé koule. Určete pravděpodobnost toho, že: Pravděpodobnost jevů 44 • a) vytáhneme naráz 3 koule a budou 2 černé a 1 bílá, • b) vytáhneme po jedné bez vracení 2 černé a 1 bílou (v libovolném pořadí). Řešení: V obou případech jde o tentýž výběr bez vracení, jen jinak popsaný. ad a) Naráz vybíráme n = 3 koule z N = 5, přičemž „úspěch" definujeme jako „černá koule". Tedy M = 3 a chceme k = 2: P(X = 2) = = — = 0,6. 10 ad b) Při postupném výběru bez vracení a požadavku „2 černé a 1 bílá v libovolném pořadí" dostaneme stejnou pravděpodobnost jako v bodě a). Např. pro konkrétní pořadí CBC platí P(ČBČ) = - • - • - = -. v ; 5 4 3 5 Stejnou pravděpodobnost mají i pořadí CCB a BCC, takže 1 P(2 černé a 1 bílá) = 3 • - = 0,6. 5 □ Příklad 2.41. Mezi 15 výrobky je 5 zmetků. Vybereme 3 výrobky. Jaká je pravděpodobnost, že právě jeden z nich je vadný, jestliže: • a) vybereme všechny 3 najednou, • b) vybíráme po jednom bez vracení? Řešení: Opět jde v obou případech o tentýž výběr bez vracení. Označme X počet vadných kusů ve výběru. Máme N = 15, M = 5 (vadné), n = 3 a chceme k = 1: a) (2°) 5-45 225 45 P(X = 1) = v =-=-= — « 0,4945. v ; /15^ 455 455 91 ad a) Výsledek je přímo uveden výše. ad b) Při postupném výběru bez vracení lze stejně dojít součtem přes pořadí (V = vadný, D = dobrý): P(VDD) = 1 ■ 12 . 1, P(DVD) = — . -5---— P(DDV) = 1» . JL . 1, v 7 15 14 13 v 7 15 14 13 v 7 15 14 13 a tedy P(X = 1) = P(VDD) + P(DVD) + P(DDV), což dá stejný výsledek §. □ 45 Základy statistiky 2.8 Souhrnné příklady Příklad 2.42. Mějme pět vstupenek po 100 Kč, tři vstupenky po 300 Kč a dvě vstupenky po 500 Kč. Náhodně vybereme tři vstupenky (bez vracení). Určete pravděpodobnost toho, že: • a) alespoň dvě z těchto vstupenek mají stejnou hodnotu, • b) všechny tři vstupenky stojí dohromady 700 Kč. Řešení: Celkem je N = 10 vstupenek a vybíráme n = 3, takže počet všech stejně pravděpodobných výběrů je ad a) Řešíme přes opačný jev. Opačný jev k „alespoň dvě mají stejnou hodnotu" je „všechny tři mají různé hodnoty", tj. jedna za 100 Kč, jedna za 300 Kč a jedna za 500 Kč. Počet takových výběrů je (i) (')(;), tedy ; ? í P(všechny různé Proto '!)©(?) - 30 3 10 3 ad b) Součet 700 Kč může nastat jen ve dvou typech výběrů: 5\ Í3\ 2h P(alespoň dvě stejné) = 1 — P(všechny různé) = 1 — /in\ = 1 — y^ = y = 0,75. (100, 300, 300): (° (100, 100, 500): Tedy r5\ /3\ , Í5\ (2 i 15 +20 7 P(celkem 700 Kč) = ^ ^ 1Q ^ W = = - « 0,2917. □ Příklad 2.43. Z celkové produkce závodu jsou 4% zmetků a z dobrých výrobků je 75 % standardních. Určete pravděpodobnost, že náhodně vybraný výrobek je standardní. Řešení: Označme: A = {výrobek je dobrý (není zmetek)}, B = {výrobek je standardní}. Zadání říká, že P (A) = 0,96 a P{B \ A) = 0,75. Standardní výrobek musí být dobrý, tedy B C A a, platí P(B) = P (A n B) = P (A) P (B I A) = 0,96 • 0,75 = 0,72. □ Pravděpodobnost jevů 46 Příklad 2.44. Z výrobků určitého druhu dosahuje 95 % předepsanou kvalitu. V určitém závodě, který vyrábí 80 % celkové produkce, má předepsanou kvalitu 98 % výrobků. Mějme náhodně vybraný výrobek předepsané kvality. Jaká je pravděpodobnost, že byl vyroben ve výše uvedeném závodě? Řešení: Označme: A = {výrobek je ze zmíněného závodu}, B = {výrobek je předepsané kvality}. Hledáme P (A | B). Známe P {A) = 0,8, P(Á) = 0,2, P(B | A) = 0,98. Dále je dáno, že celkově platí P{B) = 0,95. (To je klíčový údaj; bez něj nelze P (A | B) určit.) Použijeme Bayesovu větu: P (A B) = —i—' \ v ; =--- =--« 0,8253. V 1 ; P(B) 0,95 0,95 □ O V této kapitole jsme zavedli základní pojmy teorie pravděpodobnosti a ukázali jsme jejich použití na typových úlohách. Pracovali jsme s modely, ve kterých pravděpodobnost vyjadřuje míru nejistoty výsledku náhodného pokusu, a naučili jsme se rozlišovat situace s konečným i spojitým prostorem výsledků. ' Náhodný pokus - opakovatelný proces, jehož výsledek nelze předem jistě určit (např. hod kostkou, losování). Množinu všech možných výsledků nazýváme prostor elementárních jevů íl. • Náhodný jev - podmnožina íž; jev A nastane právě tehdy, když výsledek pokusu patří do A. Rozlišili jsme jev jistý, nemožný, elementární a složený a uvedli základní vztahy mezi jevy (doplněk, průnik, sjednocení, neslučitelnost). ' Klasická pravděpodobnost - v konečném prostoru Q se stejně pravděpodobnými elementárními jevy platí počet příznivých výsledků počet všech výsledků Typicky např. při hodu férovou kostkou je P({padne 6}) = |. Geometrická pravděpodobnost - v „kontinuálním" modelu určíme pravděpodobnost jako poměr délek/obsahů/objemů, např. velikost příznivé oblasti velikost celé oblasti Statistická (frekvenční) pravděpodobnost pravděpodobnost jevu interpretujeme jako limitu relativní četnosti v dlouhé řadě opakování pokusu; v praxi ji odhadujeme z dat. 47 Základy statistiky ' Podmíněná pravděpodobnost - pravděpodobnost jevu A za podmínky že nastal jev B, PIA I B) = P(B) > 0. • Nezávislost jevů - jevy A a, B jsou nezávislé, jestliže P(Af]B) = P(A)P(B), a upozornili jsme na rozdíl mezi nezávislostí po dvou a vzájemnou (skupinovou) nezávislostí. Zákon úplné pravděpodobnosti a Bayesova věta použili jsme rozklad prostoru na disjunktní případy a vypočítali pravděpodobnosti „zpětně" (pravděpodobnost příčiny při známém důsledku). Opakované pokusy - pro nezávislé opakované dichotomické pokusy jsme uvedli Bernoulliho schéma (binomický vzorec) a pro výběr bez vracení hypergeomet-rické rozdělení. Získané pojmy a vzorce tvoří základ pro následující kapitoly: umožňují jednak správně modelovat náhodné situace, jednak přesně interpretovat výsledné pravděpodobnosti v kontextu daného problému. 1. Máme 230 výrobků, mezi nimiž je 20 nekvalitních. Vybereme 15 výrobků bez vracení. Jaká je pravděpodobnost, že mezi 15 vybranými bude právě 10 dobrých (a tedy 5 nekvalitních)? [0,00448] 2. Pacienta lze kontrolovat v čase od 7 do 20 hodin. Vycházky má od 13 do 15 hodin. Jaká je pravděpodobnost, že při náhodně zvolené kontrole v intervalu (7; 20) bude pacient doma k zastižení? [11/13] 3. Dva sportovní střelci střílejí nezávisle na sebe do jednoho terče (každý jednou). Pravděpodobnost zásahu prvního střelce je 0,8, druhého 0,4. Při střelbě byl v terči právě jeden zásah. Jaká je pravděpodobnost, že terč zasáhl první střelec? [0,857] 4. Pravděpodobnost výhry hráče v jedné partii je 0,6. Určete nejpravděpodobnější počet výher hráče v deseti odehraných partiích. [6] 5. Série 100 výrobků je kontrolována náhodným výběrem 5 kusů bez vracení. Série je považována za „špatnou", je-li alespoň jeden z pěti vybraných výrobků vadný. Vypočtěte pravděpodobnost, že série bude vyhodnocena jako špatná, víme-li, že obsahuje 5% vadných výrobků. [0,230] 6. V telefonním seznamu náhodně vybereme jedno šestimístné číslo (může začínat nulou) a předpokládáme, že v seznamu jsou použita všechna šestimístná čísla. Jaká je pravděpodobnost, že číslo: a. neobsahuje číslici 0? [0,53144] b. obsahuje alespoň jednu číslici 3? [0,46856] c. obsahuje právě jednu číslici 3? [0,35429] Pravděpodobnost jevů 48 Literatura k tématu: [1] OTIPKA, P., SMAJSTRLA, V. Pravděpodobnost a statistika [online]. 1. vydání. Ostrava: VŠB-TU Ostrava, 2007 [cit. 2024-09-09]. ISBN 80-248-1194-4. Dostupné z: https://homel.vsb.cz/~oti73/cdpastl/ [2] CALDA, E., DUPAC, V. (2008). Matematika pro gymnázia: Kombinatorika, pravděpodobnost, statistika (5. vydání, dotisk 2011). Praha: Prométheus. ISBN 978-80-7196-365-3. [3] ZVÁRA, K. a ŠTĚPÁN, J. Pravděpodobnost a matematická statistika. Matfyzpress, 2019. ISBN 978-80-7378-388-4. Kapitola 3 Náhodná veličina Po prostudování této kapitoly budete umět: • rozlišovat mezi diskrétními a spojitými náhodnými veličinami, ' chápat rozdíl mezi pravděpodobnostní funkcí (pro diskrétní veličiny) a hustotou pravděpodobnosti (pro spojité veličiny), vypočítat střední hodnotu, rozptyl a směrodatnou odchylku pro různá rozdělení náhodných veličin, ' chápat význam distribuční funkce a umět ji interpretovat pro různé typy náhodných veličin, ' sestavit pravděpodobnostní funkci, hustotu pravděpodobnosti a distribuční funkci a graficky je znázornit. Klíčová slova: Diskrétní rozdělení, spojité rozdělení, pravděpodobnostní funkce, distribuční funkce, hustota pravděpodobnosti, střední hodnota, rozptyl, šikmost a špičatost. Náhodná veličina 50 Náhled kapitoly V této kapitole navážeme na pojem náhodného jevu z předchozí části a zavedeme si klíčový pojem teorie pravděpodobnosti - náhodnou veličinu. Ta nám umožňuje převést abstraktní výsledky náhodných pokusů do světa čísel. Dále se podíváme, jak je možné pomocí rozdělení pravděpodobnosti určit, s jakou šancí budou tyto číselné hodnoty nastávat. Kapitola se zaměřuje na rozlišení diskrétních a spojitých náhodných veličin a na způsoby výpočtu jejich základních charakteristik: střední hodnoty, rozptylu a směrodatné odchylky. Cíle kapitoly Cílem této kapitoly je prohloubení základů teorie pravděpodobnosti a upevnění poznatků o náhodných veličinách a jejich rozděleních, které budou nezbytným předpokladem pro metody induktivní statistiky v následujících kapitolách. Časová náročnost Doporučený čas na zvládnutí kapitoly je přibližně 4 až 5 hodin. Tento čas zahrnuje čtení textu, pochopení základních pojmů a principů, řešení ukázkových příkladů a samostatné procvičení výpočtů základních charakteristik. Náhodný jev a náhodná veličina Definice 3.1. Náhodný jev je událost, která může, ale nemusí nastat v rámci nějakého pokusu nebo procesu. Můžeme si ho představit jako výsledek experimentu, který závisí na náhodě. Pravděpodobnost je míra, která kvantifikuje možnost, že k danému náhodnému jevu dojde, a pohybuje se v rozmezí od 0 (jev nemožný) do 1 (jev jistý). Například pravděpodobnost, že při hodu kostkou padne číslo 6, je |, protože existuje 6 možných výsledků a každý má stejnou šanci nastat. Definice 3.2. Náhodná veličina je proměnná, která může nabývat různých (reálných) hodnot v závislosti na výsledku náhodného pokusu. Například při hodu kostkou může náhodná veličina X představující výsledek hodu nabývat hodnot 1,2,3,4,5 nebo 6. Každý z těchto výsledků je výsledek náhodného procesu. Náhodné veličiny slouží především k tomu, abychom abstraktním výsledkům náhodných pokusů (např. „padne líc") přiřadili konkrétní číselné hodnoty, se kterými lze dále matematicky a statisticky pracovat. 51 Základy statistiky Příklady náhodných veličin mohou být: • Počet líců při deseti hodech mincí. ' Počet zákazníků, kteří navštíví obchod v určitém dni. Výška náhodně vybraného člověka z populace. ' Doba, za kterou přijede autobus na zastávku. Výsledek hodu dvěma kostkami (součet bodů). ' Počet vadných kusů ve výrobní sérii 100 produktů. Tyto příklady ukazují různé typy náhodných veličin - některé jsou diskrétní (počet líců, počet zákazníků), jiné spojité (výška člověka, čas čekání). Rozdělení pravděpodobnosti Rozdělení pravděpodobnosti popisuje, jak jsou pravděpodobnosti jednotlivých možných výsledků náhodné veličiny rozloženy. Například u hodu (férovou) kostkou mají všechny výsledky (hodnoty 1 až 6) stejnou pravděpodobnost, tedy |. V praxi však ne vždy všechny výsledky mají stejnou pravděpodobnost. Rozdělení pravděpodobnosti tedy udává, s jakou pravděpodobností různé hodnoty náhodné veličiny nastanou. Rozdělení pravděpodobnosti nám tedy poskytuje obraz o tom, jak často můžeme očekávat jednotlivé výsledky náhodného pokusu. V závislosti na typu náhodné veličiny rozlišujeme dvě hlavní kategorie: diskrétní a spojité náhodné veličiny. 3.1 Rozdělení pravděpodobnosti diskrétní náhodné veličiny Diskrétní náhodná veličina nabývá pouze konečného nebo spočetně nekonečného množství možných hodnot. Příkladem diskrétní náhodné veličiny je počet vadných výrobků v sérii nebo počet zákazníků přicházejících do obchodu za jeden den. Diskrétní náhodná veličina je jednoznačně určena posloupností reálných čísel {xn} a posloupností pravděpodobností {pn = P(X = xn)}. Příklad 3.3. Diskrétní náhodná veličina X nabývá hodnot M = {1,2,4,5} s pravděpodobnostmi p (k) = P (X = k), kde 1111 = g, P(2) = ^ M4) = jj, P(5) = 4 a P(x) = 0 Jinak- Náhodná veličina 52 Zapisujeme také pomocí tabulky či obrázku: k 1 2 4 5 P (X = k) i 3 i 4 i 6 i 4 1/3 ■ 1M ■ 116 ■ Definice 3.4. Diskrétní náhodné veličiny mají svou pravděpodobnostní funkci, která přiřazuje každé hodnotě náhodné veličiny určitou pravděpodobnost P{X = x,j) = pi} pro M, kde Xi je možná hodnota diskrétní náhodné veličiny X, a Pí je pravděpodobnost, že X nabude hodnoty x,i. Vlastnosti pravděpodobnostní funkce: p(x) > 0 Wx G IR, xeM Výpočet pravděpodobnosti (jevu B): P{X eB)=Y,P(x = Xi) = P&i) (součet pravděpodobností všech výsledků, které patří do množiny B; protože nenulové pravděpodobnosti jsou pouze pro hodnoty z množiny M, sčítáme reálně jen na průniku B DM.) Definice 3.5 (Distribuční funkce). Distribuční funkce náhodné veličiny X je reálná funkce F : IR —y (0; 1) definovaná vztahem F(x) = P(X 5. Nej názornější stejně budou grafy na obrázku 1. 1/3 — 1/4 — 1/6 — Obr. 1: Pravděpodobnostní a distribuční funkce k příkladu 3.6 □ Z příkladu 3.6 sice můžeme odpozorovat některé vlastnosti distribuční funkce, ale raději si je zde vypíšeme: Náhodná veličina 54 Vlastnosti distribuční funkce: . F(x) E <0;1>, • F je neklesající, • F je zprava spojitá, • F je definovaná na IR, • lim F (x) = 0, lim F (x) = 1, x^—oo x^oo • P(X = x q) = F (x q) — lim F (x) (výška skoku v bodě xq). Příklad 3.7. V osudí je 5 bílých a 7 červených míčků. Náhodná veličina X představuje počet bílých míčků mezi pěti vybranými. Vytvořte pravděpodobnostní a distribuční funkci této náhodné veličiny. Řešení: Náhodná veličina X nabývá hodnot {0,1,2,3,4,5}. Z teorie pravděpodobnosti víme, že se jedná o výběr bez vracení (závislé pokusy). Můžeme tedy sestavit pravděpodobnostní funkci pro jednotlivé hodnoty X pomocí vzorce pro hypergeometrické rozdělení: P(X = x) = Na základě této funkce vytvoříme tabulku pravděpodobností: 0 1 2 3 4 5 Pí 21 792 175 792 350 792 210 792 35 792 1 792 Pravděpodobnostní funkci lze graficky znázornit pomocí bodového nebo úsečkového (hůlkového) diagramu. Distribuční funkce F(x) bude mít skoky v bodech 0,1, 2,3,4, 5. Hodnoty funkce F(x) v těchto bodech jsou určeny jako součet všech předcházejících pravděpodobností pf. F(xí) = P(X < Xi). Tabulka pro hodnoty distribuční funkce ve skocích: 0 1 2 3 4 5 F(xí) 21 792 196 792 546 792 756 792 791 792 1 55 Základy statistiky Graf distribuční funkce u diskrétní náhodné veličiny tvoří schodovitý diagram (funkce je po částech konstantní a v bodech x i má skoky). □ 3.2 Rozdělení pravděpodobnosti spojité náhodné veličiny Spojitá náhodná veličina nabývá hodnot z nějakého intervalu reálných čísel. Příkladem může být výška náhodně vybraného člověka nebo doba, kterou zákazník stráví v obchodě. Spojité náhodné veličiny nemají konkrétní pravděpodobnosti pro jednotlivé hodnoty (pravděpodobnostní funkci), ale místo toho pracují s tzv. hustotou pravděpodobnosti, která určuje pravděpodobnost, že náhodná veličina nabyde hodnoty z určitého intervalu. Definice 3.8. Náhodná veličina X s distribuční funkcí F se nazývá spojitá, jestliže existuje nezáporná funkce /: IR —> IR taková, že F(x) = ľ f(t) dt, \/x e R. J — oo Funkce f (x) se nazývá hustota (rozdělení pravděpodobností) náhodné veličiny X. Vlastnosti hustoty: f(x) > 0, /oo f(t)dt =1 =>- plocha pod křivkou hustoty vyjadřuje celkovou pravděpodob--oo ' —oo nost f(x) = F'{x) v každém bodě x, kde F' existuje, P{a 02. Určete hustotu pravděpodobnosti f (x), znázorněte graficky F (x) a f (x), a vypočtěte P(0,4 < X < 1,6). 57 Základy statistiky Řešení: Hustotu pravděpodobnosti f(x) získáme derivací distribuční funkce F(x): '0, x < 0, ,0, x>2. Graf distribuční funkce F(x) a hustoty pravděpodobnosti f(x) by vypadal následovně: > Distribuční funkce F(x): Kvadratický nárůst od 0 do 1 v intervalu 0 < x < 2. ' Hustota pravděpodobnosti f(x): Lineární funkce rostoucí od 0 do 1 v intervalu 0 < x < 2. Pravděpodobnost P(0,4 < X < 1,6) vypočítáme jako: , \ , \ 1,62 0,42 2,56 0,16 2,4 P(0,4 < X < 1,6) = F(l,6) - F(0,4) =-L---\- = _L---T = ^ = 0,6. □ Příklad 3.10. Hustota pravděpodobnosti náhodné veličiny X má tvar: I a ■ x, 0 < x < 2, /(£) = < 1 0, jinak. Určete koeficient a, distribuční funkci F(x) a vypočtěte P(0 < X < 1). Řešení: Nejdříve určíme koeficient a. Platí, že integrál hustoty pravděpodobnosti přes celý definiční obor musí být roven 1: 2 a ■ x dx = 1. o ŕ n x2 2 4 / i di = a ■ = a - = 2a /o y 0 2 Po integraci dostáváme: Z toho plyne, že 2a = 1, tedy a = |. Distribuční funkci F(x) získáme integrací hustoty pravděpodobnosti: '0, x < 0, ^) = Uoae5-ídí = é-T = T. 02. Nyní vypočítáme pravděpodobnost P(0 < X < 1): l2 1 P(0 < X < 1) = P(l) - P(0) = — - 0 = - = 0,25. □ Příklad 3.11. Určete konstanty A a, B tak, aby funkce F(x) = A + B ■ arctan(rr) definovaná pro všechna reálná čísla byla distribuční funkcí rozložení náhodné veličiny. Náhodná veličina 58 Řešení: Aby funkce F(x) byla distribuční funkcí, musí splňovat následující podmínky: 1. lim^-oo F(x) = 0, 2. lim^oo F(x) = 1. Z první podmínky plyne: lim (A + B ■ arctan(rr)) = A + B ■ (--) = 0. Z toho vyplývá, že A = Z druhé podmínky plyne: lim (A + B ■ arctan(rr)) = A + B ■ - = 1. x^oo 2 Dosazením A = -^r dostáváme: -+ B-- = 1 => Bn = l 5 = -. 2 2 7T Tedy A=\. Distribuční funkce má tedy tvar: 1 1 = —|— • arctan(rr). 2 7T □ 3.3 Číselné charakteristiky náhodné veličiny Pravděpodobnostní funkce nebo hustota nám dávají kompletní a detailní obraz o chování náhodné veličiny. V praxi ale často potřebujeme tento složitý obraz shrnout do několika málo srozumitelných čísel, abychom mohli různá data rychle porovnávat. Zajímá nás především: Kde je „střed"? (Jaký výsledek můžeme v průměru očekávat?) Jak velký je „rozptyl"? (Jak moc hodnoty kolísají kolem tohoto středu?) Jaký je „tvar"? (Je rozdělení symetrické, nebo je vychýlené na jednu stranu?) 59 Základy statistiky Střední hodnota Střední hodnota není nic jiného než teoretický průměr. Udává hodnotu, kolem které by se ustálil průměr výsledků, kdybychom náhodný pokus opakovali mnohokrát (ideálně nekonečně-krát). U diskrétní veličiny ji spočítáme jako klasický vážený průměr, kde vahami jsou pravděpodobnosti jednotlivých výsledků. U spojité veličiny nahradíme sumu integrálem. Definice 3.12. Střední hodnota (očekávaná hodnota, z angl. Expected value) diskrétní náhodné veličiny X je definována jako: E(X) =J2^-P(X = Xi) = i i Definice 3.13. Střední hodnota spojité náhodné veličiny X je definována jako integrál z hodnot náhodné veličiny vážených její hustotou pravděpodobnosti: /oo x- f(x) dx. -oo Modus (Nejčastější hodnota) Kromě průměru nás často zajímá i to, jaká hodnota je v daném rozdělení ta vůbec nejtypičtější. Definice 3.14. Modus je hodnota náhodné veličiny, která má nejvyšší pravděpodobnost výskytu. Značíme ji Mo(X). • U diskrétní veličiny je to hodnota x, pro kterou je P{X = x) největší. U spojité veličiny je to hodnota (bod na ose x), kde má hustota f(x) svůj nejvyšší vrchol. Rozptyl a směrodatná odchylka Představte si dva střelce: oba mají průměrný zásah přesně do středu terče (stejná střední hodnota). První střelec ale trefuje desítky a devítky, zatímco druhý střídá okraje terče (jedničky a dvojky) s náhodnými trefami do středu. Potřebujeme tedy míru, která nám ukáže, jak moc se výsledky odchylují od průměru. Náhodná veličina 60 Definice 3.15. Rozptyl (z angl. Variance) měří průměrnou čtvercovou odchylku hodnot od střední hodnoty. Pro diskrétní veličinu: D(X) = Var(X) = £>ť - E{X)f ■ Pi. i Pro spojitou veličinu: /oo (x - E{X)f ■ f{x) dx = E{X2) - \E{X)}2. -oo Protože se rozptyl počítá v „kvadrátech" (na druhou), vycházejí nám nepraktické jednotky -pokud měříme výšku v cm, rozptyl vyjde v cm2. Proto v praxi drtivou většinu času používáme směrodatnou odchylku, která nás odmocněním vrátí do původních jednotek. Definice 3.16. Směrodatná odchylka je druhá odmocnina z rozptylu: a(X) = JĎ{X)- Poskytuje nám přirozené měřítko toho, jak daleko od středu (v původních jednotkách) můžeme typicky očekávat další hodnoty. Koeficienty šikmosti a špičatosti Zatímco střední hodnota a rozptyl řeší polohu a šířku rozdělení, koeficienty šikmosti a špičatosti popisují jeho tvar. Definice 3.17 (Koeficient šikmosti náhodné veličiny X). E[{X-E{X)f] 7i Interpretace šikmosti (71): 71 = 0: Rozdělení je symetrické (např. dokonalý zvonovitý tvar). Platí, že E{X) « Mo(X). 7i > 0: Rozdělení je protáhlé napravo (tzv. pravostranná asymetrie). Typickým příkladem jsou mzdy - většina lidí má průměrnou či podprůměrnou mzdu (kopec vlevo), ale malá skupina extrémně bohatých táhne dlouhý „ocas" grafu doprava. Platí: Mo(X) < E(X). 71 < 0: Rozdělení je protáhlé nalevo (ocas grafu směřuje doleva). 61 Základy statistiky Definice 3.18 (Koeficient špičatosti náhodné veličiny X). E [(X - £(X))41 72 3. Interpretace špičatosti (72): Špičatost měří, jak velká část pravděpodobnosti je koncentrována blízko středu v porovnání s „chvosty" (okraji) rozdělení. ■ 72 = 0: Normální (Gaussovo) rozdělení. (Proto je ve vzorci odečtena trojka, aby normální rozdělení vyšlo jako etalon s nulou). ■ 72 > 0: Rozdělení je „špičatější" s tlustšími okraji. Hodnoty jsou buď silně nahuštěné u středu, nebo naopak obsahují extrémní odchylky. ■ 72 < 0: Rozdělení je „plošší". Hodnoty jsou rovnoměrněji rozprostřeny do šířky, extrémy se nevyskytují tak často. Příklad 3.19. Náhodná veličina X je dána tabulkou: 1 2 3 4 Pí 0,3 0,1 0,4 ? Určete její základní číselné charakteristiky. Řešení: Nejprve zjistíme chybějící hodnotu pravděpodobnosti p4: p4 = 1- (P1+P2+P3) = 1- (0,3 + 0,1 + 0,4) = 0,2. Nyní vypočítáme jednotlivé číselné charakteristiky. Použijeme následující tabulku: X;L 1 2 3 4 E Pí 0,3 0,1 0,4 0,2 1,0 %í' Pí 0,3 0,2 1,2 0,8 2,5 x2 ■ pi 0,3 0,4 3,6 3,2 7,5 Střední hodnota (průměr): E(X) = 2,5 Rozptyl: D(X) = E(X2) - [E(X)}2 = 7,5 - (2,5)2 = 7,5 - 6,25 = 1,25 Směrodatná odchylka: 2. Decil £0,1 je hodnota, pro kterou platí F^xq^) = 0,1. Hledáme tedy: í|i = 0,1 => x0,! = 0,2. Třetí kvartil x0j5 je hodnota, pro kterou platí -^(^0,75) = 0,75: íH2p = 0,75 x0J5 = 1,5. Výsledné hodnoty jsou: První decil: rr0ii = 0,2 65 Základy statistiky • Třetí kvartil: x0j5 = 1,5 □ Příklad 3.23. Náhodná veličina X má hustotu pravděpodobnosti: Určete modus. \x2e x, 0 < x < oo, 0, jinak. Řešení: Modus je hodnota, ve které hustota pravděpodobnosti f(x) dosahuje svého maxima. Nejprve spočítáme první derivaci funkce f(x) pro x > 0: 2 Poté položíme derivaci rovnu nule: f(x) = - ■ (2xe-x - x2e-x) = -xe-x(2 - x). 1 -xe-x{2 - x) = 0. Vzhledem k tomu, že e x > 0 pro všechna x, má tato rovnice kořeny x = 0 a x = 2. Jelikož hledáme maximum na intervalu x > 0, uvažujeme pouze stacionární bod x = 2. Ověříme, že se jedná skutečně o maximum, a to výpočtem druhé derivace (derivujeme výraz \e-x{2x - x2)): f"(x) = - \-e-x(2x - x2) + e-x(2 - 2x)\ = -e^(x2 - Ax + 2). 2 Dosadíme náš stacionární bod x = 2: 2 f (2) = l-e-2{22 - 4 • 2 + 2) = ^(4 - 8 + 2) = V2(-2) = -e~2. Protože hodnota druhé derivace je záporná (—e~2 < 0), jedná se v tomto bodě o lokální maximum. Výsledný modus je Mo = 2. □ OTato kapitola se zaměřuje na náhodné veličiny a jejich základní charakteristiky. Náhodné veličiny jsou proměnné, které nabývají různých číselných hodnot v závislosti na výsledku náhodného pokusu. Kapitola vysvětluje rozdíl mezi diskrétními a spojitými náhodnými veličinami a ukazuje, že zatímco diskrétní veličiny popisujeme pravděpodobnostní funkcí, u spojitých využíváme hustotu pravděpodobnosti. Společným nástrojem pro oba typy je pak distribuční funkce, která představuje kumulativní pravděpodobnost. Hlavními číselnými charakteristikami náhodných veličin jsou střední hodnota a rozptyl, které poskytují informace o teoretické průměrné hodnotě veličiny a o tom, jak moc Náhodná veličina 66 se jednotlivé hodnoty od tohoto průměru odchylují. V kapitole jsou vysvětleny i další charakteristiky jako šikmosť a špičatost, které popisují asymetrii a celkový tvar rozdělení. Důležitou mírou polohy jsou také kvantily (např. medián, kvartily či decily). Pro diskrétní náhodné veličiny jsou uvedeny postupy výpočtu střední hodnoty a rozptylu na základě vážených součtů. U spojitých náhodných veličin se k určení těchto charakteristik používají integrály. 1. Co je to náhodná veličina? 2. Jaký je rozdíl mezi diskrétní a spojitou náhodnou veličinou? 3. Jakým způsobem se vyjadřuje pravděpodobnostní funkce pro diskrétní náhodnou veličinu? 4. Co je to distribuční funkce a jaký má význam? 5. Jak se počítá střední hodnota pro diskrétní náhodnou veličinu? 6. Jaký je vztah mezi pravděpodobnostní funkcí (resp. hustotou pravděpodobnosti) a distribuční funkcí? 7. Co je to rozptyl a jak se počítá pro náhodnou veličinu? 8. Jaký je význam charakteristik šikmosti a špičatosti pro popis náhodné veličiny? 9. Náhodná veličina X nabývá hodnot 1,2,3,4 s pravděpodobnostmi 0,1; 0,2; 0,3; 0,4. Vypočítejte střední hodnotu a rozptyl veličiny X. [Střední hodnota: 3,0; Rozptyl: 1,0] 10. Pro spojitou náhodnou veličinu X je dána hustota pravděpodobnosti f(x) = 2x pro x G (0; 1) a f(x) = 0 jinak. Vypočítejte střední hodnotu a rozptyl této veličiny. [Střední hodnota: |; Rozptyl: X] 11. Představte si hod kostkou, kde náhodná veličina X udává počet padlých bodů. Sestrojte pravděpodobnostní a distribuční funkci této náhodné veličiny. [Pravděpodobnostní funkce: P(X = k) = | pro k = 1,2, 3,4, 5, 6; Distribuční funkce: f{x) = 0 pro x < 1, f{x) = | pro k < x < k + 1 (kde k E {1, 2, 3,4, 5}) a f (x) = 1 pro x > 6] 12. Hustota pravděpodobnosti náhodné veličiny X má tvar: (0, pro x < 1, x — \, pro 1 < x < 2, 0, pro x > 2. Určete distribuční funkci. [Distribuční funkce f(x) je dána: f(x) = 0 pro x < 1, f (x) = y - f pro 1 < x < 2, f (x) = 1 pro x > 2] 13. Náhodná veličina X je určena tabulkou: X -2 0 2 4 6 P (X = Xi) 0,1 ? 0,2 0,3 0,2 Určete hodnotu pravděpodobnosti pro X = 0, distribuční funkci a pravděpodobnost jevu, že náhodná veličina nabude kladných hodnot. [Pravděpodobnost pro X = 0: 0,2; Distribuční funkce nabývá ve skocích hodnot f(—2) = 0,1, -F(O) = 0,3, f(2) = 0,5, -F(4) = 0,8, f(6) = 1; Pravděpodobnost kladných hodnot: 0,7] 67 Základy statistiky e Literatura k tématu: [1] HINDLS, R. Statistika pro ekonomy. 8. vyd. Praha: Professional Publishing, 2007. ISBN 978-80-869-4643-6. ISBN 978-80-867-3208-8. [2] MAREK, L. Statistika v příkladech. 2. vyd. Praha: Kamil Mařík - Professional Publishing, 2015. ISBN 978-80-743-1153-6. [3] OTIPKA, P., SMAJSTRLA, V. Pravděpodobnost a statistika [online]. 1. vydání. Ostrava: VŠB-TU Ostrava, 2007 [cit. 2024-09-09]. ISBN 80-248-1194-4. Dostupné z: https://homel.vsb.cz/~oti73/cdpastl/ [4] ZVÁRA, K. a ŠTĚPÁN, J. Pravděpodobnost a matematická statistika. Matfyzpress, 2019. ISBN 978-80-7378-388-4. Kapitola 4 Základní typy rozdělení pravděpodobnosti diskrétní náhodné veličiny Po prostudování této kapitoly budete umět: > rozpoznat situace, kdy je vhodné k modelování použít binomické, Poissonovo nebo hypergeometrické rozdělení, vypočítat pravděpodobnosti a další charakteristiky u konkrétních diskrétních rozdělení, ' aplikovat poznatky na modelování situací z reálného života pomocí těchto rozdělení, pomocí excelovských funkcí vypočíst hodnoty pravděpodobnostních a distribučních funkcí. Klíčová slova: Diskrétní náhodná veličina, binomické rozdělení, hypergeometrické rozdělení, Poissonovo rozdělení, pravděpodobnostní funkce, distribuční funkce. 69 Základy statistiky Náhled kapitoly V této kapitole se zaměříme na základní typy rozdělení pravděpodobnosti, které se používají u diskrétních náhodných veličin. Probereme binomické, hypergeometrické a Poissonovo rozdělení. Ukážeme si, jak každé z nich funguje a kdy se používá. Důraz bude kladen nejen na teorii, ale především na praktické příklady, které ukáží, jak tato rozdělení použít při řešení reálných problémů i umělých modelových situací. Tato rozdělení tvoří nezbytný základ pro mnoho aplikací statistiky a pravděpodobnosti v praxi. Cíle kapitoly Cílem je pochopit různé typy rozdělení pravděpodobnosti u diskrétních náhodných veličin s ohledem na jejich využití při modelování reálných procesů. Časová náročnost Na tuto kapitolu si vyhraďte přibližně 3 hodiny. Tento čas zahrnuje jak studium teorie, tak procvičování příkladů a praktických aplikací, které vám pomohou lépe pochopit chování a využití probíraných rozdělení. 4.1 Binomické rozdělení Definice Definice 4.1. Binomické rozdělení Bi(n;p) modeluje počet úspěchů v pevně daném počtu nezávislých pokusů, kde každý pokus má dva možné výsledky (úspěch nebo neúspěch) a pravděpodobnost úspěchu je ve všech pokusech konstantní. Pravděpodobnost k úspěchů z n pokusů je dána vzorcem: p{x = k)= (n\p\i-py-\ kde n je celkový počet pokusů, k je počet úspěchů {k = 0,1,..., n), p je pravděpodobnost úspěchu v každém jednotlivém pokusu a (?) je kombinační číslo. Základní typy rozdělení pravděpodobnosti diskrétní náhodné veličiny 70 Základní číselné charakteristiky Střední hodnota: E(X) = n ■ p Rozptyl: D(X) = n ■ p ■ (1 - p) Grafy pravděpodobnostní a distribuční funkce Grafy pravděpodobnostní funkce (PDF) a distribuční funkce (CDF) pro binomické rozdělení s počtem pokusů n = 10 a pravděpodobností úspěchu p = 0,5 jsou na obrázku 5. 0.3 0.2 o.i I lBi(10; 0,5) 0.5 Bi(10; 0,5) 0 2 4 6 k 10 0 2 4 6 k 10 Obr. 5: Pravděpodobnostní a distribuční funkce binomického rozdělení pro n = 10 a p = 0,5 Excelovské funkce Pro práci s binomickým rozdělením lze v Excelu využít následující funkce: Pravděpodobnostní funkce: Funkce BIN0M. Dl ST (k; n; p; NEPRAVDA) vrací pravděpodobnost přesně k úspěchů z n pokusů. Distribuční funkce: Funkce BIN0M.DIST(k; n; p; PRAVDA) vrací kumulativní pravděpodobnost, tedy pravděpodobnost, že nastane nejvýše k úspěchů (tj. 0,1,... ,k úspěchů). 71 Základy statistiky 4.2 Hypergeometricke rozdelení Definice Definice 4.2. Hypergeometricke rozdělení Hg(iV; M; n) modeluje počet úspěchů při náhodném výběru n objektů z celkové populace N, kde přesně M objektů z této populace představuje úspěch. Výběr probíhá bez vracení (vybraný objekt se nevrací zpět, čímž se mění pravděpodobnost v dalším tahu). Pravděpodobnost právě k úspěchů je dána vzorcem: P(X = k) = M\ ÍN-M k I V n—k N kde N je velikost populace, M je celkový počet úspěšných objektů v populaci, n je počet vybíraných objektů (velikost vzorku) a A; je počet úspěchů ve vzorku. Základní číselné charakteristiky Střední hodnota: E(X) = Mfi M \ N-n Rozptyl: D(X) = n§ 1 - f , N_± Grafy pravděpodobnostní a distribuční funkce Grafy pravděpodobnostní funkce (PDF) a distribuční funkce (CDF) pro hypergeometricke rozdělení s parametry N = 50, M = 20, n = 10 jsou na obrázku 6. Excelovské funkce Pro práci s hypergeometrickým rozdělením lze v Excelu použít následující funkce: ■ Pravděpodobnostní funkce: Funkce HYPGEOM. Dl ST (k; n; M; N; NEPRAVDA) vrací pravděpodobnost přesně k úspěchů. Distribuční funkce: Funkce HYPGEOM.DIST(k; n; M; N; PRAVDA) vrací kumulativní pravděpodobnost, tedy pravděpodobnost nejvýše k úspěchů. Základní typy rozdělení pravděpodobnosti diskrétní náhodné veličiny 72 0.3 0.2 o.i o 1 IHg(50; 20; 10) 1 1 0.5 0 2 4 6 k 10 0 1 -Hg(50; 20; 10) 0 2 4 6 k 10 Obr. 6: Pravděpodobnostní a distribuční funkce hypergeometrického rozdělení pro N = 50, M = 20 a n = 10 4.3 Poissonovo rozdělení Kdy použít Poissonovo rozdělení? Na rozdíl od binomického nebo hypergeometrického rozdělení, kde máme pevně daný celkový počet pokusů n (a tedy nemůžeme mít více úspěchů než n), u Poissonova rozdělení neexistuje horní hranice možného počtu událostí {k = 0,1, 2,...). Tento model se používá pro situace, kdy počítáme výskyt (často poměrně vzácných) událostí, které nastávají náhodně v nějakém spojitém kontinuu - typicky v čase, na určité ploše nebo v určitém objemu. Typické příklady Poissonova rozdělení: ' Počet zákazníků, kteří přijdou k pokladně během jedné hodiny. • Počet tiskových chyb na jedné stránce knihy. ' Počet dopravních nehod na určité křižovatce za měsíc. • Počet kazů na 100 metrech vyrobené látky. Další velmi důležitou vlastností je, že Poissonovo rozdělení skvěle funguje jako aproximace binomického rozdělení pro situace, kdy máme obrovský počet pokusů (n —> oo), ale pravděpodobnost úspěchu v jednom pokusu je mizivě malá (p —y 0). V takovém případě se výpočet obrovských kombinačních čísel nahradí mnohem jednodušším Poissonovým rozdělením, kde stačí položit střední hodnotu A = n ■ p. 73 Základy statistiky Definice Definice 4.3. Poissonovo rozdělení Po(A) modeluje počet událostí, které nastanou v pevně daném čase nebo prostoru, za předpokladu, že tyto události nastávají nezávisle na sobě s konstantní střední intenzitou (průměrem) A. Pravděpodobnost, že v daném intervalu nastane právě k událostí, je dána vzorcem: \ke~x P(X = k) - k\ ' kde A je očekávaný (průměrný) počet událostí v daném intervalu, k je sledovaný počet událostí a e je Eulerovo číslo. Základní číselné charakteristiky • Střední hodnota: E(X) = A . Rozptyl: D(X) = A Poznámka: Poissonovo rozdělení je unikátní tím, že se jeho střední hodnota rovná rozptylu. Grafy pravděpodobnostní a distribuční funkce Grafy pravděpodobnostní funkce (PDF) a distribuční funkce (CDF) pro Poissonovo rozdělení s parametrem A = 3 jsou na obrázku 7. 0.3 0.2 X o.i o lil M3) 1 - 0.5 0 2 4 6 k 10 0 — I M3) 0 2 4 6 k 10 Obr. 7: Pravděpodobnostní a distribuční funkce Poissonova rozdělení pro A = 3 Excelovské funkce Pro práci s Poissonovým rozdělením lze v Excelu použít následující funkce: Základní typy rozdělení pravděpodobnosti diskrétní náhodné veličiny 74 ■ Pravděpodobnostní funkce: Funkce P0ISS0N.DIST(k; A; NEPRAVDA) vrací pravděpodobnost, že nastane přesně k událostí. ' Distribuční funkce: Funkce P0ISS0N.DIST(k; A; PRAVDA) vrací kumulativní pravděpodobnost, tedy že nastane nejvýše k událostí. 4.4 Některá další diskrétní rozdělení Než se pustíme do složitějších výpočtů, zmíníme pro úplnost ještě dvě velmi jednoduchá rozdělení, se kterými se v praxi (a často i v běžném životě) setkáváme zcela intuitivně. 1. Alternativní rozdělení Alt(p) Popisuje ten vůbec nejjednodušší náhodný pokus, který má pouze dva možné výsledky - typicky úspěch, nebo neúspěch. Uvažujme například hod mincí. Výsledkem je náhodná veličina X, která nabývá pouze hodnot 1 (úspěch, např. padne líc) s pravděpodobností p, nebo 0 (neúspěch, padne rub) s pravděpodobností 1 — p. Poznámka: Binomické rozdělení není nic jiného než součet n nezávislých alternativních rozdělení. 2. Diskrétní rovnoměrné rozdělení R(n) Popisuje situaci, kdy má všech n možných výsledků náhodného pokusu zcela stejnou pravděpodobnost. ' Typickým příkladem je hod klasickou šestistěnnou kostkou. Prostor možných výsledků je M = {1,2,3,4,5,6}. Každé číslo má pravděpodobnost přesně |. Modelujeme jej jako R(6). 4.5 Řešené příklady Binomické rozdělení Příklad 4.4 (Binomické rozdělení). Student má potíže s ranním vstáváním. Proto někdy zaspí a nestihne přednášku, která začíná již v 9 hodin. Pravděpodobnost, že zaspí, je 0,3. V semestru je 12 přednášek, což znamená 12 nezávislých pokusů dorazit na přednášku včas. Nalezněte pravděpodobnost, že student nestihne přednášku v důsledku zaspání v polovině nebo více případů. 75 Základy statistiky Řešení: Jedná se o binomické rozdělení 52(12; 0,3) s parametry n = 12 a p = 0,3. Hledaná pravděpodobnost (zaspí v 6 a více případech) je: P(X > 6) = 1 - P(X < 5). Tuto pravděpodobnost lze snadno vypočítat pomocí distribuční funkce binomického rozdělení, například pomocí funkce BINOM.DIST v Excelu: P(X > 6) = 1 - BIN0M.DISK5; 12; 0,3; PRAVDA) « 1 - 0,8822 = 0,1178. Pravděpodobnost, že zaspí polovinu a více přednášek, je zhruba 11,8 %. □ Příklad 4.5 (Binomické rozdělení). V obchodě probíhá reklamní akce pro zákazníky. Z dlouhodobých statistik je známo, že šance na výhru reklamního dárku je pro každého zákazníka 5 % (tedy p = 0,05) a výsledky jednotlivých zákazníků jsou na sobě nezávislé. Jaká je pravděpodobnost, že z 20 nově příchozích zákazníků alespoň 2 vyhrají? Řešení: Tento problém modelujeme jako binomické rozdělení Bi(20; 0,05) s parametry n = 20 a p = 0,05. Hledáme pravděpodobnost: P(X > 2) = 1 - P(X < 2) = 1 - [P(X = 0) + P(X = 1)]. Pravděpodobnosti pro 0 a 1 výherce (lze spočítat dosazením do vzorce nebo v Excelu jako BINOM.DISKk; 20; 0,05; NEPRAVDA)) jsou: P(X = 0) = 0,3585 a P(X = 1) = 0,3773. Proto: P(X > 2) = 1 - (0,3585 + 0,3773) = 1 - 0,7358 = 0,2642. Pravděpodobnost, že vyhrají alespoň 2 zákazníci z 20, je přibližně 26,4%. □ Poissonovo rozdělení Příklad 4.6 (Poissonovo rozdělení). Předpokládejme, že realitní makléř jedná v průměru s pěti zákazníky za den. Zjistěte, jaká je pravděpodobnost, že počet zákazníků makléře za jeden den bude větší než 4. Řešení: Náhodná veličina X - počet zákazníků - splňuje kritéria pro Poissonovo rozdělení -Po(A) s průměrem A = 5. Hledáme pravděpodobnost, že X > 4: P(X > 4) = 1 - P(X < A). Tuto pravděpodobnost lze vypočítat pomocí kumulativní funkce P0ISS0N.DIST v Excelu: P(X > 4) = 1 - P0ISS0N.DISK4; 5; PRAVDA) « 1 - 0,4405 = 0,5595. Pravděpodobnost, že bude jednat s více než 4 zákazníky, je necelých 56 %. □ Příklad 4.7 (Poissonovo rozdělení). V průměru přistanou na místním letišti během jedné hodiny 3 letadla. Jaká je pravděpodobnost, že během jedné hodiny přistanou přesně 2 letadla? Řešení: Náhodná veličina X - počet přistání - splňuje kritéria pro Poissonovo rozdělení Po(A) s parametrem A = 3. Hledaná pravděpodobnost je: 32e-3 P(X = 2) = « 0,2240. Tuto pravděpodobnost lze případně snadno vypočítat i pomocí funkce P0ISS0N.DIST(2; 3; NEPRAVDA) v Excelu. □ Základní typy rozdělení pravděpodobnosti diskrétní náhodné veličiny 76 Hypergeometrické rozdělení Příklad 4.8 (Hypergeometrické rozdělení). Mezi stovkou výrobků je 20 zmetků. Vybereme deset výrobků a sledujeme počet zmetků mezi vybranými. Řešení: V tomto případě má náhodná veličina X (počet vybraných zmetků) hypergeometrické rozdělení H g (100; 20; 10). Pravděpodobnostní funkce je dána vztahem: M\ ÍN-M k ) \ n—k w P(X = k) -- kde N = 100, M = 20, n = 10 a k je počet zmetků mezi vybranými výrobky. Například pravděpodobnost, že mezi deseti vybranými výrobky budou přesně 3 zmetky, lze vypočítat jako P(X = 3): 20\ /80 p(x =3) = ^Á^r «°>2092- ( 10 J Tuto pravděpodobnost snadno získáme i v Excelu pomocí funkce: HYPGE0M.DIST(3; 10; 20; 100; NEPRAVDA). □ Příklad 4.9 (Hypergeometrické rozdělení). V krabici je 20 kuliček, z nichž 8 je červených a 12 modrých. Náhodně vybereme 5 kuliček bez vracení. Jaká je pravděpodobnost, že vybereme přesně 3 červené kuličky? Řešení: Tento problém modelujeme jako hypergeometrické rozdělení Hg(N; M;n), kde úspěchem je vytažení červené kuličky. Parametry jsou: N = 20, M = 8, n = 5. Hledaná pravděpodobnost je: P(X = 3) : Po dosazení hodnot (kombinačních čísel) dostáváme: P(X = 3) = = „ 0,2384. v ; 15504 15504 Pravděpodobnost vytažení přesně 3 červených kuliček je tedy zhruba 23,8%. I tento výpočet lze snadno provést pomocí funkce v Excelu: HYPGE0M.DIST(3; 5; 8; 20; NEPRAVDA). □ OV této kapitole byla představena základní diskrétní rozdělení pravděpodobnosti, která se velmi často vyskytují v praxi (některým jsme se věnovali podrobněji, dalším jen v rámci úvodních příkladů). Seznámili jsme se s charakteristikami a použitím těchto rozdělení: 77 Základy statistiky ' Alternativní rozdělení Alt (p) - Popisuje náhodný experiment se dvěma možnými výsledky (úspěch/neúspěch). Využívá se např. při modelování jednoho hodu mincí. ' Rovnoměrné rozdělení R(n) - Předpokládá, že všech n možných výsledků má stejnou pravděpodobnost. Používá se např. při hodu spravedlivou kostkou. ' Binomické rozdělení Bi(n;p) - Popisuje počet úspěchů při pevně daném počtu n nezávislých pokusů, kde každý pokus má stejnou pravděpodobnost úspěchu p. Příkladem je situace, kdy se sleduje počet ranních zaspání studenta během celého semestru. ' Poissonovo rozdělení -Po(A) - Používá se k modelování počtu výskytů událostí v pevném časovém nebo prostorovém intervalu, kde není shora omezen počet pokusů. V praxi jde např. o modelování počtu zákazníků přicházejících k realitnímu makléři. • Hypergeometrické rozdělení Hg(N; M; n) - Popisuje pravděpodobnost určitého počtu úspěchů při výběru n objektů bez vracení z konečné populace N. Příkladem je sledování počtu vadných výrobků při jednorázovém náhodném výběru vzorku z výrobní dávky. Ol. Jaké jsou základní číselné charakteristiky binomického rozdělení? 2. Jak vypadá pravděpodobnostní funkce binomického rozdělení pro n = 10 a p = 0,5? 3. Co modeluje Poissonovo rozdělení? 4. Jaký je vzorec pro pravděpodobnost, že Poissonova náhodná veličina X nabude hodnoty k, pokud má parametr A? 5. Jaký je vztah mezi střední hodnotou a rozptylem u Poissonova rozdělení? 6. Jaké typické aplikace má Poissonovo rozdělení v reálném světě? 7. Co modeluje hypergeometrické rozdělení? 8. Jaký je rozdíl mezi binomickým a hypergeometrickým rozdělením z hlediska způsobu výběru? 9. V dodávce 80 polotovarů je 8 (tj. 10%) vadných. Náhodně vybereme (najednou, tj. „bez vracení") 5 kusů polotovarů k další kompletaci. Jaká je pravděpodobnost, že mezi vybranými prvky bude maximálně jeden vadný? [0,9246] 10. Ve skladišti závodu je 5 000 výrobků stejného typu. Pravděpodobnost toho, že daný výrobek nevydrží kontrolní zapojení (je vadný), je 0,1 %. Najděte pravděpodobnost, že z výrobků na skladě více než dva nevydrží kontrolní zapojení. [0,8753] 11. Korektura 500 stránek obsahuje celkem 500 nalezených tiskových chyb. Najděte pravděpodobnost toho, že na jedné náhodně vybrané stránce jsou nejméně tři chyby. [0,0803] 12. Najděte pravděpodobnost toho, že mezi 200 náhodně vybranými výrobky se vyskytnou více než tři zmetky, když v průměru je zmetkovitost výroby těchto výrobků 1%. [0,1429 pomocí Poissonovy aproximace, resp. 0,1420 při přesném výpočtu binomickým rozdělením] Základní typy rozdělení pravděpodobnosti diskrétní náhodné veličiny 78 Literatura k tématu: [1] HINDLS, R. Statistika pro ekonomy. 8. vyd. Praha: Professional Publishing, 2007. ISBN 978-80-869-4643-6. ISBN 978-80-867-3208-8. [2] MAREK, L. Statistika v příkladech. 2. vyd. Praha: Kamil Mařík - Professional Publishing, 2015. ISBN 978-80-743-1153-6. [3] OTIPKA, P., SMAJSTRLA, V. Pravděpodobnost a statistika [online]. 1. vydání. Ostrava: VŠB-TU Ostrava, 2007 [cit. 2024-09-09]. ISBN 80-248-1194-4. Dostupné z: https://homel.vsb.cz/~oti73/cdpastl/ [4] ZVÁRA, K. a ŠTĚPÁN, J. Pravděpodobnost a matematická statistika. Matfyzpress, 2019. ISBN 978-80-7378-388-4. Kapitola 5 Základní typy rozdělení pravděpodobnosti spojité náhodné veličiny Po prostudování této kapitoly budete umět: vyjmenovat základní spojitá rozdělení pravděpodobnosti i s jejich důležitými vlastnostmi, vypočítat základní charakteristiky daných typů rozdělení pravděpodobnosti, pomocí excelovských funkcí vypočíst hodnoty hustoty pravděpodobnosti a distribučních funkcí spojitých rozdělení, • pomocí excelovských funkcí vypočíst kvantily spojitých rozdělení. Klíčová slova: Spojitá náhodná veličina, rovnoměrné rozdělení, exponenciální rozdělení, normální rozdělení, hustota pravděpodobnosti, distribuční funkce, střední hodnota, rozptyl, kvantil. Základní typy rozdělení pravděpodobnosti spojité náhodné veličiny 80 Náhled kapitoly Tato kapitola se zaměřuje na základní typy rozdělení pravděpodobnosti pro spojité náhodné veličiny. Seznámíme se s rozděleními, jako je rovnoměrné, exponenciální a normální rozdělení. Každé z těchto rozdělení má specifické vlastnosti a používá se v různých situacích při modelování náhodných jevů. Kromě teoretického popisu si také ukážeme, jak tato rozdělení aplikovat v praxi a jak vypočítat pravděpodobnosti, kvantily a další charakteristiky. V kapitole jsou uvedeny příklady, které demonstrují užití spojitých rozdělení v reálných situacích. Cíle kapitoly Cílem je pochopit a rozlišovat základní typy rozdělení pravděpodobnosti pro spojité náhodné veličiny a aplikovat tyto poznatky při řešení úloh z praxe. Časová náročnost Pro tuto kapitolu doporučujeme vyčlenit přibližně 3 hodiny. Tento čas zahrnuje jak studium teoretických částí, tak procvičování praktických příkladů a aplikací. 5.1 Normální rozdělení Kde se s ním setkáme a proč je tak důležité? Normální (Gaussovo) rozdělení je nej důležitějším rozdělením v celé statistice. Nese název „normální", protože velmi dobře popisuje chování mnoha veličin v přírodě i ve společnosti za „normálních" okolností - tedy tam, kde na výsledek působí velké množství drobných, vzájemně nezávislých a náhodných vlivů. Typické příklady normálního rozdělení: Výška a hmotnost dospělých lidí v určité populaci. • Hodnoty IQ v populaci. Chyby při fyzikálních měřeních (nepřesnost přístroje a pozorovatele). • Rozměry součástek sjíždějících z výrobní linky. 81 Základy statistiky Definice Definice 5.1. Normální rozdělení N(fi; a2) je spojité rozdělení pravděpodobnosti, které je symetrické kolem své střední hodnoty fi a má typický zvonovitý tvar (tzv. Gaussova křivka). Je jednoznačně určeno dvěma parametry: střední hodnotou fi (určuje polohu vrcholu) a směrodatnou odchylkou o (určuje šířku a zploštění zvonu). Hustota normálního rozdělení je dána vzorcem: Obr. 8: Jeden z hrdých otců normálního rozdělení (vytvořeno pomocí ChatGPT, OpenAI) Střední hodnota: E(X) = fi (Je to zároveň i modus a medián). Rozptyl: D(X) = a2 Symetrie: Rozdělení je dokonale symetrické, koeficient šikmosti 71 = 0. Velmi užitečnou pomůckou pro rychlou představu o datech s normálním rozdělením je tzv. Pravidlo tří sigma (Empirické pravidlo 68—95—99,7%). Říká nám, kolik procent všech hodnot leží v určitých vzdálenostech od průměru: kde fi je střední hodnota a a2 je rozptyl. Základní číselné charakteristiky a Empirické pravidlo Základní typy rozdělení pravděpodobnosti spojité náhodné veličiny 82 • Přibližně 68,3 % hodnot leží v intervalu (fi — a; fi + a). • Přibližně 95,5 % hodnot leží v intervalu (fi — 2a; fi + 2a). • Přibližně 99,7 % hodnot leží v intervalu (fi — 3a; fi + 3a) (téměř všechny hodnoty). Normované (standardizované) normální rozdělení Pro usnadnění výpočtů a možnost používat statistické tabulky se zavádí speciální případ. Pokud má veličina střední hodnotu fi = 0 a rozptyl a2 = 1, hovoříme o normovaném normálním rozdělení a značíme jej ÍV(0; 1). Jakoukoliv náhodnou veličinu X s normálním rozdělením N(fi; a2) můžeme jednoduše převést (standardizovat) na normovanou veličinu Z pomocí transformace: a Veličina Z nám pak udává, o kolik směrodatných odchylek se původní hodnota X liší od průměru. Grafy hustot a distribučních funkcí Grafy znázorňující hustoty a distribuční funkce normálního rozdělení pro různé hodnoty fi a a2 jsou uvedeny na obrázcích 9 a 10. -4 -2 0 2 4 -4 -2 0 2 4 Obr. 9: Grafy hustot a distribučních funkcí normálního rozdělení s různými rozptyly Excelovské funkce Pro práci s normálním rozdělením lze v Excelu použít následující funkce: ■ Distribuční funkce (CDF): Funkce NORM.DISKx; //; a; PRAVDA) vrací hodnotu distribuční funkce (kumulativní pravděpodobnost, tedy plochu pod křivkou od -oo po i). ' Kvantilová funkce: Funkce N0RM.INV(p; //; a) vrací kvantil pro danou pravděpodobnost p. 83 Základy statistiky Obr. 10: Grafy hustot a distribučních funkcí normálního rozdělení s různými středními hodnotami Hustota (PDF): Funkce NORM. Dl ST (x; fi; a; NEPRAVDA) vrací hodnotu hustoty. (Pozor, u spojitých rozdělení se nejedná o pravděpodobnost! Používá se převážně k vykreslování grafů.) Pro práci s normovaným normálním rozdělením (// = 0, a = 1) lze použít specializované zkrácené funkce: ■ Distribuční funkce (CDF): NORM.S.DISKx; PRAVDA) Kvantilová funkce: NORM. S. INV (p) ■ Hustota (PDF): NORM.S.DISKx; NEPRAVDA) 5.2 Rovnoměrné rozdělení Kde se s ním setkáme? Rovnoměrné rozdělení je vůbec nej jednodušším spojitým modelem. Používáme ho v situacích, kdy víme, že hodnota leží v určitém intervalu, ale nemáme absolutně žádný důvod předpokládat, že by se koncentrovala kolem nějakého středu (jako u normálního rozdělení) nebo na kraji. Zkrátka „všechno je stejně možné". Základní typy rozdělení pravděpodobnosti spojité náhodné veličiny 84 Typické příklady spojitého rovnoměrného rozdělení: Chyby ze zaokrouhlování: Pokud zaokrouhlujeme čísla na celé koruny chyba zaokrouhlení se rovnoměrně rozkládá v intervalu (—0,5; 0,5). Doba čekání: Přijdete-li na zastávku tramvaje, u které neznáte jízdní řád, a víte jen, že jezdí přesně každých 10 minut. Vaše doba čekání je rovnoměrně rozdělena v intervalu (0; 10) minut. Generátory náhodných čísel v počítačích. Definice Definice 5.2. Rovnoměrné rozdělení U (a; b) je spojité rozdělení pravděpodobnosti, kde každá hodnota z intervalu (a; b) má zcela stejnou šanci na výskyt (přesněji řečeno: hustota pravděpodobnosti je konstantní). Je určeno dvěma parametry: dolní mezí a a horní mezí b. Hustota rovnoměrného rozdělení je dána vzorcem: -r^— pro a < x < b, f(x;a,b) = { b-a 1 - - ' [0 jinak. Základní číselné charakteristiky Střední hodnota: E(X) = g^ (Leží přesně uprostřed intervalu). Rozptyl: D(X) = Symetrie: Rovnoměrné rozdělení je dokonale symetrické kolem své střední hodnoty (7i = 0). Grafy hustoty a distribuční funkce Grafy hustoty a distribuční funkce rovnoměrného rozdělení pro různé hodnoty a a b jsou uvedeny na obrázku 11. Výpočty v Excelu Na rozdíl od normálního rozdělení **nemá** standardní Excel pro rovnoměrné rozdělení žádnou předpřipravenou funkci (jako např. UNIF0RM.DIST). Není ale vůbec potřeba, protože vzorce jsou 85 Základy statistiky Obr. 11: Grafy hustot a distribučních funkcí rovnoměrného rozdělení (různé parametry a a b) triviální a zadáváme je do buněk pomocí obyčejné aritmetiky: ' Hustota (PDF): Zapíšeme vzorec =l/(b-a). ' Distribuční funkce (CDF): Pro hodnoty x uvnitř intervalu (a; b) počítáme pravděpodobnost P(X < x) jako =(x-a)/(b-a). ' Kvantilová funkce: Pokud chceme najít hodnotu x pro zadanou pravděpodobnost p, otočíme vzorec: =a + p* (b-a). 5.3 Exponenciální rozdělení Kde se s ním setkáme a jak souvisí s Poissonovým rozdělením? Exponenciální rozdělení úzce souvisí s Poissonovým rozdělením z předchozí kapitoly. Zatímco Poissonovo rozdělení nám říká, kolik událostí nastane za určitý čas (např. kolik zákazníků přijde do obchodu za hodinu), exponenciální rozdělení modeluje dobu čekání mezi těmito jednotlivými událostmi (např. jak dlouho budeme čekat, než do obchodu vejde další zákazník). Typické příklady exponenciálního rozdělení: • Doba mezi příjezdy dvou po sobě jdoucích autobusů na zastávku. • Doba obsluhy jednoho zákazníka u pokladny nebo na lince podpory. ' Doba bezporuchového chodu (životnost) určitých elektronických součástek nebo žárovek. Časový rozestup mezi dvěma dopravními nehodami na daném úseku dálnice. Základní typy rozdělení pravděpodobnosti spojité náhodné veličiny 86 Definice Definice 5.3. Exponenciální rozdělení Exp(X) je spojité rozdělení pravděpodobnosti, které se používá k modelování doby čekání na výskyt určité náhodné události. Parametr A představuje intenzitu výskytu událostí (průměrný počet událostí za jednotku času). Hustota exponenciálního rozdělení je dána vzorcem: f(x;\) kde A > 0 je parametr rychlosti (intenzity) a e je Eulerovo číslo. Ae Xx pro x > 0, 0 pro x < 0, Základní číselné charakteristiky Střední hodnota: E(X) Rozptyl: D(X) = ± (Tedy průměrná doba čekání). Asymetrie: Exponenciální rozdělení je silně asymetrické (pravostranná asymetrie), má dlouhý chvost směrem k vyšším hodnotám na ose x. Grafy hustoty a distribuční funkce Grafy hustoty a distribuční funkce exponenciálního rozdělení pro různé hodnoty A jsou uvedeny na obrázku 12. Ä 0.5 —1— V i \ \ \ 1 \ \ \ \ \ l \ l M — Exp(l) --- Exp(2) -Exp(0,5) *s \\ N. * \ 4 5 0.5 / / / / / I / ✓* _________ 1 / !// •I ■' '/■' y — Exp(l) --- Exp(2) Exp(0,5) X 2 3 x Obr. 12: Grafy hustot a distribučních funkcí exponenciálního rozdělení pro různé parametry A Výpočty v Excelu Pro práci s exponenciálním rozdělením v Excelu můžeme použít následující postupy: 87 Základy statistiky ■ Distribuční funkce (CDF): Funkce EXPON. Dl ST (x; A; PRAVDA) vrací hodnotu distribuční funkce (pravděpodobnost, že čekání bude kratší nebo rovno x). • Hustota pravděpodobnosti (PDF): Funkce EXPON.DIST(x; A; NEPRAVDA) vrací hodnotu hustoty. (Připomínáme: u spojitých rozdelení PDF neudává pravděpodobnost, funkce slouží spíše ke kreslení grafů.) • Kvantilová funkce: Excel pro exponenciální rozdělení standardně nemá inverzní funkci (typu EXPON. INV). Kvantil pro zadanou pravděpodobnost p a parametr A se proto jednoduše spočítá inverzním vzorcem pomocí logaritmu: =-LN(l-p)/A. 5.4 Řešené příklady Příklad 5.4 (Rovnoměrné rozdělení U(a;b)). Tramvajová linka číslo 8 odjíždí v dopoledních hodinách ze zastávky každých 10 minut. Vypočtěte pravděpodobnost, že na ni budete dopoledne čekat déle než 7 minut. Řešení: Doba čekání je náhodná veličina X, která má rovnoměrné rozdělení pravděpodobnosti - v našem případě £7(0; 10). Pro rovnoměrné rozdělení U (a; b) platí: m = l^ a-x-b> I 0, jinak. V našem případě a = 0 a b = 10, takže hustota pravděpodobnosti je: i, 0 10. Pravděpodobnost, že budeme čekat déle než 7 minut, spočítáme pomocí distribuční funkce jako doplněk: P(X > 7) = 1 - P(X < 7) = 1 - F{7) = 1 - ^ = 0,3. □ Příklad 5.5 (Exponenciální rozdělení Exp(X)). Doba čekání hosta na pivo je v restauraci U Lva průměrně 5 minut. Předpokládáme, že se řídí exponenciálním rozdělením. Určete: 1. hustotu pravděpodobnosti náhodné veličiny, která je dána dobou čekání na pivo, 2. pravděpodobnost, že budeme čekat na pivo déle než 12 minut, 3. dobu čekání, během které bude zákazník obsloužen s pravděpodobností 0,9. Distribuční funkce F(x) je: F(x) Základní typy rozdělení pravděpodobnosti spojité náhodné veličiny 88 Řešení: 1. Hustota pravděpodobnosti pro exponenciální rozdělení Exp(X) je dána vztahem: V ' (0, x<0. V našem případě je střední doba čekání E(X) = j = 5, takže intenzita A = | = 0,2. Hustota pravděpodobnosti tedy je: = Í0,2e—, x > 0, V 7 (0, x<0. 2. Příslušná distribuční funkce F(x) je tvaru: Í0, x < 0, W \l-e-0-2*, x>0. Pravděpodobnost, že budeme čekat déle než 12 minut, je: P(X > 12) = 1 - F(12) = 1 - (l - e"0'2'12) = e~2'4 « 0,0907. 3. Hledáme kvantil, tedy dobu čekání t, při které bude zákazník obsloužen s pravděpodobností 0,9: P(X 10, spočítáme jako doplněk do jedničky. Vzhledem k tomu, že hodnota 10 je přesně střední hodnota (a rozdělení je symetrické), výsledek musí být polovina: P(X > 10) = 1 -F(10) = 1 -NORM.DISTCIO; 10; 3; PRAVDA) = 1 - 0,5 = 0,5. 3. Pravděpodobnost, že X nabude hodnoty v intervalu 7 < X < 22, určíme jako rozdíl hodnot distribuční funkce v horní a dolní mezi intervalu: P(7 < X < 22) = F(22) - F(7) Pomocí Excelu: N0RM.DISK22; 10; 3; PRAVDA)-N0RM.DIST(7; 10; 3; PRAVDA) 0,9999—0,1587 = 0,8412. □ OV této kapitole jsme se zabývali základními spojitými rozděleními pravděpodobnosti, která se hojně používají v praxi. Seznámili jsme se s jejich vlastnostmi, praktickým použitím a s metodami výpočtu pravděpodobností a charakteristik. ' Rovnoměrné rozdělení U (a; b) - Tento typ rozdělení se používá tehdy, když má náhodná veličina stejnou pravděpodobnost výskytu v každém bodě intervalu (a; b). V této kapitole jsme si ukázali, jak vypočítat pravděpodobnosti a distribuční funkci rovnoměrně rozdělené náhodné veličiny a jaké jsou její základní charakteristiky (střední hodnota, rozptyl). ' Exponenciální rozdělení Exp(X) - Exponenciální rozdělení se používá při modelování času mezi událostmi v procesech, které se vyskytují s konstantní intenzitou. V praxi může jít například o dobu čekání na obsluhu. Zabývali jsme se výpočtem pravděpodobností, distribuční funkcí a určením časových intervalů, v nichž nastanou události s danou pravděpodobností (kvantily). ' Normální rozdělení N(fi; a2) - Toto rozdělení, často označované jako Gaussovo, je jedním z nej důležitějších rozdělení vůbec. Modeluje mnohé reálné procesy a veličiny v přírodě i společnosti. V kapitole jsme si ukázali, jak pomocí normálního rozdělení odhadnout pravděpodobnosti pro různé intervaly hodnot, jak vypočítat hodnoty distribuční funkce a jak využít software (Excel) při výpočtech. V této kapitole jsme se zaměřili také na aplikace těchto rozdělení ve formě řešených příkladů, které zahrnovaly výpočty pravděpodobností a interpretaci získaných výsledků. Naučili jsme se rozlišovat situace, kdy je vhodné použít jednotlivé typy spojitých rozdělení, a získali jsme praktické dovednosti pro jejich nasazení. Kapitola poskytuje pevný základ pro pochopení spojitých náhodných veličin a jejich rozložení, což je klíčové pro analýzu a modelování reálných dat v nejrůznějších oblastech od ekonomie po strojové učení. Základní typy rozdělení pravděpodobnosti spojité náhodné veličiny 90 1. Jaké jsou hlavní rozdíly mezi spojitým a diskrétním rozdělením pravděpodobnosti? Uveďte příklady spojitých rozdělení. 2. Co je to distribuční funkce náhodné veličiny a jaký je její význam? Jaký tvar má distribuční funkce pro rovnoměrné rozdělení? 3. Vysvětlete, co rozumíme pod termínem hustota pravděpodobnosti. Jaká je hustota pravděpodobnosti pro exponenciální rozdělení? 4. Jaké jsou základní charakteristiky normálního rozdělení N(fi; o"2)? Proč je toto rozdělení tak důležité v teorii pravděpodobnosti a statistice? 5. Jaké jsou aplikace exponenciálního rozdělení v praxi? Vysvětlete, v jakých situacích je vhodné jej použít. 6. K čemu se používá rovnoměrné rozdělení? Jak se vypočítá střední hodnota a rozptyl rovnoměrně rozdělené náhodné veličiny? 7. Jaké vlastnosti musí mít data, aby bylo možné použít normální rozdělení pro jejich modelování a analýzu? 8. Jaké jsou klíčové rozdíly mezi pravděpodobnostní funkcí (u diskrétních veličin) a hustotou pravděpodobnosti (u spojitých veličin)? Jakou hodnotu pravděpodobnosti P(X = x) má spojitá veličina v jednom konkrétním bodě? 9. Co rozumíme pod pojmem střední hodnota náhodné veličiny? Jak se liší střední hodnota mezi rovnoměrným, exponenciálním a normálním rozdělením? 10. Jaký je vztah mezi intenzitou A v exponenciálním rozdělení a střední dobou čekání na událost? 11. Náhodná veličina X má normované normální rozdělení N(0; 1). Určete: a. P(X < 2,31) [0,9896] b. P(X < -1,1) [0,1357] c. P(-0,41 < X < 2,92) [0,6573] 12. Váha v uhelných skladech váží s chybou, jejíž střední hodnota je 30 kg, přičemž váha v průměru ukazuje méně (tedy fi = —30 kg). Náhodné chyby mají normální rozdělení pravděpodobnosti se směrodatnou odchylkou o = 100 kg. Jaká je pravděpodobnost, že chyba zjištěné váhy nepřekročí v absolutní hodnotě 90 kg? [0,6106] 13. Uvažujme rovnoměrně rozdělenou náhodnou veličinu X na intervalu (2; 10). Vypočtěte: a. Střední hodnotu a rozptyl. [Střední hodnota: 6, Rozptyl: 5,33] b. P(X > 7) [0,375] 14. Cas mezi událostmi je modelován exponenciálním rozdělením s intenzitou A = 0,5. Jaká je pravděpodobnost, že čas mezi dvěma událostmi bude menší než 3 minuty? [0,7769] ©Literatura k tématu: [1] HINDLS, R. Statistika pro ekonomy. 8. vyd. Praha: Professional Publishing, 2007. ISBN 978-80-869-4643-6. ISBN 978-80-867-3208-8. 91 Základy statistiky [2] MAREK, L. Statistika v příkladech. 2. vyd. Praha: Kamil Mařík - Professional Publishing, 2015. ISBN 978-80-743-1153-6. [3] OTIPKA, P., SMAJSTRLA, V. Pravděpodobnost a statistika [online]. 1. vydání. Ostrava: VŠB-TU Ostrava, 2007 [cit. 2024-09-09]. ISBN 80-248-1194-4. Dostupné z: https://homel.vsb.cz/~oti73/cdpastl/ [4] ZVÁRA, K. a ŠTĚPÁN, J. Pravděpodobnost a matematická statistika. Matfyzpress, 2019. ISBN 978-80-7378-388-4. Kapitola 6 Náhodný vektor Po prostudování této kapitoly budete umět: určit hustotu pravděpodobnosti a distribuční funkci náhodného vektoru, vypočítat marginální funkce náhodného vektoru a charakteristiky náhodného vek toru - kovarianci a koeficient korelace. Klíčová slova: Náhodný vektor, hustota pravděpodobnosti, distribuční funkce, kovariance, koeficient ko relace. 93 Základy statistiky Náhled kapitoly V této kapitole se zaměříme na pojem náhodného vektoru, což je rozšíření náhodné veličiny na případ dvou nebo více veličin současně. Probereme základní vlastnosti náhodného vektoru, společné a marginální rozdělení, a ukážeme si, jak lze analyzovat závislosti mezi jednotlivými složkami vektoru. Dále se budeme věnovat výpočtu číselných charakteristik, jako je střední hodnota, kovariance a koeficient korelace, a jejich významu při práci s vícerozměrnými daty. Cíle kapitoly Cílem je formálně pochopit, jak pracovat s více náhodnými veličinami současně a jakými nástroji lze měřit lineární závislost mezi nimi. Časová náročnost Pro zvládnutí této kapitoly doporučujeme věnovat přibližně 3 hodiny studiu teorie, výpočtu charakteristik náhodného vektoru a řešení praktických příkladů. 6.1 Dvourozměrný náhodný vektor Náhodný vektor představuje rozšíření pojmu náhodné veličiny na případ dvou a více náhodných veličin současně. Popisuje pravděpodobnostní chování více veličin a umožňuje analyzovat jejich společnou distribuci a závislosti mezi nimi. V této kapitole se zaměříme na případ dvourozměrného náhodného vektoru. Definice 6.1 (Náhodný vektor). Náhodný vektor (X,Y) je uspořádaná dvojice náhodných veličin. Pro popis jeho pravděpodobnostní struktury se využívá společná pravděpodobnostní funkce p(x,y) u diskrétních veličin nebo hustota pravděpodobnosti f(x,y) u spojitých veličin. Definice 6.2 (Společná pravděpodobnostní funkce a hustota pravděpodobnosti). V případě diskrétních veličin je společná pravděpodobnostní funkce p(x,y) = P(X = x,Y = y) definována jako pravděpodobnost, že X = x a, Y = y. U spojitých veličin je společná hustota pravděpodobnosti f(x,y) definována tak, že pro pravděpodobnost výskytu v dané oblasti platí: P(X e (x1;x2),Y e (yi;y2)) = / f(x,y)dydx. Náhodný vektor 94 Definice 6.3 (Marginální rozdělení). Marginální rozdělení popisuje pravděpodobnostní chování jednotlivých složek náhodného vektoru (jakoby izolovaně). U diskrétních veličin získáme marginální pravděpodobnosti pi(x) a p2{y) sečtením přes druhou proměnnou: Pi(x) = ^2p(x,v), P2(y) = J2p(x>v)- y x Pro spojité veličiny získáme marginální hustoty f\(x) a f2{y) integrací: fi(x) = f(x,y)dy, f2(y) = / f(x,y)dx. Definice 6.4 (Distribuční funkce). Distribuční funkce náhodného vektoru F(x,y) je definována jako: F(x,y) = P(X o. My) Pro spojité veličiny je podmíněná hustota definována obdobně: f(x\y) = %4 pro f2(y)>o. Definice 6.6 (Číselné charakteristiky náhodného vektoru). Mezi základní charakteristiky náhodného vektoru (X, Y) patří střední hodnota, rozptyl a kovariance: /oo x ■ fi(x) dx (spojité). Kovariance Cov(X, Y) vyjadřuje míru společné variability obou veličin a počítá se jako: Cov(X,Y) = E[(X - E(X))(Y - E(Y))} = E(XY) - E(X)E(Y). 95 Základy statistiky Definice 6.7 (Koeficient korelace). Koeficient korelace p(X,Y) vyjadřuje míru lineární závislosti mezi veličinami X a Y. Je definován vztahem: ,(jr,v) = íW>, ax ■ cry kde ax a oy jsou směrodatné odchylky veličin laľ. Hodnota p(X, Y) leží vždy v intervalu <-i;i>- 6.2 Řešené príklady Příklad 6.8. Najděte konstantu c, tak aby funkce: f(x,y) byla hustotou pravděpodobnosti nějakého spojitého náhodného vektoru (X,Y). -y 0, jinak Cifri, 2 0,Y > 2,5) [0,20] d. marginální rozdělení P(X) [P (X = -1) = 0,30, P (X = 0) = 0,35, P (X = 1) = 0,35] e. marginální rozdělení P{Y) [P (Y = 1) = 0,30, P (Y = 2) = 0,25, P (Y = 3) = 0,45] 10. Pro náhodný vektor daný následující tabulkou vypočtěte koeficient korelace: X\Y 1 0 1 0,05 0,01 0 0,02 0,92 [Koeficient korelace p(X, Y) 0,7558] 7. 8. 9. e Literatura k tématu: [1] ANDĚL, J. Statistické metody. 5. vyd. Praha: Matfyzpress, 2019. ISBN 978-80-7378-381-5. [2] HINDLS, R. Statistika pro ekonomy. 8. vyd. Praha: Professional Publishing, 2007. ISBN 978-80-869-4643-6. ISBN 978-80-867-3208-8. [3] MAREK, L. Statistika v příkladech. 2. vyd. Praha: Kamil Mařík - Professional Publishing, 2015. ISBN 978-80-743-1153-6. [4] OTIPKA, P., SMAJSTRLA, V. Pravděpodobnost a statistika [online]. 1. vydání. Ostrava: VŠB-TU Ostrava, 2007 [cit. 2024-09-09]. ISBN 80-248-1194-4. Dostupné z: https://homel.vsb.cz/~oti73/cdpastl/ [5] ZVÁRA, K. a ŠTĚPÁN, J. Pravděpodobnost a matematická statistika. Matfyzpress, 2019. ISBN 978-80-7378-388-4. Kapitola 7 Statistický soubor s jedním argumentem Po prostudování této kapitoly budete umět: určit základní popisné charakteristiky statistického souboru s jedním argumentem (viz klíčová slova), • využít k těmto výpočtům statistický software (Excel). Klíčová slova: Základní soubor, statistická jednotka, četnosti, grafické znázornění četností, aritmetický průměr, modus, kvantily, medián, kvartily, decily, percentily, rozptyl, směrodatná odchylka. Statistický soubor s jedním argumentem 102 Náhled kapitoly V předchozích kapitolách jsme se věnovali spíše teoretickým modelům, zde se dostáváme k práci s daty. Tato kapitola se zaměřuje na základní popisné statistiky statistického souboru s jedním argumentem (s jednou proměnnou). Probereme různé druhy četností, jejich tabulkové a grafické znázorňování, dále různé míry polohy a variability dat. Prostě vše, co nám umožní mít ucelenější představu o rozložení dat. V následující kapitole tyto prostředky rozšíříme na dvourozměrný případ, kde nám k popisu jednotlivých proměnných přibude i jejich vzájemný vztah. Cíle kapitoly Cílem této kapitoly je získat základní potřebné dovednosti při práci s jednoduchými daty z pohledu popisné statistiky, tedy umět provádět potřebné výpočty a chápat jejich výsledky. Časová náročnost Pro tuto kapitolu doporučujeme vyčlenit přibližně 3 hodiny, které zahrnují jak studium teoretických částí, tak procvičování praktických příkladů a aplikací. 7.1 Základní pojmy a vlastnosti Pravděpodobnost vs. statistika Pravděpodobnost je matematický model reality. Jedná se o idealizovaný, abstraktní model, který pracuje s jednou nebo více náhodnými veličinami, jejichž rozdělení je známé. Z podstaty věci je tento model nepozorovatelný - představuje pouze naši abstrakci skutečnosti. Pravděpodobnost se zabývá náhodnými veličinami a jejich rozdělením. Jejím cílem je popsat, jak by se náhodné veličiny mohly chovat v určitém modelu. Pravděpodobnostní modely jsou používány v mnoha oblastech pro predikci nejistých jevů. Statistika naopak vychází z pozorování (měření) hodnot konkrétních veličin. Statistika zkoumá jevy na rozsáhlém souboru dat a činí o nich závěry pomocí statistické indukce. Výsledky z malého vzorku jsou zobecňovány na rozsáhlejší populaci. 103 Základy statistiky Statistika používá odhady, protože žádný konečný výběr nemůže poskytovat úplnou informaci o rozdělení náhodných veličin v populaci. Statistika hledá pravidelnosti a souvislosti v datech a zobecňuje výsledky na širší soubor, než byl ten, ze kterého byly odvozeny. Vychází z reálných dat, na jejichž základě činí závěry o celkové populaci. Příklady aplikací statistiky: ' Mají lidé, kteří pravidelně cvičí, lepší zdravotní ukazatele než ti, kteří necvičí? • Je průměrná výše příjmů v určité oblasti závislá na vzdělání obyvatel? Jaká je pravděpodobnost, že nový produkt na trhu uspěje na základě výsledků z testovacího vzorku? Data Data představují klíčový prvek statistických analýz. Jedná se o pozorování, která provádíme za účelem zodpovězení položených otázek. Matematicky: data jsou realizací náhodné veličiny. Jedná se tedy o konkrétní hodnoty, které náhodná veličina může nabýt při experimentu nebo měření. Datové tabulky: Data jsou často organizována ve formě tabulek, kde řádky představují jednotlivá pozorování, zatímco sloupce odpovídají měřeným proměnným. ' Řádky: Pozorování se týkají nezávislých subjektů náhodného výběru, jako jsou osoby, experimenty nebo jednotky sledování. Sloupce: Každý sloupec odpovídá určité měřené veličině, například věk, pohlaví, výška, váha apod. Software: Pro správu a zpracování dat se používá řada softwarových nástrojů. Nejčastěji jsou využívány databázové systémy nebo tabulkové procesory, jako je Excel. Statistický software: K analýze dat slouží specializované statistické programy, jako jsou SAS, Statistica, SPSS, R nebo Python. Ve statistice hraje správná organizace a správa dat zásadní roli, protože dobře strukturovaná data umožňují efektivnější analýzu a zajišťují správnost výsledků. Statistický soubor s jedním argumentem 104 Popisná statistika Popisná statistika představuje základní část statistické analýzy. Jejím cílem je sumarizovat a jednoduše popsat data, která máme k dispozici. Pojmový aparát statistiky: Zahrnuje základní statistické pojmy, jako jsou průměr, medián, rozptyl, směrodatná odchylka, kvartily a další. Základní nástroj analýzy dat: Pomocí popisných statistik můžeme rychle získat přehled o základních vlastnostech dat. Například průměr poskytuje informaci o střední hodnotě souboru, zatímco rozptyl nám řekne, jak jsou data rozložena kolem této hodnoty. Prostředky pro prezentaci dat a výsledků: Popisná statistika je často doprovázena vizuálními nástroji, jako jsou grafy, tabulky a diagramy, které umožňují efektivní prezentaci dat a usnadňují jejich interpretaci. Příkladem aplikace popisné statistiky může být analýza průměrných platů v různých regionech, kde nás může zajímat nejen střední hodnota platu, ale také rozptyl a medián, abychom lépe porozuměli rozložení příjmů v dané populaci. Základní pojmy ve statistice Pro práci se statistickými daty je důležité nejprve pochopit několik základních pojmů: Definice 7.1. Statistická jednotka je objekt, který chceme zkoumat. Může se jednat o osoby, domácnosti, firmy, organismy, obce, kraje atd. Každá statistická jednotka je nositelem určité vlastnosti, která nás zajímá a kterou zkoumáme. Definice 7.2. Statistický soubor je množina statistických jednotek, které jsou předmětem našeho zkoumání: Základní soubor: Množina všech statistických jednotek, jejichž vlastnosti chceme poznat. Tento soubor zahrnuje veškeré objekty, které odpovídají naší studii, např. všechny domácnosti v určitém kraji. Výběrový soubor: Množina skutečně vyšetřovaných statistických jednotek, které jsou náhodně vybrány ze základního souboru. Tento výběr by měl být reprezentativní pro celou populaci. 105 Základy statistiky Definice 7.3. Statistický znak je vlastnost, která je zjišťována na každé statistické jednotce. Tato vlastnost je v rámci statistiky považována za náhodnou veličinu. Mezi běžné statistické znaky patří např. pohlaví, věk, výška, hmotnost, počet dětí, barva očí, dopravní prostředek, počet úrazů, jméno. Definice 7.4. Rozsah souboru (často označován jako n) představuje počet zkoumaných statistických jednotek v daném souboru. Typy statistických znaků Statistické znaky se dělí do několika kategorií podle svého charakteru: Kvalitativní znaky (někdy nazývané kategorické): Jedná se o slovní nebo katego-riální znaky, které nemohou být vyjádřeny numericky. Příkladem jsou pohlaví, barva očí nebo dopravní prostředek, který statistická jednotka používá. Kvantitativní znaky (číselné, numerické): Spojité znaky: Mohou nabývat jakékoli hodnoty na určitých intervalech, např. výška, hmotnost nebo věk. Tyto znaky mohou být měřeny s libovolnou přesností. ' Diskrétní znaky: Nabývají pouze určitých konkrétních hodnot, např. počet dětí nebo počet úrazů. Tyto znaky mají omezený počet možných hodnot. Alternativní znaky: Tyto znaky mohou nabývat pouze dvou hodnot, např. zda osoba kouří či nikoli, nebo zda byl test úspěšný či neúspěšný. Množné znaky: Jedná se o znaky, které mohou nabývat tří a více hodnot, např. dopravní prostředek (auto, kolo, autobus). Jednorozměrný statistický soubor V jednorozměrném statistickém souboru se zabýváme pouze jedním statistickým znakem X a jeho hodnotami v rámci výběrového souboru. Statistický soubor s jedním argumentem 106 Označení: ■ ,£n} výběrový soubor: Každá Si je statistická jednotka. • X: statistický znak, který zkoumáme na každé statistické jednotce. • xf hodnota znaku X na objektu Sj, kde j = 1,... ,n. (xi,.. . ,xn): datový soubor, který obsahuje hodnoty znaku X pro všechny jednotky. .., rE(n)): uspořádaný datový soubor, tj. x^ < ■ ■ ■ < X(ny (x{1],. .. ,X[r]): vektor variant znaku X, tj. různé hodnoty, které znak X nabývá, kde x[i] ŕ pro i Ý j- Jednorozměrný statistický soubor nám umožňuje analyzovat hodnoty určitého znaku v rámci výběrového souboru a zjišťovat jejich rozložení. 7.2 Rozložení četností Kde se s ním setkáme v praxi? Rozložení četností je ten vůbec nejzákladnější nástroj pro práci s daty. Setkáme se s ním všude, kde potřebujeme z nepřehledné hromady surových dat získat rychlý přehled - ať už jde o přehled známek studentů z písemky, analýzu počtu prodaných kusů zboží v jednotlivých dnech, nebo rozdělení velikostí bot prodaných v e-shopu. Rozložení četností slouží ke zpřehlednění datového souboru. Při této analýze sledujeme, kolikrát se jednotlivé hodnoty nebo intervaly hodnot vyskytují v našem výběrovém souboru. Bodové rozložení četností: Používá se pro diskrétní znaky s malým počtem variant, kdy četnost přiřazujeme jednotlivým variantám (hodnotám). Intervalové rozložení četností: Používá se pro diskrétní znaky s velkým počtem variant nebo pro spojité znaky, kdy četnost přiřazujeme třídícím intervalům. Bodové rozložení četností Bodové rozložení četností se vztahuje k jednotlivým hodnotám diskrétního znaku a zahrnuje následující typy četností: 107 Základy statistiky Definice 7.5. (Absolutní) četnost varianty xyy. označována jako rij, představuje počet výskytů hodnoty xy] ve výběrovém souboru. Definice 7.6. Relativní četnost varianty xyy. označována jako pj = kde n je celkový počet pozorování. Relativní četnost můžeme chápat jako empirickou pravděpodobnost. Definice 7.7. (Absolutní) kumulativní četnost prvních j variant: označována jako Nj = ni + • • • + rij, představuje součet četností prvních j variant. Definice 7.8. Relativní kumulativní četnost prvních j variant: označována jako Fj = = pi + • • • + Pj, představuje kumulativní relativní četnost, což je suma relativních četností až po j-tou variantu. Definice 7.9. Empirická distribuční funkce pro bodové rozložení četností je definována následovně: (0 pro x < X[i] Fj pro x{j] < x < x[j+1], j = 1,..., r - 1 1 pro x > X[r] Tato funkce zachycuje rozložení četností ve výběrovém souboru a zobrazuje kumulativní pravděpodobnost dosažení určité hodnoty. Příklad 7.10 (Bodové rozložení četností). Při zápočtu ze statistiky se studenti podrobili testu, ve kterém mohli získat 0 až 15 bodů. Výsledky testu jsou následující: 5, 10, 6, 7, 0, 2, 2, 4, 8, 10, 12, 15, 0, 0, 4, 2, 7, 10, 15, 0, 6, 5, 6, 9, 8, 7, 10, 12, 6, 0. Vytvořte tabulku rozložení bodových četností (absolutních, relativních a kumulativních relativních) a nakreslete graf empirické distribuční funkce. Řešení: Bodové rozložení četností je zobrazeno v tabulce 2 a graf empirické distribuční funkce na obrázku 13. □ Tento příklad ilustruje základní práci s bodovým rozložením četností, které umožňuje zjistit, kolik studentů dosáhlo určitého výsledku v testu a jak se tyto výsledky kumulují v rámci celého souboru. Statistický soubor s jedním argumentem 108 Tab. 2: Bodové rozložení četností výsledků testu z příkladu 7.10 Body n3 P; (%) Fs (%) 0 5 16,7 16,7 2 3 10,0 26,7 4 2 6,7 33,4 5 2 6,7 40,1 6 4 13,3 53,4 7 3 10,0 63,4 8 2 6,7 70,1 9 1 3,3 73,4 10 4 13,3 86,7 12 2 6,7 93,4 15 2 6,7 100,0 Celkem 30 100,0 - 0,934 0^867 0,734 0 701 0^634 0,534 0,401 0 334 0^267 0,167 4 5 6 7 8 9 10 12 15 x Obr. 13: Graf empirické distribuční funkce pro bodové rozložení četností z příkladu 7.10 109 Základy statistiky Intervalové rozložení četností Od bodového se liší tím, že na počátku celkový interval (rozsah) hodnot rozdělíme na menší podintervaly (rozsahy) a následně četnosti přiřazujeme celým těmto podintervalům. Po tomto kroku již vše funguje jako u bodových četností. Ukažme si to na následujícím příkladu. Příklad 7.11 (Intervalové rozložení četností). U 70 žen byla změřena hladina hemoglobinu s přesností 0,1 g/100 ml. Výsledky jsou následující: 10,2; 13,7; 10,4; 14,9; 11,5; 12,0; 11,0; 13,3; 12,9; 12,1; 9,4; 13,2; 10,8; 11,7; 10,5; 13,7; 11,8; 14,1; 10,3; 13,6; 12,1; 12,9; 11,4; 12,7; 10,6; 11,4; 11,9; 9,3; 13,3; 14,6; 11,2; 11,7; 10,9; 10,4; 12,0; 12,9; 11,1; 10,2; 11,6; 12,5; 13,4; 12,1; 9,7; 11,3; 10,9; 14,7; 10,8; 13,3; 11,9; 11,4; 12,5; 13,0; 11,6; 13,4; 12,3; 11,0; 14,6; 11,1; 13,5; 10,9; 13,1; 11,8; 12,2; 8,5; 10,1; 10,7; 11,3; 12,8; 13,9; 15,2. Vytvořte tabulku rozložení intervalových četností (absolutních, relativních a kumulativních relativních). Řešení: Intervalové rozložení četností je zobrazeno v tabulce 3. □ Tab. 3: Intervalové rozložení četností hladiny hemoglobinu u žen z příkladu 7.11 Hladina hemoglobinu v g/100 ml n3 PS (%) Fi (%) 8,0 8,9 1 1,4 1,4 9,0 9,9 3 4,3 5,7 10,0 10,9 14 20,0 25,7 11,0 11,9 19 27,1 52,9 12,0 12,9 14 20,0 72,9 13,0 13,9 13 18,6 91,4 14,0 14,9 5 7,1 98,6 15,0 15,9 1 1,4 100,0 Celkem 70 100,0 - Tento příklad ilustruje základní práci s intervalovým rozložením četností, které nám umožňuje zjistit rozložení hodnot v rámci měřeného souboru a sledovat kumulativní četnosti pro jednotlivé intervaly. 7.2.1 Grafické znázornění četností Znázorňujeme relativní a absolutní četnosti nebo relativní a absolutní kumulativní četnosti. Statistický soubor s jedním argumentem 110 Koláčový graf Koláčový graf se používá pro zobrazení absolutních i relativních četností, ale v obou případech vypadá stejně. Liší se jen popiskami (absolutními nebo relativními, ale mohou tam být i obě). Na obrázku 14 je příklad koláčového grafu, který zobrazuje rozložení prodeje různých kategorií produktů ve firmě. ■ Produkty A ■ Produkty B ■ Produkty C □ Produkty D ■ Produkty E Obr. 14: Koláčový graf rozložení prodeje produktů ve firmě Histogram (sloupcový graf) Histogram je sloupcový graf, který používáme pro znázornění rozložení četností. U bodového rozložení četností přiřadíme hodnotě xy] obdélník, jehož výška je úměrná zjištěné četnosti. Na obrázku 15 je histogram výsledků testu ze statistiky z příkladu 7.10. — 5 t t 3 2 \ l 3 2 í I 2 ] 0 2 4 5 6 7 8 9 10 12 15 Počet bodů Obr. 15: Histogram absolutních četností výsledků testu ze statistiky z příkladu 7.10 Histogram pro hladinu hemoglobinu (v g/100 ml) z příkladu 7.11 je na obrázku 16. Každý sloupec pokrývá celý rozsah daného intervalu. 111 Základy statistiky a,1 O (ľ >o > (ľ tí 0,3 0,2 0,1 8 9 10 11 12 13 14 15 Hladina hemoglobinu [g/100 ml] 7.3 Obr. 16: Histogram relativních četností hladiny hemoglobinu z příkladu 7.11 Charakteristiky polohy a variability Kde se s nimi setkáme v praxi? Zatímco rozložení četností (tabulky a grafy) nám dává detailní pohled na celá data, v praxi často potřebujeme soubor popsat a porovnat jen pomocí několika málo čísel. Například při hodnocení platů ve firmě nás zajímá průměrný plat, nebo ještě lépe medián (typický plat očištěný o extrémně vysoké odměny managementu). Dále nás zajímá, jak moc se platy od tohoto středu liší - jsou všichni placeni zhruba stejně, nebo jsou mezi platy propastné rozdíly? K tomu právě slouží charakteristiky polohy (kde je střed dat) a variability (jak moc jsou data rozptýlená). Charakteristiky polohy a variability jsou základními nástroji pro popis rozložení dat. Mezi charakteristiky polohy patří například aritmetický průměr, medián, modus a výběrové kvantily. Tyto charakteristiky poskytují informace o střední hodnotě dat a jejich umístění na číselné ose. Charakteristiky variability zahrnují mj. rozptyl, směrodatnou odchylku, rozpětí a interkvar-tilové rozpětí. Tyto charakteristiky popisují, jak jsou data rozptýlena kolem střední hodnoty. Společně tyto charakteristiky umožňují komplexní popis a analýzu statistických dat. Míry polohy Míry polohy, nebo také charakteristiky centrální tendence, popisují střední hodnotu dat a poskytují přehled o tom, kde se data nejvíce koncentrují. Mezi nej důležitější charakteristiky patří: Aritmetický průměr (x) - Nejběžnější charakteristika centrální tendence, která se počítá jako podíl součtu všech hodnot a jejich počtu: _ 1 n x y X{; Statistický soubor s jedním argumentem 112 kde n je celkový počet hodnot a x i jsou jednotlivé hodnoty. ' Medián (x) - Střední hodnota uspořádaných dat. U lichého počtu hodnot je medián prostřední hodnota, u sudého počtu hodnot je medián průměr dvou prostředních hodnot. Medián je velmi vhodný pro data s odlehlými (extrémními) hodnotami, protože jimi není na rozdíl od průměru ovlivněn. ' Modus (x) - Hodnota, která se v datech vyskytuje nejčastěji. V některých případech mohou data mít více než jeden modus, což se označuje jako vícemodální (multimodální) rozložení. Harmonický průměr (řřharm) - Je vhodný pro průměrování poměrových veličin, jako je například výpočet průměrné rychlosti na stejně dlouhých úsecích: _ n ^harm = j~ Geometrický průměr (xgeoni) - Používá se pro data, která se vztahují k růstu nebo procentním změnám (např. průměrný meziroční koeficient růstu): geom \ n*<= n Xi i=i Ví=l Výběrové kvantily - Hodnoty, které dělí uspořádaný datový soubor na daný počet stejně velkých částí. Kvantil na úrovni a (kde a G (0; 1)) odděluje dolních 100a % hodnot od zbylých horních 100(1 — a) %. Nejčastěji používané kvantily jsou: • První kvartil (0,25-kvantil) - Hodnota, pod kterou leží 25% dat. • Medián (0,50-kvantil) - Hodnota, pod kterou leží 50% dat. • Třetí kvartil (0,75-kvantil) - Hodnota, pod kterou leží 75 % dat. Výběrové kvantily se obvykle určí z uspořádaných dat jako hodnoty, které odpovídají pozicím P = a (n + 1), kde a je zvolená hladina kvantilu a n je počet pozorování. Pokud pozice není celé číslo, používá se k přesnému výpočtu lineární interpolace mezi dvěma sousedními hodnotami (je dobré vědět, že různé softwary jako Excel nebo R mohou používat mírně odlišné vzorce pro výpočet interpolace). Aritmetický průměr Pozorování x±,..., xn představují hodnoty znaku zjištěné na jednotlivých statistických jednotkách z nesetříděného datového souboru. Aritmetický průměr je základní mírou polohy, která se počítá jako součet všech pozorování dělený jejich počtem. Definice 7.12. Aritmetický průměr (nesetříděného) souboru: _ X\ ~\~ ' ' ' ~\~ 1 ^—r X / . X{ n n , i=i 113 Základy statistiky Definice 7.13. Aritmetický průměr z rozložení četností (tzv. vážený průměr, kde vahami jsou absolutní četnosti): _ _ X[i\ni H-----h X[r]nr _ 1 -A ni + ••• + nr np[ 111 J kde xy] jsou jednotlivé varianty znaku a jsou jejich absolutní četnosti (přičemž nj = n)- Definice 7.14. Vážený aritmetický průměr: Pokud je soubor rozdělen do s dílčích skupin (podsložek), které mají své vlastní dílčí průměry Xi a rozsahy n,-n můžeme celkový průměr vypočítat takto: _ _ Xyj = l •E'ifl'i _ 1 \ ^ _ ni-\-----\-ns nf^ Tento vzorec se používá například při výpočtech, kdy jednotlivé části souboru mají různé velikosti (váhy), které je třeba zohlednit při výpočtu celkového průměru. Vhodné a nevhodné využití aritmetického průměru Aritmetický průměr je velmi užitečná míra centrální tendence v situacích, kdy jsou data rovnoměrně rozložena a nejsou ovlivněna extrémními hodnotami. Vhodné využití: Aritmetický průměr je vhodný pro soubory dat, které mají symetrické rozdělení (například normální rozdělení), protože průměr zde dobře reprezentuje skutečný střed dat. Používá se ve statistikách výkonu, výzkumu nebo finanční analýze, kde jsou hodnoty vyvážené a nemají extrémní odchylky. Nevhodné využití: ' Aritmetický průměr je nevhodný pro soubory dat, které mají výrazně asymetrické (se-šikmené) rozdělení nebo obsahují odlehlé (extrémní) hodnoty. V těchto případech může průměr znatelně zkreslovat představu o datech. Například u příjmů, kde několik málo osob má velmi vysoké příjmy, bude aritmetický průměr vyšší než příjem většiny populace. ' Průměr také nelze smysluplně použít v situacích, kde jsou data kvalitativní (mají nominální nebo ordinální povahu, například jména, pohlaví nebo úroveň vzdělání). Zde matematická operace sčítání postrádá smysl. V těchto případech je vhodnější použít jiné míry polohy. U asymetrických nebo extrémními hodnotami zatížených dat volíme medián, který lépe vystihuje „typickou" hodnotu. Pro nominální data je pak jedinou smysluplnou charakteristikou modus. Statistický soubor s jedním argumentem 114 Výběrové kvantily Definice 7.15. Mějme setříděný soubor, tedy hodnoty dat jsou uspořádané vzestupně: ^(i) < x(2) < • • • < x{n)i kde indexy označují pořadí hodnot v setříděném souboru. Výběrový a-kvantil (kde a G (0; 1)) je hodnota, která rozděluje seřazený datový soubor na dvě části tak, že: • alespoň 100a % všech dat je menších nebo rovných xa, • alespoň 100(1 — a) % všech dat je větších nebo rovných xa. Určení výběrového a-kvantilu z dat Postup určení výběrového a-kvantilu závisí na tom, zda hodnota an (kde n je celkový počet pozorování) je přirozené číslo, nebo nikoliv: ' Pokud je an = c, kde c je přirozené číslo, pak výběrový a-kvantil je průměr hodnot na pozicích x^ a X(c+1y. ~ _ XM xa + z(c+1) 2 • Pokud an není přirozené číslo, zaokrouhluj eme an nahoru na nejbližší vyšší přirozené číslo c a položíme: xa Pozor na výpočet v softwaru (Excel)! Výše uvedený postup je klasický "papírový"algoritmus založený na krokové funkci. Pokud ale k výpočtu použijete Excel (funkce PERCENTIL. INC nebo KVARTIL. INC), pravděpodobně dostanete mírně odlišné číslo. Excel totiž k výpočtu používá spojitou lineární interpolaci mezi hodnotami. Z didaktického hlediska jsou správně oba přístupy, u rozsáhlých datových souborů se jejich výsledky prakticky neliší. Pojmenované kvantily Některé z často používaných kvantilů mají svá specifická jména: ' Medián (0,50-kvantil) - Hodnota, která dělí data na dvě stejně velké části, tedy 50% dat je menší nebo rovno této hodnotě a 50 % je větší nebo rovno. Kvartily - Speciální kvantily, které dělí data na čtyři stejné části: 115 Základy statistiky • První kvartil (0,25-kvantil) - Hodnota, pod kterou leží 25% dat. • Druhý kvartil (0,50-kvantil) - Medián. • Třetí kvartil (0,75-kvantil) - Hodnota, pod kterou leží 75 % dat. Decily - Kvantily, které dělí data na deset stejných částí: • První decil (0,10-kvantil) - Hodnota, pod kterou leží 10% dat. ' Druhý decil (0,20-kvantil) - Hodnota, pod kterou leží 20 % dat, atd. • Devátý decil (0,90-kvantil) - Hodnota, pod kterou leží 90 % dat. Percentily - Kvantily, které dělí data na sto stejných částí: • První percentil (0,01-kvantil) - Hodnota, pod kterou leží 1 % dat. • Pátý percentil (0,05-kvantil) - Hodnota, pod kterou leží 5% dat. ' Devadesátý pátý percentil (0,95-kvantil) - Hodnota, pod kterou leží 95 % dat. Medián jako speciální případ výběrového kvantilu Medián je speciálním případem výběrového kvantilu pro a = 0,5. Tento kvantil rozdělí data na dvě stejně velké části. Případ lichého n: Pro lichý počet pozorování n není hodnota n x 0,5 přirozené číslo. Proto podle obecného postupu výpočtu kvantilu zaokrouhlíme n x 0,5 nahoru na nejbližší celé číslo, což určí pořadí mediánu: ^0,5 = ^("±1)- Tento vzorec plyne z obecného pravidla zaokrouhlení kvantilu nahoru, kdy medián je hodnota na pozici Příklad 7.16 (Výpočet mediánu pro lichý počet hodnot). Mějme soubor o lichém počtu hodnot n = 7, seřazených jako x^ < x^) < • • • < ^(7)- Určete medián. Řešení: Hodnota n x 0,5 = 7x 0,5 = 3,5. Tuto hodnotu zaokrouhlíme nahoru na 4 (což odpovídá Ha)- vzorci = 4). Medián bude hodnota na čtvrté pozici, tedy rr0,5 = ^(4)- □ Případ sudého n: Pro sudý počet pozorování n je hodnota n x 0,5 přirozené číslo. Proto medián, stejně jako obecný kvantil pro přirozené hodnoty n x a, bude průměrem dvou hodnot na pozicích: % ( n \ ~\~ % ( ri _i_ -i \ ^0,5 - g • Příklad 7.17 (Výpočet mediánu pro sudý počet hodnot). Mějme soubor o sudém počtu hodnot n = 8, seřazených jako x^ < X(2) < • • • < ^(8)- Určete medián. Řešení: Hodnota n x 0,5 = 8 x 0,5 = 4. Jedná se o celé číslo, takže medián je průměrem hodnot na 4. a 5. pozici: _ z(4) + z(5) Xo'5 " 2 • □ Statistický soubor s jedním argumentem 116 Tímto způsobem medián vyplývá jako speciální případ obecného výpočtu výběrového kvantilu, kde pro liché n postupujeme zaokrouhlením nahoru a pro sudé n použijeme průměr dvou středních hodnot: Definice 7.18. Mějme uspořádaný datový soubor. Potom medián definujeme takto: x^n±L^ pro liché n, x0,5 ^ ^ —- pro sudé n. Příklad 7.19 (Výpočet kvantilů - n sudé). Ve výrobě se v posledním půl roce v jednotlivých měsících vyskytl následující počet úrazů: 1, 3, 2, 4, 2, 4. Určete medián, první (dolní) kvartil ^o,25 a třetí (horní) kvartil žo,75 počtu úrazů za měsíc. Řešení: Nejprve data uspořádáme vzestupně podle velikosti: 1,2,2,3,4,4 Rozsah souboru je n = 6. ' Medián: Jelikož an = 0,5 • 6 = 3 je celé číslo, medián je průměrem hodnot na 3. a 4. pozici: _ x(3) + x{4) _ 2 + 3 x°<5 ~ 2 " ~2~ ~ 2,5 ' První kvartil: an = 6 • 0,25 = 1,5. Výsledek není celé číslo, zaokrouhlujeme nahoru na 2. pozici: ž0,25 = X(2) = 2. ' Třetí kvartil: an = 6 • 0,75 = 4,5. Zaokrouhlujeme nahoru na 5. pozici: žo,75 = ^(5) = 4. □ Příklad 7.20 (Výpočet kvantilů - n liché). Ve výrobě se v posledním půl roce v jednotlivých měsících vyskytl následující počet úrazů: 1, 3, 2, 4, 2, 4, 1. Určete medián, první a třetí kvartil počtu úrazů za měsíc. Řešení: Data uspořádáme vzestupně: 1,1,2,2,3,4,4 Rozsah souboru je n = 7. • Medián: an = 7 ■ 0,5 = 3,5 =>• zaokrouhlujeme nahoru na 4. pozici: ^0,5 = X(A) = 2 ' První kvartil: an = 7 ■ 0,25 = 1,75 =>• zaokrouhlujeme nahoru na 2. pozici: žo,25 = X(2) = I- 117 Základy statistiky ' Třetí kvartil: an = 7-0,75 = 5,25 =>• zaokrouhlujeme nahoru na 6. pozici: x0j5 = = 4. □ Příklad 7.21 (Kvantily z tabulky četností). Uvažujme data x daná následující tabulkou rozložení četností: X\J] 1 2 3 4 10 12 6 3 Určete první decil xq:i, první kvartil a třetí kvartil. Řešení: Celkový rozsah souboru je n = 10 + 12 + 6 + 3 = 31. Pro snadnější určení pozic si můžeme představit (nebo vypsat pomocí kumulativních četností) pořadí hodnot: • 1. až 10. hodnota jsou 1, • 11. až 22. hodnota jsou 2, • 23. až 28. hodnota jsou 3, • 29. až 31. hodnota jsou 4. Výpočet jednotlivých kvantilů: První decil (0,10-kvantil): an = 31 • 0,1 = 3,1 =>• hledáme x^y Podle seznamu je žo,i = 1- První kvartil (0,25-kvantil): an = 31 • 0,25 = 7,75 =>• hledáme x^)- Podle seznamu je ^0,25 = 1- ' Třetí kvartil (0,75-kvantil): an = 31-0,75 = 23,25 =>• hledáme x^4)- Tato pozice spadá do třetí skupiny, tedy ž0,75 = 3. □ Využití výběrových kvantilů Výběrové kvantily mají široké využití v různých oborech statistiky a aplikovaných věd. Zde jsou uvedeny některé praktické příklady využití kvantilů: • Hladina cholesterolu v krvi Jakou hladinu cholesterolu v krvi nepřekročí 90 % zdravé populace České republiky? Výběrový 0,90-kvantil (90. percentil) by zde představoval referenční hodnotu pro stanovení diagnostických limitů, která se běžně využívá v klinické praxi. Podobně jsou stanoveny referenční hodnoty pro další ukazatele krevního obrazu, například hladinu cukru, trigly-ceridů nebo krevní tlak. Statistický soubor s jedním argumentem 118 • Délka lišek Jakou délku nepřekročí 95 % lišek? Zde můžeme využít výběrový 0,05-kvantil a 0,95-kvantil k určení rozmezí, ve kterém se nachází většina jedinců dané populace. Například pokud délka lišek spadá do rozmezí 58-90 cm, můžeme říci, že pouze 5 % lišek je delších než 90 cm a pouze 5% lišek je kratších než 58 cm. Tyto kvantily pomáhají určit, které jedince považujeme za „typické" a které za extrémní. • Stoletá voda Jak definovat pojem stoletá voda? Výběrový 0,99-kvantil se často používá v hydrologii k definici stoleté vody. Jde o takovou výši maximálního ročního průtoku, která je v průměru překročena pouze jednou za sto let (tedy v 1 % případů). Tato hodnota je zásadní pro projektování protipovodňových opatření a infrastruktury. • Požadavky na kapitál pojišťoven Jakou výši kapitálu musí pojišťovny v EU držet, aby minimalizovaly riziko úpadku? Regulace Solvency II vyžaduje, aby pojišťovny držely kapitál na úrovni odpovídající 0,995-kvantilu možných finančních ztrát v ročním horizontu. To znamená, že pojišťovna musí být schopna pokrýt rizika v 99,5 % případů a pouze v 0,5 % situací (extrémně nepříznivý vývoj) může dojít k ohrožení její solventnosti. • Testování (SCIO testy, srovnávací zkoušky) Při hodnocení výsledků plošných testů se často využívá tzv. percentil. Pokud student dosáhne 75. percentilu (tedy 0,75-kvantilu), znamená to, že dopadl lépe než nebo stejně jako 75 % všech ostatních účastníků. Na základě těchto kvantilů mohou školy identifikovat 25 % nejúspěšnějších (nad horním kvartilem) nebo naopak studenty vyžadující zvýšenou podporu (pod dolním kvartilem). • Percentilové grafy v pediatrii Kvantily jsou základem růstových grafů, které pediatři používají ke sledování vývoje dítěte (výška, váha, obvod hlavy). Pokud se křivka vývoje dítěte drží stabilně kolem určitého kvantilu, je jeho vývoj považován za přirozený, i když je dítě například drobnější než průměr. Shrnutí Výběrové kvantily jsou univerzálním nástrojem, který se využívá v mnoha oblastech - od medicíny a biologie přes hydrologii až po finance a školství. Pomáhají nám stanovit normy (referenční meze), identifikovat extrémní hodnoty a objektivně porovnávat jednotlivce s celou populací. Míry variability Míry absolutní variability Míry absolutní variability popisují rozsah rozptýlenosti dat v původních jednotkách (např. v Kč, metrech apod.). 119 Základy statistiky Definice 7.22. Variační obor (x^y,x^) - Interval vymezený nejmenší a největší hodnotou. Variační rozpětí R = x^ — x^ - Rozdíl mezi největší a nejmenší hodnotou. ' Kvartilové rozpětí Rq = žo,75 — ^0,25 ~~ Rozdíl mezi třetím a prvním kvartilem (šířka „krabice" v boxplotu). Kvartilová odchylka - Polovina kvartilového rozpětí. Definice 7.23. Rozptyl D(X) - (V literatuře také s2). Pro neseskupená data jej počítáme jako průměrnou čtvercovou odchylku od aritmetického průměru (ve výběrové verzi dělíme n - 1): 1 n D(X) = —^t-x)2 í=i Pro data vyjádřená pomocí četností (seskupená) je rozptyl definován jako: 1 r D(X) = —— J2(xm ~ ž?nv kde n j je absolutní četnost varianty x^y Definice 7.24. Směrodatná odchylka - Druhá odmocnina z rozptylu. Udává, o kolik se hodnoty v průměru odchylují od aritmetického průměru v původních jednotkách: sx = y/D(X) Míry relativní variability Míry relativní variability jsou bezrozměrná čísla. Používají se k porovnání variability mezi různými soubory, které mají odlišné jednotky nebo výrazně odlišné úrovně průměrů. Statistický soubor s jedním argumentem 120 Definice 7.25. Variační koeficient: X Obvykle se vyjadřuje v procentech (Vx 100%). Pokud je Vx > 0,5 (50%), považujeme soubor za silně rozptýlený (nehomogenní ). Relativní kvartilová odchylka: Qr ~ ^0,75 — ^0,25 ^0,75 + ^0,25 Příklad 7.26 (Porovnání variability platů). Ve dvou firmách byly zkoumány měsíční platy zaměstnanců (v tisících Kč). Firma A: 25, 28, 30, 32, 35. Firma B: 20, 22, 24, 26, 80. Porovnejte variabilitu platů pomocí směrodatné odchylky a variačního koeficientu. Řešení: 1. Aritmetické průměry: 25 + 28 + 30 + 32 + 35 _ 20 + 22 + 24 + 26 + 80 xA =---= 30, xB =---= 34,4 2. Rozptyly D(X): (25 - 30)2 + (28 - 30)2 + (30 - 30)2 + (32 - 30)2 + (35 - 30)2 25 + 4 + 0 + 4 + 25 D(X)A =---=---= 14,5 (20 - 34,4)2 + (22 - 34,4)2 + (24 - 34,4)2 + (26 - 34,4)2 + (80 - 34,4)2 2619,2 D(X)B =---= 4 = 654,8 3. Směrodatné odchylky: sA = y/u$ « 3,81, sB = yfěMfi « 25,59 4. Variační koeficienty: 3 81 95 59 V a = ^7T « °'127 (tj- 12'7%) Vb = ifr « 0,744 (tj. 74,4%) Závěr: Variabilita ve firmě A je nízká (12,7%), platová struktura je zde vyrovnaná. Ve firmě B je variabilita extrémní (74,4%), což je způsobeno odlehlou hodnotou 80 tisíc Kč. Směrodatná odchylka ve firmě B je téměř sedmkrát vyšší než ve firmě A. □ 7.4 Míry tvaru rozdělení Kromě charakteristik polohy a variability existují i charakteristiky, které popisují tvar rozdělení dat (zda je rozdělení symetrické, či nikoliv, a jak moc je „špičaté"). 121 Základy statistiky Definice 7.27. Výběrová šikmost (skewness) měří asymetrii rozdělení dat: 71 = (n-l)(n-2)éí 7i = 0: Rozdělení je symetrické (např. normální rozdělení). 7i > 0: Pozitivní šikmost (sešikmení doprava) - většina hodnot je nahlucena vlevo, vpravo je dlouhý „ocas". 7i < 0: Negativní šikmost (sešikmení doleva) - většina hodnot je vpravo, vlevo je dlouhý „ocas". [Image of positive and negative skewness] Definice 7.28. Výběrová špičatost (kurtosis, exces) měří „koncentraci" dat kolem středu v porovnání s normálním rozdělením: n(n + l) ™{Xi-x\4 3(n-lf ^ = 7Z-Tul—^71- (n- l)(n-2)(n-3) ^ V sx J (n-2)(n-3) 72 = 0: Špičatost odpovídá normálnímu rozdělení. 72 > 0: Špičatější rozdělení (více hodnot je blízko průměru a zároveň v extrémních koncích). 72 < 0: Plošší rozdělení (hodnoty jsou rozprostřeny rovnoměrněji). Příklad 7.29 (Výpočet šikmosti a špičatosti). V následující tabulce jsou uvedeny hodnoty datového souboru: 2, 3, 5, 7, 8, 10. Spočítejte výběrovou šikmost a špičatost tohoto souboru. Řešení: 1. Aritmetický průměr a směrodatná odchylka: 2 + 3 + 5 + 7 + 8 + 10 35 x =-q-= y ~ 5>833 'i '1 NO 46,833 - 5>ť - 5,833)2 « J—^— « 3,061 2. Výběrová šikmost (71): Dosadíme do vzorce pro n = 6: 5 6 /-£. _ 5 833\3 7i = n E ^TT^T— ~ °>3 • ("1,312 - 0,944 - 0,028 + 0,163 + 0,376 + 1,084) « 0,19* 5 • 4 ^ \ 3,061 / Rozdělení má mírnou pozitivní šikmost. 3. Výběrová špičatost (72): Dosadíme do vzorce pro n = 6: 6-7 6 / 5 833\4 3.25 72 =-V------« 0,7 • 5,575 - 6,25 « -2,347 1 5-4-3f^V 3>061 / 4-3 ' ' Statistický soubor s jedním argumentem 122 Rozdělení je výrazně plošší než normální rozdělení (což je u takto malého rovnoměrně rozloženého souboru očekávané). □ 7.5 Řešené příklady Příklad 7.30 (Četnosti statistického souboru). Určete relativní, kumulativní a relativní kumulativní četnosti dat z tabulky: x\j] 0 1 2 3 4 n3 7 44 56 30 12 Řešení: Nejprve vypočítáme celkový rozsah souboru n: 5 n = J2 rij = 7 + 44 + 56 + 30 + 12 = 149. Relativní četnosti p j = ^- se vypočítají jako podíl absolutní četnosti a celkového počtu prvků: x\j] 0 1 2 3 4 E 7 44 56 30 12 149 Pj 0,047 0,295 0,376 0,201 0,081 1,000 Nyní určíme kumulativní četnosti Nj = Y^\=\nk a relativní kumulativní četnosti Fj = xlJ] 0 1 2 3 4 7 51 107 137 149 F3 0,047 0,342 0,718 0,919 1,000 □ Příklad 7.31 (Charakteristiky statistického souboru). Vypočtěte modus, kvartily, aritmetický průměr, rozptyl, směrodatnou odchylku, šikmost a špičatost variační řady dané tabulkou: x\j] 0 1 2 3 4 n3 7 44 51 30 12 Řešení: Celkový počet prvků je n = 7 + 44 + 51 + 30 + 12 = 144. 1. Modus: Hodnota s nejvyšší četností (n^ = 51) je Mo = 2. 2. Kvartily: 123 Základy statistiky ' První kvartil (a = 0,25): an = 0,25 • 144 = 36. Pozice je celé číslo, bereme průměr 36. a 37. hodnoty. Obě leží v druhé skupině (Nľ = 7, N2 = 51), tedy žo,25 = 1- ' Medián (a = 0,50): an = 0,5 • 144 = 72. Průměr 72. a 73. hodnoty. Obě leží ve třetí skupině (iV2 = 51, N3 = 102), tedy ž0,5 = 2. ■ Třetí kvartil (a = 0,75): an = 0,75 • 144 = 108. Průměr 108. a 109. hodnoty. Obě leží ve čtvrté skupině (N3 = 102, ív4 = 132), tedy žo,75 = 3. 3. Aritmetický průměr: 0 • 7 + 1 • 44 + 2 • 51 + 3 • 30 + 4 • 12 284 x =-=-« 1,972. 144 144 4. Rozptyl D(X): = n^-žf-n, ^ (0-l,972)2-7+--- + (4 -l,972)2-12 ^ 149,889 ^ 1 ' n 144 144 ~ ' 5. Směrodatná odchylka sx: sx = ^D(X) « ^TLPAI~ « 1,020. 6. Sikmost 7X: 71 = E("b1"f-^ - 0,252. n • sx Kladná hodnota naznačuje, že rozdělení je mírně sešikmené doprava. 7. Spičatost 72: X\ 1 — ~x}^ ' n ■ 72 = ±±LJ^-J-1 _ 3 ~ 2,446 - 3 « -0,554. n-sx Záporná hodnota značí, že rozdělení je o něco plošší než normální rozdělení. □ OV této kapitole jsme prozkoumali základní charakteristiky jednorozměrného statistického souboru. Zaměřili jsme se na popisné statistiky, které nám umožňují stručně a jasně popsat vlastnosti datového souboru. ' Aritmetický průměr (x) popisuje „střední" hodnotu v souboru, je však citlivý na extrémní hodnoty. ' Medián (^0,5) rozděluje uspořádaný soubor na dvě stejně velké části a poskytuje dobrou představu o typické hodnotě i v asymetrických souborech. • Modus (x) je nejčastěji se vyskytující hodnota v souboru. ' Rozptyl D(X) a směrodatná odchylka sx jsou míry variability, které udávají, jak moc jsou hodnoty rozptýleny kolem průměru. Sikmost (7l) hodnotí asymetrii (sešikmení) rozložení, zatímco spičatost (72) popisuje koncentraci dat kolem středu v porovnání s normálním rozdělením. Statistický soubor s jedním argumentem 124 Ukázali jsme si, jak tyto charakteristiky vypočítat a interpretovat, což je klíčové pro správné pochopení dat v praktických aplikacích. 1. Co je to aritmetický průměr a jak se vypočítá? Uveďte rozdíl mezi prostým a váženým průměrem. 2. Jaký je rozdíl mezi mediánem a aritmetickým průměrem? 3. Kdy je didakticky i statisticky vhodnější použít k popisu středu dat medián místo průměru? 4. Co vyjadřuje rozptyl D(X) a jaký má matematický vztah ke směrodatné odchylce 5. Jaký význam má šikmost a špičatost (exces) při analýze rozložení dat? Nakreslete, jak vypadá pozitivně zešikmené rozdělení. 6. Jak se vypočítá relativní četnost pj a kumulativní relativní četnost Fp. Co vyjadřuje hodnota F j = 1? 7. Co jsou to kvartily a jak se určí jejich pozice v datovém souboru o rozsahu nl 8. Určete medián a průměr měsíční spotřeby elektrické energie (kWh) v bytech z následujících údajů: 169, 108, 26, 43, 114, 68, 35, 183, 103, 266, 74, 205, 62, 230, 85, 487, 120, 148, 91, 18, 58, 96, 295, 42, 137. [103; 130,52] 9. Zkoušky životnosti žárovek daly následující výsledky (v hodinách): 606, 1249, 267, 44, 510, 340, 109, 1957, 463, 801, 1082, 169, 233, 1734, 1458, 80, 1023, 2736, 917, 459. Určete průměrnou dobu životnosti žárovek a jejich výběrový rozptyl. [811,85; 519 375,9] e Literatura k tématu: [1] HINDLS, R. Statistika pro ekonomy. 8. vyd. Praha: Professional Publishing, 2007. ISBN 978-80-869-4643-6. ISBN 978-80-867-3208-8. [2] MAREK, L. Statistika v příkladech. 2. vyd. Praha: Kamil Mařík - Professional Publishing, 2015. ISBN 978-80-743-1153-6. [3] OTIPKA, P., SMAJSTRLA, V. Pravděpodobnost a statistika [online]. 1. vydání. Ostrava: VŠB-TU Ostrava, 2007 [cit. 2024-09-09]. ISBN 80-248-1194-4. Dostupné z: https://homel.vsb.cz/~oti73/cdpastl/ [4] ZVÁRA, K. a ŠTĚPÁN, J. Pravděpodobnost a matematická statistika. Matfyzpress, 2019. ISBN 978-80-7378-388-4. I Kapitola 8 Statistický soubor se dvěma argumenty Po prostudování této kapitoly budete umět: určit základní charakteristiky dvourozměrného statistického souboru, vypočítat střední hodnotu, rozptyl a kovarianci pro dvourozměrný soubor, využít vhodné grafické nástroje pro vizualizaci dvourozměrných dat, ' interpretovat výsledky analýzy závislosti mezi dvěma znaky. ©Klíčová slova: Dvourozměrný soubor, aritmetický průměr, kovariance, rozptyl, směrodatná odchylka, kontingenční tabulka, bodový graf. Statistický soubor se dvěma argumenty 126 Tab. 4: Ukázka dvourozměrného statistického souboru Statistická jednotka Znak X (Výška v cm) Znak Y (Hmotnost v kg) 1 170 65 2 165 70 3 180 80 4 175 75 5 160 60 Náhled kapitoly Zde přímo navazujeme na předchozí kapitolu, její látku rozšíříme na případ dvou proměnných. Novinkou budou pojmy specifické pro tento dvojrozměrný případ, například kontingenční tabulky, bodové grafy a kovariance, které popisují vztahy dvojice proměnných. Pokročilejší metody, jako jsou regrese a korelace, si necháme až na další kapitoly. Cíle kapitoly Cílem této kapitoly je získat povědomí o rozdílu mezi jednorozměrným a dvojrozměrným případem a nachystat si pojem kovariance pro další kapitolu. Časová náročnost Pro tuto kapitolu doporučujeme vyčlenit přibližně 2 hodiny, které zahrnují jak studium teoretických částí, tak procvičování praktických příkladů a aplikací. Úvod Dvourozměrný statistický soubor se skládá z dvojic hodnot (argumentů), kde každý argument představuje hodnotu jiného statistického znaku měřeného na stejných statistických jednotkách. Tento typ souboru je používán k analýze vztahů mezi dvěma různými proměnnými, například výškou a hmotností osob, věkem a platem zaměstnanců, apod. Každá statistická jednotka je tedy charakterizována dvojicí hodnot, které spolu mohou nebo nemusí být nějakým způsobem závislé. Dvourozměrný statistický soubor nám umožňuje analyzovat nejen vlastnosti jednotlivých znaků samostatně, ale i vztah mezi nimi. Příklad dvourozměrného statistického souboru je v tabulce 4: V tomto příkladu je znak X výška v centimetrech a znak Y hmotnost v kilogramech. Každý řádek představuje jednu statistickou jednotku (například jednu osobu), na které jsou měřeny oba znaky současně. 127 Základy statistiky 8.1 Základní pojmy Statistická jednotka: Objekt, na kterém jsou měřeny oba znaky. Může to být osoba, firma, stroj apod. Každá statistická jednotka má přiřazenou dvojici hodnot - jednu pro každý znak. Znak X: První proměnná, která je měřena na všech statistických jednotkách. Například výška osob nebo věk zaměstnanců. Znak Y: Druhá proměnná, která je rovněž měřena na stejných statistických jednotkách jako znak X. Například hmotnost osob nebo plat zaměstnanců. Dvojice hodnot: Každá statistická jednotka má přiřazenou dvojici hodnot (x,-ny,j), kde Xi je hodnota znaku X a y i je hodnota znaku Y pro i-tou statistickou jednotku. Statistický soubor: Množina všech dvojic hodnot (xi,yi), (x2,y2), ■ ■ ■, (xn,yn), kde n je počet statistických jednotek. Rozsah souboru: Počet statistických jednotek v souboru, označovaný jako n. V dvourozměrném souboru je rozsah stejný pro oba znaky, protože oba znaky jsou měřeny na stejných jednotkách. Můžeme se vrátit k tabulce 4, kde jsou statistickými jednotkami jednotlivé osoby, znakem X je výška a znakem Y je hmotnost. Rozsah souboru n = 5. 8.2 Tabulkové a grafické zobrazení dvourozměrných dat Při práci s dvourozměrným statistickým souborem je důležité umět data správně zobrazit. Existují různé způsoby, jak data vizualizovat a interpretovat. Mezi nejběžnější metody patří kontingenční tabulky a bodové grafy. Kontingenční tabulky Kontingenční tabulky se používají pro dvourozměrné soubory s diskrétními znaky. Tabulka obsahuje četnosti výskytu jednotlivých kombinací hodnot znaků X a Y. Tyto tabulky poskytují přehled o tom, jak často se různé kombinace hodnot vyskytují ve statistickém souboru. Statistický soubor se dvěma argumenty 128 Řádky tabulky představují jednotlivé kategorie znaku X. Sloupce tabulky představují jednotlivé kategorie znaku Y. Buňky tabulky obsahují absolutní četnosti kombinací hodnot X aY. Tab. 5: Ukázka kontingenční tabulky Y1 Y2 Y3 x1 5 7 3 x2 8 12 4 x3 6 2 9 Příklad kontingenční tabulky je v tabulce 5, kde jsou zobrazeny četnosti kombinací hodnot X a Y. Například hodnota 5 znamená, že kombinace X\ a Y\ se vyskytuje pětkrát. Kontingenční tabulky jsou užitečné pro analýzu závislosti mezi dvěma diskrétními znaky. Mohou být základem pro další metody analýzy, jako je například výpočet podmíněných pravděpodobností nebo chi-kvadrát test závislosti. Bodové grafy Bodové grafy (scatter plots) se používají pro dvourozměrné soubory, kde oba znaky nabývají spojitých hodnot. Na ose x je vynášen znak X a na ose y znak Y. Každá dvojice hodnot (xi} í/j) se zobrazuje jako bod v rovině. "150 155 160 165 170 175 180 185 190 Výška (cm) Obr. 17: Ukázka bodového grafu Příklad bodového grafu je na obrázku 17. Každý bod v grafu představuje jednu statistickou jednotku a její hodnoty znaků X a Y. Například bod na souřadnicích (160, 60) odpovídá jednotce s výškou 160 cm a hmotností 60 kg. CO o 70 60 129 Základy statistiky Bodové grafy umožňují vizuálně analyzovat vztah mezi dvěma znaky. Pokud jsou body uspořádány podél určité linie nebo křivky, může to naznačovat nějaký druh závislosti mezi znaky laľ. Tyto grafy jsou základním nástrojem pro identifikaci vzorů a závislostí v datech. Grafická zobrazení nám pomáhají lépe pochopit vztah mezi dvěma znaky. V případě bodového grafu může například kladná korelace znamenat, že vyšší hodnoty znaku X jsou často doprovázeny vyššími hodnotami znaku Y. Naopak záporná korelace by znamenala, že vyšší hodnoty jednoho znaku jsou spojeny s nižšími hodnotami druhého. Kontingenční tabulky nám umožňují odhalit závislosti mezi kategoriemi dvou znaků. Pokud se některé kombinace kategorií vyskytují mnohem častěji než jiné, může to naznačovat silnou závislost mezi znaky. Tabulkové a grafické metody jsou důležité nástroje pro první krok analýzy dvourozměrných statistických souborů, protože poskytují vizuální a kvantitativní přehled o datech. 8.3 Míry polohy a variability pro dvourozměrný soubor 8.3.1 Míry polohy Podobně jako u jednorozměrného statistického souboru, můžeme i u dvourozměrného souboru vypočítat míry polohy pro oba znaky laľ. Tyto míry zahrnují aritmetický průměr, medián a modus. Pro každý znak zvlášť můžeme vypočítat aritmetický průměr, který udává střední hodnotu daného znaku v souboru. Zde X je průměrná hodnota znaku X a Y je průměrná hodnota znaku Y. Výpočty probíhají stejným způsobem jako v jednorozměrném souboru. Příklad 8.1. Pro dvourozměrný statistický soubor z předchozího příkladu (výška a hmotnost osob) bychom vypočítali průměrnou výšku a hmotnost následovně: Interpretace grafických zobrazení Aritmetický průměr x = — i=l lb i=l X = 170 + 165 + 180 + 175 + 160 5 170 cm Statistický soubor se dvěma argumenty 130 65 + 70 + 80 + 75 + 60 V =-z-= 70 kg. 5 Podobným způsobem by se vypočítaly mediány a modus pro oba znaky. □ 8.3.2 Míry variability a kovariance Míry variability pro dvourozměrný statistický soubor jsou obdobné jako u jednorozměrného souboru, přičemž jsou vypočítávány zvlášť pro každý znak laľ. Rozptyl a směrodatná odchylka Rozptyl a směrodatná odchylka se pro dvourozměrný soubor počítají obdobně jako v jednorozměrném případě, zvlášť pro každý znak: Y n 1 n 4 =—7H(^-^)2, 4 =—-J2(yí-y)2- Směrodatná odchylka je druhá odmocnina rozptylu: Podrobnosti o rozptylu a směrodatné odchylce byly probrány v předchozí kapitole o jednorozměrném statistickém souboru. Kovariance Kovariance měří míru vzájemné závislosti mezi dvěma znaky laľ. Je-li kovariance kladná, znamená to, že se vysoké hodnoty znaku X pojí s vysokými hodnotami znaku Y. Záporná kovariance naopak naznačuje, že vyšší hodnoty jednoho znaku se pojí s nižšími hodnotami druhého znaku. Definice 8.2. Kovariance se vypočítá podle vzorce: 1 n Cov(X, Y) = —— 5>ť - x){Vi - y). n 1 i=i Pokud jsou hodnoty X a,Y nezávislé, je jejich kovariance blízká nule. Příklad 8.3. Uvažujme opět dvourozměrný statistický soubor (výška a hmotnost osob) (tabulka 4). Vypočteme kovarianci. 131 Základy statistiky Řešení: Nejprve vypočítáme průměry: x = 170, y = 70. Poté vypočítáme kovarianci: Cov(X,Y) = -J—[(170- 170)(65-70) + (165-170)(70-70) + - •• + (160-170)(60-70)1 = 50. 5 — 1 Tato kladná hodnota kovariance naznačuje, že mezi výškou a hmotností existuje pozitivní vztah — vyšší osoby mají obecně vyšší hmotnost. □ 8.4 Řešené příklady Příklad 8.4. Vypočítejte základní číselné charakteristiky dvourozměrného statistického souboru. Tabulka uvádí hodnoty Xa,Y pro jednotlivá pozorování: x\y 20 30 40 50 60 70 80 250 19 5 350 23 116 11 450 1 41 98 9 550 4 32 65 7 650 1 4 21 46 3 750 1 2 11 13 1 850 1 3 2 Řešení: Pro řešení vypočítáme: 1. Průměry: x = — ■ 259800 « 481,1, y = — • 22030 « 40,80. 540 ' ' y 540 2. Rozptyly: 4 = — • 134490000 - 481,l2 « 17587,65, sl = — • 989900 - 40,82 « 168,81. x 540 ' ' ' Y 540 ' 3. Směrodatné odchylky: sx ~ 132,62, sy « 12,99. 4. Kovariance: Cov( V V) = — • 11427500 - 481,1 • 40,8 « 1534,49. v > ; 540 ' □ Statistický soubor se dvěma argumenty 132 Příklad 8.5. Vypočítejte číselné charakteristiky dvourozměrného statistického souboru, který je zadán tabulkou: X 27 31 87 93 114 124 190 193 250 254 264 272 308 324 y 28 21 71 36 30 43 54 54 59 25 82 22 38 22 371 372 440 442 502 503 506 522 556 620 624 56 63 46 24 33 40 41 28 53 38 66 Řešení: Výpočty provedeme pomocí Excelu: 1. Průměry: _ 7989 _ 1073 x =-319,56, y =- 25 25 42,92. 2. Rozptyly: 3371599 25 319,562 « 32745,37, s2Y 52945 25 42,922 « 275,67. 3. Směrodatné odchylky: sx ~ 180,96, sY « 16,60. 4. Kovariance: 3492^0 Cov(V, Y) =--319,56 • 42,92 « 254,48. 25 □ OV této kapitole jsme se seznámili s dvourozměrným statistickým souborem, který analyzuje dvojice hodnot (xi,yi) pro každou statistickou jednotku. Pro oba znaky jsme vypočítali základní míry polohy (průměr, medián, modus) a variability (rozptyl, směrodatná odchylka). Představili jsme kovarianci jako nástroj k měření závislosti mezi dvěma znaky, kde kladná kovariance ukazuje na pozitivní vztah a záporná na negativní. Kromě výpočtů jsme se věnovali kontingenčním tabulkám pro diskrétní znaky a bodovým grafům pro spojité znaky, které umožňují vizuální analýzu vztahů mezi znaky. Tato kapitola připravuje základ pro další analýzy závislostí mezi dvěma znaky, které budou následovat v příštích kapitolách. 133 Základy statistiky 8.5 Kontrolní otázky 1. Jaký je rozdíl mezi jednorozměrným a dvourozměrným statistickým souborem? 2. Jak vypočítáme aritmetický průměr pro dvourozměrný statistický soubor? 3. Co znamená kovariance a jaký má význam při analýze dvourozměrného souboru? 4. Jaká je interpretace kladné a záporné hodnoty kovariance? 5. Jaký grafický nástroj lze použít pro vizualizaci dvourozměrného statistického souboru, kde oba znaky jsou spojité? 6. Jak funguje kontingenční tabulka a kdy ji použijeme? 7. Jaký je vztah mezi rozptylem a směrodatnou odchylkou pro jednotlivé znaky v dvourozměrném statistickém souboru? 8. Proč používáme bodový graf (scatter plot) při analýze dvourozměrných dat a co nám ukazuje o závislosti mezi znaky X a Yl 9. U 130 zákrsků bylo zjištěno stáří stromu v letech (argument X) a sklizeň v jistém roce v kg (argument Y). Podle údajů v tabulce určete kovarianci. X\Y 4 5 6 7 8 9 10 11 3 6 0 0 0 0 0 0 0 4 0 5 10 2 0 0 0 0 5 0 0 0 2 8 3 0 0 6 0 0 0 0 0 12 10 0 7 0 0 0 0 0 8 15 4 8 0 0 0 0 4 16 8 0 9 0 3 12 2 0 0 0 0 [Cov(X,Y) « 1,12] e Literatura k tématu: [1] HINDLS, R. Statistika pro ekonomy. 8. vyd. Praha: Professional Publishing, 2007. ISBN 978-80-869-4643-6. ISBN 978-80-867-3208-8. [2] MAREK, L. Statistika v příkladech. 2. vyd. Praha: Kamil Mařík - Professional Publishing, 2015. ISBN 978-80-743-1153-6. [3] OTIPKA, P., SMAJSTRLA, V. Pravděpodobnost a statistika [online]. 1. vydání. Ostrava: VŠB-TU Ostrava, 2007 [cit. 2024-09-09]. ISBN 80-248-1194-4. Dostupné z: https://homel.vsb.cz/~oti73/cdpastl/ [4] ZVÁRA, K. a ŠTĚPÁN, J. Pravděpodobnost a matematická statistika. Matfyzpress, 2019. ISBN 978-80-7378-388-4. Kapitola 9 Regresní a korelační analýza Po prostudování této kapitoly budete umět: > vysvětlit, co korelační koeficient popisuje a jaké jsou jeho varianty, > vypočítat Pearsonův korelační koeficient na základě zadaných dat. • interpretovat výsledky korelační analýzy, používat Excel nebo jiný statistický software k výpočtu korelačních koeficientů, • odhadovat parametry lineárního regresního modelu, • aplikovat lineární regresi na reálná data, • používat Excel a modul Analýza dat - Regrese pro výpočty. Klíčová slova: Korelační koeficient, statistická závislost, lineární vztah, ineární regrese, regresní analýza, regresní koeficienty, Excel, modul Analýza dat. 135 Základy statistiky Náhled kapitoly V této kapitole navážeme na předchozí kapitolu, kde jsme zkoumali vztah dvou statistických znaků. Zde se seznámíme s dvěma pokročilejšími metodami analýzy těchto závislostí. Korelační analýza slouží k měření síly a směru lineárního vztahu mezi dvěma proměnnými. Probereme různé varianty korelačních koeficientů a jejich využití v praxi, zejména Pearsonův korelační koeficient, který je nejčastěji používán. Ukážeme si také omezení tohoto koeficientu a situace, kdy je vhodné použít alternativní metody. Metoda lineární regrese umožňuje odhadnout vztah mezi závislou a nezávislou proměnnou pomocí přímky (případně i jiné křivky). Obě metody se naučíme provádět i v Excelu. Cíle kapitoly Cílem této kapitoly je praktické seznámení s dvěma metodami, korelační a regresní analýzou, které nám umožňují studovat vztah (závislost) dvou statistických znaků. Odhad času potřebného ke studiu Odhaduje se, že studium této kapitoly zabere přibližně 3 hodiny. Tento čas zahrnuje čtení textu, pochopení teoretických konceptů a řešení příkladů (i v Excelu). 9.1 Princip korelační analýzy Co je to korelační koeficient? Korelační koeficient je statistická míra, která určuje sílu a směr vztahu mezi dvěma proměnnými. Pearsonův korelační koeficient, označovaný jako r, měří lineární vztah mezi dvěma spojitými proměnnými a nabývá hodnot mezi -1 a 1. Pokud je r = 1, jedná se o perfektní pozitivní lineární vztah, pokud r = — 1, jedná se o perfektní negativní lineární vztah, a pokud r = 0, neexistuje žádná lineární závislost mezi proměnnými. Výpočet korelačního koeficientu Definice 9.1. Pearsonův korelační koeficient je definován vztahem: Cov(X, Y) = J2(xt - x) ■ (yt - y) kde Xi a yri jsou jednotlivé hodnoty obou proměnných, a x a y jsou jejich průměry. Regresní a korelační analýza 136 Řešené příklady Příklad 9.2. Mějme data o prodejích produktů ve dvou různých regionech. Vypočítejte Pear-sonův korelační koeficient a určete, zda mezi těmito proměnnými existuje lineární vztah. Prodeje (ReÉ pon 1) 10 15 20 25 30 Prodeje (ReÉ pon 2) 12 18 25 24 28 Řešení: Nejprve vypočítáme průměry x = 20 a y = 21 A. Poté provedeme výpočet Pearsonova korelačního koeficientu podle výše uvedeného vzorce. Korelační koeficient r ps 0.88, což ukazuje na silnou pozitivní lineární závislost mezi prodeji v obou regionech. Excel: Korelační koeficient lze spočítat pomocí funkce C0RREL(arrayl, array2) v Excelu. Příklad 9.3. Mějme data o počtu zákazníků navštěvujících obchod a průměrné denní tržby. Vypočítejte korelační koeficient a určete, zda existuje lineární závislost. Počet zákazníků 50 60 70 80 90 Denní tržby (v tis. Kč) 20 25 30 28 35 Řešení: Vypočítáme průměry x = 70 a y = 27.6. Pomocí vzorce pro korelační koeficient získáme r ~ 0.91, což značí velmi silnou pozitivní lineární závislost mezi počtem zákazníků a tržbami. Excel: Pomocí funkce C0RREL(arrayl, array2) lze získat stejný výsledek. □ Příklad 9.4. Zde JSOU dcltcl pro prodej dvou produktů v různých týdnech. Určete, zda mezi prodejem těchto produktů existuje lineární vztah. Prodeje produktu A 100 105 110 95 115 90 120 85 125 80 Prodeje produktu B 200 180 205 185 190 185 190 195 200 190 Řešení: Průměry pro produkt A a produkt B jsou x = 102.5 a y = 192. Po výpočtu korelačního koeficientu dostaneme r ps 0.08, což naznačuje velmi slabou nebo žádnou lineární závislost mezi prodeji těchto produktů. Excel: Výpočet pomocí C0RREL(arrayl, array2) v Excelu také ukazuje, že korelace je blízká nule, tedy nevýznamná. □ Historie a varianty korelačních koeficientů Historie korelačních koeficientů sahá až do 19. století, kdy Francis Galton poprvé navrhl metody pro kvantifikaci statistických vztahů mezi proměnnými. Na jeho práci navázal Karl Pearson, který formalizoval a popularizoval Pearsonův korelační koeficient. 137 Základy statistiky V průběhu času byly vyvinuty další varianty korelačních koeficientů pro specifické účely: Spearmanův korelační koeficient (Spearman's rho): Používá se, pokud data nejsou normálně rozložena nebo vykazují monotónní, nikoli lineární vztah. Kendallův tau: Měří sílu vztahu mezi pořadím hodnot a používá se zejména u malých souborů dat. Point-biserial correlation: Využívá se pro měření korelace mezi spojitou a binární proměnnou. Každý z těchto korelačních koeficientů má své specifické aplikace a závisí na typu dat, které jsou analyzovány. Korelační analýza našla využití v mnoha oblastech, včetně psychologie, ekonomie, marketingu a biostatistiky. Kdy je korelační koeficient vhodný? Korelační koeficient popisuje sílu a směr lineárního vztahu mezi dvěma spojitými proměnnými. Jeho použití je vhodné, pokud jsou splněny následující podmínky: Obě proměnné mají přibližně normální rozložení. Vztah mezi proměnnými je lineární. Nejsou přítomny výrazné odlehlé hodnoty, které by ovlivnily výsledek. Použití Pearsonova korelačního koeficientu je nevhodné, pokud vztah mezi proměnnými není lineární nebo pokud se jedná o ordinální data, u nichž je vhodnější použít Spearmanův korelační koeficient nebo Kendallův tau. Praktické cvičení Mějte následující data pro dva produkty a určete, zda existuje lineární závislost mezi jejich prodeji: Prodeje produktu A 5 10 15 20 25 Prodeje produktu B 8 12 17 22 24 Spočítejte korelační koeficient pomocí výše uvedeného vzorce nebo pomocí Excelu (C0RREL(arrayl, array2)). Na základě výsledku určete, zda mezi těmito proměnnými existuje lineární závislost. Regresní a korelační analýza 138 9.2 Princip lineární regrese Úvodní příklad Představte si, že jste ekonomický analytik ve společnosti, která chce předpovědět tržby na základě výdajů na reklamu. Máte k dispozici následující data z posledních 10 měsíců (tabulka 6). Tab. 6: Ukázková data pro lineární regresi Měsíc 1 2 3 4 5 6 7 8 9 10 Reklama (tis. Kč) 20 25 30 35 40 45 50 55 60 65 Tržby (tis. Kč) 200 220 250 280 310 330 360 390 420 450 Cílem je zjistit, jak silný je vztah mezi výdaji na reklamu a tržbami, a vytvořit model, který umožní předpovědět tržby při různých úrovních výdajů na reklamu. Formulace problému • Závislá proměnná (Y): Tržby (tis. Kč). ' Nezávislá proměnná (X): Výdaje na reklamu (tis. Kč). Cíl analýzy Pomocí lineární regrese odhadnout vztah mezi výdaji na reklamu a tržbami a posoudit, zda je tento vztah statisticky významný. Co je to lineární regrese? Lineární regrese je statistická metoda používaná k modelování vztahu mezi závislou proměnnou a jednou nebo více nezávislými proměnnými. V případě jednoduché lineární regrese se jedná o vztah mezi dvěma proměnnými, který je modelován pomocí přímky. 139 Základy statistiky Regresní model Lineární regresní model lze vyjádřit rovnicí: kde: F je závislá proměnná, X je nezávislá proměnná, /3q je absolutní člen (intercept), fli je směrnice přímky (sklon), e je náhodná chyba (reziduálni složka). Metoda nejmenších čtverců Parametry (30 a /3i jsou odhadnuty pomocí metody nejmenších čtverců, která minimalizuje součet čtverců odchylek mezi skutečnými hodnotami Y a predikovanými hodnotami Y: min J2(Vi ~ Víf = min ~ Po ~ Pixi ,2 Odhady parametrů Odhady parametrů fi0 a (3i lze vypočítat pomocí vzorců: Ei=i(xi-x)(yi -y) P Po = y- fe kde x a, y jsou průměry laľ. Regresní a korelační analýza 140 Předpoklady lineární regrese Aby byly odhady parametrů platné, musí být splněny následující předpoklady: • Linearita: Vztah mezi V a V je lineární. ' Homoskedasticita: Rozptyl náhodné složky e je konstantní pro všechna X. • Nezávislost: Hodnoty náhodné složky e jsou nezávislé. • Normalita: Náhodná složka e je normálně rozložena. Historické poznámky Metoda lineární regrese byla poprvé formálně představena anglickým statistikem Sir Prancis Galtonem v 19. století při studiu dědičnosti výšky mezi rodiči a dětmi. Termín regrese pochází z Galtonova pozorování, že extrémní hodnoty mají tendenci "regresovat" k průměru v následující generaci. Později Karl Pearson a Ronald A. Fisher rozvinuli matematické základy regresní analýzy a metodu nejmenších čtverců, která je dnes standardním nástrojem v statistice a ekonometrice. Odhad parametrů a interpretace Výpočet odhadů Pomocí výše uvedených vzorců lze spočítat odhady J3q a J3\ na základě dostupných dat. Interpretace parametrů Směrnice přímky Udává změnu v závislé proměnné Y při jednotkové změně nezávislé proměnné X. Absolutní člen 0o)'- Hodnota závislé proměnné Y, když nezávislá proměnná X je nulová. 141 Základy statistiky 9.3 Řešené příklady Příklad 9.5. Vyrovnejte data v tabulce regresní přímkou: X 5 15 25 35 45 55 65 y 3,5 5,2 5,5 6,1 5,9 6,4 7,8 Řešení: Ukážeme, jak by se tato úloha řešila v Excelu: 1. Nejdříve označíme data a klikneme na Vložit Graf, přičemž vybereme typ grafu XY bodový (obrázek 18). C* T = Seirtl - Ercel j VLOŽENI KOaoiENÍ STRÁNKY VZORCE 0ATA REVIZE ZOBRAZENÍ m m SB*-* t%X * ě t s ě| DůpO"uť«n* Tabulka Obrirky Onlnt A Moie ap*kjte - CMjpwuien* Kůrňingentni 4fKijrW\ipí(r.ý VlMtupp/ PriJel ČatóvÉ Hype«t( :.Un^ll.L.JI.: .-.h,L,L,. A* " ' .-.,LK. j ■ . ■» n.J. - -"U--- iň^íficniutnuty antzzKy a* grary —' ^- t|r»T' [abidfcy llmlracc Ouplrtty 1 Bodový DůKirTy oia ůo« " >■•', fMrr Odki i|cjo|i|r|o|H| i IbJ \vi H N 0 P a 1* T l__£±. I_—L / 15 35 45 55 6! v £2 5,5 5r9 M 7. uMnový *. 1 a. oj. [«£ •fy- L j! D*ii. b«)e>-t 9 ■ • • * 1ti 20 » 40 Ml «0 70 Obr. 18: Vložení bodového grafu 2. Máme-li aktivní okno grafu, v nabídce + vybereme možnost Spojnice trendu (obrázek 19). < j>-o-c y rvky grafu 0 h i 0 Osy 3 7 6 2 1 0 □ Názvy os ■ 3 Název grafu -•- ■ • □ Popisky dat □ Chybové úsečky ( • 0 Mřížka n i=—a, • 1 1 Spojnice trendu > ( ) 10 20 30 40 50 60 7 Q i Obr. 19: Přidání spojnice trendu Regresní a korelační analýza 142 3. V rámci volby můžete volit i jiné křivky než přímku, a také vložit rovnici přímky přímo do grafu (obrázek 20): _ : i,j U.i |m |m M lTÍ~ ± Formát spojnice rnendu T x MoAttniivoMKi mnu * > - i\\ Ľ o, L_ \ľ Ol JntHL-± hafnutu ip-:4*íi*™íi Ě Obr. 20: Nastavení lineární regrese 4. Výsledkem je rovnice regrese y = 0,0561 • x + 3,8089. Z grafu vidíme, že rovnice dobře vystihuje závislost proměnných. Řešení bez použití Excelu: Pro výpočet regresní přímky použijeme vzorce: y = J31-x + J30, kde: Po nYxf - (Yxí)2 Y Ví - a Y Xj n Pro naše data: J2 Xi = 5 + 15 + 25 + 35 + 45 + 55 + 65 = 245, J2 Ví = 3,5 + 5,2 + 5,5 + 6,1 + 5,9 + 6,4 + 7,8 = 40,4, J2 x2 = 52 + 152 + 252 + 352 + 452 + 552 + 652 = 8575, J2 xiVi = 5 • 3,5 + 15 • 5,2 + 25 • 5,5 + 35 • 6,1 + 45 • 5,9 + 55 • 6,4 + 65 • 7, 1601,5. Dosadíme do vzorců: (31 = 7 ' !.60ll5_7 245-!40'4 = 0,0561, Po 7 ■ 8575 - 2452 40,4 - 0,0561 • 245 7 3,8089. 143 Základy statistiky Rovnice regresní přímky je tedy: y = 0,0561 - x + 3,8089. □ Příklad 9.6. Použijte data z úvodního příkladu (tabulka 6) a odhadněte lineární regresní model pro vztah mezi výdaji na reklamu a tržbami. Určete odhady parametrů (30 a (3i. Řešení: Krok 1: Výpočet průměrů _ EEi*» 20 + 25 + --- + 65 x =- =- = 42,5, 10 10 _ EEižft 200 + 220 + --- + 450 y =- =-= 321. y 10 10 Krok 2: Výpočet odhadu (3- s _ e!=i(^ -x){ví -v) 11 e^fe-*)2 Spočítáme jednotlivé sumy: J2(xí - x)(yí - y) = J2(xtyt) - nxy^ 2 _2 x,-, — nx . Výpočty: Vytvoříme tabulku pro výpočty (část výpočtů): i Xí Yi XjYi x? 1 20 200 4000 400 2 25 220 5 500 625 3 30 250 7500 900 4 35 280 9 800 1225 5 40 310 12400 1600 6 45 330 14850 2 025 7 50 360 18 000 2 500 8 55 390 21450 3 025 9 60 420 25 200 3 600 10 65 450 29 250 4 225 e 425 3210 147950 20125 A tedy Ř ^XiVi-rixy 147950 - 10-42,5-321 pl e x\ - nx2 20 125 - 10 • (42,5)2 ~ Ó^Z' Regresní a korelační analýza 144 Výpočet /30: j30 = y - fax = 321 - 5,5882 • 42,5 = 321 - 237,5 = 83,5. Regresní rovnice: Ý = 5,5882V + 83,5. Výpočty v Excelu: Kromě postupu přímo v Excelu, jak jsme si to předvedli v předchozím příkladu, můžeme použít i pokročilejší modul Analýza dat - Regrese: Postup: 1. Vložíme data do dvou sloupců: X (Reklama) a Y (Tržby). 2. Spustíme Analýza dat a vybereme Regrese. 3. Nastavíme vstupní rozsahy pro závislou a nezávislou proměnnou. 4. Zvolíme výstupní oblast a případně další možnosti (např. reziduálni grafy). Výstupem bude tabulka s odhady parametrů, ale také jejich směrodatnými chybami, hodnotami ŕ-statistik a P-hodnotami. Interpretace výsledků z Excelu: Výsledky mohou vypadat například takto: Parametr Odhad Směr. chyba t P-hodnota h 83,5 5,0 16,7 0,0000 5,5882 0,2 27,9 0,0000 Rozhodnutí: Protože P-hodnota pro /3i je mnohem menší než a = 0,05, zamítáme nulovou hypotézu H0 : fli = 0. Regresní koeficient fii je tedy statisticky významný. □ OV této kapitole jsme se zabývali korelační a regresní analýzou, která slouží k analýze závislostí mezi dvěma kvantitativními znaky. Korelace hodnotí sílu a směr lineárního vztahu mezi dvěma proměnnými pomocí korelačního koeficientu Txy- Pozitivní korelace značí, že s růstem jedné proměnné roste i druhá, zatímco negativní korelace ukazuje opačný vztah. Regresní analýza pak umožňuje vyjádřit tento vztah pomocí matematického modelu. Nejčastěji se používá lineární regresní model, který popisuje vztah mezi závisle proměnnou 145 Základy statistiky Y a nezávislou proměnnou X pomocí přímky. Parametry modelu, jako je směrnice a průsečík, jsou odhadovány metodou nejmenších čtverců. V rámci kapitoly jsme si ukázali, jak tyto metody aplikovat na konkrétní data, jak interpretovat výsledky korelace a regrese. Důležitou součástí byla také vizualizace dat pomocí bodových grafů a regresních přímek. 1. Co je korelační koeficient a jaká je jeho interpretace? 2. Jaký je rozdíl mezi korelační a regresní analýzou? 3. Jak se vypočítá koeficient korelace txy mezi dvěma proměnnými? 4. Co znamená hodnota korelačního koeficientu blízká 1, 0 nebo —1? 5. Co je to lineární regrese a k čemu slouží? 6. Jak se odhadují parametry lineárního regresního modelu? 7. Co vyjadřuje směrnice a průsečík regresní přímky? 8. Jaké grafické nástroje se používají k vizualizaci výsledků korelační a regresní analýzy? 9. Uvažujme následující data, která představují počet hodin fyzického cvičení za týden a spotřebu kalorií (v tisících) pěti osob: Osoba Hodiny cvičení za týden (X) Spotřeba kalorií (Y, v tisících) 1 3 2,2 2 5 2,8 3 7 3,1 4 8 3,5 5 10 4,0 Vypočítejte korelační koeficient mezi počtem hodin cvičení a spotřebou kalorií a interpretujte výsledek. [r = 0,98] 10. V následující tabulce jsou uvedeny hodnoty proměnných X a,Y, kde X představuje počet hodin studia a Y dosažené skóre v testu: Osoba Hodiny studia (X) Skóre (Y) 1 2 50 2 3 55 3 4 60 4 5 60 5 6 70 Určete parametry lineární regresní přímky pro závislost skóre na počtu hodin studia (vztah mezi V a V) a napište rovnici regresní přímky. [Y = 2X + 51] Regresní a korelační analýza 146 Literatura k tématu: [1] HINDLS, R. Statistika pro ekonomy. 8. vyd. Praha: Professional Publishing, 2007. ISBN 978-80-869-4643-6. ISBN 978-80-867-3208-8. [2] MAREK, L. Statistika v příkladech. 2. vyd. Praha: Kamil Mařík - Professional Publishing, 2015. ISBN 978-80-743-1153-6. [3] OTIPKA, P., SMAJSTRLA, V. Pravděpodobnost a statistika [online]. 1. vydání. Ostrava: VŠB-TU Ostrava, 2007 [cit. 2024-09-09]. ISBN 80-248-1194-4. Dostupné z: https://homel.vsb.cz/~oti73/cdpastl/ [4] ZVÁRA, K. a ŠTĚPÁN, J. Pravděpodobnost a matematická statistika. Matfyzpress, 2019. ISBN 978-80-7378-388-4. Kapitola 10 Časové řady Po prostudování této kapitoly budete umět: • definovat a vysvětlit základní pojmy časových řad, popsat klíčové složky časových řad, jako jsou trend, sezónnost a náhodná složka, • rozlišit mezi stacionárními a nestacionárními časovými řadami, • interpretovat grafickou analýzu časových řad. Klíčová slova: Časová řada, trend, sezónnost, cykličnost, stacionarita, grafická analýza. Časové řady 148 Náhled kapitoly V této kapitole se seznámíme s konceptem časových řad a jejich základními charakteristikami. Časové řady představují posloupnost hodnot sledovaných (většinou) v pravidelných časových intervalech. Tyto řady se používají k analýze dat v mnoha oblastech, jako jsou ekonomie, finance a další disciplíny. Probereme základní složky časových řad, jako jsou trend, sezónnost, cyklické jevy a náhodné výkyvy. Naučíme se, jak tyto složky rozlišit a interpretovat pomocí grafických metod. Cíle kapitoly Cílem této kapitoly je představit časové řady jako důležitý nástroj pro analýzu dat sledovaných v čase. Studenti se naučí rozpoznávat základní složky časových řad, pochopí rozdíl mezi stacionárními a nestacionárními řadami a budou schopni provést základní grafickou analýzu. Odhad času potřebného ke studiu Odhaduje se, že studium této kapitoly zabere přibližně 2 hodiny. Tento čas zahrnuje čtení textu, pochopení teoretických konceptů a interpretaci grafických analýz časových řad. Úvod Definice 10.1. Časové řady představují posloupnost hodnot, které jsou zaznamenávány v pravidelných nebo nepravidelných časových intervalech. Každá hodnota časové řady odpovídá určitému okamžiku nebo časovému úseku. Tento typ dat umožňuje analyzovat změny proměnné v čase a může odhalit různé vzorce chování proměny dat, jako jsou trendy (růst nebo pokles ve větším časovém měřítku) nebo sezónní výkyvy. Příkladem časové řady může být vývoj ceny akcií na burze, počet prodaných výrobků v obchodě za jednotlivé měsíce nebo denní teplota zaznamenaná meteorologickou stanicí. Kde se časové řady využívají? Časové řady se využívají v mnoha oblastech, kde je třeba analyzovat a předvídat vývoj veličin v čase. Mezi nejčastější aplikace patří: Ekonomie a finance: Analýza vývoje cen akcií, kurzů měn, inflace nebo nezaměstnanosti. Marketing: Předpovědi poptávky, prodejních trendů, či sezónních výkyvů v tržbách. Meteorologie: Analýza teplotních změn, srážkových úhrnů nebo předpovědi počasí na základě historických dat. Výrobní procesy: Monitoring a analýza výkonnosti výrobních zařízení v čase, sledování kvality nebo optimalizace výrobních kapacit. 149 Základy statistiky Díky těmto aplikacím je možné provádět analýzy, které pomáhají organizacím předvídat budoucí vývoj a lépe plánovat své aktivity. 10.1 Základní pojmy časových řad Pozorování a časová osa Časová řada je posloupnost hodnot určité veličiny, které jsou měřeny nebo zaznamenávány v nějakých (většinou pravidelných) časových intervalech. Definice 10.2. Každá časová řada má dvě klíčové složky: Časová osa: Zahrnuje jednotlivé časové body (např. dny, měsíce, roky), ve kterých jsou hodnoty proměnné zaznamenány. Hodnoty proměnné: Reprezentují sledovanou veličinu (např. teplotu, cenu akcií, prodeje). Časové řady jsou důležité pro zkoumání změn a trendů v průběhu času, což nám potenciálně umožňuje predikovat budoucí hodnoty na základě předchozích dat. Trend, sezónnost, cykličnost a náhodná složka Definice 10.3. Časovou řadu můžeme rozložit na několik základních složek: Trend: Dlouhodobý směr vývoje časové řady, který může být vzestupný, sestupný nebo konstantní. Představuje systematickou změnu hodnot v čase. Sezónnost: Krátkodobé pravidelné fluktuace, které se opakují v určitém časovém období (např. roční období, měsíční prodeje). Cykličnost: Dlouhodobé nepravidelné výkyvy, které nejsou striktně periodické, ale mohou souviset s ekonomickými nebo jinými cykly. Náhodná složka: Nepravidelné, nepředvídatelné výkyvy, které nelze vysvětlit trendem, sezónností ani cykličností. Tato složka představuje vlivy, které nejsou systematické a mohou být způsobeny různými náhodnými faktory. Rozklad časové řady na tyto složky nám umožňuje lépe pochopit její strukturu a provádět analýzy, které jsou užitečné například při modelování a predikci. Časové řady 150 10.2 Typy časových řad Deterministické a stochastické časové řady Definice 10.4. Časové řady můžeme rozdělit do dvou základních kategorií: Deterministické časové řady: U těchto řad je budoucí vývoj plně určen předchozími hodnotami. Neobsahují žádnou náhodnou složku a jsou často popsány jednoduchými matematickými funkcemi, například lineárním nebo exponenciálním trendem. Stochastické časové řady: Tyto řady obsahují náhodnou složku, což znamená, že jejich budoucí vývoj není zcela předvídatelný. Příkladem je fluktuace na finančních trzích, kde se vývoj ceny akcie v čase nedá přesně určit. Rozlišení mezi deterministickými a stochastickými řadami je klíčové pro výběr vhodných metod analýzy a předpovědí. Stacionární a nestacionární časové řady Definice 10.5. Další důležité dělení časových řad je na stacionární a nestacionární: Stacionární časové řady: Časová řada je stacionární, pokud její statistické vlastnosti (např. průměr a rozptyl) zůstávají v čase konstantní. To znamená, že v průběhu času nepozorujeme žádný výrazný trend ani změny v kolísání hodnot. Stacionární časové řady jsou často jednodušší na analýzu a modelování. Nestacionární časové řady: V těchto řadách dochází ke změnám v čase, například k růstu nebo poklesu průměru, změnám v rozptylu nebo výskytu sezónních výkyvů. Pro analýzu nestacionárních časových řad je obvykle nutné aplikovat metody, které tyto změny zohlední, například diferenciaci. Stacionarita je důležitý koncept, protože mnoho statistických metod předpokládá, že časová řada je stacionární. Pokud není, je třeba použít vhodné transformace, které pomohou dosáhnout stacionarity. 151 Základy statistiky 10.3 Analýza časových řad Grafická analýza časových řad Jedním z prvních kroků při analýze časové řady je vizuální zkoumání jejích vlastností pomocí grafů. Grafická analýza časových řad nám umožňuje identifikovat základní složky časové řady jako jsou trend, sezónnost nebo náhodné výkyvy. Definice 10.6. Mezi nejčastěji používané grafické nástroje patří: Časový graf: Zobrazuje hodnoty časové řady na vertikální ose a časové body na horizontální ose. Tento graf je ideální pro identifikaci dlouhodobých trendů a sezónních výkyvů. Sezónní diagram: Používá se k vizualizaci opakujících se sezónních vzorců. Umožňuje snadno rozpoznat, zda má časová řada pravidelné sezónní fluktuace v průběhu jednotlivých období (například různé měsíce nebo roční období). Bodový diagram (scatter plot): Může být použit ke zkoumání závislosti mezi hodnotami časové řady v různých časových intervalech. Tento graf může odhalit autokorelaci (závislost mezi hodnotami v různých časech). Grafická analýza poskytuje rychlý přehled o struktuře časové řady a je často prvním krokem před aplikací pokročilejších analytických metod. Rozklad časové řady Pro lepší pochopení struktury časové řady je často užitečné rozložit ji na jednotlivé složky: trend, sezónnost a náhodnou složku. Tento rozklad umožňuje oddělit systematické vlivy od náhodných výkyvů, což usnadňuje interpretaci a předpovědi. Definice 10.7. Rozklad časové řady lze provést pomocí několika metod, například: Additivní model: Předpokládá, že časová řada je součtem trendu, sezónnosti a náhodné složky. Tento model je vhodný, pokud amplituda sezónních výkyvů zůstává konstantní v čase. Multiplikativní model: Předpokládá, že časová řada je součinem trendu, sezónnosti a náhodné složky. Tento model je vhodný, pokud se amplituda sezónních výkyvů mění s velikostí časové řady (například větší pro vyšší hodnoty časové řady). Rozklad časové řady nám umožňuje lépe porozumět jejím jednotlivým složkám a případně predikovat budoucí hodnoty na základě trendů a sezónních vzorců. Časové řady 152 10.4 Charakteristiky časových řad Charakteristiky časových řad Při analýze časových řad se používají základní charakteristiky růstu, které nám umožňují kvantifikovat změny hodnot mezi jednotlivými časovými body. Definice 10.8. Mezi hlavní charakteristiky patří: Absolutní přírůstky (diference): Rozdíl mezi hodnotami časové řady ve dvou po sobě jdoucích obdobích. Absolutní přírůstek Axt pro období t je dán vztahem: Axt = xt - xt-i, kde xt je hodnota časové řady v období t a xt-\ je hodnota v předchozím období. Koeficienty růstu: Poměr mezi hodnotou časové řady v období t a hodnotou v předchozím období t — 1. Koeficient růstu kt je dán vztahem: h xt-i Tento koeficient nám ukazuje relativní změnu hodnot mezi dvěma obdobími. Průměrné charakteristiky Pro získání obecnějšího obrazu o vývoji časové řady v delším období používáme Definice 10.9. průměrné charakteristiky: Průměrný absolutní přírůstek: Jedná se o průměr všech absolutních přírůstků časové řady a vypočítá se jako: Průměrný přírůstek = ^r~2-- n — 1 kde n je počet období. Průměrný koeficient růstu: Tento koeficient vyjadřuje průměrnou relativní změnu časové řady v průběhu několika období. Vypočítá se jako geometrický průměr koeficientů růstu: i n ^* Tyto průměrné charakteristiky poskytují přehled o celkovém trendu časové řady. 153 Základy statistiky Aplikace v praxi Charakteristiky růstu lze využít k analýze změn v různých oblastech, jako je produkce, prodej nebo zásoby. Například pomocí průměrného absolutního přírůstku lze sledovat, jak se postupně mění objem výroby v továrně, a průměrný koeficient růstu nám může ukázat, zda růst prodeje vykazuje stabilní tempo nebo kolísá mezi obdobími. 10.5 Řešené příklady Příklad 10.10. Mějme následující časovou řadu, která představuje počet prodaných kusů určitého produktu v obchodě za posledních 10 měsíců: (120,150,130,170,160,180,200,190,210,230) Vaším úkolem je: 1. Vykreslit časový graf této časové řady. 2. Identifikovat, zda časová řada obsahuje trend. Řešení: 1. Pro vykreslení časového grafu použijeme hodnoty z časové řady na vertikální ose a čas (v měsících) na horizontální ose. Graf ukazuje, jak se počet prodaných kusů mění v čase. 2. Z časového grafu můžeme vidět, že počet prodaných kusů má obecně rostoucí trend. Ne v každém měsíci se počet prodaných kusů zvyšuje, ale celkově je jasný pozitivní růst. Tato časová řada tedy obsahuje trend. □ Časové řady 154 Příklad 10.11. Určete elementární charakteristiky růstu časové řady sledující výrobu plynu v letech 1980 - 1985. rok 1980 1981 1982 1983 1984 1985 výroba (m3) 1286 1363 1393 1495 1571 1610 Řešení: Řešení: rok výroba (m3) yt absolutní přírůstky koeficienty růstu 1980 1286 1981 1363 77 1,060 1982 1393 30 1,022 1983 1495 102 1,073 1984 1571 76 1,051 1985 1610 39 1,025 Průměrný absolutní přírůstek: -x- E Ayt (í/2 - Ví) + (ž/3 — ž/2) H-----h (yn - ž/n-i) yn - yi 1610 - 1286 A =-=- =- =-= 64,8 n — 1 n — 1 n — 1 5 Průměrný koeficient růstu: V Vž/i V2 ys Vn-i V 1286 ' □ 10.6 Softwarová analýza časových řad V předchozích dvou příkladech jsme si předvedli jen velmi základní výpočty. 155 Základy statistiky Pro pokročilejší analýzu časových řad lze využít různé softwarové nástroje, které nabízejí specializované funkce a metody: Excel: Excel umožňuje provádět základní analýzu časových řad, jako je vykreslování časových grafů nebo výpočet klouzavých průměrů. Pro pokročilejší analýzy je možné použít doplněk Analýza dat, který zahrnuje funkce pro regresní analýzu nebo sezónní dekompozici. R: Ve statistické softwaru R jsou k dispozici speciální balíčky, jako například f orecast nebo tseries, které poskytují nástroje pro modelování časových řad, jako jsou ARIMA modely, exponenciální vyrovnávání a testy stacionarity. R je velmi flexibilní a široce využívaný pro komplexní analýzy. Wolfram Alpha: Wolfram Alpha je interaktivní nástroj, který umožňuje provádět základní analýzu časových řad, jako je vykreslení grafů nebo výpočet trendů. Méně se hodí pro komplexní statistické modely, ale je užitečný pro rychlé vizualizace a základní výpočty. Použití konkrétního softwaru závisí na potřebách analýzy - Excel je vhodný pro jednodušší úlohy a rychlou vizualizaci, zatímco R poskytuje nástroje pro pokročilé statistické modely, a Wolfram Alpha nabízí snadno přístupnou platformu pro základní výpočty. Příklad 10.12. Ukázka grafických výstupů při analýze časové řady počtu cestujících. Data jsou součástí instalace softwaru R. Řešení: Nejprve uvedeme programový kód, který nám v R, mimo jiné, vytvoří zmíněné grafické výstupy: # Načtení datasetu AirPassengers data("AirPassengers") # Základní informace o datasetu summary(AirPassengers) plot(AirPassengers, main="Počet cestujících v letecké dopravě (1949-1960)", ylab="Počet cestujících", xlab="Rok", col="blue") # Decompose časové řady (rozklad na trend, sezónnost a náhodnou složku) decomposed <- decompose(AirPassengers) plot(decomposed, col="darkred") # Autokorelační graf acf(AirPassengers, main="Autokorelační funkce pro AirPassengers") # ARIMA model pro předpověď library(forecast) model <- auto.arima(AirPassengers) forecasted <- forecast(model, h=24) # Graf předpovědi plot(forecasted, main="Předpověď počtu cestujících na příští 2 roky", col="green") # Výstup modelu summary(model) Časové řady 156 Pokračujeme ukázkou grafů. Na obrázku 21 na straně 156 je znázorněna časová řada počtu cestujících. ' Na obrázku 22 na straně 156 je provedena tzv. dekompozice (rozklad) časové řady na trendovou, sezónní a náhodnou složku. Na obrázku 23 na straně 156 je ukázka předpovědi. □ V této kapitole jsme se věnovali časovým řadám, které popisují vývoj veličin v čase. Hlavní body zahrnují: Základní pojmy: Probrali jsme časovou osu, hodnoty proměnných a základní složky časové řady, jako jsou trend, sezónnost a náhodné výkyvy. 1 Typy časových řad: Rozdělili jsme časové řady na deterministické a stochastické, stacionární a nestacionární. Charakteristiky růstu: Představili jsme absolutní přírůstky, koeficienty růstu a jejich průměrné hodnoty jako nástroje pro kvantifikaci změn časové řady. Kapitola poskytuje jen velmi základní nástroje pro analýzu časových řad v různých oborech. 1. Jaké jsou základní složky časové řady? Uveďte příklady každé z nich. 2. Jaký je rozdíl mezi stacionární a nestacionární časovou řadou? 3. Jaký je význam průměrného absolutního přírůstku a průměrného koeficientu růstu v analýze časových řad? 4. V jakých situacích byste použili multiplicativní model namísto aditivního modelu pro rozklad časové řady? 5. Vysvětlete, jak lze využít Excel, R nebo Wolfram Alpha pro analýzu časových řad. Jaké jsou hlavní rozdíly mezi těmito nástroji? 6. Majitel prodejny evidoval čtvrtletně objem prodeje ovocných kompotů a jejich zásoby na počátku čtvrtletí. čtvrtletí prodej ks zásoby ks I. 560 220 II. 480 210 III. 520 215 IV. 550 200 Na konci 4. čtvrtletí bylo v zásobě 150 ovocných kompotů. Vypočtěte průměrný čtvrtletní prodej a průměrnou čtvrtletní zásobu ovocných kompotů. [527,5, 199] 157 Základy statistiky ' ; íl ; Obr. 21: Graf časové řady z příkladu 10.12 Obr. 22: Dekompozice časové řady z příkladu 10.12 Obr. 23: Graf předpovědi časové řady z příkladu 10.12 Časové řady 158 7. Časová řada následujících hodnot představuje počet prodaných kusů elektroniky v obchodě za posledních 12 měsíců: (120,130,110,150,140,160,170,165,180,175,190,185) a. Vypočtěte absolutní přírůstky pro každý měsíc. b. Vypočtěte koeficient růstu pro každý měsíc. c. Určete průměrný absolutní přírůstek a průměrný koeficient růstu. [...,...,7,27, 1,0217] Literatura k tématu: [1] HINDLS, R. Statistika pro ekonomy. 8. vyd. Praha: Professional Publishing, 2007. ISBN 978-80-869-4643-6. ISBN 978-80-867-3208-8. [2] MAREK, L. Statistika v příkladech. 2. vyd. Praha: Kamil Mařík - Professional Publishing, 2015. ISBN 978-80-743-1153-6. [3] OTIPKA, P., SMAJSTRLA, V. Pravděpodobnost a statistika [online]. 1. vydání. Ostrava: VŠB-TU Ostrava, 2007 [cit. 2024-09-09]. ISBN 80-248-1194-4. Dostupné z: https://homel.vsb.cz/~oti73/cdpastl/ [4] ZVÁRA, K. a ŠTĚPÁN, J. Pravděpodobnost a matematická statistika. Matfyzpress, 2019. ISBN 978-80-7378-388-4. Kapitola 11 Induktivní statistika Po prostudování této kapitoly budete umět: • určit bodový odhad zvolených parametrů, určit intervalový odhad (interval spolehlivosti) střední hodnoty a rozptylu při zvolené hladině spolehlivosti, použít nástroje Excelu a R pro výpočty bodových a intervalových odhadů v praktických příkladech. Klíčová slova: Bodový odhad, intervalový odhad, střední hodnota, rozptyl, Excel, R. Induktivní statistika 160 Náhled kapitoly V této kapitole se budeme věnovat základním nástrojům induktivní statistiky, kterými jsou bodové a intervalové odhady. Tyto odhady umožňují na základě výběrových dat vyvodit závěry o základním souboru, což je klíčová součást statistické analýzy. Naučíme se, jak vypočítat bodový a intervalový odhad střední hodnoty (průměru) a rozptylu, a to jak teoreticky, tak i prakticky s využitím programů Excel a R. Cíle kapitoly Cílem této kapitoly je pochopit hlavní myšlenku induktivní statistiky a naučit se odhadovat parametry základního souboru pomocí bodových a intervalových odhadů. Odhad času potřebného ke studiu Studium této kapitoly by mělo zabrat přibližně 2 hodiny. Tento čas zahrnuje prostudování teorie, porozumění odhadovým metodám a zvládnutí praktických výpočtů v Excelu a R. Úvod Zopakujme si, že statistika je obor, který se zabývá sběrem, analýzou a interpretací hromadných pozorování a výsledků opakovaných pokusů. Je rozdělena na dva hlavní typy: Deskriptívni (popisná) statistika: Zaměřuje se na uspořádání datových souborů, jejich popis a účelnou sumarizaci. Induktivní statistika: Pomocí empirických poznatků umožňuje vytvářet vědecky odůvodněné obecné závěry. Tento přístup je založen na teorii pravděpodobnosti. Stejně jako statistika, i lidské myšlení lze rozdělit na různé typy podle způsobu uvažování. Mezi nejvýznamnější typy patří: Deduktivní myšlení Deduktivní myšlení je proces, při kterém vyvozujeme závěry z obecných zákonitostí nebo pravidel. Z obecných principů vytváříme specifické závěry, které se uplatňují v jednotlivých případech. Deduktivní myšlení zajišťuje přesné a logické usuzování. Příklad: Všichni lidé jsou smrtelní. Sokrates je člověk. Tudíž Sokrates je smrtelný. 161 Základy statistiky Induktivní myšlení Induktivní myšlení vychází z konkrétních pozorování jednotlivých případů a zobecňuje je do obecných závěrů. Na rozdíl od dedukce, indukce často pracuje s nejistotou, protože závěry jsou ovlivněny subjektivními postoji a mají omezenou platnost. Příklad: Každé ráno, kdy jsem pozoroval východ slunce, slunce skutečně vyšlo. Proto mohu induktivně usoudit, že slunce vyjde i zítra ráno. Další typy myšlení Abduktivní myšlení: Vyvozování nejpravděpodobnějšího vysvětlení na základě dostupných informací. Často se používá při řešení neúplných problémů, kde se snažíme najít nej lepší hypotézu. Příklad: „Zem je mokrá, pravděpodobně pršelo." Kreativní myšlení: Schopnost generovat nové a originální nápady nebo řešení. Zaměřuje se na netradiční přístupy k řešení problémů. Příklad: „Namísto tradičního reklamačního procesu navrhneme zcela nový způsob zákaznického servisu pomocí umělé inteligence." Kritické myšlení: Proces systematického hodnocení a zkoumání informací, argumentů a důkazů. Cílem je dospět ke správným závěrům založeným na logice a důkazech. Příklad: „Tento článek tvrdí, že určité potraviny jsou škodlivé, ale podívejme se na důkazy a ověřme, zda to podporují i jiné studie." Statistická indukce je proces, při kterém pomocí statistických metod dokážeme vytvářet obecné závěry z dostupných dat. Jejich spolehlivost lze kvantifikovat pomocí pravděpodobnosti. Základem statistické indukce je práce s výběrem a základním souborem. Základní soubor (populace) Základní soubor, někdy označován jako populace, je množina všech prvků, které jsou předmětem zkoumání. Tento soubor může být: Konečný: Např. počet obyvatel v určité zemi. Nekonečný: Hypotetický soubor, který je ideální a v realitě neexistuje. Prvky základního souboru mají různé vlastnosti, nazývané znaky. Tyto znaky dělíme na: Induktivní statistika 162 Kvalitativní: Nominálni: Vlastnosti, které lze pouze pojmenovat (např. barva očí). Ordinální: Vlastnosti, které lze uspořádat (např. spokojenost zákazníků na škále 1 až 5). Kvantitativní: Diskrétní: Hodnoty mohou nabývat pouze určitých hodnot (např. počet dětí v rodině). Spojité: Hodnoty mohou nabývat jakékoliv hodnoty v daném intervalu (např. výška člověka). Výběr Výběr je část základního souboru, kterou zkoumáme a na základě které usuzujeme na celou populaci. Aby byl výběr reprezentativní, musí odpovídat vlastnostem celého základního souboru. Pokud není výběr reprezentativní, jedná se o selektivní výběr. Metody výběru: Náhodný výběr: Prvky vybíráme náhodně, například losováním nebo pomocí tabulek náhodných čísel. Mechanický (systematický) výběr: Prvky vybíráme podle pevně stanoveného pravidla (např. každý třetí prvek). Oblastní (stratifikovaný) výběr: Základní soubor je rozdělen na homogenní oblasti, ze kterých jsou prvky vybírány náhodně. Skupinový výběr: Používá se pro velké populace, kdy vybíráme celé skupiny prvků (např. domácnosti nebo rodiny). Vícestupňový výběr: Prvky jsou vybírány postupně z různých úrovní hierarchie (např. město - domácnost - osoba). ni Odhady v induktivní statistice V oblasti induktivní statistiky se nejčastěji zaměřujeme na odhadování parametrů základního souboru na základě výběrových dat. Mezi hlavní parametry, které odhadujeme, patří: 163 Základy statistiky ' Průměr (střední hodnota): Odhadujeme střední hodnotu populace na základě průměru ve výběru. • Rozptyl: Odhadujeme rozptyl populace na základě výběrového rozptylu. ' Proporce: Odhady podílů určité charakteristiky v populaci (např. podíl lidí s určitým názorem). Zde se konkrétně zaměříme na bodový a intervalový odhad průměru (střední hodnoty) a rozptylu. 11.1.1 Bodový a intervalový odhad průměru (střední hodnoty) Bodový odhad průměru Definice 11.1. Bodový odhad průměru vyjadřuje nejlepší odhad skutečné střední hodnoty populace na základě výběrového průměru. Bodový odhad střední hodnoty fi se vypočítá jako: 1 n kde Xi jsou jednotlivé hodnoty z výběru a n je počet pozorování. Praktický výpočet v Excelu: V Excelu můžete bodový odhad průměru vypočítat pomocí funkce PRŮMĚR: =PRŮMĚR(A1:A10), kde rozsah buněk A1:A10 obsahuje hodnoty výběru. Praktický výpočet v R: V R můžete bodový odhad průměru spočítat funkcí mean(): mean(data), kde data je vektor obsahující hodnoty výběru. Induktivní statistika 164 Intervalový odhad průměru Definice 11.2. Intervalový odhad poskytuje rozsah hodnot, ve kterém se s určitou pravděpodobností nachází skutečný průměr populace. Intervalový odhad pro střední hodnotu fi s danou hladinou spolehlivosti 1 — a se vypočítá jako: kde Ui_a/2 je kvantil normálního rozdělení pro zvolenou hladinu spolehlivosti, a je směrodatná odchylka populace (případně odhad ze vzorku) a n je velikost výběru. Praktický výpočet v Excelu: Intervalový odhad průměru lze v Excelu vypočítat pomocí následujícího postupu: 1. Výpočet průměru: =PRŮMĚR(A1: A10) 2. Výpočet směrodatné odchylky: =SM0DCH. VÝBĚR. S (AI: A10) 3. Výpočet velikosti výběru: =P0ČET(A1:A10) 4. K výpočtu kvantilu normálního rozdělení použijeme funkci NORM. INV nebo NORM. S. INV, např. pro hladinu spolehlivosti 95%: =N0RM. S. INV(0,975) 5. Intervalový odhad pak získáme jako průměr ± iti_a/2 ' 7^- Praktický výpočet v R: V R můžeme intervalový odhad průměru vypočítat pomocí kombinace funkcí: mean(data) + c(-l, 1) * qnorm(0.975) * sd(data)/sqrt(length(data)) 165 Základy statistiky 11.1.2 Bodový a intervalový odhad rozptylu Bodový odhad rozptylu Definice 11.3. Bodový odhad rozptylu vyjadřuje nejlepší odhad skutečného rozptylu populace na základě výběrového rozptylu. Bodový odhad rozptylu o2 se vypočítá jako: 1 n kde (1 je průměr výběru a Xi jsou jednotlivé hodnoty z výběru. Praktický výpočet v Excelu: V Excelu můžete bodový odhad rozptylu vypočítat pomocí funkce VAR.S: =VAR.S(A1:A10) Praktický výpočet v R: V R můžete bodový odhad rozptylu vypočítat funkcí var(): var(data) Intervalový odhad rozptylu Definice 11.4. Intervalový odhad rozptylu lze vypočítat s využitím \2 rozdělení, které se používá pro odhady rozptylu. Intervalový odhad rozptylu s hladinou spolehlivosti 1 — a se vypočítá jako: /(n-l)-a2 (n-l)-a2\ \ Xl-a/2,n-l Xa/2,n-l 1 kde Xa/2n-i Je kvantil \2 rozdělení. Induktivní statistika 166 Praktický výpočet v Excelu: Intervalový odhad rozptylu můžete vypočítat pomocí následujících kroků: 1. Výpočet rozptylu: =VAR.S(A1 :A10) 2. Výpočet velikosti výběru: =P0ČET(A1:A10) 3. K výpočtu kvantilu %2 rozdělení použijte funkci CHISQ. INV, např.: =CHISQ. INV(0,975; n-1) 4. Intervalový odhad rozptylu pak získáme dosazením o vzorce pro interval. Praktický výpočet v R: V R můžeme intervalový odhad rozptylu vypočítat pomocí následujícího kódu: n <- length(data) var(data) * (n-1) / qchisq(c(0.975, 0.025), n-1) Tento výpočet nám poskytne dolní a horní hranici intervalového odhadu rozptylu. ii2 Řešené příklady Příklad 11.5. Při měření průměru vačkového hřídele na 250 součástkách bylo zjištěno, že výběrový průměr činí xp = 995,6 a výběrová disperze s2 = 134,7. Předpokládáme, že soubor má normální rozdělení. Určete interval spolehlivosti pro střední hodnotu základního souboru při hladině významnosti a = 0,05. Řešení: Pro odhad střední hodnoty základního souboru fi na základě výběrových dat se používá interval spolehlivosti ve tvaru: (xp - A; xp + A) , kde xp je výběrový průměr, A je tzv. mezní chyba odhadu a určuje se podle vztahu: V tomto výrazu: • s je směrodatná odchylka výběru, ' n je počet pozorování (v našem případě n = 250), 167 Základy statistiky iíi-s je kritická hodnota normálního rozdělení odpovídající zvolené hladině významnosti a. Pro hladinu významnosti a = 0,05 je hodnota = NORM.S.INV(0,975) « 1,96. Nyní vypočítáme mezní chybu odhadu A: A = v ,_- • 1,96 « 1,441558. Intervalový odhad střední hodnoty fi je tedy: (xp - A; xp + A) = (995,6 - 1,441558; 995,6 + 1,441558) = (994,1584; 997,0416). Z toho plyne, že s 95 % spolehlivostí lze tvrdit, že skutečná střední hodnota průměru vačkového hřídele leží v intervalu (994,1584; 997,0416). □ Příklad 11.6. Určete oboustranný konfidenční interval rozptylu normálně rozloženého základního souboru pro hladiny spolehlivosti 0,90, 0,95 a 0,99, když u výběru s rozsahem n = 12 byl zjištěn rozptyl s2 = 0,64. Posuďte získané výsledky. Řešení: Pro výpočet konfidenčního intervalu pro rozptyl a2 normálně rozloženého základního souboru použijeme vztah: 2 2 n■s 0 n-s < a2 < Xi-a(ro-l) x|(n-l)' kde • n = 12 je rozsah výběru, • s2 = 0,64 je výběrový rozptyl, X^_a{n — 1) a xl(n — 1) jsou kritické hodnoty Pearsonova rozdělení s n — 1 = 11 stupni volnosti. 1. Případ: Hladina spolehlivosti 0,90 Pro hladinu spolehlivosti 1 — a = 0,90 je a = 0,10. Kritické hodnoty jsou: XJj,o5(ll) = CHIINV(0,05; 11) « 19,675, Xo 95(H) = CHIINV(0,95; 11) « 4,575. Dosazením do vztahu: 12-0,64 0 12-0,64 • 2.059 Variance of {data} - vypočítá rozptyl datové sady. Variance of {3, 5, 2, 7, 6, 8, 4, 7, 9, 5} ->• 4.24 Correlation between {datal} and {data2} vypočítá korelační koeficient mezi dvěma sadami dat. Correlation between {3, 5, 2} and {7, 8, 4} ->• 0.866 Po zadání do vyhledávače Wolfram Alpha systém automaticky provede výpočet. Výsledky jsou doplněny o další související informace, jako jsou grafy nebo dodatečné statistické hodnoty. Ilustrativní příklady Příklad 12.2 (Regresní analýza ve Wolfram Alpha). Zadejte linear regression of {(1,2), (2,3), (3,5)}. Řešení: Po zadání Wolfram Alpha vypočítá regresní přímku ve tvaru y = ax + b, kde a je směrnice a b průsečík. Výstup: y = 1.5x + 0.5 Wolfram Alpha rovněž poskytne graf a hodnotu koeficientu determinace (R2), což je užitečné pro hodnocení kvality modelu. □ Příklad 12.3. Vyzkoušejte ve Wolfram Alpha následující příkazy a prozkoumejte jejich výstupy: {10, 12, 8, 14, 11, 9, 15, 13} . five number summary {20, 25, 18, 30, 22, 19, 28, 30, 24} . variance {20, 25, 18, 30, 22, 19, 28, 30, 24} . median {20, 25, 18, 30, 22, 19, 28, 30, 24} • poisson distribution normal distribution, mean=0, sd=2 Využití softwaru při řešení statistických úloh 176 Student t, 17 degrees of freedom Wolfram Alpha nám poskytuje okamžité výsledky, které lze použít pro další analýzu nebo kontrolu správnosti našich výpočtů. V následující sekci se podíváme na informativní přehled o využití softwaru R. R je volně dostupný programovací jazyk zaměřený na statistické výpočty a datovou analýzu. I když jeho využití není v tomto kurzu klíčové, stojí za to jej zmínit jako výkonný nástroj pro složitější úlohy, které mohou být mimo možnosti Excelu nebo Wolfram Alpha. V této části si ukážeme několik základních funkcí v R, které se používají pro statistické úlohy, a to spíše informativně, bez nutnosti provádět výpočty během výuky. R nabízí širokou škálu funkcí, které jsou velmi užitečné při řešení statistických úloh. Zde je přehled některých základních příkazů: mean() - vypočítá průměr zadaných dat. 12.2.3 Použití R pro statistické úlohy Základní příkazy v R pro statistické výpočty mean(c(3, 5, 2, 7, 6, 8, 4, 7, 9, 5)) ->• 5,6. sd() vypočítá výběrovou směrodatnou odchylku zadaných dat. sd(c(3, 5, 2, 7, 6, 8, 4, 7, 9, 5)) 2,22. var () vypočítá výběrový rozptyl zadaných dat. var(c(3, 5, 2, 7, 6, 8, 4, 7, 9, 5)) 4,93. cor () vypočítá korelační koeficient mezi dvěma sadami dat. cor(c(3, 5, 2), c(7, 8, 4)) 0,891. lm() provádí lineární regresi. lm(y ~x, data = dataframe) Tato funkce provede lineární regresní analýzu mezi proměnnými x a y v datovém rámci dataframe. 177 Základy statistiky Výhody a nevýhody R Výhody: • R je zdarma a otevřený software, který je snadno dostupný. ' Nabízí širokou škálu funkcí a knihoven pro různé statistické metody, od jednoduchých výpočtů po složité modelování. Je vhodný pro analýzu velkých datových sad, které by byly v Excelu obtížně zpracovatelné. ' Možnost vytvářet pokročilé vizualizace a grafy přímo z dat (pomocí programovéh kódu). Nevýhody: ' R vyžaduje určitou znalost programování, což může být pro začínající studenty obtížné. Ovšem tuto nevýhodu lze do značné míry potlačit s asistencí AI. Pro mnoho uživatelů je Excel jednodušší a intuitivnější, zejména pro menší a jednodušší úlohy. Ilustrativní příklad Příklad 12.4. Zvažte následující data o cenách produktů v obchodech: {10, 12, 8, 14, 11, 9, 15, 13}. Pomocí R vypočítejte průměr, směrodatnou odchylku a rozptyl. Napište příkazy a uveďte, co každý z nich dělá. Řešení: • Průměr: mean(c(10, 12, 8, 14, 11, 9, 15, 13)) =11,5. Směrodatná odchylka (výběrová): sd(c(10, 12, 8, 14, 11, 9, 15, 13)) = 2,44. . Rozptyl (výběrový): var(c( 10, 12, 8, 14, 11, 9, 15, 13)) =6. □ 12.3 Analýza dat z externích zdrojů V této sekci se zaměříme na příklady rozsáhlejších statistických úloh, které zahrnují stahování dat z internetu, jejich zpracování v Excelu, grafické znázornění a následné výpočty popisných statistik a korelace. Zaměříme se na reálná data z ČNB (kurzy měn) a akciových trhů. Kde hledat statistická data na internetu? Existuje mnoho dostupných zdrojů, ze kterých lze stahovat reálná statistická data. Klasicky ve formě souborů, například ve formátu csv, nebo přímým napojením. Mezi ty české patří například Český statistický úřad (czso.cz) a ČNB (cnb.cz). Z těch zahraničních například Eu-rostat (ec.europa.eu/eurostat) a Světová banka (data.worldbank.org), případně Yahoo Finance (finance.yahoo.com) a Google Finance (google.com/finance). Využití softwaru při řešení statistických úloh 178 Načítání dat z vnějších zdrojů do Excel u V Excelu existuje několik možností, jak načítat a transformovat data z různých externích zdrojů. Tyto možnosti umožňují zpracovávat data nejen ze souborů na lokálním disku, ale také z online zdrojů s aktuálními informacemi. Mezi základní možnosti patří (viz obrázek 25: Soubor Domů Vložení Rozložení stránky Vzorce Data F s a a h i a a i Načíst Z Text/ Z Z tabulky Z obrázku Poslední Existující i data v CSV webu nebo oblasti v zdroje připojení Načíst a transformovat data Obr. 25: Excel: Skupina Načíst a transformovat data na kartě Data Načítání z Text/CSV Pomocí této funkce lze načíst data z textových souborů (.txt) nebo souborů CSV (.csv). Jedná se o jednoduchý způsob, jak dostat strukturovaná data do Excelu. Načítání z webu Tato možnost umožňuje přímé načtení dat z webové stránky. Excel si z webu stáhne tabulková data a umožní je dále zpracovávat. To je zvláště užitečné pro načítání kurzů měn, cen akcií nebo jiných finančních dat, která se pravidelně aktualizují. Načítání z tabulky nebo oblasti Tento nástroj umožňuje načítat data přímo z jiných tabulek v Excelu nebo z definovaných oblastí buněk. Hodí se při práci s velkými datovými sadami rozdělenými do více souborů. Načítání z obrázku Excel dokáže načítat data přímo z obrázků, což je užitečné pro digitalizaci dat v tištěných tabulkách nebo grafech. Stačí nahrát obrázek a Excel rozpozná strukturu dat. Načítání z webových API a online zdrojů Excel umožňuje načítání dat z online zdrojů pomocí webových API. Tato funkce je klíčová pro práci s aktuálními daty, například z finančních trhů, online databází nebo jiných služeb poskytujících aktualizované informace. Pomocí rozhraní API lze získat přístup k datům, která se pravidelně aktualizují, což je ideální pro tvorbu reportů nebo analýz založených na živých datech. Poslední zdroje V této části Excelu je možné rychle znovu načíst data z posledních použitých zdrojů. To usnadňuje opakované aktualizace dat z těchto zdrojů. Existující připojení Tato funkce umožňuje správu a opětovné využití dříve nastavených připojení k datovým zdrojům, jako jsou databáze, webové služby nebo další Excelové soubory. 179 Základy statistiky Načítání dat z online zdrojů je pro analýzy v Excelu zásadní, zejména pokud pracujeme s dynamickými daty, která se často mění. Pomocí těchto nástrojů je možné zajistit, že naše tabulky budou obsahovat aktuální a relevantní informace pro daný účel. Ilustrativní příklad Příklad 12.5 (Načtení a analýza tabulky kurzů měn z ČNB). 1. Na stránkách ČNB najděte údaje „Kurzy devizového trhu - roční historie" a vyberte rok 2024 (obrázek 26)1 . Kurzy devizového trhu - roční historie Pošta - Fišer liri - O... Q IS ImIVSO § SAS* Logon Mař trliy/devizovy-:rl"/kLiTy-o-=viic-l/eh o-lrhL/íurzy-is^-ovshiO-t-iu/ic-k tvr?ľok=2024H :'. Course: SAS Acade. KK|l EUR 11 GBP|l HKD|199 HUF! I 24_.6S5| |24,675 124., 650 24^480 Í4,i53í> 124,560 124,655 Obr. 26: ČNB: Kurzy devizového trhu - roční historie - zadání roku 2024 2. Zkopírujte odkaz a použijte jej v Excelu Z webu (obrázek 27). -> Data -> (Načíst a transformovat data) Z webu S Základni O Upřesnění Adresa URL_ yviz ovy-tih/kiJ rzy-d eviz ov eh o -trhu /burzy-deviz ove ho- tr h u/rok, ttt? r ck - 202í| OK Ziusit 15,278 15,201 15,137 15,059 14,951 15,052 15,037 15,061 12,621 12,616 12,602 12,578 12,517 12,578 12,558 12,606 4,609 16,938 26,524 4.584 16,932 26,473 4.585 16,88 26,455 4,583 16,853 26,399 4,57 16,712 26,31 4,595 16,829 26,419 4,589 16,762 26,317 4,599 16,801 26,4 Obr. 27: Načtení dat z ČNB do Excelu pomocí volby Data -> Z webu 3. Pomocí volby Analýza dat -> Popisná statistika vypočtěte popisné statistiky pro všechny měny (na zvláštní list). 4. Pomocí volby Analýza dat -> Korelace vypočtěte korelační koeficienty pro všechny dvojice měn (na zvláštní list). 5. Pomocí podmíněného formátování korelační koeficienty obarvěte podle velikosti. Zvlášť zvýrazněte hodnoty větší než 0,9. (obrázek 28). 6. Jak si vysvětlujete tak vysokou pozitivní lineární korelaci? 7. Vyberte jednu dvojici z předchozího bodu a vytvořte pro ni bodový graf. 1AUD - Australský dolar, BGN - Bulharské leva, BRL - Brazilský real, CAD - Kanadský dolar, CHF -Švýcarský frank, CNY - Čínský júan, DKK - Dánská koruna, EUR - Euro, GBP - Britská libra, HKD -Hongkongský dolar, HUF - Maďarský forint (kurz za 100 jednotek), IDR - Indonéská rupie (kurz za 1000 jednotek), ILS - Izraelský nový šekel, INR - Indická rupie (kurz za 100 jednotek), ISK - Islandská koruna (kurz za 100 jednotek), JPY - Japonský jen (kurz za 100 jednotek), KRW - Jihokorejský won (kurz za 100 jednotek), MXN - Mexické peso, MYR - Malajsijský ringgit, NOK - Norská koruna, NZD - Novozélandský dolar, PHP -Filipínské peso (kurz za 100 jednotek), PLN - Polský zlotý, RON - Rumunský lei, SEK - Švédská koruna, SGD - Singapurský dolar, THB - Thajský baht (kurz za 100 jednotek), TRY - Turecká lira (kurz za 100 jednotek), USD - Americký dolar, XDR - Speciální práva čerpání (měna používaná MMF), ZAR - Jihoafrický rand. Využití softwaru při řešení statistických úloh 180 Á A B C D E F 1 1AUD 1BGN 1BRL 1CAD 1CHF 1 2 1AUD 1 3 1BGN 0,56662 1 4 1BRL -0,26862 -0,03034 1 5 1CAD 0,27497 0,54962 0,70436 1 6 1CHF 0,1362 0,47057 -0,2287 0,11274 1 7 1CNY 0,489 0,83009 0,20362 0,71783 0,42913 8 1 DKK 0,56791 0,99647 -0,00012 0,57281 0,46649 1 9 1EUR 0,57007 0,99703 -0,02245 0,55534 0,4615 10 1GBP 0,74454 0,80486 -0,45514 0,15803 0,49149 11 1HKD 0,45092 0,67855 0,30423 0,7807 0,02264 Obr. 28: Podmíněné formát tabulky korelačních koeficientů 12.3.1 Excelovské nástroje pro analýzu akcií Využití datového typu Akcie v Excelu Datový typ Akcie umožňuje získávat aktuální finanční údaje o veřejně obchodovaných společnostech. Pro jeho použití stačí zadat název společnosti nebo její ticker (např. "AAPĽ'pro Apple) do buňky, následně zvolit z karty Data možnost Akcie. Excel poté poskytne aktuální údaje jako cena, tržní kapitalizace, P/E ratio atd., ale i samotný ticker. Tyto údaje se automaticky aktualizují (minimálně při každém otevření souboru). Získaný ticker lze následně využít ve funkci STOCKHISTORY pro načtení historických dat obchodování dané akcie. Použití funkce STOCKHISTORY Syntaxe je následující: =ST0CKHIST0RY("ticker"; "start_date"; "end_date"; [interval]; [headers]; [propertyO]; [propertyl]; . . .) Příklad použití pro načtení denních uzavíracích cen akcií Microsoftu za září 2024: =ST0CKHIST0RY("MSFT"; "2024-09-01"; "2024-09-30"; 0; 1; 0; 5) Tento vzorec vrátí tabulku obsahující data a uzavírací ceny pro každý obchodní den v uvedeném období. Funkce STOCKHISTORY je vhodná pro analýzu historických finančních dat a sledování časových řad. Ilustrativní příklady Příklad 12.6 (Analýza uzavíracích cen akcií firem NVIDIA a Intel). Pomocí datového typu Akcie zjistěte tickery firem NVIDIA a Intel. 181 Základy statistiky Pomocí funkce STOCKHISTORY načtěte uzavírací denní ceny jejich akcií v období od 1. srpna 2024 do 30. září 2024. Tyto dvě časové řady graficky znázorněte, vypočtěte pro ně základní popisné statistiky a proveďte jejich korelační analýzu. Řešení: 1. Tickery Nejprve získáme tickery společností NVIDIA a Intel pomocí datového typu Akcie: • Do buněk vložíme názvy společností (NVIDIA, Intel). Označíme buňky s názvy a na kartě Data zvolíme možnost Akcie. Excel automaticky přiřadí k názvům společností jejich tickery. . NVIDIA má ticker NVDA, Intel INTC. 2. Zisk historických uzavíracích cen Pro získání denních uzavíracích cen akcií obou společností v období od 1. srpna 2024 do 30. září 2024 použijeme následující funkce: =ST0CKHIST0RY("NVDA"; "2024-08-01"; "2024-09-30"; 0; 1; 0; 1) =ST0CKHIST0RY("INTC"; "2024-08-01"; "2024-09-30"; 0; 1; 0; 1) Experimujte s tímto zápisem tak, abyste získali tabulku o třech sloupcích: datum, ceny NVIDIA, ceny Intel. Tato funkce načte uzavírací ceny pro každý obchodní den v uvedeném období. Získané datové řady budou použity pro další analýzu. 3. Grafické znázornění časových řad Po získání uzavíracích cen vytvoříme spojnicový graf, který vizuálně znázorní vývoj uzavíracích cen akcií NVIDIA a Intel: Označíme sloupce s daty (datum, uzavírací ceny NVIDIA a Intel). • Na kartě Vložení zvolíme typ grafu Spojnicový graf. ' Excel vygeneruje graf, který zobrazí vývoj cen akcií obou společností v průběhu sledovaného období. 4. Korelační analýza Pro určení míry lineární závislosti mezi cenami akcií NVIDIA a Intel použijeme funkci CORREL. Vzorec pro výpočet korelačního koeficientu mezi dvěma časovými řadami uzavíracích cen je následující: =C0RREL(B2:B45, C2:C45)\approx 0{,}249. Využití softwaru při řešení statistických úloh 182 Funkce vrátila korelační koeficient o hodnotě 0,249, který popisujeme jako slabou pozitivní korelaci. Mějme ale na paměti, že korelační koeficient popisuje jen lineární závislost, a tak je vždy užitečné si celkový obraz doplnit obrázkem. V tomto případě je bodový graf na obrázku 29. Můžeme na něm zaznamenat jednu odlehlou hodnotu (v takovém případě bychom měli prověřit, zda nejde o chybnou hodnotu, resp. zjistit, jak mohla nastat). Na obrázku je znatelný drobný nárůst vertikálních hodnot (souřadnic) při růstu horizontálních hodnot. Uvědomme si také, že v tomto typu grafu není zachycena časová složka dat. $29,00 $27,00 $26,00 $23,00 $21,00 $ 19,00 $ 17,00 $9. • • • • • • • • • •• • • • • ■ a • • • • • • • • • • • • • • .00 $100,00 $105.00 $110,00 $115,00 $120.00 $125,00 $130,00 Obr. 29: Bodový graf cen akcií NVIDIA (horizontální osa) a Intel (vertikální osa) z příkladu 12.6 □ Příklad 12.7 (Analýza maximálního rozdílu mezi maximálními a minimálními denními cenami). Zvolte si tři firmy. Získejte jejich tickery a maximální a minimální denní ceny za jedno roční období, končící na konci předminulého měsíce (vzhledem ke dni, kdy příklad počítáte). Následně pro každou akcii vypočtěte denní rozdíly mezi maximální a minimální cenou. Poté najděte pro každou firmu nejvyšší hodnotu těchto denních rozdílů (tzv. maximální denní rozpětí) a tyto tři hodnoty porovnejte. Protože ceny akcií mohou být velmi rozdílné, je nutné výsledky porovnávat relativně. Nejprve pro každou akcii spočítejte tzv. průměrnou denní cenu jako průměr maximální a minimální ceny pro každý den. Z těchto průměrů vypočtěte jejich průměrnou hodnotu za celé období. Nakonec relativně porovnejte maximální denní rozpětí s touto průměrnou cenou (v procentech). Toto procentuální vyjádření vám umožní porovnat, která akcie vykazuje největší cenové výkyvy vzhledem ke své průměrné ceně. 12.3.2 Načítání externích statistických dat v R Ač Exel lze dobře použít pro import aktuálních finančních a dalších statistických dat, tak ten, kdo ovládá práci v R má situaci mnohem pohodlnější. 183 Základy statistiky R nabízí několik balíčků, které usnadňují přímé načítání aktuálních statistických a finančních dat z externích zdrojů. Mezi nej používanější patří ' quantmod, který umožňuje získávat data o cenách akcií, měnových kurzech a dalších finančních údajích z Yahoo Finance a FRED. ' Balíček wbstats poskytuje přístup k datům Světové banky, včetně ukazatelů inflace, HDP a dalších makroekonomických dat. ' Pro evropská data lze použít balíček eurostat, který umožňuje stahovat data o ekonomických a sociálních ukazatelích v rámci členských států EU. ' Kromě toho balíček f redr poskytuje přístup k bohaté databázi ekonomických ukazatelů FRED. Tyto nástroje v R umožňují rychlé a efektivní načítání aktuálních dat pro další analýzu. Samozřejmě, samostatná data nestačí, je třeba nejprve nastudovat jejich strukturu, označení a význam. O V této kapitole jsme se věnovali statistické analýze z pohledu použitého softwaru, přirozeně s největším důrazem na MS Excel, ale prošli jsme i možnosti Wolfram Alpha a R. Zaměřili jsme se na výpočty základních statistik, korelační analýzu a tvorbu grafických výstupů. Ukázali jsme také, jakým způsobem lze data načítat do Excelu z externích zdrojů a jak je následně zpracovat. Wolfram Alpha byl představen jako jednoduchý nástroj pro rychlé výpočty pravděpodobností a dalších základních statistických úloh, kdy není třeba složitého programování. R bylo popsáno jako pokročilý nástroj pro statistickou analýzu, který je vhodný pro práci s rozsáhlými datovými soubory, jejich vizualizaci a modelování, a umožňuje přímé načítání externích dat z různých statistických zdrojů, jako jsou například Světová banka nebo Eurostat. 1. Jaké zdroje lze využít pro stahování statistických dat z internetu? 2. Jaké jsou základní kroky pro načtení externích dat do Excelu? 3. Popište postup pro vytvoření grafu časových řad v Excelu. 4. Jaké funkce v Excelu použijete pro výpočet průměru, mediánu a směrodatné odchylky? 5. Co je Pearsonův korelační koeficient a jak se v Excelu vypočítá? 6. Kdy je vhodné použít Wolfram Alpha pro statistické výpočty? Uveďte příklady. 7. Jakým způsobem lze analyzovat a znázornit data z akciových trhů? Využití softwaru při řešení statistických úloh 184 8. Stáhněte data o inflaci z webu Českého statistického úřadu (https://www.czso. cz) za posledních 10 let. Načtěte tato data do Excelu, analyzujte je pomocí grafu časové řady a vypočítejte základní statistiky (průměr, medián, směrodatná odchylka, minimum, maximum). 9. Získejte data o cenách akcií tří ropných společností za tři roky (začátek a konec si zvolte sami) pomocí funkce STOCKHISTORY. Vypočtěte jejich popisné statistiky. Vytvořte graf s těmito třemi časovými řadami. Proveďte jejich korelační analýzu včetně bodových grafů. Komentujte výsledky (největší podobnosti a rozdíly). ©Literatura k tématu: [1] PRAŽSKÁ BURZA CENNÝCH PAPÍRŮ. Dostupné z: https://www.pse.cz/. [2] YAHOO FINANCE. Dostupné z: https://finance.yahoo.com/. [3] MICROSOFT EXCEL. Podpora pro statistické funkce. Dostupné z: https: //support. microsoft.com/excel. [4] WOLFRAM ALPHA. Online nástroj pro výpočty. Dostupné z: https: //www. wolf ramalpha. com/. [5] R CORE TEAM. (2023). R: A Language and Environment for Statistical Computing. R Foundation for Statistical Computing, Vienna, Austria. Dostupné z: https: // cran.r-project.org/manuals.html. [6] ČESKÁ NÁRODNÍ BANKA (ČNB) - Data. Česká národní banka. (2023). Data a statistiky. Dostupné z: https://www.cnb.cz/cs/statistika/. [7] EUROSTAT. Statistiky Evropské unie. Dostupné z: https : //ec. europa. eu/eurostat. [8] SVĚTOVÁ BANKA. (2023). Data Světové banky. Dostupné z: https: //data.worldbank. org/. [9] ČESKÝ STATISTICKÝ ÚŘAD (ČSÚ). Data a statistiky České republiky. Dostupné z: https : //www. czso . cz/. Seznam literatury a použitých zdrojů [1] ANDĚL, J. Statistické metody. 5. vyd. Praha: Matfyzpress, 2019. ISBN 978-80-7378-381-5. [2] CALDA, E., DUPAC, V. (2008). Matematika pro gymnázia: Kombinatorika, pravděpodobnost, statistika (5. vydání, dotisk 2011). Praha: Prometheus. ISBN 978-80-7196-365-3. [3] HANSEN, B. Probability and Statistics for Economists. Princeton University Press, 2022. ISBN 9780691236148. [4] HENDL, J. Základy matematiky, logiky a statistiky pro sociologii a ostatní společenské vědy v příkladech. 3. vyd., Karolinum, 20232. ISBN 978-80-246-5400-3. [5] HINDLS, R. Statistika pro ekonomy. 8. vyd. Praha: Professional Publishing, 2007. ISBN 978-80-869-4643-6. [6] HONG, Y. Probability and Statistics for Economists. World Scientific, 2017. ISBN 9789813228818. [7] JANÁČEK, J. Statistika jednoduše. Grada, 2022. ISBN 978-80-271-1738-3. [8] KELLER, G. Statistics for Management and Economics. 12th ed., Cengage Learning, 2022. ISBN 9780357714393. [9] MAREK, L. Statistika v příkladech. 2. vyd. Praha: Kamil Mařík - Professional Publishing, 2015. ISBN 978-80-743-1153-6. [10] NEUBAUER, J. a SEDLAČÍK, M. Základy statistiky: Aplikace v technických a ekonomických oborech - 3., rozšířené vydání. Grada, 2021. ISBN 978-80-271-3421-2. [11] OPENAI. Asistovaná příprava studijní opory pomocí ChatGPT. OpenAI. Dostupné na https://chat.openai.com, 2024. [12] OTIPKA, P., SMAJSTRLA, V. Pravděpodobnost a statistika [online]. 1. vydání. Ostrava: VŠB-TU Ostrava, 2007 [cit. 2024-09-09]. ISBN 80-248-1194-4. [13] ŘEZANKOVÁ, H. a kol. Úvod do statistiky. 2. dotisk 1. vyd., Oeconomica, nakladatelství VŠE, 2019. ISBN 9788024523019. [14] ZVÁRA, K. a ŠTĚPÁN, J. Pravděpodobnost a matematická statistika. Matfyzpress, 2019. ISBN 978-80-7378-388-4. 185 Seznam obrázků 1 Pravděpodobnostní a distribuční funkce k příkladu 3.6 .............. 52 2 Výpočet pravděpodobností na nekonečném intervalu................ 55 3 Výpočet pravděpodobností na konečném intervalu................. 55 4 Znázornění hustoty a p-kvantilu xp pro spojité rozdělení pravděpodobnosti (viz definici 3.21)...................................... 62 5 Pravděpodobnostní a distribuční funkce binomického rozdělení pro n = 10 a p = 0,5......................................... 69 6 Pravděpodobnostní a distribuční funkce hypergeometrického rozdělení pro N = 50, M = 20 a n = 10................................. 71 7 Pravděpodobnostní a distribuční funkce Poissonova rozdělení pro A = 3..... 72 8 Jeden z hrdých otců normálního rozdělení (vytvořeno pomocí ChatGPT, OpenAI) 80 9 Grafy hustot a distribučních funkcí normálního rozdělení s různými rozptyly . . 81 10 Grafy hustot a distribučních funkcí normálního rozdělení s různými středními hodnotami....................................... 82 11 Grafy hustot a distribučních funkcí rovnoměrného rozdělení (různé parametry a a b)........................................... 84 12 Grafy hustot a distribučních funkcí exponenciálního rozdělení pro různé parametry A .......................................... 85 13 Graf empirické distribuční funkce pro bodové rozložení četností z příkladu 7.10 . 107 14 Koláčový graf rozložení prodeje produktů ve firmě................. 109 15 Histogram absolutních četností výsledků testu ze statistiky z příkladu 7.10 ... 109 16 Histogram relativních četností hladiny hemoglobinu z příkladu 7.11....... 110 17 Ukázka bodového grafu................................127 18 Vložení bodového grafu................................140 19 Přidání spojnice trendu................................140 20 Nastavení lineární regrese ..............................141 21 Graf časové řady z příkladu 10.12..........................156 22 Dekompozice časové řady z příkladu 10.12.....................156 23 Graf předpovědi časové řady z příkladu 10.12....................156 24 Ukázka histogramu (četnosti a kumulativní relativní četnosti) z modulu Analýza dat........................................... 172 25 Excel: Skupina Načíst a transformovat data na kartě Data............ 177 26 ČNB: Kurzy devizového trhu - roční historie - zadání roku 2024 ......... 178 27 Načtení dat z ČNB do Excelu pomocí volby Data -> Z webu........... 178 28 Podmíněné formát tabulky korelačních koeficientů................. 179 29 Bodový graf cen akcií NVIDIA (horizontální osa) a Intel (vertikální osa) z příkladu 12.6....................................... 181 186 187 Základy statistiky Seznam tabulek 1 Četnosti doby pobytu zákazníků v obchodě (intervaly 5 minut).......... 34 2 Bodové rozložení četností výsledků testu z příkladu 7.10 ............. 107 3 Intervalové rozložení četností hladiny hemoglobinu u žen z příkladu 7.11..... 108 4 Ukázka dvourozměrného statistického souboru................... 125 5 Ukázka kontingenční tabulky ............................ 127 6 Ukázková data pro lineární regresi.......................... 137