ZÁKLADY STATISTIKY STUDIJNÍ OPORA PRO KOMBINOVANÉ STUDIUM Moravská vysoká škola Olomouc, o.p.s., 2024 ZÁKLADY STATISTIKY RNDr. Jiří Fišer Ph.D. © Moravská vysoká škola Olomouc, o. p. s. Autoři: RNDr. Jiří FIŠER, Ph.D. Olomouc 2024 Obsah Úvod 8 1 Kombinatorika 11 1.1 Základní pojmy a vlastnosti............................. 12 1.2 Variace......................................... 15 1.2.1 Variace bez opakování............................ 15 1.2.2 Variace s opakováním............................. 16 1.3 Permutace....................................... 17 1.3.1 Permutace bez opakování........................... 18 1.3.2 Permutace s opakováním........................... 18 1.4 Kombinace....................................... 19 1.4.1 Kombinace bez opakování.......................... 20 1.4.2 Kombinace s opakováním........................... 22 1.4.3 Souhrnné příklady .............................. 23 2 Pravděpodobnost jevů 27 2.1 Základní pojmy.................................... 28 2.2 Klasická pravděpodobnost.............................. 29 2.3 Geometrická pravděpodobnost............................ 34 2.4 Statistická pravděpodobnost............................. 35 2.5 Podmíněná pravděpodobnost a nezávislé jevy ................... 38 2.6 Úplná pravděpodobnost a Bayesova věta...................... 41 2.7 Opakované pokusy.................................. 44 2.7.1 Nezávislé pokusy............................... 44 2.7.2 Závislé pokusy ................................ 47 2.8 Souhrnné příklady .................................. 49 3 Náhodná veličina 53 3.1 Rozdělení pravděpodobnosti diskrétní náhodné veličiny.............. 55 3.2 Rozdělení pravděpodobnosti spojité náhodné veličiny ................................... 59 3.3 Číselné charakteristiky náhodné veličiny ...................... 62 3.4 Kvantilové charakteristiky náhodné veličiny......................................... 67 4 Základní typy rozdělení pravděpodobnosti diskrétní náhodné veličiny 71 4.1 Binomické rozdělení.................................. 72 4.2 Hypergeometrické rozdělení ............................. 73 4.3 Poissonovo rozdělení................................. 75 4.4 Řešené příklady.................................... 76 5 Základní typy rozdělení pravděpodobnosti spojité náhodné veličiny 80 5 5.1 Normální rozdělení.................................. 81 5.2 Rovnoměrné rozdělení ................................ 84 5.3 Exponenciální rozdělení ............................... 85 5.4 Řešené příklady.................................... 86 6 Náhodný vektor 91 6.1 Dvourozměrný náhodný vektor............................ 92 6.2 Řešené příklady.................................... 94 7 Statistický soubor s jedním argumentem 103 7.1 Základní pojmy a vlastnosti............................. 104 7.2 Rozložení četností................................... 108 7.2.1 Grafické znázornění četností......................... 111 7.3 Charakteristiky polohy a variability......................... 113 7.3.1 Míry polohy.................................. 113 7.3.2 Míry variability................................ 120 7.4 Míry tvaru rozdělení................................. 122 7.5 Řešené příklady.................................... 123 8 Statistický soubor se dvěma argumenty 128 8.1 Základní pojmy....................................130 8.2 Tabulkové a grafické zobrazení dvourozměrných dat................130 8.3 Míry polohy a variability pro dvourozměrný soubor................132 8.3.1 Míry polohy..................................132 8.3.2 Míry variability a kovariance.........................133 8.4 Řešené příklady....................................134 8.5 Kontrolní otázky...................................136 9 Regresní a korelační analýza 137 9.1 Princip korelační analýzy...............................138 9.2 Princip lineární regrese................................141 9.3 Řešené příklady....................................144 10 Časové řady 150 10.1 Základní pojmy časových řad ............................152 10.2 Typy časových řad..................................153 10.3 Analýza časových řad.................................154 10.4 Charakteristiky časových řad ............................155 10.5 Řešené příklady....................................156 10.6 Softwarová analýza časových řad ..........................157 11 Induktivní statistika 162 11.1 Odhady v induktivní statistice............................165 11.1.1 Bodový a intervalový odhad průměru (střední hodnoty)..........166 11.1.2 Bodový a intervalový odhad rozptylu....................168 11.2 Řešené příklady....................................169 12 Využití softwaru při řešení statistických úloh 173 12.1 Shrnutí práce s MS Excel...............................174 12.2 Představení Wolfram Alpha a R...........................177 12.2.1 Srovnání R a Wolfram Alpha ........................177 12.2.2 Základní příkazy ve Wolfram Alpha.....................177 12.2.3 Použití R pro statistické úlohy........................179 12.3 Analýza dat z externích zdrojů ...........................180 12.3.1 Excelovské nástroje pro analýzu akcií....................183 12.3.2 Načítání externích statistických dat v R ..................185 Seznam literatury a použitých zdrojů 188 Seznam obrázků 189 Seznam tabulek 190 Úvod Vítejte ve světě statistiky Vítejte ve studijní opoře pro předmět Základy statistiky, která je určena především pro studenty bakalářského studia. Skripta vás provedou základními teoretickými pojmy a koncepty statistiky s důrazem na praktické aplikace, které jsou nezbytné pro analýzu a zpracování dat ve vaší budoucí praxi. Tato opora se částečně překrývá s materiály pro navazující studium. Zatímco bakalářské studium klade větší důraz na řešení příkladů a pochopení základních principů, v navazujícím studiu dochází k rozšíření témat (do hloubky i do šířky) a rozvoji praktických dovedností pro pokročilejší aplikace statistiky. Struktura skript Struktura těchto skript je navržena tak, aby jednotlivé kapitoly na sebe logicky navazovaly a umožnily vám postupně prohlubovat vaše znalosti. Každá kapitola rozvíjí dovednosti, které jsou potřebné pro zvládnutí pokročilejších témat v následujících částech. ' Kombinatorika - V této kapitole se seznámíte se základními pojmy kombinatoriky, jako jsou variace, permutace a kombinace. Znalost těchto pojmů je klíčová pro pochopení dalších kapitol, zejména pravděpodobnosti. ' Pravděpodobnost jevů - Po úvodu do kombinatoriky se v této kapitole naučíte základní principy pravděpodobnosti, včetně klasické a geometrické pravděpodobnosti, podmíněné pravděpodobnosti a Bayesovy věty. Tyto znalosti jsou nezbytné pro pochopení následujících statistických metod. Náhodná veličina a její rozdělení - Tato kapitola vás uvede do pojmu náhodné veličiny a jejího rozdělení pravděpodobnosti. Seznámíte se s diskrétními a spojitými typy rozdělení, jejich charakteristikami a základními příklady. Základní typy rozdělení pravděpodobnosti V této kapitole se podrobněji zaměříte na základní typy rozdělení pravděpodobnosti, včetně binomického, hypergeometrického, Poissonova a normálního rozdělení, které jsou běžně používány v praxi. Náhodný vektor - V této kapitole se seznámíte s pojmem náhodného vektoru, tedy soustavy více náhodných veličin, a s jeho rozdělením. Naučíte se pracovat s podmíněnými rozděleními a kovariancí, což je klíčové pro analýzu vztahů mezi více náhodnými veličinami. Statistický soubor a jeho analýza - Naučíte se, jak zpracovávat data z výběrových šetření, vytvářet tabulky četností, grafy a počítat charakteristiky polohy a variability. Regresní a korelační analýza - V této kapitole se naučíte techniky, které vám umožní analyzovat vztahy mezi dvěma nebo více proměnnými. Tyto metody jsou široce využívány v praxi, například při predikci a modelování. Časové řady - Naučíte se základní metody analýzy časových řad, které jsou nezbytné pro modelování vývoje veličin v čase, jako jsou ekonomické ukazatele nebo finanční data. ' Induktivní statistika - Zde se seznámíte s pokročilejšími metodami statistiky, jako jsou odhady parametrů, intervalové odhady a testování hypotéz. Naučíte se, jak aplikovat tyto metody na reálná data a jak z nich činit závěry o populaci. Využití statistických softwarů - Na závěr se naučíte používat moderní statistické softwary, jako jsou MS Excel, R a Wolfram Alpha, k analýze dat a modelování reálných problémů. Kapitola zahrnuje praktické návody a příklady, jak efektivně využívat tyto nástroje. Každá kapitola je zaměřena na konkrétní téma a obsahuje jak teoretický výklad, tak i praktické příklady, které vám umožní lépe pochopit a procvičit danou látku. Tato struktura vám poskytne pevný základ pro další studium statistiky a jejích aplikací. Co vás v kapitolách čeká Každá kapitola začíná úvodní částí, která vás seznámí s tím, co bude v dané kapitole probíráno. V úvodu jsou vždy vytyčeny cíle, které byste měli po jejím prostudování zvládnout. Kapitoly dále obsahují: ' Teoretický výklad - Vysvětlíme vám podstatu jednotlivých statistických metod, postupů a jejich aplikace. Řešené příklady - Každá kapitola obsahuje praktické příklady, které vám pomohou pochopit a procvičit si danou látku. ' Rámečky - Důležité informace jsou zvýrazněny v rámečcích, které obsahují klíčové body, jež byste si měli zapamatovat. Shrnutí - Na konci každé kapitoly naleznete shrnutí hlavních bodů, které vám pomůže připomenout si probíranou látku. Kontrolní otázky a příklady - Otázky na závěr kapitoly jsou vhodné pro kontrolu pochopení látky, kterou jste se právě naučili. Odpovědi na ně najdete vdané kapitole. U příkladů jsou uvedeny výsledky v hranatých závorkách, což vám umožní ověřit si správnost výpočtů. Praktická aplikace a význam softwaru Statistika je nástroj, který je v praxi neocenitelný, a to jak při analýze ekonomických dat, tak při řešení manažerských problémů. Ve skriptech se budeme zaměřovat nejen na teoretické znalosti, ale i na jejich praktické využití. Proto klademe důraz na řešení praktických úloh a jejich výpočty, které vám umožní lépe pochopit jednotlivé metody. V průběhu studia zjistíte, že statistický software jako Excel a další nástroje budou vašimi skvělými pomocníky. Excel vám umožní jednoduše a efektivně řešit většinu statistických úloh, což je neocenitelná dovednost v každodenní praxi. Pokud zvládnete i práci s R, tak své schopnosti znásobíte (koeficientem větším než 1). Motivace a podpora Chceme, aby pro vás byla statistika zajímavá a přínosná. Neberte ji jako obtížný předmět, ale jako výzvu, která vám otevře dveře k lepšímu porozumění světu dat a informací. Každý příklad je tu proto, aby vás připravil na reálné situace, které vás mohou čekat v profesním životě. Naším cílem je, abyste si osvojili statistiku natolik, že ji budete schopni aplikovat s jistotou a bez obav. Nebojte se chyb ani náročných úkolů, jsme tu proto, abychom vás podpořili na vaší cestě. Statistika není nepřekonatelná překážka, ale nástroj, který vám pomůže analyzovat svět kolem vás. Věříme, že tato skripta vám budou užitečným průvodcem a že se díky nim statistika stane nejen srozumitelnou, ale i zábavnou. Kapitola 1 Kombinatorika Po prostudování této kapitoly budete umět: > rozlišovat mezi variacemi, kombinacemi a permutacemi, permutace (s opakováním a bez opakování), • rozlišovat mezi situacemi s opakováním a bez opakování, řešit typové příklady zahrnující uvedené pojmy. Klíčová slova: Kombinatorika, faktoriál, kombinační číslo, variace bez opakování, variace s opakováním, kombinace bez opakování, kombinace s opakováním, permutace bez opakování, permutace s opakováním, pravidlo součinu, pravidlo součtu, princip inkluze a exkluze. Kombinatorika 12 Náhled kapitoly V této kapitole se zaměříme na základní principy kombinatoriky, tedy metody, jak uspořádat nebo vybrat prvky z dané množiny. Budeme probírat variace, permutace a kombinace, což jsou klíčové pojmy kombinatoriky. Zjistíme, kolika způsoby lze uspořádat nebo vybrat určité prvky a jaké jsou rozdíly mezi jednotlivými metodami. Uvedeme příklady situací, kdy záleží na pořadí a kdy naopak ne. Důraz bude kladen na řešení praktických příkladů, kde si studenti procvičí použití kombinatorických principů v reálných úlohách. Cíle kapitoly Po prostudování této kapitoly by studenti měli být schopni: > rozlišovat mezi variacemi, kombinacemi a permutacemi a jejich praktickým využitím, • rozlišovat mezi situacemi s opakováním a bez opakování, ' aplikovat uvedené pojmy na různé typové příklady a řešit úlohy z kombinatoriky, a tím se nachystat na následující kapitolu o pravděpodobnosti. Časová náročnost Pro zvládnutí této kapitoly se doporučuje věnovat studiu přibližně 4 hodin, což zahrnuje přečtení teoretické části, procvičení na příkladech a samostatné řešení úloh. Tento časový odhad je zaměřen na získání dostatečné praktické dovednosti při řešení kombinatorických problémů. í.i Základní pojmy a vlastnosti Co je to kombinatorika? Definice 1.1. Kombinatorika je oblast matematiky, která se zabývá studiem uspořádání, výběru a počtu prvků v množinách. Hlavním cílem kombinatoriky je zjistit, kolika způsoby lze uspořádat nebo vybrat určité prvky z dané množiny, přičemž mohou být různé podmínky, jako například to, zda záleží na pořadí prvků nebo zda se prvky mohou opakovat. 13 Základy statistiky Kombinatorika se nejčastěji zabývá třemi základními problémy: • Variace - Uspořádání prvků, kde záleží na pořadí. ' Permutace - Speciální případ variací, kdy se uspořádává celá množina prvků. • Kombinace - Výběr prvků, kde na pořadí nezáleží. Kombinatorika nachází uplatnění v mnoha oblastech, jako je teorie pravděpodobnosti, statistika, informatika, optimalizace, kryptografie a další. Kombinatorické pravidlo součinu Definice 1.2. Kombinatorické pravidlo součinu říká, že pokud lze určitý proces rozdělit na k po sobě jdoucích kroků, kde první krok lze provést n\ způsoby, druhý krok n2 způsoby, a k-tf krok nk způsoby, potom celkový počet způsobů, jak proces provést, je dán vztahem: ni-n2.....nk. Příklad 1.3. V obchodě jsou na výběr 3 druhy předkrmů, 4 druhy hlavních jídel a 2 druhy dezertů. Kolik různých jídelních kombinací lze sestavit? Řešení: Podle pravidla součinu je celkový počet možných kombinací jídla dán součinem počtu možností pro každý chod: 3 • 4 • 2 = 24. □ Kombinatorické pravidlo součtu Definice 1.4. Kombinatorické pravidlo součtu říká, že pokud lze vykonat proces buď jedním z n\ způsobů, nebo druhým z n2 způsobů, kde tyto způsoby jsou vzájemně neslučitelné, potom celkový počet způsobů, jak proces provést, je dán součtem: ni + n2. ) Příklad 1.5. V knihovně máte na výběr 5 beletristických knih a 3 odborné knihy. Kolik různých knih si můžete vybrat, pokud si můžete vzít buď beletrii, nebo odbornou knihu? Řešení: Podle pravidla součtu je celkový počet možností dán součtem počtu možností pro každý typ knihy: 5 + 3 = 8. □ Kombinatorika 14 Kombinatorický princip inkluze a exkluze Definice 1.6. Kombinatorický princip inkluze a exkluze pro n množin vyjadřuje celkový počet prvků ve sjednocení množin Ai, A2,... ,An následovně: \A1UA2U---UAn\ = J2\A*\ ~ E \AiC\Aj\ i=l i<* = Wir^. Po dosazení: „, x 3628800 3628800 „ P 10 =-=-= 75600. v ; 2-6-2-2 48 Celkem lze vytvořit 75 600 různých uspořádání písmen. □ Příklad 1.28 (Tvorba šperků). Máme k dispozici 8 korálků, z nichž 4 jsou červené, 3 modré a 1 zelený. Kolik různých náhrdelníků lze vytvořit z těchto korálků, pokud nezáleží na pořadí, v jakém jsou jednotlivé korálky stejné barvy umístěny? Řešení: Jedná se o permutace s opakováním, protože korálky stejné barvy jsou nerozlišitelné. Celkový počet korálků je 8, z toho 4 červené, 3 modré a 1 zelený. Počet možných uspořádání korálků je dán vzorcem: P(8) 4! -3! • 1! Po dosazení: 40320 40320 P (8) =-=-= 280. v ; 24-6-1 144 Lze tedy vytvořit 280 různých náhrdelníků. □ i.4 Kombinace Kombinace jsou výběry prvků z dané množiny, při kterých nezáleží na pořadí. Rozlišujeme kombinace bez opakování a kombinace s opakováním. Kombinační číslo Pojem kombinačního čísla má dlouhou historii, která sahá až do starověké matematiky. Kombinační čísla byla poprvé popsána ve starověké Indii a Číně, kde se používala pro výpočty pravděpodobností a astrologických předpovědí. Ve středověké Evropě se kombinační čísla objevila v dílech matematiků, jako byl Blaise Pascal, který je studoval ve spojitosti se známým Pascalovým trojúhelníkem. Pascalův trojúhelník je geometrickým zobrazením kombinačních čísel a představuje jeden z nejznámějších způsobů, jak tato čísla zobrazit a použít v praxi. V moderní matematice se kombinační čísla stala základem kombinatoriky, teorie pravděpodobnosti a statistiky. Kombinatorika 20 Definice 1.29. Kombinační číslo, označované jako vyjadřuje počet možných způsobů, jak vybrat k prvků z množiny n prvků, pokud nezáleží na pořadí a každý prvek může být vybrán pouze jednou. Vzorec pro výpočet kombinačního čísla je dán vztahem: \kj k\{n-k)\ kde n je celkový počet prvků a A; je počet vybraných prvků. Příklad 1.30. Vypočítejte kombinační číslo Řešení: Podle vzorce pro kombinační číslo: Í7\ 7! 7-6-5 210 35. v3y 3!(7-3)! 3-2-1 6 □ 1.4.1 Kombinace bez opakování Definice 1.31. Kombinace bez opakování je výběr k prvků z množiny n prvků, kde na pořadí nezáleží a každý prvek může být vybrán pouze jednou. Počet takových kombinací je dán vztahem: í n\ n\ Ckin) = [k) = ki^ky.^ kde n je celkový počet prvků a A; je počet vybraných prvků. Příklad 1.32. Najděte všechny kombinace druhé třídy bez opakování z množiny M = {1,2,3,4,5}. Řešení: Použijeme vzorec pro kombinace bez opakování. Počet kombinací druhé třídy bez opakování z 5 prvků je: Vypíšeme všechny kombinace: {1, 2}, {1, 3}, {1,4}, {1,5}, {2, 3}, {2,4}, {2, 5}, {3,4}, {3, 5}, {4, 5}. Celkem tedy existuje 10 různých kombinací druhé třídy bez opakování. □ Příklad 1.33. Kolik různých pětičlenných týmů lze vybrat ze skupiny 12 studentů? 21 Základy statistiky Řešení: Jedná se o kombinace bez opakování, protože na pořadí členů týmu nezáleží a každý student může být vybrán pouze jednou. Počet kombinací je dán vztahem: „ , . /12\ 12! 12 • 11 • 10 • 9 • 8 CAl2)= (5j=ši(i235)?= 5.4.3.2.! = ^ Celkově lze tedy vybrat 792 různých pětičlenných týmů. □ Příklad 1.34. Kolika různými způsoby lze vybrat 3 knihy z police, která obsahuje 7 různých knih? Řešení: V tomto případě také pracujeme s kombinacemi bez opakování, protože pořadí vybraných knih není důležité. Počet kombinací je: °Á7) ~ Q " 3!(7-3)! " ~ 35' Lze tedy vybrat 35 různých trojic knih. □ Příklad 1.35. Kolika způsoby lze sestavit výbor složený ze 4 mužů a 3 žen, pokud máme k dispozici 8 mužů a 5 žen? Řešení: Nejdříve vybereme 4 muže z 8 mužů: Cl(8) = 8 = 8'7-6'5 = to. y ! \A 4-3-2-1 Poté vybereme 3 ženy z 5 žen: Celkový počet různých způsobů, jak sestavit výbor, je tedy: C4(8) -C3(5) = 70- 10 = 700. □ Kombinatorika 22 1.4.2 Kombinace s opakováním Definice 1.36. Kombinace s opakováním jsou výběry k prvků z n různých prvků, kde je dovoleno, aby se jednotlivé prvky opakovaly. Na rozdíl od kombinací bez opakování zde nezáleží na pořadí a zároveň se mohou prvky vyskytovat vícekrát. Počet kombinací s opakováním k-té třídy z n prvků je dán vzorcem: fn + k-í\ (n + fc-1)! Cl{n) k J k\{n-ľ)\ Příklad 1.37. Najděte všechny kombinace druhé třídy s opakováním z množiny M = {1,2,3,4,5}. Řešení: Použijeme vzorec pro kombinace s opakováním. Počet kombinací druhé třídy s opakováním z 5 prvků je: Vypíšeme všechny kombinace: {1,1}, {1,2}, {1,3}, {1,4}, {1,5}, {2,2}, {2,3}, {2,4}, {2,5}, {3,3}, {3,4}, {3,5}, {4,4}, {4,5}, {5,5}. Celkem tedy existuje 15 různých kombinací druhé třídy s opakováním. □ Příklad 1.38. Kolika způsoby lze vybrat 4 bonbóny ze 3 různých druhů, pokud nezáleží na pořadí a mohou se opakovat? Řešení: Jedná se o kombinace s opakováním, kde n = 3 a k = 4: □ Příklad 1.39. Kolika způsoby lze rozdělit 10 jablek mezi 3 děti, pokud každé dítě může dostat libovolný počet jablek? Řešení: Jedná se o kombinace s opakováním, kde n = 3 a k = 10: □ Příklad 1.40. Kolika způsoby lze rozdělit 8 identických bonbónů mezi 4 děti? 23 Základy statistiky Řešení: Jedná se o kombinace s opakováním, kde n = 4afc = 8: C£(4) c 4 + 8-1 8 ) ( 11 8 ) 165. □ Příklad 1.41. Kolika způsoby lze vybrat 6 květin z 5 druhů, pokud se mohou opakovat? Řešení: Jedná se o kombinace s opakováním, kde n = 5 a k = 6: Příklad 1.42. Zjistěte, kolik existuje různých kvádrů, pro něž platí, že délka každé jejich hrany je přirozené číslo z intervalu [2; 5], přičemž nezáleží na pořadí stran. Řešení: Jedná se o kombinace s opakováním, protože nezáleží na pořadí délek stran kvádru. Pro každou stranu lze vybrat délku z množiny {2, 3,4, 5}, což je výběr z 4 různých hodnot. Počet kombinací třetí třídy (tři strany kvádru) z těchto čtyř prvků s opakováním je dán vzorcem pro kombinace s opakováním: Počet různých kvádrů, pro něž platí, že délka každé jejich hrany je přirozené číslo z intervalu Příklad 1.43. Jsou dány cifry 1, 2, 3, 4, 5. Cifry nelze opakovat. Kolik je možno vytvořit z těchto cifer čísel, která jsou: • a) pětimístná, sudá, b) pětimístná, končící dvojčíslím 21, • c) pětimístná, menší než 30000, • d) trojmístná lichá, • e) čtyřmístná, větší než 2000, • f) dvojmístná nebo trojmístná. □ [2; 5], je tedy 20. □ 1.4.3 Souhrnné příklady Kombinatorika 24 Řešení: ad a) Sudá - to v tomto případě znamená, že číslo končí ciframi 2 nebo 4 (XXXX2, XXXX4) - tzn. dvě možnosti. Na zbývajících čtyřech pozicích permutují zbývající čtyři cifry, takže výsledek: 2 • P(4) = 48. ad b) Máme číslo XXX21. Tedy na třech pozicích permutují tři cifry: P(3) = 6. ad c) Menší než 30000, to jsou čísla začínající ciframi 1 nebo 2, tedy dvě možnosti. Na zbývajících čtyřech pozicích permutují zbývající čtyři cifry: 2 • P(4) = 48. ad d) Lichá, tedy končí ciframi 1, 3, 5 - tři možnosti. Na zbývajících dvou pozicích se mohou vyskytovat některé ze zbývajících čtyř cifer, přičemž záleží na pořadí - jedná se o variace druhé třídy ze čtyř prvků: 3 • \/2(4) = 36. ad e) Obdobně jako u předchozích: 4-V3(4) = 96. ad f) V2(5) + V3(5) = 80. □ Příklad 1.44. Kolik různých státních poznávacích značek 4M9 XX-XX existuje s aspoň dvěma trojkami (na místě čtyř X mohou být jen číslice)? Řešení: Aspoň dvě trojky, to jsou 2, 3 nebo 4 trojky. Začneme nejjednodušší možností: 4 trojky: Tzn. jediná možnost 4M9 33-33, takže: X4 = 1 3 trojky: Existují 4 možnosti, jak seskládat tři trojky na čtyřech pozicích (333X, 33X3, 3X33, X333). Obecně to lze vyjádřit jako počet permutací 4 prvků s opakováním, přičemž trojka se opakuje třikrát: Dále existuje 9 možností (zbývajících devět cifer), které mohou být na čtvrté pozici. Obecně lze vyjádřit např. jako počet variací první třídy z devíti prvků: K(9) = 9 Takže výsledný počet pro 3 trojky: 25 Základy statistiky x3 = P*(4) • K(9) = 4-9 = 36 2 trojky: Existuje opět P*(4) možností, jak seskládat dvě trojky na čtyři pozice, přičemž tentokrát se trojka opakuje dvakrát a zbývající dvě pozice nerozlišujeme mezi sebou, takže se také dvakrát opakují (33XX, 3X3X, 3XX3, X33X, X3X3, XX33): Na zbývajících dvou pozicích se může střídat zbývajících devět cifer, přičemž v dané dvojici záleží na pořadí cifer a cifry se mohou i opakovat. To se dá vyjádřit jako počet variací druhé třídy z devíti prvků s opakováním: V* (9) = 92 = 81 Takže výsledný počet pro 2 trojky: x2 = P*(4) • V2(9) = 6 • 81 = 486 Tzn., že počet státních poznávacích značek 4M9 XX-XX s aspoň dvěma trojkami je: x = xA + x3 + x2 = 1 + 36 + 486 = 523 □ OV této kapitole jsme se podrobně seznámili s kombinatorikou, což je oblast matematiky, která se zabývá výběrem a uspořádáním prvků v množinách. Probírali jsme různé druhy uspořádání a výběrů prvků: variace, permutace a kombinace. Dále jsme rozlišovali mezi situacemi, kdy se prvky mohou opakovat, a kdy se neopakují. Hlavní kombinatorické techniky, které jsme se naučili, zahrnují: Variace - Uspořádané výběry prvků s ohledem na pořadí. Rozlišujeme variace s opakováním a bez opakování. ' Permutace - Uspořádání všech prvků množiny. Rozlišujeme permutace s opakováním a bez opakování. ' Kombinace - Výběry prvků, kde nezáleží na pořadí. Rozlišujeme kombinace s opakováním a bez opakování. ' Kombinatorické pravidlo součinu - Používáme, pokud je proces rozdělen na několik kroků. ' Kombinatorické pravidlo součtu - Používáme, pokud je výběr možný z více neslučitelných možností. ' Princip inkluze a exkluze - Používá se k výpočtu počtu prvků ve sjednocení několika množin, zohledňující průniky mezi množinami. Kombinatorika 26 e 1. Státní poznávací značku tvoří dvě písmena, tři číslice a další dvě písmena (formát AAXXXAA, kde A je písmeno a X číslice). Kolik různých značek lze vytvořit, pokud můžeme vybírat z 25 písmen a 10 číslic? [390 625 000] 2. Kolik různých šestimístných čísel lze sestavit z cifer 1, 2 a 3, pokud se cifry mohou opakovat? [729] 3. Na MHD se kdysi používaly lístky s devíti čtverečky označenými čísly 1 až 9. Po nastoupení cestující zasunul lístek do strojku, který prodírkoval tři nebo čtyři z nich (specificky pro dané vozidlo a den). Kolik je různých způsobů produkování lístku? [210] 4. Kolika způsoby může sedět v kině sedm kamarádů (A, B, C, D, E, F, G) na sedadlech 1 až 7 tak, aby kamarád B seděl na sedadle č. 4 a kamarád G na sedadle č. 2? [120] 5. Do tanečního kroužku přišlo 24 chlapců a 15 dívek. Kolik různých párů lze vytvořit, pokud pár tvoří vždy dvojice chlapec-dívka? [360] 6. Ve třídě je 20 žáků. Kolika způsoby lze vybrat dvojici pro týdenní službu? [190] 7. Kolik hráčů se zúčastnilo turnaje ve stolním tenise, pokud se v dvouhře odehrálo 21 utkání a každý hráč hrál s každým právě jednou? [7] 8. Ve třídě je 20 dívek a 15 chlapců. Kolik různých pětičlenných hlídek na branné závody lze vytvořit, pokud v každé hlídce mají být 3 dívky a 2 chlapci? [119 700] 9. Hokejové družstvo má 20 hráčů: 13 útočníků, 5 obránců a 2 brankáře. Kolik různých sestav může trenér vytvořit, pokud sestava má obsahovat 3 útočníky, 2 obránce a 1 brankáře? [5 720] 10. Učitel má k dispozici 20 aritmetických a 30 geometrických úloh. Na písemné práci mají být dvě aritmetické a tři geometrické úlohy. Kolik má učitel možností k vytvoření písemné práce? [771400] 11. Ze 7 mužů a 4 žen máme vytvořit 6člennou skupinu, ve které mají být 3 ženy. Kolika způsoby lze takovou skupinu vytvořit? [140] 12. Učitel má vybrat na recitační soutěž tři studenty ze třídy 3.A a dva studenty ze třídy 3.B. V 3. A je 22 studentů a v 3.B je 17 studentů. Kolik má učitel možností výběru? [209440] 13. Kolik existuje způsobů, jak uspořádat sedadla pro kamarády A, B, C, D a E tak, aby kamarád A seděl vedle kamaráda C? [48] 14. Latinská abeceda má 26 písmen. Kolik různých 6písmenných „slov" lze vytvořit, pokud písmena mohou být opakována? [308 915 776] 15. Státní poznávací značku tvoří 7 znaků. Na prvních třech pozicích může být číslice nebo písmeno, na zbývajících čtyřech jen číslice. Kolik různých značek lze vytvořit, pokud použijeme 28 písmen a 10 číslic? [548 720 000] 16. Na hodině tělesné výchovy stojí v řadě 5 dívek, z nichž dvě jsou sestry. Kolika způsoby lze rozestavit dívky tak, aby sestry stály vedle sebe? [48] Literatura k tématu: [1] OTIPKA, P., SMAJSTRLA, V. Pravděpodobnost a statistika [online]. 1. vydání. Ostrava: VŠB-TU Ostrava, 2007 [cit. 2024-09-09]. ISBN 80-248-1194-4. Dostupné z: https://homel.vsb.cz/~oti73/cdpastl/ [2] CALDA, E., DUPAC, V. (2008). Matematika pro gymnázia: Kombinatorika, pravděpodobnost, statistika (5. vydání, dotisk 2011). Praha: Prométheus. ISBN 978-80-7196-365-3. Kapitola 2 Pravděpodobnost jevů Po prostudování této kapitoly budete umět: ' objasnit pojmy náhodný pokus, náhodný jev, operace s jevy a jejich aplikace, • představit klasickou a geometrickou pravděpodobnost, • řešit typové úlohy z oblasti pravděpodobnosti. Klíčová slova: Náhodný pokus, náhodný jev, klasická pravděpodobnost, geometrická pravděpodobnost, operace s jevy, podmíněná pravděpodobnost, nezávislé jevy, úplná pravděpodobnost, Bayesova věta. Pravděpodobnost jevů 28 Náhled kapitoly V této kapitole se zaměříme na základní principy pravděpodobnosti, které tvoří jádro teorie pravděpodobnosti a slouží jako základ pro statistické analýzy. Probereme definice náhodných jevů, náhodného pokusu a klasické pravděpodobnosti. Budeme se věnovat také operacím s jevy, jako je sjednocení, průnik a doplněk. Dále si představíme podmíněnou pravděpodobnost a nezávislé jevy, což jsou klíčové koncepty při analýze složitějších náhodných událostí. Kapitola zahrnuje příklady z reálného světa, kde je třeba vypočítat pravděpodobnosti na základě známých jevů. Cíle kapitoly Po prostudování této kapitoly by studenti měli být schopni: • rozlišovat mezi různými druhy náhodných jevů a aplikovat jejich definice, používat klasickou a geometrickou pravděpodobnost pro řešení praktických úloh, • vypočítat podmíněnou pravděpodobnost a rozhodnout o nezávislosti jevů, • řešit úlohy s použitím Bayesovy věty a úplné pravděpodobnosti. Časová náročnost Pro zvládnutí této kapitoly se doporučuje věnovat studiu přibližně 5 hodin, včetně procvičení praktických příkladů a samostatného řešení úloh. 2.1 Základní pojmy Definice 2.1. Náhodný pokus je proces, jehož výsledek není jistý a může nabývat různých hodnot v závislosti na náhodě. Náhodný pokus lze opakovat za stejných podmínek, avšak jeho výsledek se může pokaždé lišit. Příkladem náhodného pokusu je hod kostkou, kde nevíme, jaké číslo padne, nebo losování míčku z osudí. Výsledky náhodného pokusu tvoří množinu možných výsledků, kterou nazýváme prostor elementárních jevů. Definice 2.2. Náhodný jev je podmnožina prostoru elementárních jevů, která zahrnuje jeden nebo více možných výsledků náhodného pokusu. Náhodný jev tedy nastává, pokud výsledek náhodného pokusu spadá do této podmnožiny. Například při hodu kostkou můžeme definovat náhodný jev A, že padne sudé číslo. V tomto případě je náhodný jev A = {2,4, 6}, protože tyto výsledky odpovídají sudým číslům. 29 Základy statistiky Druhy náhodných jevů Definice 2.3. • Jev jistý - Jev, který nastane vždy, tj. obsahuje všechny možné výsledky náhodného pokusu. Jeho pravděpodobnost je 1. Například při hodu kostkou je jevem jistým, že padne číslo mezi 1 a 6. P(J) = 1 Jev nemožný - Jev, který nikdy nenastane, tj. neobsahuje žádný výsledek náhodného pokusu. Jeho pravděpodobnost je 0. Například při hodu klasickou kostkou je nemožným jevem, že padne číslo 7. P(0) = 0 Jev elementární - Jev, který obsahuje právě jeden možný výsledek náhodného pokusu. Například při hodu kostkou je elementárním jevem A, že padne číslo 3: A = {3}. Jev složený - Jev, který obsahuje více než jeden možný výsledek náhodného pokusu. Například při hodu kostkou může být složeným jevem B, že padne sudé číslo, což zahrnuje výsledky B = {2,4,6}. Jev opačný (doplněk jevu) - Jev, který nastane tehdy, když nenastane zadaný jev. Opačný jev k jevu A se označuje jako Ac. Například při hodu kostkou, pokud je jev A, že padne číslo 3, je jev Ac jevem, že padne jakékoli číslo jiné než 3, tedy Ac = {1,2,4,5,6}. Neslučitelné (disjunktní) jevy - Dva jevy jsou neslučitelné, pokud nemohou nastat současně. To znamená, že nemají žádný společný výsledek. Například při hodu kostkou jsou jevy A, že padne sudé číslo, a B, že padne liché číslo, neslučitelné: A fl B = 0. Slučitelné jevy - Dva jevy jsou slučitelné, pokud mohou nastat současně. To znamená, že mají alespoň jeden společný výsledek. Například při hodu kostkou jsou jevy A, že padne číslo menší než 4, a B, že padne sudé číslo, slučitelné, protože AC\B = {2}. 2.2 Klasická pravděpodobnost Definice 2.4. Při splnění níže uvedených předpokladů definujeme klasickou pravděpodobnost jako Počet příznivých výsledků Celkový počet možných výsledků Pravděpodobnost jevů 30 Předpoklady klasické pravděpodobnosti: 1. Konečný počet možných výsledků: Předpokládá se, že jev má konečný počet možných výsledků (elementárních jevů), které jsou všechny jasně definovány a lze je spočítat. 2. Stejná pravděpodobnost všech výsledků: Každý z možných výsledků je stejně pravděpodobný. To znamená, že žádný výsledek není preferován nebo diskriminován, což je klíčový předpoklad této definice. Například při hodu férovou kostkou má každá strana stejnou šanci padnout. 3. Určitelnost jevů: Všechny možné výsledky (elementární jevy) jsou dopředu známy a lze je spočítat. V praxi to znamená, že prostor elementárních jevů je jasně definovaný a každý výsledek je předem určitelný. 4. Nezávislost pokusů: Pokud klasickou pravděpodobnost aplikujeme na opakované pokusy (např. hody kostkou), předpokládá se, že jednotlivé pokusy jsou na sobě nezávislé - výsledek jednoho pokusu neovlivňuje výsledky dalších pokusů. Tyto předpoklady omezují klasickou pravděpodobnost na situace, kde je možné zaručit stejné šance všech výsledků a kde je počet možných výsledků konečný a jasně definovaný. Příklad 2.5. Klasickým příkladem náhodného pokusuje hod hrací kostkou. Budeme si na něm ilustrovat koncept náhodného pokusu a jevu. Řešení: • Náhodný pokus: hod hrací kostkou ' Elementární jevy: „padne 1" ... Ei, „padne 2" ... E2, ... „padne 6" ... E§ Jevy Ei, E2,... ,E$ vymezují základní prostor Q. V tomto základním prostoru mohou být například následující jevy: Náhodný jev A: „padne liché číslo" ... A = E\ + E3 + E$ • Náhodný jev B: „padne číslo > 4" ... B = E4 + E$ + E§ • Jev nemožný: „padne číslo > 6" • Jev jistý: „padne číslo < 7" Neslučitelné jevy: „padne sudé číslo" a „padne liché číslo" □ Příklad 2.6. Při hodu kostkou určete pravděpodobnost jevů: a) jev A: „padne číslo 5" • b) jev B: „padne číslo < 2" 31 Základy statistiky Řešení: ad a) Pravděpodobnost jevu A: ad b) Pravděpodobnost jevu B: P(B) = Příklad 2.7. S jakou pravděpodobností padne na dvou kostkách součet: • a) šest, • b) menší než 7? Řešení: ad a) Šestka padne v následujících případech: Tedy existuje 5 možností. Počet všech možností je n = 6 x 6 = 36. Pravděpodobnost: 1. kostka 2. kostka 1 5 2 4 3 5 1 4 2 3 P(součet 6) 5 36 ad b) Součet menší než 7 může být: Součet Možnosti 5 4 3 2 (1,4),(4,1),(2,3),(3,2) (1,3), (3,1), (2,2) Celkový počet možností je 15. Pravděpodobnost: P(součet menší než 7) 15 5 36 12 □ Pravděpodobnost jevů 32 Příklad 2.8. V cele předběžného zadržení sedí vedle sebe 10 podezřelých, z toho 3 ženy. Jaká je pravděpodobnost, že všechny tři ženy sedí vedle sebe? Řešení: Počet možností, jak uspořádat 10 podezřelých, odpovídá počtu permutací z 10 prvků: n = 10!. Pokud všechny tři ženy sedí vedle sebe, můžeme je chápat jako jeden „blok". Tento „blok" lze umístit na 8 různých pozic (např. na pozice 1-2-3, 2-3-4, 8-9-10). Uvnitř „bloku" mohou být ženy uspořádány 3! způsoby. Zbývajících 7 podezřelých může být uspořádáno 7! způsoby. Celkový počet příznivých uspořádání: m = 8 x 3! x 7! = 8 x 6 x 7!. Pravděpodobnost: m 8x6x7! 8x6 n 10! 10 x 9 x 8 15 □ Příklad 2.9. Stanovte pravděpodobnost jevu, že z 10 náhodně vytažených bridžových karet budou alespoň 3 esa. (bridžové karty: 52 karet celkem, z toho 4 esa) Řešení: Jev A - vybereme alespoň 3 esa znamená, že vybereme 3 nebo 4 esa. Tento jev se rozkládá na součet dvou navzájem disjunktních jevů: A = A1 + A2, kde • A\. vybereme 3 esa, • A2: vybereme 4 esa. Pravděpodobnost: P(A) = P(A1) + P(A2). Výpočty jednotlivých pravděpodobností provedeme pomocí kombinací: P (A P{A2 t) x ? 1 X a 33 Základy statistiky Hledaná pravděpodobnost P(Á) je součtem těchto hodnot. □ Příklad 2.10. Při slosování sportky je z osudí postupně vylosováno 6 čísel ze 49. Po vylosování těchto čísel je ze zbývajících 43 čísel vylosováno dodatkové číslo. Při správném tipování: • a) šesti čísel získává sázející výhru 1. pořadí, • b) pěti čísel a dodatkového čísla (5 + 1) získává sázející výhru 2. pořadí, • c) pěti čísel získává sázející výhru 3. pořadí, • d) čtyř čísel získává sázející výhru 4. pořadí, • e) tří čísel získává sázející výhru 5. pořadí. Vypočítejte pravděpodobnost, se kterou při vsazeném jednom sloupci vyhrajete v 1. tahu výhry a) až e). Řešení: ad a) Pravděpodobnost uhodnutí všech 6 čísel: w 1 1 P(6 čísel) : 491 13 983 816 6 ad b) Pravděpodobnost uhodnutí 5 čísel a dodatkového čísla: P(5 + 1 číslo) = ad c) Pravděpodobnost uhodnutí 5 čísel: P(5 čísel) = ad d) Pravděpodobnost uhodnutí 4 čísel: P(4 čísel) ad e) Pravděpodobnost uhodnutí 3 čísel: P(3 čísel) 4691 13 983 816 6\ x, /43 xli 25Í 491 13 983 816 6 9 * (? 3 * ? □ Pravděpodobnost jevů 34 2.3 Geometrická pravděpodobnost Definice 2.11. Geometrická pravděpodobnost je pravděpodobnostní model, kde se pravděpodobnost určuje jako poměr dvou délek, ploch nebo objemů. Používá se v situacích, kdy náhodný pokus závisí na kontinuu, tedy na čase, délce nebo ploše. Matematicky se geometrická pravděpodobnost počítá jako: velikost příznivé oblasti velikost celkové oblasti Kde: • P{A) je pravděpodobnost výskytu jevu A, • "příznivá oblasť'je část celkové oblasti, kde nastane jev A, • "celková oblasť'je celý prostor možných výsledků. Geometrická pravděpodobnost se často používá v úlohách zahrnujících náhodné umístění bodu v oblasti, jako je například úsečka nebo kruh. Příklad 2.12. Jak je pravděpodobné, že meteorit padne na pevninu, víme-li, že pevnina má rozlohu 149 milionů km2 a moře 361 milionů km2? Řešení: Celková plocha povrchu Země je: S = 149 + 361 = 510 milionů km2. Pravděpodobnost, že meteorit padne na pevninu, je dána podílem rozlohy pevniny a celkové rozlohy povrchu Země: 149 P(pevnina) = -« 0.2922. 510 □ Příklad 2.13. Představte si kruh o poloměru 10 cm, ve kterém je vyznačena menší kruhová oblast s poloměrem 5 cm. Jaká je pravděpodobnost, že náhodně vybraný bod v kruhu spadne do této menší oblasti? Řešení: Nejprve vypočítáme plochy obou kruhů. Plocha většího kruhu je SvKtAi = 7t x 102 = 1007t cm2, zatímco plocha menšího kruhu je •Smenší = 7T X 5 = 257T CH1 . 35 Základy statistiky Pravděpodobnost, že náhodně vybraný bod spadne do menšího kruhu, je pak dána jako poměr ploch: P(menší kruh) = *~^nensi = —-— = 0,25. Světší IOOtt □ Příklad 2.14. Dva známí se domluví, že se sejdou na určitém místě mezi 15. a 16. hodinou, přičemž doba čekání je 20 minut. Jaká je pravděpodobnost, že se při této dohodě setkají? Řešení: Označme: - x jako čas po 15. hodině, kdy přijde první osoba, - y jako čas po 15. hodině, kdy přijde druhá osoba. Podmínka pro setkání je \x — y\ < 20 minut. Celkový časový interval je 60 minut. Geometricky jde o výpočet obsahu příznivé oblasti v jednotkovém čtverci 60 x 60 (v minutách). Příznivá oblast je obdélník vymezený rovnicí \x — y\ < 20. Celková plocha čtverce: tt\ = 60 x 60 = 3600 minut2. Příznivá plocha: \A\ = 3600 - (40 x 40) = 2000 minut2. Pravděpodobnost setkání je: , \ \A\ 2000 P setkaní = tttt = -~ 0.5556. v ; Q 3600 □ 2.4 Statistická pravděpodobnost Definice 2.15. Statistickou pravděpodobnost definujeme jako relativní četnost, s jakou určitý jev nastává v dlouhodobém opakování experimentu. Její výpočet se odvozuje z pozorovaných dat a lze ji vyjádřit vztahem P (A) = lim Požet výbytů jevu A n^oo Celkový počet pokusů Pravděpodobnost jevů 36 Předpoklady statistické pravděpodobnosti: 1. Opakovatelnost experimentu: Pokus, při kterém je zkoumán jev, lze opakovat za stejných podmínek mnohokrát. 2. Stabilní výsledky při velkém počtu pokusů: S narůstajícím počtem pokusů se relativní četnost výskytu daného jevu stabilizuje a blíží se určité hodnotě. Tato hodnota je považována za pravděpodobnost jevu. 3. Nezávislost pokusů: Jednotlivé pokusy jsou na sobě nezávislé, což znamená, že výsledek jednoho pokusu nemá vliv na výsledky dalších pokusů. 4. Dostatečně velký počet pokusů: Statistická pravděpodobnost má smysl pouze v situacích, kdy je k dispozici velký počet pokusů nebo měření. Relativní četnost se totiž stabilizuje až po dostatečně velkém počtu opakování. Statistická pravděpodobnost je vhodná pro situace, kdy máme k dispozici data z opakovaných pokusů a můžeme na základě těchto dat odhadovat pravděpodobnost výskytu různých jevů. Aplikace v různých situacích Statistickou pravděpodobnost lze aplikovat jak v diskrétních, tak spojitých situacích, a to s určitými rozdíly: Diskrétní konečná situace: V případě konečného počtu možných výsledků (např. hod kostkou) lze statistickou pravděpodobnost odhadnout z relativních četností jednotlivých výsledků v řadě pokusů. Například pokud házíme kostkou lOOkrát, počet, kolikrát padne číslo 6, se může stabilizovat kolem hodnoty |. Diskrétní nekonečná situace: Pokud má náhodná veličina nekonečně mnoho možných hodnot, ale tyto hodnoty jsou diskrétní (např. počet zákazníků přicházejících do obchodu za den), pak se pravděpodobnostní model zaměřuje na odhad pravděpodobností jednotlivých hodnot nebo jejich intervalů pomocí četností. Zde může být například důležité určit, jak často během jednoho dne přijde do obchodu přesně 10 zákazníků, nebo třeba víc jak 50. Spojitá situace: U spojitých náhodných veličin (např. výška náhodně vybraného člověka) nelze přímo určit pravděpodobnost, že náhodná veličina nabude konkrétní hodnoty (např. přesně 170 cm), protože tato pravděpodobnost je prakticky nulová. Namísto toho se pracuje s pravděpodobností, že náhodná veličina spadne do určitého intervalu, např. že výška člověka bude mezi 170 a 175 cm. Pravděpodobnost se odhaduje na základě relativních četností hodnot spadajících do těchto intervalů a k modelování se používají hustoty pravděpodobnosti. V závislosti na povaze náhodné veličiny a situace, ve které pracujeme, se způsob aplikace statistické pravděpodobnosti mění. Zatímco u diskrétních situací lze snadno spočítat četnosti jednotlivých hodnot, u spojitých situací musíme pracovat s intervaly hodnot a hustotami pravděpodobnosti. 37 Základy statistiky Příklad 2.16 (spojitý případ). Sledujme dobu, po kterou se zákazníci zdržují v obchodě. Čas pobytu byl zaznamenán a rozdělen do intervalů o délce 5 minut. Data o četnostech pro jednotlivé intervaly jsou shrnuta v následující tabulce: Tab. 1: Četnosti zdržení se zákazníků v obchodě (intervaly 5 minut) Interval (min) Četnost 0-5 77 5-10 83 10-15 25 15-20 15 Celkem 200 Určete jednotlivé statistické pravděpodobnosti. Řešení: Z tabulky je zřejmé, že celkem bylo sledováno 200 zákazníků. Nyní spočítáme statistické pravděpodobnosti pro jednotlivé intervaly na základě relativních četností. 77 P(0-5 minut) =-= 0,385, v ; 200 ' ' 83 P(5-10 minut) =-= 0,415, v ; 200 ' ' 25 P(10-15 minut) =- = 0,125, v ; 200 ' ' 15 P(15-20 minut) =-= 0,075. v ; 200 Rozdělení statistické pravděpodobnosti pro intervaly času zdržení se zákazníků v obchodě je tedy následující: Pravděpodobnost, že se zákazník zdrží v obchodě mezi 0 a 5 minutami, je 0,385. Pravděpodobnost, že se zákazník zdrží mezi 5 a 10 minutami, je 0,415. Pravděpodobnost, že se zákazník zdrží mezi 10 a 15 minutami, je 0,125. Pravděpodobnost, že se zákazník zdrží mezi 15 a 20 minutami, je 0,075. Celkové rozdělení pravděpodobnosti je vytvořeno (odhadnuto) z relativních četností, které vyjadřují pravděpodobnosti pro jednotlivé intervaly. Toto rozdělení můžeme použít k modelování délky pobytu zákazníků v obchodě. □ Pravděpodobnost jevů 38 2.5 Podmíněná pravděpodobnost a nezávislé jevy Podmíněná pravděpodobnost Definice 2.17. Podmíněná pravděpodobnost je pravděpodobnost jevu A za předpokladu, že nastal jev B. Označuje se P(A\B) a je definována jako: P(A\B) = P{^\ pokud P{B) > 0. Tento koncept je užitečný v mnoha praktických situacích, například při odhadu pravděpodobnosti úspěchu produktu na trhu, pokud víme, že byl úspěšný v podobném segmentu. Nezávislé jevy Definice 2.18. Nezávislé jevy jsou takové jevy, jejichž výskyt jeden druhého neovlivňuje. To znamená, že pravděpodobnost výskytu jednoho jevu neovlivňuje pravděpodobnost výskytu druhého jevu. Pokud jsou dva jevy A a, B nezávislé, pak platí následující rovnost: P(Af]B) =P(A)-P(B). Tato rovnost říká, že pravděpodobnost současného výskytu jevů A a B (jejich průniku) je součinem pravděpodobností jednotlivých jevů. Nezávislost je důležitý koncept, který se často vyskytuje v reálných situacích, například při opakovaných náhodných pokusech, jako je házení kostkou nebo mincí. V těchto případech výsledek jednoho hodu neovlivňuje výsledek následujících hodů, a proto jsou tyto pokusy nezávislé. 39 Základy statistiky Skupinově nezávislé jevy Definice 2.19. Jevy A, B a, C jsou skupinově nezávislé, jestliže platí následující podmínky: ' Nezávislost po dvou: Každá dvojice jevů musí být nezávislá, což znamená, že pro všechny dvojice jevů platí: P(Af]B) =P(A)-P(B), P(AnC) =P(A)-P(C), P(BnC) =P(B)-P(C). • Nezávislost po třech: Pro tři jevy zároveň musí platit, že průnik všech tří jevů odpovídá součinu jejich pravděpodobností: P (A n B n C) = P (Ä) ■ P (B) ■ P {C). Pokud jsou splněny všechny tyto podmínky, říkáme, že jevy A, B a C jsou skupinově nezávislé. Tato vlastnost je klíčová v situacích, kde analyzujeme souběh více nezávislých jevů, a je využívána v pravděpodobnostních modelech, jako je například rozklad nezávislých náhodných veličin. Příklad 2.20. Házíme dvěma mincemi. Určete pravděpodobnost jevu: • A: padne líc a rub, B: na první minci padne líc. Určete pravděpodobnost jevu A za předpokladu, že nastal jev B. Řešení: Možné výsledky hodu jsou: 1. mince 2. mince LÍC LÍC LÍC RUB RUB LÍC RUB RUB Pravděpodobnost jevu A (líc a rub) za předpokladu, že na první minci padl líc (jev B): Použijeme vzorec pro podmíněnou pravděpodobnost: P(AHB) P (A \B)= v ; P{B) ■ Pravděpodobnost jevů 40 Jev Af]B nastane, pokud padne líc na první minci a rub na druhé minci, což je jedna možnost z celkových 4, tedy P(A fl B) = |. Pravděpodobnost jevu B (líc na první minci) je P{B) = |. Proto: Příklad 2.21. Studenti při zkoušení mohou dostat tři otázky. První student je připraven pouze na první otázku, druhý umí pouze druhou otázku, třetí ovládá jen třetí otázku a čtvrtý je připraven na všechny tři otázky. Uvažujme nyní tyto jevy: • A\. vyvolaný student dokáže zodpovědět první otázku, • A2: vyvolaný student dokáže zodpovědět druhou otázku, • A3: vyvolaný student dokáže zodpovědět třetí otázku. Ukažte, že jevy Ai, A2, A3 jsou po dvou nezávislé, ale nejsou vzájemně nezávislé (jako trojice). Řešení: Pravděpodobnosti jednotlivých jevů: Nyní uvažujme pravděpodobnosti průniků dvojic jevů: P(A1 n A2) = P{A1 n A3) = P{A2 DA3) = ^ = 0,25. Protože P(Ai n AA = P(Ai) x P{AA = 0,5 x 0,5 = 0,25 pro i ± j, jsou jevy Au A2, A3 po dvou nezávislé. Nicméně, pro vzájemnou nezávislost by muselo platit, že: P(A | B) i _4 1 2 2 1 □ P{A1 n A2 n A3) = P{A1) x P(A2) x P(A3) = 0,5 x 0,5 x 0,5 = 0,125. Ale ve skutečnosti: P{A1 n A2 n A3) 1 0,25. 4 Proto nejsou jevy Ai, A2, A3 vzájemně nezávislé. □ 41 Základy statistiky 2.6 Úplná pravděpodobnost a Bayesova věta Úplná pravděpodobnost Definice 2.22. Zákon úplné pravděpodobnosti umožňuje vypočítat pravděpodobnost jevu na základě rozkladu prostoru jevů na několik disjunktních (vzájemně neslučitelných) událostí. Tento zákon využíváme zejména tehdy, když pravděpodobnost jevu závisí na několika různých scénářích (podmínkách), které tvoří úplný prostor možných výsledků. Formálně lze úplnou pravděpodobnost jevu A vyjádřit jako: P (A) = P{A n £i) + P (A n B2) + • • • + P (A n Bn), kde B\,B2,... ,Bn jsou vzájemně neslučitelné události, které tvoří úplný prostor (tedy B\ U B2 U • • • U Bn = Q). Použijeme-li pravidlo pro podmíněnou pravděpodobnost, můžeme tento vztah upravit: P{A) = P(51) • P(A | + P{B2) .P(A\B2) + --- + P{Bn) ■ P{A \ Bn), kde P{A | B i) je podmíněná pravděpodobnost jevu A za podmínky, že nastal jev Bi. Zákon úplné pravděpodobnosti nám tedy umožňuje vypočítat pravděpodobnost složitých jevů tím, že je rozdělíme na dílčí podmíněné pravděpodobnosti. Příklad 2.23. V obchodě jsou tři pokladny, na nichž dojde k chybě v účtování s pravděpodobností 0,1, 0,05 a 0,2. Z hlediska umístění pokladen v obchodě jsou pravděpodobnosti odbavení pokladnami 0,3, 0,25 a 0,45. Jaká je pravděpodobnost, že osoba opouštějící obchod má chybný účet? Řešení: Označme: • A: jev, že došlo k chybě v účtování, • Hf jev, že zákazník byl obsloužen na i-té pokladně, kde i = 1,2, 3. Potom hledáme pravděpodobnost P (A), kterou můžeme vyjádřit jako: P (A) = P{A n H{) + P (A n H2) + P (A n H3). Protože jevy H\, H2 a H3 jsou vzájemně neslučitelné, platí: P{A) = P(^) • P(A | H±) + P{H2) ■ P{A | H2) + P(H3) ■ P{A \ H3). Pravděpodobnost jevů 42 Dosadíme: P (A) = 0,3 x 0,1 + 0,25 x 0,05 + 0,45 x 0,2. Po výpočtu dostaneme: P (A) = 0,03 + 0,0125 + 0,09 = 0,1325. Pravděpodobnost, že zákazník má chybný účet, je tedy 0,1325. □ Bayesova věta Definice 2.24. Bayesova věta je užitečný nástroj v pravděpodobnostní teorii, který umožňuje přepočítat podmíněnou pravděpodobnost jevu za předpokladu, že máme dodatečnou informaci. Vychází z pravidla pro výpočet podmíněné pravděpodobnosti a umožňuje nám přepočítat pravděpodobnost příčiny za předpokladu, že známe důsledek. Matematicky je Bayesova věta vyjádřena následovně: kde P(Bi | A) je pravděpodobnost jevu Bi za předpokladu, že nastal jev A, P{A \ Bi) je podmíněná pravděpodobnost jevu A, pokud nastal jev Bi, a P{Bi) je pravděpodobnost jevu Bi. Jmenovatel představuje celkovou pravděpodobnost výskytu jevu A. Bayesova věta se často používá v situacích, kde potřebujeme zpětně upravit pravděpodobnost určité příčiny na základě nových pozorování. Příklad 2.25 (Bayesova věta). V obchodě jsou tři pokladny, přičemž pravděpodobnost chyby v účtování na pokladnách je následující: na první pokladně 0,1, na druhé 0,05 a na třetí 0,2. Pravděpodobnosti odbavení zákazníků jednotlivými pokladnami jsou 0,3, 0,25 a 0,45. Pokud dojde k chybě v účtování, jaká je pravděpodobnost, že k ní došlo na třetí pokladně? Řešení: Použijeme Bayesovu větu. Označme: • A — jev, že došlo k chybě, B3 — jev, že zákazník byl obsloužen na třetí pokladně. Chceme vypočítat P{B3 \ A), tedy pravděpodobnost, že chyba nastala na třetí pokladně za předpokladu, že chyba nastala. Podle Bayesovy věty: P(Bt | A) P(B3 | A) P(A | 5i) • P(B1) + P(A | B2) ■ P{B2) + P(A | B3) ■ P(B3)' 43 Základy statistiky Dosadíme známé hodnoty: r,/ r, I ,X 0>2 X 0>45 P(B3 A) = -----. v 1 ; 0,1 x 0,3 + 0,05 x 0,25 + 0,2 x 0,45 Vypočítáme: 0 09 0 09 P(B3 I A) =-^-= « 0,6792. v 31 ; 0,03 + 0,0125 + 0,09 0,1325 Výsledek: Pravděpodobnost, že chyba v účtování nastala na třetí pokladně, pokud víme, že chyba nastala, je přibližně 67,92%. □ Poznámka 2.26. Tento příklad ukazuje, jak Bayesova věta umožňuje přepočítat pravděpodobnost příčiny (pokladna, kde došlo k chybě) na základě nového důkazu (chyba v účtování). Pomocí známých pravděpodobností chyby na jednotlivých pokladnách a pravděpodobností odbavení zákazníků lze zpětně vypočítat pravděpodobnost, že chyba nastala právě na třetí pokladně. Příklad 2.27 (Pozitivní lékařský test). Prevalence výskytu AIDS v populaci je 0,6 %. Pro odhalení nemoci se používá test, který s pravděpodobností 99,9 % je pozitivní, je-li dotyčná osoba nakažená (tzv. senzitivita testu), a s pravděpodobností 99 % je negativní, je-li daná osoba zdravá (tzv. specificita testu). Jaká je pravděpodobnost, že osoba, která měla pozitivní test, má skutečně AIDS? Řešení: Tento příklad řešíme pomocí Bayesovy věty, která nám umožňuje spočítat zpětnou pravděpodobnost, že osoba, která měla pozitivní test, je skutečně nakažená. Označme: • P{A) - pravděpodobnost, že osoba má AIDS (prevalence v populaci): P(Á) = 0,006, • P{A) - pravděpodobnost, že osoba nemá AIDS: P(Á) = 1 — P(Á) = 0,994, ' P(T+\A) - pravděpodobnost pozitivního testu, pokud má osoba AIDS (senzitivita): P(T+\A) = 0,999, ' P(T+\A) - pravděpodobnost pozitivního testu, pokud osoba nemá AIDS (chybovost, tedy 1- specificita): P(T+\A) = 1 - 0,99 = 0,01. Bayesova věta nám umožňuje vypočítat pravděpodobnost, že osoba má AIDS za předpokladu, že měla pozitivní test, tedy P{A\T+). Tento vztah je dán vzorcem: v- pv*\A).pw P(T+\A) ■ P (A) + P(T+\A) ■ P (A)' Dosadíme hodnoty: P(A\TA 0,999 x 0,006 0,999 x 0,006 + 0,01 x 0,994 Vypočítáme jednotlivé členy: r,/íllm+, 0,005994 0,005994 P(AT+) =---=--« 0,376. v 1 ; 0,005994 + 0,00994 0,015934 Pravděpodobnost jevů 44 Odpověď: Pravděpodobnost, že osoba, která měla pozitivní test, skutečně má AIDS, je přibližně 37,6 %. □ 2.7 Opakované pokusy Definice 2.28. Opakované pokusy představují situace, kdy se experiment, při kterém sledujeme určitý jev, opakuje vícekrát za stejných podmínek. Při takových pokusech nás zajímá, jak se chovají pravděpodobnosti jednotlivých jevů v závislosti na počtu pokusů. 2.7.1 Nezávislé pokusy Definice 2.29. Nezávislé opakované pokusy jsou takové, kde výsledek jednoho pokusu nemá žádný vliv na výsledky dalších pokusů. To znamená, že pravděpodobnost daného jevu zůstává ve všech pokusech stejná. Klasickým příkladem je opakovaný hod mincí, kde pravděpodobnost líce či rubu zůstává konstantní. Nezávislé pokusy se často vyskytují v hazardních hrách (např. opakované hody kostkou, losování v loterii) nebo v testech spolehlivosti výrobků, kde zkoušíme nezávislé vzorky na stejné podmínky. Pokud máme například n nezávislých pokusů s pravděpodobností úspěchu p, celková pravděpodobnost, že jev nastane přesně A;-krát, je dána binomickým rozdělením. Definice 2.30 (Bernoulliho schéma). Mějme posloupnost n pokusů. V každém dílčím pokuse může nastat jev A (úspěch) děpodobnost, že nastalo právě k úspěchů, je rovna: nezávislých dichotomických s pravděpodobností p. Prav- P(Ak)=(^jpkqn-k, k = 0,1,2,... ,n, kde q = 1 — p je pravděpodobnost neúspěchu. Nejpravděpodobnější počet úspěchů Nejpravděpodobnější počet úspěchů k je takový, že splňuje nerovnici: p ■ (n + 1) — 1 < k < p ■ (n + 1). Příklad 2.31. Házíme šestkrát kostkou. Vypočtěte pravděpodobnost, že z těchto šesti hodů padne šestka právě dvakrát. Řešení: Tato úloha spadá do oblasti binomického rozdělení. Označme: 45 Základy statistiky • p = \'- pravděpodobnost, že padne šestka při jednom hodu, • k = 2: počet úspěchů (padnutí šestky), • n = 6: počet pokusů. Pravděpodobnost P (k), že padne šestka právě dvakrát, je dána vzorcem pro binomické rozdělení: Dosadíme: ^ - (5 G)'■(!)'• Po výpočtu dostaneme: 1 625 P(2) = 15----« 0,0729. v ; 36 1296 Pravděpodobnost, že z šesti hodů padne šestka právě dvakrát, je přibližně 0,0729. □ Příklad 2.32. Sportovní střelec zasáhne cíl při každém výstřelu s pravděpodobností p = 0,8. Vypočtěte pravděpodobnost, že při 5 výstřelech budou v cíli: 1. právě 2 zásahy, 2. nejvýše jeden zásah, 3. alespoň 2 zásahy. Řešení: 1. Pravděpodobnost právě 2 zásahů: P{X = 2)=(^.p*.{l-pf-\ P(X = 2)= Q • (0,8)2 • (0,2)3 5-4 = — • 0,64 • 0,008 = 10-0,64-0,008 = 0,0512. Odpověď: Pravděpodobnost právě 2 zasahuje 0,0512. 2. Pravděpodobnost nejvýše jednoho zásahu: P(X < 1) = P(X = 0) + P(X = 1), P(X = 0) = Q • (0,8)° • (0,2)5 = 1 • 1 • 0,00032 = 0,00032, P(X = 1) = r J • (O^)1 • (0,2)4 = 5 • 0,8 • 0,0016 = 0,0064, P(X < 1) = 0,00032 + 0,0064 = 0,00672. Odpověď: Pravděpodobnost nejvýše jednoho zásahu je 0,00672. Pravděpodobnost jevů 46 3. Pravděpodobnost alespoň dvou zásahů: P(X > 2) = 1 - P(X < 1), P(X > 2) = 1 - 0,00672 = 0,99328. Odpověď: Pravděpodobnost alespoň dvou zásahů je 0,99328. □ Příklad 2.33. Pravděpodobnost, že náhodně vybraný student bude znát učivo, je 0,05. Jaká je pravděpodobnost, že mezi dvaceti vybranými studenty bude: a) právě 5 znalých studentů, • b) nejvýše 2 znalí studenti, • c) alespoň jeden znalý student? Řešení: Tato úloha opět spadá do oblasti binomického rozdělení. Označme: • p = 0,05: pravděpodobnost, že náhodně vybraný student zná učivo, • n = 20: počet pokusů (studentů). a) Pravděpodobnost, že mezi 20 studenty bude právě 5 znalých: P(5) = í25°) ■ (0.05)5 ■ (0.95)15, m = mwhy. ' <°-05>5' (°-95)15- P(5) = 15504 • 0,0000003125 • 0,46329 = 0,00225. Pravděpodobnost, že mezi 20 studenty bude právě 5 znalých, je 0,00225. b) Pravděpodobnost, že mezi 20 studenty budou nejvýše 2 znalí: P(nejvýše 2) = P(0) + P(l) + P(2), P(0) = ^ • (0,05)° • (0,95)20 = 1 • 1 • (0,95)20 = 0,35849, P(l) = ^ . (C05)1 • (0,95)19 = 20 • 0,05 • 0,37735 = 0,37735, (20\ 20 19 j • (0,05)2 • (0,95)18 = ■ 0,0025 • 0,39759 = 0,18846, P(nejvýše 2) = 0,35849 + 0,37735 + 0,18846 = 0,9243. Pravděpodobnost, že mezi 20 studenty budou nejvýše 2 znalí, je 0,9243. c) Pravděpodobnost, že mezi 20 studenty bude alespoň jeden znalý: P(alespoň 1) = 1 - P(0), P(alespoň 1) = 1 - 0,35849 = 0,64151. Pravděpodobnost, že mezi 20 studenty bude alespoň jeden znalý, je 0,64151. □ 47 Základy statistiky 2.7.2 Závislé pokusy Definice 2.34. Závislé opakované pokusy jsou takové, kde výsledek jednoho pokusu ovlivňuje pravděpodobnost výsledku dalších pokusů. To znamená, že pravděpodobnosti se mohou měnit v závislosti na předchozích výsledcích. Příkladem může být výběr kuliček z urny bez vrácení, kde po každém výběru se mění počet kuliček a tím i pravděpodobnosti jednotlivých výsledků. Takové situace často nastávají v situacích, kde dochází k postupnému výběru bez nahrazování, například při losování cen, kontrolách kvality, či simulacích, kde jsou výsledky závislé na předchozích výběrech. V těchto situacích je důležité brát v úvahu změny v prostoru možných výsledků při každém dalším pokusu. Definice 2.35 (Výběr bez vracení). Mějme soubor N prvků, z nichž M má sledovanou vlastnost. Postupně vybereme bez vracení n prvků. Pravděpodobnost, že vybereme k prvků, které mají sledovanou vlastnost, je rovna: M\ (N-M N P{Ak)= Kk)}:i-k\ k = 0,l,...,n. Příklad 2.36. V osudí jsou 2 bílé a 3 černé koule. Vypočtěte pravděpodobnost toho, že: • a) vytáhneme naráz 3 koule a budou 2 černé a 1 bílá, • b) vytáhneme po jedné bez vracení 2 černé a 1 bílou. Řešení: ad a) Pravděpodobnost vytáhnutí 2 černých a 1 bílé koule: Použijeme kombinace: „ 6) x (?) 3x2 6 P = w ^ w = - = _ = 0,6. 10 10 ad b) Pravděpodobnost, že vytáhneme po jedné bez vracení 2 černé a 1 bílou v pořadí ČBČ: Možnosti jsou následující: ČBČ, ČČB, • BČČ. Každá z těchto možností má stejnou pravděpodobnost: Pravděpodobnost jevů 48 3 2 2 1 Celková pravděpodobnost pro všechny tři možnosti je: P 0,6. □ Příklad 2.37. Mezi 15 výrobky je 5 zmetků. Vybereme 3 výrobky. Jaká je pravděpodobnost, že jeden z nich je vadný, jestliže: a) vybereme všechny 3 najednou, • b) vybíráme po jednom bez vracení. Řešení: ad a) Pravděpodobnost, že 1 z 3 vybraných výrobků je vadný: Použijeme kombinace: ad b) Pravděpodobnost, že při postupném vybírání (bez vracení) bude 1 z 3 vybraných výrobků vadný: Možnosti jsou následující: P VDD DVD, DDV. Každá z těchto možností má vlastní pravděpodobnost: a podobně pro další dvě možnosti. Celková pravděpodobnost: P = P(VDD) + P(DVD) + P(DDV). □ 49 Základy statistiky 2.8 Souhrnné příklady Příklad 2.38. Mějme pět vstupenek po 100 Kč, tři vstupenky po 300 Kč a dvě vstupenky po 500 Kč. Vyberme náhodně tři vstupenky. Určete pravděpodobnost toho, že: • a) alespoň dvě z těchto vstupenek mají stejnou hodnotu, • b) všechny tři vstupenky stojí dohromady 700 Kč. Řešení: ad a) Budeme řešit pomocí opačného jevu. Opačný jev k „alespoň dvě mají stejnou hodnotu" je „každá má jinou hodnotu". Počet možností, jak vybrat tři vstupenky s různými hodnotami, je: (?) x (?) x fi) P(žádné stejné hodnoty) = —--^4-—. U J Pravděpodobnost opačného jevu: P(alespoň dvě stejné hodnoty) = 1 — P(žádné stejné hodnoty), ad b) Všechny tři vstupenky stojí dohromady 700 Kč. To může nastat v následujících případech: 1. Jedna vstupenka za 100 Kč a dvě vstupenky po 300 Kč. 2. Dvě vstupenky po 100 Kč a jedna za 500 Kč. Pravděpodobnost je dána součtem pravděpodobností těchto dvou případů: P (celkem 700 Kč) = 9 - 9 . 9 - ? 10 \ (10 □ Příklad 2.39. Z celkové produkce závodu jsou 4 % zmetků a z dobrých výrobků je 75 % standardních. Určete pravděpodobnost, že náhodně vybraný výrobek je standardní. Řešení: Označme: • A: vybraný výrobek není zmetek, • B: vybraný výrobek je standardní. Víme, že: P(A) = 1 - 0,04 = 0,96, P(B | A) = 0,75. Hledaná pravděpodobnost je: P(A n B) = P(A) x P(B | A) = 0,96 x 0,75 = 0,72. Pravděpodobnost, že náhodně vybraný výrobek je standardní, je tedy 0,72. □ Pravděpodobnost jevů 50 Příklad 2.40. Z výrobků určitého druhu dosahuje 95 % předepsanou kvalitu. V určitém závodě, který vyrábí 80 % celkové produkce, má předepsanou kvalitu 98 % výrobků. Mějme náhodně vybraný výrobek předepsané kvality. Jaká je pravděpodobnost, že byl vyroben ve výše uvedeném závodě? Řešení: Označme: • A: výrobek je vyroben ve zmíněném závodě, • B: výrobek je předepsané kvality. Hledáme P(A \ B). Použijeme Bayesovu větu: P(B | A) x P (A) P (A | B) Víme, že: P(B) P (A) = 0,8, P(B | A) = 0,98. Dále musíme spočítat P(B), tedy pravděpodobnost, že výrobek je předepsané kvality: P{B) = P(B | A) x P (A) + P(B | Ä) x P(Ä), kde P(Ä) = 0,2 a P(B | ~Á) = 0,95. Dosadíme: P(B) = 0,98 x 0,8 + 0,95 x 0,2 = 0,784 + 0,19 = 0,974. Hledaná pravděpodobnost je tedy: = 0.98x0.8 v 1 ; 0,974 Pravděpodobnost, že výrobek předepsané kvality pochází ze zmíněného závodu, je přibližně 0,805. □ OV této kapitole jsme se seznámili se základními principy pravděpodobnosti a jejími aplikacemi na různé typy jevů. Hlavními pojmy, které jsme probírali, jsou: ' Náhodný pokus - Proces, jehož výsledek závisí na náhodě a nelze jej jednoznačně předpovědět. Například hod kostkou nebo slosování. ' Náhodný jev - Každý výsledek nebo skupina výsledků náhodného pokusu. Může jít o jednoduché jevy, jako například padnutí konkrétního čísla při hodu kostkou, nebo složené jevy, které zahrnují více možností. • Klasická pravděpodobnost - Pravděpodobnost daného jevu se definuje jako podíl počtu příznivých případů k celkovému počtu možných případů, pokud jsou všechny stejně pravděpodobné. Například pravděpodobnost, že při hodu kostkou padne šestka, je \- 51 Základy statistiky Geometrická pravděpodobnost - Používá se v situacích, kdy náhodný pokus závisí na kontinuu (např. délka, plocha, objem). Pravděpodobnost se určuje jako poměr dvou délek, ploch nebo objemů. ' Podmíněná pravděpodobnost - Pravděpodobnost výskytu jevu za předpokladu, že jiný jev již nastal. Tento koncept se často používá v situacích, kdy výsledky jsou závislé na určitých podmínkách. ' Nezávislost jevů - Dva jevy jsou nezávislé, pokud výskyt jednoho jevu neovlivňuje pravděpodobnost výskytu druhého jevu. Úplná pravděpodobnost a Bayesova věta - Umožňují vypočítat pravděpodobnost jevů v situacích, kdy máme více možných scénářů a potřebujeme vzít v úvahu všechny možné cesty vedoucí k danému výsledku. Kapitola zahrnovala také praktické příklady, kde jsme aplikovali výše uvedené koncepty. Naučili jsme se, jak řešit složitější problémy s využitím Bayesovy věty a podmíněné pravděpodobnosti. Tato kapitola poskytla důkladný úvod do teorie pravděpodobnosti a jejího praktického využití. 1. Máme 230 výrobků, mezi nimiž je 20 nekvalitních. Vybereme 15 výrobků, přičemž vybrané výrobky nevracíme zpět. Jaká je pravděpodobnost, že mezi 15 vybranými bude 10 dobrých? [0,00448] 2. Pacient se léčí doma a od 7 do 20 hod. je možné jej kontrolovat. Vycházky má od 13 do 15 hod. Jaká je pravděpodobnost, že mezi 7. a 20. hodinou bude doma k zastižení? [11/13] 3. Dva sportovní střelci nezávisle na sobě střílejí do jednoho terče. Každý po jednom výstřelu. Pravděpodobnost zásahu prvního střelce je 0,8, druhého 0,4. Při střelbě byl v terči jeden zásah. Jaká je pravděpodobnost, že terč zasáhl první střelec? [0,857] 4. Pravděpodobnost výhry hráče je 0,6. Určete, jaký je nejpravděpodobnější počet výher hráče v deseti odehraných partiích. [6] 5. Sérii 100 ks výrobků je třeba zkontrolovat náhodným výběrem. Celá je považována za špatnou, je-li aspoň jeden z pěti vybraných výrobků vadný. Vypočtěte pravděpodobnost, že série je špatná, víme-li, že obsahuje 5 % vadných výrobků. [0,226] 6. V telefonním seznamu náhodně vybereme jedno šestimístné číslo (může začínat nulou) a předpokládáme, že v seznamu jsou použita všechna šestimístná čísla. Jaká je pravděpodobnost, že číslo: a. neobsahuje 0? [0,53144] b. obsahuje jednu 3? [0,4686] e Literatura k tématu: [1] OTIPKA, P., ŠMAJSTRLA, V. Pravděpodobnost a statistika [online]. 1. vydání. Ostrava: VŠB-TU Ostrava, 2007 [cit. 2024-09-09]. ISBN 80-248-1194-4. Dostupné z: https://homel.vsb.cz/~oti73/cdpastl/ Pravděpodobnost jevů 52 [2] CALDA, E., DUPAČ, V. (2008). Matematika pro gymnázia: Kombinatorika, pravděpodobnost, statistika (5. vydání, dotisk 2011). Praha: Prométheus. ISBN 978-80-7196-365-3. [3] ZVÁRA, K. a ŠTĚPÁN, J. Pravděpodobnost a matematická statistika. Matfyzpress, 2019. ISBN 978-80-7378-388-4. Kapitola 3 Náhodná veličina Po prostudování této kapitoly budete umět: > rozlišovat mezi diskrétními a spojitými náhodnými veličinami a jejich pravděpodobnostními funkcemi, vypočítat střední hodnotu, rozptyl a směrodatnou odchylku pro různá rozdělení náhodných veličin, ' chápat význam distribuční funkce a umět ji interpretovat pro různé typy náhodných veličin, vytvořit pravděpodobnostní a distribuční funkci pro diskrétní a spojitou náhodnou veličinu a graficky je znázornit. Klíčová slova: Diskrétní rozdělení, spojité rozdělení, pravděpodobnostní funkce, distribuční funkce, hustota pravděpodobnosti, střední hodnota, rozptyl, šikmost a špičatost. Náhodná veličina 54 Náhled kapitoly Pro lepší pochopení toho, jak pravděpodobnost funguje, je důležité se seznámit s pojmy náhodného jevu a náhodné veličiny, které slouží k popisu náhodných procesů. Dále se podíváme, jak je možné pomocí rozdělení pravděpodobnosti určit pravděpodobnost výskytu různých hodnot náhodné veličiny v rámci určitého systému. Kapitola se zaměřuje na klíčové koncepty, jako jsou pravděpodobnostní rozdělení, diskrétní a spojité náhodné veličiny, a způsoby výpočtu střední hodnoty, rozptylu a směrodatné odchylky. Cíle kapitoly Cílem této kapitoly je zopakování (srovnání znalostí) základů teorie pravděpodobnosti a těch poznatků o náhodných veličinách a jejich rozděleních pravděpodobnosti, které budou potřeba v následujících kapitolách. Odhad času potřebného ke studiu Pro zvládnutí této kapitoly je doporučeno věnovat studiu přibližně 4 až 5 hodin. Tento čas zahrnuje čtení textu, pochopení základních pojmů a principů pravděpodobnosti, řešení příkladů a procvičení výpočtů základních pravděpodobnostních charakteristik. Náhodný jev a náhodná veličina Definice 3.1. Náhodný jev je událost, která může, ale nemusí nastat v rámci nějakého pokusu nebo procesu. Můžeme si ho představit jako výsledek experimentu, který závisí na náhodě. Pravděpodobnost je míra, která kvantifikuje možnost, že k danému náhodnému jevu dojde, a pohybuje se v rozmezí od 0 (jevu nelze dosáhnout) do 1 (jev nastane s jistotou). Například pravděpodobnost, že při hodu kostkou padne číslo 6, je |, protože existuje 6 možných výsledků a každý má stejnou šanci nastat. Definice 3.2. Náhodná veličina je proměnná, která může nabývat různých (reálných) hodnot v závislosti na výsledku náhodného pokusu. Například při hodu kostkou může náhodná veličina X představující výsledek hodu nabývat hodnot 1,2,3,4,5 nebo 6. Každý z těchto výsledků je výsledek náhodného procesu. Náhodné veličiny, které mohou nabývat různých hodnot v závislosti na výsledku náhodného jevu, se používají k popisu výsledků náhodných procesů. 55 Základy statistiky Příklady náhodných veličin mohou být: • Počet lvů při deseti hodech mincí. ' Počet zákazníků, kteří navštíví obchod v určitém dni. Výška náhodně vybraného člověka z populace. ' Doba, za kterou přijede autobus na zastávku. Výsledek hodu dvěma kostkami (součet bodů). ' Počet vadných kusů ve výrobní sérii 100 produktů. Tyto příklady ukazují různé typy náhodných veličin - některé jsou diskrétní (počet hlav, počet zákazníků), jiné spojité (výška člověka, čas čekání). Rozdělení pravděpodobnosti Rozdělení pravděpodobnosti popisuje, jak jsou pravděpodobnosti jednotlivých možných výsledků náhodné veličiny rozloženy. Například u hodu (férovou) kostkou mají všechny výsledky (hodnoty 1 až 6) stejnou pravděpodobnost, tedy |. V praxi však ne vždy všechny výsledky mají stejnou pravděpodobnost. Rozdělení pravděpodobnosti tedy udává, s jakou pravděpodobností různé hodnoty náhodné veličiny nastanou. Rozdělení pravděpodobnosti nám tedy poskytuje obraz o tom, jak často můžeme očekávat jednotlivé výsledky náhodného pokusu. V závislosti na typu náhodné veličiny rozlišujeme dvě hlavní kategorie: diskrétní a spojité náhodné veličiny. 3.1 Rozdělení pravděpodobnosti diskrétní náhodné veličiny Diskrétní náhodná veličina nabývá pouze konečného nebo spočetně nekonečného množství možných hodnot. Příkladem diskrétní náhodné veličiny je počet vadných výrobků v sérii nebo počet zákazníků přicházejících do obchodu za jeden den. Diskrétní náhodná veličina je jednoznačně určena posloupností reálných čísel {xn} a posloupností pravděpodobností {pn = P(X = xn)}. Příklad 3.3. Diskrétní náhodná veličina X nabývá hodnot M = {1,2,4,5} s pravděpodobnostmi p (k) = P[X = k], kde 1111 = g, P(2) = 4> M4) = jj, P(5) = 4 a p(x) = 0 Jinak- Náhodná veličina 56 i - Zapisujeme také pomocí tabulky či obrázku: S 1/3 — k 1 2 4 5 P (X = k) i 3 i 4 i 6 i 4 0 12 3 4 5 _x_ Definice 3.4. Diskrétní náhodné veličiny mají svou pravděpodobnostní funkci, která přiřazuje každé hodnotě náhodné veličiny určitou pravděpodobnost P{X = x,j) = pi} i = 1,... ,m, kde Xi je možná hodnota diskrétní náhodné veličiny X, a Pí je pravděpodobnost, že X nabude hodnoty Xi. Vlastnosti pravděpodobnostní funkce: • p{x) > 0 Mx E IR, xeM Výpočet pravděpodobnosti (jevu B) P(XeB)= J2 P(x = xn)= J2 pM n:x„eBnM n:x„eBnM (součet pravděpodobností všech čísel/výsledků, která patří do B; jelikož nenulové pravděpodobnosti jsou jen v M, tak proto B fl M.) Definice 3.5 (Distribuční funkce). Distribuční funkce náhodné veličiny X je reálná funkce F : IR —y (0; 1) definovaná vztahem F(x) = P(X 5. F(rc) i 3 x 12 3 4 Nej názornější stejně budou grafy na obrázku 1. 1/3 — 1/4 — 1/6 — Obr. 1: Pravděpodobnostní a distribuční funkce k příkladu 3.6 □ Z příkladu 3.6 sice můžeme odpozorovat některé vlasnosti distribuční funkce, ale raději si je zde vypíšeme: Náhodná veličina 58 Vlastnosti distribuční funkce: . F(x) e (0,1), • -F je neklesající, • -F je zprava spojitá, • -F je definovaná na IR, • lim F (x) = 0, lim F (x) = 1, x^—oo x^oo • P(X = x q) = F (x q) — lim F (x) (výška skoku v bodě xq). Příklad 3.7. V osudí je 5 bílých a 7 červených míčků. Náhodná veličina X představuje počet bílých míčků mezi pěti vybranými. Vytvořte pravděpodobnostní a distribuční funkci této náhodné veličiny. Řešení: Náhodná veličina X nabývá hodnot {0,1,2,3,4,5}. Z teorie pravděpodobnosti víme, že se jedná o opakované závislé pokusy. Můžeme tedy sestavit pravděpodobnostní funkci pro jednotlivé hodnoty X: P(X = x) = Na základě této funkce vytvoříme tabulku pravděpodobností: 0 1 2 3 4 5 Pi 21 792 175 792 350 792 210 792 35 792 1 792 Pravděpodobnostní funkce může být graficky znázorněna pomocí bodového grafu, úsečkového diagramu nebo histogramu. Distribuční funkce F(x) bude mít skoky v bodech 0,1,2,3,4,5. Hodnoty funkce F(x) jsou určeny jako součet všech předcházejících hodnot pf. F(xí) = P(X < Xi). Tabulka pro distribuční funkci: 0 1 2 3 4 5 F(xí) 21 792 196 792 546 792 756 792 791 792 792 792 59 Základy statistiky Graf distribuční funkce může být znázorněn jako spojitý schodovitý diagram. □ 3.2 Rozdělení pravděpodobnosti spojité náhodné veličiny Spojitá náhodná veličina nabývá hodnot z nějakého intervalu reálných čísel. Příkladem může být výška náhodně vybraného člověka nebo doba, kterou zákazník stráví v obchodě. Spojité náhodné veličiny nemají konkrétní pravděpodobnosti pro jednotlivé hodnoty (pravděpodobnostní funkci), ale místo toho pracují s tzv. hustotou pravděpodobnosti, která určuje pravděpodobnost, že náhodná veličina nabyde hodnoty z určitého intervalu. Definice 3.8. Náhodná veličina X s distribuční funkcí F se nazývá spojitá, jestliže existuje nezáporná funkce /: IR —> IR taková, že Funkce f(x) se nazývá hustota (rozdělení pravděpodobností) náhodné veličiny X. Vlastnosti hustoty: f(x) > 0 oo f(t) dt = 1 =>• plocha pod křivkou hustoty vyjadřuje pravděpodobnost — oo f(x) = F'{x) v každém bodě x, kde F' existuje, P(a < X < b) = F(b) - F(á) P (a < X < b) = P (a < X < b) = P (a < X < b) = P (a < X < b) Výpočet pravděpodobností pomocí F(x) a f(x) na nekonečném intervalu: Toto je znázorněno na obrázku 2. Náhodná veličina 60 Obr. 2: Výpočet pravděpodobností na nekonečném intervalu Výpočet pravděpodobností pomocí F (x) a f (x) na konečném intervalu: P(-2 < e < 0) = P(0) - P(-2) = /° /(í) dŕ. Toto je znázorněno na obrázku 3. Obr. 3: Výpočet pravděpodobností na konečném intervalu Příklad 3.9. Náhodná veličina X je dána distribuční funkcí: Í0, x<0, F (x) = j t> 0 < x < 4, [l, x > 4. Určete hustotu pravděpodobnosti f (x), znázorněte graficky F (x) a f (x), a vypočtěte P(0,4 < X < 1,6). 61 Základy statistiky Řešení: Hustotu pravděpodobnosti f(x) získáme derivací distribuční funkce F(x): '0, x < 0, /(*)HŽ(t) = !> 0 4. Graf distribuční funkce F(x) a hustoty pravděpodobnosti /(rr) je následující: > Distribuční funkce F(x): Kvadratický nárůst od 0 do 1 v intervalu 0 < x < 4. • Hustota pravděpodobnosti f(x): Lineární funkce | v intervalu 0 < x < 4. Pravděpodobnost P(0,4 < X < 1,6) vypočítáme jako: p,o,4 < x < «) = Fm - Fm = ílf _ M!. !|5 _ M = M = 0.6. □ Příklad 3.10. Hustota pravděpodobnosti náhodné veličiny X má tvar: a ■ x, 0 < x < 2, 0, jinak. /(*) Určete koeficient a, distribuční funkci F(x) a vypočtěte P(0 < X < 1). Řešení: Nejdříve určíme koeficient a. Platí, že integrál hustoty pravděpodobnosti přes celý definiční obor musí být roven 1: 2 a ■ x dx = 1. o ŕ , x2 2 4 / xdx = a • = a - = 2a k y 0 2 Po integraci dostáváme: Z toho plyne, že 2a = 1, tedy a = |. Distribuční funkci P(rr) získáme integrací hustoty pravděpodobnosti: Í0, x<0, [l, x>2. Nyní vypočítáme pravděpodobnost P(0 < X < 1): l2 1 P(0 < X < 1) = P(l) - P(0) = — - 0 = - = 0,25. □ Příklad 3.11. Určete konstanty A a, B tak, aby funkce F(x) = A + B ■ arctan(rr) definovaná pro všechna reálná čísla byla distribuční funkcí rozložení náhodné veličiny. Náhodná veličina 62 Řešení: Aby funkce F(x) byla distribuční funkcí, musí splňovat následující podmínky: 1. lim^-oo F(x) = 0, 2. lim^oo F(x) = 1. Z první podmínky plyne: lim (A + B ■ arctan(rr)) = A + B ■ (--) =0. Z toho vyplývá, ze A = Z druhé podmínky plyne: lim (A + B ■ arctan(rr)) = A + B ■ - = 1. Dosazením A = -^r dostáváme: -+ B-- = 1 => Bn = l 5 = -. 2 2 7T Tedy A=\. Distribuční funkce má tedy tvar: 1 1 = —|— • arctan(rr). 2 7T □ 3.3 Číselné charakteristiky náhodné veličiny Střední hodnota, rozptyl a směrodatná odchylka jsou klíčové charakteristiky, které popisují rozdělení náhodné veličiny. Střední hodnota Definice 3.12. Střední hodnota (očekávaná hodnota) diskrétní náhodné veličiny X se počítá jako vážený průměr všech možných hodnot náhodné veličiny: E(X) =J2^-P(X = Xi) = i i 63 Základy statistiky Definice 3.13. Střední hodnota spojité náhodné veličiny X je definována jako integrál z hodnot náhodné veličiny vážených hustotou pravděpodobnosti: E(X) = x- f(x) dx. Rozptyl Definice 3.14. Rozptyl diskrétní náhodné veličiny měří, jak jsou jednotlivé hodnoty rozloženy kolem střední hodnoty: D(X) = Var(X) = - E{X)f ■ P(X = Xi) = - E{X)f ■ Pi. Definice 3.15. Rozptyl spojité náhodné veličiny je definován jako: D{X) = Var(X) = / (x - E{X)f ■ f(x) dx = E{X2) - [E{X)f. Směrodatná odchylka Směrodatná odchylka nám poskytuje měřítko, jak daleko jsou hodnoty náhodné veličiny od její střední hodnoty. Koeficient šikmosti a špičatosti Koeficienty šikmosti a špičatosti popisují tvar křivky hustoty nebo pravděpodobnostní funkce. Definice 3.17 (Koeficient šikmosti náhodné veličiny X). E[{X-E{X)f] 7i = (\D(X)f • 7i = 0: rozdělení je symetrické, ■ 7i > 0: rozdělení je protáhlé napravo (např. mzdy), Náhodná veličina 64 • 71 < 0: rozdělení je protáhlé nalevo. Vztah mezi koeficientem šikmosti, střední hodnotou, mediánem a modem: 7i = 0:£(X)=x0,5 = MO(l), 7i < 0 : E{X) < x0:5 < Mo(X), 7i > 0 : Mo(X) < rr0,5 < E(X). Definice 3.18 (Koeficient špičatosti náhodné veličiny X). E [(X - E{X)Y] 72 =-,--3. {JĎ(x)y „Měří" stupeň koncentrace hodnot okolo středu ve srovnání s ostatními hodnotami, veličina s nízkým koeficientem špičatosti (72 < 0) obsahuje hodnoty velmi vzdálené od středu, ' čím špičatější rozdělení (72 > 0), tím více jsou hodnoty soustředěné okolo středu. Modus Definice 3.19. Modus (nejčastější hodnota) je hodnota náhodné veličiny, která má nej-vyšší pravděpodobnost výskytu. U diskrétní náhodné veličiny je to hodnota x, pro kterou P{X = x) dosahuje maxima. U spojité náhodné veličiny je to hodnota, kde hustota pravděpodobnosti f(x) dosahuje svého vrcholu. Příklad 3.20. Náhodná veličina X je dána tabulkou: 1 2 3 4 Pí 0,3 0,1 0,4 ? Určete její číselné charakteristiky. Řešení: Nejprve zjistíme chybějící hodnotu pravděpodobnosti p^. p4 = 1- (p1+p2+P3) = 1- (0,3 + 0,1 + 0,4) = 0,2. Nyní vypočítáme jednotlivé číselné charakteristiky. Použijeme následující tabulku: 65 Základy statistiky 1 2 3 4 E Pi 0,3 0,1 0,4 0,2 - •E i ' Pi 0,3 0,2 1,2 0,8 2,5 x2 ■ Pi 0,3 0,4 3,6 3,2 7,5 X3 - pi 0,3 0,8 10,8 12,8 24,7 xj-pi 0,3 1,6 32,4 51,2 85,5 Střední hodnota (průměr): E (X) = 2,5 Rozptyl: D(X) = 7,5 - (2,5)2 = 7,5 - 6,25 = 1,25 Směrodatná odchylka: cr(X) = -y/1,25 ~ 1,11í □ 2x, 0 < x < 1, 0, jinak. Příklad 3.21. Náhodná veličina X má hustotu pravděpodobnosti: /(*) Určete její číselné charakteristiky. Řešení: Nejprve definujeme jednotlivé momenty: = f xk-f(x)dx = 2Í xk+1 dx. Jo Jo Výpočet jednotlivých momentů: 1. První moment fiľ = E (X) (střední hodnota): Hi = 2 / x dx = 2 Jo 2. 2. Druhý moment fi2 (očekávaná hodnota X2): /i2 = 2 x3 dx = 2 Jo 3. 3. Třetí moment /X3 (očekávaná hodnota X3): //3 = 2 / x dx = 2 Jo 4. 4. Čtvrtý moment /x4 (očekávaná hodnota X4): /X4 = 2 / x dx = 2 Jo X y X T X ~5 x ~6 2 3' 1 2' 2 5' 1 3' Náhodná veličina 66 Výpočet rozptylu D (X): Rozptyl se vypočítá jako: r./,^ / x2 1 /2\2 1 4 9 8 1 D (X) = u2- (Ui) = - - - =---=---= - v ; p VP ; 2 V3/ 2 9 18 18 lí Výpočet šikmosti 7^ Sikmost (asymetrie) se vypočítá jako: /x3 - 3/xi • -D (X) - //? 7i (D(V))3/2 Dosadíme hodnoty: Po zjednodušení: 2 _ Q . 2 . J_ _ f2\3 2 2 8 = 5 ° 3 18 = 5 ~ 9 ~ 27 '! 'j\3/2 /j_\3/2 18/ V 18 54_ _ _60_ __6_ fi 270 270 _ 270 _ 0 71 'j\3/2 1 18 J 54 Výpočet špičatosti 72: Špičatost (kurtóza) se vypočítá jako: A*4 3 3 324 18 Výsledné číselné charakteristiky jsou: Střední hodnota: E (X) = |, - Rozptyl: D(V) = i, Směrodatná odchylka: u {X) = ^7= Sikmost: 7X = — |, Špičatost: 72 = 108. □ 67 Základy statistiky 3.4 Kvantilové charakteristiky náhodné veličiny Kvantily spojitých rozdělení Definice Definice 3.22. Kvantil spojitého rozdělení je hodnota (viz obrázek 4), která rozděluje oblast pod hustotou pravděpodobnosti na dvě části. Pro p-kvantil xp platí, že plocha pod křivkou hustoty vlevo od xp je rovna p, tj. P(X < Xp) = F(xp) = / f{x) dx = p, J — oo kde p e (0,1). Obr. 4: Znázornění hustoty a p-kvantilu xp pro spojité rozdělení pravděpodobnosti (viz definici 3.22) Speciální kvantily: ' Medián (2:0,5) Je 50%-kvantil. Rozděluje rozdělení na dvě stejné části - jedna polovina hodnot leží pod mediánem, druhá polovina nad ním. ' Kvartily jsou kvantily, které rozdělují data na čtvrtiny. První kvartil (Q±) je 25%-kvantil, druhý kvartil je medián (Q2) a třetí kvartil (Q3) je 75%-kvantil. ' Decily rozdělují rozdělení na desetiny. Například první decil (Di) je 10%-kvantil, pátý decil (-D5) odpovídá mediánu, a devátý decil (-Dg) je 90%-kvantil. ' Percentily rozdělují rozdělení na 100 částí. Například první percentil (Px) je 1%-kvantil, padesátý percentil (P50) odpovídá mediánu a devadesátý devátý percentil (P99) je 99%-kvantil. Náhodná veličina 68 Další běžně používané kvantily mohou zahrnovat tercily (dělí rozdělení na třetiny) a kvintily (dělí rozdělení na pětiny). Speciálním případem kvantilu je kritická hodnota, používaná při statistických testech. Ta označuje mezní hodnotu, která odděluje zamítnutí a nezamítnutí nulové hypotézy (viz kapitolu Testování statistických hypotéz). Určování kvantilů Kvantily se určují z tabulek nebo se pohodlně počítají pomocí softwaru. My budeme většinou používat excelovské funkce, jako jsou: pro normální rozdělení funkce NORM. INV(p; fi; a), pro Studentovo rozdělení funkce T.INV(p; v) a pro F-rozdělení funkce F. INV(p; v\\ u2) ■ Všechny mají v názvu INV. Tím se poukazuje na to, že jde vlastně o inverzní funkci k distribuční funkci daného rozdělení: F(xp) = p -<=^ F~1(p) = xp, tedy zatímco F k zadané hodnotě xp na ose x vypočte pravděpodobnost p, tak F~ľ (tedy inverze k F) vypočte k zadané pravděpodobnosti p hodnotu kvantilu xp na ose x. Příklad 3.23. Určete první decil rro,i a třetí kvartil 2:0,75 Pro náhodnou veličinu X s hustotou pravděpodobnosti: /(*) i, 0 < x < 1, 0, jinak. Řešení: Hustota pravděpodobnosti f(x) je konstantní v intervalu 0 < x < 1. Distribuční funkce F{x) je určena jako integrál hustoty: Í0, x<0, F(x) = h, 0 < x < 1, [l, x > 1. Decil £0,1 je hodnota, pro kterou platí F(xq^) = 0,1. Hledáme tedy: í|i = 0,1 x0,! = 0,2. Třetí kvartil x0j5 je hodnota, pro kterou platí -^(^0,75) = 0,75: íH2p = 0,75 x0J5 = 1,5. Výsledné hodnoty jsou: První decil: rr0ii = 0,2 69 Základy statistiky • Třetí kvartil: x0j5 = 1,5 □ Příklad 3.24. Náhodná veličina X má hustotu pravděpodobnosti: Určete modus. \x2e x, 0 < x < oo, 0, jinak. Řešení: Modus je hodnota, ve které hustota pravděpodobnosti f(x) dosahuje svého maxima. Nejprve spočítáme první derivaci funkce f(x): f'(x) = - ■ (2xe-x - x2e-x) = -xe~x • (2 - x). 2 Poté položíme derivaci rovnu nule: ^xe~x ■ (2 - x) = 0. Tato rovnice má dvě řešení: x = 0 nebo x = 2. Jelikož x = 0 není v definičním oboru, jedná se o maximum v bodě x = 2. Ověříme, že se skutečně jedná o maximum tím, že vypočítáme druhou derivaci: f"{x)=l-e-x.[{2-x)-x] = -l-e-x. Protože druhá derivace je záporná pro x = 2, jedná se o maximum. Výsledný modus je Mo = 2. □ OTato kapitola se zaměřuje na náhodné veličiny a jejich základní charakteristiky. Náhodné veličiny jsou proměnné, které nabývají různých hodnot v závislosti na výsledku náhodného pokusu. Vysvětluje rozdíl mezi diskrétními a spojitými náhodnými veličinami, jejich pravděpodobnostními funkcemi a distribučními funkcemi. Hlavními charakteristikami náhodných veličin jsou střední hodnota a rozptyl, které poskytují informace o průměrné hodnotě veličiny a o tom, jak moc se jednotlivé hodnoty od této průměrné hodnoty odchylují. V kapitole jsou vysvětleny i další charakteristiky, jako šikmost a špičatost, které popisují asymetrii a tvar rozdělení. Pro diskrétní náhodné veličiny jsou uvedeny postupy výpočtu střední hodnoty a rozptylu na základě pravděpodobností jednotlivých hodnot. U spojitých náhodných veličin se používají integrály k určení těchto charakteristik. Kapitola se rovněž zabývá vztahem mezi pravděpodobnostní a distribuční funkcí, kdy distribuční funkce představuje kumulativní pravděpodobnost. Náhodná veličina 70 1. Co je to náhodná veličina? 2. Jaký je rozdíl mezi diskrétní a spojitou náhodnou veličinou? 3. Jakým způsobem se vyjadřuje pravděpodobnostní funkce pro diskrétní náhodnou veličinu? 4. Co je to distribuční funkce a jaký má význam? 5. Jak se počítá střední hodnota pro diskrétní náhodnou veličinu? 6. Jaký je vztah mezi pravděpodobnostní funkcí a distribuční funkcí? 7. Co je to rozptyl a jak se počítá pro náhodnou veličinu? 8. Jaký je význam charakteristik šikmosti a špičatosti pro popis náhodné veličiny? 9. Náhodná veličina X nabývá hodnot 1,2,3,4 s pravděpodobnostmi 0,1; 0,2; 0,3; 0,4. Vypočítejte střední hodnotu a rozptyl veličiny X. [Střední hodnota: 3,0; Rozptyl: 1,0] 10. Pro spojitou náhodnou veličinu X je dána hustota pravděpodobnosti f(x) = 2y2 pro y G [0,1]. Vypočítejte střední hodnotu a rozptyl této veličiny. [Střední hodnota: 0,5; Rozptyl: |] 11. Představte si hod kostkou, kde náhodná veličina X udává počet padlých bodů. Sestrojte pravděpodobnostní a distribuční funkci této náhodné veličiny. [Pravděpodobnostní funkce: P(X = k) = | pro k = 1,2, 3,4, 5, 6; Distribuční funkce: f{x) = 0 pro x < 1, f{x) = | pro k 6] 12. Hustota pravděpodobnosti náhodné veličiny X má tvar: (0, pro x < 1, x — \, pro 1 < x < 2, 0, pro x > 2. Určete distribuční funkci. [Distribuční funkce f(x) je dána: f(x) = 0 pro x < 1, f (x) = y - f pro 1 < x < 2, f (x) = 1 pro x > 2] 13. Náhodná veličina X je určena tabulkou: X -2 0 2 4 6 p 0,1 ? 0,2 0,3 0,2 ), distribuční fun íCÍ c Určete hodnotu pravděpodobnosti pro X jevu, že náhodná veličina nabude kladných hodnot. [Pravděpodobnost pro X = 0: 0,2; Pravděpodobnost kladných hodnot: 0,7] e Literatura k tématu: [1] HINDLS, R. Statistika pro ekonomy. 8. vyd. Praha: Professional Publishing, 2007. ISBN 978-80-869-4643-6. ISBN 978-80-867-3208-8. [2] MAREK, L. Statistika v příkladech. 2. vyd. Praha: Kamil Mařík - Professional Publishing, 2015. ISBN 978-80-743-1153-6. [3] OTIPKA, P., SMAJSTRLA, V. Pravděpodobnost a statistika [online]. 1. vydání. Ostrava: VŠB-TU Ostrava, 2007 [cit. 2024-09-09]. ISBN 80-248-1194-4. Dostupné z: https://homel.vsb.cz/~oti73/cdpastl/ [4] ZVÁRA, K. a ŠTĚPÁN, J. Pravděpodobnost a matematická statistika. Matfyzpress, 2019. ISBN 978-80-7378-388-4. Kapitola 4 Základní typy rozdělení pravděpodobnosti diskrétní náhodné veličiny Po prostudování této kapitoly budete umět: > rozpoznat situace, kdy je vhodné k modelování použít binomické, Poissonovo nebo hypergeometrické rozdělení, vypočítat pravděpodobnosti a další charakteristiky u konkrétních diskrétních rozdělení, ' aplikovat poznatky na modelování situací z reálného života pomocí těchto rozdělení. pomocí excelovských funkcí vypočíst hodnoty pravděpodobnostních a distribušních funkcí. Klíčová slova: Diskrétní náhodná veličina, rozdělení pravděpodobnosti, pravděpodobnostní funkce, distribuční funkce. Základní typy rozdělení pravděpodobnosti diskrétní náhodné veličiny 72 Náhled kapitoly V této kapitole se zaměříme na základní typy rozdělení pravděpodobnosti, které se používají u diskrétních náhodných veličin. Probereme binomické, hypergeometrické a Poissonovo. Ukážeme si, jak každé z nich funguje a kdy se používá. Důraz bude kladen nejen na teorii, ale především na praktické příklady, které ukáží, jak tato rozdělení použít při řešení reálných i nereálných problémů. Tato rozdělení tvoří základ pro mnoho aplikací statistiky a pravděpodobnosti v praxi. Cíle kapitoly Cílem je pochopit různé typy rozdělení pravděpodobnosti u diskrétních náhodných veličin s ohledem na jejich využití při modelování. Časová náročnost Na tuto kapitolu si vyhraďte přibližně 3 hodiny. Tento čas zahrnuje jak studium teorie, tak procvičování příkladů a praktických aplikací, které vám pomohou lépe pochopit dané rozdělení. 4.1 Binomické rozdělení Definice Definice 4.1. Binomické rozdělení Bi(n,p) modeluje počet úspěchů v pevně daném počtu nezávislých pokusů, kde každý pokus má dva možné výsledky (úspěch nebo neúspěch) a pravděpodobnost úspěchu je konstantní. Pravděpodobnost k úspěchů z n pokusů je dána vzorcem: P{X = k)={^P\l-P)n-\ kde n je počet pokusů, k je počet úspěchů, p je pravděpodobnost úspěchu v každém pokusu a (?) je kombinační číslo. Základní číselné charakteristiky Střední hodnota: E(X) = np, Rozptyl: D(X) = np(l-p). 73 Základy statistiky Grafy pravděpodobnostní a distribuční funkce Grafy pravděpodobnostní funkce (PDF) a distribuční funkce (CDF) pro binomické rozdělení s n = 10 a p = 0,5 jsou na obrázku 5. 0.3 0.2 K o.i I IBi(10;0,5) VI o 4 6 k 10 1 0.8 0.6 0.4 0.2 0 ŕ -Bi(10;0,5) o 4 6 k 10 Obr. 5: Pravděpodobnostní a distribuční funkce binomického rozdělení pro n = 10 a p = 0,5 Excelovské funkce Pro práci s binomickým rozdělením lze v Excelu použít následující funkce: ' Pravděpodobnostní funkce (PDF): Funkce BIN0M. Dl ST (k; n; p; FALŠE) vrací pravděpodobnost přesně k úspěchů. ' Distribuční funkce (CDF): Funkce BIN0M. Dl ST (k; n; p; TRUE) vrací pravděpodobnost nejvýše k úspěchů. 4.2 Hypergeometrické rozdelení Definice Definice 4.2. Hypergeometrické rozdělení Hg(iV, M, n) modeluje pravděpodobnost k úspěchů při náhodném výběru n objektů z populace N, kde M objektů z této populace jsou úspěchy. Výběr probíhá bez vracení. Pravděpodobnost k úspěchů je dána vzorcem: P(X = k) = M\ ÍN-M k I \ n—k kde N je velikost populace, M je počet úspěšných objektů v populaci, n je počet vybraných objektů a A; je počet úspěchů. Základní typy rozdělení pravděpodobnosti diskrétní náhodné veličiny 74 Základní číselné charakteristiky Střední hodnota: E(X) = Rozptyl: D(X) = nf (l - f) l Grafy pravděpodobnostní a distribuční funkce Grafy pravděpodobnostní funkce (PDF) a distribuční funkce (CDF) pro hypergeometrické rozdělení s parametry N = 50, M = 20, n = 10 jsou na obrázku 6. 0.3 0.2 o.i o 1 lHg(50; 20; 10) 1 1 0 2 4 6 k 10 VI i 0.8 0.6 0.4 0.2 0 1 _ -Hg(50; 20; 10) 0 4 6 k 10 Obr. 6: Pravděpodobnostní a distribuční funkce hypergeometrického rozdělení pro N = 50, M = 20 a n = 10 Excelovské funkce Pro práci s hypergeometrickým rozdělením lze v Excelu použít následující funkce: ■ Pravděpodobnostní funkce (PDF): Funkce HYPGE0M. Dl ST (k; n; M; N; FALŠE) vrací pravděpodobnost přesně k úspěchů. Distribuční funkce (CDF): Funkce HYPGEOM.DISKk; n; M; N; TRUE) vrací pravděpodobnost nejvýše k úspěchů. 75 Základy statistiky 4.3 Poissonovo rozdělení Definice Definice 4.3. Poissonovo rozdělení Po(A) modeluje počet událostí, které nastanou v pevně daném čase nebo prostoru, za předpokladu, že tyto události nastávají nezávisle na sobě s konstantní střední intenzitou A. Pravděpodobnost, že v daném intervalu nastane právě k událostí, je dána vzorcem: \ke~x m = *) = —, kde A je očekávaný počet událostí v daném intervalu a A; je počet událostí. Základní číselné charakteristiky Střední hodnota: E(X) = A, Rozptyl: D(X) = A. Grafy pravděpodobnostní a distribuční funkce Grafy pravděpodobnostní funkce (PDF) a distribuční funkce (CDF) pro Poissonovo rozdělení s parametrem A = 3 jsou na obrázku 7. 0.3 0.2 K o.i o 1 iPoisson(A = 3) 1 0 2 4 6 k 10 VI i 0.8 0.6 0.4 0.2 0 -Poisson(A = 3) 0 4 6 k 10 Obr. 7: Pravděpodobnostní a distribuční funkce Poissonova rozdělení pro A = 3 Základní typy rozdělení pravděpodobnosti diskrétní náhodné veličiny 76 Excelovské funkce Pro práci s Poissonovým rozdělením lze v Excelu použít následující funkce: ■ Pravděpodobnostní funkce (PDF): Funkce P0ISS0N.DIST(k; A; FALŠE) vrací pravděpodobnost přesně k událostí. ■ Distribuční funkce (CDF): Funkce POISSON.DISKk; A; TRUE) vrací pravděpodobnost nejvýše k událostí. 4.4 Řešené příklady Některá další rozdělení Příklad 4.4 (Alternativní rozdělení Alt(p)). V tomto příkladu si ukážeme alternativní rozdělení, které popisuje náhodný experiment s dvěma možnými výsledky. Uvažujme hod mincí, kde mohou nastat pouze dva výsledky: líc nebo rub. Tento experiment můžeme modelovat alternativním rozdělením Alt(p), kde: • Prostor možných výsledků je Q = {líc, rub}. Pravděpodobnost úspěchu (např. padnutí líce) je p, pravděpodobnost neúspěchu (padnutí rubu) je 1 — p. Výsledkem je náhodná veličina X, která nabývá hodnot 0 (neúspěch) nebo 1 (úspěch). Tedy: M = {0,1} a X = {0,1}. Jedná se o typické použití alternativního rozdělení. Příklad 4.5 (Rovnoměrné rozdělení R(n)). Rovnoměrné rozdělení R(n) popisuje situaci, kdy všechny možné výsledky mají stejnou pravděpodobnost. Uvažujme hod klasickou šestistěnnou kostkou, kde je pravděpodobnost každého čísla od 1 do 6 stejná: • Prostor možných výsledků je M = {1, 2, 3,4, 5, 6}. • Každý z těchto výsledků má pravděpodobnost |. V tomto případě se jedná o rovnoměrné rozdělení R(6), které modeluje pravděpodobnostní chování při hodu kostkou. Binomické rozdělení Příklad 4.6 (Binomické rozdělení Bi(n,p)). Student má potíže s ranním vstáváním. Proto někdy zaspí a nestihne přednášku, která začíná již v 9 hodin. Pravděpodobnost, že zaspí, je 0,3. V semestru je 12 přednášek, což znamená 12 nezávislých pokusů dorazit na přednášku včas. 77 Základy statistiky Nalezněte pravděpodobnost, že student nestihne přednášku v důsledku zaspání v polovině nebo více případů. Jedná se o binomické rozdělení Bi(n, p) s parametry n = 12 a p = 0,3. Hledaná pravděpodobnost je: P(X > 6) = 1 - P(X < 6). Tuto pravděpodobnost lze snadno vypočítat pomocí distribuční funkce binomického rozdělení, například pomocí funkce BINOMDIST v Excelu. Příklad 4.7 (Binomické rozdělení Bi(n,p)). V obchodě probíhá reklamní akce, při které zákazníci losují ze 100 kupónů. Každý kupón může být výherní s pravděpodobností 0,05. Každý zákazník losuje jeden kupón a šance na výhru je pro každého stejná. Jaká je pravděpodobnost, že z 20 zákazníků alespoň 2 vyhrají? Tento problém modelujeme jako binomické rozdělení Bi(n,p) s parametry n = 20 a p = 0,05. Hledáme pravděpodobnost: P(X > 2) = 1 - P(X < 2) = 1 - [P(X = 0) + P(X = 1)]. Pravděpodobnost P(X = 0) = 0,3585 a P(X = 1) = 0,3773. Proto: P(X > 2) = 1 - (0,3585 + 0,3773) = 0,2642. Tuto pravděpodobnost lze také spočítat pomocí funkce BINOMDIST v Excelu. Poissonovo rozdělení Příklad 4.8 (Poissonovo rozdělení Po(A)). Předpokládejme, že realitní makléř jedná v průměru s pěti zákazníky za den. Zjistěte, jaká je pravděpodobnost, že počet zákazníků makléře zajeden den bude větší než 4. Náhodná veličina X - počet zákazníků - splňuje kritéria pro Poissonovo rozdělení Po(A) s parametrem A = 5. Hledáme: P(X > 4) = 1 - P(X < A). Tuto pravděpodobnost lze vypočítat pomocí funkce P0ISS0N v Excelu. Příklad 4.9 (Poissonovo rozdělení Po(A)). V průměru přistane na místním letišti během jedné hodiny 3 letadla. Jaká je pravděpodobnost, že během jedné hodiny přistanou přesně 2 letadla? Náhodná veličina X - počet přistání - splňuje kritéria pro Poissonovo rozdělení Po(A) s parametrem A = 3. Hledaná pravděpodobnost je: 32e-3 P(X = 2) = = 0,2240. Tuto pravděpodobnost lze snadno vypočítat pomocí funkce P0ISS0N v Excelu. Hypergeometrické rozdělení Příklad 4.10 (Hypergeometrické rozdělení H(N,M,n)). Mezi stovkou výrobků je 20 zmetků. Vybereme deset výrobků a sledujeme počet zmetků mezi vybranými. Základní typy rozdělení pravděpodobnosti diskrétní náhodné veličiny 78 V tomto případě má náhodná veličina X hypergeometrické rozdělení iJ(100, 20,10). Pravděpodobnostní funkce je dána vztahem: P(X = k) M\ ÍN-M k ) \ n—k Ň n kde N = 100, M = 20, n = 10 a k je počet zmetků mezi vybranými výrobky. Například pravděpodobnost, že mezi deseti vybranými výrobky budou 3 zmetky, lze vypočítat jako P(X = 3). Příklad 4.11 (Hypergeometrické rozdělení H(N,K,n)). V krabici je 20 kuliček, z nichž 8 je červených a 12 modrých. Náhodně vybereme 5 kuliček bez vracení. Jaká je pravděpodobnost, že vybereme přesně 3 červené kuličky? Tento problém modelujeme jako hypergeometrické rozdělení H(N,K,n) s parametry: N = 20, K = 8, n = 5. Hledaná pravděpodobnost je: P(X = 3) Po dosazení hodnot dostáváme: 8\ Í12 m 20 5 v ; /250^ 15504 Tuto pravděpodobnost lze také vypočítat pomocí funkce HYPGEOM.DIST v Excelu. OV této kapitole byla představena základní diskrétní rozdělení pravděpodobnosti, která se často vyskytují v praxi (některým jsme se věnovali podrobněji, dalším jen v praktických příkladech). Seznámili jsme se s charakteristikami a použitím těchto rozdělení: ' Alternativní rozdělení A(p) - Popisuje náhodný experiment s dvěma možnými výsledky (např. úspěch/neúspěch). Využívá se např. při modelování hodu mincí. ' Rovnoměrné rozdělení R(n) - Předpokládá, že všechny výsledky mají stejnou pravděpodobnost. Používá se např. při hodu kostkou, kde každé číslo má stejnou pravděpodobnost. ' Binomické rozdělení Bi(n,p) - Popisuje počet úspěchů při pevně daném počtu nezávislých pokusů, kde každý pokus má stejnou pravděpodobnost úspěchu. Příkladem je situace, kdy se sleduje počet úspěchů při opakovaných pokusech, jako je např. ranní docházka studenta. ' Poissonovo rozdělení Po(A) - Používá se k modelování počtu výskytů události v pevném časovém nebo prostorovém intervalu. V praxi může jít např. o modelování počtu zákazníků přicházejících k realitnímu makléři. • Hypergeometrické rozdělení H(N,M,n) - Popisuje pravděpodobnost určitého počtu úspěchů při výběru bez vracení z konečné populace. Příkladem je sledování počtu vadných výrobků při náhodném výběru z výrobní dávky. 79 Základy statistiky 1. Jaké jsou základní číselné charakteristiky binomického rozdělení? 2. Jak vypadá pravděpodobnostní funkce binomického rozdělení pro n = 10 a p = 0,5? 3. Co modeluje Poissonovo rozdělení? 4. Jaký je vzorec pro pravděpodobnost, že Poissonova náhodná veličina X nabude hodnoty k, pokud má parametr A? 5. Jaký je vztah mezi střední hodnotou a rozptylem u Poissonova rozdělení? 6. Jaké typické aplikace má Poissonovo rozdělení v reálném světě? 7. Co modeluje hypergeometrické rozdělení? 8. Jaký je rozdíl mezi binomickým a hypergeometrickým rozdělením? 9. V dodávce 80 polotovarů je 8 (tj. 10 %) vadných. Náhodně vybereme (najednou, tj. „bez vracení") 5 kusů polotovarů k další kompletaci. Jaká je pravděpodobnost, že mezi vybranými prvky bude maximálně jeden vadný? [0,7248] 10. Ve skladišti závodu je 5 000 výrobků stejného typu. Pravděpodobnost toho, že daný výrobek nevydrží kontrolní zapojení, je 0,1 %. Najděte pravděpodobnost, že z výrobků na skladě více než dva nevydrží kontrolní zapojení. [0,0036] 11. Korektura 500 stránek obsahuje 500 nalezených tiskových chyb. Najděte pravděpodobnost toho, že na stránce jsou nejméně tři chyby. [0,0803] 12. Najděte pravděpodobnost toho, že mezi 200 výrobky se vyskytnou více než tři zmetky, když v průměru je zmetkovitost výroby těchto výrobků 1 %. [0,1423] e Literatura k tématu: [1] HINDLS, R. Statistika pro ekonomy. 8. vyd. Praha: Professional Publishing, 2007. ISBN 978-80-869-4643-6. ISBN 978-80-867-3208-8. [2] MAREK, L. Statistika v příkladech. 2. vyd. Praha: Kamil Mařík - Professional Publishing, 2015. ISBN 978-80-743-1153-6. [3] OTIPKA, P., SMAJSTRLA, V. Pravděpodobnost a statistika [online]. 1. vydání. Ostrava: VŠB-TU Ostrava, 2007 [cit. 2024-09-09]. ISBN 80-248-1194-4. Dostupné z: https://homel.vsb.cz/~oti73/cdpastl/ [4] ZVÁRA, K. a ŠTĚPÁN, J. Pravděpodobnost a matematická statistika. Matfyzpress, 2019. ISBN 978-80-7378-388-4. Kapitola 5 Základní typy rozdělení pravděpodobnosti spojité náhodné veličiny Po prostudování této kapitoly budete umět: vyjmenovat základní spojitá rozdělení pravděpodobnosti i s jejich důležitými vlastnostmi, vypočítat základní charakteristiky daných typů rozdělení pravděpodobnosti, pomocí excelovských funkcí vypočíst hodnoty hustot a distribušních funkcí spojitých rozdělení, • pomocí excelovských funkcí vypočíst kvantily spojitých rozdělení. Klíčová slova: Rozdělení pravděpodobnosti, hustota funkce, distribuční funkce, střední hodnota, rozptyl, kvant il. 81 Základy statistiky Náhled kapitoly Tato kapitola se zaměřuje na základní typy rozdělení pravděpodobnosti pro spojité náhodné veličiny. Seznámíme se s rozděleními, jako je normální, exponenciální a rovnoměrné rozdělení. Každé z těchto rozdělení má specifické vlastnosti a používá se v různých situacích při modelování náhodných jevů. Kromě teoretického popisu si také ukážeme, jak tato rozdělení aplikovat v praxi a jak vypočítat pravděpodobnosti a další charakteristiky. V kapitole jsou uvedeny příklady, které demonstrují užití spojitých rozdělení v reálných situacích. Cíle kapitoly Cílem je pochopit a rozlišovat základní typy rozdělení pravděpodobnosti pro spojité náhodné veličiny a aplikovat tyto poznatky při řešení úloh z praxe. Časová náročnost Pro tuto kapitolu doporučujeme vyčlenit přibližně 3 hodiny, které zahrnují jak studium teoretických částí, tak procvičování praktických příkladů a aplikací. 5.1 Normální rozdělení Definice Definice 5.1. Normální rozdělení N(fi,a2) je rozdělení pravděpodobnosti, které je symetrické kolem střední hodnoty fi a jeho tvar je zvonovitý. Je určeno dvěma parametry: střední hodnotou fi a směrodatnou odchylkou o. Hustota normálního rozdělení je dána vzorcem: fí i\ 1 ( (x-^)2\ /(w) = v^expr^^J' kde fi je střední hodnota a a2 je rozptyl. Rozdělení ÍV(0; 1) se nazývá normované (nebo standardizované) normální rozdělení a je ve statistice velmi důležité. Základní typy rozdělení pravděpodobnosti spojité náhodné veličiny 82 Obr. 8: Jeden z hrdých otců normálního rozdělení (vytvořeno pomocí ChatGPT, openAI) Základní číselné charakteristiky Střední hodnota: fi Rozptyl: a2 Symetrie: Normální rozdělení je symetrické kolem střední hodnoty fi. Grafy hustot a distribuční funkce Grafy znázorňující hustoty a distribuční funkce normálního rozdělení pro různé hodnoty fi a o jsou uvedeny na obrázcích 9 a 10. 0.8 0.6 0.2 0 1 - N(0,1) -- - N(0,0.25) ■■ N(0,1.5) 7 i 1 1 1 > \ l l 1 1 1 1 I r \ / - ' i V \ \» \ \N V. 0 x 0.8 0.6 0.4 0.2 0 - N(0,1 -- - N(0;0,25) ■■ N(0;l,5) 4 0 x Obr. 9: Grafy hustot a distribučních funkcí normálního rozdělení s různými rozptyly 83 Základy statistiky 0.4 0.3 S 0.2 -N(0,1) _ —N(-l,l) -N(-2,l) i i i \ i \ ' i / 1 y /1 x \ \ \ ■ : i i i ; ! i / \ j i / \ / \ x \ x \ \ \ x \ \ \ / / t j \ \ \ \ — -6 -4 -2 0 2 4 x 1 0.8 0.6 0.4 0.2 0 -N(0,1) - —N(-l,l) -N(-2,l) ** Z t f t i t / : i / / / / / / / / » t t / * / t / / i ■6 -4 -2 0 x Obr. 10: Grafy hustot a distribučních funkcí normálního rozdělení s různými středními hodnotami Excelovské funkce Pro práci s normálním rozdělením lze v Excelu použít následující funkce: Hustota pravděpodobnosti (PDF): Funkce N0RM. Dl ST (x; //; a; FALŠE) vrací hodnotu hustoty pravděpodobnosti. Distribuční funkce (CDF): Funkce N0RM.DIST(x; //; a; TRUE) vrací hodnotu distribuční funkce. ' Kvantilová funkce: Funkce N0RM.INV(p; //; a) vrací kvantil pro danou pravděpodobnost p, střední hodnotu fi a směrodatnou odchylku a. Pro práci s normovaným normálním rozdělením (// = 0, a = 1) lze použít specializované funkce: Hustota pravděpodobnosti (PDF): Funkce N0RM.S.DIST(x; FALŠE) vrací hodnotu hustoty pravděpodobnosti. Distribuční funkce (CDF): Funkce N0RM.S.DIST(x; TRUE) vrací hodnotu distribuční funkce. Kvantilová funkce: Funkce N0RM. S. INV(p) vrací kvantil pro danou pravděpodobnost p. Základní typy rozdělení pravděpodobnosti spojité náhodné veličiny 84 5.2 Rovnomerne rozdelení Definice Definice 5.2. Rovnoměrné rozdělení U(a,b) je rozdělení pravděpodobnosti, kde každá hodnota z intervalu [a,b] má stejnou pravděpodobnost. Je určeno dvěma parametry: dolní mezí a a horní mezí b. Hustota rovnoměrného rozdělení je dána vzorcem: 1 f(x;a,b) b — a pro a < x < b. Toto rozdělení se používá, pokud je každá hodnota v určitém rozsahu stejně pravděpodobná. Základní číselné charakteristiky Střední hodnota: 1. (b-a)2 Rozptyl: 12 Symetrie: Rovnoměrné rozdělení je symetrické kolem střední hodnoty. Grafy hustoty a distribuční funkce Grafy hustoty a distribuční funkce rovnoměrného rozdělení pro různé hodnoty a a 6 jsou uvedeny na obrázku 11. 0.6 0.4 ^ 0.2 -1/(0,5) — C/(l,4) 0.5 "-[/(O, 5) " — C/(l,4) / / / / . / / / x / x t x /X / f / X / / / X / y t X / z y 1 x x Obr. 11: Grafy hustot a distribučních funkcí rovnoměrného rozdělení (různé parametry a a 6) 85 Základy statistiky Excelovské funkce Pro práci s rovnoměrným rozdělením lze v Excelu použít následující funkce: ■ Hustota pravděpodobnosti (PDF): Funkce UNIFORM.DISKx; a; b; FALŠE) vrací hodnotu hustoty pravděpodobnosti. Distribuční funkce (CDF): Funkce UNIFORM.DISKx; a; b; TRUE) vrací hodnotu distribuční funkce. ' Kvantilová funkce: Funkce UNIFORM. INV(p; a; b) vrací kvantil pro danou pravděpodobnost p, dolní mez a a horní mez b. 5.3 Exponenciální rozdělení Definice Definice 5.3. Exponenciální rozdělení Exp(X) je rozdělení pravděpodobnosti, které modeluje dobu mezi nezávislými náhodnými událostmi, které se vyskytují s konstantní průměrnou mírou. Parametr A představuje intenzitu událostí (průměrný počet výskytů za jednotku času). Hustota exponenciálního rozdělení je dána vzorcem: f(x; A) = Xe-Xx pro x > 0, kde A > 0 je parametr udávající rychlost procesu. Tento typ rozdělení se používá pro modelování například doby čekání na příchod události. Základní číselné charakteristiky Střední hodnota: ^ Rozptyl: ^ Asymetrie: Exponenciální rozdělení je asymetrické, má delší pravý chvost. Grafy hustoty a distribuční funkce Grafy hustoty a distribuční funkce exponenciálního rozdělení pro různé hodnoty A jsou uvedeny na obrázku 12. Základní typy rozdělení pravděpodobnosti spojité náhodné veličiny 86 012345 012345 Obr. 12: Grafy hustot a distribučních funkcí exponenciálního rozdělení pro různé parametry A Excelovské funkce Pro práci s exponenciálním rozdělením lze v Excelu použít následující funkce: ■ Hustota pravděpodobnosti (PDF): Funkce EXP0N.DIST(x; A; FALŠE) vrací hodnotu hustoty pravděpodobnosti. ■ Distribuční funkce (CDF): Funkce EXP0N.DIST(x; A; TRUE) vrací hodnotu distribuční funkce. ' Kvantilová funkce: Funkce EXPON. INV(p; A) vrací kvantil pro danou pravděpodobnost p a parametr A. 5.4 Řešené příklady Příklad 5.4 (Rovnoměrné rozdělení R(a,b)). Tramvajová linka číslo 8 odjíždí v dopoledních hodinách ze zastávky každých 10 minut. Vypočtěte pravděpodobnost, že na ni budete dopoledne čekat déle než 7 minut. Doba čekání je náhodná veličina X, která má rovnoměrné rozdělení pravděpodobnosti - v našem případě R(0,10). Řešení: Pro rovnoměrné rozdělení R(a, b) platí: f(x) = lÁí' a-X-b' I 0, jinak. V našem případě a = 0 a b = 10, takže hustota pravděpodobnosti je: '<*>=fr °-;-10' 0, j mak. 87 Základy statistiky Distribuční funkce F (x) je: í O, x < O, F(x) = UQ, 010. Pravděpodobnost, že budeme čekat déle než 7 minut, je: P(X>7) = 1- F(7) = 1 - ^ = 0,3. □ Příklad 5.5 (Exponenciální rozdělení E (X)). Doba čekání hosta na pivo je v restauraci U Lva průměrně 5 minut. Určete: 1. hustotu pravděpodobnosti náhodné veličiny, která je dána dobou čekání na pivo, 2. pravděpodobnost, že budeme čekat na pivo déle než 12 minut, 3. dobu čekání, během které bude zákazník obsloužen s pravděpodobností 0,9. Jedná se tedy o exponenciální rozdělení pravděpodobnosti. Řešení: 1. Hustota pravděpodobnosti pro exponenciální rozdělení E(X) je dána vztahem: V ' [0, x<0. V našem případě je střední doba čekání j = 5, takže A = | = 0,2. Hustota pravděpodobnosti tedy je: Í0,2e-«.-, ,>0, V ' (0, x<0. 2. Distribuční funkce F(x) je: 0, x < 0, 1 - e-°'2x, x > 0. Pravděpodobnost, že budeme čekat déle než 12 minut, je: P(X > 12) = 1 - F(12) = 1 - (1 - e"0'2'12) = e"2'4 « 0,0907. 3. Hledáme dobu čekání t, při které bude zákazník obsloužen s pravděpodobností 0,9: P(X 10, je: P(X > 10) = 1 - F(10) = 1 - N0RMDIST(10,10, 3,1) = 0,5. 4. Pravděpodobnost, že X nabude hodnoty v intervalu 7 < X < 22, je: P(7 < X < 22) = F(22) - F(7) « N0RMDIST(22,10, 3,1) - N0RMDIST(7,10, 3,1) « 0,8413. □ OV této kapitole jsme se zabývali základními spojitými rozděleními pravděpodobnosti, která se hojně používají v praxi. Seznámili jsme se s jejich vlastnostmi, praktickým použitím a s metodami výpočtu pravděpodobností a charakteristik. ' Rovnoměrné rozdělení R(a, b) - Tento typ rozdělení se používá tehdy, když má náhodná veličina stejnou pravděpodobnost výskytu na každém bodě intervalu (a, b). V této kapitole jsme si ukázali, jak vypočítat pravděpodobnosti a distribuční funkci rovnoměrně rozdělené náhodné veličiny a jaké jsou její základní charakteristiky (střední hodnota, rozptyl). 89 Základy statistiky ' Exponenciální rozdělení E(X) - Exponenciální rozdělení se používá při modelování času mezi událostmi v procesech, které se vyskytují s konstantní intenzitou. V praxi může jít například o dobu čekání na obsluhu. Zabývali jsme se výpočtem pravděpodobností, distribuční funkcí a časovými intervaly, v nichž nastanou určité události s danou pravděpodobností. ' Normální rozdělení N(fi, a2) - Toto rozdělení, často označované jako Gaussovo, je jedním z nej důležitějších rozdělení v teorii pravděpodobnosti. Modeluje mnohé reálné procesy, jako jsou měření s chybami. V kapitole jsme si ukázali, jak pomocí normálního rozdělení odhadnout pravděpodobnosti pro různé intervaly hodnot, jak vypočítat hodnoty distribuční funkce a jak využít tabulky či software při výpočtech. V této kapitole jsme se zaměřili také na aplikace těchto rozdělení ve formě řešených příkladů, které zahrnovaly výpočty pravděpodobností a interpretace získaných výsledků. Naučili jsme se rozlišovat situace, kdy je vhodné použít jednotlivé typy spojitých rozdělení, a získali jsme praktické dovednosti při jejich použití. Kapitola poskytuje pevný základ pro pochopení spojitých náhodných veličin a jejich rozdělení, které jsou klíčové pro analýzu a modelování reálných dat v různých oblastech, od statistiky po strojové učení. Ol. Jaké jsou hlavní rozdíly mezi spojitým a diskrétním rozdělením pravděpodobnosti? Uveďte příklady spojitých rozdělení. 2. Co je to distribuční funkce náhodné veličiny a jaký je její význam? Jaký tvar má distribuční funkce pro rovnoměrné rozdělení? 3. Vysvětlete, co rozumíme pod termínem hustota pravděpodobnosti. Jaká je hustota pravděpodobnosti pro exponenciální rozdělení? 4. Jaké jsou základní charakteristiky normálního rozdělení n(fi, 7) [0,375] 14. Čas mezi událostmi je modelován exponenciálním rozdělením s intenzitou A = 0,5. Jaká je pravděpodobnost, že čas mezi dvěma událostmi bude menší než 3 minuty? [0,7769] Literatura k tématu: [1] HINDLS, R. Statistika pro ekonomy. 8. vyd. Praha: Professional Publishing, 2007. ISBN 978-80-869-4643-6. ISBN 978-80-867-3208-8. [2] MAREK, L. Statistika v příkladech. 2. vyd. Praha: Kamil Mařík - Professional Publishing, 2015. ISBN 978-80-743-1153-6. [3] OTIPKA, P., SMAJSTRLA, V. Pravděpodobnost a statistika [online]. 1. vydání. Ostrava: VŠB-TU Ostrava, 2007 [cit. 2024-09-09]. ISBN 80-248-1194-4. Dostupné z: https://homel.vsb.cz/~oti73/cdpastl/ [4] ZVÁRA, K. a ŠTĚPÁN, J. Pravděpodobnost a matematická statistika. Matfyzpress, 2019. ISBN 978-80-7378-388-4. Kapitola 6 Náhodný vektor Po prostudování této kapitoly budete umět: určit hustotu pravděpodobnosti a distribuční funkci náhodného vektoru, vypočítat marginální funkce náhodného vektoru a charakteristiky náhodného vek toru - kovarianci a koeficient korelace. Klíčová slova: Náhodný vektor, hustota pravděpodobnosti, distribuční funkce, kovariance, koeficient ko relace. Náhodný vektor 92 Náhled kapitoly V této kapitole se zaměříme na pojem náhodného vektoru, což je rozšíření náhodné veličiny na případ dvou nebo více veličin současně. Probereme základní vlastnosti náhodného vektoru, společné a marginální rozdělení, a ukážeme si, jak lze analyzovat závislosti mezi jednotlivými složkami vektoru. Dále se budeme věnovat výpočtu číselných charakteristik, jako je střední hodnota, kovariance a koeficient korelace, a jejich významu při práci s náhodnými veličinami. Na praktických příkladech uvidíme, jak lze tyto pojmy využít. Cíle kapitoly Cílem je pochopit, proč je důležité pracovat s více náhodnými veličinami současně a jaký přínos to má pro analýzu dat. Časová náročnost Pro zvládnutí této kapitoly doporučujeme věnovat přibližně 3 hodiny studiu teorie, výpočtu charakteristik náhodného vektoru a řešení praktických příkladů, které vám pomohou lépe porozumět závislostem mezi náhodnými veličinami. 6.1 Dvourozměrný náhodný vektor Náhodný vektor představuje rozšíření pojmu náhodné veličiny na případ dvou a více náhodných veličin současně. Popisuje pravděpodobnostní chování více veličin a umožňuje analyzovat jejich společnou distribuci a závislosti mezi nimi. V této kapitole se zaměříme na případ dvourozměrného náhodného vektoru. Definice 6.1 (Náhodný vektor). Náhodný vektor (X,Y) je uspořádaná dvojice náhodných veličin. Pro popis jeho pravděpodobnostní struktury se využívá společná pravděpodobnostní funkce p(x,y) u diskrétních veličin nebo hustota pravděpodobnosti f(x,y) u spojitých veličin. Definice 6.2 (Společná pravděpodobnostní funkce a hustota pravděpodobnosti). V případě diskrétních veličin je společná pravděpodobnostní funkce p(x,y) = P(X = x,Y = y) definována jako pravděpodobnost, že X = x a, Y = y. U spojitých veličin je společná hustota pravděpodobnosti f(x,y) definována tak, že: P(X e (x1,x2),Y e (y1,y2)) = / f(x,y)dydx. 93 Základy statistiky Definice 6.3 (Marginální rozdělení). Marginální rozdělení popisuje pravděpodobnostní chování jednotlivých složek náhodného vektoru. U diskrétních veličin získáme marginální pravděpodobnosti pi(x) a p2{y) jako: Pi(x) = ^2p(x,v), P2(y) = J2p(x>v)- y x Pro spojité veličiny získáme marginální hustoty f\(x) a f2{y) integrací: /oo roo f(x,y)dy, f2(y) = / f(x,y)dx. -oo J — oo Definice 6.4 (Distribuční funkce). Distribuční funkce náhodného vektoru F(x,y) je definována jako: F(x,y) = P(X °-My) Pro spojité veličiny je podmíněná hustota definována obdobně: /(^Iž/) = 4tt Pro fM>Q-Í2{y) Definice 6.6 (Číselné charakteristiky náhodného vektoru). Mezi základní charakteristiky náhodného vektoru (X, Y) patří střední hodnota, rozptyl a kovariance: /oo x ■ fi(x) dx (spojité). X -oo Kovariance Cov(X, Y) se počítá jako: Cov(X,F) = E[(X - E[X])(Y - E[Y])] = E[XY] - E[X]E[Y]. Náhodný vektor 94 Definice 6.7 (Koeficient korelace). Koeficient korelace p(X,Y) vyjadřuje míru lineární závislosti mezi veličinami laľ. Definice koeficientu korelace je: p(.Y,yH^I), kde o~x a oy jsou směrodatné odchylky veličin X a Y. Hodnota p(X, Y) se pohybuje v intervalu ( — 1,1). 6.2 Řešené příklady Příklad 6.8. Najděte konstantu c, tak aby funkce: cj$^, 2 0, Y > 2,5) [0,20] d. marginální rozdělení P(X) [P (X = -1) = 0,30, P (X = 0) = 0,35, P (X = 1) = 0,35] e. marginální rozdělení P{Y) [P (Y = 1) = 0,30, P (Y = 2) = 0,25, P (Y = 3) = 0,45] 10. Pro náhodný vektor daný následující tabulkou vypočtěte koeficient korelace: Náhodný vektor 102 X\Y 1 0 1 0,05 0,01 0 0,02 0,92 [Koeficient korelace p(X, Y) 0,7558] e Literatura k tématu: [1] ANDĚL, J. Statistické metody. 5. vyd. Praha: Matfyzpress, 2019. ISBN 978-80-7378-381-5. [2] HINDLS, R. Statistika pro ekonomy. 8. vyd. Praha: Professional Publishing, 2007. ISBN 978-80-869-4643-6. ISBN 978-80-867-3208-8. [3] MAREK, L. Statistika v příkladech. 2. vyd. Praha: Kamil Mařík - Professional Publishing, 2015. ISBN 978-80-743-1153-6. [4] OTIPKA, P., SMAJSTRLA, V. Pravděpodobnost a statistika [online]. 1. vydání. Ostrava: VŠB-TU Ostrava, 2007 [cit. 2024-09-09]. ISBN 80-248-1194-4. Dostupné z: https://homel.vsb.cz/~oti73/cdpastl/ [5] ZVÁRA, K. a ŠTĚPÁN, J. Pravděpodobnost a matematická statistika. Matfyzpress, 2019. ISBN 978-80-7378-388-4. Kapitola 7 Statistický soubor s jedním argumentem Po prostudování této kapitoly budete umět: určit základní popisné charakteristiky statistického souboru s jedním argumentem (viz klíčová slova), • využít k těmto výpočtům statistický software (Excel). Klíčová slova: Základní soubor, statistická jednotka, četnosti, grafické znázornění četností, aritmetický průměr, modus, kvantily, medián, kvartily, decily, percentily, rozptyl, směrodatná odchylka. Statistický soubor s jedním argumentem 104 Náhled kapitoly V předchozích kapitolách jsme se věnovali spíše teoretickým modelům, zde se dostáváme k práci s daty. Tato kapitola se zaměřuje na základní popisné statistiky statistického souboru s jedním argumentem (s jednou proměnnou). Probereme různé druhy četností, jejich tabulkové a grafické znázorňování, dále různé míry polohy a variability dat. Prostě vše, co nám umožní mít ucelenější představu o rozložení dat. V následující kapitole tyto prostředky rozšíříme na dvourozměrný případ, kde nám k popisu jednotlivých proměnných přibude i jejich vzájemný vztah. Cíle kapitoly Cílem této kapitoly je získat základní potřebné dovednosti při práci s jednoduchými daty z pohledu popisné statistiky, tedy umět provádět potřebné výpočty a chápat jejich výsledky. Časová náročnost Pro tuto kapitolu doporučujeme vyčlenit přibližně 3 hodiny, které zahrnují jak studium teoretických částí, tak procvičování praktických příkladů a aplikací. 7.1 Základní pojmy a vlastnosti Pravděpodobnost vs. statistika Pravděpodobnost je matematický model reality. Jedná se o idealizovaný, abstraktní model, který pracuje s jednou nebo více náhodnými veličinami, jejichž rozdělení je známé. Z podstaty věci je tento model nepozorovatelný - představuje pouze naši abstrakci skutečnosti. Pravděpodobnost se zabývá náhodnými veličinami a jejich rozdělením. Jejím cílem je popsat, jak by se náhodné veličiny mohly chovat v určitém modelu. Pravděpodobnostní modely jsou používány v mnoha oblastech pro predikci nejistých jevů. Statistika naopak vychází z pozorování (měření) hodnot konkrétních veličin. Statistika zkoumá jevy na rozsáhlém souboru dat a činí o nich závěry pomocí statistické indukce. Výsledky z malého vzorku jsou zobecňovány na rozsáhlejší populaci. 105 Základy statistiky Statistika používá odhady, protože žádný konečný výběr nemůže poskytovat úplnou informaci o rozdělení náhodných veličin v populaci. Statistika hledá pravidelnosti a souvislosti v datech a zobecňuje výsledky na širší soubor, než byl ten, ze kterého byly odvozeny. Vychází z reálných dat, na jejichž základě činí závěry o celkové populaci. Příklady aplikací statistiky: ' Mají lidé, kteří pravidelně cvičí, lepší zdravotní ukazatele než ti, kteří necvičí? • Je průměrná výše příjmů v určité oblasti závislá na vzdělání obyvatel? Jaká je pravděpodobnost, že nový produkt na trhu uspěje na základě výsledků z testovacího vzorku? Data Data představují klíčový prvek statistických analýz. Jedná se o pozorování, která provádíme za účelem zodpovězení položených otázek. Matematicky: data jsou realizací náhodné veličiny. Jedná se tedy o konkrétní hodnoty, které náhodná veličina může nabýt při experimentu nebo měření. Datové tabulky: Data jsou často organizována ve formě tabulek, kde řádky představují jednotlivá pozorování, zatímco sloupce odpovídají měřeným proměnným. ' Řádky: Pozorování se týkají nezávislých subjektů náhodného výběru, jako jsou osoby, experimenty nebo jednotky sledování. Sloupce: Každý sloupec odpovídá určité měřené veličině, například věk, pohlaví, výška, váha apod. Software: Pro správu a zpracování dat se používá řada softwarových nástrojů. Nejčastěji jsou využívány databázové systémy nebo tabulkové procesory, jako je Excel. Statistický software: K analýze dat se specializované statistické programy, jako jsou SAS, Statistica, SPSS, R nebo Python. Ve statistice hraje správná organizace a správa dat zásadní roli, protože dobře strukturovaná data umožňují efektivnější analýzu a zajišťují správnost výsledků. Statistický soubor s jedním argumentem 106 Popisná statistika Popisná statistika představuje základní část statistické analýzy. Jejím cílem je sumarizovat a jednoduše popsat data, která máme k dispozici. Pojmový aparát statistiky: Zahrnuje základní statistické pojmy, jako jsou průměr, medián, rozptyl, směrodatná odchylka, kvartily a další. Základní nástroj analýzy dat: Pomocí popisných statistik můžeme rychle získat přehled o základních vlastnostech dat. Například průměr poskytuje informaci o střední hodnotě souboru, zatímco rozptyl nám řekne, jak jsou data rozložena kolem této hodnoty. Prostředky pro prezentaci dat a výsledků: Popisná statistika je často doprovázena vizuálními nástroji, jako jsou grafy, tabulky a diagramy, které umožňují efektivní prezentaci dat a usnadňují jejich interpretaci. Příkladem aplikace popisné statistiky může být analýza průměrných platů v různých regionech, kde nás může zajímat nejen střední hodnota platu, ale také rozptyl a medián, abychom lépe porozuměli rozložení příjmů v dané populaci. Základní pojmy ve statistice Pro práci se statistickými daty je důležité nejprve pochopit několik základních pojmů: Definice 7.1. Statistická jednotka je objekt, který chceme zkoumat. Může se jednat o osoby, domácnosti, firmy, organismy, obce, kraje, atd. Každá statistická jednotka je nositelem určité vlastnosti, která nás zajímá, a kterou zkoumáme. Definice 7.2. Statistický soubor je množina statistických jednotek, které jsou předmětem našeho zkoumání: Základní soubor: Množina všech statistických jednotek, jejichž vlastnosti chceme poznat. Tento soubor zahrnuje veškeré objekty, které odpovídají naší studii, např. všechny domácnosti v určitém kraji. Výběrový soubor: Množina skutečně vyšetřovaných statistických jednotek, které jsou náhodně vybrány ze základního souboru. Tento výběr by měl být reprezentativní pro celou populaci. 107 Základy statistiky Definice 7.3. Statistický znak je vlastnost, která je zjišťována na každé statistické jednotce. Tato vlastnost je v rámci statistiky považována za náhodnou veličinu. Mezi běžné statistické znaky patří např. pohlaví, věk, výška, hmotnost, počet dětí, barva očí, dopravní prostředek, počet úrazů, jméno. Definice 7.4. Rozsah souboru (označován často jako n) představuje počet zkoumaných statistických jednotek v daném souboru. Typy statistických znaků Statistické znaky se dělí do několika kategorií podle svého charakteru: Kvalitativní znaky (někdy nazývané kategorické): Jedná se o slovní nebo katego-riální znaky, které nemohou být vyjádřeny numericky. Příkladem jsou pohlaví, barva očí, nebo dopravní prostředek, který statistická jednotka používá. Kvantitativní znaky (číslené, numerické): Spojité znaky: Mohou nabývat jakékoli hodnoty na určitých intervalech, např. výška, hmotnost nebo věk. Tyto znaky mohou být měřeny s libovolnou přesností. ' Diskrétní znaky: Nabývají pouze určitých konkrétních hodnot, např. počet dětí nebo počet úrazů. Tyto znaky mají omezený počet možných hodnot. Alternativní znaky: Tyto znaky mohou nabývat pouze dvou hodnot, např. zda osoba kouří či nikoli, nebo zda byl test úspěšný či neúspěšný. Množné znaky: Jedná se o znaky, které mohou nabývat tří a více hodnot, např. dopravní prostředek (auto, kolo, autobus). Jednorozměrný statistický soubor V jednorozměrném statistickém souboru se zabýváme pouze jedním statistickým znakem X a jeho hodnotami v rámci výběrového souboru. Statistický soubor s jedním argumentem 108 Označení: ■ ,£n} výběrový soubor: Každá Si je statistická jednotka. • X: statistický znak, který zkoumáme na každé statistické jednotce. • xf hodnota znaku X na objektu Sj, kde j = 1,... ,n. (xi,.. . ,xn): datový soubor, který obsahuje hodnoty znaku X pro všechny jednotky. .., rE(n)): uspořádaný datový soubor, tj. x^ < ■ ■ ■ < X(ny (x{1],. .. ,X[r]): vektor variant znaku X, tj. různé hodnoty, které znak X nabývá, kde x[i] ŕ X[j] pro i Ý j- Jednorozměrný statistický soubor nám umožňuje analyzovat hodnoty určitého znaku v rámci výběrového souboru a zjišťovat jejich rozložení. 7.2 Rozložení četností Rozložení četností slouží ke zpřehlednění datového souboru. Při této analýze sledujeme, kolikrát se jednotlivé hodnoty nebo intervaly hodnot vyskytují v našem výběrovém souboru. Bodové rozložení četností: Používá se pro diskrétní znaky s malým počtem variant, kdy četnost přiřazujeme jednotlivým variantám (hodnotám). Intervalové rozložení četností: Používá se pro diskrétní znaky s velkým počtem variant nebo pro spojité znaky, kdy četnost přiřazujeme třídícím intervalům. Bodové rozložení četností Bodové rozložení četností se vztahuje k jednotlivým hodnotám diskrétního znaku a zahrnuje následující typy četností: Definice 7.5. (Absolutní) četnost varianty xyy. označována jako nj, představuje počet výskytů hodnoty xy] ve výběrovém souboru. 109 Základy statistiky Definice 7.6. Relativní četnost varianty xyy. označována jako n j Pj = — > n kde n je celkový počet pozorování. Relativní četnost můžeme chápat jako empirickou pravděpodobnost. Definice 7.7. (Absolutní) kumulativní četnost prvních j variant: označována jako Nj = ni H-----\-rij, představuje součet četností prvních j variant. Definice 7.8. Relativní kumulativní četnost prvních j variant: označována jako Fj = =Pl + ••• +Pj, n představuje kumulativní relativní četnost, což je suma relativních četností až po j-tou variantu. Definice 7.9. Empirická distribuční funkce pro bodové rozložení četností je definována následovně: (0 pro x < X[i] Fj pro x{j] < x < x[j+1], j = 1,..., r - 1 1 pro x > X[r] Tato funkce zachycuje rozložení četností ve výběrovém souboru a zobrazuje kumulativní pravděpodobnost dosažení určité hodnoty. Příklad 7.10 (Bodové rozložení četností). Při zápočtu ze statistiky se studenti podrobili testu, ve kterém mohli získat 0 až 15 bodů. Výsledky testu jsou následující: 5, 10, 6, 7, 0, 2, 2, 4, 8, 10, 12, 15, 0, 0, 4, 2, 7, 10, 15, 0, 6, 5, 5, 6, 9, 8, 7, 10, 12, 6, 0. Vytvořte tabulku rozložení bodových čeností (absolutních, relativních a kumulativních relativních) a nakreslete graf empirické distribuční funkce. Řešení: Bodové rozložení četností je zobrazeno v tabulce 2 a graf empirické distribuční funkce na obrázku 13. □ Tento příklad ilustruje základní práci s bodovým rozložením četností, které umožňuje zjistit, kolik studentů dosáhlo určitého výsledku v testu a jak se tyto výsledky kumulují v rámci celého souboru. Statistický soubor s jedním argumentem 110 Tab. 2: Bodové rozložení četností výsledků testu z příkladu 7.10 Body ni Pi (%) Fj (%) 0 5 16,7 16,7 2 3 10,0 26,7 4 2 6,7 33,4 5 2 6,7 40,1 6 4 13,3 53,4 7 3 10,0 63,4 8 2 6,7 70,1 9 1 3,3 73,4 10 4 13,3 86,7 12 2 6,7 93,4 15 2 6,7 100,0 Celkem 30 100,0 - 0 2 4 5 6 7 8 9 10 12 15 Obr. 13: Graf empirické distribuční funkce pro bodové rozložení četností z příkladu 7.10 1 0,934 0,867 0,734 0,701 0,634 0,534 0,401 0,334 0,267 0,167 111 Základy statistiky Intervalové rozložení četností Od bodového se liší tím, že na počátku celkový interval (rozsah) hodnot rozdělíme na menší podintervaly (rozsahy) a následně četnosti přiřazujeme celým těmto podintervalům. Po tomto kroku již vše funguje jako u bodových četností. Ukažme si to na následujícím příkladu. Příklad 7.11 (Intervalové rozložení četností). U 70 žen byla změřena hladina hemoglobinu s přesností 0,1 g/100 ml. Výsledky jsou následující: 10,2; 13,7; 10,4; 14,9; 11,5; 12,0; 11,0; 13,3; 12,9; 12,1; 9,4; 13,2; 10,8; 11,7; 10,5; 13,7; 11,8; 14,1; 10,3; 13,6; 12,1; 12,9; 11,4; 12,7; 10,6; 11,4; 11,9; 9,3; 13,3; 14,6; 11,2; 11,7; 10,9; 10,4; 12,0; 12,9; 11,1; 10,2; 11,6; 12,5; 13,4; 12,1; 9,7; 11,3; 10,9; 14,7; 10,8; 13,3; 11,9; 11,4; 12,5; 13,0; 11,6; 13,4; 12,3; 11,0; 14,6; 11,1; 13,5; 10,9; 13,1; 11,8; 12,2. Vytvořte tabulku rozložení intervalových čeností (absolutních, relativních a kumulativních relativních). Řešení: Intervalové rozložení četností je zobrazeno v tabulce 3. □ Tab. 3: Intervalové rozložení četností hladiny hemoglobinu u žen z příkladu 7.11 Hladina hemoglobinu v g/100 ml n3 ps (%) Fi (%) 8,0 8,9 1 1,4 1,4 9,0 9,9 3 4,3 5,7 10,0 10,9 14 20,0 25,7 11,0 11,9 19 27,1 52,9 12,0 12,9 14 20,0 72,9 13,0 13,9 13 18,6 91,4 14,0 14,9 5 7,1 98,6 15,0 15,9 1 1,4 100,0 Celkem 70 100,0 - Tento příklad ilustruje základní práci s intervalovým rozložením četností, které nám umožňuje zjistit rozložení hodnot v rámci měřeného souboru a sledovat kumulativní četnosti pro jednotlivé intervaly. 7.2.1 Grafické znázornění četností Znázorňujeme relativní a absolutní četnosti nebo relativní a absolutní kumulativní četnosti. Statistický soubor s jedním argumentem 112 Koláčový graf Koláčový graf se používá pro zobrazení absolutních i relativních četností, ale v obou případech vypadá stejně. Liší se jen popiskami (absolutními nebo relativními, ale mohou tam být i obě). Na obrázku 14 je příklad koláčového grafu, který zobrazuje rozložení prodeje různých kategorií produktů ve firmě. ■ Produkty A ■ Produkty B ■ Produkty C □ Produkty D ■ Produkty E Obr. 14: Koláčový graf rozložení prodeje produktů ve firmě Histogram (sloupcový graf) Histogram je sloupcový graf, který používáme pro znázornění rozložení četností. U bodového rozložení četností přiřadíme hodnotě xy] obdélník, jehož výška je úměrná zjištěné četnosti. Na obrázku 15 je histogram výsledků testu ze statistiky z příkladu 7.10. 5 t t i > i l > 0 2 4 5 6 7 8 9 10 12 15 Obr. 15: Histogram absolutních četností výsledků testu ze statistiky z příkladu 7.10 Histogram pro hladinu hemoglobinu (v g/100 ml) z příkladu 7.11 je na obrázku 16. Každý sloupec pokrývá celý rozsah daného intervalu. 113 Základy statistiky 8 9 10 11 12 13 14 15 Obr. 16: Histogram relativních četností hladiny hemoglobinu z příkladu 7.11 7.3 Charakteristiky polohy a variability Charakteristiky polohy a variability jsou základními nástroji pro popis rozložení dat. Mezi charakteristiky polohy patří například aritmetický průměr, medián, modus a výběrové kvantily. Tyto charakteristiky poskytují informace o střední hodnotě dat a jejich umístění. Charakteristiky variability zahrnují mj. rozptyl, směrodatnou odchylku, rozpětí a interkvar-tilové rozpětí. Tyto charakteristiky popisují, jak jsou data rozptýlena kolem střední hodnoty. Společně tyto charakteristiky umožňují komplexní popis a analýzu statistických dat. 7.3.1 Míry polohy Míry polohy, nebo také charakteristiky centrální tendence, popisují střední hodnotu dat a poskytují přehled o tom, kde se data nejvíce koncentrují. Mezi nej důležitější charakteristiky patří: ' Aritmetický průměr - Aritmetický průměr je nejběžnější charakteristika centrální tendence, která se počítá jako součet všech hodnot dělený jejich počtem: _ 1 n x > x;t, n r—f i=i kde n je počet hodnot a x i jsou jednotlivé hodnoty. ' Medián - Medián je střední hodnota uspořádaných dat. U lichého počtu hodnot je medián prostřední hodnota, u sudého počtu hodnot je medián průměr dvou prostředních hodnot. Medián je vhodný pro data s odlehlými hodnotami, protože není těmito extrémy ovlivněn. ' Modus - Modus je hodnota, která se v datech vyskytuje nejčastěji. V některých případech mohou data mít více než jeden modus, což se označuje jako multimodální rozdělení. Harmonický průměr - Harmonický průměr je vhodný pro průměrování veličin, které jsou podíly nebo kde jsou extrémy ve významu: _ n •^harm v^n ~ • Statistický soubor s jedním argumentem 114 Geometrický průměr - Geometrický průměr je vhodný pro data, která se vztahují k růstu nebo procentním změnám: •^geom ( 1 ) \i=l / Výběrové kvantily - Výběrové kvantily jsou hodnoty, které dělí seřazený výběr do daného počtu stejně velkých částí. Nejčastěji používané kvantily jsou: První kvartil (0,25 kvantil) - Hodnota, pod kterou leží 25% dat. • Medián (0,5 kvantil) - Hodnota, pod kterou leží 50% dat. Třetí kvartil (0,75 kvantil) - Hodnota, pod kterou leží 75% dat. Výběrové kvantily se určí z uspořádaných dat jako hodnoty, které odpovídají pozicím a(n + 1), kde a je daný kvantil a n je počet pozorování. Pokud pozice není celé číslo, používá se lineární interpolace. Tyto charakteristiky jsou klíčové pro popis rozložení dat a mají široké uplatnění v mnoha oblastech statistické analýzy, od popisu jednoduchých souborů dat po složitější ekonomické či demografické analýzy. Aritmetický průměr Pozorování x±,... ,xn jsou náhodné hodnoty z nesetříděného nebo setříděného souboru. Aritmetický průměr je základní mírou polohy, která se počítá jako součet všech pozorování dělený jejich počtem. Definice 7.13. Aritmetický průměr setříděného souboru: rrjipi H-----h X[r]nr _ 1 ni H-----Ynr n t=i Definice 7.14 (Vážený aritmetický průměr). Pokud je soubor rozdělen do s dílčích souborů, které mají své vlastní průměry x,j_ a rozsahy n,-n můžeme vypočítat vážený aritmetický průměr: X = rii H-----Vns 115 Základy statistiky Tento vzorec se používá například při výpočtech, kdy jednotlivé části souboru mají různé váhy nebo velikosti, které je třeba zohlednit při výpočtu celkového průměru. Vhodné a nevhodné využití aritmetického průměru Aritmetický průměr je velmi užitečná míra centrální tendence v situacích, kdy jsou data rovnoměrně rozložena a nejsou ovlivněna extrémními hodnotami. Vhodné využití: Aritmetický průměr je vhodný pro soubory dat, které mají symetrické rozdělení (například normální rozdělení), protože průměr zde dobře reprezentuje střed dat. Používá se ve statistikách výkonu, výzkumu nebo finanční analýze, kde jsou hodnoty vyvážené a nemají extrémní odchylky. Nevhodné využití: ' Aritmetický průměr je nevhodný pro soubory dat, které mají výrazně asymetrické rozdělení nebo obsahují odlehlé (extrémní) hodnoty. V těchto případech může průměr zkreslovat skutečný střed dat. Například u příjmů, kde několik málo osob má velmi vysoké příjmy, bude aritmetický průměr vyšší než většina příjmů. Průměr také nemusí být reprezentativní v situacích, kde jsou data kategorizovaná nebo mají nominální povahu (například jména nebo pohlaví), kde není možné spočítat „průměr". V těchto případech je vhodnější použít jiné míry polohy, jako je medián nebo modus, které lépe popisují střední hodnoty asymetrických nebo kategoriálních dat. Výběrové kvantily Definice 7.15. Mějme setříděný soubor tedy hodnoty dat jsou uspořádané vzestupně: ^(i) < x(2) < • • • < x{n)i kde indexy označují pořadí hodnot v setříděném souboru. Výběrový a-kvantil je hodnota, která rozděluje seřazený datový soubor na dvě části tak, že: alespoň 100a % všech dat je menších nebo rovných xa, • alespoň 100(1 — a) % všech dat je větších nebo rovných xa. Statistický soubor s jedním argumentem 116 Určení výběrového a-kvantilu z dat Postup určení výběrového a-kvantilu závisí na tom, zda hodnota an (kde n je počet pozorování) je přirozené číslo nebo nikoliv: ' Pokud je an = c, kde c je přirozené číslo, pak výběrový a-kvantil je průměr hodnot na pozicích x^ a x(c+l)'- x(c) + x(c+1) 2 • Pokud an není přirozené číslo, zaokrouhlujeme an na nejbližší vyšší přirozené číslo c a položíme: xa ' Pojmenované kvantily Některé z kvantilů mají svá špecifická jména: ' Medián (0,5 kvantil) - Hodnota, která dělí data na dvě stejně velké části, tedy 50% dat je menší nebo rovno této hodnotě a 50% je větší nebo rovno. Kvartily - Speciální kvantily, které dělí data na čtyři stejné části: První kvartil (0,25 kvantil) - Hodnota, pod kterou leží 25% dat. • Druhý kvartil (0,5 kvantil) - Medián. Třetí kvartil (0,75 kvantil) - Hodnota, pod kterou leží 75% dat. • Decily - Kvantily, které dělí data na deset stejných částí: • První decil (0,1 kvantil) - Hodnota, pod kterou leží 10% dat. • Druhý decil (0,2 kvantil) - Hodnota, pod kterou leží 20% dat, atd. • Devátý decil (0,9 kvantil) - Hodnota, pod kterou leží 90% dat. • Percentily - Kvantily, které dělí data na sto stejných částí: • První percentil (0,01 kvantil) - Hodnota, pod kterou leží 1% dat. • Pátý percentil (0,05 kvantil) - Hodnota, pod kterou leží 5% dat. ' Devadesátý pátý percentil (0,95 kvantil) - Hodnota, pod kterou leží 95% dat. Medián jako speciální případ výběrového kvantilu Medián je speciálním případem výběrového kvantilu pro a = 0,5. Tento kvantil rozdělí data na dvě stejně velké části. 117 Základy statistiky Případ lichého n Pro lichý počet pozorování n, hodnota n x 0,5 není přirozené číslo. Proto podle obecného postupu výpočtu kvantilu zaokrouhlíme n x 0,5 nahoru na nejbližší celé číslo, což určí pořadí mediánu: ^0,5 = X^n+iy Tento vzorec plyne z obecného pravidla zaokrouhlení kvantilu nahoru, kdy medián je hodnota na pozici Příklad 7.16. Mějme soubor o lichém počtu hodnot n = 7, seřazených jako x^ < X(2) < • • • < X(jy Medián bude hodnota na pozici = 4, tedy ž0,5 = ^(4)- D Případ sudého n Pro sudý počet pozorování n, hodnota n x 0,5 je přirozené číslo. Proto medián, stejně jako obecný kvantil pro přirozené hodnoty n x a, bude průměrem dvou hodnot na pozicích: % ( n \ ~\~ % ( ri _i_ -i \ ^0,5 - g • Příklad 7.17. Pro soubor o sudém počtu hodnot n = 8 je n x 0,5 = 4, takže medián je průměrem hodnot na 4. a 5. pozici: _ Z(4) + Z(5) x°<5 ~ 2 • □ Tímto způsobem medián vyplývá jako speciální případ obecného výpočtu výběrového kvantilu, kde pro liché n postupujeme zaokrouhlením nahoru a pro sudé n použijeme průměr dvou středních hodnot: Definice 7.18. Mějme setříděný soubor. Potom medián definujeme takto: x^n+i-j pro liché n, Med(x) = xq^j ^! 3 7—- pro sudé n. Příklad 7.19 (n sudé). Ve výrobě se v posledním půl roce v jednotlivých měsících vyskytl následující počet úrazů: 1, 3, 2, 4, 2, 4. Určete medián, dolní kvartil ž0,25 a horní kvartil ž0,75 počtu úrazů za měsíc. Řešení: Počty uspořádáme vzestupně: 1,2,2,3,4,4 • Medián: _ x(3) + rg(4) _ 2 + 3 Xo<5 ~ 2 " ~Y~ ~ 2,5 • Dolní kvartil: an = 6 • 0,25 = 1,5 =>• žo,25 = ^(2) = 2 • Horní kvartil: an = 6 • 0,75 = 4,5 =>• Žq,75 = ^(5) = 4 Statistický soubor s jedním argumentem 118 □ Příklad 7.20 (n liché). Ve výrobě se v posledním půl roce v jednotlivých měsících vyskytl následující počet úrazů: 1, 3, 2, 4, 2, 4, 1. Určete medián, dolní a horní kvartil počtu úrazů za měsíc. Řešení: Počty uspořádáme vzestupně: 1,1,2,2,3,4,4 Medián: n+1 7+1 a = = 4 ^0,5 = Z(4) = 2 Dolní kvartil: an = 7 ■ 0,25 = 1,75 =>• 2:0,25 = £(2) = 1 Horní kvartil: = 7 • 0,75 = 5,25 =>• Žq,75 = £(6) = 4 Příklad 7.21. Uvažujme data x daná následující tabulkou x Určete první decil žo,i? dolní kvartil a horní kvartil. Řešení: Rozepíšeme si data podle jejich velikosti a četností: ^(1) = • • • = X(10) = 1, 12 3 4 10 12 6 3 1 £(ii) = • • • = rr(22) = 2, 1 ^(23) = • • • = £(28) = 3, 1 ^(29) = • • • = X(3i) = 4. Vidíme, že rozsah souboru je n = 31. Přejdeme k výpočtu jednotlivých kvantilů: • 0,1 kvantil: an = 31 • 0,1 = 3,1 =>• žo,i = ^(4) = 1 • Dolní kvartil: an = 31 • 0,25 = 7,75 =>• £0,25 = £(8) = 1 • Horní kvartil: an = 31 • 0,75 = 23,25 =>• žo,75 = £(24) = 3 □ □ 119 Základy statistiky Využití výběrových kvantilů Výběrové kvantily mají široké využití v různých oborech statistiky a aplikovaných věd. Zde jsou uvedeny některé praktické příklady využití kvantilů: Hladina cholesterolu v krvi Jakou hladinu cholesterolu v krvi nepřekročí 90 % zdravé populace České republiky? Výběrový 90% kvantil by zde představoval referenční hodnotu pro stanovení diagnostických limitů, která se běžně využívá v klinické praxi. Podobně jsou stanoveny referenční hodnoty pro další ukazatele krevního obrazu, například hladinu cukru, triglyceridů nebo krevní tlak. ' Délka lišek Jakou délku nepřekročí 95 % lišek? Zde můžeme využít výběrového 5% a 95% kvantilů k určení rozmezí, ve kterém se nachází většina jedinců dané populace. Například, pokud délka lišek spadá do rozmezí 58-90 cm, můžeme říci, že pouze 5 % lišek je delších než 90 cm a pouze 5 % lišek je kratších než 58 cm. Tyto kvantily pomáhají určit, které jedince považujeme za „typické" a které za extrémní. Stoletá voda Jak definovat pojem stoletá voda? Výběrový 99% kvantil se často používá v hydrologii k definici staleté vody, což je taková výše maximálního ročního průtoku, která je překročena pouze v 1 % případů. Tato hodnota je důležitá pro plánování protipovodňových opatření a pro stavbu infrastruktury v blízkosti vodních toků. ' Požadavky na kapitál pojišťoven Jakou výši kapitálu musí pojišťovny EU držet, aby snížily riziko platební neschopnosti? Pojišťovny jsou regulovány evropskou směrnicí Sol-vency II, která mimo jiné vyžaduje, aby pojišťovny držely kapitál na úrovni, která pokrývá 99,5 % možných finančních rizik v průběhu jednoho roku. Tento požadavek odpovídá výběrovému 99,5% kvantilů. Směrnice tedy stanovuje, že pouze v 0,5 % případů může nastat situace, kdy by pojišťovna nemohla splnit své závazky. ' Testování pomocí SCIO testů SCIO testy jsou jedním z nástrojů pro hodnocení úrovně znalostí žáků a studentů. Například při hodnocení výsledků SCIO testů z matematiky se často využívá kvantily pro stanovení referenčních hranic. Výběrový 25% kvantil určuje hranici pro čtvrtinu nejméně úspěšných studentů, zatímco výběrový 75% kvantil identifikuje hranici, nad kterou se nachází čtvrtina nej úspěšnějších studentů. Na základě těchto kvantilů mohou školy a zřizovatelé porovnávat výkonnost studentů mezi jednotlivými ročníky nebo regiony a stanovovat cíle pro zlepšení výuky. ' Percentilové grafy Kvantily se také často používají k tvorbě percentilových grafů, které poskytují přehled o rozložení dané populace. Percentilové grafy jsou běžně využívány například v pediatrii k porovnávání vývoje růstu dětí vůči standardním referenčním hodnotám. Shrnutí Výběrové kvantily jsou univerzálním nástrojem, který se využívá v mnoha oblastech lidské činnosti - od medicíny, přes hydrologii až po finance a pojišťovnictví. Pomáhají určit referenční hodnoty, identifikovať extrémní případy nebo poskytnout náhled na distribuci dat. Statistický soubor s jedním argumentem 120 7.3.2 Míry variability Míry absolutní variability Míry absolutní variability popisují rozsah variability bez ohledu na střední hodnotu dat. Mezi tyto míry patří: Definice 7.22. Variační obor (x^,x^) - Interval mezi nejmenší a největší hodno- tou v datech. Variační rozpětí R = x^ — x^ - Rozdíl mezi největší a nejmenší hodnotou v datech. ' Kvartilové rozpětí Rq = žo.75 — ^0.25 - Rozdíl mezi třetím a prvním kvartilem. Kvartilová odchylka - Polovina kvartilového rozpětí. Definice 7.23. Rozptyl - Střední kvadratická odchylka hodnot od průměru: 1 11 S x / (Xj X) . n -1- 1=1 Pro seskupená data je rozptyl definován jako: k 1 k i=i kde n,i je četnost hodnoty g^. Míry relativní variability Míry relativní variability se používají k porovnání variability mezi různými datovými soubory které mohou mít rozdílné jednotky nebo měřítko: 121 Základy statistiky Definice 7.25. Variační koeficient v; x je relativní míra variability vyjádřená jako podíl směrodatné odchylky a aritmetického prů- měru. Relativní kvartilová odchylka Q r ^0.75 — ^0.25 ^0.75 + ^0.25 je míra relativní variability založená na kvartilech. Míry absolutní variability hodnotí rozptyl v datech přímo, zatímco míry relativní variability umožňují lépe srovnávat datové soubory s různými měřítky. Příklad 7.26. Ve dvou firmách byly zkoumány měsíční platy zaměstnanců. Ve firmě A jsou platy následující (v tisících Kč): 25, 28, 30, 32, 35. Ve firmě B jsou platy (v tisících Kč): 20, 22, 24, 26, 80. Porovnejte variabilitu platů ve firmách A a B pomocí rozptylu a variačního koeficientu. Řešení: Nejprve vypočteme aritmetický průměr pro obě firmy: 25 + 28 + 30 + 32 + 35 xA 5 30, 20 + 22 + 24 + 26 + 80 xB =-z-= 34,4. 5 Dále spočítáme rozptyl pro obě firmy: Pro firmu A: 1 3 a 5 - 1 (25 - 30)2 + (28 - 30)2 + (30 - 30)2 + (32 - 30)2 + (35 - 30)2 -44 = 11. Pro firmu B: 3B 5- 1 (20 - 34,4)2 + (22 - 34,4)2 + (24 - 34,4)2 + (26 - 34,4)2 + (80 - 34,4)2 4 -3637,6 = 909,4. Nyní vypočítáme variační koeficienty pro obě firmy: Pro firmu A: VA = — = — ~ 0,11. xA 30 Pro firmu B: Statistický soubor s jedním argumentem 122 Závěr: Variabilita platů ve firmě A je výrazně nižší než ve firmě B. Variační koeficient ve firmě B je mnohem vyšší kvůli extrémně vysokému platu (80 tisíc Kč), který zvyšuje rozptyl a tedy i míru variability. □ 7.4 Míry tvaru rozdělení Kromě charakteristik polohy a variability existují i charakteristiky, které popisují tvar rozdělení dat. Mezi hlavní charakteristiky tvaru rozdělení patří: Definice 7.27. Výběrová šikmosť (skewness) měří asymetrii rozdělení dat: n ^+ ( Xj — x x 3 7l= (n-l)(n-2)éí Kladná hodnota značí pozitivní šikmost (ocas na pravé straně je delší), záporná hodnota značí negativní šikmost (ocas na levé straně je delší). Definice 7.28. Výběrová špičatost (kurtosis) - Měří „ostrost" vrcholu rozdělení dat: Sj=l (Xi x) 0 72 = -1--3, nebo také korigovaná verze, která funguje i pro malé výběry: n(n + l) ?fXi-x\4 3(n-l)2 ^2 ~~ ím _ ~\\(rr, _ 0\írr, _ 0\ 2-^ (n - l)(n - 2)(n - 3) ^ V sx ) (n-2)(n-3)' Hodnota vyšší než 0 značí rozdělení s vyšší špičatostí než normální rozdělení, hodnota nižší než 0 značí rozdělení s plošším tvarem. Příklad 7.29. V následující tabulce jsou uvedeny hodnoty datového souboru: 2, 3, 5, 7, 8, 10. Spočítejte výběrovou šikmost a špičatost tohoto datového souboru. Řešení: Nejprve vypočteme aritmetický průměr a směrodatnou odchylku: 2 + 3 + 5 + 7 + 8 + 10 roo x =-= 5.83. 6 Směrodatná odchylka (výběrová) je: 1 A, II, 5- = \ 1—, Ete " T)2 = \IH(2 ~ 5>83)2 + (3 " 5>83)2 + • • • + (10 - 5,83)2] = 2,93. Výběrová šikmost (skewness): 123 Základy statistiky Výběrová šikmost se počítá podle vzorce: _ 6 A /Xi-x\3 71 " (6-l)(6-2)áíl~*rJ ' Pro náš datový soubor po dosazení jednotlivých členů získáme: 7i « 0,0465. Tato hodnota znamená, že rozdělení má velmi malou pozitivní šikmost (ocas na pravé straně je nepatrně delší). Výběrová špičatost (kurtosis): Výběrová špičatost se počítá podle vzorce: 6(6 + 1) ^/Xi-x\4 3(6-l)2 72 ~ (6-l)(6-2)(6-3)^l sx ) ~ (6-2)(6-3)' Po dosazení členů a výpočtu získáme: 72 « -1,4137. Tato hodnota znamená, že rozdělení má plošší vrchol než normální rozdělení. □ 7.5 Řešené příklady Příklad 7.30. Určete relativní, kumulativní a relativní kumulativní četnosti dat z tabulky: 0 1 2 3 4 Tli 7 44 56 30 12 Řešení: Nejprve vypočítáme celkový počet prvků n: 5 n = rii = 7 + 44 + 56 + 30 + 12 = 149. Relativní četnosti p,~ se vypočítají jako podíl absolutní četnosti n,i a celkového počtu prvků n: 0 1 2 3 4 E Tli 7 44 56 30 12 149 Pi 0,047 0,295 0,376 0,201 0,081 1 Nyní vypočítáme kumulativní četnosti Nf. Statistický soubor s jedním argumentem 124 Nt = J2ny Například pro rrp] = 1: jV2 = 7 + 44 = 51. Podobně pro další hodnoty: 0 1 2 3 4 7 51 107 137 149 Relativní kumulativní četnosti Fi se vypočítají jako podíl kumulativní četnosti N a celkového počtu prvků n: F = —. n Například pro rr^j = 2: 107 F3 =-« 0,71* 3 149 Tabulka relativních kumulativních četností: 0 1 2 3 4 Fi 0,047 0,342 0,718 0,919 1 □ Příklad 7.31. Vypočtěte empirické charakteristiky: modus, kvartily, střední hodnotu, rozptyl, směrodatnou odchylku, šikmost a špičatost (exces) variační řady: 0 1 2 3 4 Tli 7 44 51 30 12 Řešení: Nejprve vypočítáme celkový počet prvků n: 5 n = = 7 + 44 + 51 + 30 + 12 = 144. 1. Modus: 125 Základy statistiky Modus je hodnota s nejvyšší četností: Mo = 2. 2. Kvartily: Pořadí kvartilů vypočítáme pomocí a ■ n, kde a je hodnota kvantilu: a = 0,25 : a ■ n = 0,25 • 144 = 36. Kvartil žo,25 Je tedy průměr hodnot na pozicích 36 a 37 v uspořádaném souboru, což odpovídá hodnotě: ^0,25 — —^— ~~ Podobně pro medián (druhý kvartil): a = 0,5: a ■ n = 0,5 • 144 = 72. Medián žq,5 Je tedy průměr hodnot na pozicích 72 a 73 v uspořádaném souboru, což odpovídá hodnotě: 2 + 2 x0,5 = —= 2. A pro třetí kvartil: a = 0,75 : a-n = 0,75 • 144 = 108. Třetí kvartil žo,75 Je tedy průměru hodnot na pozicích 108 a 109 v uspořádaném souboru, což odpovídá hodnotě: ~ _3 + 3 o ^0,75 — —^— — 3. Aritmetický průměr x: Aritmetický průměr se vypočítá takto: Ei=i zrn -m 0 • 7 + 1 • 44 + 2 • 51 + 3 • 30 + 4 • 12 284 x =--=- =-?a 1,97. E-=i^ 144 144 4. Rozptyl s2x: Rozptyl se vypočítá jako: 2 _ ^2j=l(x[i] ~ x)2 " ni Eí=i rii _ (0 - 1,97)2 ■ 7 + (1 - 1,97)2 ■ 44 + (2 - 1,97)2 ■ 51 + (3 - 1,97)2 ■ 30 + (4 - 1,97)2 ■ 12 ~ 144 « 0,872. 5. Směrodatná odchylka sx: Statistický soubor s jedním argumentem 126 Směrodatná odchylka je odmocnina rozptylu: sx = Js2x « VbJŠŤž « 0,934. 6. Šikmost 7i: Sikmost se vypočítá jako: Eí=i(z[í] - x)3 ■ m 7i = Po dosazení získáme hodnotu přibližně: 7i « -0,11. Hodnota blízká 0 naznačuje, že rozdělení je téměř symetrické. 7. Spičatost 72: Spičatost se vypočítá jako: 72 =- 5 4--3. Po dosazení získáme hodnotu přibližně: 72 « -0,57. Záporná hodnota naznačuje ploché rozdělení. □ OV této kapitole jsme prozkoumali základní charakteristiky jednorozměrného statistického souboru. Zaměřili jsme se na popisné statistiky jako průměr, medián, modus, rozptyl, směrodatnou odchylku, šikmost a spičatost. Aritmetický průměr popisuje „průměrnou" hodnotu v souboru. ' Medián rozděluje soubor na dvě stejně velké části a je méně citlivý na extrémní hodnoty než průměr. • Modus je nejčastěji se vyskytující hodnota. ' Rozptyl a směrodatná odchylka udávají, jak moc se hodnoty liší od průměru. • Sikmost hodnotí asymetrii rozložení, spičatost popisuje tvar vrcholu rozložení. Ukázali jsme si, jak tyto charakteristiky vypočítat a interpretovat. Jsou klíčové pro analýzu dat v různých oblastech výzkumu a praxe. 127 Základy statistiky e 1. Co je to aritmetický průměr a jak se vypočítá? 2. Jaký je rozdíl mezi mediánem a aritmetickým průměrem? 3. Kdy je vhodnější použít medián místo průměru? 4. Co vyjadřuje rozptyl a jaký má vztah ke směrodatné odchylce? 5. Jaký význam má šikmost a špičatost (exces) při analýze rozložení dat? 6. Jak se vypočítá relativní četnost a kumulativní relativní četnost? 7. Co jsou to kvartily, jaký je jejich vztah ke kvantilům? 8. Určete medián a průměr měsíční spotřeby elektrické energie (kWh) v bytech z následujících údajů: 169, 108, 26, 43, 114, 68, 35, 183, 103, 266, 74, 205, 62, 230, 85, 487, 120, 148, 91, 18, 58, 96, 295, 42, 137. [103, 151,64] 9. Zkoušky životnosti žárovek daly následující výsledky (v hodinách): 606, 1249, 267, 44, 510, 340, 109, 1957, 463, 801, 1082, 169, 233, 1734, 1458, 80, 1023, 2736, 917, 459. Určete průměrnou dobu životnosti žárovek a jejich rozptyl. [938,35, 757,9] Literatura k tématu: [1] HINDLS, R. Statistika pro ekonomy. 8. vyd. Praha: Professional Publishing, 2007. ISBN 978-80-869-4643-6. ISBN 978-80-867-3208-8. [2] MAREK, L. Statistika v příkladech. 2. vyd. Praha: Kamil Mařík - Professional Publishing, 2015. ISBN 978-80-743-1153-6. [3] OTIPKA, P., SMAJSTRLA, V. Pravděpodobnost a statistika [online]. 1. vydání. Ostrava: VŠB-TU Ostrava, 2007 [cit. 2024-09-09]. ISBN 80-248-1194-4. Dostupné z: https://homel.vsb.cz/~oti73/cdpastl/ [4] ZVÁRA, K. a ŠTĚPÁN, J. Pravděpodobnost a matematická statistika. Matfyzpress, 2019. ISBN 978-80-7378-388-4. I Kapitola 8 Statistický soubor se dvěma argumenty Po prostudování této kapitoly budete umět: určit základní charakteristiky dvourozměrného statistického souboru, vypočítat střední hodnotu, rozptyl a kovarianci pro dvourozměrný soubor, využít vhodné grafické nástroje pro vizualizaci dvourozměrných dat, ' interpretovat výsledky analýzy závislosti mezi dvěma znaky. ©Klíčová slova: Dvourozměrný soubor, aritmetický průměr, kovariance, rozptyl, směrodatná odchylka, kontingenční tabulka, bodový graf. 129 Základy statistiky Tab. 4: Ukázka dvourozměrného statistického souboru Statistická jednotka Znak X (Výška v cm) Znak Y (Hmotnost v kg) 1 170 65 2 165 70 3 180 80 4 175 75 5 160 60 Náhled kapitoly Zde přímo navazujeme na předchozí kapitolu, její látku rozšíříme na případ dvou proměnných. Novinkou budou pojmy špecifické pro tento dvojrozměrný případ, například kontingenční tabulky, bodové grafy a kovariance, které popisují vztahy dvojice proměnných. Pokročilejší metody, jako jsou regrese a korelace, si necháme až na další kapitoly. Cíle kapitoly Cílem této kapitoly je získat povědomí o rozdílu mezi jednorozměrným a dvojrozměrným případem a nachystat si pojem kovariance pro další kapitolu. Časová náročnost Pro tuto kapitolu doporučujeme vyčlenit přibližně 2 hodiny, které zahrnují jak studium teoretických částí, tak procvičování praktických příkladů a aplikací. Úvod Dvourozměrný statistický soubor se skládá z dvojic hodnot (argumentů), kde každý argument představuje hodnotu jiného statistického znaku měřeného na stejných statistických jednotkách. Tento typ souboru je používán k analýze vztahů mezi dvěma různými proměnnými, například výškou a hmotností osob, věkem a platem zaměstnanců, apod. Každá statistická jednotka je tedy charakterizována dvojicí hodnot, které spolu mohou nebo nemusí být nějakým způsobem závislé. Dvourozměrný statistický soubor nám umožňuje analyzovat nejen vlastnosti jednotlivých znaků samostatně, ale i vztah mezi nimi. Příklad dvourozměrného statistického souboru je v tabulce 4: V tomto příkladu je znak X výška v centimetrech a znak Y hmotnost v kilogramech. Každý řádek představuje jednu statistickou jednotku (například jednu osobu), na které jsou měřeny oba znaky současně. Statistický soubor se dvěma argumenty 130 8.1 Základní pojmy Statistická jednotka: Objekt, na kterém jsou měřeny oba znaky. Může to být osoba, firma, stroj apod. Každá statistická jednotka má přiřazenou dvojici hodnot - jednu pro každý znak. Znak x: První proměnná, která je měřena na všech statistických jednotkách. Například výška osob nebo věk zaměstnanců. Znak y: Druhá proměnná, která je rovněž měřena na stejných statistických jednotkách jako znak x. Například hmotnost osob nebo plat zaměstnanců. Dvojice hodnot: Každá statistická jednotka má přiřazenou dvojici hodnot (x,-ny,j), kde Xi je hodnota znaku x a y i je hodnota znaku y pro i-tou statistickou jednotku. Statistický soubor: Množina všech dvojic hodnot (xi,yi), (x2,y2), ■ ■ ■, (xn,yn), kde n je počet statistických jednotek. Rozsah souboru: Počet statistických jednotek v souboru, označovaný jako n. V dvourozměrném souboru je rozsah stejný pro oba znaky, protože oba znaky jsou měřeny na stejných jednotkách. Můžeme se vrátit k tabulce 4, kde jsou statistickými jednotkami jednotlivé osoby, znakem x je výška a znakem y je hmotnost. Rozsah souboru n = 5. 8.2 Tabulkové a grafické zobrazení dvourozměrných dat Při práci s dvourozměrným statistickým souborem je důležité umět data správně zobrazit. Existují různé způsoby, jak data vizualizovat a interpretovat. Mezi nejběžnější metody patří kontingenční tabulky a bodové grafy. Kontingenční tabulky Kontingenční tabulky se používají pro dvourozměrné soubory s diskrétními znaky. Tabulka obsahuje četnosti výskytu jednotlivých kombinací hodnot znaků x a y. Tyto tabulky poskytují přehled o tom, jak často se různé kombinace hodnot vyskytují ve statistickém souboru. 131 Základy statistiky Řádky tabulky představují jednotlivé kategorie znaku X. Sloupce tabulky představují jednotlivé kategorie znaku Y. Buňky tabulky obsahují absolutní četnosti kombinací hodnot X a,Y. Tab. 5: Ukázka kontingenční tabulky Y1 Y2 Y3 x1 5 7 3 x2 8 12 4 x3 6 2 9 Příklad kontingenční tabulky je v tabulce 5, kde jsou zobrazeny četnosti kombinací hodnot X a Y. Například hodnota 5 znamená, že kombinace X\ a Y\ se vyskytuje pětkrát. Kontingenční tabulky jsou užitečné pro analýzu závislosti mezi dvěma diskrétními znaky. Mohou být základem pro další metody analýzy, jako je například výpočet podmíněných pravděpodobností nebo chi-kvadrát test závislosti. Bodové grafy Bodové grafy (scatter plots) se používají pro dvourozměrné soubory, kde oba znaky nabývají spojitých hodnot. Na ose x je vynášen znak X a na ose y znak Y. Každá dvojice hodnot (xi} í/j) se zobrazuje jako bod v rovině. "150 155 160 165 170 175 180 185 190 Výška (cm) Obr. 17: Ukázka bodového grafu Příklad bodového grafu je na obrázku 17. Každý bod v grafu představuje jednu statistickou jednotku a její hodnoty znaků X a, Y. Například bod na souřadnicích (160, 60) odpovídá jednotce s výškou 160 cm a hmotností 60 kg. CO o 70 60 Statistický soubor se dvěma argumenty 132 Bodové grafy umožňují vizuálně analyzovat vztah mezi dvěma znaky. Pokud jsou body uspořádány podél určité linie nebo křivky, může to naznačovat nějaký druh závislosti mezi znaky laľ. Tyto grafy jsou základním nástrojem pro identifikaci vzorů a závislostí v datech. Grafická zobrazení nám pomáhají lépe pochopit vztah mezi dvěma znaky. V případě bodového grafu může například kladná korelace znamenat, že vyšší hodnoty znaku X jsou často doprovázeny vyššími hodnotami znaku Y. Naopak záporná korelace by znamenala, že vyšší hodnoty jednoho znaku jsou spojeny s nižšími hodnotami druhého. Kontingenční tabulky nám umožňují odhalit závislosti mezi kategoriemi dvou znaků. Pokud se některé kombinace kategorií vyskytují mnohem častěji než jiné, může to naznačovat silnou závislost mezi znaky. Tabulkové a grafické metody jsou důležité nástroje pro první krok analýzy dvourozměrných statistických souborů, protože poskytují vizuální a kvantitativní přehled o datech. 8.3 Míry polohy a variability pro dvourozměrný soubor 8.3.1 Míry polohy Podobně jako u jednorozměrného statistického souboru, můžeme i u dvourozměrného souboru vypočítat míry polohy pro oba znaky laľ. Tyto míry zahrnují aritmetický průměr, medián a modus. Pro každý znak zvlášť můžeme vypočítat aritmetický průměr, který udává střední hodnotu daného znaku v souboru. Zde X je průměrná hodnota znaku X a Y je průměrná hodnota znaku Y. Výpočty probíhají stejným způsobem jako v jednorozměrném souboru. Příklad 8.1. Pro dvourozměrný statistický soubor z předchozího příkladu (výška a hmotnost osob) bychom vypočítali průměrnou výšku a hmotnost následovně: Interpretace grafických zobrazení Aritmetický průměr x = — i=l lb i=l X = 170 + 165 + 180 + 175 + 160 5 170 cm 133 Základy statistiky 65 + 70 + 80 + 75 + 60 V =-z-= 70 kg. 5 Podobným způsobem by se vypočítaly mediány a modus pro oba znaky. □ 8.3.2 Míry variability a kovariance Míry variability pro dvourozměrný statistický soubor jsou obdobné jako u jednorozměrného souboru, přičemž jsou vypočítávány zvlášť pro každý znak laľ. Rozptyl a směrodatná odchylka Rozptyl a směrodatná odchylka se pro dvourozměrný soubor počítají obdobně jako v jednorozměrném případě, zvlášť pro každý znak: Y n 1 n 4 =—7H(^-^)2, 4 =—-J2(yí-y)2- n - 1 n~ 1 £í Směrodatná odchylka je druhá odmocnina rozptylu: Podrobnosti o rozptylu a směrodatné odchylce byly probrány v předchozí kapitole o jednorozměrném statistickém souboru. Kovariance Kovariance měří míru vzájemné závislosti mezi dvěma znaky laľ. Je-li kovariance kladná, znamená to, že se vysoké hodnoty znaku X pojí s vysokými hodnotami znaku Y. Záporná kovariance naopak naznačuje, že vyšší hodnoty jednoho znaku se pojí s nižšími hodnotami druhého znaku. Definice 8.2. Kovariance se vypočítá podle vzorce: 1 n Cov(X, Y) = —— 5>ť - x){Vi - y). n 1 i=i Pokud jsou hodnoty X a,Y nezávislé, je jejich kovariance blízká nule. Příklad 8.3. Uvažujme opět dvourozměrný statistický soubor (výška a hmotnost osob) (tabulka 4). Vypočteme kovarianci. Statistický soubor se dvěma argumenty 134 Řešení: Nejprve vypočítáme průměry: x = 170, y = 70. Poté vypočítáme kovarianci: Cov(X,Y) = -J—[(170- 170)(65-70) + (165-170)(70-70) + - •• + (160-170)(60-70)1 = 50. 5 — 1 Tato kladná hodnota kovariance naznačuje, že mezi výškou a hmotností existuje pozitivní vztah — vyšší osoby mají obecně vyšší hmotnost. □ 8.4 Řešené příklady Příklad 8.4. Vypočítejte základní číselné charakteristiky dvourozměrného statistického souboru. Tabulka uvádí hodnoty V a V pro jednotlivá pozorování: x\y 20 30 40 50 60 70 80 250 19 5 350 23 116 11 450 1 41 98 9 550 4 32 65 7 650 1 4 21 46 3 750 1 2 11 13 1 850 1 3 2 Řešení: Pro řešení vypočítáme: 1. Průměry: x = — ■ 259800 « 481,1, y = — • 22030 « 40,80. 540 ' ' y 540 2. Rozptyly: 4 = — • 134490000 - 481,l2 « 17587,65, sl = — • 989900 - 40,82 « 168,81. x 540 ' ' ' Y 540 ' 3. Směrodatné odchylky: sx ~ 132,62, sY « 12,99. 4. Kovariance: Cov( V V) = — • 11427500 - 481,1 • 40,8 « 1534,49. v ' ) 540 ' □ 135 Základy statistiky Příklad 8.5. Vypočítejte číselné charakteristiky dvourozměrného statistického souboru, který je zadán tabulkou: X 27 31 87 93 114 124 190 193 250 254 264 272 308 324 y 28 21 71 36 30 43 54 54 59 25 82 22 38 22 371 372 440 442 502 503 506 522 556 620 624 56 63 46 24 33 40 41 28 53 38 66 Řešení: Výpočty provedeme pomocí Excelu: 1. Průměry: _ 7989 _ 1073 x =-319,56, y =- 25 25 42,92. 2. Rozptyly: 3371599 25 319,562 « 32745,37, s2Y 52945 25 42,922 « 275,67. 3. Směrodatné odchylky: sx ~ 180,96, sY « 16,60. 4. Kovariance: 3492^0 Cov(X, Y) =--319,56 • 42,92 « 254,48. 25 □ OV této kapitole jsme se seznámili s dvourozměrným statistickým souborem, který analyzuje dvojice hodnot (xi,yi) pro každou statistickou jednotku. Pro oba znaky jsme vypočítali základní míry polohy (průměr, medián, modus) a variability (rozptyl, směrodatná odchylka). Představili jsme kovarianci jako nástroj k měření závislosti mezi dvěma znaky, kde kladná kovariance ukazuje na pozitivní vztah a záporná na negativní. Kromě výpočtů jsme se věnovali kontingenčním tabulkám pro diskrétní znaky a bodovým grafům pro spojité znaky, které umožňují vizuální analýzu vztahů mezi znaky. Tato kapitola připravuje základ pro další analýzy závislostí mezi dvěma znaky, které budou následovat v příštích kapitolách. Statistický soubor se dvěma argumenty 136 8.5 Kontrolní otázky 1. Jaký je rozdíl mezi jednorozměrným a dvourozměrným statistickým souborem? 2. Jak vypočítáme aritmetický průměr pro dvourozměrný statistický soubor? 3. Co znamená kovariance a jaký má význam při analýze dvourozměrného souboru? 4. Jaká je interpretace kladné a záporné hodnoty kovariance? 5. Jaký grafický nástroj lze použít pro vizualizaci dvourozměrného statistického souboru, kde oba znaky jsou spojité? 6. Jak funguje kontingenční tabulka a kdy ji použijeme? 7. Jaký je vztah mezi rozptylem a směrodatnou odchylkou pro jednotlivé znaky v dvourozměrném statistickém souboru? 8. Proč používáme bodový graf (scatter plot) při analýze dvourozměrných dat a co nám ukazuje o závislosti mezi znaky X a Yl 9. U 130 zákrsků bylo zjištěno stáří stromu v letech (argument X) a sklizeň v jistém roce v kg (argument Y). Podle údajů v tabulce určete kovarianci. X\Y 4 5 6 7 8 9 10 11 3 6 0 0 0 0 0 0 0 4 0 5 10 2 0 0 0 0 5 0 0 0 2 8 3 0 0 6 0 0 0 0 0 12 10 0 7 0 0 0 0 0 8 15 4 8 0 0 0 0 4 16 8 0 9 0 3 12 2 0 0 0 0 [Cov(X,Y) « 1,12] e Literatura k tématu: [1] HINDLS, R. Statistika pro ekonomy. 8. vyd. Praha: Professional Publishing, 2007. ISBN 978-80-869-4643-6. ISBN 978-80-867-3208-8. [2] MAREK, L. Statistika v příkladech. 2. vyd. Praha: Kamil Mařík - Professional Publishing, 2015. ISBN 978-80-743-1153-6. [3] OTIPKA, P., SMAJSTRLA, V. Pravděpodobnost a statistika [online]. 1. vydání. Ostrava: VŠB-TU Ostrava, 2007 [cit. 2024-09-09]. ISBN 80-248-1194-4. Dostupné z: https://homel.vsb.cz/~oti73/cdpastl/ [4] ZVÁRA, K. a ŠTĚPÁN, J. Pravděpodobnost a matematická statistika. Matfyzpress, 2019. ISBN 978-80-7378-388-4. Kapitola 9 Regresní a korelační analýza Po prostudování této kapitoly budete umět: > vysvětlit, co korelační koeficient popisuje a jaké jsou jeho varianty, > vypočítat Pearsonův korelační koeficient na základě zadaných dat. • interpretovat výsledky korelační analýzy, používat Excel nebo jiný statistický software k výpočtu korelačních koeficientů, • odhadovat parametry lineárního regresního modelu, • aplikovat lineární regresi na reálná data, • používat Excel a modul Analýza dat - Regrese pro výpočty. Klíčová slova: Korelační koeficient, statistická závislost, lineární vztah, ineární regrese, regresní analýza, regresní koeficienty, Excel, modul Analýza dat. Regresní a korelační analýza 138 Náhled kapitoly V této kapitole navážeme na předchozí kapitolu, kde jsme zkoumali vztah dvou statistických znaků. Zde se seznámíme s dvěma pokročilejšími metodami analýzy těchto závislostí. Korelační analýza slouží k měření síly a směru lineárního vztahu mezi dvěma proměnnými. Probereme různé varianty korelačních koeficientů a jejich využití v praxi, zejména Pearsonův korelační koeficient, který je nejčastěji používán. Ukážeme si také omezení tohoto koeficientu a situace, kdy je vhodné použít alternativní metody. Metoda lineární regrese umožňuje odhadnout vztah mezi závislou a nezávislou proměnnou pomocí přímky (případně i jiné křivky). Obě metody se naučíme provádět i v Excelu. Cíle kapitoly Cílem této kapitoly je praktické seznámení s dvěma metodami, korelační a regresní analýzou, které nám umožňují studovat vztah (závislost) dvou statistických znaků. Odhad času potřebného ke studiu Odhaduje se, že studium této kapitoly zabere přibližně 3 hodiny. Tento čas zahrnuje čtení textu, pochopení teoretických konceptů a řešení příkladů (i v Excelu). 9.1 Princip korelační analýzy Co je to korelační koeficient? Korelační koeficient je statistická míra, která určuje sílu a směr vztahu mezi dvěma proměnnými. Pearsonův korelační koeficient, označovaný jako r, měří lineární vztah mezi dvěma spojitými proměnnými a nabývá hodnot mezi -1 a 1. Pokud je r = 1, jedná se o perfektní pozitivní lineární vztah, pokud r = — 1, jedná se o perfektní negativní lineární vztah, a pokud r = 0, neexistuje žádná lineární závislost mezi proměnnými. Výpočet korelačního koeficientu Definice 9.1. Pearsonův korelační koeficient je definován vztahem: Cov(X, Y) = J2(xt - x) ■ (yt - y) kde Xi a yri jsou jednotlivé hodnoty obou proměnných, a x a y jsou jejich průměry. 139 Základy statistiky Řešené příklady Příklad 9.2. Mějme data o prodejích produktů ve dvou různých regionech. Vypočítejte Pear-sonův korelační koeficient a určete, zda mezi těmito proměnnými existuje lineární vztah. Prodeje (ReÉ pon 1) 10 15 20 25 30 Prodeje (ReÉ pon 2) 12 18 25 24 28 Řešení: Nejprve vypočítáme průměry x = 20 a y = 21 A. Poté provedeme výpočet Pearsonova korelačního koeficientu podle výše uvedeného vzorce. Korelační koeficient r « 0.88, což ukazuje na silnou pozitivní lineární závislost mezi prodeji v obou regionech. Excel: Korelační koeficient lze spočítat pomocí funkce C0RREL(arrayl, array2) v Excelu. Příklad 9.3. Mějme data o počtu zákazníků navštěvujících obchod a průměrné denní tržby. Vypočítejte korelační koeficient a určete, zda existuje lineární závislost. Počet zákazníků 50 60 70 80 90 Denní tržby (v tis. Kč) 20 25 30 28 35 Řešení: Vypočítáme průměry x = 70 a y = 27.6. Pomocí vzorce pro korelační koeficient získáme r 0.91, což značí velmi silnou pozitivní lineární závislost mezi počtem zákazníků a tržbami. Excel: Pomocí funkce C0RREL(arrayl, array2) lze získat stejný výsledek. □ Příklad 9.4. Zde JSOU dcltcl pro prodej dvou produktů v různých týdnech. Určete, zda mezi prodejem těchto produktů existuje lineární vztah. Prodeje produktu A 100 105 110 95 115 90 120 85 125 80 Prodeje produktu B 200 180 205 185 190 185 190 195 200 190 Řešení: Průměry pro produkt A a produkt B jsou x = 102.5 a y = 192. Po výpočtu korelačního koeficientu dostaneme r « 0.08, což naznačuje velmi slabou nebo žádnou lineární závislost mezi prodeji těchto produktů. Excel: Výpočet pomocí C0RREL(arrayl, array2) v Excelu také ukazuje, že korelace je blízká nule, tedy nevýznamná. □ Historie a varianty korelačních koeficientů Historie korelačních koeficientů sahá až do 19. století, kdy Francis Galton poprvé navrhl metody pro kvantifikaci statistických vztahů mezi proměnnými. Na jeho práci navázal Karl Pearson, který formalizoval a popularizoval Pearsonův korelační koeficient. Regresní a korelační analýza 140 V průběhu času byly vyvinuty další varianty korelačních koeficientů pro specifické účely: Spearmanův korelační koeficient (Spearman's rho): Používá se, pokud data nejsou normálně rozložena nebo vykazují monotónní, nikoli lineární vztah. Kendallův tau: Měří sílu vztahu mezi pořadím hodnot a používá se zejména u malých souborů dat. Point-biserial correlation: Využívá se pro měření korelace mezi spojitou a binární proměnnou. Každý z těchto korelačních koeficientů má své specifické aplikace a závisí na typu dat, které jsou analyzovány. Korelační analýza našla využití v mnoha oblastech, včetně psychologie, ekonomie, marketingu a biostatistiky. Kdy je korelační koeficient vhodný? Korelační koeficient popisuje sílu a směr lineárního vztahu mezi dvěma spojitými proměnnými. Jeho použití je vhodné, pokud jsou splněny následující podmínky: Obě proměnné mají přibližně normální rozložení. Vztah mezi proměnnými je lineární. Nejsou přítomny výrazné odlehlé hodnoty, které by ovlivnily výsledek. Použití Pearsonova korelačního koeficientu je nevhodné, pokud vztah mezi proměnnými není lineární nebo pokud se jedná o ordinální data, u nichž je vhodnější použít Spearmanův korelační koeficient nebo Kendallův tau. Praktické cvičení Mějte následující data pro dva produkty a určete, zda existuje lineární závislost mezi jejich prodeji: Prodeje produktu A 5 10 15 20 25 Prodeje produktu B 8 12 17 22 24 Spočítejte korelační koeficient pomocí výše uvedeného vzorce nebo pomocí Excelu (C0RREL(arrayl, array2)). Na základě výsledku určete, zda mezi těmito proměnnými existuje lineární závislost. 141 Základy statistiky 9.2 Princip lineární regrese Úvodní příklad Představte si, že jste ekonomický analytik ve společnosti, která chce předpovědět tržby na základě výdajů na reklamu. Máte k dispozici následující data z posledních 10 měsíců (tabulka 6). Tab. 6: Ukázková data pro lineární regresi Měsíc 1 2 3 4 5 6 7 8 9 10 Reklama (tis. Kč) 20 25 30 35 40 45 50 55 60 65 Tržby (tis. Kč) 200 220 250 280 310 330 360 390 420 450 Cílem je zjistit, jak silný je vztah mezi výdaji na reklamu a tržbami, a vytvořit model, který umožní předpovědět tržby při různých úrovních výdajů na reklamu. Formulace problému • Závislá proměnná (Y): Tržby (tis. Kč). ' Nezávislá proměnná (X): Výdaje na reklamu (tis. Kč). Cíl analýzy Pomocí lineární regrese odhadnout vztah mezi výdaji na reklamu a tržbami a posoudit, zda je tento vztah statisticky významný. Co je to lineární regrese? Lineární regrese je statistická metoda používaná k modelování vztahu mezi závislou proměnnou a jednou nebo více nezávislými proměnnými. V případě jednoduché lineární regrese se jedná o vztah mezi dvěma proměnnými, který je modelován pomocí přímky. Regresní a korelační analýza 142 Regresní model Lineární regresní model lze vyjádřit rovnicí: kde: F je závislá proměnná, X je nezávislá proměnná, /3q je absolutní člen (intercept), fli je směrnice přímky (sklon), e je náhodná chyba (reziduálni složka). Metoda nejmenších čtverců Parametry (30 a /3i jsou odhadnuty pomocí metody nejmenších čtverců, která minimalizuje součet čtverců odchylek mezi skutečnými hodnotami Y a predikovanými hodnotami Y: min J2(Vi ~ Vif = mi«n J2(yt - Po- PiXi ,2 Odhady parametrů Odhady parametrů (30 a (3i lze vypočítat pomocí vzorců: Ei=i(xi-x)(yi -y) h = y- fe kde x a y jsou průměry laľ. 143 Základy statistiky Předpoklady lineární regrese Aby byly odhady parametrů platné, musí být splněny následující předpoklady: • Linearita: Vztah mezi V a V je lineární. ' Homoskedasticita: Rozptyl náhodné složky e je konstantní pro všechna X. • Nezávislost: Hodnoty náhodné složky e jsou nezávislé. • Normalita: Náhodná složka e je normálně rozložena. Historické poznámky Metoda lineární regrese byla poprvé formálně představena anglickým statistikem Sir Francis Galtonem v 19. století při studiu dědičnosti výšky mezi rodiči a dětmi. Termín regrese pochází z Galtonova pozorování, že extrémní hodnoty mají tendenci "regresovat" k průměru v následující generaci. Později Karl Pearson a Ronald A. Fisher rozvinuli matematické základy regresní analýzy a metodu nejmenších čtverců, která je dnes standardním nástrojem v statistice a ekonometrice. Odhad parametrů a interpretace Výpočet odhadů Pomocí výše uvedených vzorců lze spočítat odhady J3q a J3\ na základě dostupných dat. Interpretace parametrů Směrnice přímky Udává změnu v závislé proměnné Y při jednotkové změně nezávislé proměnné X. Absolutní člen 0o)'- Hodnota závislé proměnné Y, když nezávislá proměnná X je nulová. Regresní a korelační analýza 144 9.3 Řešené příklady Příklad 9.5. Vyrovnejte data v tabulce regresní přímkou: X 5 15 25 35 45 55 65 y 3,5 5,2 5,5 6,1 5,9 6,4 7,8 Řešení: Ukážeme, jak by se tato úloha řešila v Excelu: 1. Nejdříve označíme data a klikneme na Vložit Graf, přičemž vybereme typ grafu XY bodový (obrázek 18). C* T = Seirtl - Ercel j VLOŽENI ROaolENI STRÁNKY VZORCE 0ATA REVIZE ZOG RAZE h I m m b b2'*-» tl'-t * ^ ^ t= Í &opo"uťen* Tabuľa Ofcfirky Onkn« £ Maje ipHt*ce • OopWuíen* ~ . Koríling*nini SpfljrWový SlOjptfr^ Vieitupy/ PriJel Čaíavi HypeHť iňCíífícni UDWfcy antzzKy a* a.rjry —' ^- <|riT -|jtiu*y llmlricc OnplAty 1 Bodový "••■)••', fMrr Odki i|cjo|i|r|a|H| i IbJ \vi H N 0 p a 1* T l__£±. I_—L z & 15 35 55 6! v £2 5,5 5r9 M ľ. uMnový *. 1 a. oj. l j! Ctiji mm 9 ■ • • * lí JO W 40 W « TU Obr. 18: Vložení bodového grafu 2. Máme-li aktivní okno grafu, v nabídce + vybereme možnost Spojnice trendu (obrázek 19). < j>-o-c y rvky grafu 0 H i 0 Osy 3 7 6 Z 1 0 □ Názvy os ■ 3 Název grafu -•- ■ • □ Popisky dat □ Chybové úsečky ( • 0 Mřížka n i=—a, • 1 1 Spojnice trendu > ( ) 10 20 30 40 50 60 7 Q i Obr. 19: Přidání spojnice trendu 145 Základy statistiky 3. V rámci volby můžete volit i jiné křivky než přímku, a také vložit rovnici přímky přímo do grafu (obrázek 20): _ : i,j U.i |m |m M lTÍ~ ± Formát spojnice rnendu T x MoAttniivoMKi mnu * > - i\\ * UOÍKHII MM 1UHMJ ľ o, l_ \ľ Ol ľ ssř ■ - 2 : JntHL-± hafnutu ip-:4*íi*™íi R Obr. 20: Nastavení lineární regrese 4. Výsledkem je rovnice regrese y = 0,0561 • x + 3,8089. Z grafu vidíme, že rovnice dobře vystihuje závislost proměnných. Řešení bez použití Excelu: Pro výpočet regresní přímky použijeme vzorce: y = J31-x + J30, kde: Po nYxf - (Yxí)2 Y Ví - a Y Xj n Pro naše data: J2 Xi = 5 + 15 + 25 + 35 + 45 + 55 + 65 = 245, J2 Ví = 3,5 + 5,2 + 5,5 + 6,1 + 5,9 + 6,4 + 7,8 = 40,4, J2 x2 = 52 + 152 + 252 + 352 + 452 + 552 + 652 = 8575, J2 XíVí = 5 • 3,5 + 15 • 5,2 + 25 • 5,5 + 35 • 6,1 + 45 • 5,9 + 55 • 6,4 + 65 • 7, 1601,5. Dosadíme do vzorců: h = 1«^^!= 0,0561, Po 7 ■ 8575 - 2452 40,4 - 0,0561 • 245 7 3,8089. Regresní a korelační analýza 146 Rovnice regresní přímky je tedy: y = 0,0561 - x + 3,8089. □ Příklad 9.6. Použijte data z úvodního příkladu (tabulka 6) a odhadněte lineární regresní model pro vztah mezi výdaji na reklamu a tržbami. Určete odhady parametrů (30 a (3i. Řešení: Krok 1: Výpočet průměrů _ EEi*» 20 + 25 + --- + 65 x =- =- = 42,5, 10 10 _ EEižft 200 + 220 + --- + 450 y =- =-= 321. y 10 10 Krok 2: Výpočet odhadu (3- 3 _ Eí=iQk» -sXžft - V) 11 ^(xt-x)2 Spočítáme jednotlivé sumy: J2(xí - x)(ví - y) = J2(xíVí) - nxy^ 2 _2 x,-, — nx . Výpočty: Vytvoříme tabulku pro výpočty (část výpočtů): i Xí Yi XjYi x? 1 20 200 4000 400 2 25 220 5 500 625 3 30 250 7500 900 4 35 280 9 800 1225 5 40 310 12400 1600 6 45 330 14850 2 025 7 50 360 18 000 2 500 8 55 390 21450 3 025 9 60 420 25 200 3 600 10 65 450 29 250 4 225 E 425 3210 147950 20125 A tedy Ř ^XiVi-rixy 147950 - 10-42,5-321 Pl E x2 - nx2 20 125 - 10 • (42,5)2 ~ 147 Základy statistiky Výpočet /30: j30 = y - fax = 321 - 5,5882 • 42,5 = 321 - 237,5 = 83,5. Regresní rovnice: Ý = 5,5882V + 83,5. Výpočty v Excelu: Kromě postupu přímo v Excelu, jak jsme si to předvedli v předchozím příkladu, můžeme použít i pokročilejší modul Analýza dat - Regrese: Postup: 1. Vložíme data do dvou sloupců: X (Reklama) a Y (Tržby). 2. Spustíme Analýza dat a vybereme Regrese. 3. Nastavíme vstupní rozsahy pro závislou a nezávislou proměnnou. 4. Zvolíme výstupní oblast a případně další možnosti (např. reziduálni grafy). Výstupem bude tabulka s odhady parametrů, ale také jejich směrodatnými chybami, hodnotami ŕ-statistik a P-hodnotami. Interpretace výsledků z Excelu: Výsledky mohou vypadat například takto: Parametr Odhad Směr. chyba t P-hodnota h 83,5 5,0 16,7 0,0000 5,5882 0,2 27,9 0,0000 Rozhodnutí: Protože P-hodnota pro /3i je mnohem menší než a = 0,05, zamítáme nulovou hypotézu H0 : fli = 0. Regresní koeficient fii je tedy statisticky významný. □ OV této kapitole jsme se zabývali korelační a regresní analýzou, která slouží k analýze závislostí mezi dvěma kvantitativními znaky. Korelace hodnotí sílu a směr lineárního vztahu mezi dvěma proměnnými pomocí korelačního koeficientu Txy- Pozitivní korelace značí, že s růstem jedné proměnné roste i druhá, zatímco negativní korelace ukazuje opačný vztah. Regresní analýza pak umožňuje vyjádřit tento vztah pomocí matematického modelu. Nejčastěji se používá lineární regresní model, který popisuje vztah mezi závisle proměnnou Regresní a korelační analýza 148 Y a nezávislou proměnnou X pomocí přímky. Parametry modelu, jako je směrnice a průsečík, jsou odhadovány metodou nejmenších čtverců. V rámci kapitoly jsme si ukázali, jak tyto metody aplikovat na konkrétní data, jak interpretovat výsledky korelace a regrese. Důležitou součástí byla také vizualizace dat pomocí bodových grafů a regresních přímek. 1. Co je korelační koeficient a jaká je jeho interpretace? 2. Jaký je rozdíl mezi korelační a regresní analýzou? 3. Jak se vypočítá koeficient korelace txy mezi dvěma proměnnými? 4. Co znamená hodnota korelačního koeficientu blízká 1, 0 nebo —1? 5. Co je to lineární regrese a k čemu slouží? 6. Jak se odhadují parametry lineárního regresního modelu? 7. Co vyjadřuje směrnice a průsečík regresní přímky? 8. Jaké grafické nástroje se používají k vizualizaci výsledků korelační a regresní analýzy? 9. Uvažujme následující data, která představují počet hodin fyzického cvičení za týden a spotřebu kalorií (v tisících) pěti osob: Osoba Hodiny cvičení za týden (X) Spotřeba kalorií (Y, v tisících) 1 3 2,2 2 5 2,8 3 7 3,1 4 8 3,5 5 10 4,0 Vypočítejte korelační koeficient mezi počtem hodin cvičení a spotřebou kalorií a interpretujte výsledek. [r = 0,98] 10. V následující tabulce jsou uvedeny hodnoty proměnných X a,Y, kde X představuje počet hodin studia a Y dosažené skóre v testu: Osoba Hodiny studia (X) Skóre (Y) 1 2 50 2 3 55 3 4 60 4 5 60 5 6 70 Určete parametry lineární regresní přímky pro závislost skóre na počtu hodin studia (vztah mezi V a V) a napište rovnici regresní přímky. [Y = 2X + 51] 149 Základy statistiky e Literatura k tématu: [1] HINDLS, R. Statistika pro ekonomy. 8. vyd. Praha: Professional Publishing, 2007. ISBN 978-80-869-4643-6. ISBN 978-80-867-3208-8. [2] MAREK, L. Statistika v příkladech. 2. vyd. Praha: Kamil Mařík - Professional Publishing, 2015. ISBN 978-80-743-1153-6. [3] OTIPKA, P., SMAJSTRLA, V. Pravděpodobnost a statistika [online]. 1. vydání. Ostrava: VŠB-TU Ostrava, 2007 [cit. 2024-09-09]. ISBN 80-248-1194-4. Dostupné z: https://homel.vsb.cz/~oti73/cdpastl/ [4] ZVÁRA, K. a ŠTĚPÁN, J. Pravděpodobnost a matematická statistika. Matfyzpress, 2019. ISBN 978-80-7378-388-4. Kapitola 10 Časové řady Po prostudování této kapitoly budete umět: • definovat a vysvětlit základní pojmy časových řad, popsat klíčové složky časových řad, jako jsou trend, sezónnost a náhodná složka, • rozlišit mezi stacionárními a nestacionárními časovými řadami, • interpretovat grafickou analýzu časových řad. Klíčová slova: Časová řada, trend, sezónnost, cykličnost, stacionarita, grafická analýza. 151 Základy statistiky Náhled kapitoly V této kapitole se seznámíme s konceptem časových řad a jejich základními charakteristikami. Časové řady představují posloupnost hodnot sledovaných (většinou) v pravidelných časových intervalech. Tyto řady se používají k analýze dat v mnoha oblastech, jako jsou ekonomie, finance a další disciplíny. Probereme základní složky časových řad, jako jsou trend, sezónnost, cyklické jevy a náhodné výkyvy. Naučíme se, jak tyto složky rozlišit a interpretovat pomocí grafických metod. Cíle kapitoly Cílem této kapitoly je představit časové řady jako důležitý nástroj pro analýzu dat sledovaných v čase. Studenti se naučí rozpoznávat základní složky časových řad, pochopí rozdíl mezi stacionárními a nestacionárními řadami a budou schopni provést základní grafickou analýzu. Odhad času potřebného ke studiu Odhaduje se, že studium této kapitoly zabere přibližně 2 hodiny. Tento čas zahrnuje čtení textu, pochopení teoretických konceptů a interpretaci grafických analýz časových řad. Úvod Definice 10.1. Časové řady představují posloupnost hodnot, které jsou zaznamenávány v pravidelných nebo nepravidelných časových intervalech. Každá hodnota časové řady odpovídá určitému okamžiku nebo časovému úseku. Tento typ dat umožňuje analyzovat změny proměnné v čase a může odhalit různé vzorce chování proměny dat, jako jsou trendy (růst nebo pokles ve větším časovém měřítku) nebo sezónní výkyvy. Příkladem časové řady může být vývoj ceny akcií na burze, počet prodaných výrobků v obchodě za jednotlivé měsíce nebo denní teplota zaznamenaná meteorologickou stanicí. Kde se časové řady využívají? Časové řady se využívají v mnoha oblastech, kde je třeba analyzovat a předvídat vývoj veličin v čase. Mezi nejčastější aplikace patří: Ekonomie a finance: Analýza vývoje cen akcií, kurzů měn, inflace nebo nezaměstnanosti. Marketing: Předpovědi poptávky, prodejních trendů, či sezónních výkyvů v tržbách. Meteorologie: Analýza teplotních změn, srážkových úhrnů nebo předpovědi počasí na základě historických dat. Výrobní procesy: Monitoring a analýza výkonnosti výrobních zařízení v čase, sledování kvality nebo optimalizace výrobních kapacit. Časové řady 152 Díky těmto aplikacím je možné provádět analýzy, které pomáhají organizacím předvídat budoucí vývoj a lépe plánovat své aktivity. 10.1 Základní pojmy časových řad Pozorování a časová osa Časová řada je posloupnost hodnot určité veličiny, které jsou měřeny nebo zaznamenávány v nějakých (většinou pravidelných) časových intervalech. Definice 10.2. Každá časová řada má dvě klíčové složky: Časová osa: Zahrnuje jednotlivé časové body (např. dny, měsíce, roky), ve kterých jsou hodnoty proměnné zaznamenány. Hodnoty proměnné: Reprezentují sledovanou veličinu (např. teplotu, cenu akcií, prodeje). Časové řady jsou důležité pro zkoumání změn a trendů v průběhu času, což nám potenciálně umožňuje predikovat budoucí hodnoty na základě předchozích dat. Trend, sezónnost, cykličnost a náhodná složka Definice 10.3. Časovou řadu můžeme rozložit na několik základních složek: Trend: Dlouhodobý směr vývoje časové řady, který může být vzestupný, sestupný nebo konstantní. Představuje systematickou změnu hodnot v čase. Sezónnost: Krátkodobé pravidelné fluktuace, které se opakují v určitém časovém období (např. roční období, měsíční prodeje). Cykličnost: Dlouhodobé nepravidelné výkyvy, které nejsou striktně periodické, ale mohou souviset s ekonomickými nebo jinými cykly. Náhodná složka: Nepravidelné, nepředvídatelné výkyvy, které nelze vysvětlit trendem, sezónností ani cykličností. Tato složka představuje vlivy, které nejsou systematické a mohou být způsobeny různými náhodnými faktory. Rozklad časové řady na tyto složky nám umožňuje lépe pochopit její strukturu a provádět analýzy, které jsou užitečné například při modelování a predikci. 153 Základy statistiky 10.2 Typy časových řad Deterministické a stochastické časové řady Definice 10.4. Časové řady můžeme rozdělit do dvou základních kategorií: Deterministické časové řady: U těchto řad je budoucí vývoj plně určen předchozími hodnotami. Neobsahují žádnou náhodnou složku a jsou často popsány jednoduchými matematickými funkcemi, například lineárním nebo exponenciálním trendem. Stochastické časové řady: Tyto řady obsahují náhodnou složku, což znamená, že jejich budoucí vývoj není zcela předvídatelný. Příkladem je fluktuace na finančních trzích, kde se vývoj ceny akcie v čase nedá přesně určit. Rozlišení mezi deterministickými a stochastickými řadami je klíčové pro výběr vhodných metod analýzy a předpovědí. Stacionární a nestacionární časové řady Definice 10.5. Další důležité dělení časových řad je na stacionární a nestacionární: Stacionární časové řady: Časová řada je stacionární, pokud její statistické vlastnosti (např. průměr a rozptyl) zůstávají v čase konstantní. To znamená, že v průběhu času nepozorujeme žádný výrazný trend ani změny v kolísání hodnot. Stacionární časové řady jsou často jednodušší na analýzu a modelování. Nestacionární časové řady: V těchto řadách dochází ke změnám v čase, například k růstu nebo poklesu průměru, změnám v rozptylu nebo výskytu sezónních výkyvů. Pro analýzu nestacionárních časových řad je obvykle nutné aplikovat metody, které tyto změny zohlední, například diferenciaci. Stacionarita je důležitý koncept, protože mnoho statistických metod předpokládá, že časová řada je stacionární. Pokud není, je třeba použít vhodné transformace, které pomohou dosáhnout stacionarity. Časové řady 154 10.3 Analýza časových řad Grafická analýza časových řad Jedním z prvních kroků při analýze časové řady je vizuální zkoumání jejích vlastností pomocí grafů. Grafická analýza časových řad nám umožňuje identifikovat základní složky časové řady, jako jsou trend, sezónnost nebo náhodné výkyvy. Definice 10.6. Mezi nejčastěji používané grafické nástroje patří: Časový graf: Zobrazuje hodnoty časové řady na vertikální ose a časové body na horizontální ose. Tento graf je ideální pro identifikaci dlouhodobých trendů a sezónních výkyvů. Sezónní diagram: Používá se k vizualizaci opakujících se sezónních vzorců. Umožňuje snadno rozpoznat, zda má časová řada pravidelné sezónní fluktuace v průběhu jednotlivých období (například různé měsíce nebo roční období). Bodový diagram (scatter plot): Může být použit ke zkoumání závislosti mezi hodnotami časové řady v různých časových intervalech. Tento graf může odhalit autokorelaci (závislost mezi hodnotami v různých časech). Grafická analýza poskytuje rychlý přehled o struktuře časové řady a je často prvním krokem před aplikací pokročilejších analytických metod. Rozklad časové řady Pro lepší pochopení struktury časové řady je často užitečné rozložit ji na jednotlivé složky: trend, sezónnost a náhodnou složku. Tento rozklad umožňuje oddělit systematické vlivy od náhodných výkyvů, což usnadňuje interpretaci a předpovědi. Definice 10.7. Rozklad časové řady lze provést pomocí několika metod, například: Additivní model: Předpokládá, že časová řada je součtem trendu, sezónnosti a náhodné složky. Tento model je vhodný, pokud amplituda sezónních výkyvů zůstává konstantní v čase. Multiplikativní model: Předpokládá, že časová řada je součinem trendu, sezónnosti a náhodné složky. Tento model je vhodný, pokud se amplituda sezónních výkyvů mění s velikostí časové řady (například větší pro vyšší hodnoty časové řady). Rozklad časové řady nám umožňuje lépe porozumět jejím jednotlivým složkám a případně predikovat budoucí hodnoty na základě trendů a sezónních vzorců. 155 Základy statistiky 10.4 Charakteristiky časových řad Charakteristiky časových řad Při analýze časových řad se používají základní charakteristiky růstu, které nám umožňují kvantifikovat změny hodnot mezi jednotlivými časovými body. Definice 10.8. Mezi hlavní charakteristiky patří: Absolutní přírůstky (diference): Rozdíl mezi hodnotami časové řady ve dvou po sobě jdoucích obdobích. Absolutní přírůstek Axt pro období t je dán vztahem: Axt = xt - xt-i, kde xt je hodnota časové řady v období t a xt-\ je hodnota v předchozím období. Koeficienty růstu: Poměr mezi hodnotou časové řady v období t a hodnotou v předchozím období t — 1. Koeficient růstu kt je dán vztahem: h xt-i Tento koeficient nám ukazuje relativní změnu hodnot mezi dvěma obdobími. Průměrné charakteristiky Pro získání obecnějšího obrazu o vývoji časové řady v delším období používáme Definice 10.9. průměrné charakteristiky: Průměrný absolutní přírůstek: Jedná se o průměr všech absolutních přírůstků časové řady a vypočítá se jako: Průměrný přírůstek = ^r~2-- n — 1 kde n je počet období. Průměrný koeficient růstu: Tento koeficient vyjadřuje průměrnou relativní změnu časové řady v průběhu několika období. Vypočítá se jako geometrický průměr koeficientů růstu: i n ^* Tyto průměrné charakteristiky poskytují přehled o celkovém trendu časové řady. Časové řady 156 Aplikace v praxi Charakteristiky růstu lze využít k analýze změn v různých oblastech, jako je produkce, prodej nebo zásoby. Například pomocí průměrného absolutního přírůstku lze sledovat, jak se postupně mění objem výroby v továrně, a průměrný koeficient růstu nám může ukázat, zda růst prodeje vykazuje stabilní tempo nebo kolísá mezi obdobími. 10.5 Řešené příklady Příklad 10.10. Mějme následující časovou řadu, která představuje počet prodaných kusů určitého produktu v obchodě za posledních 10 měsíců: (120,150,130,170,160,180,200,190,210,230) Vaším úkolem je: 1. Vykreslit časový graf této časové řady. 2. Identifikovat, zda časová řada obsahuje trend. Řešení: 1. Pro vykreslení časového grafu použijeme hodnoty z časové řady na vertikální ose a čas (v měsících) na horizontální ose. Graf ukazuje, jak se počet prodaných kusů mění v čase. 2. Z časového grafu můžeme vidět, že počet prodaných kusů má obecně rostoucí trend. Ne v každém měsíci se počet prodaných kusů zvyšuje, ale celkově je jasný pozitivní růst. Tato časová řada tedy obsahuje trend. □ 157 Základy statistiky Příklad 10.11. Určete elementární charakteristiky růstu časové řady sledující výrobu plynu v letech 1980 - 1985. rok 1980 1981 1982 1983 1984 1985 výroba (m3) 1286 1363 1393 1495 1571 1610 Řešení: Řešení: rok výroba (m3) yt absolutní přírůstky koeficienty růstu 1980 1286 1981 1363 77 1,060 1982 1393 30 1,022 1983 1495 102 1,073 1984 1571 76 1,051 1985 1610 39 1,025 Průměrný absolutní přírůstek: -x- E Ayt (í/2 - yi) + (ž/3 — ÍJ2) H-----V (yn ~ ž/n-i) Vn - yi 1610 - 1286 A =-=- =- =-= 64,8 n — 1 n — 1 n — 1 5 Průměrný koeficient růstu: V Vž/i V2 V3 Vn-i V 1286 ' □ 10.6 Softwarová analýza časových řad V předchozích dvou příkladech jsme si předvedli jen velmi základní výpočty. Časové řady 158 Pro pokročilejší analýzu časových řad lze využít různé softwarové nástroje, které nabízejí specializované funkce a metody: Excel: Excel umožňuje provádět základní analýzu časových řad, jako je vykreslování časových grafů nebo výpočet klouzavých průměrů. Pro pokročilejší analýzy je možné použít doplněk Analýza dat, který zahrnuje funkce pro regresní analýzu nebo sezónní dekompozici. R: Ve statistické softwaru R jsou k dispozici speciální balíčky, jako například f orecast nebo tseries, které poskytují nástroje pro modelování časových řad, jako jsou ARIMA modely, exponenciální vyrovnávání a testy stacionarity. R je velmi flexibilní a široce využívaný pro komplexní analýzy. Wolfram Alpha: Wolfram Alpha je interaktivní nástroj, který umožňuje provádět základní analýzu časových řad, jako je vykreslení grafů nebo výpočet trendů. Méně se hodí pro komplexní statistické modely, ale je užitečný pro rychlé vizualizace a základní výpočty. Použití konkrétního softwaru závisí na potřebách analýzy - Excel je vhodný pro jednodušší úlohy a rychlou vizualizaci, zatímco R poskytuje nástroje pro pokročilé statistické modely, a Wolfram Alpha nabízí snadno přístupnou platformu pro základní výpočty. Příklad 10.12. Ukázka grafických výstupů při analýze časové řady počtu cestujících. Data jsou součástí instalace softwaru R. Řešení: Nejprve uvedeme programový kód, který nám v R, mimo jiné, vytvoří zmíněné grafické výstupy: # Načtení datasetu AirPassengers data("AirPassengers") # Základní informace o datasetu summary(AirPassengers) plot(AirPassengers, main="Počet cestujících v letecké dopravě (1949-1960)", ylab="Počet cestujících", xlab="Rok", col="blue") # Decompose časové řady (rozklad na trend, sezónnost a náhodnou složku) decomposed <- decompose(AirPassengers) plot(decomposed, col="darkred") # Autokorelační graf acf(AirPassengers, main="Autokorelační funkce pro AirPassengers") # ARIMA model pro předpověď library(forecast) model <- auto.arima(AirPassengers) forecasted <- forecast(model, h=24) # Graf předpovědi plot(forecasted, main="Předpověď počtu cestujících na příští 2 roky", col="green") # Výstup modelu summary(model) 159 Základy statistiky Pokračujeme ukázkou grafů. Na obrázku 21 na straně 160 je znázorněna časová řada počtu cestujících. ' Na obrázku 22 na straně 160 je provedena tzv. dekompozice (rozklad) časové řady na trendovou, sezónní a náhodnou složku. Na obrázku 23 na straně 160 je ukázka předpovědi. □ V této kapitole jsme se věnovali časovým řadám, které popisují vývoj veličin v čase. Hlavní body zahrnují: Základní pojmy: Probrali jsme časovou osu, hodnoty proměnných a základní složky časové řady, jako jsou trend, sezónnost a náhodné výkyvy. 1 Typy časových řad: Rozdělili jsme časové řady na deterministické a stochastické, stacionární a nestacionární. Charakteristiky růstu: Představili jsme absolutní přírůstky, koeficienty růstu a jejich průměrné hodnoty jako nástroje pro kvantifikaci změn časové řady. Kapitola poskytuje jen velmi základní nástroje pro analýzu časových řad v různých oborech. 1. Jaké jsou základní složky časové řady? Uveďte příklady každé z nich. 2. Jaký je rozdíl mezi stacionární a nestacionární časovou řadou? 3. Jaký je význam průměrného absolutního přírůstku a průměrného koeficientu růstu v analýze časových řad? 4. V jakých situacích byste použili multiplicativní model namísto aditivního modelu pro rozklad časové řady? 5. Vysvětlete, jak lze využít Excel, R nebo Wolfram Alpha pro analýzu časových řad. Jaké jsou hlavní rozdíly mezi těmito nástroji? 6. Majitel prodejny evidoval čtvrtletně objem prodeje ovocných kompotů a jejich zásoby na počátku čtvrtletí. čtvrtletí prodej ks zásoby ks I. 560 220 II. 480 210 III. 520 215 IV. 550 200 Na konci 4. čtvrtletí bylo v zásobě 150 ovocných kompotů. Vypočtěte průměrný čtvrtletní prodej a průměrnou čtvrtletní zásobu ovocných kompotů. [527,5, 199] Časové řady 160 ' ; íl ; Obr. 21: Graf časové řady z příkladu 10.12 Obr. 22: Dekompozice časové řady z příkladu 10.12 Obr. 23: Graf předpovědi časové řady z příkladu 10.12 161 Základy statistiky 7. Časová řada následujících hodnot představuje počet prodaných kusů elektroniky v obchodě za posledních 12 měsíců: (120,130,110,150,140,160,170,165,180,175,190,185) a. Vypočtěte absolutní přírůstky pro každý měsíc. b. Vypočtěte koeficient růstu pro každý měsíc. c. Určete průměrný absolutní přírůstek a průměrný koeficient růstu. [...,...,7,27, 1,0217] Literatura k tématu: [1] HINDLS, R. Statistika pro ekonomy. 8. vyd. Praha: Professional Publishing, 2007. ISBN 978-80-869-4643-6. ISBN 978-80-867-3208-8. [2] MAREK, L. Statistika v příkladech. 2. vyd. Praha: Kamil Mařík - Professional Publishing, 2015. ISBN 978-80-743-1153-6. [3] OTIPKA, P., SMAJSTRLA, V. Pravděpodobnost a statistika [online]. 1. vydání. Ostrava: VŠB-TU Ostrava, 2007 [cit. 2024-09-09]. ISBN 80-248-1194-4. Dostupné z: https://homel.vsb.cz/~oti73/cdpastl/ [4] ZVÁRA, K. a ŠTĚPÁN, J. Pravděpodobnost a matematická statistika. Matfyzpress, 2019. ISBN 978-80-7378-388-4. Kapitola 11 Induktivní statistika Po prostudování této kapitoly budete umět: • určit bodový odhad zvolených parametrů, určit intervalový odhad (interval spolehlivosti) střední hodnoty a rozptylu při zvolené hladině spolehlivosti, použít nástroje Excelu a R pro výpočty bodových a intervalových odhadů v praktických příkladech. Klíčová slova: Bodový odhad, intervalový odhad, střední hodnota, rozptyl, Excel, R. 163 Základy statistiky Náhled kapitoly V této kapitole se budeme věnovat základním nástrojům induktivní statistiky, kterými jsou bodové a intervalové odhady. Tyto odhady umožňují na základě výběrových dat vyvodit závěry o základním souboru, což je klíčová součást statistické analýzy. Naučíme se, jak vypočítat bodový a intervalový odhad střední hodnoty (průměru) a rozptylu, a to jak teoreticky, tak i prakticky s využitím programů Excel a R. Cíle kapitoly Cílem této kapitoly je pochopit hlavní myšlenku induktivní statistiky a naučit se odhadovat parametry základního souboru pomocí bodových a intervalových odhadů. Odhad času potřebného ke studiu Studium této kapitoly by mělo zabrat přibližně 2 hodiny. Tento čas zahrnuje prostudování teorie, porozumění odhadovým metodám a zvládnutí praktických výpočtů v Excelu a R. Úvod Zopakujme si, že statistika je obor, který se zabývá sběrem, analýzou a interpretací hromadných pozorování a výsledků opakovaných pokusů. Je rozdělena na dva hlavní typy: Deskriptívni (popisná) statistika: Zaměřuje se na uspořádání datových souborů, jejich popis a účelnou sumarizaci. Induktivní statistika: Pomocí empirických poznatků umožňuje vytvářet vědecky odůvodněné obecné závěry. Tento přístup je založen na teorii pravděpodobnosti. Stejně jako statistika, i lidské myšlení lze rozdělit na různé typy podle způsobu uvažování. Mezi nejvýznamnější typy patří: Deduktivní myšlení Deduktivní myšlení je proces, při kterém vyvozujeme závěry z obecných zákonitostí nebo pravidel. Z obecných principů vytváříme specifické závěry, které se uplatňují v jednotlivých případech. Deduktivní myšlení zajišťuje přesné a logické usuzování. Příklad: Všichni lidé jsou smrtelní. Sokrates je člověk. Tudíž Sokrates je smrtelný. Induktivní statistika 164 Induktivní myšlení Induktivní myšlení vychází z konkrétních pozorování jednotlivých případů a zobecňuje je do obecných závěrů. Na rozdíl od dedukce, indukce často pracuje s nejistotou, protože závěry jsou ovlivněny subjektivními postoji a mají omezenou platnost. Příklad: Každé ráno, kdy jsem pozoroval východ slunce, slunce skutečně vyšlo. Proto mohu induktivně usoudit, že slunce vyjde i zítra ráno. Další typy myšlení Abduktivní myšlení: Vyvozování nejpravděpodobnějšího vysvětlení na základě dostupných informací. Často se používá při řešení neúplných problémů, kde se snažíme najít nej lepší hypotézu. Příklad: „Zem je mokrá, pravděpodobně pršelo." Kreativní myšlení: Schopnost generovat nové a originální nápady nebo řešení. Zaměřuje se na netradiční přístupy k řešení problémů. Příklad: „Namísto tradičního reklamačního procesu navrhneme zcela nový způsob zákaznického servisu pomocí umělé inteligence." Kritické myšlení: Proces systematického hodnocení a zkoumání informací, argumentů a důkazů. Cílem je dospět ke správným závěrům založeným na logice a důkazech. Příklad: „Tento článek tvrdí, že určité potraviny jsou škodlivé, ale podívejme se na důkazy a ověřme, zda to podporují i jiné studie." Statistická indukce je proces, při kterém pomocí statistických metod dokážeme vytvářet obecné závěry z dostupných dat. Jejich spolehlivost lze kvantifikovat pomocí pravděpodobnosti. Základem statistické indukce je práce s výběrem a základním souborem. Základní soubor (populace) Základní soubor, někdy označován jako populace, je množina všech prvků, které jsou předmětem zkoumání. Tento soubor může být: Konečný: Např. počet obyvatel v určité zemi. Nekonečný: Hypotetický soubor, který je ideální a v realitě neexistuje. Prvky základního souboru mají různé vlastnosti, nazývané znaky. Tyto znaky dělíme na: 165 Základy statistiky Kvalitativní: Nominálni: Vlastnosti, které lze pouze pojmenovat (např. barva očí). Ordinální: Vlastnosti, které lze uspořádat (např. spokojenost zákazníků na škále 1 až 5). Kvantitativní: Diskrétní: Hodnoty mohou nabývat pouze určitých hodnot (např. počet dětí v rodině). Spojité: Hodnoty mohou nabývat jakékoliv hodnoty v daném intervalu (např. výška člověka). Výběr Výběr je část základního souboru, kterou zkoumáme a na základě které usuzujeme na celou populaci. Aby byl výběr reprezentativní, musí odpovídat vlastnostem celého základního souboru. Pokud není výběr reprezentativní, jedná se o selektivní výběr. Metody výběru: Náhodný výběr: Prvky vybíráme náhodně, například losováním nebo pomocí tabulek náhodných čísel. Mechanický (systematický) výběr: Prvky vybíráme podle pevně stanoveného pravidla (např. každý třetí prvek). Oblastní (stratirikovaný) výběr: Základní soubor je rozdělen na homogenní oblasti, ze kterých jsou prvky vybírány náhodně. Skupinový výběr: Používá se pro velké populace, kdy vybíráme celé skupiny prvků (např. domácnosti nebo rodiny). Vícestupňový výběr: Prvky jsou vybírány postupně z různých úrovní hierarchie (např. město - domácnost - osoba). ni Odhady v induktivní statistice V oblasti induktivní statistiky se nejčastěji zaměřujeme na odhadování parametrů základního souboru na základě výběrových dat. Mezi hlavní parametry, které odhadujeme, patří: Induktivní statistika 166 ' Průměr (střední hodnota): Odhadujeme střední hodnotu populace na základě průměru ve výběru. • Rozptyl: Odhadujeme rozptyl populace na základě výběrového rozptylu. ' Proporce: Odhady podílů určité charakteristiky v populaci (např. podíl lidí s určitým názorem). Zde se konkrétně zaměříme na bodový a intervalový odhad průměru (střední hodnoty) a rozptylu. 11.1.1 Bodový a intervalový odhad průměru (střední hodnoty) Bodový odhad průměru Definice 11.1. Bodový odhad průměru vyjadřuje nejlepší odhad skutečné střední hodnoty populace na základě výběrového průměru. Bodový odhad střední hodnoty fi se vypočítá jako: 1 n kde Xi jsou jednotlivé hodnoty z výběru a n je počet pozorování. Praktický výpočet v Excelu: V Excelu můžete bodový odhad průměru vypočítat pomocí funkce PRŮMĚR: =PRŮMĚR(A1:A10), kde rozsah buněk A1:A10 obsahuje hodnoty výběru. Praktický výpočet v R: V R můžete bodový odhad průměru spočítat funkcí mean(): mean(data), kde data je vektor obsahující hodnoty výběru. 167 Základy statistiky Intervalový odhad průměru Definice 11.2. Intervalový odhad poskytuje rozsah hodnot, ve kterém se s určitou pravděpodobností nachází skutečný průměr populace. Intervalový odhad pro střední hodnotu fi s danou hladinou spolehlivosti 1 — a se vypočítá jako: kde Ui_a/2 je kvantil normálního rozdělení pro zvolenou hladinu spolehlivosti, a je směrodatná odchylka populace (případně odhad ze vzorku) a n je velikost výběru. Praktický výpočet v Excelu: Intervalový odhad průměru lze v Excelu vypočítat pomocí následujícího postupu: 1. Výpočet průměru: =PRŮMĚR(A1: A10) 2. Výpočet směrodatné odchylky: =SM0DCH. VÝBĚR. S (AI: A10) 3. Výpočet velikosti výběru: =P0ČET(A1:A10) 4. K výpočtu kvantilu normálního rozdělení použijeme funkci NORM. INV nebo NORM. S. INV, např. pro hladinu spolehlivosti 95%: =N0RM. S. INV(0,975) 5. Intervalový odhad pak získáme jako průměr ± iti_a/2 ' 7^- Praktický výpočet v R: V R můžeme intervalový odhad průměru vypočítat pomocí kombinace funkcí: mean(data) + c(-l, 1) * qnorm(0.975) * sd(data)/sqrt(length(data)) Induktivní statistika 168 11.1.2 Bodový a intervalový odhad rozptylu Bodový odhad rozptylu Definice 11.3. Bodový odhad rozptylu vyjadřuje nejlepší odhad skutečného rozptylu populace na základě výběrového rozptylu. Bodový odhad rozptylu o2 se vypočítá jako: 1 n z2 = —- A)2, i=i kde (1 je průměr výběru a Xi jsou jednotlivé hodnoty z výběru. Praktický výpočet v Excelu: V Excelu můžete bodový odhad rozptylu vypočítat pomocí funkce VAR.S: =VAR.S(A1:A10) Praktický výpočet v R: V R můžete bodový odhad rozptylu vypočítat funkcí var(): var(data) Intervalový odhad rozptylu Definice 11.4. Intervalový odhad rozptylu lze vypočítat s využitím x2 rozdělení, které se používá pro odhady rozptylu. Intervalový odhad rozptylu s hladinou spolehlivosti 1 — a se vypočítá jako: /(n-l)-a2 (n-l)-a2\ \ Xl-a/2,n-l Xa/2,n-l 1 kde Xa/2n-i Je kvantil \2 rozdělení. 169 Základy statistiky Praktický výpočet v Excelu: Intervalový odhad rozptylu můžete vypočítat pomocí následujících kroků: 1. Výpočet rozptylu: =VAR.S(A1 :A10) 2. Výpočet velikosti výběru: =P0ČET(A1:A10) 3. K výpočtu kvantilu %2 rozdělení použijte funkci CHISQ. INV, např.: =CHISQ. INV(0,975; n-1) 4. Intervalový odhad rozptylu pak získáme dosazením o vzorce pro interval. Praktický výpočet v R: V R můžeme intervalový odhad rozptylu vypočítat pomocí následujícího kódu: n <- length(data) var(data) * (n-1) / qchisq(c(0.975, 0.025), n-1) Tento výpočet nám poskytne dolní a horní hranici intervalového odhadu rozptylu. ii2 Řešené příklady Příklad 11.5. Při měření průměru vačkového hřídele na 250 součástkách bylo zjištěno, že výběrový průměr činí xp = 995,6 a výběrová disperze s2 = 134,7. Předpokládáme, že soubor má normální rozdělení. Určete interval spolehlivosti pro střední hodnotu základního souboru při hladině významnosti a = 0,05. Řešení: Pro odhad střední hodnoty základního souboru fi na základě výběrových dat se používá interval spolehlivosti ve tvaru: (xp - A; xp + A) , kde xp je výběrový průměr, A je tzv. mezní chyba odhadu a určuje se podle vztahu: V tomto výrazu: • s je směrodatná odchylka výběru, ' n je počet pozorování (v našem případě n = 250), Induktivní statistika 170 iíi-s je kritická hodnota normálního rozdělení odpovídající zvolené hladině významnosti a. Pro hladinu významnosti a = 0,05 je hodnota = NORM.S.INV(0,975) « 1,96. Nyní vypočítáme mezní chybu odhadu A: A = v ,_- • 1,96 « 1,441558. Intervalový odhad střední hodnoty fi je tedy: (xp - A; xp + A) = (995,6 - 1,441558; 995,6 + 1,441558) = (994,1584; 997,0416). Z toho plyne, že s 95 % spolehlivostí lze tvrdit, že skutečná střední hodnota průměru vačkového hřídele leží v intervalu (994,1584; 997,0416). □ Příklad 11.6. Určete oboustranný konfidenční interval rozptylu normálně rozloženého základního souboru pro hladiny spolehlivosti 0,90, 0,95 a 0,99, když u výběru s rozsahem n = 12 byl zjištěn rozptyl s2 = 0,64. Posuďte získané výsledky. Řešení: Pro výpočet konfidenčního intervalu pro rozptyl a2 normálně rozloženého základního souboru použijeme vztah: 2 2 n■s 0 n-s < a2 < Xi-a(ro-l) x|(n-l)' kde • n = 12 je rozsah výběru, • s2 = 0,64 je výběrový rozptyl, X^_a{n — 1) a xl(n — 1) jsou kritické hodnoty Pearsonova rozdělení s n — 1 = 11 stupni volnosti. 1. Případ: Hladina spolehlivosti 0,90 Pro hladinu spolehlivosti 1 — a = 0,90 je a = 0,10. Kritické hodnoty jsou: XJj,o5(ll) = CHIINV(0,05; 11) « 19,675, Xo 95(H) = CHIINV(0,95; 11) « 4,575. Dosazením do vztahu: 12-0,64 0 12-0,64 • 2.059 Variance of {data} - vypočítá rozptyl datové sady. Variance of {3, 5, 2, 7, 6, 8, 4, 7, 9, 5} ->• 4.24 Correlation between {datal} and {data2} vypočítá korelační koeficient mezi dvěma sadami dat. Correlation between {3, 5, 2} and {7, 8, 4} ->• 0.866 Po zadání do vyhledávače Wolfram Alpha systém automaticky provede výpočet. Výsledky jsou doplněny o další související informace, jako jsou grafy nebo dodatečné statistické hodnoty. Ilustrativní příklady Příklad 12.2 (Regresní analýza ve Wolfram Alpha). Zadejte linear regression of {(1,2), (2,3), (3,5)}. Řešení: Po zadání Wolfram Alpha vypočítá regresní přímku ve tvaru y = ax + b, kde a je směrnice a b průsečík. Výstup: y = 1.5x + 0.5 Wolfram Alpha rovněž poskytne graf a hodnotu koeficientu determinace (i?2), což je užitečné pro hodnocení kvality modelu. □ Příklad 12.3. Vyzkoušejte ve Wolfram Alpha následující příkazy a prozkoumejte jejich výstupy: {10, 12, 8, 14, 11, 9, 15, 13} . five number summary {20, 25, 18, 30, 22, 19, 28, 30, 24} . variance {20, 25, 18, 30, 22, 19, 28, 30, 24} . median {20, 25, 18, 30, 22, 19, 28, 30, 24} • poisson distribution normal distribution, mean=0, sd=2 179 Základy statistiky Student t, 17 degrees of freedom Wolfram Alpha nám poskytuje okamžité výsledky, které lze použít pro další analýzu nebo kontrolu správnosti našich výpočtů. V následující sekci se podíváme na informativní přehled o využití softwaru R. R je volně dostupný programovací jazyk zaměřený na statistické výpočty a datovou analýzu. I když jeho využití není v tomto kurzu klíčové, stojí za to jej zmínit jako výkonný nástroj pro složitější úlohy, které mohou být mimo možnosti Excelu nebo Wolfram Alpha. V této části si ukážeme několik základních funkcí v R, které se používají pro statistické úlohy, a to spíše informativně, bez nutnosti provádět výpočty během výuky. R nabízí širokou škálu funkcí, které jsou velmi užitečné při řešení statistických úloh. Zde je přehled některých základních příkazů: mean() - vypočítá průměr zadaných dat. 12.2.3 Použití R pro statistické úlohy Základní příkazy v R pro statistické výpočty mean(c(3, 5, 2, 7, 6, 8, 4, 7, 9, 5)) ->• 5,6. sd() vypočítá výběrovou směrodatnou odchylku zadaných dat. sd(c(3, 5, 2, 7, 6, 8, 4, 7, 9, 5)) 2,22. var () vypočítá výběrový rozptyl zadaných dat. var(c(3, 5, 2, 7, 6, 8, 4, 7, 9, 5)) 4,93. cor () vypočítá korelační koeficient mezi dvěma sadami dat. cor(c(3, 5, 2), c(7, 8, 4)) 0,891. lm() provádí lineární regresi. lm(y ~x, data = dataframe) Tato funkce provede lineární regresní analýzu mezi proměnnými x a y v datovém rámci dataframe. Využití softwaru při řešení statistických úloh 180 Výhody a nevýhody R Výhody: • R je zdarma a otevřený software, který je snadno dostupný. ' Nabízí širokou škálu funkcí a knihoven pro různé statistické metody, od jednoduchých výpočtů po složité modelování. Je vhodný pro analýzu velkých datových sad, které by byly v Excelu obtížně zpracovatelné. ' Možnost vytvářet pokročilé vizualizace a grafy přímo z dat (pomocí programovéh kódu). Nevýhody: ' R vyžaduje určitou znalost programování, což může být pro začínající studenty obtížné. Ovšem tuto nevýhodu lze do značné míry potlačit s asistencí AI. Pro mnoho uživatelů je Excel jednodušší a intuitivnější, zejména pro menší a jednodušší úlohy. Ilustrativní příklad Příklad 12.4. Zvažte následující data o cenách produktů v obchodech: {10, 12, 8, 14, 11, 9, 15, 13}. Pomocí R vypočítejte průměr, směrodatnou odchylku a rozptyl. Napište příkazy a uveďte, co každý z nich dělá. Řešení: • Průměr: mean(c(10, 12, 8, 14, 11, 9, 15, 13)) =11,5. Směrodatná odchylka (výběrová): sd(c(10, 12, 8, 14, 11, 9, 15, 13)) = 2,44. . Rozptyl (výběrový): var(c( 10, 12, 8, 14, 11, 9, 15, 13)) =6. □ 12.3 Analýza dat z externích zdrojů V této sekci se zaměříme na příklady rozsáhlejších statistických úloh, které zahrnují stahování dat z internetu, jejich zpracování v Excelu, grafické znázornění a následné výpočty popisných statistik a korelace. Zaměříme se na reálná data z ČNB (kurzy měn) a akciových trhů. Kde hledat statistická data na internetu? Existuje mnoho dostupných zdrojů, ze kterých lze stahovat reálná statistická data. Klasicky ve formě souborů, například ve formátu csv, nebo přímým napojením. Mezi ty české patří například Český statistický úřad (czso.cz) a ČNB (cnb.cz). Z těch zahraničních například Eu-rostat (ec.europa.eu/eurostat) a Světová banka (data.worldbank.org), případně Yahoo Finance (finance.yahoo.com) a Google Finance (google.com/finance). 181 Základy statistiky Načítání dat z vnějších zdrojů do Excel u V Excelu existuje několik možností, jak načítat a transformovat data z různých externích zdrojů. Tyto možnosti umožňují zpracovávat data nejen ze souborů na lokálním disku, ale také z online zdrojů s aktuálními informacemi. Mezi základní možnosti patří (viz obrázek 25: Soubor Domů Vložení Rozložení stránky Vzorce Data F s a a h i a a i Načíst Z Text/ Z Z tabulky Z obrázku Poslední Existující i data v CSV webu nebo oblasti v zdroje připojení Načíst a transformovat data Obr. 25: Excel: Skupina Načíst a transformovat data na kartě Data Načítání z Text/CSV Pomocí této funkce lze načíst data z textových souborů (.txt) nebo souborů CSV (.csv). Jedná se o jednoduchý způsob, jak dostat strukturovaná data do Excelu. Načítání z webu Tato možnost umožňuje přímé načtení dat z webové stránky. Excel si z webu stáhne tabulková data a umožní je dále zpracovávat. To je zvláště užitečné pro načítání kurzů měn, cen akcií nebo jiných finančních dat, která se pravidelně aktualizují. Načítání z tabulky nebo oblasti Tento nástroj umožňuje načítat data přímo z jiných tabulek v Excelu nebo z definovaných oblastí buněk. Hodí se při práci s velkými datovými sadami rozdělenými do více souborů. Načítání z obrázku Excel dokáže načítat data přímo z obrázků, což je užitečné pro digitalizaci dat v tištěných tabulkách nebo grafech. Stačí nahrát obrázek a Excel rozpozná strukturu dat. Načítání z webových API a online zdrojů Excel umožňuje načítání dat z online zdrojů pomocí webových API. Tato funkce je klíčová pro práci s aktuálními daty, například z finančních trhů, online databází nebo jiných služeb poskytujících aktualizované informace. Pomocí rozhraní API lze získat přístup k datům, která se pravidelně aktualizují, což je ideální pro tvorbu reportů nebo analýz založených na živých datech. Poslední zdroje V této části Excelu je možné rychle znovu načíst data z posledních použitých zdrojů. To usnadňuje opakované aktualizace dat z těchto zdrojů. Existující připojení Tato funkce umožňuje správu a opětovné využití dříve nastavených připojení k datovým zdrojům, jako jsou databáze, webové služby nebo další Excelové soubory. Využití softwaru při řešení statistických úloh 182 Načítání dat z online zdrojů je pro analýzy v Excelu zásadní, zejména pokud pracujeme s dynamickými daty, která se často mění. Pomocí těchto nástrojů je možné zajistit, že naše tabulky budou obsahovat aktuální a relevantní informace pro daný účel. Ilustrativní příklad Příklad 12.5 (Načtení a analýza tabulky kurzů měn z ČNB). 1. Na stránkách ČNB najděte údaje „Kurzy devizového trhu - roční historie" a vyberte rok 2024 (obrázek 26)1 . Kurzy devizového trhu - roční historie Pošta - Fišer liri - O... Q IS ImIVSO § SAS* Logon Mař trliy/devizovy-:rl"/kLiTy-o-=viic-l/eh o-lrhL/íurzy-is^-ovshiO-t-iu/ic-k tvr?ľok=2024H :'. Course: SAS Acade. KK|l EUR 11 GBP|l HKD|199 HUF! I 24_.6S5| |24,675 I24,650 24,Ě3^J 24^480 Í4,i53í> 124,560 124,655 Obr. 26: ČNB: Kurzy devizového trhu - roční historie - zadání roku 2024 2. Zkopírujte odkaz a použijte jej v Excelu Z webu (obrázek 27). -> Data -> (Načíst a transformovat data) Z webu S Základni O Upřesnění Adresa URL_ yviz ovy-tih/kiJ rzy-d eviz ov eh o -trhu /burzy-deviz ove ho- tr h u/rok, ttt? r ck - 202í| OK Ziusit 15,278 15,201 15,137 15,059 14,951 15,052 15,037 15,061 12,621 12,616 12,602 12,578 12,517 12,578 12,558 12,606 4,609 16,938 26,524 4.584 16,932 26,473 4.585 16,88 26,455 4,583 16,853 26,399 4,57 16,712 26,31 4,595 16,829 26,419 4,589 16,762 26,317 4,599 16,801 26,4 Obr. 27: Načtení dat z ČNB do Excelu pomocí volby Data -> Z webu 3. Pomocí volby Analýza dat -> Popisná statistika vypočtěte popisné statistiky pro všechny měny (na zvláštní list). 4. Pomocí volby Analýza dat -> Korelace vypočtěte korelační koeficienty pro všechny dvojice měn (na zvláštní list). 5. Pomocí podmíněného formátování korelační koeficienty obarvěte podle velikosti. Zvlášť zvýrazněte hodnoty větší než 0,9. (obrázek 28). 6. Jak si vysvětlujete tak vysokou pozitivní lineární korelaci? 7. Vyberte jednu dvojici z předchozího bodu a vytvořte pro ni bodový graf. 1AUD - Australský dolar, BGN - Bulharské leva, BRL - Brazilský real, CAD - Kanadský dolar, CHF -Švýcarský frank, CNY - Čínský júan, DKK - Dánská koruna, EUR - Euro, GBP - Britská libra, HKD -Hongkongský dolar, HUF - Maďarský forint (kurz za 100 jednotek), IDR - Indonéská rupie (kurz za 1000 jednotek), ILS - Izraelský nový šekel, INR - Indická rupie (kurz za 100 jednotek), ISK - Islandská koruna (kurz za 100 jednotek), JPY - Japonský jen (kurz za 100 jednotek), KRW - Jihokorejský won (kurz za 100 jednotek), MXN - Mexické peso, MYR - Malajsijský ringgit, NOK - Norská koruna, NZD - Novozélandský dolar, PHP -Filipínské peso (kurz za 100 jednotek), PLN - Polský zlotý, RON - Rumunský lei, SEK - Švédská koruna, SGD - Singapurský dolar, THB - Thajský baht (kurz za 100 jednotek), TRY - Turecká lira (kurz za 100 jednotek), USD - Americký dolar, XDR - Speciální práva čerpání (měna používaná MMF), ZAR - Jihoafrický rand. 183 Základy statistiky Á A B C D E F 1 1AUD 1BGN 1BRL 1CAD 1CHF 1 2 1AUD 1 3 1BGN 0,56662 1 4 1BRL -0,26862 -0,03034 1 5 1CAD 0,27497 0,54962 0,70436 1 6 1CHF 0,1362 0,47057 -0,2287 0,11274 1 7 1CNY 0,489 0,83009 0,20362 0,71783 0,42913 8 1 DKK 0,56791 0,99647 -0,00012 0,57281 0,46649 1 9 1EUR 0,57007 0,99703 -0,02245 0,55534 0,4615 10 1GBP 0,74454 0,80486 -0,45514 0,15803 0,49149 11 1HKD 0,45092 0,67855 0,30423 0,7807 0,02264 Obr. 28: Podmíněné formát tabulky korelačních koeficientů 12.3.1 Excelovské nástroje pro analýzu akcií Využití datového typu Akcie v Excelu Datový typ Akcie umožňuje získávat aktuální finanční údaje o veřejně obchodovaných společnostech. Pro jeho použití stačí zadat název společnosti nebo její ticker (např. "AAPĽ'pro Apple) do buňky, následně zvolit z karty Data možnost Akcie. Excel poté poskytne aktuální údaje jako cena, tržní kapitalizace, P/E ratio atd., ale i samotný ticker. Tyto údaje se automaticky aktualizují (minimálně při každém otevření souboru). Získaný ticker lze následně využít ve funkci STOCKHISTORY pro načtení historických dat obchodování dané akcie. Použití funkce STOCKHISTORY Syntaxe je následující: =ST0CKHIST0RY("ticker"; "start_date"; "end_date"; [interval]; [headers]; [propertyO]; [propertyl]; . . .) Příklad použití pro načtení denních uzavíracích cen akcií Microsoftu za září 2024: =ST0CKHIST0RY("MSFT"; "2024-09-01"; "2024-09-30"; 0; 1; 0; 5) Tento vzorec vrátí tabulku obsahující data a uzavírací ceny pro každý obchodní den v uvedeném období. Funkce STOCKHISTORY je vhodná pro analýzu historických finančních dat a sledování časových řad. Ilustrativní příklady Příklad 12.6 (Analýza uzavíracích cen akcií firem NVIDIA a Intel). Pomocí datového typu Akcie zjistěte tickery firem NVIDIA a Intel. Využití softwaru při řešení statistických úloh 184 Pomocí funkce STOCKHISTORY načtěte uzavírací denní ceny jejich akcií v období od 1. srpna 2024 do 30. září 2024. Tyto dvě časové řady graficky znázorněte, vypočtěte pro ně základní popisné statistiky a proveďte jejich korelační analýzu. Řešení: 1. Tickery Nejprve získáme tickery společností NVIDIA a Intel pomocí datového typu Akcie: • Do buněk vložíme názvy společností (NVIDIA, Intel). Označíme buňky s názvy a na kartě Data zvolíme možnost Akcie. Excel automaticky přiřadí k názvům společností jejich tickery. . NVIDIA má ticker NVDA, Intel INTC. 2. Zisk historických uzavíracích cen Pro získání denních uzavíracích cen akcií obou společností v období od 1. srpna 2024 do 30. září 2024 použijeme následující funkce: =ST0CKHIST0RY("NVDA"; "2024-08-01"; "2024-09-30"; 0; 1; 0; 1) =ST0CKHIST0RY("INTC"; "2024-08-01"; "2024-09-30"; 0; 1; 0; 1) Experimujte s tímto zápisem tak, abyste získali tabulku o třech sloupcích: datum, ceny NVIDIA, ceny Intel. Tato funkce načte uzavírací ceny pro každý obchodní den v uvedeném období. Získané datové řady budou použity pro další analýzu. 3. Grafické znázornění časových řad Po získání uzavíracích cen vytvoříme spojnicový graf, který vizuálně znázorní vývoj uzavíracích cen akcií NVIDIA a Intel: Označíme sloupce s daty (datum, uzavírací ceny NVIDIA a Intel). • Na kartě Vložení zvolíme typ grafu Spojnicový graf. ' Excel vygeneruje graf, který zobrazí vývoj cen akcií obou společností v průběhu sledovaného období. 4. Korelační analýza Pro určení míry lineární závislosti mezi cenami akcií NVIDIA a Intel použijeme funkci CORREL. Vzorec pro výpočet korelačního koeficientu mezi dvěma časovými řadami uzavíracích cen je následující: =C0RREL(B2:B45, C2:C45)\approx 0{,}249. 185 Základy statistiky Funkce vrátila korelační koeficient o hodnotě 0,249, který popisujeme jako slabou pozitivní korelaci. Mějme ale na paměti, že korelační koeficient popisuje jen lineární závislost, a tak je vždy užitečné si celkový obraz doplnit obrázkem. V tomto případě je bodový graf na obrázku 29. Můžeme na něm zaznamenat jednu odlehlou hodnotu (v takovém případě bychom měli prověřit, zda nejde o chybnou hodnotu, resp. zjistit, jak mohla nastat). Na obrázku je znatelný drobný nárůst vertikálních hodnot (souřadnic) při růstu horizontálních hodnot. Uvědomme si také, že v tomto typu grafu není zachycena časová složka dat. $29,00 $27,00 $26,00 $23,00 $21,00 $ 19,00 $ 17,00 $9. • • • • • • • • • •• • • • • ■ a • • • • • • • • • • • • • • .00 $100,00 $105.00 $110,00 $115,00 $120.00 $125,00 $130,00 Obr. 29: Bodový graf cen akcií NVIDIA (horizontální osa) a Intel (vertikální osa) z příkladu 12.6 □ Příklad 12.7 (Analýza maximálního rozdílu mezi maximálními a minimálními denními cenami). Zvolte si tři firmy. Získejte jejich tickery a maximální a minimální denní ceny za jedno roční období, končící na konci předminulého měsíce (vzhledem ke dni, kdy příklad počítáte). Následně pro každou akcii vypočtěte denní rozdíly mezi maximální a minimální cenou. Poté najděte pro každou firmu nejvyšší hodnotu těchto denních rozdílů (tzv. maximální denní rozpětí) a tyto tři hodnoty porovnejte. Protože ceny akcií mohou být velmi rozdílné, je nutné výsledky porovnávat relativně. Nejprve pro každou akcii spočítejte tzv. průměrnou denní cenu jako průměr maximální a minimální ceny pro každý den. Z těchto průměrů vypočtěte jejich průměrnou hodnotu za celé období. Nakonec relativně porovnejte maximální denní rozpětí s touto průměrnou cenou (v procentech). Toto procentuální vyjádření vám umožní porovnat, která akcie vykazuje největší cenové výkyvy vzhledem ke své průměrné ceně. 12.3.2 Načítání externích statistických dat v R Ač Exel lze dobře použít pro import aktuálních finančních a dalších statistických dat, tak ten, kdo ovládá práci v R má situaci mnohem pohodlnější. Využití softwaru při řešení statistických úloh 186 R nabízí několik balíčků, které usnadňují přímé načítání aktuálních statistických a finančních dat z externích zdrojů. Mezi nej používanější patří ' quantmod, který umožňuje získávat data o cenách akcií, měnových kurzech a dalších finančních údajích z Yahoo Finance a FRED. ' Balíček wbstats poskytuje přístup k datům Světové banky, včetně ukazatelů inflace, HDP a dalších makroekonomických dat. ' Pro evropská data lze použít balíček eurostat, který umožňuje stahovat data o ekonomických a sociálních ukazatelích v rámci členských států EU. ' Kromě toho balíček f redr poskytuje přístup k bohaté databázi ekonomických ukazatelů FRED. Tyto nástroje v R umožňují rychlé a efektivní načítání aktuálních dat pro další analýzu. Samozřejmě, samostatná data nestačí, je třeba nejprve nastudovat jejich strukturu, označení a význam. O V této kapitole jsme se věnovali statistické analýze z pohledu použitého softwaru, přirozeně s největším důrazem na MS Excel, ale prošli jsme i možnosti Wolfram Alpha a R. Zaměřili jsme se na výpočty základních statistik, korelační analýzu a tvorbu grafických výstupů. Ukázali jsme také, jakým způsobem lze data načítat do Excelu z externích zdrojů a jak je následně zpracovat. Wolfram Alpha byl představen jako jednoduchý nástroj pro rychlé výpočty pravděpodobností a dalších základních statistických úloh, kdy není třeba složitého programování. R bylo popsáno jako pokročilý nástroj pro statistickou analýzu, který je vhodný pro práci s rozsáhlými datovými soubory, jejich vizualizaci a modelování, a umožňuje přímé načítání externích dat z různých statistických zdrojů, jako jsou například Světová banka nebo Eurostat. 1. Jaké zdroje lze využít pro stahování statistických dat z internetu? 2. Jaké jsou základní kroky pro načtení externích dat do Excelu? 3. Popište postup pro vytvoření grafu časových řad v Excelu. 4. Jaké funkce v Excelu použijete pro výpočet průměru, mediánu a směrodatné odchylky? 5. Co je Pearsonův korelační koeficient a jak se v Excelu vypočítá? 6. Kdy je vhodné použít Wolfram Alpha pro statistické výpočty? Uveďte příklady. 7. Jakým způsobem lze analyzovat a znázornit data z akciových trhů? 187 Základy statistiky 8. Stáhněte data o inflaci z webu Českého statistického úřadu (https://www.czso. cz) za posledních 10 let. Načtěte tato data do Excelu, analyzujte je pomocí grafu časové řady a vypočítejte základní statistiky (průměr, medián, směrodatná odchylka, minimum, maximum). 9. Získejte data o cenách akcií tří ropných společností za tři roky (začátek a konec si zvolte sami) pomocí funkce STOCKHISTORY. Vypočtěte jejich popisné statistiky. Vytvořte graf s těmito třemi časovými řadami. Proveďte jejich korelační analýzu včetně bodových grafů. Komentujte výsledky (největší podobnosti a rozdíly). ©Literatura k tématu: [1] PRAŽSKÁ BURZA CENNÝCH PAPÍRŮ. Dostupné z: https://www.pse.cz/. [2] YAHOO FINANCE. Dostupné z: https://finance.yahoo.com/. [3] MICROSOFT EXCEL. Podpora pro statistické funkce. Dostupné z: https: //support. microsoft.com/excel. [4] WOLFRAM ALPHA. Online nástroj pro výpočty. Dostupné z: https: //www. wolf ramalpha. com/. [5] R CORE TEAM. (2023). R: A Language and Environment for Statistical Computing. R Foundation for Statistical Computing, Vienna, Austria. Dostupné z: https: // cran.r-project.org/manuals.html. [6] ČESKÁ NÁRODNÍ BANKA (ČNB) - Data. Česká národní banka. (2023). Data a statistiky. Dostupné z: https://www.cnb.cz/cs/statistika/. [7] EUROSTAT. Statistiky Evropské unie. Dostupné z: https : //ec. europa. eu/eurostat. [8] SVĚTOVÁ BANKA. (2023). Data Světové banky. Dostupné z: https: //data.worldbank. org/. [9] ČESKÝ STATISTICKÝ ÚŘAD (ČSÚ). Data a statistiky České republiky. Dostupné z: https : //www. czso . cz/. Seznam literatury a použitých zdrojů [1] ANDĚL, J. Statistické metody. 5. vyd. Praha: Matfyzpress, 2019. ISBN 978-80-7378-381-5. [2] CALDA, E., DUPAČ, V. (2008). Matematika pro gymnázia: Kombinatorika, pravděpodobnost, statistika (5. vydání, dotisk 2011). Praha: Prometheus. ISBN 978-80-7196-365-3. [3] HANSEN, B. Probability and Statistics for Economists. Princeton University Press, 2022. ISBN 9780691236148. [4] HENDL, J. Základy matematiky, logiky a statistiky pro sociologii a ostatní společenské vědy v příkladech. 3. vyd., Karolinum, 20232. ISBN 978-80-246-5400-3. [5] HINDLS, R. Statistika pro ekonomy. 8. vyd. Praha: Professional Publishing, 2007. ISBN 978-80-869-4643-6. [6] HONG, Y. Probability and Statistics for Economists. World Scientific, 2017. ISBN 9789813228818. [7] JANÁČEK, J. Statistika jednoduše. Grada, 2022. ISBN 978-80-271-1738-3. [8] KELLER, G. Statistics for Management and Economics. 12th ed., Cengage Learning, 2022. ISBN 9780357714393. [9] MAREK, L. Statistika v příkladech. 2. vyd. Praha: Kamil Mařík - Professional Publishing, 2015. ISBN 978-80-743-1153-6. [10] NEUBAUER, J. a SEDLAČÍK, M. Základy statistiky: Aplikace v technických a ekonomických oborech - 3., rozšířené vydání. Grada, 2021. ISBN 978-80-271-3421-2. [11] OPENAI. Asistovaná příprava studijní opory pomocí ChatGPT. OpenAI. Dostupné na https://chat.openai.com, 2024. [12] OTIPKA, P., SMAJSTRLA, V. Pravděpodobnost a statistika [online]. 1. vydání. Ostrava: VŠB-TU Ostrava, 2007 [cit. 2024-09-09]. ISBN 80-248-1194-4. [13] ŘEZANKOVÁ, H. a kol. Úvod do statistiky. 2. dotisk 1. vyd., Oeconomica, nakladatelství VŠE, 2019. ISBN 9788024523019. [14] ZVÁRA, K. a ŠTĚPÁN, J. Pravděpodobnost a matematická statistika. Matfyzpress, 2019. ISBN 978-80-7378-388-4. 188 Seznam obrázků 1 Pravděpodobnostní a distribuční funkce k příkladu 3.6 .............. 57 2 Výpočet pravděpodobností na nekonečném intervalu................ 60 3 Výpočet pravděpodobností na konečném intervalu................. 60 4 Znázornění hustoty a p-kvantilu xp pro spojité rozdělení pravděpodobnosti (viz definici 3.22)...................................... 67 5 Pravděpodobnostní a distribuční funkce binomického rozdělení pro n = 10 a p = 0,5......................................... 73 6 Pravděpodobnostní a distribuční funkce hypergeometrického rozdělení pro N = 50, M = 20 a n = 10................................. 74 7 Pravděpodobnostní a distribuční funkce Poissonova rozdělení pro A = 3..... 75 8 Jeden z hrdých otců normálního rozdělení (vytvořeno pomocí ChatGPT, openAI) 82 9 Grafy hustot a distribučních funkcí normálního rozdělení s různými rozptyly . . 82 10 Grafy hustot a distribučních funkcí normálního rozdělení s různými středními hodnotami....................................... 83 11 Grafy hustot a distribučních funkcí rovnoměrného rozdělení (různé parametry a a b)........................................... 84 12 Grafy hustot a distribučních funkcí exponenciálního rozdělení pro různé parametry A .......................................... 86 13 Graf empirické distribuční funkce pro bodové rozložení četností z příkladu 7.10 . 110 14 Koláčový graf rozložení prodeje produktů ve firmě................. 112 15 Histogram absolutních četností výsledků testu ze statistiky z příkladu 7.10 ... 112 16 Histogram relativních četností hladiny hemoglobinu z příkladu 7.11....... 113 17 Ukázka bodového grafu................................131 18 Vložení bodového grafu................................144 19 Přidání spojnice trendu................................144 20 Nastavení lineární regrese ..............................145 21 Graf časové řady z příkladu 10.12..........................160 22 Dekompozice časové řady z příkladu 10.12.....................160 23 Graf předpovědi časové řady z příkladu 10.12....................160 24 Ukázka histogramu (četnosti a kumulativní relativní četnosti) z modulu Analýza dat........................................... 176 25 Excel: Skupina Načíst a transformovat data na kartě Data............ 181 26 ČNB: Kurzy devizového trhu - roční historie - zadání roku 2024 ......... 182 27 Načtení dat z ČNB do Excelu pomocí volby Data -> Z webu........... 182 28 Podmíněné formát tabulky korelačních koeficientů................. 183 29 Bodový graf cen akcií NVIDIA (horizontální osa) a Intel (vertikální osa) z příkladu 12.6....................................... 185 189 SEZNAM TABULEK 190 Seznam tabulek 1 Četnosti zdržení se zákazníků v obchodě (intervaly 5 minut)........... 37 2 Bodové rozložení četností výsledků testu z příkladu 7.10 ............. 110 3 Intervalové rozložení četností hladiny hemoglobinu u žen z příkladu 7.11..... 111 4 Ukázka dvourozměrného statistického souboru................... 129 5 Ukázka kontingenční tabulky ............................ 131 6 Ukázková data pro lineární regresi.......................... 141