STATISTIKA A STATISTICKÉ ZPRACOVÁNÍ DAT STUDIJNÍ OPORA PRO KOMBINOVANÉ STUDIUM Moravská vysoká škola Olomouc, o.p.s., 2024 STATISTIKA A STATISTICKÉ ZPRACOVÁNÍ DAT RNDr. Jiří FISER , Ph.D. © Moravská vysoká škola Olomouc, o. p. s. Autoři: RNDr. Jiří FIŠER, Ph.D. Olomouc 2024 Obsah Úvod 6 1 Základní statistické pojmy 8 1.1 Úvod do statistiky .................................. 9 1.2 Populace a výběr................................... 10 1.3 Typy proměnných................................... 10 1.4 Popisná statistika................................... 12 1.5 Distribuce dat..................................... 13 1.6 Základy pravděpodobnosti.............................. 15 1.7 Testování hypotéz (úvod)............................... 17 1.8 Intervaly spolehlivosti................................. 18 1.9 Korelace a kauzalita ................................. 19 1.10 Historie a význam statistiky............................. 20 2 Zpracování dat z výběrových zjišťování 22 2.1 Úvodní příklad .................................... 23 2.2 Výběrová šetření ................................... 24 2.3 Prostý náhodný výběr................................ 26 2.4 Výběrové charakteristiky a jejich rozdělení..................... 28 2.5 Řešené příklady.................................... 31 3 Pravděpodobnost 38 3.1 Klasická pravděpodobnost.............................. 40 3.2 Podmíněná pravděpodobnost............................. 43 3.3 Geometrická pravděpodobnost............................ 47 3.4 Statistická pravděpodobnost............................. 48 3.5 Nezávislé jevy..................................... 51 3.6 Opakované pokusy.................................. 54 4 Náhodná veličina 61 4.1 Úvod a motivace ................................... 62 4.2 Rozdělení pravděpodobnosti diskrétní náhodné veličiny.............. 63 4.3 Rozdělení pravděpodobnosti spojité náhodné veličiny............... 66 4.4 Základní číselné charakteristiky........................... 69 5 Základní rozdělení pravděpodobnosti náhodných veličin 73 5.1 Diskrétní rozdělení pravděpodobnosti........................ 74 5.2 Spojitá rozdělení pravděpodobnosti......................... 79 6 Bodový a intervalový odhad 91 6.1 Statistické odhady .................................. 93 6.2 Bodový odhad..................................... 94 5 6.2.1 Metoda momentů............................... 95 6.2.2 Metoda maximální věrohodnosti....................... 99 6.3 Intervalové odhady parametrů............................101 6.3.1 Intervalový odhad střední hodnoty .....................102 6.3.2 Intervalový odhad rozptylu..........................105 7 Testování statistických hypotéz 109 7.1 Statistické hypotézy.................................. 110 7.1.1 Jednostranné a oboustranné testy...................... 111 7.1.2 Testovací statistika.............................. 112 7.1.3 Hladina významnosti, kritický a akceprační obor a kritické hodnota ... 113 7.1.4 Kroky při testování hypotézy ........................ 116 7.2 P-hodnota při statistickém testování ........................ 121 8 Parametrické testy 126 8.1 Motivační příklad................................... 127 8.2 Úvod.......................................... 128 8.3 Hypotézy o rozptylu ................................. 129 8.3.1 Test významnosti rozdílu dvou rozptylů (F-test).............. 129 8.4 Hypotézy o střední hodnotě............................. 131 8.4.1 Jednovýběrový t-test............................. 131 8.4.2 Dvouvýběrový t-test............................. 134 8.4.3 Párový t-test ................................. 137 9 Neparametrické testy 141 9.1 Kolmogorovův-Smirnovův test dobré shody pro jeden výběr ...........143 9.2 Kolmogorovův-Smirnovův test dobré shody pro dva výběry............146 9.3 Chi-kvadrát test dobré shody ............................148 9.4 Dixonův test extrémních odchylek..........................149 10 Analýza rozptylu 153 10.1 Princip analýzy rozptylu...............................155 10.2 Jednofaktorová ANOVA...............................156 11 Korelační analýza 169 11.1 Princip korelační analýzy...............................170 11.2 Testování korelačního koeficientu ..........................173 12 Lineární regrese 176 12.1 Princip lineární regrese................................178 12.2 Odhad parametrů a interpretace...........................179 12.3 Testování významnosti regresních koeficientů....................180 Seznam literatury a použitých zdrojů 190 Seznam obrázků 191 Seznam tabulek 191 Úvod Vítejte ve světě statistiky Vítejte ve studijní opoře pro předmět Statistické zpracování dat, která je určena pro studenty navazujícího studia. Tato skripta vás provedou nejen základními teoretickými pojmy a koncepty statistiky ale také se zaměří na praktické aplikace, které jsou nezbytné pro analýzu a zpracování dat ve vaší budoucí praxi, například v oblasti ekonomie, managementu a marketingu. Struktura skript Struktura těchto skript je navržena tak, aby jednotlivé kapitoly na sebe logicky navazovaly a umožnily vám postupně prohlubovat vaše znalosti. Každá kapitola rozvíjí dovednosti, které jsou potřebné pro zvládnutí náročnějších témat v následujících částech. Základní pojmy statistiky - Začínáme s přehledem základních statistických pojmů, jako je náhodný jev, náhodná veličina, pravděpodobnost a jejich rozdělení, které později budeme studovat podrobněji. Zpracování dat z výběrových šetření - Zde se seznámíte s postupy, jak správně zpracovat a analyzovat data z reálného světa, včetně použití popisné statistiky a tabulkových výpočtů. ' Metody matematické statistiky - Následuje úvod do pokročilejších metod, jako jsou odhady parametrů a intervalové odhady. Naučíte se zde, jak se pracuje s výběrovými rozděleními a jak na základě nich činit závěry o celé populaci. ' Testování hypotéz - V této části vás naučíme, jak ověřovat hypotézy, a to jak parametrickými, tak neparametrickými testy, což je základní dovednost v každém výzkumu. ' Neparametrické testy - Pokud nejsou splněny předpoklady pro parametrické testy, neparametrické testy přicházejí na řadu a jsou nedílnou součástí analýzy statistických dat. Regresní a korelační analýza - Pokročilejší techniky pro modelování vztahů mezi proměnnými a predikci budoucích hodnot. Tyto metody jsou hojně využívány například v marketingových analýzách. Tato struktura vás provede od základů až po pokročilé aplikace, přičemž každá kapitola staví na znalostech z předchozích kapitol. Co vás v kapitolách čeká Každá kapitola začíná úvodní částí, která vás seznámí s tím, co bude v dané kapitole probíráno. V úvodu jsou vždy vytyčeny cíle, které byste měli po jejím prostudování zvládnout. Kapitoly dále obsahují: ' Teoretický výklad - Vysvětlíme vám podstatu jednotlivých statistických metod, postupů a jejich aplikace. Řešené příklady - Každá kapitola obsahuje praktické příklady, které vám pomohou pochopit a procvičit si danou látku. ' Rámečky - Důležité informace jsou zvýrazněny v rámečcích, které obsahují klíčové body, jež byste si měli zapamatovat. Shrnutí - Na konci každé kapitoly naleznete shrnutí hlavních bodů, které vám pomůže připomenout si probíranou látku. Kontrolní otázky a příklady - Otázky na závěr kapitoly jsou vhodné pro kontrolu pochopení látky, kterou jste se právě naučili. Odpovědi na ně najdete vdané kapitole. U příkladů jsou uvedeny výsledky v hranatých závorkách, což vám umožní ověřit si správnost výpočtů. Praktická aplikace a význam softwaru Statistika je nástroj, který je v praxi neocenitelný, a to jak při analýze ekonomických dat, tak při řešení manažerských problémů. Ve skriptech se budeme zaměřovat nejen na teoretické znalosti, ale i na jejich praktické využití. Proto klademe důraz na řešení praktických úloh a jejich výpočty, které vám umožní lépe pochopit jednotlivé metody. V průběhu studia zjistíte, že statistický software jako Excel a další nástroje budou vašimi skvělými pomocníky. Excel vám umožní jednoduše a efektivně řešit většinu statistických úloh, což je neocenitelná dovednost v každodenní praxi. Motivace a podpora Chceme, aby pro vás byla statistika zajímavá a přínosná. Neberte ji jako obtížný předmět, ale jako výzvu, která vám otevře dveře k lepšímu porozumění světu dat a informací. Každý příklad je tu proto, aby vás připravil na reálné situace, které vás mohou čekat v profesním životě. Naším cílem je, abyste si osvojili statistiku natolik, že ji budete schopni aplikovat s jistotou a bez obav. Nebojte se chyb ani náročných úkolů, jsme tu proto, abychom vás podpořili na vaší cestě. Statistika není nepřekonatelná překážka, ale nástroj, který vám pomůže analyzovat svět kolem vás. Věříme, že tato skripta vám budou užitečným průvodcem a že se díky nim statistika stane nejen srozumitelnou, ale i zábavnou. Kapitola 1 Základní statistické pojmy Po prostudování této kapitoly budete umět: představit základní principy statistiky a její historii, > rozlišovat mezi deskriptívni statistikou a statistickou indukcí, ' definoval základní statistické pojmy a jejich význam, • rozpoznat rozdíl mezi populací a výběrem, popsat typy proměnných a rozlišovat mezi nimi, > rozumět významu měřítek měření proměnných, • popsat míry centrální tendence a variability, • popsat rozdíl mezi korelací a kauzalitou. Klíčová slova: Statistika, deskriptivní statistika, statistická indukce, statistická jednotka, statistický znak, výběr, populace, měřítka proměnných, míry centrální tendence a variability, rozdělení pravděpodobnosti. Základní statistické pojmy 10 Náhled kapitoly Tato úvodní kapitola poskytuje základní přehled klíčových pojmů a metod statistiky, například pojmy jako populace, výběr, typy proměnných, měřítka měření, a distribuce dat. K získání celkového přehledu kapitola rovněž představuje řadu pojmů a postupů, které budou podrobněji rozpracovány až v následujících kapitolách této studijní opory. Na závěr je uvedena i stručná historie statistiky. Cíle kapitoly Tato kapitola má za cíl, aby student po jejím dokončení získal základní přehled o statistice, uměl definovat základní statistické pojmy a jejich význam, a tím byl připraven na studium pokročilejších statistických metod v následujících kapitolách. Odhad času potřebného ke studiu Pro efektivní zvládnutí této kapitoly se doporučuje vyhradit si přibližně 2 až 3 hodiny. Tento časový odhad zahrnuje čtení a pochopení textu, vypracování kontrolních otázek a samostatné prohloubení znalostí. í.i Úvod do statistiky Statistika je věda, která se zabývá sběrem, zpracováním, analýzou a interpretací dat. Pomáhá nám rozpoznávat vzory a trendy v datech a poskytuje metody pro rozhodování na základě nejistých informací. V ekonomii, managementu a marketingu je statistika klíčovým nástrojem pro získávání informací z dat a podporu rozhodovacích procesů. Existují dva hlavní typy statistiky: Popisná statistika (deskriptivní) se zaměřuje na popis základních charakteristik dat. Jejím cílem je sumarizace a prezentace dat pomocí různých grafů a výpočtů, jako jsou průměr, medián nebo rozptyl. Inferenční statistika (induktivní) se zaměřuje na dělání závěrů o celé populaci na základě výběru dat. Používá se pro odhady a testování hypotéz. Statistika má široké uplatnění v různých oblastech, jako jsou průzkumy trhu, predikce prodeje, kontrola kvality nebo finanční analýza. V tomto kurzu se studenti seznámí s technikami statistické analýzy dat, které jim pomohou lépe porozumět složitým datovým strukturám a podpoří jejich schopnost činit informovaná rozhodnutí. 11 Statistika a statistické zpracování dat 1.2 Populace a výběr V rámci statistiky se často snažíme dělat závěry o velké skupině objektů, které označujeme jako populace. Populace může být například všichni obyvatelé určité země, všechny výrobky z výrobní linky nebo všechny firmy v určitém průmyslovém odvětví. Výběr (vzorek) je podmnožina populace, která je vybrána pro účely analýzy. Vzhledem k tomu, že často není možné získat data o celé populaci, používáme vzorky, které nám umožní dělat závěry o populaci na základě její části. Důležité pojmy: Náhodný výběr: Každý člen populace má stejnou šanci být vybrán do vzorku. Výběrová chyba: Rozdíl mezi výsledky získanými z výběru a skutečnými výsledky pro celou populaci. V dalších kapitolách budeme používat různé techniky k odhadování parametrů populace na základě vzorku a zkoumat spolehlivost těchto odhadů. 1.3 Typy proměnných Ve statistice pracujeme s proměnnými, které představují různé charakteristiky nebo atributy, které mohou nabývat různých hodnot. Proměnné můžeme rozdělit do dvou hlavních kategorií: Kvalitativní (kategorické) proměnné: Tyto proměnné popisují kvalitativní charakteristiky, které nelze měřit číselně, ale mohou být rozděleny do kategorií. Například pohlaví (muž/žena), barva auta (červená, modrá, zelená). Kvantitativní (numerické) proměnné: Tyto proměnné mohou být měřeny číselně a mají skutečnou hodnotu. Například věk, výška, váha. Dále můžeme kvantitativní proměnné rozdělit na: Základní statistické pojmy 12 Diskrétní proměnné: Nabývají pouze určitých hodnot, obvykle celých čísel (např. počet dětí, počet výrobků). Spojité proměnné: Mohou nabývat libovolných hodnot v určitém intervalu (např. výška člověka, čas). Dalším důležitým aspektem je měřítko měření: Nominální škála: Kategorie bez přirozeného pořadí (např. barvy). Ordinální škála: Kategorie s přirozeným pořadím (např. úroveň spokojenosti: nízká, střední, vysoká). Intervalová škála: Hodnoty s pořadím, ale bez absolutní nuly (např. teplota v °C). Poměrová škála: Hodnoty s absolutní nulou (např. délka, váha). Rozlišování mezi těmito typy proměnných je důležité, protože ovlivňuje, jaké statistické metody lze použít pro jejich analýzu. Příklad 1.1. Uvažujme následující tabulku dat, která obsahuje údaje o několika firmách: Tab. 1: Data o firmách Firma Počet zaměstnanců Roční obrat (v milionech) Obor činnosti A 120 45,6 IT B 300 120,8 Stavebnictví C 50 15,2 Obchod D 450 220,5 IT E 90 30,1 Zdravotnictví V této tabulce jsou čtyři proměnné: Firma: Jedná se o nominální proměnnou, protože firmy jsou identifikovány podle názvu a nelze mezi nimi stanovit pořadí. ' Počet zaměstnanců: Toto je kvantitativní diskrétní proměnná, protože počet zaměstnanců je celé číslo. ' Roční obrat: Toto je kvantitativní spojitá proměnná, protože obrat může nabývat libovolných čísel (včetně desetinných hodnot). Obor činnosti: Toto je kvalitativní nominální proměnná, protože jde o kategorie bez přirozeného pořadí. 13 Statistika a statistické zpracování dat Tento příklad ilustruje, jak správně identifikovat různé typy proměnných v datech. 1.4 Popisná statistika Popisná statistika se zaměřuje na sumarizaci a popis základních charakteristik dat. Pomáhá nám porozumět tomu, jaká data máme k dispozici, a nabízí jednoduché nástroje pro jejich prezentaci. Míry centrální tendence Míry centrální tendence popisují střední hodnotu datového souboru. Mezi základní míry patří: Průměr (aritmetický průměr): Součet všech hodnot dělený počtem hodnot. Průměr je nejčastěji používanou mírou centrální tendence, ale je citlivý na extrémní hodnoty (outliers). Medián: Prostřední hodnota v datovém souboru, když jsou hodnoty seřazeny vzestupně. Pokud je počet hodnot sudý, medián je průměrem dvou prostředních hodnot. Modus: Hodnota, která se v datovém souboru vyskytuje nejčastěji. Na rozdíl od průměru a mediánu může být modus použit pro kvalitativní i kvantitativní proměnné. Míry variability Míry variability udávají, jak se hodnoty v datovém souboru od sebe liší. Mezi nej důležitější patří: Rozptyl (variance): Průměrná čtvercová odchylka hodnot od průměru. Vyjadřuje, jak jsou hodnoty v souboru rozptýlené. Směrodatná odchylka (standard deviation): Odmocnina z rozptylu. Měří průměrnou odchylku jednotlivých hodnot od průměru. Variační koeficient (coefficient of variation): Poměr směrodatné odchylky k průměru. Vyjadřuje relativní rozptyl dat a umožňuje porovnání variability mezi různými soubory dat. Základní statistické pojmy 14 Tato základní deskriptívni statistika nám umožňuje shrnout datový soubor a získat přehled o jeho klíčových vlastnostech. Distribuce dat popisuje, jak často se jednotlivé hodnoty v datovém souboru vyskytují. Grafické a numerické popisy distribuce nám pomáhají pochopit vlastnosti dat, jako jsou jejich tvar, centrální tendence a rozptyl. Pro znázornění distribuce dat se často používají následující grafy (viz obrázek 1): Histogram: Sloupcový graf, který ukazuje, jak často se určité intervaly hodnot vyskytují v datovém souboru. Histogram je vhodný pro kvantitativní data a umožňuje rychlou vizualizaci rozložení dat. Krabicový graf (boxplot): Graf, který ukazuje rozložení dat pomocí pěti čísel: minimum, první kvartil, medián, třetí kvartil a maximum. Boxplot nám umožňuje identifikovat možné odlehlé hodnoty (outliers) a symetrii distribuce. Bodový diagram (scatter plot): Graf, který zobrazuje vztah mezi dvěma proměnnými. Každý bod v grafu reprezentuje jednu dvojici hodnot. Scatter plot je často používán při analýze korelace a regrese. 1.5 Distribuce dat Grafické znázornění distribuce 10 5 0 A B Obr. 1: Histogram, krabicový diagram (boxplot) a bodový graf (scatterplot) Tvar distribuce Distribuce může mít různé tvary, které mohou být důležité pro rozhodování o vhodných statistických metodách: 15 Statistika a statistické zpracování dat Symetrická distribuce: Data jsou symetrická kolem centrální hodnoty. Nej- známějším příkladem symetrické distribuce je normální rozdělení (Gaussova křivka). Šikmá (asymetrická) distribuce: Data jsou „posunutá" na jednu stranu. Šikmá distribuce může být: Pravostranné šikmá (positive skew): yV_Dlouhý pravý „ocas" - většina dat je koncentrována v levé části. ' Levostranně šikmá (negative skew): —^\. Dlouhý levý „ocas" - většina dat je koncentrována v pravé části. Bimodální distribuce: .Data mají dva vrcholy (modálni hodnoty). Tento typ distribuce naznačuje, že data mohou pocházet ze dvou různých skupin. Spičatost (kurtosis): Spičatost určuje, jak ostrý nebo plochý je vrchol distribuce ve srovnání s normálním rozdělením. Leptokurtická distribuce (pozitivní kurtosis): Distribuce s vyšší špičatostí než normální rozdělení, s větším podílem extrémních hodnot. Platokurtická distribuce (negativní kurtosis): Distribuce s plošším vrcholem než normální rozdělení, s menším podílem extrémních hodnot. Normální rozdělení Normální rozdělení, také známé jako Gaussovo rozdělení, je jedním z nejdůležitějších rozdělení v celé statistice. Má charakteristický zvonovitý tvar a jeho vlastnosti zahrnují: Symetrie kolem průměru. Průměr, medián a modus jsou stejné. Přibližně 68% hodnot se nachází v intervalu do vzdálenosti jedné směrodatné odchylky od průměru, 95% v intervalu do vzdálenosti dvou směrodatných odchylek od průměru a 99,7% v intervalu do vzdálenosti tří směrodatných odchylek od průměru (viz obrázek 2). Normální rozdělení hraje důležitou roli při testování hypotéz a je základním předpokladem mnoha statistických metod, které budou podrobně probírány v dalších kapitolách. Základní statistické pojmy 16 0,15% 0,15% /x —3cr /x —2cr fi — a A* /i + cr /i + 2cr /í+3 rozuměl pojmu náhodný výběr a jeho významu pro reprezentativnost výběrových šetření, • byl schopen popsat a vysvětlit tvorbu výběrového souboru, > znal a uměl vypočítat základní výběrové charakteristiky, jako jsou výběrový průměr, rozptyl, směrodatná odchylka a kovariance, pochopil rozdíl mezi prostým náhodným výběrem a alternativními metodami výběru, jako jsou stratifikovaný a systematický výběr, získal přehled o výběrových charakteristikách a jejich vztahu k parametrům základního souboru, ' chápal důležitost přesnosti a nevychýlenosti odhadů při odhadech parametrů základního souboru. Odhad času potřebného ke studiu Pro zvládnutí této kapitoly se doporučuje vyhradit si přibližně 3 až 4 hodiny. Tento čas zahrnuje čtení textu, pochopení jednotlivých metod výběrových šetření, výpočty základních výběrových charakteristik a samostatné řešení kontrolních otázek. 2.1 Úvodní příklad Představte si, že jste analytikem ve velké maloobchodní společnosti, která prodává elektroniku. Vedení společnosti má zájem zjistit průměrnou spokojenost zákazníků s nákupy v jejich obchodech po celé zemi. Namísto dotazování všech zákazníků se rozhodnete provést výběrové šetření - tedy vyberete jen část zákazníků a na základě jejich odpovědí budete odhadovat spokojenost všech zákazníků. Vaším úkolem je navrhnout, jak by mělo toto šetření proběhnout, aby výsledky byly co nejspo-lehlivější. Nejdříve se rozhodnete použít prostý náhodný výběr, což znamená, že každý zákazník 25 Statistika a statistické zpracování dat má stejnou šanci být zahrnut do šetření. Poté vypočítáte průměrnou spokojenost těchto vybraných zákazníků a tuto hodnotu použijete jako odhad průměrné spokojenosti všech zákazníků. Například pokud náhodně vyberete 100 zákazníků, kteří odpoví na otázku o spokojenosti na škále od 1 do 10, můžete získat následující výsledky: x = (8,7,9,6,7,8,9,6,7,8,...) Na základě těchto odpovědí můžete spočítat průměrnou spokojenost ve výběru (nechť je například součet všech hodnocení 750): ■y 100 y x =-Xi =-• 750 = 7,5. 100^ 100 Tento průměr považujete za odhad průměrné spokojenosti všech zákazníků vaší společnosti. Kromě toho byste měli zjistit, jak moc se jednotlivé odpovědi odchylují od tohoto průměru, tedy jak jsou odpovědi rozptýlené kolem průměru. To zjistíte pomocí výpočtu směrodatné odchylky. Řekněme, že ta vyšla z dat následovně: ■y 100 MggXX^ Z)2 « 1,2. Co nám tato hodnota říká? Směrodatná odchylka nám říká, jak moc se jednotlivé odpovědi zákazníků liší od průměru. V tomto případě hodnota 1,2 znamená, že většina odpovědí se pohybuje v rozmezí 7,5 ± 1,2, tedy mezi 6,3 a 8,7. To nám napovídá, že spokojenost zákazníků je relativně konzistentní, většina zákazníků je se svým nákupem spokojena podobně. Kdyby byla směrodatná odchylka vyšší, znamenalo by to, že jsou mezi odpověďmi větší rozdíly -někteří zákazníci jsou velmi spokojení, zatímco jiní méně. Dále můžete pomocí tohoto šetření odhadnout, jaký interval spokojenosti lze očekávat u celé populace zákazníků, což vám dá představu o nejistotě vašeho odhadu. Takové výpočty jsou základem pro rozhodování vedení společnosti o zlepšení zákaznického servisu nebo zaměření marketingových kampaní. Tento příklad ilustruje, jak výběrové šetření funguje v praxi a proč je důležité správně provést výběr a analýzu dat. V této kapitole se podrobně naučíte, jak správně vybírat vzorky, jaké výběrové charakteristiky použít a jak zajistit, aby výsledky byly co nejpřesnější. 2.2 Výběrová šetření Nej důležitějším druhem neúplného šetření je pravděpodobnostní (náhodný) výběr. Tento postup zajišťuje, že každý prvek souboru má určitou (nejčastěji stejnou) pravděpodobnost, že bude zahrnut do výběrového souboru. Při provádění náhodného výběru se celý soubor rozdělí Zpracování dat z výběrových zjišťování 26 na výběrové jednotky, které mohou být totožné se statistickými jednotkami nebo tvořit jejich větší či menší skupiny. Tvorba výběrového souboru Tvorba výběrového souboru zahrnuje dvě hlavní složky: Pravděpodobnost vybrání: Každé výběrové jednotce je přiřazena určitá pravděpodobnost, že bude zahrnuta do výběrového souboru. Tato pravděpodobnost může být stejná pro všechny jednotky nebo se může lišit. Náhodnost výběru: Výběr (selekce) jednotek je prováděn náhodně, což znamená, že o zařazení či nezařazení každé jednotky rozhoduje pouze náhoda. Spojitost těchto dvou složek je klíčová pro zajištění reprezentativnosti výběrového souboru. Pravděpodobnostní a náhodný výběr Pravděpodobnostní hledisko je natolik významné, že dnes termín „pravděpodobnostní výběr" převažuje nad starším názvem „náhodný výběr". Pravděpodobnosti vybrání nemusí být u všech jednotek stejné, ale mohou se lišit. Pokud jsou pravděpodobnosti vybrání stejné, hovoříme o prostém náhodném výběru. V některé literatuře byl termín „pravděpodobnostní výběr" vyhrazen pouze pro výběry s nestejnými pravděpodobnostmi. Pochybnosti o náhodném výběru Někteří neodborníci mohou mít pochybnosti o tom, jak může náhodný výběr zajistit reprezentativnost. Může se zdát, že pokud ponecháme výběr náhodě, přestáváme ovlivňovat tvorbu výběrového souboru. Tyto pochybnosti jsou však neodůvodněné, protože náhodný výběr s předem známými pravděpodobnostmi umožňuje využít výhod náhody a matematicky kontrolovat její zákonitosti. Výhody pravděpodobnostního výběru Pravděpodobnostní výběry, což znamená, že každá jednotka v populaci má určitou známou šanci být vybrána, mají několik výhod. Díky nim můžeme získat odhady, které mají tyto důležité vlastnosti: 27 Statistika a statistické zpracování dat Konzistentní odhady: Když zvětšíme počet jednotek, které vybíráme (tj. velikost výběru), naše odhady se stále více přibližují skutečné hodnotě, kterou chceme zjistit. Jinými slovy, čím více dat máme, tím přesnější naše odhady budou. Nevychýlené odhady: Tyto odhady v průměru ani nepřehánějí, ani nebagatelizují skutečnou hodnotu. Představte si, že opakovaně vybíráte vzorky a pokaždé počítáte průměr. Pokud byste všechny tyto průměry zprůměrovali, dostali byste velmi blízkou hodnotu ke skutečnému průměru celé populace. Díky těmto vlastnostem jsou pravděpodobnostní výběry velmi spolehlivé. Přesnost našich odhadů můžeme také změřit - například pomocí střední výběrové chyby (standardní chyba průměru) s/^Jři, která nám říká, jak moc se mohou odhady lišit od skutečné hodnoty. Dalším užitečným nástrojem jsou intervalové odhady, které nám dávají určité rozmezí, ve kterém se skutečná hodnota téměř jistě nachází. Podrobněji se těmto tématům budeme věnovat v dalších kapitolách, kde se naučíme, jak tyto odhady správně provádět a jak je interpretovat. 2.3 Prostý náhodný výběr Prostý náhodný výběr je jednou z nej jednodušších forem pravděpodobnostního výběru. Každý prvek základního souboru (ZS) má stejnou pravděpodobnost, že bude do výběru zahrnut. Definice a podmínky prostého náhodného výběru Definice 2.1. Prostý náhodný výběr lze definovat jako výběr o rozsahu n, kdy každá množina n prvků má stejnou pravděpodobnost, že bude vybrána. Podmínka: Pro realizaci prostého náhodného výběru je nutné mít k dispozici očíslovaný seznam všech prvků základního souboru, tzv. oporu výběru, a generátor náhodných čísel, pomocí něhož jsou vybírány prvky z opory výběru. Postup při prostém náhodném výběru Prostý náhodný výběr probíhá podle následujících kroků: Zpracování dat z výběrových zjišťování 28 1. Sestavte oporu výběru a každému prvku přiřaďte celé číslo od 1 do N. 2. Rozhodněte o rozsahu výběru n. 3. Vygenerujte n náhodných čísel mezi 1 a N. 4. Získejte data od prvků identifikovaných těmito náhodnými čísly. Výběrový poměr Definice 2.2. Poměr mezi rozsahem výběru n a velikostí základního souboru N, tedy jj, nazýváme výběrový poměr. Tento poměr vyjadřuje pravděpodobnost, že prvek základního souboru bude zahrnut do výběru. Výběr může být prováděn s vracením nebo bez vracení. Při výběru s vracením má každý prvek nenulovou pravděpodobnost, že bude vybrán vícekrát. Pro statistické odvozování formulí je však výhodnější výběr s vracením, pokud je výběrový poměr malý (< 5%). Náhradní metody při neproveditelnosti prostého náhodného výběru V případech, kdy je prostý náhodný výběr neproveditelný nebo příliš nákladný, zejména u velmi rozsáhlých základních souborů, mohou být použity následující náhradní metody: Stratifikovaný náhodný výběr: Základní soubor je rozdělen do dílčích oblastí (strat), pro každou stratu se provede náhodný výběr. Tato metoda je vhodná, pokud lze populaci stratifikovat podle určitého znaku (např. pohlaví, věk), aby byla zajištěna reprezentace každé podskupiny. Systematický výběr: Ze seřazeného základního souboru je náhodně vybrán jeden prvek z prvních k prvků, poté se vybírá, počínaje od toho vybraního, k-tf, 2k-tý prvek atd. Tento postup je jednoduchý a snadno proveditelný. Příklad: Máme 100 prvků a chceme vybrat 10. Z první desítky {k = 10) náhodně vybereme, třeba 5. Potom již automaticky také 5 + k = 5 + 10 = 15, 5 + 2 • 10 = 25, ..., 85, 95. 29 Statistika a statistické zpracování dat Vícestupňový shlukový výběr: Tato metoda je často používána pro získávání informací o veřejném mínění. Výběr probíhá ve více stupních, například: 1. Náhodně vybereme vzorek okresů. 2. Z každého vybraného okresu náhodně vybereme určité množství měst požadované velikosti. 3. Z vybraných měst náhodně vybereme vzorek sídlišť. 4. Z vybraných sídlišť vybereme domácnosti, kde se provede dotazování. Tento postup, i když vypadá komplikovaně, je velmi efektivní a méně nákladný než prostý náhodný výběr. 2.4 Výběrové charakteristiky a jejich rozdělení Při statistické analýze se často zaměřujeme na charakteristiky výběrového souboru, které nám poskytují informace o základním souboru. Tyto charakteristiky se nazývají výběrové charakteristiky a jsou funkcemi náhodných veličin získaných z výběrového souboru (protože závisí na konkrétním výběru vzorku, který může být různý). Základní pojmy Základní soubor: Skládá se z V jednotek, přičemž nás zajímá znak X (např. objem piva v lahvi). Výběrový soubor: Je tvořen n jednotkami náhodně vybranými ze základního souboru. Hodnoty znaku X,j_ jsou považovány za realizace náhodné veličiny X. Statistický model: Rozdělení pravděpodobností náhodné veličiny X, kterou pozorujeme, se nazývá statistický model. Zpracování dat z výběrových zjišťování 30 Výberové charakteristiky Výběrové charakteristiky jsou funkce náhodných veličin Xi, X2, ■ ■ ■, Xn a jsou definovány jako statistiky: T = T(Xi, X2,..., Xn). Následují základní výběrové charakteristiky: Definice 2.3. Výběrový obecný moment: k-tý výběrový obecný (počáteční) moment je dán vztahem 1 mk = ~J2xi> kde Xi je hodnota znaku X pro i-tou jednotku výběrového souboru. Definice 2.4. Výběrový průměr: Výběrový průměr je definován jako 1 x m1 = - J2xí- n i=i U prostého náhodného výběru platí, že průměr výběrových průměrů se rovná střední hodnotě fi základního souboru, zapisujeme E(V) = fi. Výběrový průměr je tedy vhodný pro odhad střední hodnoty. Definice 2.5. Výběrový centrální moment: k-tý výběrový centrální moment je dán vztahem , 1 mk = - > (Xi - x) . n i=i Definice 2.6. Výběrový rozptyl: Výběrový rozptyl je definován jako 1 11 s2 = /i2 = —— J2(xí - x)2-^ i=i Výběrový rozptyl je vhodný pro odhad rozptylu základního souboru. 31 Statistika a statistické zpracování dat Definice 2.8. Výběrová kovariance: Pokud sledujeme dva znaky X a y ve výběrovém souboru, můžeme vypočítat výběrovou kovarianci jako 1 n Cov(x, y) = —— y>, - *){yi - v\ n 1 i=i kde Xi a íji jsou hodnoty znaků X a y pro i-tou jednotku. Definice 2.9. Výběrový lineární korelační koeficient: Lineární korelační koeficient je dán vztahem Cov(X, y) rXY = -, sxsY kde Sx a sy jsou výběrové směrodatné odchylky znaků laľ. Úloha výběrového šetření Úkolem výběrového šetření je odhadnout neznámé parametry základního souboru nebo charakteristiky rozdělení základního souboru na základě náhodného výběru. Parametry základního souboru: Charakteristiky základního souboru se nazývají parametry (nebo teoretické charakteristiky) a značí se řeckými písmeny (např. fi, a2, 0). Výběrové charakteristiky: Charakteristiky výběrového souboru se nazývají výběrové charakteristiky nebo statistiky a značí se latinskými písmeny (např. X, Sxy, rxy)- Výběrové šetření poskytuje odhady parametrů základního souboru, které jsou základem pro statistickou analýzu a rozhodování. Cílem je získat odhady, které jsou přesné a nevychýlené. Zpracování dat z výběrových zjišťování 32 2.5 Řešené příklady Příklady jsou voleny tak, aby ilustrovaly probranou látku, ale aby nebyly příliš náročné na výpočty. V praxi by byly výběry rozsáhlejší. Stratifikovaný výběr a výběrové charakteristiky: Příklad 2.10. Představte si, že pracujete pro obchodní řetězec, který provozuje supermarkety po celé zemi. Řetězec chce analyzovat průměrné nákupy svých zákazníků ve dvou různých regionech - regionu A a regionu B. Cílem je zjistit, jak se liší průměrné útraty zákazníků v těchto regionech. Místo toho, aby se zjišťovaly údaje od všech zákazníků, provede se výběrové šetření, které bude stratifikované podle regionů. Řetězec má celkem 20 000 zákazníků, z toho 12 000 zákazníků v regionu A a 8 000 zákazníků v regionu B. Rozhodnete se provést stratifikovaný náhodný výběr, kde z každého regionu vyberete 5 zákazníků. Zde jsou údaje pro 5 náhodně vybraných zákazníků z každého regionu (v Kč): Region A: xA = (800,1500,700,1200, 900) Region B: xB = (1000,1100,950,1300,750) Vaším úkolem je vypočítat následující: 1. Průměrnou útratu zákazníků ve výběru v regionu A a regionu B. 2. Směrodatnou odchylku útrat zákazníků v regionu A a regionu B. 3. Výběrový rozptyl útrat zákazníků v regionu A a regionu B. Řešení: 1. Výpočet průměrné útraty zákazníků ve výběru v regionu A a regionu B Nejprve spočítáme průměrné útraty zákazníků v každém regionu: Region A: 1 * 800 + 1500 + 700 + 1200 + 900 inonT^ xA = - > xA i =---= 1020 Kc. 5fri 5 Region B: 1 * 1000 + 1100 + 950 + 1300 + 750 inonT^ xB = -= }^ xb,í =-ř-= 1020 Kc- b i=i b V obou regionech je průměrná útrata zákazníků ve výběru 1020 Kč. 2. Výpočet směrodatné odchylky útrat zákazníků v regionu A a regionu B 33 Statistika a statistické zpracování dat Spočítáme směrodatné odchylky v každém regionu: Region A: Sa kde n = 5. \ a X!^.! xa)2i \4 í=i Vypočítáme odchylky jednotlivých hodnot od průměru pro region A: (800 - 1020)2 = 48400, (1500 - 1020)2 = 230400 (700 - 1020)2 = 102400 (1200 - 1020)2 = 32400, (900 - 1020)2 = 14400. Součet těchto odchylek je: 48400 + 230400 + 102400 + 32400 + 14400 = 423000. Směrodatná odchylka v regionu A je: 423000 sa = J—j—*í 324,04 Kč. Region B: sb \4f i=l Vypočítáme odchylky jednotlivých hodnot od průměru pro region B: (1000 - 1020)2 = 400, (1100 - 1020)2 = 6400, (950 - 1020)2 = 4900, (1300 - 1020)2 = 78400 (750 - 1020)2 = 72900 Součet těchto odchylek je: 400 + 6400 + 4900 + 78400 + 72900 = 163000. Směrodatná odchylka v regionu B je: Zpracování dat z výběrových zjišťování 34 /163000 oni rn sB = J—-— « 201,56 Kč. 3. Výpočet výběrového rozptylu útrat zákazníků v regionu A a regionu B Výběrový rozptyl je čtverec směrodatné odchylky: Region A: 4 = 423000 = 105750 Kč2. 4 Region B: 2 163000 „ T ~ i| =-= 40750 Kč2. Interpretace výsledků: Na základě stratifikovaného náhodného výběru jsme zjistili, že průměrná útrata zákazníků ve výběru je v obou regionech stejná, tedy 1020 Kč (což je evidentně jen náhoda, při jiném výběru by to vyšlo jinak). Směrodatná odchylka je však vyšší v regionu A (324,04 Kč) než v regionu B (201,56 Kč), což znamená, že v regionu A jsou útraty zákazníků více rozptýlené kolem průměru. Výběrový rozptyl je také přirozeně vyšší v regionu A (105 750 Kč2) oproti regionu B (40 750 Kč2), což potvrzuje větší variabilitu v regionu A. Tyto informace mohou být použity k optimalizaci marketingových strategií a plánování zásob v jednotlivých regionech. □ Kovariance a korelační koeficient Příklad 2.11. Představte si, že pracujete jako analytik pro investiční společnost. Vaším úkolem je analyzovat vztah mezi ročními výnosy dvou různých akcií (akcie X a akcie Y) za posledních 5 let. Chcete zjistit, zda existuje vztah mezi výnosy těchto dvou akcií, což vám pomůže rozhodnout, zda je vhodné do těchto akcií investovat společně. Roční výnosy (v %) pro akcie X a Y v jednotlivých letech jsou následující: Výnosy akcie X: X = (5,10,12,6,8) Výnosy akcie Y: V = (3, 8, 9, 5, 6) Vaším úkolem je: 1. Vypočítat průměrný výnos pro akcie X a Y. 2. Vypočítat kovarianci mezi výnosy akcie X a Y. 3. Vypočítat korelační koeficient mezi výnosy akcie X a Y. 4. Interpretovat, co kovariance a korelační koeficient znamenají. 35 Statistika a statistické zpracování dat Řešení: 1. Výpočet průměrného výnosu pro akcie X a Y Nejprve spočítáme průměrný výnos pro každou akcii: Akcie X: 7=lž^ = S+10 + " + 8 + 8=^»- 5^ 5 Akcie Y: 7 1^3 + 8 + 9 + 5 + 6 5^ 5 Průměrný roční výnos pro akcii X je 8,2 %, zatímco pro akcii Y je 6,2 %. 2. Výpočet kovariance mezi výnosy akcie X a Y Kovarianci mezi výnosy X a Y vypočítáme podle vzorce: 1 11 — — Cov(Y, Y) =-- £(Xť ~ X)0. Tento koncept je užitečný v mnoha praktických situacích, například při odhadu pravděpodobnosti úspěchu produktu na trhu, pokud víme, že byl úspěšný v podobném segmentu. Příklad 3.8. Předpokládejme, že 60 % lidí v populaci je praváků a 40 % je leváků. Pokud víme, že osoba je levák, jaká je pravděpodobnost, že preferuje levou ruku při psaní, když je známo, že 80 % leváků preferuje levou ruku? Řešení: Pravděpodobnost, že osoba je levák a preferuje levou ruku, je P{A fl B) = 0,4 x 0,8 = 0,32. Podmíněná pravděpodobnost, že osoba preferuje levou ruku, pokud je levák, je: v 1 ; P(B) 0,4 □ Příklad 3.9. V automobilovém servisu bylo zjištěno, že 70 % automobilů potřebuje opravu motoru (jev M), 50 % automobilů má problém s převodovkou (jev P), a 30 % automobilů má problém s obojím (jev M fl P). Jaká je pravděpodobnost, že automobil, který má problém s převodovkou, má také problém s motorem? Řešení: Zadání uvádí následující pravděpodobnosti: P(M) = 0,7, P(P) = 0,5, P(M H P) = 0,3. 45 Statistika a statistické zpracování dat Podmíněná pravděpodobnost, že automobil má problém s motorem za předpokladu, že má problém s převodovkou, je dána vztahem: Dosazením hodnot: P(M\P) = M = 0,6. Závěr: Existuje 60% pravděpodobnost, že automobil, který má problém s převodovkou, má také problém s motorem. □ Úplná pravděpodobnost Definice 3.10. Zákon úplné pravděpodobnosti umožňuje vypočítat pravděpodobnost jevu na základě rozkladu prostoru jevů na několik disjunktních (vzájemně neslučitelných) událostí. Tento zákon využíváme zejména tehdy, když pravděpodobnost jevu závisí na několika různých scénářích (podmínkách), které tvoří úplný prostor možných výsledků. Formálně lze úplnou pravděpodobnost jevu A vyjádřit jako: P (A) = P{A n £i) + P (A n B2) + • • • + P (A n Bn), kde B1}B2,... ,Bn jsou vzájemně neslučitelné události, které tvoří úplný prostor (tedy B\ U B2 U • • • U Bn = Q). Použijeme-li pravidlo pro podmíněnou pravděpodobnost, můžeme tento vztah upravit: P(A) = P{B1) ■ P(A | B{) + P(B2) .P(A\B2) + --- + P(Bn) ■ P (A | Bn), kde P{A | B i) je podmíněná pravděpodobnost jevu A za podmínky, že nastal jev Bi. Zákon úplné pravděpodobnosti nám tedy umožňuje vypočítat pravděpodobnost složitých jevů tím, že je rozdělíme na dílčí podmíněné pravděpodobnosti. Příklad 3.11 (Použití úplné pravděpodobnosti). V obchodě jsou 3 pokladny, na nichž dojde k chybě v účtování s pravděpodobností 0,1; 0,05 a 0,2. Z hlediska jejich umístění v obchodě jsou pravděpodobnosti odbavení pokladnami 0,3; 0,25 a 0,45. Jaká je pravděpodobnost, že osoba vycházející z obchodu má chybný účet? Řešení: Označme: • A: jev, že došlo k chybě v účtování, • H\. jev, že zákazník byl obsloužen u první pokladny, Pravděpodobnost 46 • H2: jev, že zákazník byl obsloužen u druhé pokladny, • H3: jev, že zákazník byl obsloužen u třetí pokladny. Hledáme pravděpodobnost P (A), že osoba vycházející z obchodu má chybný účet. To můžeme vyjádřit jako: p (A) = P (A n h,) + p (A n h2) + P(A n #3). Protože jevy H\, H2 a iJ3 jsou vzájemně neslučitelné, můžeme použít vztah: P{A) = P(^) • P(A I Fx) + P{H2) ■ P{A I tf2) + P(H3) ■ P{A I H3). Dosadíme hodnoty: P (A) = 0,3 x 0,1 + 0,25 x 0,05 + 0,45 x 0,2. Spočítáme jednotlivé členy: P(A) = 0,03 + 0,0125 + 0,09 = 0,1325. Pravděpodobnost, že osoba vycházející z obchodu má chybný účet, je tedy P (A) = 0,1325. □ Bayesova věta Definice 3.12. Bayesova věta je užitečný nástroj v pravděpodobnostní teorii, který umožňuje přepočítat podmíněnou pravděpodobnost jevu za předpokladu, že máme dodatečnou informaci. Vychází z pravidla pro výpočet podmíněné pravděpodobnosti a umožňuje nám přepočítat pravděpodobnost příčiny za předpokladu, že známe důsledek. Matematicky je Bayesova věta vyjádřena následovně: P{Bi | A) P{A Bt) ■ P(Bi) kde P(Bi | A) je pravděpodobnost jevu Bi za předpokladu, že nastal jev A, P{A \ Bi) je podmíněná pravděpodobnost jevu A, pokud nastal jev Bi, a P{Bi) je pravděpodobnost jevu Bi. Jmenovatel představuje celkovou pravděpodobnost výskytu jevu A. Bayesova věta se často používá v situacích, kde potřebujeme zpětně upravit pravděpodobnost určité příčiny na základě nových pozorování. Příklad 3.13 (Bayesova věta). V obchodě jsou tři pokladny, přičemž pravděpodobnost chyby v účtování na pokladnách je následující: na první pokladně 0,1, na druhé 0,05 a na třetí 0,2. Pravděpodobnosti odbavení zákazníků jednotlivými pokladnami jsou 0,3, 0,25 a 0,45. Pokud dojde k chybě v účtování, jaká je pravděpodobnost, že k ní došlo na třetí pokladně? Řešení: Použijeme Bayesovu větu. Označme: ' A — jev, že došlo k chybě, 47 Statistika a statistické zpracování dat ' B3 — jev, že zákazník byl obsloužen na třetí pokladně. Chceme vypočítat P{B3 \ A), tedy pravděpodobnost, že chyba nastala na třetí pokladně za předpokladu, že chyba nastala. Podle Bayesovy věty: P(B3 I A) P{A B3) ■ P(B3) P (A \B1)-P(B1) + P(A\ B2) ■ P{B2) + P(A B3) ■ P(B3) Dosadíme známé hodnoty: P(B3 A) =-----. v 1 ; 0,1 x 0,3 + 0,05 x 0,25 + 0,2 x 0,45 Vypočítáme: 0 09 0 09 P(B3 I A) =-^-= « 0,6792. v 1 ; 0,03 + 0,0125 + 0,09 0,1325 Výsledek: Pravděpodobnost, že chyba v účtování nastala na třetí pokladně, pokud víme, že chyba nastala, je přibližně 67,92%. □ Poznámka 3.14. Tento příklad ukazuje, jak Bayesova věta umožňuje přepočítat pravděpodobnost příčiny (pokladna, kde došlo k chybě) na základě nového důkazu (chyba v účtování). Pomocí známých pravděpodobností chyby na jednotlivých pokladnách a pravděpodobností odbavení zákazníků lze zpětně vypočítat pravděpodobnost, že chyba nastala právě na třetí pokladně. Příklad 3.15 (Pozitivní lékařský test). Prevalence výskytu AIDS v populaci je 0,6 %. Pro odhalení nemoci se používá test, který s pravděpodobností 99,9 % je pozitivní, je-li dotyčná osoba nakažená (tzv. senzitivita testu), a s pravděpodobností 99 % je negativní, je-li daná osoba zdravá (tzv. specificita testu). Jaká je pravděpodobnost, že osoba, která měla pozitivní test, má skutečně AIDS? Řešení: Tento příklad řešíme pomocí Bayesovy věty, která nám umožňuje spočítat zpětnou pravděpodobnost, že osoba, která měla pozitivní test, je skutečně nakažená. Označme: P{A) - pravděpodobnost, že osoba má AIDS (prevalence v populaci): P{A) = 0,006, P{A) - pravděpodobnost, že osoba nemá AIDS: P{A) = 1 — P{A) = 0,994, P(T+\A) - pravděpodobnost pozitivního testu, pokud má osoba AIDS (senzitivita): P(T+\A) 0,999, P(T+\A) - pravděpodobnost pozitivního testu, pokud osoba nemá AIDS (chybovost, tedy 1- specificita): P(T+\A) = 1 - 0,99 = 0,01. Pravděpodobnost 48 Bayesova věta nám umožňuje vypočítat pravděpodobnost, že osoba má AIDS za předpokladu, že měla pozitivní test, tedy P{A\T+). Tento vztah je dán vzorcem: P(A\T+) = P{T+\A).P{A)_ 1 1 ; P{T+\A) ■ P{A) + P{T+\A) ■ P{A\ Dosadíme hodnoty: p(A|T+, 0,999 x 0,006 0,999 x 0,006 + 0,01 x 0,994 Vypočítáme jednotlivé členy: r,/íllm,, 0,005994 0,005994 P(AT+) =---= --« 0,376. v 1 ; 0,005994 + 0,00994 0,015934 Odpověď: Pravděpodobnost, že osoba, která měla pozitivní test, skutečně má AIDS, je přibližně 37,6 %. □ 3.3 Geometrická pravděpodobnost Definice 3.16. Geometrická pravděpodobnost se používá v situacích, kdy jev nemá konečný počet výsledků, ale je možné jej popsat pomocí pojmů, jako jsou délka, obsah nebo objem. Pravděpodobnost určitého jevu je pak poměr odpovídající geometrické míry jevu k míře celkového prostoru. Definujeme ji jako: „. Míra příznivého geometrického jevu P (A) =--;—f-- to-^-. Celková míra možného geometrického prostoru Předpoklady geometrické pravděpodobnosti: 1. Nepřetržitý prostor výsledků: Na rozdíl od klasické pravděpodobnosti, kde je počet možných výsledků konečný, geometrická pravděpodobnost předpokládá, že výsledek může spadat do nekonečného nebo kontinuálního prostoru. 2. Stejná pravděpodobnost na jednotku plochy (objemu): Pravděpodobnost jednotlivých výsledků je úměrná míře (např. délce, ploše nebo objemu) v daném geometrickém prostoru. Žádná část prostoru není preferována, což znamená, že všechny body v tomto prostoru mají stejnou pravděpodobnost. 3. Geometrická definice prostoru: Prostor, ve kterém se počítá pravděpodobnost, musí být geometricky definován (např. určitá oblast, interval na číselné ose, plochy nebo objemy v prostoru). 49 Statistika a statistické zpracování dat Příklad 3.17. Máme čtverec o straně 20 cm, uvnitř kterého je umístěn kruh o poloměru 5 cm. Jaká je pravděpodobnost, že náhodně vybraný bod uvnitř čtverce spadne do kruhu? 20 cm 20 cm Řešení: Nejprve vypočítáme plochu čtverce a kruhu. Plocha čtverce je čtverec = 20 X 20 = 400 Clil2, zatímco plocha kruhu je •Skruh = t x 52 = 257t cm2 78,54 cm2. Pravděpodobnost, že náhodně vybraný bod spadne do kruhu, je dána jako poměr plochy kruhu k ploše čtverce: pn i \ Skruh 25tt 78,54 P(kruh) = —- =-~- ~ 0,196. 1 ' čtverec 400 400 □ 3.4 Statistická pravděpodobnost Definice 3.18. Statistickou pravděpodobnost definujeme jako relativní četnost, s jakou určitý jev nastává v dlouhodobém opakování experimentu. Její výpočet se odvozuje z pozorovaných dat a lze ji vyjádřit vztahem P (A) = lim Požet výbytů jevu A n^oo Celkový počet pokusů Pravděpodobnost 50 Předpoklady statistické pravděpodobnosti: 1. Opakovatelnost experimentu: Pokus, při kterém je zkoumán jev, lze opakovat za stejných podmínek mnohokrát. 2. Stabilní výsledky při velkém počtu pokusů: S narůstajícím počtem pokusů se relativní četnost výskytu daného jevu stabilizuje a blíží se určité hodnotě. Tato hodnota je považována za pravděpodobnost jevu. 3. Nezávislost pokusů: Jednotlivé pokusy jsou na sobě nezávislé, což znamená, že výsledek jednoho pokusu nemá vliv na výsledky dalších pokusů. 4. Dostatečně velký počet pokusů: Statistická pravděpodobnost má smysl pouze v situacích, kdy je k dispozici velký počet pokusů nebo měření. Relativní četnost se totiž stabilizuje až po dostatečně velkém počtu opakování. Statistická pravděpodobnost je vhodná pro situace, kdy máme k dispozici data z opakovaných pokusů a můžeme na základě těchto dat odhadovat pravděpodobnost výskytu různých jevů. Aplikace v různých situacích Statistickou pravděpodobnost lze aplikovat jak v diskrétních, tak spojitých situacích, a to s určitými rozdíly: Diskrétní konečná situace: V případě konečného počtu možných výsledků (např. hod kostkou) lze statistickou pravděpodobnost odhadnout z relativních četností jednotlivých výsledků v řadě pokusů. Například pokud házíme kostkou lOOkrát, počet, kolikrát padne číslo 6, se může stabilizovat kolem hodnoty |. Diskrétní nekonečná situace: Pokud má náhodná veličina nekonečně mnoho možných hodnot, ale tyto hodnoty jsou diskrétní (např. počet zákazníků přicházejících do obchodu za den), pak se pravděpodobnostní model zaměřuje na odhad pravděpodobností jednotlivých hodnot nebo jejich intervalů pomocí četností. Zde může být například důležité určit, jak často během jednoho dne přijde do obchodu přesně 10 zákazníků, nebo třeba víc jak 50. Spojitá situace: U spojitých náhodných veličin (např. výška náhodně vybraného člověka) nelze přímo určit pravděpodobnost, že náhodná veličina nabude konkrétní hodnoty (např. přesně 170 cm), protože tato pravděpodobnost je prakticky nulová. Namísto toho se pracuje s pravděpodobností, že náhodná veličina spadne do určitého intervalu, např. že výška člověka bude mezi 170 a 175 cm. Pravděpodobnost se odhaduje na základě relativních četností hodnot spadajících do těchto intervalů a k modelování se používají hustoty pravděpodobnosti. V závislosti na povaze náhodné veličiny a situace, ve které pracujeme, se způsob aplikace statistické pravděpodobnosti mění. Zatímco u diskrétních situací lze snadno spočítat četnosti jednotlivých hodnot, u spojitých situací musíme pracovat s intervaly hodnot a hustotami pravděpodobnosti. 51 Statistika a statistické zpracování dat Příklad 3.19 (spojitý případ). Sledujme dobu, po kterou se zákazníci zdržují v obchodě. Čas pobytu byl zaznamenán a rozdělen do intervalů o délce 5 minut. Data o četnostech pro jednotlivé intervaly jsou shrnuta v následující tabulce: Tab. 2: Četnosti zdržení se zákazníků v obchodě (intervaly 5 minut) Interval (min) Četnost 0-5 77 5-10 83 10-15 25 15-20 15 Celkem 200 Určete jednotlivé statistické pravděpodobnosti. Řešení: Z tabulky je zřejmé, že celkem bylo sledováno 200 zákazníků. Nyní spočítáme statistické pravděpodobnosti pro jednotlivé intervaly na základě relativních četností. 77 P(0-5 minut) =-= 0,385, v ; 200 ' ' 83 P(5-10 minut) =-= 0,415, v ; 200 ' ' 25 P(10-15 minut) =- = 0,125, v ; 200 ' ' 15 P(15-20 minut) =-= 0,075. v ; 200 Rozdělení statistické pravděpodobnosti pro intervaly času zdržení se zákazníků v obchodě je tedy následující: Pravděpodobnost, že se zákazník zdrží v obchodě mezi 0 a 5 minutami, je 0,385. Pravděpodobnost, že se zákazník zdrží mezi 5 a 10 minutami, je 0,415. Pravděpodobnost, že se zákazník zdrží mezi 10 a 15 minutami, je 0,125. Pravděpodobnost, že se zákazník zdrží mezi 15 a 20 minutami, je 0,075. Celkové rozdělení pravděpodobnosti je vytvořeno (odhadnuto) z relativních četností, které vyjadřují pravděpodobnosti pro jednotlivé intervaly. Toto rozdělení můžeme použít k modelování délky pobytu zákazníků v obchodě. □ Pravděpodobnost 52 3.5 Nezávislé jevy Definice 3.20. Nezávislé jevy jsou takové jevy, jejichž výskyt jeden druhého neovlivňuje. To znamená, že pravděpodobnost výskytu jednoho jevu neovlivňuje pravděpodobnost výskytu druhého jevu. Pokud jsou dva jevy A a, B nezávislé, pak platí následující rovnost: Tato rovnost říká, že pravděpodobnost současného výskytu jevů A a, B (jejich průniku) je součinem pravděpodobností jednotlivých jevů. Nezávislost je důležitý koncept, který se často vyskytuje v reálných situacích, například při opakovaných náhodných pokusech, jako je házení kostkou nebo mincí. V těchto případech výsledek jednoho hodu neovlivňuje výsledek následujících hodů, a proto jsou tyto pokusy nezávislé. Příklad 3.21 (Nezávislé jevy). Předpokládejme, že házíme dvěma kostkami. Jaká je pravděpodobnost, že na první kostce padne číslo 3 a na druhé kostce číslo 5? Řešení: Uvažujme jevy A a B: Jev A: Na první kostce padne číslo 3. Jev B: Na druhé kostce padne číslo 5. Pravděpodobnost jevu A je P (A) = |, protože každé číslo má stejnou pravděpodobnost padnout na kostce (jedna strana z šesti). Stejně tak platí, že pravděpodobnost jevu B je P(B) = |. Protože házení dvěma kostkami jsou nezávislé pokusy, pravděpodobnost současného výskytu obou jevů (průnik jevů A fl B) je dána vztahem: Výsledek: Pravděpodobnost, že na první kostce padne číslo 3 a na druhé kostce číslo 5, je P(AHB) =P(A)-P(B). P (A HB) = P (A) ■ P(B) 1 1 1 6 6 36 36" □ 53 Statistika a statistické zpracování dat Skupinově nezávislé jevy Definice 3.22. Jevy A, B a C jsou skupinově nezávislé, jestliže platí následující podmínky: ' Nezávislost po dvou: Každá dvojice jevů musí být nezávislá, což znamená, že pro všechny dvojice jevů platí: P(Af]B) = P(A)-P(B), P(AnC) =P(A)-P(C), P(BnC) =P(B)-P(C). • Nezávislost po třech: Pro tři jevy zároveň musí platit, že průnik všech tří jevů odpovídá součinu jejich pravděpodobností: P (A n B n C) = P (Ä) ■ P (B) ■ P {C). Pokud jsou splněny všechny tyto podmínky, říkáme, že jevy A, B a C jsou skupinově nezávislé. Tato vlastnost je klíčová v situacích, kde analyzujeme souběh více nezávislých jevů, a je využívána v pravděpodobnostních modelech, jako je například rozklad nezávislých náhodných veličin. Příklad 3.23 (Mince). Dvakrát hodíme férovou mincí. Uvažujme jevy: A ... v 1. hodu padne líc, • B ... ve 2. hodu padne líc, • C ... v obou hodech padne totéž. Jsou jevy A, B, C skupinově nezávislé? Jsou jevy A, B, C po dvou nezávislé? Řešení: Pro začátek si určíme základní prostor výsledků dvou hodů férovou mincí. Základní prostor je f2 = {LL, LR, RL, RR^, kde L označuje líc a R rub. Nyní si určíme jednotlivé jevy: A = {LL, LR} ... v prvním hodu padne líc, • B = {LL, RL} ... ve druhém hodu padne líc, • C = {LL, RR} ... v obou hodech padne totéž. Pravděpodobnost 54 Nezávislost po dvou: P (A H B) = P({LL}) = J, zatímco P (A) ■ P(B) = \ ■ \ = ±, takže jevy A a, B jsou nezávislé. P (A n C) = P({LL}) = J, zatímco P(A) • P(C) = \ ■ \ = ±, takže jevy A a C jsou nezávislé. P(5 n C) = P({LL}) = \, zatímco P(B) ■ P(C) = \ ■ \ = \, takže jevy B a C jsou nezávislé. Skupinová nezávislost: Pro skupinovou nezávislost musí platit: P (A n B n C) = P (Ä) ■ P (B) ■ P {C). Máme P (A H B f] C) = P({LL}) = \a P (A) ■ P (B) ■ P(C) = \-\-\ = \- Protože P (A C] B C] C) ^ P{A) ■ P (B) ■ P (C), jevy A, B, C nejsou skupinově nezávislé. □ Příklad 3.24 (Střelba na terč). Petr, Tomáš a Cyril střílí na terč. Petr zasáhne terč s pravděpodobností 0,2; Tomáš s pravděpodobností 0,4 a Cyril s pravděpodobností 0,5. Jaká je pravděpodobnost, že terč zasáhnou: • a) všichni střelci, • b) nejvýše jeden z nich? Řešení: Označme jednotlivé pravděpodobnosti zásahu jako: P(P) = 0,2, P{T) = 0,4, P(C) = 0,5. Naproti tomu pravděpodobnosti, že střelec terč nezasáhne, jsou: P(P) = 1 - P(P) = 0,8, P (T) = 1 - P{T) = 0,6, P(Č) = 1 - P{C) = 0,5. a) Pravděpodobnost, že všichni střelci zasáhnou: Pro tuto část musíme spočítat pravděpodobnost, že terč zasáhnou Petr, Tomáš i Cyril současně. To znamená, že musíme vypočítat průnik všech tří nezávislých událostí, což je jejich součin: P(P n T n C) = P(P) ■ P (T) ■ P {C) = 0,2 • 0,4 • 0,5 = 0,04. b) Pravděpodobnost, že nejvýše jeden střelec zasáhne: Pravděpodobnost, že nejvýše jeden střelec zasáhne, můžeme vypočítat pomocí doplňku k pravděpodobnosti, že zasáhne přesně jeden, nebo nikdo. 55 Statistika a statistické zpracování dat Pravděpodobnost, že žádný střelec nezasáhne terč: p(p n ť n C) = p(p) ■ p(T) ■ p{č) = 0,8 • 0,6 • 0,5 = 0,24. Pravděpodobnost, že přesně jeden střelec zasáhne: p(p nrnč) = o,2- o,6 • o,5 = o,06, p(p n T n č) = 0,8 • 0,4 • 0,5 = 0,16, p(p n Ť n c) = 0,8 • 0,6 • 0,5 = 0,24. Celková pravděpodobnost, že zasáhne nejvýše jeden střelec, je součtem pravděpodobností, že nezasáhne žádný nebo že zasáhne právě jeden: P(nejvýše jeden) = p(p n Ť n č) + p(p HŤnČ) + p(p n T n Č) + P(P HŤnC) P(nejvýše jeden) = 0,24 + 0,06 + 0,16 + 0,24 = 0,7. □ 3.6 Opakované pokusy Definice 3.25. Opakované pokusy představují situace, kdy se experiment, při kterém sledujeme určitý jev, opakuje vícekrát za stejných podmínek. Při takových pokusech nás zajímá, jak se chovají pravděpodobnosti jednotlivých jevů v závislosti na počtu pokusů. Definice 3.26. Nezávislé opakované pokusy jsou takové, kde výsledek jednoho pokusu nemá žádný vliv na výsledky dalších pokusů. To znamená, že pravděpodobnost daného jevu zůstává ve všech pokusech stejná. Klasickým příkladem je opakovaný hod mincí, kde pravděpodobnost líce či rubu zůstává konstantní. Nezávislé pokusy se často vyskytují v hazardních hrách (např. opakované hody kostkou, losování v loterii) nebo v testech spolehlivosti výrobků, kde zkoušíme nezávislé vzorky na stejné podmínky. Pokud máme například n nezávislých pokusů s pravděpodobností úspěchu p, celková pravděpodobnost, že jev nastane přesně fc-krát, je dána binomickým rozdělením. Definice 3.27. Závislé opakované pokusy jsou takové, kde výsledek jednoho pokusu ovlivňuje pravděpodobnost výsledku dalších pokusů. To znamená, že pravděpodobnosti se mohou měnit v závislosti na předchozích výsledcích. Příkladem může být výběr kuliček z urny bez vrácení, kde po každém výběru se mění počet kuliček a tím i pravděpodobnosti jednotlivých výsledků. Takové situace často nastávají v situacích, kde dochází k postupnému výběru bez nahrazování, například při losování cen, kontrolách kvality, či simulacích, kde jsou výsledky závislé na předchozích výběrech. V těchto situacích je důležité brát v úvahu změny v prostoru možných výsledků při každém dalším pokusu. Pravděpodobnost 56 Dichotomické pokusy a výběr s vracením Příklad 3.28 (Kostky - Chevalier de Méré). Je výhodné vsadit na to, že: 1. při čtyřech hodech kostkou padne alespoň jedna šestka? 2. při dvaceti čtyřech hodech dvěma kostkami padnou alespoň jednou dvě šestky? Řešení: 1. Pravděpodobnost, že při jednom hodu kostkou nepadne šestka, je |. Pravděpodobnost, že při čtyřech hodech nepadne šestka ani jednou, je tedy: Odpověď: Ano, je výhodné vsadit, protože pravděpodobnost, že padne alespoň jedna šestka, je vyšší než 50 2. Pravděpodobnost, že při jednom hodu dvěma kostkami nepadnou dvě šestky, je ||. Pravděpodobnost, že při 24 hodech nepadnou dvě šestky ani jednou, je: Pravděpodobnost, že alespoň jednou padnou dvě šestky, je komplementární jev, tedy: P(alespoň jednou dvě šestky) = 1 — P(žádné dvě šestky) = 1 — 0,5086 = 0,4914. Odpověď: Ne, není výhodné vsadit, protože pravděpodobnost, že padnou alespoň jednou dvě šestky, je menší než 50 Definice 3.29 (Bernoulliho schéma). Mějme posloupnost n nezávislých dichotomických pokusů. V každém dílčím pokuse může nastat jev A (úspěch) s pravděpodobností p. Pravděpodobnost, že nastalo právě k úspěchů, je rovna: Pravděpodobnost, že padne alespoň jedna šestka, je komplementární jev, tedy: P(alespoň jedna šestka) = 1 — P(žádná šestka) = 1 — 0,482 = 0,518. □ k 0,1, 2,...,ri kde q = 1 — p je pravděpodobnost neúspěchu. Nejpravděpodobnější počet úspěchů Nejpravděpodobnější počet úspěchů k je takový, že splňuje nerovnici: p ■ (n + 1) — 1 < k < p ■ (n + 1). 57 Statistika a statistické zpracování dat Příklad 3.30 (Test). Učitel připravil test s 10 otázkami. V každé otázce je třeba vybrat 1 správnou odpověď ze 4. Student se na písemku vůbec nepřipravil a pouze náhodně vybírá odpovědi. Jaká je pravděpodobnost, že: 1. uhodne všechny odpovědi správně? 2. neuhodne ani jednu odpověď správně? 3. uhodne šest odpovědí správně? Řešení: 1. Pravděpodobnost, že student správně uhodne odpověď na jednu otázku, je P(správná) = |, a pravděpodobnost, že na jednu otázku odpoví špatně, je P (špatná) = |. Protože otázky jsou nezávislé, pravděpodobnost, že uhodne všech 10 odpovědí správně, je: /1\10 1 Pívšechny správně) = - =- « 0,00000095. v J F ' \AJ 1048 576 2. Pravděpodobnost, že neuhodne ani jednu odpověď správně, je: /3\10 P(žádná správně) = í —J « 0,0563. 3. Pravděpodobnost, že uhodne přesně šest odpovědí správně, lze spočítat pomocí binomického rozdělení: x /10\ /1\6 /3\4 210x1 81 210x81 P(X = 6= x - x - =--— x — =-« 0,0162. v ; V 6 y W W 46 44 1 048 576 □ Dichotomické pokusy a výběr bez vracení Příklad 3.31 (Osudí). V osudí jsou 2 bílé a 3 černé kuličky. Jaká je pravděpodobnost, že bez vracení vytáhneme 3 koule, 1. z nichž 2 budou černé a 1 bílá, 2. které budou postupně barvy černé, bílé a černé? Řešení: 1. Pravděpodobnost, že z osudí vytáhneme 3 kuličky, z nichž 2 budou černé a 1 bílá, můžeme spočítat pomocí kombinací: P(2 černé a 1 bílá) = ^ * ^ = = — = 0,6. V ; Q 10 10 2. Pravděpodobnost, že vytáhneme postupně černou, bílou a černou kuličku, můžeme spočítat tak, že určíme pravděpodobnost každého tahu zvlášť: 3 2 2 12 Píčerná, bílá, černá) = — x - x - = — = 0,2. V ' ; 5 4 3 60 □ Pravděpodobnost 58 Definice 3.32 (Výběr bez vracení). Mějme soubor N prvků, z nichž M má sledovanou vlastnost. Postupně vybereme bez vracení n prvků. Pravděpodobnost, že vybereme k prvků, které mají sledovanou vlastnost, je rovna: M\ (N-M N P{Ak)= vfcyAfrfc/, k = 0,l,...,n. Příklad 3.33. V osudí je 10 kuliček, z toho 4 jsou červené a 6 modrých. Náhodně vybereme 3 kuličky bez vracení. Jaká je pravděpodobnost, že vybereme přesně 2 červené kuličky? Řešení: Podle vzorce pro výběr bez vracení máme: P(A2) i) G Vypočítáme jednotlivé kombinace: '4 =iii3=6i /6\ 10 \ 10x9x8 ,2 2x1 ' \1 ' \ 3 / 3x2x1 Dosadíme do vzorce: „. „ , 6x6 36 P(A2) =-=-= 0,3. v ; 120 120 Pravděpodobnost, že vybereme přesně 2 červené kuličky, je tedy 0,3. □ Příklad 3.34. V loterii je třeba vybrat 6 čísel z celkem 15 čísel. Jaká je pravděpodobnost, že při jednom losování uhádneme alespoň 4 čísla správně? Řešení: Pro výpočet pravděpodobnosti, že při jednom losování uhádneme alespoň 4 čísla správně, použijeme kombinatoriku a princip hypergeometrického rozdělení. Nejprve vypočítáme pravděpodobnost uhádnutí přesně 4, 5 a 6 čísel správně. Celkový počet možných kombinací 6 čísel ze 15 je: /15\ 15x14x13x12x11x10 =-= 5005. \Q J 6x5x4x3x2x1 Nyní vypočítáme pravděpodobnost uhádnutí alespoň 4 čísel, což zahrnuje situace, kdy jsou uhádnuty přesně 4, 5 a 6 čísel. 1. Pravděpodobnost uhádnutí přesně 4 čísel: ^ 06) C)x 6) 15 x 36 540 P uhádneme 4 = v/c\y = ^-^ = -=-« 0,1079. v ; 5005 5005 5005 59 Statistika a statistické zpracování dat 2. Pravděpodobnost uhádnutí přesně 5 čísel: 6\ /9\ /6\ w (9 P(uhádneme 5) = = w X ^ = = — « 0,0105 v ; /1kN 5005 5005 5005 3. Pravděpodobnost uhádnutí všech 6 čísel: Píuhádneme 6) = -^K^- = = lili = _ ~ 0,0002. v ; /15^ 5005 5005 5005 6 Celková pravděpodobnost, že uhádneme alespoň 4 čísla správně, je součtem jednotlivých pravděpodobností: P(alespoň 4 správně) = P(uhádneme 4) + P(uhádneme 5) + P(uhádneme 6) = 0,1079 + 0,0108 + 0,0002 = 0,1189. Tedy pravděpodobnost, že při jednom losování uhádneme alespoň 4 čísla správně, je přibližně 0,119, což odpovídá přibližně 11,89 %. □ O V této kapitole jsme se seznámili se základními pojmy pravděpodobnosti, jako jsou náhodný jev, náhodná veličina a klasická, geometrická i statistická pravděpodobnost. Pochopili jsme různé metody výpočtu pravděpodobnosti, ať už v případech, kdy je možné předem spočítat všechny možné výsledky (klasická pravděpodobnost), nebo v situacích, kdy pravděpodobnost závisí na poměru geometrických veličin, jako je délka, plocha nebo objem (geometrická pravděpodobnost). Dále jsme se naučili, jak používat podmíněnou pravděpodobnost pro výpočty v situacích, kde výskyt jednoho jevu ovlivňuje pravděpodobnost výskytu druhého jevu. Zabývali jsme se principem úplné pravděpodobnosti a Bayesovy věty, které nám umožňují revidovat pravděpodobnost na základě nových informací. Věnovali jsme se také významu a aplikacím statistické pravděpodobnosti v případech, kdy data vychází z dlouhodobých experimentů nebo pozorování. Kromě toho jsme pochopili rozdíly mezi nezávislými a závislými pokusy a jak tento rozdíl ovlivňuje výpočty pravděpodobností v různých situacích. 1. Co je to náhodný jev a jak se liší od náhodné veličiny? 2. Jak definujeme pravděpodobnost náhodného jevu v rámci klasické pravděpodobnosti? 3. Jaké jsou předpoklady klasické pravděpodobnosti? 4. Vysvětlete rozdíl mezi diskrétní a spojitou náhodnou veličinou. 5. Co je to geometrická pravděpodobnost a v jakých situacích ji můžeme použít? 6. Jak definujeme podmíněnou pravděpodobnost a jak ji lze vypočítat? 7. Co je to statistická pravděpodobnost a jaký je její vztah k relativní četnosti? Pravděpodobnost 60 8. Jaké jsou rozdíly mezi klasickou a statistickou pravděpodobností? 9. Vysvětlete vztah mezi pravděpodobností a dlouhodobým experimentem. 10. Jaký je význam principu úplné pravděpodobnosti? Vysvětlete s příkladem. 11. Co je to Bayesova věta a jak ji lze využít při aktualizaci pravděpodobností na základě nových informací? 12. Jaké jsou základní rozdíly mezi nezávislými a závislými pokusy? 13. Jaký je rozdíl mezi Bernoulliho schématem a výběrem bez vracení? 14. V krabici je 5 červených a 7 modrých kuliček. Z krabice náhodně vytáhneme jednu kuličku a bez vrácení poté druhou. Jaká je pravděpodobnost, že druhá vytažená kulička bude modrá za podmínky, že první vytažená kulička byla červená? [^] 15. V balíčku 52 karet je 13 karet každé barvy (piky, kříže, srdce, káry). Jaká je pravděpodobnost, že náhodně vybraná karta bude srdcová nebo piková? [0,5] 16. V loterii je třeba vybrat 6 čísel z 49. Jaká je pravděpodobnost, že při jednom losování vyhrajete hlavní cenu (uhádnutí všech 6 čísel)? [ Q^3 ] 17. Máme obdélník o rozměrech 8 cm x 6 cm a uvnitř tohoto obdélníku je kruh o průměru 4 cm. Jaká je pravděpodobnost, že náhodně vybraný bod spadne do kruhu? [0,2618] 18. Dva lidé se mají setkat mezi 15. a 16. hodinou. Každý z nich přijde náhodně v libovolném čase mezi těmito časy a čeká maximálně 10 minut. Jaká je pravděpodobnost, že se setkají? [|] 19. V dlouhodobém testování bylo zjištěno, že 30 % zákazníků nakoupí produkt při prvním kontaktu s reklamou. Jaká je pravděpodobnost, že ze 100 náhodně vybraných zákazníků nakoupí přesně 35? [0,102] 20. Ve výrobním procesu je známo, že 2 % výrobků jsou vadné. Jaká je pravděpodobnost, že mezi 50 náhodně vybranými výrobky budou přesně 3 vadné? [0,188] 21. V obchodě jsou 3 pokladny s pravděpodobností chyby v účtování 0,1; 0,05 a 0,2. Pravděpodobnosti odbavení pokladnami jsou 0,3; 0,25 a 0,45. Jaká je pravděpodobnost, že osoba vycházející z obchodu má chybný účet? [0,1255] 22. Petr, Tomáš a Cyril střílí na terč. Petr zasáhne terč s pravděpodobností 0,2, Tomáš s pravděpodobností 0,4 a Cyril s pravděpodobností 0,5. Jaká je pravděpodobnost, že terč zasáhnou: ' a) všichni střelci [0,04], b) nejvýše jeden z nich? [0,504]. 23. V osudí je 5 bílých a 4 černé kuličky. Jaká je pravděpodobnost, že při třech náhodných výběrech bez vracení budou postupně vytaženy černá, bílá a černá kulička? [ Jr] Literatura k tématu: [1] HINDLS, R. Statistika pro ekonomy. 8. vyd. Praha: Professional Publishing, 2007. ISBN 978-80-86946-43-6. [2] JANÁČEK, J. Statistika jednoduše. Grada, 2022. ISBN 978-80-271-1738-3. 61 Statistika a statistické zpracování dat [3] MAREK, L. Statistika v příkladech. 2. vyd. Praha: Kamil Mařík - Professional Publishing, 2015. ISBN 978-80-743-1153-6. [4] OTIPKA, P., SMAJSTRLA, V. Pravděpodobnost a statistika [online]. 1. vydání. Ostrava: VŠB-TU Ostrava, 2007 [cit. 2024-09-09]. ISBN 80-248-1194-4. Kapitola 4 Náhodná veličina Po prostudování této kapitoly budete umět: • definovat základní pojmy z náhodných veličín, > rozlišovat mezi diskrétními a spojitými náhodnými veličinami a jejich pravděpodobnostními funkcemi, vypočítat střední hodnotu, rozptyl a směrodatnou odchylku pro různá rozdělení náhodných veličin, ' chápat význam distribuční funkce a umět ji interpretovat pro různé typy náhodných veličin. Klíčová slova: Pravděpodobnost, náhodná veličina, diskrétní rozdělení, spojité rozdělení, pravděpodobnostní funkce, hustota pravděpodobnosti, distribuční funkce, střední hodnota, rozptyl, směrodatná odchylka. 63 Statistika a statistické zpracování dat Náhled kapitoly Tato kapitola poskytuje studentům úvod do základů pravděpodobnosti, které jsou nezbytné pro pochopení náhodnosti a nejistoty v různých aplikacích. Navazuje na předchozí výklad o základních statistických pojmech a slouží jako příprava na hlubší studium statistických metod. Kapitola se zaměřuje na klíčové koncepty, jako jsou pravděpodobnostní rozdělení, diskrétní a spojité náhodné veličiny, a způsoby výpočtu střední hodnoty, rozptylu a směrodatné odchylky. Cíle kapitoly Cílem této kapitoly je zopakování (srovnání znalostí) základů teorie pravděpodobnosti a těch poznatků o náhodných veličinách a jejich rozděleních pravděpodobnosti, které budou potřeba v následujících kapitolách. Odhad času potřebného ke studiu Pro zvládnutí této kapitoly je doporučeno věnovat studiu přibližně 4 až 5 hodin. Tento čas zahrnuje čtení textu, pochopení základních pojmů a principů pravděpodobnosti, řešení příkladů a procvičení výpočtů základních pravděpodobnostních charakteristik. 4.i Úvod a motivace Pro lepší pochopení toho, jak pravděpodobnost funguje, je důležité se seznámit s pojmy náhodného jevu a náhodné veličiny, které slouží k popisu náhodných procesů. Dále se podíváme, jak je možné pomocí rozdělení pravděpodobnosti určit pravděpodobnost výskytu různých hodnot náhodné veličiny v rámci určitého systému. Náhodný jev a náhodná veličina Náhodný jev je událost, která může, ale nemusí nastat v rámci nějakého pokusu nebo procesu. Můžeme si ho představit jako výsledek experimentu, který závisí na náhodě. Pravděpodobnost je míra, která kvantifikuje možnost, že k danému náhodnému jevu dojde, a pohybuje se v rozmezí od 0 (jevu nelze dosáhnout) do 1 (jev nastane s jistotou). Například pravděpodobnost, že při hodu kostkou padne číslo 6, je |, protože existuje 6 možných výsledků a každý má stejnou šanci nastat. Náhodná veličina je proměnná, která může nabývat různých (reálných) hodnot v závislosti na výsledku náhodného pokusu. Například při hodu kostkou může náhodná veličina X představující výsledek hodu nabývat hodnot 1, 2, 3,4, 5 nebo 6. Každý z těchto výsledků je výsledek náhodného procesu. Náhodné veličiny, které mohou nabývat různých hodnot v závislosti na výsledku náhodného jevu, se používají k popisu výsledků náhodných procesů. Příklady náhodných veličin mohou být: • Počet lvů při deseti hodech mincí. Náhodná veličina 64 ' Počet zákazníků, kteří navštíví obchod v určitém dni. Výška náhodně vybraného člověka z populace. ' Doba, za kterou přijede autobus na zastávku. Výsledek hodu dvěma kostkami (součet bodů). ' Počet vadných kusů ve výrobní sérii 100 produktů. Tyto příklady ukazují různé typy náhodných veličin - některé jsou diskrétní (počet hlav, počet zákazníků), jiné spojité (výška člověka, čas čekání). Rozdělení pravděpodobnosti Rozdělení pravděpodobnosti popisuje, jak jsou pravděpodobnosti jednotlivých možných výsledků náhodné veličiny rozloženy. Například u hodu (férovou) kostkou mají všechny výsledky (hodnoty 1 až 6) stejnou pravděpodobnost, tedy |. V praxi však ne vždy všechny výsledky mají stejnou pravděpodobnost. Rozdělení pravděpodobnosti tedy udává, s jakou pravděpodobností různé hodnoty náhodné veličiny nastanou. Rozdělení pravděpodobnosti nám tedy poskytuje obraz o tom, jak často můžeme očekávat jednotlivé výsledky náhodného pokusu. V závislosti na typu náhodné veličiny rozlišujeme dvě hlavní kategorie: diskrétní a spojité náhodné veličiny. 4.2 Rozdělení pravděpodobnosti diskrétní náhodné veličiny Diskrétní náhodná veličina nabývá pouze konečného nebo spočetně nekonečného množství možných hodnot. Příkladem diskrétní náhodné veličiny je počet vadných výrobků v sérii nebo počet zákazníků přicházejících do obchodu za jeden den. Diskrétní náhodná veličina je jednoznačně určena posloupností reálných čísel {xn} a posloupností pravděpodobností {pn = P(X = xn)}. Příklad 4.1. Diskrétní náhodná veličina X nabývá hodnot M = {1,2,4,5} s pravděpodobnostmi p (k) = P[X = k], kde 1111 = g, P(2) = 4> M4) = jj, P(5) = 4 a p(x) = 0 Jinak- 65 Statistika a statistické zpracování dat i - Zapisujeme také pomocí tabulky či obrázku: § 1/3 — k 1 2 4 5 P(X = k) i 3 i 4 i 6 i 4 0 12 3 4 5 Definice 4.2. Diskrétní náhodné veličiny mají svou pravděpodobnostní funkci, která přiřazuje každé hodnotě náhodné veličiny určitou pravděpodobnost P(X = x i) = Pi, i = 1,... ,m, kde Xi je možná hodnota diskrétní náhodné veličiny X, api je pravděpodobnost, že X nabude hodnoty Xi. Vlastnosti pravděpodobnostní funkce: • p{x) > 0 Mx E IR, 12 p(x) = x' xeM Výpočet pravděpodobnosti (jevu B) P{XeB)= P{x = xn)= pM n:x„eBnM n:x„eBnM (součet pravděpodobností všech čísel/výsledků, která patří do B; jelikož nenulové pravděpodobnosti jsou jen v M, tak proto B fl M.) Definice 4.3 (Distribuční funkce). Distribuční funkce náhodné veličiny X je reálná funkce F : IR —y (0; 1) definovaná vztahem F(x) = P(X 5. F(ar) i 3 7_ 12 3 4 Nejnázornější stejně budou grafy na obrázku 3. 1/3 ■ 1 M ■ 1 :'6 " Obr. 3: Pravděpodobnostní a distribuční funkce k příkladu 4.4 □ Z příkladu 4.4 sice můžeme odpozorovat některé vlasnosti distribuční funkce, ale raději si je zde vypíšeme: 67 Statistika a statistické zpracování dat Vlastnosti distribuční funkce: F(x) e (0,1) F je neklesající, F je zprava spojitá, F je definovaná na IR, lim F(x) = 0, lim F(x) = 1, x^—oo x^oo P(X = xq) = F(xq) — lim F(x) (výška skoku v bodě x$). 4.3 Rozdělení pravděpodobnosti spojité náhodné veličiny Spojitá náhodná veličina nabývá hodnot z nějakého intervalu reálných čísel. Příkladem může být výška náhodně vybraného člověka nebo doba, kterou zákazník stráví v obchodě. Spojité náhodné veličiny nemají konkrétní pravděpodobnosti pro jednotlivé hodnoty (pravděpodobnostní funkci), ale místo toho pracují s tzv. hustotou pravděpodobnosti, která určuje pravděpodobnost, že náhodná veličina nabyde hodnoty z určitého intervalu. Definice 4.5. Náhodná veličina X s distribuční funkcí F se nazývá spojitá, jestliže existuje nezáporná funkce /: IR —> IR taková, že Funkce f(x) se nazývá hustota (rozdělení pravděpodobností) náhodné veličiny X. x- ■X. Náhodná veličina 68 Vlastnosti hustoty: • f(x)>0, f (t) dt = 1 =>• plocha pod křivkou hustoty vyjadřuje pravděpodobnost, f (x) = F'{x) v každém bodě x, kde F' existuje, ŕ P{ať - E{X)f ■ P(X = xt) = - E{X)f ■ Pi. i i 71 Statistika a statistické zpracování dat Definice 4.10. Rozptyl spojité náhodné veličiny je definován jako: /oo (x - E(X)f ■ f(x) dx = E(X2) - [E(X)}2. -oo Směrodatná odchylka Směrodatná odchylka nám poskytuje měřítko, jak daleko jsou hodnoty náhodné veličiny od její střední hodnoty. Příklad 4.12 (Diskrétní náhodná veličina). Předpokládejme, že máme diskrétní náhodnou veličinu X, která nabývá hodnot 1,2,3,4 s následujícími pravděpodobnostmi: P(X = 1) = 0,2, P(X = 2) = 0,3, P(X = 3) = 0,4, P(X = 4) = 0,1. Vypočtěte střední hodnotu, rozptyl a směrodatnou odchylku této náhodné veličiny. Řešení: Střední hodnota E{X) je dána jako vážený průměr hodnot: E(X) = 1 • 0,2 + 2 • 0,3 + 3 • 0,4 + 4 • 0,1 = 2,4. Rozptyl D(X) vypočítáme následovně: D(X) = £>ť - E(X))2 ■ P(X = Xi) i = (1 - 2,4)2 • 0,2 + (2 - 2,4)2 • 0,3 + (3 - 2,4)2 • 0,4 + (4 - 2,4)2 • 0,1 = 1,96 • 0,2 + 0,16 • 0,3 + 0,36 • 0,4 + 2,56 • 0,1 = 0,392 + 0,048 + 0,144 + 0,256 = 0,84. Směrodatná odchylka u{X) je druhou odmocninou rozptylu: 0 e kde A = 2. Vypočtěte pravděpodobnost, že X nabude hodnoty mezi 0,5 a 1,5. [0,398] 9. Náhodná veličina X nabývá hodnot 1, 2, 3,4,5 s pravděpodobnostmi: P(X = 1) = 0,1, P(X = 2) = 0,15, P(X = 3) = 0,2, P(Ar = 4) = 0,25, P(X = 5) = 0,3. Vypočtěte pravděpodobnost, že V nabude hodnoty větší než 3. [0,55] 10. Náhodná veličina y má exponenciální rozdělení s parametrem A = 1. Jaká je pravděpodobnost, že y nabude hodnoty mezi 1 a 3? [0,233] Literatura k tématu: [1] HINDLS, R. Statistika pro ekonomy. 8. vyd. Praha: Professional Publishing, 2007. ISBN 978-80-86946-43-6. [2] JANÁČEK, J. Statistika jednoduše. Grada, 2022. ISBN 978-80-271-1738-3. [3] MAREK, L. Statistika v příkladech. 2. vyd. Praha: Kamil Mařík - Professional Publishing, 2015. ISBN 978-80-743-1153-6. [4] OT1PKA, P., SMAJSTRLA, V. Pravděpodobnost a statistika [online]. 1. vydání. Ostrava: VŠB-TU Ostrava, 2007 [cit. 2024-09-09]. ISBN 80-248-1194-4. Kapitola 5 Základní rozdělení pravděpodobnosti náhodných veličin Po prostudování této kapitoly budete umět: vyjmenovat základní diskrétní a spojitá rozdělení pravděpodobnosti i s jejich důležitými vlastnostmi, pomocí excelovských funkcí vypočíst hodnoty pravděpodobnostních a distribušních funkcí diskrétních rozdělení, pomocí excelovských funkcí vypočíst hodnoty hustot a distribušních funkcí spojitých rozdělení, • pomocí excelovských funkcí vypočíst kvantily spojitých rozdělení. Klíčová slova: Diskrétní rozdělení pravděpodobnosti (binomické, hypergeometrické, Poissonovo), kvantily spojitých rozdělení, spojitá rozdělení pravděpodobnosti (normální, Studentovo, F-rozdělení, chi-kvadrát), excelovské funkce. 75 Statistika a statistické zpracování dat Náhled kapitoly V této kapitole se seznámíme s klíčovými rozděleními pravděpodobnosti, která budou důležitá pro pochopení dalších témat. Každé rozdělení bude představeno z historického hlediska, následně se zaměříme na jeho definici, základní charakteristiky a výpočet hodnot prostřednictvím excelovských funkcí. Procvičení v Excelu nás připraví na složitější úlohy v dalších kapitolách. Zvláštní důraz bude kladen na koncept kvantilů spojitých rozdělení, což usnadní pochopení kritických hodnot. Cíle kapitoly Cílem této kapitoly je: porozumět základním vlastnostem vybraných diskrétních a spojitých rozdělení pravděpodobnosti, ' osvojit si pojem kvantil spojitých rozdělení a jeho interpretaci (příprava na testování hypotéz), zvládnout používání excelovských funkcí pro výpočet hodnot funkcí a kvantilů vybraných rozdělení pravděpodobnosti (příprava na testování hypotéz). Odhad času potřebného ke studiu Na studium této kapitoly doporučujeme vyhradit přibližně 3-4 hodiny. Tento čas zahrnuje čtení textu, pochopení klíčových pojmů a řešení praktických příkladů, zejména v Excelu. 5.1 Diskrétní rozdělení pravděpodobnosti Binomické rozdělení Bi(n,p) Historie Binomické rozdělení je jedním z nejstarších a nej používanějších rozdělení pravděpodobnosti. Jeho základy položil Jakob Bernoulli v 17. století při studiu náhodných pokusů. Výraz „binomické" vychází z binomické věty, která je úzce spojena s výpočtem pravděpodobností v tomto rozdělení. Významně k rozvoji binomického rozdělení přispěl také Abraham de Moivre. Při zkoumání problémů souvisejících s hazardními hrami objevil zvonovitou křivku, která později vedla k formulaci normálního rozdělení jako aproximace binomického rozdělení pro velká n. Základní rozdělení pravděpodobnosti náhodných veličin 76 Definice Definice 5.1. Binomické rozdělení modeluje počet úspěchů v pevně daném počtu nezávislých pokusů, kde každý pokus má dva možné výsledky (úspěch nebo neúspěch) a pravděpodobnost úspěchu je konstantní. Pravděpodobnost k úspěchů z n pokusů je dána vzorcem: P{X = k)= {^pk{l-p)n-\ kde n je počet pokusů, k je počet úspěchů, p je pravděpodobnost úspěchu v každém pokusu a (, ) je kombinační číslo. Základní číselné charakteristiky Střední hodnota: E(X) = np, Rozptyl: D(X) = np(l-p). Grafy pravděpodobnostní a distribuční funkce Grafy pravděpodobnostní funkce (PDF) a distribuční funkce (CDF) pro binomické rozdělení s n = 10 a p = 0,5 jsou na obrázku 7. 0.3 0.2 o.i o I IBi(10;0,5) 0 2 4 6 k 10 VI 0.8 0.6 0.4 0.2 0 0 ŕ -Bi(10;0,5) 4 6 k 10 Obr. 7: Pravděpodobnostní a distribuční funkce binomického rozdělení pro n = 10 a p = 0,5 Excelovské funkce Pro práci s binomickým rozdělením lze v Excelu použít následující funkce: 77 Statistika a statistické zpracování dat ' Pravděpodobnostní funkce (PDF): Funkce BINOM. Dl ST (k; n; p; FALŠE) vrací pravděpodobnost přesně k úspěchů. ' Distribuční funkce (CDF): Funkce BINOM. Dl ST (k; n; p; TRUE) vrací pravděpodobnost nejvýše k úspěchů. Procvičení Použijte vhodné excelovské funkce k procvičení práce s binomickým rozdělením: 1. Vypočítejte hodnoty pravděpodobnostní funkce pro binomické rozdělení s n = 10 a p = 0,3 pro k = 0,1,..., 10. 2. Vypočítejte hodnoty distribuční funkce pro stejné hodnoty k. 3. Vytvořte grafy pravděpodobnostní a distribuční funkce pro binomické rozdělení v Excelu. Můžete použít už vypočítané hodnoty. Hypergeometrické rozdělení bylo pojmenováno po hypergeometrické řadě, jejíž vlastnosti zkoumali matematici jako Carl Friedrich Gauss. Jeho použití je především ve statistických testech a při modelování výběrů bez vracení. Jedná se o důležitý nástroj v oblasti kombinatoriky a aplikací statistiky. Definice 5.2. Hypergeometrické rozdělení modeluje pravděpodobnost k úspěchů při náhodném výběru n objektů z populace N, kde M objektů z této populace jsou úspěchy. Výběr probíhá bez vracení. Pravděpodobnost k úspěchů je dána vzorcem: kde N je velikost populace, M je počet úspěšných objektů v populaci, n je počet vybraných objektů a A; je počet úspěchů. Hypergeometrické rozdělení Hg(N, M, n) Historie Definice Základní rozdělení pravděpodobnosti náhodných veličin 78 Základní číselné charakteristiky Střední hodnota: E(X) = Rozptyl: D(X) = nf (l - f) \ Grafy pravděpodobnostní a distribuční funkce Grafy pravděpodobnostní funkce (PDF) a distribuční funkce (CDF) pro hypergeometrické rozdělení s parametry N = 50, M = 20, n = 10 jsou na obrázku 8. 0.3 0.2 K o.i o 1 1 1 lHg(50; 20; 10) 1 1 0 2 4 6 k 10 VI 0.6 0.4 0.2 0 -Hg(50; 20; 10) 0 4 6 k 10 Obr. 8: Pravděpodobnostní a distribuční funkce hypergeometrického rozdělení pro N = 50, M = 20 a n = 10 Excelovské funkce Pro práci s hypergeometrickým rozdělením lze v Excelu použít následující funkce: Pravděpodobnostní funkce (PDF): Funkce HYPGE0M. Dl ST (k; n; M; N; FALŠE) vrací pravděpodobnost přesně k úspěchů. Distribuční funkce (CDF): Funkce HYPGEOM.DISKk; n; M; N; TRUE) vrací pravděpodobnost nejvýše k úspěchů. Procvičení Použijte vhodné excelovské funkce k procvičení práce s hypergeometrickým rozdělením: 1. Vypočítejte hodnoty pravděpodobnostní funkce pro hypergeometrické rozdělení s N = 50, M = 20, n = 10 pro k = 0,1,..., 10. 2. Vypočítejte hodnoty distribuční funkce pro stejné hodnoty k. 79 Statistika a statistické zpracování dat 3. Vytvořte grafy pravděpodobnostní a distribuční funkce pro hypergeometrické rozdělení v Excelu. Můžete použít už vypočítané hodnoty. Poissonovo rozdělení Historie Poissonovo rozdělení je pojmenováno po francouzském matematikovi Simeonu Denisu Poisso-novi, který ho popsal v roce 1838. Původně bylo zkoumáno v kontextu počtu vzácných událostí, jako jsou nehody nebo telefonní hovory. Poissonovo rozdělení je dnes široce používáno v teorii pravděpodobnosti, statistice a různých aplikacích zahrnujících modelování vzácných událostí. Definice Definice 5.3. Poissonovo rozdělení modeluje počet událostí, které nastanou v pevně daném čase nebo prostoru, za předpokladu, že tyto události nastávají nezávisle na sobě s konstantní střední intenzitou A. Pravděpodobnost, že v daném intervalu nastane právě k událostí, je dána vzorcem: \ke~x m = *) = —, kde A je očekávaný počet událostí v daném intervalu a A; je počet událostí. Základní číselné charakteristiky Střední hodnota: E(X) = A, Rozptyl: D(X) = A. Grafy pravděpodobnostní a distribuční funkce Grafy pravděpodobnostní funkce (PDF) a distribuční funkce (CDF) pro Poissonovo rozdělení s parametrem A = 3 jsou na obrázku 9. Excelovské funkce Pro práci s Poissonovým rozdělením lze v Excelu použít následující funkce: ■ Pravděpodobnostní funkce (PDF): Funkce P0ISS0N.DIST(k; A; FALŠE) vrací prav- Základní rozdělení pravděpodobnosti náhodných veličin 80 -Poisson(A = 3) J_ ii 2 4 6 8 10 k k Obr. 9: Pravděpodobnostní a distribuční funkce Poissonova rozdělení pro A = 3 děpodobnost přesně k událostí. ■ Distribuční funkce (CDF): Funkce P0ISS0N.DIST(k; A; TRUE) vrací pravděpodobnost nejvýše k událostí. Procvičení Použijte vhodné excelovské funkce k procvičení práce s Poissonovým rozdělením: 1. Vypočítejte hodnoty pravděpodobnostní funkce pro Poissonovo rozdělení s A = 3 pro k = 0,1,..., 10. 2. Vypočítejte hodnoty distribuční funkce pro stejné hodnoty k. 3. Vytvořte grafy pravděpodobnostní a distribuční funkce pro Poissonovo rozdělení v Excelu. 0.3 0.2 K o.i 1 iPoisson(A = 3) 1 VI 4 6 10 1 0.8 0.6 0.4 0.2 0 5.2 Spojitá rozdělení pravděpodobnosti Výklad zahájíme něčím, co by spíš patřilo do předchozí kapitoly. Pojem kvantil (společně s tzv. kritickou hodnotou) spojitého rozdělení pravděpodonosti pro nás ale bude v dalších kapitolách natolik důležitý, že jsme si ho sem vydělili, abychom mu mohli věnovat patřičnou pozornost. 81 Statistika a statistické zpracování dat Kvantily spojitých rozdělení Definice Definice 5.4. Kvantil spojitého rozdělení je hodnota (viz obrázek 10), která rozděluje oblast pod hustotou pravděpodobnosti na dvě části. Pro p-kvantil xp platí, že plocha pod křivkou hustoty vlevo od xp je rovna p, tj. P(X < xp) = F(xp) = / f{x) dx = p, J — oo kde p e (0,1). Obr. 10: Znázornění hustoty a p-kvantilu xp pro spojité rozdělení pravděpodobnosti (viz definici 5.4) Speciálním případem kvantilu je kritická hodnota, používaná při statistických testech. Ta označuje mezní hodnotu, která odděluje zamítnutí a nezamítnutí nulové hypotézy (viz kapitolu 7 Testování statistických hypotéz). Určování kvantilů Kvantily se určují z tabulek nebo se pohodlně počítají pomocí softwaru. My budeme většinou používat excelovské funkce, jako jsou: pro normální rozdělení funkce NORM. INV(p; //; a), pro Studentovo rozdělení funkce T.INV(p; v) a pro F-rozdělení funkce F. INV(p; v\; z^) • Všechny mají v názvu INV. Tím se poukazuje na to, že jde vlastně o inverzní funkci k distribuční funkci daného rozdělení: F(xp) = p <=t> F_1(p) = xp, Základní rozdělení pravděpodobnosti náhodných veličin 82 tedy zatímco F k zadané hodnotě xp na ose x vypočte pravděpodobnost p, tak F 1 (tedy inverze k F) vypočte k zadané pravděpodobnosti p hodnotu kvantilu xp na ose x. Následuje pořehled základních spojitých rozdělení. Jejich výběr byl veden jejich užitečností v dalších kapitolách. Normální rozdělení Historie Normální rozdělení, známé také jako Gaussovo rozdělení, má zajímavou historii. Abraham de Moivre, francouzský matematik, často pomáhal hazardním hráčům, kteří ho žádali o výpočty pravděpodobností, například kolik hlav padne při mnoha hodech mincí. Při řešení těchto problémů si všiml, že jak počet hodů roste, binomické rozdělení se blíží hladké křivce. Tak popsal normální rozdělení, které výrazně zjednodušilo výpočty. Později, v 19. století, Carl Friedrich Gauss formuloval rovnice pro normální rozdělení a aplikoval je na chyby měření v astronomii. Gauss zjistil, že chyby měření mají symetrické rozdělení, kde malé chyby jsou častější než velké. Pierre-Simon Lapiace přispěl objevem centrálního limitního teorému, který prokázal, že průměry velkých vzorků dat se blíží normálnímu rozdělení. Definice Definice 5.5. Normální rozdělení N(fi,a2) je rozdělení pravděpodobnosti, které je symetrické kolem střední hodnoty // a jeho tvar je zvonovitý. Je určeno dvěma parametry: střední hodnotou // a směrodatnou odchylkou o. Hustota normálního rozdělení je dána vzorcem: fí i\ 1 ( (x-^)2\ /(w) = 72ŤPexH~^^J' kde fi je střední hodnota a a2 je rozptyl. Rozdělení N(0; 1) se nazývá normované (nebo standardizované) normální rozdělení a je ve statistice velmi důležité. Definice 5.6. Z-skóre (neboli standardizovaná hodnota) udává, jak daleko je konkrétní hodnota X od střední hodnoty fi, měřeno ve směrodatných odchylkách a. Vypočítává se tedy podle vzorce: 83 Statistika a statistické zpracování dat Z-skóre představuje orientovanou vzdálenost. Vyjadřuje, jak daleko je konkrétní hodnota X od střední hodnoty fi, ale také zohledňuje, zda je tato hodnota nad průměrem (kladné Z-skóre) nebo pod průměrem (záporné Z-skóre). Z-skóre převádí hodnoty z jakéhokoli normálního rozdělení N(fi, a2) na normované normální rozdělení N(0; 1). Díky tomu lze snadno porovnávat hodnoty z různých normálních rozdělení, a případně používat pro výpočty tabulky a funkce normovaného normálního rozdělení. Základní číselné charakteristiky Střední hodnota: jj, Rozptyl: o2 Symetrie: Normální rozdělení je symetrické kolem střední hodnoty fi. Grafy hustot a distribuční funkce Grafy znázorňující hustoty a distribuční funkce normálního rozdělení pro různé hodnoty fi a o jsou uvedeny na obrázcích 11 a 12. -4 -2 0 2 4 -4 -2 0 2 4 Obr. 11: Grafy hustot a distribučních funkcí normálního rozdělení s různými rozptyly Excelovské funkce Pro práci s normálním rozdělením lze v Excelu použít následující funkce: ■ Hustota pravděpodobnosti (PDF): Funkce NORM. Dl ST (x; //; a; FALŠE) vrací hodnotu hustoty pravděpodobnosti. Základní rozdělení pravděpodobnosti náhodných veličin 84 Obr. 12: Grafy hustot a distribučních funkcí normálního rozdělení s různými středními hodnotami ■ Distribuční funkce (CDF): Funkce NORM.DIST(x; //; a; TRUE) vrací hodnotu distribuční funkce. ' Kvantilová funkce: Funkce N0RM.INV(p; //; a) vrací kvantil pro danou pravděpodobnost p, střední hodnotu fi a směrodatnou odchylku a. Pro práci s normovaným normálním rozdělením (// = 0, a = 1) lze použít specializované funkce: Hustota pravděpodobnosti (PDF): Funkce N0RM.S.DIST(x; FALŠE) vrací hodnotu hustoty pravděpodobnosti. Distribuční funkce (CDF): Funkce N0RM.S.DIST(x; TRUE) vrací hodnotu distribuční funkce. ' Kvantilová funkce: Funkce NORM. S. INV(p) vrací kvantil pro danou pravděpodobnost p. Procvičení Příklad 5.7. Pokud jsou výšky dospělých mužů normálně rozděleny se střední hodnotou fi = 175 cm a rozptylem a2 = 100 cm2, jaká je pravděpodobnost, že náhodně vybraný muž bude mít výšku mezi 170 cm a 180 cm? Řešení: Vyzkoušíme si dva způsoby řešení. Nejprve půjdeme přímo k cíli, potom se po cestě „stavíme na návštěvě" u Z-skórů. Řešení bez Z-skórů: Pro výpočet této pravděpodobnosti použijeme funkci distribuční funkce normálního rozdělení. V Excelu použijeme funkci N0RM.DIST, a to s parametry x = 170 a x = 180, střední hodnotou fi = 175, směrodatnou odchylkou o = VlOO = 10 a hodnotou TRUE pro použití distribuční funkce: P(170 < X < 180) = N0RM.DIST(180;175;10;TRUE) - NORM.DlST(170;175;10;TRUE) « 0,3829. 85 Statistika a statistické zpracování dat Řešení přes Z-skóry: Nejprve standardizujeme hodnoty: Zl = 170 Zl75 = =1 = -0,5, Z2= 180 Zl75 =A = Q,5. vTM io ' ' vm io Nyní vypočítáme hodnoty distribuční funkce pro tyto Z-skóry pomocí funkce NORM. S. Dl ST v Excelu: P(170 < X < 180) = P(-0,5 < Z < 0,5) = NORM.S.DISKO,5; TRUE) - NORM.S.DIST(-0,5; TRUE) 0,3829. □ Příklad 5.8. Použijte vhodné excelovské funkce k procvičení práce s normálním rozdělením: 1. Vypočítejte hodnoty hustoty pravděpodobnosti pro normální rozdělení s/i = 2aa = 3a následující hodnoty x = —2, —1, 0,1, 2. 2. Vypočítejte hodnoty distribuční funkce pro normované normální rozdělení a stejné hodnoty x = -2, -1,0,1,2. 3. Pomocí funkce N0RM.S.INVO najděte kvantily pro pravděpodobnosti p = 0,05; 0,5; 0,95. O jaké rozdělení se jedná? Co nám ty výsledky říkají? 4. Vytvořte přibližné grafy hustoty a distribuční funkce pro normální rozdělení v Excelu, například s parametry fi = 2 a a = 3 pomocí výpočtu jejich hodnot v dostatečně husté síti bodů na ose x, například x = —4; —3,5; —3;...; 7,5; 8. Studentovo rozdělení Historie Studentovo rozdělení je pojmenováno po Williamu Sealy Gossetovi, statistikovi pracujícím pro pivovar Guinness. Aby se vyhnul problémům s publikováním, používal pseudonym „Student". V roce 1908 zveřejnil práci, která popisovala rozdělení nyní známé jako Studentovo rozdělení. Jeho cílem bylo vyřešit problémy s malými vzorky v průmyslu. Definice Definice 5.9. Studentovo rozdělení s v (řecké písmenu „ný") stupni volnosti je užitečné při odhadu střední hodnoty normální populace na základě malého vzorku, pokud směrodatná odchylka populace není známa. Hustota Studentova rozdělení je dána vzorcem: f(x;u) = kde v je počet stupňů volnosti a T je gama funkce. Základní rozdělení pravděpodobnosti náhodných veličin 86 Základní číselné charakteristiky Střední hodnota: 0 (pro v > 1) Rozptyl: ^ (Pro v > 2) Asymptotické chování: Pro velké v se Studentovo rozdělení blíží normálnímu rozdělení. Grafy hustot a distribuční funkce Grafy znázorňují hustotu a distribuční funkci Studentova rozdělení pro v = 2 a v = 5 stupňů volnosti jsou na obrázku 13. Obr. 13: Grafy hustot a distribučních funkcí Studentova rozdělení pro 2 a 5 stupňů volnosti Excelovské funkce Pro práci se Studentovým rozdělením lze v Excelu použít následující funkce: Hustota pravděpodobnosti (PDF): Funkce T.DIST(x; v; FALŠE) vrací hodnotu hustoty pravděpodobnosti. Distribuční funkce (CDF): Funkce T.DIST(x; v; TRUE) vrací hodnotu distribuční funkce. ' Kvantilová funkce: Funkce T. INV(p; v) vrací kvantil pro danou pravděpodobnost p a v stupni volnosti. Procvičení Použijte vhodné excelovské funkce k procvičení práce s rozdělením: 1. Vypočítejte hodnoty hustoty pravděpodobnosti pro Studentovo rozdělení s v = 8 a následující hodnoty x = —2, —1, 0,1, 2. 87 Statistika a statistické zpracování dat 2. Vypočítejte hodnoty distribuční funkce pro Studentovo rozdělení s v = 8 a stejné hodnoty x = -2,-1,0,1,2. 3. Pomocí funkce T.INVO najděte kvantily pro pravděpodobnosti p = 0,05; 0,5; 0,95 při v = 8. Co nám ty výsledky říkají? 4. Vytvořte přibližné grafy hustoty a distribuční funkce pro Studentovo rozdělení v Excelu, pomocí výpočtu jejich hodnot v dostatečně husté síti bodů na ose x. Můžete opět použít v = 8 a x = —6; —5,5; —5;...; 5,5; 6. F-rozdělení, někdy nazývané Fisherovo-Snedecorovo rozdělení, je pojmenováno po statistikovi Siru Ronaldu Fisherovi a Georgu W. Snedecorovi. Ronald Fisher popsal toto rozdělení v rámci analýzy rozptylu (ANOVA), kde slouží k testování hypotéz o shodě rozptylů dvou vzorků. Snedecor přispěl jeho rozšířením v aplikacích. F-rozdělení má dva stupně volnosti, jeden pro každý porovnávaný vzorek. Definice 5.10. F-rozdělení se používá při testování hypotéz o rozptylech dvou populací, a je tedy základem pro analýzu rozptylu. Je definováno dvěma stupni volnosti v\ a v2 Pro každý vzorek. Hustota F-rozdělení je dána vzorcem: F-rozdělení Historie Definice kde B je beta funkce ai/i, v2 jsou stupně volnosti. Základní číselné charakteristiky Střední hodnota: (pro v2 > 2) Rozptyl: 2i/|(i/i+i/2-2) (pro i>2 > 4) *M^2-2)2(í/2-4) Základní rozdělení pravděpodobnosti náhodných veličin 88 Grafy hustot a distribuční funkce Grafy znázorňují hustotu a distribuční funkci F-rozdělení pro v\ = 5 a v2 = 10 jsou na obrázku 14. Obr. 14: Grafy hustoty a distribuční funkce F-rozdělení pro v\ = 5 a v2 = 10 Excelovské funkce Pro práci s F-rozdělením lze v Excelu použít následující funkce: ' Hustota pravděpodobnosti (PDF): Funkce F.DIST(x; v\\ v2; FALŠE) vrací hodnotu hustoty pravděpodobnosti. ' Distribuční funkce (CDF): Funkce F.DIST(x; v\\ v2; TRUE) vrací hodnotu distribuční funkce. ' Kvantilová funkce: Funkce F. INV(p; v\\ u2) vrací kvantil pro danou pravděpodobnost p a stupně volnosti u± a, u2. Procvičení Použijte vhodné excelovské funkce k procvičení práce s F-rozdělením: 1. Vypočítejte hodnoty hustoty pravděpodobnosti pro F-rozdělení s v\ = 5, v2 = 10 a následující hodnoty x = 1,2, 3,4, 5. 2. Vypočítejte hodnoty distribuční funkce pro stejné hodnoty x. 3. Pomocí funkce F.INVO najděte kvantily pro pravděpodobnosti p = 0,05; 0,5; 0,95 při v\ = 5, v2 = 10. 4. Vytvořte grafy hustoty a distribuční funkce pro F-rozdělení v Excelu. 89 Statistika a statistické zpracování dat Chi-kvadrát rozdělení Historie Chi-kvadrát rozdělení vzniklo z výzkumů Karla Pearsona na počátku 20. století a je jedním ze základních rozdělení používaných ve statistických testech, zejména v testech dobré shody a nezávislosti. Pearson zkoumal vztahy mezi biologickými charakteristikami, přitom výrazně přispěl k vývoji statistických metod. Definice 5.11. Chi-kvadrát rozdělení s v stupni volnosti je definováno jako rozdělení součtu druhých mocnin v nezávislých normovaných normálních náhodných veličin. Používá se především při testování hypotéz, například v testu dobré shody nebo v testu nezávislosti. Hustota pravděpodobnosti chi-kvadrát rozdělení je dána vzorcem: kde T je gama funkce a v je počet stupňů volnosti. Základní číselné charakteristiky Střední hodnota: v Rozptyl: Iv Asymptotické chování: Pro velké v (tzn. pro v > 30) se chi-kvadrát rozdělení blíží normálnímu rozdělení s parametry fi = v, a2 = Iv). Grafy hustot a distribuční funkce Grafy znázorňující hustoty a distribuční funkce chi-kvadrát rozdělení pro z/ = 3az/ = 10 jsou znázorněny na obrázku 15. Excelovské funkce Pro práci s chi-kvadrát rozdělením lze v Excelu použít následující funkce: ■ Hustota pravděpodobnosti (PDF): Funkce CHISQ.DIST(x; v; FALŠE) vrací hod- Definice pro x > 0 Základní rozdělení pravděpodobnosti náhodných veličin 90 Obr. 15: Grafy hustot a distribučních funkcí chi-kvadrát rozdělení pro v = 3 a v = 10 notu hustoty pravděpodobnosti. ■ Distribuční funkce (CDF): Funkce CHISQ.DIST(x; v; TRUE) vrací hodnotu distribuční funkce. ' Kvantilová funkce: Funkce CHISQ. INV(p; v) vrací kvantil pro danou pravděpodobnost p a stupně volnosti v. Procvičení Příklad 5.12. Použijte vhodné excelovské funkce k procvičení práce s chi-kvadrát rozdělením: 1. Vypočítejte hodnoty hustoty pravděpodobnosti pro chi-kvadrát rozdělení s v = 3 a následující hodnoty x = 1, 2, 3,4, 5. 2. Vypočítejte hodnoty distribuční funkce pro stejné hodnoty x. 3. Pomocí funkce CHISQ. INV() najděte kvantily pro pravděpodobnosti p = 0,05; 0,5; 0,95 při v = 3. 4. Vytvořte grafy hustoty a distribuční funkce pro chi-kvadrát rozdělení v Excelu. 5. Demonstrujte, že „pro velká v (tzn. pro v > 30) se chi-kvadrát rozdělení blíží normálnímu rozdělení s parametry fi = v, a2 = 2z/". Pro v = 30 a x = 0,1, 2,..., 60. Stačí ukázat zvonovitý tvar hodnot hustoty v těchto bodech (na tomto intervalu). OTato kapitola se zaměřuje na základní diskrétní a spojitá rozdělení pravděpodobnosti. Jsou zde popsána binomické, hypergeometrické a Poissonovo rozdělení jako hlavní příklady diskrétních rozdělení, a dále normální, Studentovo, F-rozdělení a chi-kvadrát rozdělení jako příklady rozdělení spojitých. U každého rozdělení je uvedena jeho historie, definice, základní charakteristiky a postup výpočtu hodnot pomocí excelovských funkcí. Důraz je kladen na práci s kvantily spojitých rozdělení a jejich aplikace v budoucích kapitolách. 91 Statistika a statistické zpracování dat Jaké jsou základní charakteristiky binomického rozdělení? Jaká excelovská funkce se používá pro výpočet distribuční funkce binomického rozdělení? Jaký je rozdíl mezi binomickým a hypergeometrickým rozdělením? Jakým způsobem se v Excelu vypočítá kvantil normálního rozdělení? Co je to Studentovo rozdělení a jaké jsou jeho základní vlastnosti? K jakému rozdělení se přibližuje chi-kvadrát rozdělení pro velké vl e Literatura k tématu: [1] HINDLS, R. Statistika pro ekonomy. 8. vyd. Praha: Professional Publishing, 2007. ISBN 978-80-86946-43-6. [2] JANÁČEK, J. Statistika jednoduše. Grada, 2022. ISBN 978-80-271-1738-3. [3] MAREK, L. Statistika v příkladech. 2. vyd. Praha: Kamil Mařík - Professional Publishing, 2015. ISBN 978-80-743-1153-6. [4] OTIPKA, P., SMAJSTRLA, V. Pravděpodobnost a statistika [online]. 1. vydání. Ostrava: VŠB-TU Ostrava, 2007 [cit. 2024-09-09]. ISBN 80-248-1194-4. Kapitola 6 Bodový a intervalový odhad Po prostudování této kapitoly budete umět: • Aplikovat možnosti odhadování parametrů základního souboru. ' Rozhodnout o volbě statistiky (metoda momentů, metoda maximální věrohodnosti) Klíčová slova: Statistika, bodový odhad, intervalový odhad, metoda momentů, metoda maximální vě rohodnosti. 93 Statistika a statistické zpracování dat Náhled kapitoly V této kapitole se zaměříme na základní metody odhadu neznámých parametrů základního souboru, konkrétně na bodové a intervalové odhady. Kapitola navazuje na předchozí témata (kapitoly) a rozšiřuje znalosti o přesnější kvantitativní charakteristiky populací. Podrobně se budeme věnovat metodám odhadu střední hodnoty a rozptylu, které jsou klíčové pro analýzu dat v ekonomii a dalších oblastech. Cíle kapitoly Po prostudování této kapitoly by měl student být schopen: • Vysvětlit rozdíl mezi bodovým a intervalovým odhadem. ' Aplikovat metody momentů a maximální věrohodnosti pro odhad parametrů. Vypočítat interval spolehlivosti pro střední hodnotu a rozptyl. ' Interpretovat výsledky bodových a intervalových odhadů v kontextu ekonomických dat. Používat Excel nebo jiný statistický software k výpočtu kritických hodnot a intervalů spolehlivosti. Odhad času potřebného ke studiu Odhaduje se, že studium této kapitoly zabere přibližně 4-6 hodin. Tento čas zahrnuje čtení textu, pochopení teoretických konceptů, řešení příkladů a praktické cvičení s použitím statistického softwaru. Úvodní příklad Představte si, že jste manažerem firmy, která vyrábí žárovky. Vaším úkolem je zjistit, jaká je průměrná životnost těchto žárovek, tedy jak dlouho budou svítit, než se rozbijí. Samozřejmě není možné otestovat každou žárovku. Proto vyberete několik žárovek náhodně a změříte, jak dlouho svítí, než přestanou fungovat. Například si vyberete 10 žárovek a změříte jejich životnost v hodinách. Získáte následující hodnoty: x = (850, 870, 890, 900, 920, 940, 960, 980,1000,1020). Na základě těchto měření budete chtít odhadnout, jaká je průměrná životnost všech žárovek, které vaše firma vyrábí. Tento odhad vám může pomoci lépe plánovat výrobu a zajišťovat, že vaše produkty budou splňovat očekávání zákazníků. Bodový a intervalový odhad 94 Výpočet průměru Nejprve spočítáme průměrnou životnost těchto 10 žárovek, což bude tzv. bodový odhad průměrné životnosti všech žárovek: 1 " 850 + 870 + 890 + 900 + 920 + 940 + 960 + 980 + 1000 + 1020 , , x = — > Xi =-= 933 hodin. 10 Intervalový odhad průměru Dále bychom chtěli zjistit, jak přesný je tento odhad. Pro tento účel spočítáme tzv. intervalový odhad, což je rozmezí hodnot, ve kterém se s určitou pravděpodobností (např. 95 %) nachází skutečná průměrná životnost všech žárovek. Pro výpočet intervalového odhadu potřebujeme znát směrodatnou odchylku výběru, kterou spočítáme z naměřených dat: -^2(xi ~ x)2 ~ 55,08 hodin. ~~ 1 i=i Pro 95% interval spolehlivosti použijeme kritickou hodnotu t z t-rozdělení pro 9 stupňů volnosti (n — 1 = 10 — 1 = 9), která je přibližně 2,262 (určíme z tabulek nebo spíše pomocí funkce v Excelu). Intervalový odhad průměru pak vypočítáme jako: s 55 08 x ± t ■ —= = 933 ± 2,262 • —= « 933 ± 39,39 hodin. Vň Viň To znamená, že s 95% jistotou můžeme říci, že průměrná životnost všech žárovek se nachází v intervalu (893,61; 972,39) hodin. Tento interval nám dává rozmezí, ve kterém se pravděpodobně nachází skutečná průměrná životnost žárovek, což je důležitá informace pro rozhodování ve výrobě. 6.i Statistické odhady Úvod do odhadu parametrů Když máme k dispozici výběr dat, často nás zajímá, jaká je skutečná hodnota určitého parametru, který charakterizuje celý základní soubor (populaci). Například víme, že životnost žárovek v našem příkladu má obvykle exponenciální rozdělení, ale neznáme přesně jeho parametr A, 95 Statistika a statistické zpracování dat respektive průměrnou životnost nebo rozptyl (variabilitu) této životnosti v celé populaci žárovek. Na základě údajů z výběru se snažíme tyto neznámé parametry odhadnout. Předpis nebo postup, jakým z výběrových dat vypočítáme odhad parametru, se v matematické statistice nazývá statistický odhad. Statistické odhady a jejich vlastnosti Parametry základního souboru, jako je například průměr nebo rozptyl, jsou obvykle konstanty, i když je přesně neznáme. Odhady těchto parametrů, které získáváme z výběrových dat, se mohou lišit při různých výběrech. Například pokud bychom vybrali jinou sadu žárovek, pravděpodobně bychom dostali trochu jiné výsledky. Tyto odhady jsou tedy náhodné veličiny a v matematické statistice se pro ně používá termín statistika (v užším smyslu tohoto slova). Definice statistického odhadu Definice 6.1. Statistický odhad T = T(X) je funkce výběrových dat X. Statistický odhad určený k odhadování parametrů se nazývá odhadová statistika, zatímco ta, která slouží k testování hypotéz (to budeme probírat později), se nazývá testová statistika. Poznámka k volbě odhadu Tato definice nám zatím neříká nic o tom, jak vybrat správný statistický odhad pro konkrétní situaci, ať už jde o odhad nebo testování. To, jak vhodný je určitý odhad pro daný účel, budeme zkoumat v dalších částech kapitoly. 6.2 Bodový odhad Úvod do bodového odhadu Sledujeme rozdělení s hustotou pravděpodobnosti f(x; fi), kde fi je neznámý parametr. Provedli jsme realizaci náhodného výběru x = (x1,x2,... ,xn) z tohoto rozdělení a definovali statistiku T(X). Bodový odhad parametru fi pro realizaci náhodného výběru x je hodnota statistiky T(X) s dosazenou realizací náhodného výběru x. Definice bodového odhadu Definice 6.2. Bodový odhad (estimator) parametru fi je statistika T(X), která aproximuje parametr fi. Pro každou novou realizaci výběru obdržíme jiný bodový odhad. Odtud je zřejmé, že bodový odhad nemůže dát úplně přesnou hodnotu parametru. Bodový a intervalový odhad 96 Volba statistiky Vlastní volbu statistiky jsme zatím nechali stranou. Lze pro ni použít metodu momentů nebo metodu maximální věrohodnosti. Obě nyní probereme. 6.2.1 Metoda momentů Metoda momentů je jednou z technik, jak odhadnout neznámé parametry rozdělení dat, například průměr nebo rozptyl. Tato metoda porovnává určité charakteristiky, nazývané momenty, základního souboru a výběru. Teoretické momenty Moment určitého řádu je základní charakteristika rozdělení pravděpodobnosti. Dělíme je na tzv. počáteční a centrální. Definice 6.3. Počáteční momenty: = E Xk , k = l,2,.... Pro nás bude nejdůležitější hned ten první, fi± = fi = E [V], tedy střední hodnota, která se běžně označuje fi, kde (pro připomenutí) ■ /xi=E[V] = X J—oo ■ f(x) dx pro spojitou náhodnou veličinu, ■ /xi=E[V] n = ^ xi p{x,j) pro diskrétní náhodnou veličinu. i=l Definice 6.4. Centrální momenty: /4 E k = 1,2, Zde pro nás bude nejdůležitější ten druhý, /i'2 = a2 = E (X — /i)2 , tedy rozptyl, který se běžně označuje a2, kde (pro připomenutí) 97 Statistika a statistické zpracování dat — fi)2 ■ f(x) dx, pro spojitou náhodnou veličinu, fj!2 = a2 = E \x = / (x J — oo fj!2 = a2 = E \x n = J2(xí - - /i)2 • p(xi), pro diskrétní náhodnou veličinu. i=i Vyšší momenty, jako třeba třetí centrální moment (který je základem pro výpočet šikmosti) a čtvrtý centrální moment (který je základem pro výpočet špičatosti), jsou rovněž důležité pro charakterizaci tvaru rozdělení1. My však budeme nejčastěji pracovat se dvěma uvedenými momenty. Výběrové momenty Výběrové momenty jsou obdobou (protějškem) teoretických momentů, ale jsou počítány z dat ve výběru. Slouží k odhadu momentů základního souboru. Opět je dělíme na počáteční a centrální: 1 n Definice 6.5. Počáteční výběrové momenty: = — k = 1, 2,..., n i=i kde n je velikost výběru a x i jsou jednotlivé hodnoty ve výběru. Pro k = 1 dostáváme výběrový průměr ni\ =x = — Xi. n i=i Definice 6.6. Centrální momenty: m'k = E x - rik ,k = l,2,.... 1 Třetí centrální moment je dán vztahem /ig = E[(X — /i)3], kde ji je střední hodnota rozdělení. Šikmost se pak definuje jako 7i = —|, kde a je směrodatná odchylka. Čtvrtý centrální moment je dán vztahem fi'4 = E[(X—/i)4], a spicatost jako 72 = -7- — 3. Bodový a intervalový odhad 98 Pro k = 2 dostáváme výběrový rozptyl 1 n m'2 = s2 = —— J2(xí ~ xf- Metoda momentů funguje tak, že porovnáme teoretické momenty rozdělení (které závisí na neznámých parametrech) s výběrovými momenty, které získáme z dat. Odhad parametru pak získáme řešením rovnice, kde je teoretický moment roven odpovídajícímu výběrovému momentu, pro nás nejčastěji fiľ = ni\ (resp. fi = x) nebo fi'2 = m'2 (resp. a2 = s2). Vlastnosti odhadu Při hledání odhadů parametrů, jako je průměr nebo rozptyl, chceme, aby tyto odhady byly co nejpřesnější. Vzorce /i ta x = — Xi a a2 « s2 = -1^(xi ~ x)2 jsou navrženy tak, aby poskytovaly tzv. nevychýlený odhad, což znamená, že když odhadujeme parametr, jako je průměr nebo rozptyl, tak v průměru (při mnoha výběrech) se náš odhad blíží skutečné hodnotě parametru; konzistentní odhad, což znamená, že čím více dat máme k dispozici (čím rozsáhlejší je výběr), tím přesnější náš odhad bude. Řešené příklady Příklad 6.7. Metodou momentů určete neznámý parametr Poissonova rozdělení. Řešení: Poissonovo rozdělení má pravděpodobnostní funkci: \xe~x p(x;X) =-—, k = 0,1,2,..., xl kde A > 0 je parametr rozdělení. Vybereme (vygenerujeme) n prvků X\,..., xn z tohoto rozdělení. 99 Statistika a statistické zpracování dat Metoda momentů funguje tak, že porovnáme teoretické momenty rozdělení (které závisí na parametru A) s empirickými momenty vypočítanými z výběrových dat. První teoretický moment fiľ (střední hodnota) Poissonova rozdělení je dán (z teorie) jako: = E[X] = A. První empirický moment ni\ (výběrový průměr) je dán jako: 1 11 m1 = - J2xí-n r—f i=i Porovnáním teoretického a empirického momentu získáme odhad parametru A: 1 11 A ~ ni\ = — Xi. □ Příklad 6.8. Metodou momentů určete neznámý parametr exponenciálního rozdělení. Řešení: Exponenciální rozdělení má hustotu pravděpodobnosti: A) 1 , ,-Ax 0 pro x < 0, \e~Xx pro x > 0, kde A > 0 je parametr rozdělení. Vytvoříme výběr n prvků x1}... ,xn z tohoto rozdělení. První moment výběru je: 1 n m1 = - V Xi n i=i První (teoretický) moment základního souboru je: f°° 1 Hi = / x ■ \e~Xxdx = —. Jo A Porovnáním obou momentů získáme odhad parametru A: 11" ,1 n A n£ťi mi £ľ=i □ Bodový a intervalový odhad 100 6.2.2 Metoda maximální věrohodnosti Předpokládejme, že máme náhodný výběr (x1} x2,..., xn) z populace, jejíž rozdělení je popsáno pravděpodobnostní funkcí p(x; 0). Zde 0 = (81,82,..., 6k) označuje vektor neznámých parametrů tohoto rozdělení (nejčastěji bude neznámý parametr jenom jeden). Pravděpodobnost, že výběr (xi,x2,... ,xn) vznikne konkrétní realizací náhodné veličiny ^2) • • • j £n)> Je dána součinem pravděpodobností jednotlivých hodnot: P(€i = xu& = x2,... ,Ín = xn) = Y[p(xí;6). Definice 6.9. Tento součin nazýváme funkcí věrohodnosti a označujeme ji L(0;x1,x2, ...,xn) = Y[p(xi;0). í=i Úkolem metody maximální věrohodnosti je nalézt odhad parametrů 0, který maximalizuje tuto funkci věrohodnosti, tj. najít takovou hodnotu 0, pro kterou je pravděpodobnost pozorovaných dat co nejvyšší. Jinými slovy, hledáme hodnotu 0, která maximalizuje funkci L. Řešené příklady Příklad 6.10 (obecný). Metodou maximální věrohodnosti odhadněte neznámý parametr Po-issonova rozdělení. \x Řešení: Poissonovo rozdělení má pravděpodobnostní funkci p(x, A) = —-e~x, k = 1,2,.... x\ Funkce maximální věrohodnosti: L(X,x1,x2,... ,xn) = TT —-e~A. i=i Hledáme takovou hodnotu parametru A > 0, při které je L maximální. Nejprve využijeme toho, že přirozená logaritmická funkce ln je rostoucí, a tak tam, kde je L maximální je i lnL maximální. Logaritmování rovnice nám výpočty zjednoduší (na pravé straně využijeme toho, že logaritmus součinu je součtem logaritmů): lnL(A, x1}x2, ■ ■ ■, xn) = ^ (xj ln A — ln(xj!) — A). í=i 101 Statistika a statistické zpracování dat Nyní budeme derivovat podle A: X; — n. Výsledek (pravou stranu) položíme rovnu 0 (hledáme stacionární bod funkce lnL): 1 11 -J^Xi - n = 0. á í=i Řešením této rovnice získáme odhad parametru A: 1 11 x i=i i n Při bližším zkoumání zjistíme, že pro 0 < A < A je tato derivace kladná, zatímco pro A < A záporná. To znamená, že funkce ln L nabývá v A svého maxima. To samé platí pro samotnou funkci L Tedy, podle metody maximální věrohodnosti, je odhad parametru A aritmetický průměr hodnot Xi. □ Příklad 6.11 (s konkrétními daty). Metodou maximální věrohodnosti odhadněte neznámý parametr A Poissonova rozdělení na základě následujícího výběru: x = (2, 3,4, 3, 5). Řešení: S využitím příkladu 6.10 bychom mohli rovnou napsat, že odhadem bude aritmetický průměr uvedených čísel. My si ale chceme vyzkoušet stejný postup (jako v příkladu 6.10) s konkrétním výběrem, abychom mohli porovnat obtížnost výpočtů u těchto dvou variant. \x Poissonovo rozdělení má pravděpodobnostní funkci: p(x, A) = — e~A, k = 1,2,.... x\ Funkce maximální věrohodnosti: Nejprve sestavíme funkci maximální věrohodnosti pro daný výběr x = (2, 3,4, 3, 5): 5 Xxt ^(A) = n^Te —A 1=1 A2 A A3 A 2! 3! ^2+3+4+3+5 2! -3! -4! -3! -5! A3 A A5 4! 6 3!6 '5!6 p-5X - 207360 Nyní rovnici logaritmujeme: Derivujeme: lnL(A) = ln (^L-e~A = 171n A - 5A - ln(207360). dlnL(A) 17 d\ A Bodový a intervalový odhad 102 Derivaci položíme rovnu 0: 17 — -5 = 0. A Řešením této rovnice získáme odhad parametru A: 17 ~ 17 T = 5 => A = y = 3,4. Odhad parametru A pomocí metody maximální věrohodnosti na základě daného výběru je A = 3,4. (rro kontrolu A = x =- = — = 3,4.) □ 5 5 6.3 Intervalové odhady parametrů Definice 6.12. Intervalový odhad parametru (3 základního souboru je interval (Bi; B2), ve kterém se nachází skutečná hodnota parametru s určitou pravděpodobností. Tato pravděpodobnost je 1 — a, což znamená, že P(Bi 00 normální rozdelení N(0,1). To znamená, že i když nevíme, jaké rozdělení má základní soubor (odkud data pocházejí), můžeme stále předpokládat, že průměr z velkého počtu těchto dat má přibližně normální rozdělení. Tento průměr má stejnou střední hodnotu jako základní soubor (což odpovídá bodovému odhadu střední hodnoty), a rozptyl tohoto průměru je n-tinou rozptylu základního souboru. 6.3.1 Intervalový odhad střední hodnoty Intervalový odhad střední hodnoty je způsob, jak určit rozsah hodnot, ve kterém se s určitou pravděpodobností nachází skutečná střední hodnota základního souboru. Základní myšlenka Víme, že statistika ——— má normované normální rozdělení pravděpodobnosti ÍV(0,1). To y/ň znamená, že pokud bychom znali skutečný rozptyl a, můžeme vypočítat, jak daleko od průměru výběru X se nachází skutečná střední hodnota fi. Kritické hodnoty a interval spolehlivosti Kritické hodnoty, označené jako iíi-|, představují mezní hodnoty, které určují rozsah, ve kterém se s pravděpodobností l — a nachází skutečná hodnota fi. Tento interval můžeme vyjádřit takto: P -Ul- < X což znamená, že interval spolehlivosti pro střední hodnotu jj, je: Bodový a intervalový odhad 104 Praktický výpočet intervalového odhadu V praxi však obvykle neznáme skutečný rozptyl a, a proto jej musíme odhadnout na základě našich dat jako vzorkový rozptyl s. Intervalový odhad střední hodnoty pak vypadá následovně: P ( x - • Ul_f < fi < X + • Ul_f = 1 - a, 'n 2 \/n 2 j což lze explicitně vyjádřit jako interval spolehlivosti: Definice 6.16. Praktický vzorec pro výpočet intervalu spolehlivosti pro střední hodnotu náhodné veličiny X při velkém počtu pozorování (n > 30): s — s X--■= • Mi « X + —= ■ 'n 2 \ n 2 kde: X je výběrový průměr, s je výběrová směrodatná odchylka, n je počet pozorování (velikost výběru), ■Ui-sl je kvantil normovaného normálního rozdělení odpovídající zvolené hladině spolehlivosti 1 — a, a je hladina významnosti (obvykle a = 0,05, což odpovídá 95% intervalu spolehlivosti). Tento vztah tedy platí pro dostatečně velké vzorky, řekněme při n > 30. Pokud máme menší vzorek, používáme místo normálního rozdělení Studentovo t-rozdělení, a místo iíi_« použijeme kvantil — 1): P ( X - • *!« (n -l) 100. Oboustranná hypotéza: Předpokládá, že parametr základního souboru se může lišit na obě strany. Například Hq : fi = 100 proti H\ : fi ^ 100. Volba mezi jednostranným a oboustranným testem závisí na výzkumné otázce. Pokud nás zajímá pouze to, zda je parametr větší (nebo menší), použijeme jednostranný test. Pokud nás zajímá jakýkoli rozdíl, použijeme test oboustranný. 7.1.2 Testovací statistika Definice 7.3. Testová statistika je číselná hodnota vypočítaná z dat výběru, která se používá k rozhodnutí, zda zamítnout nebo nezamítnout nulovou hypotézu. Testová statistika vyjadřuje, jak daleko se odchyluje výsledek výběru od hodnoty předpokládané nulovou hypotézou. Výpočet testové statistiky závisí na typu testu, který je aplikován (např. t-test, z-test, F-test) a na tom, jaké parametry populace testujeme (např. střední hodnotu, rozptyl nebo proporci). Testová statistika se porovnává s tzv. kritickou hodnotou, aby bylo možné rozhodnout o výsledku testu. Nejčastěji používanými testovacími statistikami jsou: t-statistika: Používá se při testování hypotéz o průměru populace, pokud je vzorek malý a neznáme rozptyl základního souboru. Tato statistika má t-rozdělení. z-statistika: Používá se, když je vzorek velký nebo pokud známe rozptyl základního souboru. Má normované normální rozdělení. F-statistika: Používá se při testování rozdílů mezi více rozptyly. Má F-rozdělení. Testování statistických hypotéz 114 7.1.3 Hladina významnosti, kritický a akceprační obor a kritické hodnota Definice 7.4. Hladina významnosti («) představuje pravděpodobnost, že zamítneme nulovou hypotézu, ačkoli ve skutečnosti platí (tzv. chyba prvního druhu). Typicky se volí hladiny významnosti 0,05 nebo 0,01. Definice 7.5. Kritický obor je interval (nebo dvě oddělené oblasti), do kterého když padne hodnota testovací statistiky, zamítneme nulovou hypotézu. Tvar kritického oboru závisí na povaze testu. Definice 7.6. Akceptační obor je interval hodnot, do kterého když padne hodnota testovací statistiky, nezamítáme nulovou hypotézu. Definice 7.7. Kritická hodnota je hodnota, která odděluje kritický obor od akceptač-ního oboru. Kritické a akceptační obory pro jednostranné a oboustranné testy Jednostranný test: • Pro Hq : fi > fi0, Hi : fi < fi0 se kritický obor nachází na levé straně rozdělení testovací statistiky (obrázek 16). Kritická hodnota se vypočítá pro a. Pokud je hodnota testovací statistiky menší než tato kritická hodnota, zamítáme nulovou hypotézu. • Pro Hq: fi < fiQ, Hi : fi > fiQ se kritický obor nachází na pravé straně rozdělení testovací statistiky (obrázek 17). Kritická hodnota se vypočítá pro 1 — a. Pokud je hodnota testovací statistiky větší než tato kritická hodnota, zamítáme nulovou hypotézu. 115 Statistika a statistické zpracování dat Oboustranný test (obrázek 18): Pro H0: j2 = j20, Hi'. ji ý Ak) Je kritický obor rozdělen na dvě části ležící na levé a pravé straně rozdělení (obrázek 17). Kritické hodnoty se vlevo vypočítají pro a/2 a vpravo pro 1 — a/2. Pokud je hodnota testovací statistiky menší než první kritická hodnota (vlevo) nebo větší než ta druhá (vpravo), tak zamítáme nulovou hypotézu. -3-2-10 1 2 t Obr. 16: Jednostranný test s kritickým oborem (vlevo): (—oo, —2) a akceptačním oborem: (-2; oo) Obr. 17: Jednostranný test s kritickým oborem (vpravo): (2; oo) a akceptačním oborem: (—oo; 2) Chyby testování Při testování hypotéz mohou nastat dvě základní chyby (viz také tabulka 4): Testování statistických hypotéz 116 -3-2-10 1 2 t Obr. 18: Oboustranný test s kritickým oborem (vlevo a vpravo): (—oo; —2,2) U (2,2; oo) a ak-ceptačním oborem: (—2,2; 2,2) Chyba prvního druhu (a): K této chybě dochází, když zamítneme nulovou hypotézu, ačkoli je pravdivá. Pravděpodobnost této chyby odpovídá zvolené hladině významnosti (a). Chyba druhého druhu (/?): K této chybě dochází, když nezamítneme nulovou hypotézu, i když je nepravdivá. Pravděpodobnost této chyby označujeme (3, ale není přímo kontrolována hladinou významnosti. Tab. 4: Závěry testování hypotéz Závěr testu Skutečnost Hq platí Hq neplatí Hq platí správný chyba I. druhu Hq neplatí chyba II. druhu správný Síla testu (1 — (3) představuje pravděpodobnost, že správně zamítneme nulovou hypotézu, pokud je nepravdivá. Návrh testů je snaha minimalizovat chyby prvního i druhého druhu (jde o kompromis, nelze minimalizovat obě současně). Příklad z medicíny: Při diagnostických testech v medicíně můžeme chyby testování vztáhnout na následující situace (všimněte si, že zde je voleno Hq : pacient nemá danou nemoc, H\: pacient má danou nemoc): Chyba prvního druhu (falešně pozitivní výsledek): K této chybě dochází, když test indikuje, že pacient má určitou nemoc, přestože je ve skutečnosti zdravý. Tento typ chyby může vést k nesprávnému lékařskému zásahu nebo nadbytečným vyšetřením a stresu pacienta. 117 Statistika a statistické zpracování dat Chyba druhého druhu (falešně negativní výsledek): K této chybě dochází, když test neodhalí nemoc, i když pacient nemoc má. V tomto případě může být nedostatečné léčení kritické, protože pacient neobdrží potřebnou péči. Tyto chyby jsou úzce spojené s koncepty citlivosti a specifičnosti diagnostického testu: Citlivost (senzitivita) testu je pravděpodobnost, že test správně identifikuje nemocné jedince (správně pozitivní výsledky). Vysoká citlivost znamená, že test má nízkou pravděpodobnost chyby druhého druhu (/3), tedy falešně negativních výsledků. Citlivost se vypočítá jako: ^ , Počet správně pozitivních Citlivost = —-—-— = 1-13. Počet skutečné nemocných Specifičnost testu je pravděpodobnost, že test správně identifikuje zdravé jedince (správně negativní výsledky). Vysoká specifičnost znamená, že test má nízkou pravděpodobnost chyby prvního druhu («), tedy falešně pozitivních výsledků. Specifičnost se vypočítá jako: Počet správně negativních Specifičnost = -r—---—--—— = 1 — a Počet skutečné zdravých V praxi se testy v medicíně navrhují tak, aby bylo dosaženo kompromisu mezi citlivostí a specifičností. Například při screeningu závažných nemocí, kde je lepší „přehnat" pozitivní výsledky a provést dodatečná vyšetření (vysoká citlivost), i za cenu nižší specifičnosti a více falešně pozitivních případů. Na druhou stranu, u testů, kde je důležité minimalizovat zbytečné léčby a intervence, může být preferována vyšší specifičnost. 7.1.4 Kroky při testování hypotézy Testování statistických hypotéz probíhá v několika krocích: 1. Formulace nulové a alternativní hypotézy: Nejprve si stanovíme hypotézy, které budeme testovat. Nulová hypotéza představuje výchozí předpoklad, zatímco alternativní hypotéza formuluje opačný stav. 2. Výběr vhodného statistického testu: Na základě povahy dat a hypotézy volíme vhodný test, například t-test pro průměry, z-test nebo F-test pro porovnání rozptylů. 3. Stanovení hladiny významnosti: Určíme hladinu významnosti («), nejčastěji 0,05 nebo 0,01. Tato hodnota reprezentuje pravděpodobnost chyby prvního druhu. 4. Výpočet testovací statistiky: Z dat vypočítáme hodnotu příslušné testovací statistiky (t, z, F apod.). 5. Určení kritické hodnoty a rozhodnutí: Porovnáme vypočítanou testovací statistiku s kritickou hodnotou odpovídající zvolené hladině významnosti a rozhodneme, zda nulovou hypotézu zamítneme nebo ne. Testování statistických hypotéz 118 Použití konkrétních testů si podrobněji popíšeme až v dalších kapitolách. Zde si uvedeme alespoň to základní: Pravidla pro použití t-testu, z-testu a F-testu t-test se používá, když: Velikost vzorku je malá (obvykle n < 30) a neznáme rozptyl populace. Testujeme hypotézu o střední hodnotě nebo o rozdílu středních hodnot dvou souborů (jednovýběrový, dvouvýběrový nebo párový t-test). ' Data pochází z normálního rozdělení, nebo lze předpokládat jejich normální rozdělení. Používá rozdělení: Studentovo t-rozdělení o (n-1) stupních volnosti. Typické použití: Když chceme ověřit, zda je průměrná hodnota výběru statisticky významně odlišná od hypotetické hodnoty (např. průměrná výkonnost strojů). z-test se používá když: Velikost vzorku je velká (obvykle n > 30) nebo známe rozptyl populace. ' Testujeme hypotézu o střední hodnotě nebo o proporci (např. procento zákazníků, kteří jsou spokojeni). ' Data mohou pocházet z jakéhokoli rozdělení, protože při velkých vzorcích využíváme přiblížení normálnímu rozdělení (centrální limitní věta). Používá rozdělení: Normované normální rozdělení. Typické použití: Když máme velký vzorek a chceme ověřit průměrnou dobu trvání nějakého procesu (např. dobu čekání zákazníků v bance). 119 Statistika a statistické zpracování dat F-test se používá když: • Testujeme hypotézu o shodě rozptylů dvou populací. • Oba výběry pocházejí z normálního rozdělení. Používá rozdělení: F-rozdělení o (n-1) stupních volnosti. Typické použití: Když chceme ověřit, zda se liší rozptyl výkonnosti dvou strojů nebo různých skupin. Řešené příklady Příklad 7.8 (Testování průměrné doby čekání v bance). Vedení banky, vzhledem k optimalizaci nákladů, předpokládá, že průměrná doba čekání na obsloužení v jejich pobočce by měla být 10 minut. Aby zjistila skutečný stav, tak provede náhodný výběr 35 zákazníků a zjistí, že jejich průměrná doba čekání byla x = 9,5 minut a výběrová směrodatná odchylka s = 2 minuty. Co nám říkají tyto údaje o průměrné době čekání všech zákazníků? Řešení: Kdyby nám šlo jen o odhad průměrné doby čekání, tak bychom mohli použít intervalový odhad průměru (střední hodnoty). Je tu ale ještě příní vedení banky, aby průměr byl roven 10 minutám. Není tedy vhodné, aby byl statisticky významně vyšší, ale ani nižší. Použijeme tedy oboustranný test. Testování je ilustrováno na obrázku 19). = 1,96 -3-2-10 1 2 z Obr. 19: Hustota normálního rozdělení, kritická hodnota a kritická oblast (a = 0,05) pro oboustranný test a hodnota testové statistiky (příklad 7.8) 1. Formulace hypotéz: Hq : fi = 10 (průměrná doba odpovídá požadavkům vedení), Hi : fi ý 10 (průměrná doba neodpovídá požadavkům vedení). Testování statistických hypotéz 120 2. Volba testu: Použijeme z-test. Sice neznáme rozptyl populace, ale vzorek je dosatečně velký (n = 35 > 30). 3. Hladina významnosti: Zvolíme hladinu významnosti a = 0,05. 4. Výpočet testovací statistiky: x — a 9,5 — 10 ^ = -^ = ^—«-1,48. Vň VŠE 5. Rozhodnutí: Kritické hodnoty pro oboustranný test na hladině významnosti 0,05 získáme pomocí excelovské funkce N0RM. S. INV. Jelikož jde o oboustranný test, tak počítáme kritické hodnoty pro pravděpodobnosti a/2 = 0,025 a 1 — a/2 = 0,975: z0,o25)=norm.s.inv(o,025 ~= "1,96, ^i975 = NORM.S.INV(0,975) «= 1,96. Tyto kritické hodnoty nám (přibližně) vymezují dvě kritické oblasti: (—00, —1,96) a (1,96, +00) a tzv. akceptační obor (obor nezamítnutí testu) (—1,96; 1,96). Vidíme, že z = —1,48 spadá do akceptační oblasti, a tak nemůžeme zamítnout nulovou hypotézu. 6. Závěr: Na hladině významnosti 5 % nemáme důkaz, že by se průměrná doba čekání v bance významně lišila od 10 minut. Vedení banky může být spokojené. □ Příklad 7.9 (Testování průměrné životnosti součástky). Předpokládejme, že jste manažerem firmy, která vyrábí elektronické součástky. Chcete zjistit, zda nový výrobní proces zvýšil průměrnou životnost součástky, která byla dříve 1000 hodin. Z měření na vzorku 30 součástek vyrobených novým procesem máte průměrnou životnost x = 1020 hodin a výběrovou směrodatnou odchylku s = 50 hodin. Testujte hypotézu na hladině významnosti 0,05, že nový proces zvýšil průměrnou životnost. Řešení: Výběrový průměr naznačuje, že se průměrná životnost zvýšila. Je ale dost dobře možné, že jde jen o náhodu v tom smyslu, že jsme náhodně vybrali součástky spíš s vyšší životností než je skutečný průměr (střední hodnota) nového celku po změně výrobního procesu. Klidně mohla zůstat (přibližně) stejná nebo mse dokonce zmenšit. Jsme v nejistotě, máme k dispozici jen jeden vzorek. Pomocí testování hypotéz jsme schopni tuto situaci uchopit. Máme za úkol statisticky ověřit zvýšení průměrné životnosti, v takovém případě se toto vkládá do alternativní hypotézy, zatímco v té nulové ponecháme zbytek možností. 1. Formulace hypotéz: Hq : // < 1000 (průměrná životnost se nezměnila), Hx-.fi> 1000 (průměrná životnost se zvýšila). 2. Volba testu: Protože neznáme rozptyl populace a máme malý vzorek, použijeme t-test. 3. Hladina významnosti: Zvolíme hladinu významnosti a = 0,05. 121 Statistika a statistické zpracování dat 4. Výpočet testovací statistiky: x-fi 1020 - 1000 20 t 50 9,13 2,19. 5. Rozhodnutí: Kritickou hodnotu r-rozdělení můžeme v Excelu získat pomocí funkce T.INV2: T.INV(0,95,29) = 1,699. Protože t = 2,19 je větší než kritická hodnota 1,699, zamítáme nulovou hypotézu. (Situace je znázorněna na obrázku 20.) 6. Závěr: Nový výrobní proces statisticky významně zvýšil průměrnou životnost součástek. □ Kritická hodnota t = 1,699 ITest. stat. t = 2,19 a = 0,05 Obr. 20: Hustota t-rozdělení, kritická hodnota a kritická oblast (a = 0,05) pro jednostranný test a hodnota testové statistiky ležící v kritické oblasti (příklad 7.9) Příklad 7.10 (Testování hmotnosti balení). Firma tvrdí, že nové balení jejího výrobku obsahuje 500 gramů. Abychom to ověřili, náhodně vybereme 16 balení a zjistíme, že průměrná hmotnost je 495 gramů s výběrovou směrodatnou odchylkou 10 gramů. Chceme zjistit, zda balení skutečně obsahují méně než deklarovaných 500 gramů. Řešení: Opět do alternativní hypotézy vložíme to co chceme ověřit. 1. Formulace hypotéz: Hq : fi > 500 (průměrná hmotnost odpovídá 500 g), Hi : fi < 500 (průměrná hmotnost je menší než 500 g). 2. Volba testu: Použijeme t-test, protože neznáme rozptyl populace a vzorek je malý. 2T.INV je inverzní funkci k distribuční funkci Studentova t-rozdělení. Funkce T.INV má dva argumenty. Do prvního dosazujeme podle potřeby pravděpodobnost ^, a, 1 — a nebo 1 — ^, druhým argumentem jsou stupně volnosti t-rozdělení. Testování statistických hypotéz 122 3. Hladina významnosti: Zvolíme hladinu významnosti a = 0,05. 4. Výpočet testovací statistiky: x-u 495 - 500 -5 t = _ĽĹ = _ = _ = _9 _ž_ J0_ ok 5. Rozhodnutí: Jelikož jde o jednostranný test a jde o vriantu „menší než", tak kritickou hodnotu získáme pro pravděpodobnost 0,05 a kritická oblast bude nalevo od ní. Kritickou hodnotu r-rozdělení můžeme v Excelu získat pomocí funkce T.INV: T.INV(0,05,15) = -1,753. Protože t = —2 je menší než kritická hodnota —1,753, zamítáme nulovou hypotézu ve prospěch té alternativní (obrázek 21). 6. Závěr: Na hladině významnosti 5 % máme důkaz, že průměrná hmotnost balení je nižší než 500 gramů (propad hmotnosti je statisticky významný, můžeme žalovat). □ Obr. 21: Hustota t-rozdělení, kritická hodnota a kritická oblast (a = 0,05) pro jednostranný levostranný test a hodnota testové statistiky (příklad Pr3-3) 7.2 P-hodnota při statistickém testování V předchozím textu jsme se seznámili s koncepty kritických hodnot, kritického oboru a ak-ceptačního oboru, které používáme při rozhodování, zda zamítnout nebo nezamítnout nulovou hypotézu. Další užitečný přístup k vyhodnocení statistických testů představuje tzv. p-hodnota. 123 Statistika a statistické zpracování dat Co je p-hodnota? Definice 7.11. P-hodnota (pravděpodobnostní hodnota) je pravděpodobnost, že při platnosti nulové hypotézy (H0) získáme tak extrémní nebo ještě extrémnější výsledek, než je ten, který jsme pozorovali. Čím nižší je p-hodnota, tím více je testový výsledek v rozporu s nulovou hypotézou, což nás vede k jejímu zamítnutí. Nízká p-hodnota (typicky menší než hladina významnosti a, například 0,05) naznačuje, že pozorovaná data jsou nepravděpodobná za předpokladu platnosti nulové hypotézy, a proto ji zamítáme. Vysoká p-hodnota (větší I16Z Cí) ZIlclIIlGIlcl, Z 6 pOZOľOVcLIlcl delt cl jsou v souladu s nulovou hypotézou, a proto ji nezamítáme. Jak p-hodnotu vypočítat? P-hodnota závisí na typu testu, který provádíme, a konkrétním testovém statistickém kritériu (např. t-statistice, F-statistice, z-statistice apod.). Obecně se p-hodnota určuje na základě výběrové hodnoty testového kritéria a její pozice na příslušném rozdělení pravděpodobnosti. Pokud provádíme jednostranný test (pravostranný), p-hodnota je plocha pod křivkou hustoty pravděpodobnosti od pozorované hodnoty testové statistiky směrem k pravé straně: p-hodnota = P(testová statistika > pozorovaná hodnota testové statistiky | H0). Pokud provádíme oboustranný test, p-hodnota se vypočítá jako dvojnásobek pravděpodobnosti pro tu „bližší" extrémní stranu rozdělení, protože nás zajímají extrémy na obou koncích rozdělení. Použití p-hodnoty při rozhodování Když máme p-hodnotu, porovnáváme ji s hladinou významnosti a (např. 0,05): ' Pokud je p-hodnota menší než a, zamítáme nulovou hypotézu H0 ve prospěch alternativní hypotézy H\. • Pokud je p-hodnota větší nebo rovna a, nulovou hypotézu H0 nemůžeme zamítnout. Testování statistických hypotéz 124 Shrnutí: • P-hodnota nám poskytuje míru důkazu proti nulové hypotéze. ' Na rozdíl od přístupu s kritickými hodnotami nám p-hodnota umožňuje zohlednit přesnou míru extrémnosti pozorovaných dat. Menší p-hodnoty znamenají větší důkaz proti nulové hypotéze. Výhody použití p-hodnoty Použití p-hodnoty v praxi má několik výhod oproti testování pomocí kritických hodnot: P-hodnota poskytuje přesnou míru síly důkazů proti nulové hypotéze, zatímco kritická hodnota pouze stanoví, zda pozorovaný výsledek spadá do zamítací oblasti. P-hodnota umožňuje porovnat výsledky více testů s různými hladinami významnosti. Většina statistického softwaru, včetně Excelu, poskytuje p-hodnoty automaticky, což velmi usnadňuje rozhodování. Výpočet p-hodnoty v Excelu Excel nabízí několik funkcí pro výpočet p-hodnoty při různých typech testů. Například pro t-test můžeme použít 125 Statistika a statistické zpracování dat funkci T.TEST, která nám přímo poskytne p-hodnotu pro daný test (nic jiného): T.TEST(maticel,matice2,chvosty,typ), kde • maticel a matice2 jsou datové rozsahy chvosty určuje, zda se jedná o jednostranný (1) nebo oboustranný (2) test, > typ určuje typ testu (např. 1 pro párový t-test, 2 pro dvouvýběrový t-test s rovností rozptylů a 3 pro dvouvýběrový t-test s různými rozptyly). Nebo také doplněk Analýza dat, kde jso stejné tři typy t-testů s názvy • Dvouvýběrový t-test s rovností rozptylů, • Dvouvýběrový t-test s nerovností rozptylů, • Dvouvýběrový párový t-test na střední hodnotu. P-hodnoty jsou standardní součástí výstupu všech tří variant. OV této kapitole jsme se věnovali testování statistických hypotéz, což je klíčová metoda statistické analýzy. Nejprve jsme probrali základní pojmy, jako jsou nulová a alternativní hypotéza, hladina významnosti a kritické obory. Dále jsme vysvětlili rozdíl mezi chybou prvního a druhého druhu a zdůraznili význam hladiny významnosti («) při minimalizaci těchto chyb. Kapitola se zaměřila na kroky testování hypotéz, včetně formulace hypotéz, volby vhodného statistického testu (t-test, z-test, F-test), výpočtu testovací statistiky a rozhodnutí na základě porovnání s kritickou hodnotou. Podrobně jsme také rozebrali rozdíly mezi jednostrannými a oboustrannými testy a uvedli příklady, kde jsme demonstrovali správné použití těchto testů a interpretaci výsledků. Kapitola obsahuje také sekci o p-hodnotách, kde jsme vysvětlili, jak p-hodnota poskytuje alternativní přístup k rozhodování při testování hypotéz. P-hodnota nám umožňuje kvantifikovat míru důkazu proti nulové hypotéze, což nabízí větší flexibilitu než pouhé porovnávání testovací statistiky s kritickou hodnotou. V závěru jsme zmínili možnosti výpočtu p-hodnoty v Excelu a výhody tohoto přístupu. 1. Co je to nulová a alternativní hypotéza a jaký je mezi nimi rozdíl? 2. Jaký je význam hladiny významnosti při testování hypotéz a jak ovlivňuje pravděpodobnost chyby prvního druhu? 3. Co jsou kritický obor a akceptační obor a jaký je jejich význam při rozhodování o zamítnutí nebo nezamítnutí hypotézy? 4. Jaké jsou rozdíly mezi jednostranným a oboustranným testem? Kdy použít který test? Testování statistických hypotéz 126 5. Co jsou chyby prvního a druhého druhu a jak ovlivňují výsledky testování hypotéz? 6. Jaké kroky zahrnuje postup testování statistických hypotéz? 7. Kdy použijeme t-test, z-test a F-test? Jaké jsou hlavní rozdíly mezi těmito testy? 8. Jakým způsobem můžeme v Excelu vypočítat kritické hodnoty pro t-test a z-test? Uveďte konkrétní funkce. 9. Jaká rozdělení pravděpodobnosti používají t-test, z-test a F-test? 10. Jaký je rozdíl mezi chybným přijetím nulové hypotézy a chybným zamítnutím nulové hypotézy? 11. Jak interpretujeme výsledek, když testovací statistika spadne do akceptačního oboru? 12. Co je to p-hodnota a jaký je její význam při testování statistických hypotéz? 13. Jaký je rozdíl mezi rozhodováním na základě p-hodnoty a kritických hodnot? 14. Jak můžeme v Excelu vypočítat p-hodnotu? Uveďte konkrétní funkce. Literatura k tématu: [1] HINDLS, R. Statistika pro ekonomy. 8. vyd. Praha: Professional Publishing, 2007. ISBN 978-80-86946-43-6. [2] JANÁČEK, J. Statistika jednoduše. Grada, 2022. ISBN 978-80-271-1738-3. [3] MAREK, L. Statistika v příkladech. 2. vyd. Praha: Kamil Mařík - Professional Publishing, 2015. ISBN 978-80-743-1153-6. [4] OTIPKA, P., SMAJSTRLA, V. Pravděpodobnost a statistika [online]. 1. vydání. Ostrava: VŠB-TU Ostrava, 2007 [cit. 2024-09-09]. ISBN 80-248-1194-4. Kapitola 8 Parametrické testy Po prostudování této kapitoly budete umět: vysvětlit postup při testování konkrétních statistických hypotéz, • použít parametrické testy v typových úlohách. O Klíčová slova: Parametrický test, hypotézy o rozptylu, hypotézy o střední hodnotě, Studentův test. Parametrické testy 128 Náhled kapitoly V této kapitole se zaměříme na parametrické testy, které jsou klíčovým nástrojem při testování hypotéz o parametrech základního souboru. Kapitola navazuje na předchozí témata, kde jsme se zabývali odhady parametrů a základy testování hypotéz. Nyní se hlouběji ponoříme do konkrétních metod, jako jsou jednovýběrový t-test, dvouvýběrový t-test, párový t-test a F-test, které se běžně používají v různých vědních disciplínách. Zvláštní pozornost budeme věnovat podmínkám, za kterých je vhodné tyto testy použít, a důležitým předpokladům, jako je normalita dat a shoda rozptylů. Cíle kapitoly Po prostudování této kapitoly by studenti měli být schopni: • Porozumět principům parametrických testů a jejich využití v praxi. • Rozlišit mezi různými typy t-testů a F-testem a aplikovat je na reálná data. • Ověřit předpoklady normality a shody rozptylů před aplikací testů. • Interpretovat výsledky testů a učinit závěry o statistické významnosti. Odhad času potřebného ke studiu Pro zvládnutí této kapitoly doporučujeme věnovat studiu přibližně 6 až 8 hodin. Tento časový odhad zahrnuje čtení teoretických částí, řešení příkladů a procvičování aplikace parametrických testů na různá data. Studenti by měli věnovat dostatek času nejen pochopení teorie, ale také procvičování na příkladech, aby byli schopni správně aplikovat naučené metody v praxi. 8.i Motivační příklad Představte si, že pracujete v oddělení kontroly kvality v jedné z velkých pivovarských společností. Vaším úkolem je zajistit, aby každý sud piva měl správný objem. Po modernizaci výrobní linky se objevily pochybnosti, zda nové vybavení skutečně funguje tak, jak má. Byly odebrány vzorky z několika sudů, a vaším úkolem je nyní statisticky ověřit, zda modernizace přinesla požadované výsledky, tedy zda se například nezměnila střední hodnota objemu v jednotlivých sudech. V první fázi zkontrolujete, zda průměrný objem piva ve vzorcích odpovídá deklarovanému objemu 50 1. To provedete pomocí tzv. jednovýběrového t-testu, který porovná průměrný objem ve vzorcích s očekávanou hodnotou. Dále se budete zabývat otázkou, zda je variabilita objemu mezi srovnávanými vzorky podobná, nebo zda se po modernizaci změnila, což bude vyžadovat použití tzv. F-testu na rozptyly. Po seznámení se s potřebnou teorií v této kapitole budete moci tyto testy aplikovat na data, která jste získali, a rozhodnout, zda modernizace výrobní linky byla úspěšná, nebo zdaje nutné provést další úpravy. 129 Statistika a statistické zpracování dat K tomuto příkladu se vrátíme na konci kapitoly, až budeme mít k dispozici zmíněné metody. 8.2 Úvod Již víme, že pomocí statistické indukce můžeme učinit závěry o populaci na základě výběrového souboru z této populace. V předcházejících kapitolách jsme se zabývali problémem, jak odhadnout prostřednictvím bodového, popř. intervalového odhadu neznámý parametr populace. V této kapitole se zaměříme na testování hypotéz o těchto parametrech. Parametrické hypotézy jsou tvrzení o parametrech rozdělení v populaci (např. střední hodnota, rozptyl). Tyto hypotézy můžeme formulovat různými způsoby, například jako rovnost určitého parametru s konkrétní hodnotou (např. „průměrný objem piva ve všech sudech je 50 1") nebo jako rovnost mezi parametry dvou různých populací (např. „rozptyly objemu piva ve dvou různých výrobních šaržích jsou stejné"). Parametrické testy jsou statistické testy, které se používají k ověření těchto parametrických hypotéz. Abychom mohli použít parametrický test, musíme předpokládat určité vlastnosti rozdělení dat, například že data pocházejí z normálního rozdělení. Parametrické testy jsou tedy úzce spojeny s parametrickými hypotézami, protože slouží k jejich testování na základě vzorků dat. V této kapitole se naučíme používat různé parametrické testy, například Studentův t-test pro testování hypotéz o střední hodnotě a F-test pro testování hypotéz o rozptylu. Každý z těchto testů nám pomůže rozhodnout, zda můžeme přijmout nebo zamítnout danou hypotézu o populaci na základě analýzy vzorku. Druhy parametrických hypotéz Můžeme se setkat se třemi základními typy parametrických hypotéz: 1. Hypotézy o parametru jedné populace (např. střední hodnota, medián, rozptyl, relativní četnost, ...). 2. Hypotézy o parametrech dvou populací (např. srovnávání středních hodnot nebo rozptylů mezi dvěma skupinami). 3. Hypotézy o parametrech více než dvou populací (např. analýza rozptylu ANOVA, ...). Parametrické testy 130 Kapitola vás provede nejen základními teoriemi, ale také ukázkami aplikace parametrických testů na praktických příkladech. 8.3 Hypotézy o rozptylu 8.3.1 Test významnosti rozdílu dvou rozptylů (F-test) Úvod Při testování statistických hypotéz často potřebujeme zjistit, zda existuje rozdíl mezi rozptylem dvou různých skupin. F-test je nástroj, který nám umožňuje tento rozdíl posoudit. V této části se zaměříme na F-test pro porovnání rozptylů dvou souborů dat, například výsledků běhu chlapců a dívek na 50 metrů. Předpoklady Jsou dány dva výběry o rozsazích n\ a n2 s výběrovými rozptyly s\ a s2,, vybrané ze dvou základních souborů s rozděleními N(fii,af) a ÍV(/í2> °"|)? j ej ichž parametry neznáme. • Nulová hypotéza: H0 : o\ = o\. • Alternativní hypotéza: H\ : o\ ý <*\- Testovací statistika Testovací statistika F = bi kde s\a s\ jsou výběrové rozptyly pro tyto soubory, má Fisherovo-Snedecorovo rozdělení F(ni - l,n2 — 1), kde n\ a n2 jsou velikosti dvou výběrových souborů. 131 Statistika a statistické zpracování dat Závěr pro oboustranný test Jestliže F < - l,n2 - 1) nebo F > - 1,n2 - 1), potom zamítáme hypotézu iJ0 (ve prospěch Hi). Závěr pro jednostranné testy Jestliže F > Fi_a(ni - l,n2 - 1), potom zamítáme hypotézu iJ0 (ve prospěch Hi). H0:al>al Hx: a\ < o\ Jestliže F < Fa(ni - l,n2 - 1), potom zamítáme hypotézu H0 (ve prospěch iJi). Příklad 8.1. Byly sledovány výsledky běhu na 50 m (ve vteřinách) u skupiny desetiletých chlapců (tabulka 6) a dívek (tabulka 5). Posuďte získané výsledky z hlediska vyrovnanosti výkonů v jednotlivých skupinách. Tab. 5: Výsledky běhu na 50 m (ve vteřinách) u skupiny dívek 1 2 3 4 5 6 7 8 9 10 11 12 13 14 10,70 10,80 10,00 10,60 9,20 10,20 9,90 10,00 9,30 10,20 9,80 10,00 10,00 11,00 15 16 17 18 19 20 21 22 23 24 25 26 27 28 12,00 10,00 10,00 11,20 9,40 10,70 9,30 10,10 9,10 10,20 9,30 10,00 9,40 10,90 Řešení: Hladinu významnosti zvolíme a = 0,05. Určíme potřebné charakteristiky u obou skupin: m = 28, s\ = 0,4689 (dívky), n2 = 33, s2, = 0,3405 (chlapci). Parametrické testy 132 Tab. 6: Výsledky běhu na 50 m (ve vteřinách) u skupiny chlapců 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 10,80 9,30 9,40 9,90 10,20 9,30 9,40 8,90 9,60 9,70 10,60 9,40 9,50 9,60 10,00 9,30 9,40 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 9,40 8,40 9,80 8,80 9,20 9,50 9,80 9,00 10,50 9,40 9,30 9,90 9,10 9,60 8,70 8,10 Určíme hodnotu testovací statistiky: F = —~ 0,4689 0,3405 1,3771. Kritické hodnoty (můžeme je vypočítat i v Excelu pomocí předdefinované funkce F.INV): ^o,025(27, 32) = F. INV(0,025; 27; 32) « 0,4722, F0i975(27, 32) = F. INV(0,975; 27; 32) « 2,0689. Hodnota testovací statistiky leží mezi kritickými hodnotami, tudíž leží v oboru akceptace nulové hypotézy. Takto tedy nemůžeme zamítnout nulovou hypotézu H q. To znamená, že mezi rozptyly není statisticky významný rozdíl. □ 8.4 Hypotézy o střední hodnotě 8.4.1 Jednovýběrový t-test Úvod Jednovýběrový t-test se používá k ověření, zda průměrná hodnota v základním souboru (populaci) fi se rovná konkrétní hypotetické hodnotě /x0, a to na základě údajů získaných z výběrového souboru. Předpoklady Předpokládáme, že máme výběr ze základního souboru, který má normální rozdělení N(fi, a2) Výběr má rozsah n, výběrový průměr x a výběrový rozptyl s2. Je třeba odlišit, že fi a a2 jsou neznámé parametry základního souboru, zatímco x a s2 jsou výběrové charakteristiky. • Nulová hypotéza: Hq: fi = //q, • Alternativní hypotéza: H\ \ fi ^ fiQ. 133 Statistika a statistické zpracování dat Testovací statistika Testovací statistika T _ kde • x je výběrový průměr, /j,0 je hypotetická hodnota průměru podle nulové hypotézy, • s je výběrová směrodatná odchylka, • n je velikost výběrového souboru, má Studentovo t-rozdělení s n — 1 stupni volnosti. Závěr pro oboustranný test 1 H0: /i = /i0, Hi \ /i ý Ak) Jestliže T < ts.(n -2 v 1) nebo T>ŕi_|(n —1), potom zamítáme hypotézu Hq (ve prospěch Hi). Závěr pro jednostranné testy Jestliže T > ŕi_a(n - 1), potom zamítáme hypotézu H0 (ve prospěch Hi). • H0: /2> /20, Hi: /2 < /x0 Jestliže T2, • Alternativní hypotéza: H\ \ fi± ^ fi2. Testová statistika ( 40: Kritické hodnoty se pro větší výběry počítají pomocí přibližných vzorců. 145 Statistika a statistické zpracování dat Kritické hodnoty ' Pro hladinu významnosti a = 0,05 je kritická hodnota: £>l;0,05(W) = 1,36 ^Ň" • Pro hladinu významnosti a = 0,01 je kritická hodnota: £l;O,Ol(A0 = 1,63 Závěr Zamítnutí hypotézy: Pokud platí D\ > Di-a, zamítneme nulovou hypotézu Hq Příklad 9.1. Je dán statistický soubor: i 1 2 3 4 5 6 7 8 9 10 11 12 obsah AI2O3 8-9 9-10 10-11 11-12 12-13 13-14 14-15 15-16 16-17 17-18 18-19 19-20 fei 2 5 7 19 52 57 72 61 19 14 4 1 Na hladině významnosti 5 % otestujte hypotézu, že soubor má normální rozdělení. Řešení: Úlohu vyřešíme pomocí Kolmogorovova-Smirnovova testu pro jeden výběr. Nejdříve vypočteme příslušné charakteristiky, tj. parametry normálního rozdělení - střední hodnotu a rozptyl. Střední hodnota: 1 4417 5 m = —yXifi = = 14,11342. N ^ lH 313 Rozptyl: n2 = n2 12 1 h2 ■-^ J2(xi - m)2fí - Y2 1050,224 313 12 3,272014. V tomto vzorci pro rozptyl je n2 = J2(xí — m)2fí základní výpočet rozptylu a ň2 je upravený odhad rozptylu, který zohledňuje šířku třídy (h), což je šířka intervalu (ze zadání je vidět, že šířka intervalů je vždy 1, tedy h = 1). Korekce ^ kompenzuje nepřesnosti způsobené předpokladem, že všechny hodnoty v třídě jsou soustředěny kolem středu třídy. Směrodatná odchylka: s = ^3,272014 = 1,808871. Pomocí parametrů normálního rozdělení lze vypočítat očekávané četnosti foi. Neparametrické testy 146 Na ukázku uvedeme výpočet f0\. fol = N ■ P(8 < X < 9) = 313 • (F(9) - F(8)) = (v Excelu) = 313 (N0RMDIST(9; 14,11342; 1,808871; 1) - NORMDIST(8; 14,11342; 1,808871; 1)) = 0,6220961. Zbylé očekávané četnosti vypočteme analogicky, viz následující tabulku: i obsah ai2o3 fot fei 1 8-9 0,6220961 2 2 9-10 2,8580712 5 3 10-11 9,7422953 7 4 11-12 24,64009 19 5 12-13 46,25248 52 6 13-14 64,446882 57 7 14-15 66,661732 72 8 15-16 51,187338 61 9 16-17 29,176478 19 10 17-18 12,343305 14 11 18-19 3,8750334 4 12 19-20 0,9025231 1 Dále stačí dopočítat kumulativní četnosti a testovací kritérium: i obsah ai2o3 fei foi Net Not N ■ - N ■ 1 8-9 2 0,6220961 2 0,6220961 1,3779039 2 9-10 5 2,8580712 7 3,4801673 3,5198327 3 10-11 7 9,7422953 14 13,2224626 0,7775374 4 11-12 19 24,64009 33 37,8625526 -4,8625526 5 12-13 52 46,25248 85 84,1150326 0,8849674 6 13-14 57 64,446882 142 148,5619146 -6,5619146 7 14-15 72 66,661732 214 215,2236466 -1,2236466 8 15-16 61 51,187338 275 266,4109846 8,5890154 9 16-17 19 29,176478 294 295,5874626 -1,5874626 10 17-18 14 12,343305 308 307,9307676 0,0692324 11 18-19 4 3,8750334 312 311,805801 0,194199 12 19-20 1 0,9025231 313 312,7083241 0,2916759 Testovací kritérium: Di = — max |iVei - Na, iv * ,5890154 313 0,02744. 147 Statistika a statistické zpracování dat Kritická hodnota (a = 0,05): £>1;0,05(W) 1,36 0,076872. Testovací kritérium nepřekročilo kritickou hodnotu, Dl = 0,02744<0,076872 = D a tak hypotézu o normalitě souboru dat nezamítáme. □ 9.2 Kolmogorovův-Smirnovův test dobré shody pro dva výběry Předpoklady U dvou výběrových souborů s rozsahy ri\ a n2 bylo provedeno roztřídění do k skupin a zjištěny kumulativní třídní četnosti pro každou třídu: Nij a N2j. Nulová hypotéza Hq : Oba výběrové soubory mají totéž rozložení (pocházejí tedy z téhož základního souboru). Testovací statistika D2 = max \N1:j - N2A, j = 1,... ,k, j má speciální rozložení, jehož kritické hodnoty se určují podle velikosti n\ a n2. 1. Pro případ n\ = n2 < 40 se kritické hodnoty vyčtou z příslušných tabulek (zde v tabulce 10). 2. Pro případ n\ > 40 a n2 > 40 (i různě velké) se kritické hodnoty počítají podle vzorců. ' Pro p = 0, 05 1,36 • ■ Pro p = 0,01 Neparametrické testy 148 Tab. 10: Kritické hodnoty D2 pro Kolmogorovův-Smirnovův test dobré shody pro dva výběry n p = 0,05 p = 0,01 n p = 0,05 p = 0,01 n p = 0,05 p = 0,01 5 5 6 15 8 9 25 10 12 6 5 6 16 8 10 26 10 12 7 6 6 17 8 10 27 10 12 8 6 7 18 9 10 28 11 13 9 6 7 19 9 10 29 11 13 10 7 8 20 9 11 30 11 13 11 7 8 21 9 11 35 12 14 12 7 8 22 9 11 40 13 16 13 7 9 23 10 11 14 8 9 24 10 12 Závěr Jestliže D2 > D2.^(n\^n2\ zamítneme nulovou hypotézu H0. Příklad 9.2. Ve dvaceti vybraných závodech byly zkoušeny dva typy filtrů odpadních vod. Bylo zjišťováno, jaké procento nečistot filtr zadrží, a to tak, že nejprve byly instalovány filtry 1. typu a po určité době filtry 2. typu. Výsledky jsou v tabulce: Množství zadržených nečistot (v %) 10 20 30 40 50 60 70 1 2 3 8 5 1 0 0 2 3 2 3 7 3 Zjistěte, jestli se porovnávané filtry kvalitativně liší. Řešení: H0: Dva základní soubory mají totéž rozdělení (porovnávané filtry se kvalitativně neliší). Volíme hladinu významnosti p = 0,05. Množství zadržených nečistot (v %) \Nij-N2J\ 10 1 0 1 0 1 20 2 3 3 2 1 30 3 3 6 5 1 40 8 2 14 7 7 50 5 3 19 10 9 60 1 7 20 17 3 70 0 3 20 20 0 149 Statistika a statistické zpracování dat Z tabulky vidíme, že n\ = n2 < 40, tudíž testovací kritérium: D2 = max liVi- N2 A = 9. Kritická hodnota: ^0,05(20) = 9. Závěr: D2 = -D2;o,05(20) = 9, zamítneme Hq. Filtry se kvalitativně liší. □ 9.3 Chi-kvadrát test dobré shody Předpoklady Chi-kvadrát test dobré shody se používá ke zjištění, zda empirické rozdělení dat odpovídá očekávanému teoretickému rozdělení. Předpokládáme, že máme data rozdělená do k kategorií s pozorovanými četnostmi O i a teoretickými (očekávanými) četnostmi Ei. Nulová hypotéza Hq : Empirické rozdělení dat se neliší od očekávaného teoretického rozdělení (dobrá shoda). Testovací statistika Testovací statistika se vypočítá podle vzorce: 2 {Oi Ei x =2^ ■ i Ei i=i * kde Oi jsou pozorované četnosti a Ei jsou očekávané četnosti. Testovací statistika sleduje rozdělení \2 s k — 1 stupni volnosti. Kritické hodnoty pro různé hladiny významnosti lze nalézt v tabulkách %2-rozdělení. Neparametrické testy 150 Závěr Pokud testovací statistika \2 prekročí kritickou hodnotu pro zvolenou hladinu významnosti, zamítáme nulovou hypotézu, což znamená, že mezi empirickým a teoretickým rozdělením je statisticky významný rozdíl. Příklad 9.3. V tabulce jsou uvedeny pozorované a očekávané četnosti pro určité rozdělení. Použijte chi-kvadrát test dobré shody ke zjištění, zda existuje statisticky významný rozdíl mezi pozorovanými a očekávanými hodnotami na hladině významnosti a = 0,05. Kategorie 1 2 3 Pozorované četnosti 25 30 45 ot Očekávané četnosti E,j_ 20 35 45 Zjistěte, zda existuje dobrá shoda mezi pozorovanými a očekávanými četnostmi. Řešení: H0: Empirické rozdělení odpovídá teoretickému rozdělení (dobrá shoda). Volíme hladinu významnosti a = 0,05. 9 (25 - 20)2 (30 - 35)2 (45 - 45)2 x2 = 1 on } + 1 or + -77— = 1,25 + 0,71 + 0 = 1,96. 20 35 45 Kritická hodnota pro k — 1 = 2 stupně volnosti a a = 0,05 je xqo5-2 = 5,99. Závěr: Protože \2 = 1,96 < 5,99, nezamítáme Hq. Neexistuje statisticky významný rozdíl mezi pozorovanými a očekávanými hodnotami. □ Existují i neparametrické testy, které neověřují rozložení výběrového souboru. Uveďme test, který se snaží zjistit, zda výběrový soubor neobsahuje údaj zatížený hrubou chybou měření, popř. chybou v zápise. Jde o jeden z testů extrémních odchylek. 9.4 Dixonův test extrémních odchylek Předpoklady Ve výběrovém souboru o rozsahu n ]e Xi = min(xj), resp. xn = max(xj) (např. hodnoty jsou seřazeny podle velikosti od X\ do xn). 151 Statistika a statistické zpracování dat Nulová hypotéza Hq : Hodnota X\ (nejmenší hodnota), resp. xn (největší hodnota) se neliší významně od ostatních hodnot souboru. Testovací statistika podle toho, testujeme-li minimální nebo maximální hodnotu ve výběru. Kritické hodnoty Qi-a, resp. Qn-a se vyčtou z příslušných tabulek (ukázka v tabulce 11. Tab. 11: Ukázka kritických hodnot pro Dixonův test n a = 0,05 a = 0,01 n a = 0,05 a = 0,01 3 0,941 0,988 17 0,320 0,416 4 0,765 0,889 18 0,313 0,407 5 0,642 0,780 19 0,306 0,398 6 0,560 0,698 20 0,300 0,391 7 0,507 0,637 21 0,295 0,384 8 0,468 0,590 22 0,290 0,378 9 0,437 0,555 23 0,285 0,372 10 0,412 0,527 24 0,281 0,367 11 0,392 0,502 25 0,277 0,362 12 0,376 0,482 26 0,273 0,357 13 0,361 0,465 27 0,269 0,353 14 0,349 0,450 28 0,266 0,349 15 0,338 0,438 29 0,263 0,345 16 0,329 0,426 30 0,260 0,341 Závěr Jestliže Qi > Q±-a, resp. Qn > Qn-a, zamítneme nulovou hypotézu H0. Příklad 9.4. Při kalibraci titrační metody k stanovení krevního cukru bylo provedeno 12 paralelních analýz z jednoho vzorku s těmito výsledky: 83 88 84 78 82 82 86 81 98 83 85 80 Neparametrické testy 152 Otestujte, zda hodnota 98 není chybná. Řešení: Dixonovým testem: Nejprve naměřené hodnoty setřídíme podle velikosti: 78 80 81 82 82 83 83 84 85 86 88 98 Vidíme, že . n = 12, • x\ = 78 (nejmenší hodnota), • x12 = 98 (největší hodnota), • Xu = 88 (druhá nej větší hodnota). Testovací kritérium: _ xn - xn-X _ x12 - xu _ 98 - 88 _ n ^ ^n ~ ~ ~ no to ~~ ' xn — x\ x\2 — x\ 98 — 78 Kritické hodnoty (z tabulky 11): Qi2;0,05 = 0,376 < 0,5 = Q12; Q12-0,oi = 0,482 < 0,5 = Q12. Závěr: Testovací kritérium překročilo kritickou hodnotu (pro obě zkoumané hladiny významnosti). Zamítáme nulovou hypotézu H0. Hodnota 98 se významně liší od ostatních hodnot. □ e V této kapitole jsme se seznámili s neparametrickými testy, kterými testujeme jinou hypotézu o rozdělení základního souboru než je hypotéza o jeho parametru. Ukázali jsme si Kolmogorovův-Smirnovův test dobré shody pro jeden a dva výběry, chi-kvadraát test dobré shody a Dixonův tes, včetně řešených příkladů. Při jejich řešení se nabízelo použití softwaru. 1. Co jsou neparametrické testy a v jakých situacích se používají? 2. Jaký je rozdíl mezi parametrickými a neparametrickými testy? 3. Co je to Kolmogorovův-Smirnovův test dobré shody a kdy se používá? 4. Jaký je účel chi-kvadrát testu dobré shody a jak se provádí? 5. Jaké jsou výhody a nevýhody neparametrických testů ve srovnání s parametrickými testy? 6. Jaké jsou typické situace, ve kterých je vhodné použít Dixonův test extrémních hodnot? 7. Vysvětlete, jak se určují kritické hodnoty pro Kolmogorovův-Smirnovův test dobré shody pro dva výběry. 153 Statistika a statistické zpracování dat 8. Máte dvě sady dat, které představují výsledky dvou různých metod měření. Použijte Kolmogorovův-Smirnovův test pro dva výběry k určení, zda pocházejí ze stejného rozdělení. Hladinu významnosti zvolte a = 0,05. Data: . Metoda A: 15, 18, 20, 22, 19, 25, 24, 17, 20, 21 • Metoda B: 14, 17, 19, 21, 20, 23, 22, 18, 19, 22 [hypotézu o stejném rozdělení nelze zamítnout] 9. Při analýze vzorků krve byla získána data, která obsahují možné odlehlé hodnoty. Použijte Dixonův test k určení, zda odlehlá hodnota v datech může být považována za chybu. Proveďte test na hladině významnosti a = 0,05. Data: ■ Naměřené hodnoty (v mg/dl): 85, 88, 87, 90, 92, 94, 89, 150, 91, 90 [odlehlá hodnota je považována za chybu] 10. Otestujte hypotézu, že výběr dat má normální rozdělení pomocí Kolmogorovova-Smirnovova testu projeden výběr. Použijte hladinu významnosti a = 0,05 a proveďte příslušné výpočty. Data: • Naměřené hodnoty: 12, 14, 15, 16, 15, 17, 18, 19, 20, 18, 16, 17, 21, 22, 20 [hypotézu o normálním rozdělení nelze zamítnout] 11. Výrobní firma chce zjistit počet poruch určitého zařízení vždy za 100 hodin provozu v celkem n = 150 stohodinových intervalech. Výsledky jsou uvedeny v tabulce četností výsledků: Počet poruch za 100 hodin Počet pozorování rii 0 52 1 48 2 36 3 10 4 4 Pomocí chi-kvadrát testu dobré shody testujte na hladině a = 0,05 nulovou hypotézu, že data pochází z Poissonova rozdělení s parametrem A = 1,2. [nulovou hypotézu nemůžeme zamítnout] Literatura k tématu: [1] HINDLS, R. Statistika pro ekonomy. 8. vyd. Praha: Professional Publishing, 2007. ISBN 978-80-86946-43-6. [2] JANÁČEK, J. Statistika jednoduše. Grada, 2022. ISBN 978-80-271-1738-3. [3] MAREK, L. Statistika v příkladech. 2. vyd. Praha: Kamil Mařík - Professional Publishing, 2015. ISBN 978-80-743-1153-6. [4] OTIPKA, P., SMAJSTRLA, V. Pravděpodobnost a statistika [online]. 1. vydání. Ostrava: VŠB-TU Ostrava, 2007 [cit. 2024-09-09]. ISBN 80-248-1194-4. Kapitola 10 Analýza rozptylu Po prostudování této kapitoly budete umět: ' aplikovat analýzu rozptylu (ANOVA) na reálná data za účelem porovnání více skupin. Klíčová slova: Analýza rozptylu (ANOVA), statistické testování, variabilita, faktory. 155 Statistika a statistické zpracování dat Náhled kapitoly V této kapitole se seznámíme s metodou analýzy rozptylu neboli ANOVA (Analysis of Variance), která je klíčovým nástrojem pro porovnávání více skupin nebo kategorií. ANOVA umožňuje zjistit, zda existují statisticky významné rozdíly mezi středními hodnotami několika skupin. Tato technika je široce využívána v ekonomii, marketingu a dalších oblastech, kde je potřeba porovnávat více než dvě skupiny současně. Kapitola navazuje na dvě předchozí kapitoly, kde šlo o porovnávání dvojic. Cíle kapitoly Po prostudování této kapitoly by měl student být schopen: • Vysvětlit princip analýzy rozptylu a její předpoklady. • Provést jednofaktorovou ANOVA na praktických datech. Interpretovat výsledky ANOVA. • Rozhodnout, zda existují statisticky významné rozdíly mezi skupinami. • Používat Excel nebo jiný statistický software k provedení ANOVA. Odhad času potřebného ke studiu Odhaduje se, že studium této kapitoly zabere přibližně 3 hodiny. Tento čas zahrnuje čtení textu, pochopení teoretických konceptů, řešení příkladů a praktické cvičení s použitím statistického softwaru. Úvodní příklad Představte si, že pracujete v marketingovém oddělení firmy, která prodává tři různé druhy energetických nápojů: A, B a C. Chcete zjistit, zda existují rozdíly v průměrném prodeji těchto nápojů v různých regionech. Shromáždili jste data o týdenních prodejích v pěti regionech pro každý druh nápoje: Nápoj Region 1 Region 2 Region 3 Region 4 Region 5 A 100 110 95 105 102 B 98 85 88 90 92 C 120 115 130 125 118 Chcete zjistit, zda jsou rozdíly v průměrných prodejích mezi nápoji A, B a C statisticky významné, nebo zda jsou způsobeny náhodou. Analýza rozptylu 156 Formulace hypotéz ' Nulová hypotéza (H0): Průměrné prodeje všech tří nápojů jsou stejné (//^ = = /x^). Alternativní hypotéza (-ř/i): Existuje alespoň jeden pár nápojů, u kterého se průměrné prodeje liší. Aplikace ANOVA K prověření těchto hypotéz použijeme jednofaktorovou analýzu rozptylu (ANOVA), která nám umožní porovnat průměry více než dvou skupin současně. 10.1 Princip analýzy rozptylu Co je to ANOVA? Analýza rozptylu (ANOVA) je statistická metoda používaná k testování rozdílů mezi průměry dvou nebo více skupin. ANOVA zkoumá, zda variabilita mezi skupinami je větší než variabilita uvnitř skupin, což by naznačovalo, že skupiny pocházejí z různých populací. Předpoklady ANOVA Aby byla analýza rozptylu platná, musí být splněny určité předpoklady: Normalita: Data v každé skupině jsou přibližně normálně rozložena. Homogenita rozptylů: Rozptyly v jednotlivých skupinách jsou stejné. Nezávislost pozorování: Data jsou nezávislá mezi a uvnitř skupin. Rozklad variability Celkovou variabilitu dat lze rozložit na dvě složky: 157 Statistika a statistické zpracování dat Variabilita mezi skupinami (meziskupinová : Variabilita způsobená rozdíly mezi průměry skupin. Variabilita uvnitř skupin (vnitroskupinová): Variabilita způsobená rozdíly uvnitř jednotlivých skupin. Variabilita se obvykle nějakým způsobem vyjadřuje pomocí součtu čtverců. Matematicky lze celkový součet čtverců (SS) vyjádřit jako: SSCelk SSmezi ~\~ SSuvnitř; kde: Xyj=l f^iij^i ^celk) i = Sj=i ^2jĹi(xij ~ xi) i kde k je počet skupin, rti je počet pozorování v i-té skupině, Xíj je j-té pozorování v i-té skupině, Xi je průměr i-té skupiny a řřceik je celkový průměr. SSceik uumez SS uvnitř io.2 Jednofaktorová ANOVA Postup analýzy Jednofaktorová ANOVA se skládá z následujících kroků: 1. Stanovení hypotéz: ' Hq: Všechny skupinové průměry jsou stejné (//i = fi2 = • • • = ^k)-H\. Alespoň jeden skupinový průměr se liší. 2. Výpočet součtů čtverců (SS): • Celkový součet čtverců (SSceik). • Meziskupinový součet čtverců (SSmezi). • Vnitroskupinový součet čtverců (SSUVI1itř). Analýza rozptylu 158 3. Výpočet stupňů volnosti (df): 1 dfmezi = k — 1. 1 dfuvnitř = N — k, kde N je celkový počet pozorování. . du = iv-i. 4. Výpočet středních čtverců (MS): MSr SSn dfn T\/TQ v _ SSuvnitř lV10uvmtr — jf t-Iiuvmtr 5. Výpočet F-statistiky: MSmezj MSuvnitř 6. Určení kritické hodnoty a rozhodnutí: ' Porovnáme vypočtenou hodnotu F s kritickou hodnotou z F-rozdělení pro zvolené hladiny významnosti a. • Pokud F překročí kritickou hodnotu, zamítáme H q. Řešené příklady Příklad 10.1. Proveďte jednofaktorovou ANOVA na datech z úvodního příkladu a určete, zda existují statisticky významné rozdíly mezi průměrnými prodeji nápojů A, B a C na hladině významnosti a = 0,05. Řešení: Krok 1: Stanovení hypotéz • H\. Ne všechny průměry jsou stejné. Krok 2: Výpočet průměrů 100 + 110 + 95 + 105 + 102 xA =---= 102,4, 5 98 + 85 + 88 + 90 + 92 xB =---= 90,6, 5 120 + 115 + 130 + 125 + 118 xc =---= 121,6. 5 Celkový průměr: E?=i Ef=i^j 512 + 453 + 608 1573 Xceľk =---=-=-= 104,867. 15 15 15 159 Statistika a statistické zpracování dat Krok 3: Výpočet součtů čtverců SS mezi: 3 SSmezi = J^n^Xí - řčceik)2 = 5(102,4 - 104,867)2 + 5(90,6 - 104,867)2 + 5(121,6 - 104,867)2. Spočítáme jednotlivé části: (102,4 - 104,867)2 = (-2,467)2 = 6,083, (90,6 - 104,867)2 = (-14,267)2 = 203,577, (121,6 - 104,867)2 = 16,7332 = 280,005. SSmezi = 5 x (6,083 + 203,577 + 280,005) = 5 x 489,665 = 2448,325. SS uvnitř: Pro každou skupinu spočítáme součet čtverců odchylek od skupinového průměru. Pro nápoj A: SSA = (100 - 102,4)2 + (110 - 102,4)2 + (95 - 102,4)2 + (105 - 102,4)2 + (102 - 102,4)2. Spočítáme: (100- 102,4)2 = (-2,4)2 = 5,76, (110 — 102,4)2 = 7,62 = 57,76, (95- 102,4)2 = (-7,4)2 = 54,76 (105- 102,4)2 = 2,62 = 6,76, (102- 102,4)2 = (-0,4)2 = 0,16. Součet: SSA = 5,76 + 57,76 + 54,76 + 6,76 + 0,16 = 125,2. Podobně pro nápoj B a C. Pro nápoj B: SSB = (98 - 90,6)2 + (85 - 90,6)2 + (88 - 90,6)2 + (90 - 90,6)2 + (92 - 90,6)2. Spočítáme: (98 - 90,6)2 = 7,42 = 54,76, (85 - 90,6)2 = (_5,6)2 = 31,36 (88 - 90,6)2 = (-2,6)2 = 6,76, (90 - 90,6)2 = (_0,6)2 = 0,36, (92 - 90,6)2 = 1,42 = 1,96. Analýza rozptylu 160 Součet: SSB = 54,76 + 31,36 + 6,76 + 0,36 + 1,96 = 95,2. Pro nápoj C: SSc = (120 - 121,6)2 + (115 - 121,6)2 + (130 - 121,6)2 + (125 - 121,6)2 + (118 - 121,6)2 Spočítáme: Součet: (120 - 121,6)2 = (-1,6)2 = 2,56, (115 - 121,6)2 = (-6,6)2 = 43,56, (130 - 121,6)2 = 8,42 = 70,56, (125 - 121,6)2 = 3,42 = 11,56, (118 - 121,6)2 = (-3,6)2 = 12,96. SSc = 2,56 + 43,56 + 70,56 + 11,56 + 12,96 = 141,2. Juvmtf Celkový SSr SSuvnitř = SSA + SSB + SSc = 125,2 + 95,2 + 141,2 = 361,6. Krok 4: Výpočet stupňů volnosti dfmezi — k 1 — 3 1 — 2, dfuvnitř = N - k = 15 - 3 = 12. Krok 5: Výpočet středních čtverců SSmezi 2448,325 MSmezi = -= =-J.-= 1224,1625, MSuvnitř = §^ = *M = 30,1333. Krok 6: Výpočet F-statistiky MSmezi 1224,1625 F =-=---ps 40 619 MSuvnitř 30,1333 Krok 7: Určení kritické hodnoty a rozhodnutí Kritická hodnota pro a = 0,05, dfx = 2 a df2 = 12 je přibližně 3,8853 (lze zjistit z F-tabulek nebo pomocí Excelu (F. INV(0,95;2; 12)). 161 Statistika a statistické zpracování dat Protože vypočtené F ?a 40,619 je větší než F^a = 3,8853, zamítáme nulovou hypotézu Hq. Závěr: Existují statisticky významné rozdíly mezi průměrnými prodeji nápojů A, B a C. Alternativně můžeme vyřešit tento příklad v Excelu. Můžeme použít postupné výpočty (jak jsou rozepsány výše), ale rychlejší je použít doplněk Analýza dat (pokud jej máme možnost nainstalovat). Spuštění, vložení dat a výstupy jsou na obrázcích 22 a 23. □ A na via dat Analytické nástroje: Anova: dva faktory s opakováním Anova: dva faktory bez opakováni' Korelace Kovariance Popisná statistika Exponenciální' vyrovnání O^ouvyberovy F-test pro rozptyl Fourierova analýza Histogram_ Nápověda i F= = br 1 R=* -.-í. Fžs :-1 Fžs "4 Fž: :■ Anova: jeden faktor Vstup Vstupní oblast Sdufit T") Eopisky v prvním slwjpti Alfa: 0.05 Mainosti výstupu O ".'l-i' "i oblast O Nwýjfet I 1 &bupce SVÍ12| Obr. 22: Spuštění modulu Analýza dat - Anova jeden faktor v Excelu a žádání dat (příklad 10.1) Anova: jeden faktor Faktor Výběr Počet Součet Průměr Rozptyl Řádek 1 5 512 102,4 31,3 Řádek 2 5 453 90,6 23,8 Řádek 3 5 608 121,6 35,3 ANOVA Zdroj variability SS Rozdíl MS F Hodnota P Fkrit Mezi výběry 2448,133333 2 12 1224,066667 40,62168142 4,54339E-06 3,885293835 Všechny výběry 361,6 30,13333333 CeLkem 2809,733333 14 Obr. 23: Výstup modulu Analýza dat - Anova jeden faktor v Excelu a žádání dat (příklad 10.1) Příklad 10.2. Firma zkoumá účinnost tří různých školení pro své zaměstnance. Po ukončení školení byla zaměstnancům zadána stejná testová úloha a získány následující výsledky (skóre): Analýza rozptylu 162 Školení Zaměstnanec 1 Zaměstnanec 2 Zaměstnanec 3 Zaměstnanec 4 I 85 90 88 92 II 78 82 80 79 III 95 98 94 96 Použijte jednofaktorovou ANOVA ke zjištění, zda existují statisticky významné rozdíly v průměrných výsledcích mezi školeními na hladině významnosti a = 0,01. Řešení: Krok 1: Stanovení hypotéz • H0: fii = fiu = /xm. • H\. Ne všechny průměry jsou stejné. Krok 2: Výpočet průměrů 85 H h 90 + 88 H h 92 78 H h 82 4 + 80 H h 79 95 H h 98 4 + 94 H h 96 = 88,75, = 79,75, = 95,75. Celkový průměr: _ Ef=i Ej=i Xij _ 355 + 319 + 383 _ 1 057 Xcelk ~ 12 ~~ 12 ~~ 12 Krok 3: Výpočet součtů čtverců SS mezi: 3 SSmezi = J2ní& - Xcem)2 = 4(88,75 - 88,08)2 + 4(79,75 - 88,08)2 + 4(95,75 - 88,08)2. Spočítáme jednotlivé části: (88,75 - 88,08)2 = (0,67)2 = 0,4489, (79,75 - 88,08)2 = (-8,33)2 = 69,3889, (95,75 - 88,08)2 = (7,67)2 = 58,8289. SSmezi = 4 x (0,4489 + 69,3889 + 58,8289) = 4 x 128,6667 = 514,6667. 163 Statistika a statistické zpracování dat SS uvnitř: Pro školení I: SSi = (85 - 88,75)2 + (90 - 88,75)2 + (88 - 88,75)2 + (92 - 88,75)2. Spočítáme: (85 - 88,75)2 = (-3,75)2 = 14,0625, (90 - 88,75)2 = 1,252 = 1,5625, (88 - 88,75)2 = (-0,75)2 = 0,5625, (92 - 88,75)2 = 3,252 = 10,5625. Součet: SS! = 14,0625 + 1,5625 + 0,5625 + 10,5625 = 26,75. Podobně pro školení II a III. Pro školení II: SSn = (78 - 79,75)2 + (82 - 79,75)2 + (80 - 79,75)2 + (79 - 79,75)2. Spočítáme: Součet: (78 - 79,75)2 = (-1,75)2 = 3,0625, (82 - 79,75)2 = 2,252 = 5,0625, (80 - 79,75)2 = 0,252 = 0,0625, (79 - 79,75)2 = (-0,75)2 = 0,5625. SSn = 3,0625 + 5,0625 + 0,0625 + 0,5625 = 8,75. Pro školení III: SSm = (95 - 95,75)2 + (98 - 95,75)2 + (94 - 95,75)2 + (96 - 95,75)2. Spočítáme: (95 - 95,75)2 = (-0,75)2 = 0,5625, (98 - 95,75)2 = 2,252 = 5,0625, (94 - 95,75)2 = (-1,75)2 = 3,0625, (96 - 95,75)2 = 0,252 = 0,0625. Součet: SSm = 0,5625 + 5,0625 + 3,0625 + 0,0625 = 8,75. Analýza rozptylu 164 Celkový SSuvnitř: SSuvnitř = 26,75 + 8,75 + 8,75 = 44,25. Krok 4: Výpočet stupňů volnosti dfmezi — k 1 — 3 1 — 2, dfuvnitř = iV-fc = 12-3 = 9. Krok 5: Výpočet středních čtverců 514 6667 MSmezi = °14'°DD' = 257,3333, 44 25 MSuvnitř = = 4,9167. Krok 6: Výpočet F-statistiky 25^333 4,9167 Krok 7: Určení kritické hodnoty a rozhodnutí Kritická hodnota pro a = 0,01, dfi = 2 a df2 = 9 je přibližně 8,02. Protože vypočtené F « 52,348 je větší než F^a = 8,02, zamítáme nulovou hypotézu Hq. Závěr: Existují statisticky významné rozdíly v průměrných výsledcích mezi školeními. □ Příklad 10.3. Ve výrobní firmě se testuje účinnost tří různých strojů (A, B, C) na výrobu součástek. Z každého stroje bylo náhodně vybráno 4 kusy a změřena jejich délka (v milimetrech): Stroj Kus 1 Kus 2 Kus 3 Kus 4 A 50 52 51 53 B 49 50 51 52 C 51 50 52 49 Pomocí jednofaktorové ANOVA určete na hladině významnosti a = 0,05, zda existují statisticky významné rozdíly v průměrné délce součástek mezi stroji. Řešení: Krok 1: Stanovení hypotéz 1 H0: /^A = A*b = 165 Statistika a statistické zpracování dat ' H\. Ne všechny průměry jsou stejné. Krok 2: Výpočet průměrů Celkový průměr: 50- f 52 + 51 + 53 49 - 4 f 50 + 51 + 52 51 - 4 f 50 + 52 + 49 4 51,5 + 50,5 + 50,5 3 rrA =---= 51,5, 49 + 50 + 51 + 52 xb =---= 50,5 51 + 50 + 52 + 49 xc =---= 50,5. Xceik =---= 50,8333. Krok 3: Výpočet součtů čtverců SS mezi: 3 SSmezi = J2ní(xí - ocelíc)2 = 4(51,5 - 50,8333)2 + 4(50,5 - 50,8333)2 + 4(50,5 - 50,8333)' Spočítáme jednotlivé části: (51,5 - 50,8333)2 = (0,6667)2 = 0,4445, (50,5 - 50,8333)2 = (-0,3333)2 = 0,1111. SSmezi = 4 x [0,4445 + 0,1111 + 0,1111] = 4 x 0,6667 = 2,6667. SS uvnitř: Pro stroj A: 4 SSA = ^2(xAj - xa)2 = (50 - 51,5)2 + (52 - 51,5)2 + (51 - 51,5)2 + (53 - 51,5)2 Spočítáme: (50 - 51,5)2 = (-1,5)2 = 2,25, (52 - 51,5)2 = 0,52 = 0,25, (51 - 51,5)2 = (-0,5)2 = 0,25, (53 - 51,5)2 = 1,52 = 2,25. Analýza rozptylu 166 Součet: SSA = 2,25 + 0,25 + 0,25 + 2,25 = 5,0. Podobně pro stroje B a C. Pro stroj B: SSB = (49 - 50,5)2 + (50 - 50,5)2 + (51 - 50,5)2 + (52 - 50,5)2 Spočítáme: Součet: Pro stroj C: (49 - 50,5)2 = (-1,5)2 = 2,25, (50 - 50,5)2 = (-0,5)2 = 0,25, (51 - 50,5)2 = 0,52 = 0,25, (52 - 50,5)2 = 1,52 = 2,25. SSB = 2,25 + 0,25 + 0,25 + 2,25 = 5,0. SSC = (51 - 50,5)2 + (50 - 50,5)2 + (52 - 50,5)2 + (49 - 50,5)s Spočítáme: Součet: Celkový SSr (51 - 50,5)2 = 0,52 = 0,25, (50 - 50,5)2 = (-0,5)2 = 0,25, (52 - 50,5)2 = 1,52 = 2,25, (49 - 50,5)2 = (-1,5)2 = 2,25. SSC = 0,25 + 0,25 + 2,25 + 2,25 = 5,0. SSuvnitř = SSA + SSB + SSC = 5,0 + 5,0 + 5,0 = 15,0. Krok 4: Výpočet stupňů volnosti dfmezi — k 1 — 3 1 — 2, dfuvnitŕ = iV-fc = 12-3 = 9. 167 Statistika a statistické zpracování dat Krok 5: Výpočet středních čtverců MSmezi = §^ = ^ = 1,3333, SSuvnitř 15 0 MSUVI1itř = fuvm r = —^- = 1,6667. Krok 6: Výpočet F-statistiky p= MSmezi = 1,3333 = Q g MSuvnitř 1,6667 Krok 7: Určení kritické hodnoty a rozhodnutí Kritická hodnota F^n pro a = 0,05, dfi = 2 a df2 = 9 je přibližně 4,2565. Protože vypočtené F = 0,8 je menší než F^a = 4,2565, nezamítáme nulovou hypotézu Hq. Závěr: Neexistují statisticky významné rozdíly v průměrné délce součástek mezi stroji A, B a C. □ Interpretace výsledků Pokud je vypočtená hodnota F větší než kritická hodnota z F-rozdělení, zamítáme nulovou hypotézu Hq a přijímáme alternativní hypotézu H\. To znamená, že existuje statisticky významný rozdíl mezi průměry skupin. Post-hoc testy Pokud ANOVA ukáže, že existují rozdíly mezi skupinami, můžeme použít post-hoc testy (např. Tukeyho test), abychom zjistili, které konkrétní skupiny se od sebe liší. Aplikace v ekonomii a managementu Analýza rozptylu je široce využívána v různých oblastech ekonomie a managementu: • Marketing: Porovnání účinnosti různých reklamních kampaní. ' Personalistika: Srovnání výkonnosti zaměstnanců v různých odděleních. Výroba: Testování vlivu různých výrobních procesů na kvalitu produktu. • Finance: Analýza výnosů různých investičních portfolií. Analýza rozptylu 168 Praktické cvičení Úkol Shromážděte data o prodejích tří různých produktů ve vaší nebo cizí firmě za posledních pět měsíců. Použijte jednofaktorovou ANOVA k určení, zda existují statisticky významné rozdíly v průměrných prodejích těchto produktů. Postup 1. Získejte data a zorganizujte je do tabulky podobně jako v úvodním příkladu. 2. Vypočítejte průměry jednotlivých skupin a celkový průměr. 3. Proveďte výpočty součtů čtverců, stupňů volnosti a středních čtverců. 4. Vypočítejte F-statistiku. 5. Porovnejte vypočtenou hodnotu F s kritickou hodnotou a rozhodněte o platnosti hypotéz. Řešení Po provedení výpočtů interpretujte výsledky v kontextu vašeho podnikání. Pokud zjistíte, že existují statisticky významné rozdíly, navrhněte možné důvody a doporučení pro management. Závěr Analýza rozptylu je silným nástrojem pro porovnávání více skupin současně. Umožňuje manažerům a ekonomům činit informovaná rozhodnutí na základě statistických důkazů. Pochopení a správná aplikace ANOVA může významně přispět k úspěchu organizace. V této kapitole jsme se seznámili s metodou analýzy rozptylu (ANOVA), která slouží k testování rozdílů mezi průměry více skupin. Probrali jsme principy jednofaktorové ANOVA, její předpoklady a postup výpočtu. Důraz byl kladen na praktické využití v ekonomii a managementu, kde ANOVA pomáhá při rozhodování na základě dat. Praktické příklady a cvičení umožnily aplikovat získané znalosti na reálné situace. 1. Co je to analýza rozptylu a k čemu slouží? 2. Jaké jsou hlavní předpoklady pro použití ANOVA? 3. Vysvětlete rozdíl mezi variabilitou mezi skupinami a variabilitou uvnitř skupin. 4. Jaký je postup při provádění jednofaktorové ANOVA? 169 Statistika a statistické zpracování dat 5. Co znamená, pokud je vypočtená hodnota F větší než kritická hodnota? 6. Jaké jsou možné aplikace ANOVA v oblasti marketingu? 7. Proč je důležité provádět post-hoc testy po ANOVA? 8. Jak interpretovat výsledky ANOVA v kontextu rozhodování managementu? 9. Jaké kroky byste podnikli, pokud by ANOVA ukázala statisticky významné rozdíly mezi skupinami? 10. Uveďte příklad situace, kdy by použití ANOVA nebylo vhodné. 11. Ve firmě byly testovány tři různé metody výroby produktu. Výstupem jsou data o počtu vadných kusů v jednotlivých výrobních sériích: Metoda 1: 5, 7, 6, 8; Metoda 2: 9, 10, 8, 11; Metoda 3: 4, 5, 3, 6. Proveďte ANOVA a určete, zda existují statisticky významné rozdíly mezi metodami. [Existují statisticky významné rozdíly] 12. V restauraci se zkoumala spokojenost zákazníků se třemi různými typy obsluhy. Hodnocení bylo na stupnici 1-10. Data jsou následující: Typ A: 8, 9, 7, 8, 9; Typ B: 6, 5, 7, 6, 5; Typ C: 9, 8, 9, 10, 9. Proveďte jednofaktorovou ANOVA a zjistěte, zda existují rozdíly v průměrném hodnocení. [Existují statisticky významné rozdíly] Literatura k tématu: [1] HINDLS, R. Statistika pro ekonomy. 8. vyd. Praha: Professional Publishing, 2007. ISBN 978-80-86946-43-6. [2] JANÁČEK, J. Statistika jednoduše. Grada, 2022. ISBN 978-80-271-1738-3. [3] MAREK, L. Statistika v příkladech. 2. vyd. Praha: Kamil Mařík - Professional Publishing, 2015. ISBN 978-80-743-1153-6. [4] OTIPKA, P., SMAJSTRLA, V. Pravděpodobnost a statistika [online]. 1. vydání. Ostrava: VŠB-TU Ostrava, 2007 [cit. 2024-09-09]. ISBN 80-248-1194-4. Kapitola 11 Korelační analýza Po prostudování této kapitoly budete umět: vypočítat korelační koeficient pro zadaná data, ' otestovat a interpretovat jeho hodnotu. Klíčová slova: Korelační koeficient, Pearsonův korelační koeficient, Spearmanův korelační koeficient, Kendallův tau, statistická závislost, lineární vztah. 171 Statistika a statistické zpracování dat Náhled kapitoly V této kapitole se seznámíme s metodou korelační analýzy, která slouží k měření síly a směru lineárního vztahu mezi dvěma proměnnými. Probereme různé varianty korelačních koeficientů a jejich využití v praxi, zejména Pearsonův korelační koeficient, který je nejčastěji používán. Ukážeme si také omezení tohoto koeficientu a situace, kdy je vhodné použít alternativní metody. Cíle kapitoly Po prostudování této kapitoly by měl student být schopen: • Vysvětlit, co korelační koeficient popisuje a jaké jsou jeho varianty. • Vypočítat Pearsonův korelační koeficient na základě daných dat. ' Interpretovat výsledky korelační analýzy a rozhodnout, zda jsou statisticky významné. ' Používat Excel nebo jiný statistický software k výpočtu korelačních koeficientů. Odhad času potřebného ke studiu Odhaduje se, že studium této kapitoly zabere přibližně 2-3 hodiny. Tento čas zahrnuje čtení textu, pochopení teoretických konceptů a řešení příkladů. ni Princip korelační analýzy Co je to korelační koeficient? Korelační koeficient je statistická míra, která určuje sílu a směr vztahu mezi dvěma proměnnými. Pearsonův korelační koeficient, označovaný jako r, měří lineární vztah mezi dvěma spojitými proměnnými a nabývá hodnot mezi -1 a 1. Pokud je r = 1, jedná se o perfektní pozitivní lineární vztah, pokud r = — 1, jedná se o perfektní negativní lineární vztah, a pokud r = 0, neexistuje žádná lineární závislost mezi proměnnými. Výpočet korelačního koeficientu Pearsonův korelační koeficient je definován vztahem: = EQkj -x) ■ (yí -y) -x)2 -E(ž/í -y)2 kde Xi a y,i jsou jednotlivé hodnoty obou proměnných, a x a y jsou jejich průměry. Korelační analýza 172 Řešené příklady Příklad 11.1. Mějme data o prodejích produktů ve dvou různých regionech. Vypočítejte Pear-sonův korelační koeficient a určete, zda mezi těmito proměnnými existuje lineární vztah. Prodeje (ReÉ ídon 1) 10 15 20 25 30 Prodeje (ReÉ poň 2) 12 18 25 24 28 Řešení: Nejprve vypočítáme průměry x = 20 a y = 21 A. Poté provedeme výpočet Pearsonova korelačního koeficientu podle výše uvedeného vzorce. Korelační koeficient r « 0.88, což ukazuje na silnou pozitivní lineární závislost mezi prodeji v obou regionech. Excel: Korelační koeficient lze spočítat pomocí funkce C0RREL(arrayl, array2) v Excelu. Příklad 11.2. Mějme data o počtu zákazníků navštěvujících obchod a průměrné denní tržby. Vypočítejte korelační koeficient a určete, zda existuje lineární závislost. Počet zákazníků 50 60 70 80 90 Denní tržby (v tis. Kč) 20 25 30 28 35 Řešení: Vypočítáme průměry x = 70 a y = 27.6. Pomocí vzorce pro korelační koeficient získáme r « 0.91, což značí velmi silnou pozitivní lineární závislost mezi počtem zákazníků a tržbami. Excel: Pomocí funkce C0RREL(arrayl, array2) lze získat stejný výsledek. Příklad 11.3. Zde JSOU delt cl pro prodej dvou produktů v různých týdnech. Určete, zda mezi prodejem těchto produktů existuje lineární vztah. Prodeje produktu A 100 105 110 95 115 90 120 85 125 80 Prodeje produktu B 200 180 205 185 190 185 190 195 200 190 Řešení: Průměry pro produkt A a produkt B jsou x = 102.5 a y = 192. Po výpočtu korelačního koeficientu dostaneme r « 0.08, což naznačuje velmi slabou nebo žádnou lineární závislost mezi prodeji těchto produktů. Excel: Výpočet pomocí C0RREL(arrayl, array2) v Excelu také ukazuje, že korelace je blízká nule, tedy nevýznamná. Historie a varianty korelačních koeficientů Historie korelačních koeficientů sahá až do 19. století, kdy Francis Galton poprvé navrhl metody pro kvantifikaci statistických vztahů mezi proměnnými. Na jeho práci navázal Karl Pearson, který formalizoval a popularizoval Pearsonův korelační koeficient. V průběhu času byly vyvinuty další varianty korelačních koeficientů pro specifické účely: 173 Statistika a statistické zpracování dat Spearmanův korelační koeficient (Spearman's rho): Používá se, pokud data nejsou normálně rozložena nebo vykazují monotónní, nikoli lineární vztah. Kendallův tau: Měří sílu vztahu mezi pořadím hodnot a používá se zejména u malých souborů dat. ' Point-biserial correlation: Využívá se pro měření korelace mezi spojitou a binární proměnnou. Každý z těchto korelačních koeficientů má své specifické aplikace a závisí na typu dat, které jsou analyzovány. Korelační analýza našla využití v mnoha oblastech, včetně psychologie, ekonomie, marketingu a biostatistiky. Kdy je korelační koeficient vhodný? Korelační koeficient popisuje sílu a směr lineárního vztahu mezi dvěma spojitými proměnnými. Jeho použití je vhodné, pokud jsou splněny následující podmínky: • Obě proměnné mají přibližně normální rozložení. Vztah mezi proměnnými je lineární. ' Nejsou přítomny výrazné odlehlé hodnoty, které by ovlivnily výsledek. Použití Pearsonova korelačního koeficientu je nevhodné, pokud vztah mezi proměnnými není lineární nebo pokud se jedná o ordinální data, u nichž je vhodnější použít Spearmanův korelační koeficient nebo Kendallův tau. Praktické cvičení Mějte následující data pro dva produkty a určete, zda existuje lineární závislost mezi jejich prodeji: Prodeje produktu A 5 10 15 20 25 Prodeje produktu B 8 12 17 22 24 Spočítejte korelační koeficient pomocí výše uvedeného vzorce nebo pomocí Excelu (C0RREL(arrayl, array2)). Na základě výsledku určete, zda mezi těmito proměnnými existuje lineární závislost. Korelační analýza 174 11.2 Testování korelačního koeficientu Předpoklady ' Předpokládáme, že máme dvojice měření (xi,yi), (x2, y2), ■ ■ ■, (%n, yn), kde X a Y jsou náhodné veličiny. ' Testujeme nulovou hypotézu, že mezi proměnnými X a Y není lineární vztah. Je potřeba, aby data byla alespoň intervalová a pocházela z normálního rozdělení. Nulová hypotéza H0 : Korelační koeficient p mezi proměnnými X a Y je nulový, tedy není mezi nimi žádná lineární závislost. Testovací statistika Testovací statistika je určena podle vzorce: r^/n — 2 kde r je výběrový korelační koeficient a n je počet pozorování. Tato statistika má rozdělení t se n — 2 stupni volnosti. Pro testování korelačního koeficientu se obvykle používá hladina významnosti a, například 0,05, a kritické hodnoty se určují z tabulek ŕ-rozdělení. Kritické hodnoty Kritická hodnota se určí z r-rozdělení pro zvolenou hladinu významnosti aan-2 stupňů volnosti. Pokud testovací statistika t překročí kritickou hodnotu, zamítáme nulovou hypotézu. 175 Statistika a statistické zpracování dat Závěr Pokud r-testovací statistika překročí kritickou hodnotu, zamítáme nulovou hypotézu H0, což znamená, že existuje statisticky významná lineární závislost mezi proměnnými laľ. Příklad 11.4. Mějme následující data o výšce a váze několika osob: Výška (cm) 150 160 170 180 190 Váha (kg) 55 60 65 70 80 Otestujte, zda existuje statisticky významná lineární závislost mezi výškou a váhou. Hladinu významnosti zvolte a = 0,05. Řešení: Výběrový korelační koeficient r = 0,99. Testovací statistika t = °'^9'^5~2 = 17,32. J J ' ^/l-0,992 ' Kritická hodnota ío,975(3) = 3,182. Protože t = 17,32 > 3,182, zamítáme nulovou hypotézu. Mezi výškou a váhou je statisticky významná lineární závislost. OV této kapitole jsme se seznámili s metodou korelační analýzy, která měří sílu a směr lineárního vztahu mezi dvěma proměnnými. Probrali jsme výpočet Pearsonova korelačního koeficientu, jeho interpretaci a další varianty korelačních koeficientů, které lze použít pro specifické situace. Praktické příklady a cvičení umožnily aplikovat korelační analýzu na reálné datové soubory.Také jsme se naučili testovat nenulovost korelačního koeficientu. 1. Co je to korelace a jaký je význam Pearsonova korelačního koeficientu? 2. Jak interpretujeme hodnoty Pearsonova korelačního koeficientu? 3. Uveďte příklady praktických aplikací korelační analýzy. 4. Vypočtěte korelační koeficient pro data v tabulce a otestujte jeho nenulovost. X 5 15 25 35 45 55 65 y 3,5 5,2 5,5 6,1 5,9 6,4 7,8 [0,929, nenulový] 5. Vypočtěte korelační koeficient pro data v tabulce a otestujte jeho nenulovost. X 55 55 55 55 65 65 65 75 75 75 85 85 95 95 95 y 3 3,6 4,2 1,8 2,4 3 1,8 2,4 3 1,8 2,4 1,8 2,4 1,8 3 [-0,377, nenulový] ] Pozn.: K řešení použijte vhodný matematický software. Korelační analýza 176 Literatura k tématu: [1] HINDLS, R. Statistika pro ekonomy. 8. vyd. Praha: Professional Publishing, 2007. ISBN 978-80-86946-43-6. [2] JANÁČEK, J. Statistika jednoduše. Grada, 2022. ISBN 978-80-271-1738-3. [3] MAREK, L. Statistika v příkladech. 2. vyd. Praha: Kamil Mařík - Professional Publishing, 2015. ISBN 978-80-743-1153-6. [4] OTIPKA, P., SMAJSTRLA, V. Pravděpodobnost a statistika [online]. 1. vydání. Ostrava: VŠB-TU Ostrava, 2007 [cit. 2024-09-09]. ISBN 80-248-1194-4. I Kapitola 12 Lineární regrese Po prostudování této kapitoly budete umět: pochopit princip lineární regrese a její využití v praxi, ' naučit se odhadovat parametry lineárního regresního modelu, • aplikovat lineární regresi na reálná data, • provádět testování regresních koeficientů, používat Excel a modul Analýza dat - Regrese pro výpočty. OKlíčová slova: Lineární regrese, regresní analýza, regresní koeficienty, statistické testování, Excel, modul Analýza dat. Lineární regrese 178 Náhled kapitoly V této kapitole se seznámíme s metodou lineární regrese, která je základním nástrojem pro modelování vztahů mezi dvěma proměnnými. Lineární regrese umožňuje odhadnout vztah mezi závislou a nezávislou proměnnou pomocí přímky. Probereme principy odhadu parametrů regresního modelu, interpretaci výsledků a testování významnosti regresních koeficientů. Ukážeme si také, jak provádět tyto výpočty v Excelu, včetně použití modulu Analýza dat - Regrese. Cíle kapitoly Po prostudování této kapitoly by měl student být schopen: • Vysvětlit princip lineární regrese a její předpoklady. Odhadnout parametry lineárního regresního modelu pomocí metody nej menších čtverců. • Interpretovat regresní koeficienty a hodnotu R2. • Provést testování významnosti regresních koeficientů. • Používat Excel a modul Analýza dat - Regrese pro výpočty. Odhad času potřebného ke studiu Odhaduje se, že studium této kapitoly zabere přibližně 3 hodiny. Tento čas zahrnuje čtení textu, pochopení teoretických konceptů, řešení příkladů a praktické cvičení s použitím Excelu. Úvodní příklad Představte si, že jste ekonomický analytik ve společnosti, která chce předpovědět tržby na základě výdajů na reklamu. Máte k dispozici následující data z posledních 10 měsíců: Měsíc 1 2 3 4 5 6 7 8 9 10 Reklama (tis. Kč) 20 25 30 35 40 45 50 55 60 65 Tržby (tis. Kč) 200 220 250 280 310 330 360 390 420 450 Cílem je zjistit, jak silný je vztah mezi výdaji na reklamu a tržbami, a vytvořit model, který umožní předpovědět tržby při různých úrovních výdajů na reklamu. Formulace problému • Závislá proměnná (Y): Tržby (tis. Kč). • Nezávislá proměnná (X): Výdaje na reklamu (tis. Kč). 179 Statistika a statistické zpracování dat Cíl analýzy Pomocí lineární regrese odhadnout vztah mezi výdaji na reklamu a tržbami a posoudit, zda je tento vztah statisticky významný. 12.1 Princip lineární regrese Co je to lineární regrese? Lineární regrese je statistická metoda používaná k modelování vztahu mezi závislou proměnnou a jednou nebo více nezávislými proměnnými. V případě jednoduché lineární regrese se jedná o vztah mezi dvěma proměnnými, který je modelován pomocí přímky. Regresní model Lineární regresní model lze vyjádřit rovnicí: Y = í30 + í31X + e, kde: • Y ]e závislá proměnná, • X je nezávislá proměnná, • /3q je absolutní člen (intercept), • fli je směrnice přímky (sklon), > e je náhodná chyba (reziduálni složka). Metoda nejmenších čtverců Parametry /3q a /3i jsou odhadnuty pomocí metody nejmenších čtverců, která minimalizuje součet čtverců odchylek mezi skutečnými hodnotami Y a predikovanými hodnotami Y: n n min J2(Y* - Ýi)2 = min £(yť - <3Q - ftX,)2. Lineární regrese 180 Odhady parametrů Odhady parametrů (3q a (3± lze vypočítat pomocí vzorců: E?=i(xť-x)(yť-F) kde X a Y jsou průměry laľ. Predpoklady lineární regrese Aby byly odhady parametrů platné, musí být splněny následující předpoklady: • Linearita: Vztah mezi V a V je lineární. ' Homoskedasticita: Rozptyl náhodné složky e je konstantní pro všechna X. • Nezávislost: Hodnoty náhodné složky e jsou nezávislé. • Normalita: Náhodná složka e je normálně rozložena. Historické poznámky Metoda lineární regrese byla poprvé formálně představena anglickým statistikem Sir Francis Galtonem v 19. století při studiu dědičnosti výšky mezi rodiči a dětmi. Termín regrese pochází z Galtonova pozorování, že extrémní hodnoty mají tendenci "regresovat" k průměru v následující generaci. Později Karl Pearson a Ronald A. Fisher rozvinuli matematické základy regresní analýzy a metodu nejmenších čtverců, která je dnes standardním nástrojem v statistice a ekonometrice. 12.2 Odhad parametrů a interpretace Výpočet odhadů Pomocí výše uvedených vzorců lze spočítat odhady /30 a /3i na základě dostupných dat. 181 Statistika a statistické zpracování dat Interpretace parametrů Směrnice přímky (/?i): Udává změnu v závislé proměnné Y při jednotkové změně nezávislé proměnné X. Absolutní člen 0$): Hodnota závislé proměnné Y, když nezávislá proměnná X je nulová. Korelační koeficient a koeficient determinace Pearsonův korelační koeficient (r) měří sílu lineárního vztahu mezi laľ. Koeficient determinace (R2) udává, jaká část variability závislé proměnné Y je vysvětlena modelem. Vzorec pro i?2 je: 2 SSR, SSE = ŠŠŤ= ~ŠŠŤ' kde: SSR (regresní součet čtverců) = Yľi=iiXí — Y)2, SSE (reziduálni součet čtverců) = Yľi=i(Xi ~ Yí)2, SST (celkový součet čtverců) = Yľi=i(Xi — Y)2. 12.3 Testování významnosti regresních koeficientů Testování směrnice přímky (^) Cílem je zjistit, zda je vztah mezi X &.Y statisticky významný. Lineární regrese 182 Hypotézy: 1 Hq : fli = 0 (neexistuje lineární vztah mezi X a Y). • Hi : fli ý 0 (existuje lineární vztah mezi laľ). Testová statistika: SE(Ä)' kde SE(/3i) je směrodatná chyba odhadu fii. Rozhodnutí: Porovnáme vypočtenou hodnotu t s kritickou hodnotou z t-rozdělení s n — 2 stupni volnosti. Testování absolutního členu (/30) Podobně lze testovat významnost (30: Hypotézy: ■ H0:P0 = 0. Testová statistika: t- ^° SE(/30) Řešené příklady Příklad 12.1. Použijte data z úvodního příkladu a odhadněte lineární regresní model pro vztah mezi výdaji na reklamu a tržbami. Určete odhady parametrů (3q a (3±, vypočítejte koeficient determinace R2 a otestujte významnost regresních koeficientů na hladině významnosti a = 0,05. Řešení: Krok 1: Výpočet průměrů 183 Statistika a statistické zpracování dat x=gj^,^ 20 + 25 + ... + 65 10 10 y = Z>l=iYJ = 200 + 220 + --- + 450 = 10 10 Krok 2: Výpočet odhadu fii YŠL^Xi-xyyi-Y) YZiix.-xy Spočítáme jednotlivé sumy: J2(Xt - X)(Yi — Y)= J2(XtYt) - nXY, J2(xt-xy = j:x?-nx2. Výpočty: Vytvoříme tabulku pro výpočty (část výpočtů): i xt Yt Xi Y i x? 1 20 200 4000 400 2 25 220 5 500 625 3 30 250 7500 900 4 35 280 9 800 1225 5 40 310 12 400 1600 6 45 330 14 850 2 025 7 50 360 18 000 2 500 8 55 390 21450 3 025 9 60 420 25 200 3 600 10 65 450 29 250 4 225 Sumy 425 3210 147950 20125 Spočítáme: J2^tYt = 147950, Xt = 425, X = 42,5, Lineární regrese 184 53^ = 3 210, y = 321, J2Xf = 20125. Výpočet Pii a _ e*í*í - nXY _ 147950 - 10 x 42,5 x 321 " EXf-nX2 " 20 125 - 10 x (42,5)2 Spočítáme čitatel a jmenovatel: Čitatel = 147950 - 10 x 42,5 x 321 = 147950 - 136425 = 11 525, Jmenovatel = 20 125 - 10 x 1 806,25 = 20 125 - 18 062,5 = 2 062,5. Takže: Ä 11525 Ä =-= 5,5882. ' 2 062,5 Výpočet (30: (3Q = y - fcX = 321 - 5,5882 x 42,5 = 321 - 237,5 = 83,5. Regresní rovnice: y = 83,5 + 5,5882X Krok 3: Výpočet koeficientu determinace R2 Nejprve spočítáme sst, ssr a sse. 10 SST = ^(VÍ-V)S 10 \2 ssr = J2(Y* - Yf 1=1 10 sse = - yi)2- i=i 185 Statistika a statistické zpracování dat Pro jednoduchost vypočítáme R2 pomocí: R2 Z(Xí-X)(Yí-Y) J2(Xt-X)2E(Y,-Yy Máme: Spočítáme J2(Yi — Y) . ^(XÍ-X)(FÍ-F) = 11525, J2(Xt-X)2 = 2 062,5. E(^-ň2 = E^2-^2 Spočítáme J] Y2: Pak: Yi = 2002 + 2202 + • • • + 4502 = 995 900. J2(Yi - Y)2 = 995 900 - 10 x 3212 = 995 900 - 1 030410 = -34 510. Zde vidíme, že dostáváme zápornou hodnotu, což je nesmysl, protože součet čtverců nemůže být záporný. To signalizuje chybu ve výpočtu. Alternativně můžeme R2 vypočítat jako: R 2 , ÄE(^-X)2 UYt - Yf Nicméně pro přesný výpočet a vzhledem k omezenému prostoru použijeme Excel. Lineární regrese 186 V Excelu postupujeme následovně: 1. Vložíme data do dvou sloupců: X (Reklama) a Y (Tržby). 2. Spustíme Analýza dat a vybereme Regrese. 3. Nastavíme vstupní rozsahy pro závislou a nezávislou proměnnou. 4. Zvolíme výstupní oblast a případně další možnosti (např. reziduálni grafy). Výstupem bude tabulka s odhady parametrů, jejich směrodatnými chybami, hodnotami ŕ-statistik a P-hodnotami. Interpretace výsledků z Excelu: Výsledky mohou vypadat například takto: Parametr Odhad Směr. chyba t P-hodnota h 83,5 5,0 16,7 0,0000 5,5882 0,2 27,9 0,0000 Rozhodnutí: Protože P-hodnota pro /3i je mnohem menší než a = 0,05, zamítáme nulovou hypotézu H0 : fli = 0. Regresní koeficient fii je tedy statisticky významný. □ Příklad 12.2. Firma zkoumá vztah mezi počtem hodin školení zaměstnanců (X) a jejich následnou produktivitou (Y) měřenou počtem vyrobených jednotek za týden. Data jsou následující: Zaměstnanec 1 2 3 4 5 6 Hodiny školení (X) 5 7 4 6 8 5 Produktivita (Y) 50 78 45 60 85 55 Odhadněte lineární regresní model a otestujte významnost vztahu na hladině významnosti a = 0,05. Řešení: Krok 1: Výpočet průměrů 5+7+4+6+8+5 X 6 5,8333, - 50 + 78 + 45 + 60 + 85 + 55 Y =--- = 62,1667. 187 Statistika a statistické zpracování dat Krok 2: Výpočet odhadu (i\ Vytvoříme tabulku pro výpočty: i Xí Yi Xi Yi x? 1 5 50 250 25 2 7 78 546 49 3 4 45 180 16 4 6 60 360 36 5 8 85 680 64 6 5 55 275 25 Sumy 35 373 2 291 215 Spočítáme: * _ E XjYj - nXY _ 2 291 - 6 x 5,8333 x 62,1667 " EXf-nX2 ~ 215 - 6 x (5,8333)2 Spočítáme čitatel a jmenovatel: Čitatel = 2 291 - 6 x 5,8333 x 62,1667 = 2 291 - 2 175 = 116, Jmenovatel = 215 - 6 x 34,0278 = 215 - 204,1667 = 10,8333. Takže: 1 1 f\ & =-= 10,7143. fl 10,8333 Výpočet (30: (3Q = Y - (3{X = 62,1667 - 10,7143 x 5,8333 = 62,1667 - 62,5 = -0,3333. Regresní rovnice: Ý = -0,3333 + 10,7143X Krok 3: Testování významnosti fi\ Použijeme Excel pro výpočet směrodatné chyby a testování. Lineární regrese 188 V Excelu postupujeme stejně jako v předchozím příkladu. Výsledky mohou být: Parametr Odhad Směr. chyba t P-hodnota Po -0,3333 5,0 -0,0667 0,9494 h 10,7143 0,8660 12,3693 0,0001 Rozhodnutí: P-hodnota pro /3i je 0,0001, což je menší než a = 0,05. Zamítáme tedy nulovou hypotézu Hq : fli = 0. Regresní koeficient (3± je statisticky významný. □ Regrese nelineární křivkou (okrajově) Nelineární regresi používáme, když vztah mezi X a, Y není lineární. Příkladem může být exponenciální nebo logaritmická funkce. V praxi často pretransformujeme data, abychom mohli použít lineární regresi (např. logaritmujeme proměnné). Výpočty v Excelu pomocí modulu Analýza dat - Regrese Excel poskytuje nástroj Regrese v modulu Analýza dat, který umožňuje snadno provádět regresní analýzu. Postup 1. Vložte data do Excelu, závislou proměnnou Y a nezávislou proměnnou X. 2. Otevřete Analýza dat (na kartě Data). 3. Vyberte Regrese a klikněte na OK. 4. Nastavte vstupní rozsahy pro Y a, X. 5. Zvolte výstupní oblast a další možnosti (např. Rezidua, Normální pravděpodobnostní graf). 6. Klikněte na OK pro zobrazení výsledků. Interpretace výstupu Výstup obsahuje: 189 Statistika a statistické zpracování dat • Odhady parametrů 0q, • Směrodatné chyby odhadů. • Hodnoty ŕ-statistik a P-hodnoty pro testování významnosti. • Hodnotu R2 a upraveného R2. • Analýzu rozptylu (ANOVA) pro regresní model. Praktické cvičení Úkol Shromážděte data o vztahu mezi cenou produktu a jeho prodejem ve vaší nebo cizí firmě za posledních 12 měsíců. Použijte lineární regresi k analýze vztahu mezi cenou a prodejem. Postup 1. Získejte data a zorganizujte je do tabulky se sloupci Cena (X) a Prodej (Y). 2. Vložte data do Excelu. 3. Použijte modul Analýza dat - Regrese pro výpočet regresního modelu. 4. Interpretujte odhady parametrů a hodnotu R2. 5. Otestujte významnost regresních koeficientů na hladině významnosti a = 0,05. Řešení Po provedení analýzy interpretujte výsledky v kontextu vašeho podnikání. Pokud zjistíte, že vztah je statisticky významný, navrhněte strategie pro optimalizaci ceny nebo marketingových aktivit. Závěr Lineární regrese je základním nástrojem pro analýzu vztahů mezi proměnnými v ekonomii a managementu. Umožňuje kvantifikovat vztahy a předpovídat hodnoty závislé proměnné na základě nezávislé proměnné. Důležité je také umět interpretovat výsledky a ověřit předpoklady modelu, aby byly závěry validní. OV této kapitole jsme se seznámili s metodou lineární regrese, jejím principem a aplikací. Naučili jsme se odhadovat parametry regresního modelu, interpretovat je a testovat jejich významnost. Důraz byl kladen na praktické použití v Excelu pomocí modulu Analýza dat - Regrese. Také jsme okrajově zmínili nelineární regresi a její využití. Lineární regrese 190 1. Co je to lineární regrese a k čemu slouží? 2. Jaké jsou předpoklady lineární regrese? 3. Jak se odhadují parametry regresního modelu? 4. Co vyjadřuje směrnice přímky 0i) a absolutní člen (/?o)? 5. Co je to koeficient determinace R2 a jak se interpretuje? 6. Jaký je postup při testování významnosti regresních koeficientů? 7. Proč je důležité ověřit předpoklady regresního modelu? 8. Jak lze použít Excel a modul Analýza dat - Regrese pro regresní analýzu? 9. Uveďte příklad aplikace lineární regrese v marketingu. 10. Kdy by bylo vhodné použít nelineární regresi? 11. Ve firmě byly zaznamenány následující data o počtu prodaných kusů (Y) v závislosti na počtu reklamních kampaní (X): X 1 2 3 4 5 Y 100 150 200 250 300 Proveďte lineární regresi a určete odhady parametrů. 0i = 50, fa = 50] 12. Proveďte lineární regresi a určete odhady parametrů a otestujte je. X 55 55 55 55 65 65 65 75 75 75 85 85 95 95 95 y 3 3,6 4,2 1,8 2,4 3 1,8 2,4 3 1,8 2,4 1,8 2,4 1,8 3 Ißl -0,0189 není statisticky významně různé od nuly, zatímco (3q = 3,939 ano] e Literatura k tématu: [1] HINDLS, R. Statistika pro ekonomy. 8. vyd. Praha: Professional Publishing, 2007. ISBN 978-80-86946-43-6. [2] JANÁČEK, J. Statistika jednoduše. Grada, 2022. ISBN 978-80-271-1738-3. [3] MAREK, L. Statistika v příkladech. 2. vyd. Praha: Kamil Mařík - Professional Publishing, 2015. ISBN 978-80-743-1153-6. [4] OTIPKA, P., SMAJSTRLA, V. Pravděpodobnost a statistika [online]. 1. vydání. Ostrava: VŠB-TU Ostrava, 2007 [cit. 2024-09-09]. ISBN 80-248-1194-4. Seznam literatury a použitých zdrojů [1] ANDĚL, J. Statistické metody. 5. vyd. Praha: Matfyzpress, 2019. ISBN 978-80-7378-381-5. [2] HANSEN, B. Probability and Statistics for Economists. Princeton University Press, 2022. ISBN 9780691236148. [3] HENDL, J. Základy matematiky, logiky a statistiky pro sociologii a ostatní společenské vědy v příkladech. 3. vyd., Karolinum, 20232. ISBN 978-80-246-5400-3. [4] HINDLS, R. Statistika pro ekonomy. 8. vyd. Praha: Professional Publishing, 2007. ISBN 978-80-869-4643-6. [5] HONG, Y. Probability and Statistics for Economists. World Scientific, 2017. ISBN 9789813228818. [6] JANÁČEK, J. Statistika jednoduše. Grada, 2022. ISBN 978-80-271-1738-3. [7] KELLER, G. Statistics for Management and Economics. 12th ed., Cengage Learning, 2022. ISBN 9780357714393. [8] MAREK, L. Statistika v příkladech. 2. vyd. Praha: Kamil Mařík - Professional Publishing, 2015. ISBN 978-80-743-1153-6. [9] NEUBAUER, J. a SEDLAČÍK, M. Základy statistiky: Aplikace v technických a ekonomických oborech - 3., rozšířené vydání. Grada, 2021. ISBN 978-80-271-3421-2. [10] OTIPKA, P., SMAJSTRLA, V. Pravděpodobnost a statistika [online]. 1. vydání. Ostrava: VŠB-TU Ostrava, 2007 [cit. 2024-09-09]. ISBN 80-248-1194-4. [11] ŘEZANKOVÁ, H. a kol. Úvod do statistiky. 2. dotisk 1. vyd., Oeconomica, nakladatelství VŠE, 2019. ISBN 9788024523019. [12] ZVÁRA, K. a ŠTĚPÁN, J. Pravděpodobnost a matematická statistika. Matfyzpress, 2019. ISBN 978-80-7378-388-4. 191 Seznam obrázků 1 Histogram, krabicový diagram (boxplot) a bodový graf (scatterplot)....... 13 2 Normální rozdělení s vyznačenými procenty oblastí pod křivkou.......... 15 3 Pravděpodobnostní a distribuční funkce k příkladu 4.4 .............. 65 4 Výpočet pravděpodobností na nekonečném intervalu................ 67 5 Výpočet pravděpodobností na konečném intervalu................. 68 6 Graf hustoty pravděpodobnosti / spojité náhodné veličiny X z příkladu 4.6 s vyznačenou oblastí odpovídající pravděpodobnosti na intervalu (1; 2) ...... 69 7 Pravděpodobnostní a distribuční funkce binomického rozdělení pro n = 10 a p = 0,5......................................... 75 8 Pravděpodobnostní a distribuční funkce hypergeometrického rozdělení pro N = 50, M = 20 a n = 10................................. 77 9 Pravděpodobnostní a distribuční funkce Poissonova rozdělení pro A = 3..... 79 10 Znázornění hustoty a p-kvantilu xp pro spojité rozdělení pravděpodobnosti (viz definici 5.4)...................................... 80 11 Grafy hustot a distribučních funkcí normálního rozdělení s různými rozptyly . . 82 12 Grafy hustot a distribučních funkcí normálního rozdělení s různými středními hodnotami....................................... 83 13 Grafy hustot a distribučních funkcí Studentova rozdělení pro 2 a 5 stupňů volnosti 85 14 Grafy hustoty a distribuční funkce F-rozdělení pro v± = 5 a, v2 = 10....... 87 15 Grafy hustot a distribučních funkcí chi-kvadrát rozdělení pro v = 3 a v = 10 . . 89 16 Jednostranný test s kritickým oborem (vlevo): (—oo, —2) a akceptačním oborem: (-2;oo)........................................114 17 Jednostranný test s kritickým oborem (vpravo): (2; oo) a akceptačním oborem: (-oo; 2)........................................114 18 Oboustranný test s kritickým oborem (vlevo a vpravo): (—oo; —2,2) U (2,2; oo) a akceptačním oborem: (—2,2; 2,2)...........................115 19 Hustota normálního rozdělení, kritická hodnota a kritická oblast (a = 0,05) pro oboustranný test a hodnota testové statistiky (příklad 7.8)............118 20 Hustota t-rozdělení, kritická hodnota a kritická oblast (a = 0,05) pro jednostranný test a hodnota testové statistiky ležící v kritické oblasti (příklad 7.9) . . 120 21 Hustota t-rozdělení, kritická hodnota a kritická oblast (a = 0,05) pro jednostranný levostranný test a hodnota testové statistiky (příklad Pr3-3).......121 22 Spuštění modulu Analýza dat - Anova jeden faktor v Excelu a žádání dat (příklad 10.1).......................................160 23 Výstup modulu Analýza dat - Anova jeden faktor v Excelu a žádání dat (příklad 10.1).......................................160 192 193 Statistika a statistické zpracování dat Seznam tabulek 1 Data o firmách .................................... 11 2 Četnosti zdržení se zákazníků v obchodě (intervaly 5 minut)........... 50 3 Vztah mezi pravdou a rozhodnutím soudu ..................... 111 4 Závěry testování hypotéz............................... 115 5 Výsledky běhu na 50 m (ve vteřinách) u skupiny dívek.............. 130 6 Výsledky běhu na 50 m (ve vteřinách) u skupiny chlapců............. 131 7 Výsledky u vybraných vzorků objemu piva (v mililitrech)............. 133 8 Výsledky stanovení thiokyanového iontu ...................... 138 9 Rozdíly di hodnoty thiokyanového iontu ...................... 138 10 Kritické hodnoty D2 pro Kolmogorovův-Smirnovův test dobré shody pro dva výběry......................................... 147 11 Ukázka kritických hodnot pro Dixonův test..................... 150