STATISTIKA 2 Statistika a statistické zpracování dat Blok 1-1 in Fišer 8. listopadu 2024 Jiří Fišer (MVŠO) YSTA2-01-1 8. listopadu 2024 1/40 Vítejte ve světě statistiky Předmět Statistické zpracování dat je určen pro studenty navazujícího studia. • Naučíte se základní teoretické pojmy a koncepty. • Zaměříme se na praktické aplikace nezbytné pro analýzu a zpracování dat. • Předmět vám přinese užitečné dovednosti do praxe v oblastech jako ekonomie, management a marketing. Jiří Fišer (MVŠO) YSTA2-01-1 8. listopadu 2024 2/40 Struktura skript Kapitoly jsou navrženy s logickou návazností: 9 Základní pojmy statistiky - Přehled klíčových pojmů jako náhodný jev, náhodná veličina a pravděpodobnost. • Zpracování dat - Postupy pro analýzu dat z reálného světa, využití popisné statistiky. 9 Matematická statistika - Odhady parametrů, intervalové odhady a závěry o populaci. • Testování hypotéz - Parametrické a neparametrické testy jako základ každého výzkumu. o Regresní a korelační analýza - Predikce a modelování vztahů mezi proměnnými. Jiří Fišer (MVŠO) YSTA2-01-1 8. listopadu 2024 3/40 Co vás v kapitolách čeká Každá kapitola obsahuje: • Teoretický výklad - Základní pojmy a metody. • Řešené příklady - Praktické příklady pro procvičení. 9 Rámečky - Důležité body k zapamatování. • Shrnutí - Připomenutí hlavních bodů. • Kontrolní otázky - Pomocí otázek si ověříte porozumění látce. Jiří Fišer (MVSO) YSTA2-01-1 8. listopadu 2024 4/40 Praktická aplikace a software • Statistika je klíčová pro analýzu dat v ekonomii a managementu. • Důraz na praktické úlohy a výpočty. • Statistický software jako Excel vám usnadní řešení úloh a získá klíčové dovednosti pro praxi. Jiří Fišer (MVSO) YSTA2-01-1 8. listopadu 2024 5/40 Motivace a podpora • Statistika jako výzva a nástroj pro lepší porozumění datům. 9 Příklady připraví na reálné situace. o Chceme vás podpořit, aby statistika nebyla překážkou, ale užitečným nástrojem. Základní statistické pojmy - Cíle kapitoly Cíle: • Představit základní principy a historii statistiky • Rozlišit mezi deskriptívni a inferenční statistikou a Definovat základní pojmy: populace, výběr, typy proměnných • Porozumět měřítkům proměnných, centrální tendenci, variabilitě • Rozlišit korelaci a kauzalitu Uvod do statistiky Statistika: věda o sběru, analýze a interpretaci dat. Použití v rozhodování, analýze trendů, predikcích. Dva hlavní typy statistiky: • Popisná statistika: sumarizace dat, grafy, výpočty (např. průměr, medián) * Inferenční statistika: závěry o populaci na základě vzorků Jiří Fišer (MVŠO) YSTA2-01-1 8. listopadu 2024 8/40 Populace a výběr Populace: celkový soubor jednotek, o kterém zjišťujeme informace (např. obyvatelé, výrobky). Výběr (vzorek): podmnožina populace pro analýzu. • Náhodný výběr: stejná šance pro všechny členy • Výběrová chyba: rozdíl mezi výběrovými výsledky a celkovou populací Jiří Fišer (MVŠO) YSTA2-01-1 8. listopadu 2024 9/40 Typy proměnných Kvalitativní (kategorické): nelze číselně měřit, mají kategorie. • Nominální: bez přirozeného pořadí (např. barvy) • Ordinální: s přirozeným pořadím (např. spokojenost: nízká, střední, vysoká) Kvantitativní (numerické): měřitelné číselně. • Diskrétní: určité hodnoty, obvykle celá čísla (např. počet dětí) 9 Spojité: libovolné hodnoty v intervalu (např. výška) Jiří Fišer (MVŠO) YSTA2-01-1 8. listopadu 2024 10/40 Měřítka měření proměnných • Nominální škála: kategorie bez pořadí (např. barvy) • Ordinální škála: kategorie s pořadím (např. spokojenost: nízká, střední, vysoká) a Intervalová škála: hodnoty s pořadím, bez absolutní nuly (např. teplota v °C) • Poměrová škála: hodnoty s absolutní nulou (např. délka, váha) Jiří Fišer (MVSO) YSTA2-01-1 8. listopadu 2024 11/40 Příklad: Typy proměnných Tabulka dat o firmách: Firma Počet zaměstnanců Roční obrat (mil.) Obor A 120 45.6 IT B 300 120.8 Stavebnictví C 50 15.2 Obchod D 450 220.5 IT E 90 30.1 Zdravotnictví Interpretace: • Firma: nominální proměnná • Počet zaměstnanců: kvantitativní diskrétní • Roční obrat: kvantitativní spojitá • Obor: nominální proměnná Jiří Fišer (MVŠO) YSTA2-01-1 8. listopadu 2024 12/40 Popisná statistika • Popisná statistika se zaměřuje ► na sumarizaci ► a popis základních charakteristik dat. • Pomáhá nám porozumět tomu, ► jaká data máme k dispozici, ► a nabízí jednoduché nástroje pro jejich prezentaci. Jiří Fišer (MVŠO) YSTA2-01-1 8. listopadu 2024 13/40 Míry centrální tendence Míry centrální tendence popisují střední hodnotu datového souboru: • Průměr: Součet všech hodnot dělený počtem hodnot, citlivý na extrémní hodnoty. • Medián: Prostřední hodnota v seřazeném datovém souboru, méně citlivý na extrémy. • Modus: Hodnota, která se vyskytuje nejčastěji, použitelný i pro kvalitativní proměnné. Jiří Fišer (MVŠO) YSTA2-01-1 8. listopadu 2024 14/40 Míry variability Míry variability udávají, jak se hodnoty v datovém souboru od sebe liší: • Rozptyl: Průměrná čtvercová odchylka hodnot od průměru. • Směrodatná odchylka: Odmocnina z rozptylu, měří průměrnou odchylku od průměru. • Variační koeficient: Poměr směrodatné odchylky k průměru, umožňuje porovnání variability mezi datovými soubory. Jiří Fišer (MVŠO) YSTA2-01-1 8. listopadu 2024 15/40 Distribuce dat • Distribuce dat popisuje ► četnost výskytu jednotlivých hodnot v datovém souboru. a Grafické a numerické popisy distribuce nám pomáhají pochopit ► tvar, ► centrální tendenci ► a rozptyl dat. S1 Jiří Fišer (MVŠO) YSTA2-01-1 8. listopadu 2024 16/40 Grafické znázornění distribuce • Histogram: Ukazuje četnost hodnot v intervalech, vhodný pro kvantitativní data. • Krabicový graf (boxplot): Ukazuje rozložení dat pomocí pěti čísel, identifikuje odlehlé hodnoty. 9 Bodový diagram (scatter plot): Zobrazuje vztah mezi dvěma proměnnými, užitečný pro analýzu korelace. 10 5 -0 - i A B Obrázek: Histogram, krabicový diagram (boxplot) a bodový graf (scatterplot) Jiří Fišer (MVŠO) YSTA2-01-1 8. listopadu 2024 17/40 var distribuce • Symetrická distribuce: -^_l_\^Data jsou symetrická kolem centrální hodnoty (např. normální rozdělení). 9 Pravostranné šikmá: J ^— Dlouhý pravý ocas, většina dat vlevo. • Levostranně šikmá:__<^\. Dlouhý levý ocas, většina dat vpravo. • Bimodální: /v/v Dva vrcholy, data mohou pocházet ze dvou skupin. • Špičatost (kurtosis): Míra „ostrého" nebo „plochého" vrcholu. Jiří Fišer (MVŠO) YSTA2-01-1 8. listopadu 2024 18/40 Normální rozdělení Normální rozdělení (Gaussovo) má charakteristický zvonovitý tvar: • Symetrie kolem průměru. • Průměr, medián a modus jsou stejné. 9 Přibližně 68% hodnot je v intervalu jedné směrodatné odchylky od průměru, 95% v intervalu dvou a 99,7% ve třech směrodatných odchylkách. ji — Za jji — 2(j ji —a M ii+c /i+2a 11+3(7 Jiří Fišer (MVŠO) YSTA2-01-1 8. listopadu 2024 19/40 Základy pravděpodobnosti • Pravděpodobnost je nástroj, který nám ► pomáhá kvantifikovat nejistotu. • V rámci statistiky je klíčová ► pro odhadování výsledků a rozhodování na základě dostupných dat Jiří Fišer (MVŠO) YSTA2-01-1 8. listopadu 2024 20/40 Definice pravděpodobnosti Pravděpodobnost události vyjadřuje, jak často bychom očekávali, že tato událost nastane při opakovaném experimentu za stejných podmínek. P(A) e [0,1] • P{A) — 1: událost A nastane jistě • P{A) — 0: událost A nenastane nikdy Jiří Fišer (MVŠO) YSTA2-01-1 8. listopadu 2024 21/40 Základní pravidla pravděpodobnosti o Pravděpodobnost komplementu: P{~^A) — 1 — P{A) • Pravděpodobnost sjednocení: P (A U B) = P (A) + P(B)- P (A n B) • Podmíněná pravděpodobnost: P(A\B) = P^of ^ Jiří Fišer (MVŠO) YSTA2-01-1 8. listopadu 2024 22/40 Zákon velkých čísel Zákon velkých čísel vysvětluje, že • průměr výsledků z mnoha pokusů se blíží očekávané hodnotě. Čím více pokusů, tím bližší průměr skutečné hodnotě. Příklad: o Při házení mincí je pravděpodobnost panny 0,5. • Pokud hodíme mincí jen desetkrát, může podíl pannen vybočovat, • ale při tisíci hodech se podíl přiblíží 50%. • Tento zákon umožňuje v inferenční statistice odhadovat parametry populace na základě velkého vzorku. Jiří Fišer (MVŠO) YSTA2-01-1 8. listopadu 2024 23/40 Centrální limitní věta Centrální limitní věta říká, že • průměry vzorků z libovolné populace budou mít přibližně normální rozdělení, • pokud je vzorek dostatečně velký. Příklad: • I když populace (např. věk lidí) ► není normálně rozdělena, • průměry dostatečně velkých vzorků z této populace ► budou mít normální rozdělení. 9 Centrální limitní věta umožňuje používat normální rozdělení při analýze dat, což je základ pro testování hypotéz a výpočet intervalů spolehlivosti. Jiří Fišer (MVŠO) YSTA2-01-1 8. listopadu 2024 24/40 Testovaní hypotéz (úvod) • Testování hypotéz je ► klíčovou metodou inferenční statistiky, • která umožňuje rozhodnout, zda existuje dostatek důkazů ► k zamítnutí nebo přijetí určitého tvrzení o populaci ► na základě vzorku dat. Jiří Fišer (MVŠO) YSTA2-01- 8. listopadu 2024 25/40 Základní pojmy v testovaní hypotéz • Nulová hypotéza (Hq): Mezi proměnnými nebo skupinami neexistuje žádný vztah nebo rozdíl. Testujeme tuto hypotézu a snažíme seji zamítnout. • Alternativní hypotéza (Ha): Opačná hypotéza, tvrdí, že mezi proměnnými existuje vztah nebo rozdíl mezi skupinami. Jiří Fišer (MVŠO) YSTA2-01-1 8. listopadu 2024 26/40 Kroky při testovaní hypotéz Testování hypotéz obvykle zahrnuje následující kroky: O Stanovení hypotéz: Formulace nulové a alternativní hypotézy. O Výběr testu: Volba vhodného statistického testu (napr. t-test, chi-kvadrát test). O Stanovení hladiny významnosti (a). Typicky 0,05 (5% šance na chybu I. druhu). O Výpočet testovací statistiky: Vypočítání hodnoty statistiky ze vzorku dat. O Rozhodnutí: Porovnání testovací statistiky s kritickou hodnotou nebo použití p-hodnoty k rozhodnutí o zamítnutí či přijetí Hq. Jiří Fišer (MVŠO) YSTA2-01-1 8. listopadu 2024 27/40 Chyby při testovaní hypotéz Existují dva druhy chyb: • Chyba I. druhu: Zamítnutí pravdivé nulové hypotézy (falešně pozitivní). • Chyba II. druhu: Nepřijetí nepravdivé nulové hypotézy (falešně negativní). Rozhodnutí je vždy činěno na základě dat a existuje riziko chyb. Jiří Fišer (MVŠO) YSTA2-01-1 8. listopadu 2024 28/40 Příklad: Chyby při testování hypotéz Testujeme účinnost nového léku: • Hq\ Lék nemá účinek. • H/\\ Lék má účinek. • Chyba I. druhu: Zamítnutí Hq, tvrzení o účinnosti léku, přestože účinný není. • Chyba II. druhu: Nepřijetí Ha, tvrzení o neúčinnosti léku, přestože účinný je. Cílem je minimalizovat pravděpodobnost obou chyb, ale riziko chyb vždy existuje. Jiří Fišer (MVŠO) YSTA2-01-1 8. listopadu 2024 29/40 Intervaly spolehlivosti • Interval spolehlivosti (confidence interval) je interval, který ► s určitou pravděpodobností obsahuje skutečnou hodnotu parametru populace. • Poskytuje informace ► o bodovém odhadu parametru ► a přesnosti tohoto odhadu. Jiří Fišer (MVŠO) YSTA2-01-1 8. listopadu 2024 30/40 Definice intervalu spolehlivosti Interval spolehlivosti je založen na bodovém odhadu parametru Cl = 0-A,0 +A kde: • 6 je bodový odhad (např. průměr), • A je poloměr intervalu pro zvolenou úroveň spolehlivosti (např. pro 95%). Úroveň spolehlivosti: Nejběžnější úrovně spolehlivosti jsou 90%, 95% a 99% Jiří Fišer (MVŠO) YSTA2-01-1 8. listopadu 2024 31 /40 Interpretace intervalu spolehlivosti Interval spolehlivosti udává možné hodnoty skutečného parametru. • Příklad: Interval pro průměr [45,55] znamená, že s 95% jistotou leží skutečný průměr mezi 45 a 55. o Vyšší spolehlivost vede k širším intervalům, nižší spolehlivost k užším intervalům. Jiří Fišer (MVŠO) YSTA2-01-1 8. listopadu 2024 32/40 Korelace a kauzalita Korelace a kauzalita se týkají vztahu mezi dvěma proměnnými: • Korelace: Měří sílu a směr lineárního vztahu. • Kauzalita: Příčinný vztah, kdy změna jedné proměnné způsobuje změnu druhé. Jiří Fišer (MVŠO) YSTA2-01-1 8. listopadu 2024 33/40 Korelace Pearsonův korelační koeficient měří lineární vztah mezi dvěma proměnnými, nabývá hodnot od -1 do 1: • Hodnota blízká 1: silná pozitivní korelace (obě proměnné rostou). • Hodnota blízká -1: silná negativní korelace (jedna roste, druhá klesá). • Hodnota blízká 0: žádný lineární vztah. Jiří Fišer (MVŠO) YSTA2-01-1 8. listopadu 2024 34/40 Kauzalita Kauzalita znamená, že změna jedné proměnné způsobuje změnu druhé. • Na rozdíl od korelace vyžaduje kauzalita další důkazy, aby bylo možné potvrdit příčinný vztah. Korelace neznamená kauzalitu: • Silná korelace mezi dvěma proměnnými neznamená, že jedna způsobuje změnu druhé. Tento koncept je důležitý pro regresní analýzu a analýzu příčinných vztahů. Jiří Fišer (MVŠO) YSTA2-01-1 8. listopadu 2024 35/40 Historie a význam statistiky Starověk: ■v • První formy statistiky se objevily před více než 4 000 lety v Cíne a Egyptě, kde byly vedeny soupisy obyvatelstva a majetku. • Tyto záznamy sloužily k efektivnějšímu výběru daní a organizaci vojenských sil. • V antickém Řecku a Římě se statistika používala při správě měst a říší. Středověk: • Statistika byla zaměřena na administrativní a fiskální potřeby. • V 11. století byl v Anglii zaveden „Domesday Book", což byl katastrální soupis pro účely zdanění. Jiří Fišer (MVŠO) YSTA2-01-1 8. listopadu 2024 36/40 Historie a význam statistiky 18. století: • Statistika se začala rozvíjet jako vědecký obor zaměřený na popis stavu státu. • Gottfried Achenwall (1719-1772): zakladatel moderní statistiky, začal používat pojem „statistika" v moderním smyslu jako věda o státu. 19. století: 9 Statistika se rozvíjí jako matematická disciplína s teorií pravděpodobnosti. • Pierre-Simon Lapiace (1749-1827): rozvinul teorii pravděpodobnosti. • Carl Friedrich Gauss (1777-1855): vyvinul metodu nejmenších čtverců a přispěl k normálnímu rozdělení. Jiří Fišer (MVŠO) YSTA2-01-1 8. listopadu 2024 37/40 Historie statistiky - 20. století 20. století: o Sir Ronald A. Fisher (1890-1962): přinesl inovace v návrhu experimentů, analýze rozptylu a teorii hypotéz. • Jerzy Neyman (1894-1981) a Egon Pearson (1895-1980): vyvinuli Neyman-Pearsonovu teorii testování hypotéz. 9 Rozvoj výpočetní techniky umožnil složité statistické analýzy. Jiří Fišer (MVŠO) YSTA2-01-1 8. listopadu 2024 38/40 Historie statistiky - Současnost Současnost: • Statistika je klíčová v mnoha oblastech života - ve vědě, podnikání, správě, medicíně. • S nárůstem big data je statistika nezbytná pro nacházení vzorců a trendů. 9 Významní moderní statistici: ► John Tukey (1915-2000): průzkumná analýza dat. ► William Feller (1906-1970): teorie pravděpodobnosti a její aplikace. Jiří Fišer (MVŠO) YSTA2-01-1 8. listopadu 2024 39/40 Závěr - Historie a význam statistiky 9 Historický vývoj ukazuje, jak statistika přerostla z nástroje pro správu státu na nezbytný vědecký obor pro rozhodování a analýzu. 9 Díky práci mnoha významných osobností se statistika stala základním nástrojem ve vědě i praxi. Jiří Fišer (MVŠO) YSTA2-01-1 8. listopadu 2024 40/40