zpracovaní dat základními statistickými metodami in Fišer 18. března 2024 Obsah O Úvod do statistiky O Popisná statistika ► Typy statistických znaků ► Bodové a intervalové rozložení četností ► Grafické znázornění četností ► Míry polohy a variability ► Krabicový diagram Jiří Fišer (MVŠO) XSZD-06 3.1 Uvod do statistiky Pravděpodobnost vs statistika • Pravděpodobnost: matematický model reality ► idealizovaný, abstraktní model ► pracuje s jednou nebo více náhodnými veličinami, jejichž rozdělení je známo ► z podstaty věci nepozorovatelný, jde jen o naši představu * Statistika: pozorování (měření) hodnot nějaké veličiny ► zkoumá jevy rozsáhlém souboru případů a činí o nich závěry pomocí statistické indukce ► zobecňuje výsledky na rozsáhlejší soubor než je ten, ze kterého byly skutečně odvozeny ► žádný konečný náhodný výběr nemůže poskytnout úplnou informaci o rozdělení pravděpodobností náhodné veličiny - máme jen odhady ► příklady: * Mají děti/mladiství, jejichž otec nebo matka kouří, horší fungování plic než jejich vrstevníci, jejichž rodiče kteří nekouří? * Mají kuřáci větší riziko na onemocnění rakovinou než nekuřáci? * Jak dlouho obvykle bezporuchově funguje počítač daného typu? Jiří Fišer (MVŠO) XSZD-06 18.3.2024 3/49 Data • pozorování, která činíme kvůli zodpovězení položené otázky • matematicky: data = realizace náhodné veličiny • datové tabulky ► řádky: pozorování týkající se nezávislých subjektů náhodného výběru (osob, experimentů,...) ► sloupce: jednotlivé měřené veličiny o software: např. databázové systémy, Excel, • statistický software: SAS, Statistica, SPSS, R, Python, ... Jiří Fišer (MVŠO) XSZD-06 3.2 Popisná statistika • pojmový aparát statistiky • základní nástroj analýzy dat • prostředky pro prezentaci dat a výsledků Jiří Fišer (MVŠO) XSZD-06 Základní pojmy • Statistická jednotka: objekt, který chceme zkoumat např. osoby, domácnosti, firmy, organismy, obce, kraje • Statistický soubor: ► základní: množina všech statistických jednotek, jejichž vlastnosti chceme poznat ► výběrový: množina skutečně vyšetřovaných statistických jednotek (tzv. náhodný výběr) • Statistický znak: vlastnost zjišťovaná na každé statistické jednotce (tj. náhodná veličina) např. pohlaví, výška, hmotnost, počet dětí, barva očí, dopravní prostředek, počet úrazů, jméno, věk • Rozsah souboru: počet zkoumaných statistických jednotek Jiří Fišer (MVŠO) XSZD-06 Typy statistických znaků • kvalitativní: slovní, kategoriální např. pohlaví, barva očí, dopravní prostředek • kvantitativní: číselné, numerické ► spojité: např. výška, hmotnost, věk ► diskrétní: počet dětí, počet úrazů • alternativní: 2 hodnoty • množné: 3 a více hodnot Jiří Fišer (MVŠO) XSZD-06 Jednorozměrný statistický soubor Označení: 9 {ei,..., sn} výběrový soubor • X statistický znak • Xj hodnota znaku X na objektu e-h i = 1,..., n • (x-i,..., xn) datový soubor • (X(-|),..., X(n)) uspořádaný datový soubor, tj. *(1) < • • • < X(n) • (X[-|j,..., X[rj) vektor variant znaku X, tj. ^ Jiří Fišer (MVŠO) XSZD-06 Rozložení četností - slouží ke zpřehlednění datového souboru • Bodové: ► diskrétní znak s malým počtem variant ► četnost přiřazujeme jednotlivým variantám • Intervalové: ► diskrétní znak s velkým počtem variant ► spojitý znak ► četnost přiřazujeme třídícím intervalům Jiří Fišer (MVŠO) XSZD-06 Bodové rozložení četností • (Absolutní) četnost varianty x^y. rij (počet výskytů hodnoty x^) • Relativní četnost varianty x^y. pj = % (empirická pravděpodobnostní funkce) • (Absolutní) kumulativní četnost prvních j variant: Nj = n-\ H-----h rij o Relativní kumulativní četnost prvních j variant: c NJ Fj= n =P1 +--- + pJ • Empirická distribuční funkce: '0 F(x) = l Fj 1 x < xm X\j] x[r] = 1.....r- 1 Jiří Fišer (MVŠO) XSZD-06 Příklad (Bodové rozložení četností) Při zápočtu ze statistiky se studenti podrobili testu, ve kterém mohli získat 0 až 15 bodů. Výsledky jsou následující: 5,10,6,7,0,2,2,4,8,10,12,15,0,0,4,2,7,10,15,0,6,5,6,9,8,7,10,12,6,0. Body n,- pj(%) Fj(%) 0 5 16,7 16,7 2 3 10,0 26,7 4 2 6,7 33,4 5 2 6,7 40,1 6 4 13,3 53,4 7 3 10,0 63,4 8 2 6,7 70,1 9 1 3,2 73,3 korekce hodnoty 3,3 10 4 13,3 86,6 12 2 6,7 93,3 15 2 6,7 100,0 Celkem 30 100,0 Jiří Fišer (MVŠO) XSZD-06 Empirická distribuční funkce Jiří Fišer (MVŠO) XSZD-06 Intervalové rozložení četností Třídící intervaly: obor hodnot znaku X rozdělíme na disjunktní intervaly (-00,1^), (1/1 ,l/2>,... ,(^-1,00) Stanovení třídících intervalů: subjektivní • Počet třídích intervalů: různá pravidla ► k blízké y/n ► Sturgesovo pravidlo: k = 1 + 3.3 log n • Zpravidla volíme intervaly stejné délky • U nesymetrických rozdělení volíme krajní intervaly širší, aby zahrnovaly extrémní hodnoty • Názvy četností podobné jako u bodového rozložení četností • všechny body z y-tého intervalu , Uj) ztotožníme se středem *j- 2 ► (^_i,oo): ak = uk-i + Uk-*-Uk-z Jiří Fišer (MVŠO) XSZD-06 Příklad (Intervalové rozložení četností) U 70 žen byl změřen hemoglobin s přesností 0.1 g/100 ml: 10.2, 13,7, 10,4, 14,9, 11,5, 12,0, 11,0, 13,3, 12,9, 12,1, 9,4, 13,2, 10.8, 11,7, 10,6, 10,5, 13,7, 11,8, 14,1, 10,3, 13,6, 12,1, 12,9, 11,4, 12,7, 10,6, 11,4, 11,9, 9,3, 13,5, 14,6, 11,2, 11,7, 10,9, 10,4, 12,0, 12.9, 11,1, 8,8, 10,2, 11,6, 12,5, 13,4, 12,1, 10,9, 11,3, 14,7, 10,8, 13.3, 11,9, 11,4, 12,5, 13,0, 11,6, 13,1, 9,7, 11,2, 15,0, 10,7, 12,9, 13.4, 12,3, 11,0, 14,6, 11,1, 13,5, 10,9, 13,1, 11,8, 12,2 Hladina hemoglobinu v g/100 ml ríy- pj (%) Fy- (%) 8,0-8,9 1 1,4 1,4 9,0-9,9 3 4,3 5,7 10,0-10,9 14 20,0 25,7 11,0-11,9 19 27,1 52,9 12,0-12,9 14 20,0 72,9 13,0-13,9 13 18,6 91,4 14,0-14,9 5 7,1 98,6 15,0-15,9 1 1,4 100,0 Celkem 70 100,0 - Grafické znázornění setříděných dat Znázorňujeme relativní a absolutní četnosti nebo relativní a absolutní kumulativní četnosti. • Koláčový graf: pouze pro zobrazení relativních četností • Histogram: sloupcový graf ► bodové rozložení četností: bodu přiřadíme obdélník, jehož výška je úměrná zjištěné četnosti ► intervalové rozložení četností: * šířka sloupku rovna délce intervalu * bodu ay přiřadíme obdélník, jehož plocha odpovídá relativní četnosti * někdy jsou konstruovány i pro další typy četností, tj. výška je úměrná zjištěné četnosti Jiří Fišer (MVŠO) XSZD-06 Koláčový graf rozložení obyvatelstva na kontinentech Podíl obyvatelstva Asie 60% Austrálie 1% Evropa 10% Afrika 16% Amerika 13% Jiří Fišer (MVŠO) XSZD-06 Histogram absolutních četností počtu získaných bodů v testu ze statistiky 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 Body Histogram 0.35 11 12 13 Hladina hemoglobinu 16 Jiří Fišer (MVŠO) XSZD-06 Míry polohy Aritmetický průměr • pozorování x-i,... ,xn 9 nesetříděný soubor: _ *1 + X = - + xn n 1 n Xi 9 setříděný soubor: _ X[1]A71 +---+x[r]nr X = n-\ H-----h nr 1 k /=1 vážený aritmetický průměr: soubor rozdělen do s dílčích souborů se známými průměry x, a rozsahy n,-, / = 1,..., s Ef=i X = n1 H-----h a?< Jiří Fišer (MVŠO) XSZD-06 18. 3. 2024 19/49 Vlastnosti aritmetického průměru • zvětšíme-li všechna pozorování o konstantu c, zvětší se průměr 9 násobíme-li všechna pozorování nějakou konstantou £>, pak nový průměr bude roven průměru původních dat krát konstanta b • Citlivý na odlehlá pozorování (outliery) ► 5,4,5,6,7,4,5,5,4,5: x = 5 ► 5,4,5,6,7,4,500,5,4,5: x = 54,5, což je hodnota nic neříkající • odhadem střední hodnoty E(X) náhodné veličiny X ► př. X značí počet ok při hodu férovou kostkou tez o c P(X= 1) =P(X = 2) P(X = 6) 6 7 2 3,5 Třikrát jsme hodili kostkou s těmito výsledky: 3,3,5 Výběrový průměr je x 3+3+5 3 U 3 3,6 Jiří Fišer (MVŠO) XSZD-06 Míry polohy - kvantily Pro a g (0,1) je výběrový a-kvantil definován jako číslo xa, které rozděluje datový soubor na dvě části tak, že O alespoň 100a % všech dat je menších nebo rovných xa O alespoň 100(1 - a) % všech dat je větších nebo rovných xa Data uspořádáme vzestupně < X(2) < • • • < Medián pro n liché, *0.5 = < pro n sudé. 2 Jiří Fišer (MVŠO) XSZD-06 Míry polohy - kvantily Data uspořádáme vzestupně < X(2) < • • • < a kvant i I a je-li na = c, kde c je přirozené číslo, potom x(c) + *(c+1) 100 • 0,21 = 21, tedy x0,2i = _ *(21)+*(22) jestliže na není přirozené číslo, zaokrouhlíme na nahoru na nejbližší přirozené číslo c a položíme (c) 20 • 0,21 = 4,2, tedy x0>2i = x(5) Jiří Fišer (MVSO) XSZD-06 18. 3. Kvantily - příklady Příklad (n sudé) Ve výrobě se v posledním půl roce v jednotlivých měsících vyskytl následující počet úrazů: 1, 3, 2, 4, 2, 4. Určete medián, dolní a horní kvartil počtu úrazů za měsíc. Počty uspořádáme vzestupně 1, 2, 2, 3, 4, 4 • medián: x0,5 = = ^ = 2,5 • dolní kvartil: na = 6 • 0,25 = 1,5 =4> x0?25 = *(2) = 2 • horní kvartil: na = 6 • 0,75 = 4,5 =4> x0js = X(5) = 4 Jiří Fišer (MVŠO) XSZD-06 18. 3. 2024 Kvantily - příklady Příklad (n liché) Ve výrobě se v posledním půl roce v jednotlivých měsících vyskytl následující počet úrazů: 1, 3, 2, 4, 2, 4, 1. Určete medián, dolní a horní kvartil počtu úrazů za měsíc. 1, 1, 2, 2, 3, 4, 4 • medián: (n+ 1)/2 = 8/2 = 4 ^> x0?5 = x(4) = 2 • dolní kvartil: na = 7 • 0,25 = 1,75 =4> x0?25 = *(2) = 1 • horní kvartil: na = 7 • 0,75 = 5,25 =4> x0?75 = X(6) = 4 Jiří Fišer (MVŠO) XSZD-06 Příklad 2: vypočtěte 0,1 kvantil, dolní a horní kvartil Uvažujme data x daná tabulkou: hodnota x-, 1 2 3 4 5 počet výskytů n-, 10 12 6 3 0 • Tedy ► X(1) — ''' — X(10) = 11 ► ^(11) = ' ' ' = x{22) = 2, ^ *(23) = • • • = X(28) = 3, ^ *(29) = • • • = X(31) = 4. • r/a = 31 • 0.1 = 3.1 ^> x0.i = X(4) = 1 • na = 31 • 0.25 = 7.75 =4> x0.25 = x(8) = 1 • na = 31 • 0.75 = 23.25 =4> x0.75 = x(24) = 3 Jiří Fišer (MVŠO) XSZD-06 Vlastnosti výběrového mediánu • Není citlivý na odlehlá pozorování (outliery) ► 5,4,5,6,7,4,5,5,4,5: 4,4,4,5,5,5,5,5,6,7 => x0>^= 5 ► 5,4,5,6,7,4,500,5,4,5: 4,4,4,5,5,5,5,6,7,500 x0j5 = 5 • Odhadem mediánu • splňuje požadované vlastnosti (posun o konstantu, změna měřítka) ► *(1) <*(2) < ••• )(1) < (x• í>)(2) < • • • < (x• b){n), b>0 Jiří Fišer (MVŠO) XSZD-06 Vlastnosti výběrového mediánu O Vztah výběrového průměru a výběrového mediánu hodnota x,- 1 2 3 4 5 počet výskytů n-, 10 12 10 0 0 X = X0,5 = 2 ) hodnota x,- 1 2 3 4 5 počet výskytů n-, 8 10 8 4 2 x = 2.4 > x0,5 hodnota x,- 1 2 3 4 5 počet výskytů n-, 2 4 8 10 8 x = 3.2 < x0;5 = 4 Jiří Fišer (MVŠO) XSZD-06 Hrubá měsíční mzda zaměstnanců podle vzdělání ČR, rok 2021 průměr medián CELKEM 40 777 35 169 základní a nedokončené 28 672 27 023 střední bez maturity 31 111 29 567 střední s maturitou 39 609 36 051 vyšší odborné a bakalářské 47 271 41 662 vysokoškolské 61 334 50 472 Jiří Fišer (MVŠO) XSZD-06 Využití výběrových kvantilů • Jakou hladinu cholesterolu v krvi nepřekročí 90 % zdravé populace ČR? (pro krevní obraz jsou stanoveny referenční hladiny pro jednotlivé ukazatele) • Jakou délku nepřekročí 95 % lišek? rozmezí 58-90 cm (5% a 95% kvantil) • Jak definovat pojem stoletá voda, který odpovídá průtoku, jenž je maximálním ročním průtokem překročen jenom v 1 % případů? • Jakou výši kapitálu musí pojišťovny EU držet, aby snížily riziko platební neschopnosti v průběhu roku? (99,5% kvantil, směrnice Solvency II) • Percentilové grafy Jiří Fišer (MVŠO) XSZD-06 Percent i lové růstové grafy dětí Jiří Fišer (MVŠO) XSZD-06 Míry polohy Modus • varianta znaku, která má největší četnost Jiří Fišer (MVŠO) XSZD-06 Míry variability Míry absolutní variability • Variační obor (x^,x^) o (Variační) rozpětí: R = x(n) - x(1) • Kvartilové rozpětí: RQ = x0 75 - x0 25 • Kvartilová odchylka: 5p 9 Rozptyl: /=1 1 ^ /=1 • Směrodatná odchylka: sx = Poznámka: Někdy se ve vztahu pro rozptyl používá koeficient 1 /n. má lepší vlastnosti pro malá n Jiří Fišer (MVŠO) XSZD-06 18. 3. 2024 32/49 Následující tabulka četností udává životnost (v hodinách) určité komponenty. Stanovte průměrnou životnost, směrodatnou odchylku a modus životnosti této komponenty. v ■ ZIV. 300 < ř < 400 400 < ř < 500 500 < ř < 600 600 < ř < 700 700 < ř < 800 čet. 13 25 66 58 38 • a, ... střed Mého intervalu životnosti v ■ ZIV. 300 < ř < 400 400 < ř < 500 500 < ř < 600 600 < ř < 700 700 < ř < 800 střed 350 450 550 650 750 čet. 13 25 66 58 38 • Modus: 550 h Jiří Fišer (MVŠO) XSZD-06 v ■ ZIV. 300 < ř < 400 400 < ř < 500 500 < ř < 600 600 < ř < 700 700 < ř < 800 střed 350 450 550 650 750 čet. 13 25 66 58 38 • Průměrná životnost komponenty = ?? 1 x = - y a j ■ n j ;=1 1 2ÔÔ (350 • 13 + 450 • 25 + 550 • 66 + 650 • 58 + 750 • 38) = 591,5 h Jiří Fišer (MVŠO) XSZD-06 v ■ ZIV. 300 < ř < 400 400 < ř < 500 500 < ř < 600 600 < ř < 700 700 < ř < 800 střed 350 450 550 650 750 čet. 13 25 66 58 38 • Směrodatná odchylka životnosti komponenty = ?? s = 1 5 ;=1 (350 - 591,5)2 • 13 H-----h (750 - 591,5)2 • 38 199 = 112,66 h Jiří Fišer (MVŠO) XSZD-06 Míry variability Míry absolutní variability Poznámka Nelze srovnávat variabilitu dvou a více znaků, jestliže se výrazně liší úrovní znaku nebo jsou vyjádřeny v různých jednotkách! -> nutno použít relativní míry variability Jiří Fišer (MVŠO) XSZD-06 Míry variability Míry relativní variability • Variační koeficient: x • Relativní kvartilová odchylka: q X0J5 - x0.25 X0J5 + x0.25 Jiří Fišer (MVŠO) XSZD-06 Zjišťováním hmotnosti mužů a žen ve věku 50 let, byly zjištěny následující údaje: • průměrná hmotnost mužů: 95 kg 9 směrodatná odchylka u mužů: 4 kg 9 průměrná hmotnost žen: 65 kg a směrodatná odchylka u žen: 3,32 kg Je správná interpretace: muži jsou v průměru těžší a mají větší výkyvy hmotnosti? • variační koeficient u mužů: 4/95 = 0,0421 (4,21 %) • variační koeficient u žen: 3,32/65 = 0,0511 (5,11 %) Závěr: Muži jsou v průměru skutečně těžší, ale relativně větší výkyvy hmotnosti mají ženy. Jiří Fišer (MVŠO) XSZD-06 Krabicovv diaaram ŕboxoloť) 30- Extrémní hodnota 25- ^20 c "O o c: P 10 o N O Q_ Odlehlá hodnota Maximum nebo horní vnitřní hradba Horní kvartil x0.75 Medián Dolní kvartil x025 Minimum nebo dolní vnitřní hradba Odlehlá hodnota • Dolní vnitřní hradba: x0 25 - 1 5(x0 75 - xb.25) • Horní vnitřní hradba: x0 75 + 1 5(x0 75 - xo.25) • Dolní vnější hradba: x0 25 - 3(x0 75 - Xb.25) • Horní vnější hradba: x0 75 + 3(x0 75 - *0 25) • Odlehlá hodnota leží mezi hradbami • Extrémni hodnota leží za vnějšími hradbami Jiří Fišer (MVŠO) XSZD-06 18. 3. 2024 39/49 Krabicový diagram - výsledky testů ze statistiky Jiří Fišer (MVŠO) XSZD-06 Krabicový diagram - hladina hemoglobinu Jiří Fišer (MVŠO) XSZD-06 Dvourozměrný statistický soubor Na každé statistické jednotce vyšetřujeme dva znaky X, Y. Statistický soubor: uspořádané dvojice (xh y,), / = 1,..., n Rozložení četností: • bodové • intervalové Kontingenční tabulka nekouří kouří ženy 12 (48 %) 13 (52 %) muži 21 (66 %) 11 (34 %) Jiří Fišer (MVŠO) XSZD-06 Číselné charakteristiky Nesetříděný soubor • Aritmetické průměry a rozptyly: 1 n 1 n /=1 /=1 /=1 /=1 Výběrová kovariance: n SXy — -^J2(Xi-x)(yi-y) /=1 ► kvantifikace vztahu mezi dvěma kvantitativními proměnnými ► SXy G M ► závisí na jednotkách, ve kterých jsou znaky X a V zaznamenány nevýhoda pro porovnávání Jiří Fišer (MVŠO) XSZD-06 Pearsonův korelační koeficient 9 míra lineární závislosti mezi dvěma kvantitativními proměnnými • normovaná podoba kovariance: hodnotu kovariance vztáhneme k jednotlivým směrodatným odchylkám • Rxy e <-1;1) • Rxy blízké 1: (silná) kladná lineární závislost cim vyssi X, tím vetsi Y • Rxy blízké -1: (silná) záporná lineární závislost čím vyšší X, tím menší Y nE*/y/-E*/Ey/ xy — V^E^-tE*/)2] ["Er2-(Ey/)2] 18. 3. 2024 44/49 Korelace - příklad • Sledujeme kurzy české koruny k americkému dolaru a české koruny k euru během 30 dnů. • Každý bod odpovídá kombinaci kurzů za daný den. • Modrá přímka ukazuje lineární regresní vztah mezi oběma znaky. 23.8 23.9 24.0 24.1 1 EUR (v CZK) Jiří Fišer (MVŠO) XSZD-06 18. 3. 2024 45/49 Vizualizace (ne)lineární závislosti 0.8 0.4 0 ■0.4 ■0.8 s X o •/■■>• úžím'** 0 í W tt~'. ■ /.oj-' O .'.to: https://upload.wikimedia.Org/wikipedia/commons/thumb/d/d4/Correlation_exam Jiří Fišer (MVSO) XSZD-06 2024 46/49 o Interpretace hodnot Pearsonova korelačního koeficientu • 0-0,19: mezi znaky XaY není lineární vztah • 0,20-0,39: mezi X a Y je slabý pozitivní lineární vztah • 0,40-0,59: mezi X a V je středně silný pozitivní lineární vztah • 0,60-0,79: mezi X a Y je silný pozitivní lineární vztah • 0,80-1: mezi X a Y je velmi silný pozitivní lineární vztah • analogicky pro záporné hodnoty Jiří Fišer (MVŠO) XSZD-06 Vizualizace vícerozměrných statistických souborů Bodový graf 4.5 h 4 3.5 h 3 S 2.5 h 2 1.5 1h 0.5 n-1-1-1-1-r ♦ Cold □ Hot □ □ □ □ □ □ □ □ □ □□□ □□□□ 0 -2 -B-H-'-B-É-B-'-'-B-É-É-B- 6 8 Sugars 10 12 14 16 • chybná hodnota množství cukrů (-1g) • r = 0.27 =4> slabý lineární vztah mezi množstvím cukrů a tuků Jiří Fišer (MVŠO) XSZD-06 Vizualizace vícerozměrných statistických souborů Matice bodových grafů • středně silná lineární závislost mezi počtem kalorií a množstvím tuku r = 0.50, resp. množstvím cukrů r = 0.56 Jiří Fišer (MVŠO) XSZD-06