STATISTIKA 2 Statistika a statistické zpracování dat Blok 1-2 in Fišer 8. listopadu 2024 Jiří Fišer (MVŠO) YSTA2-01-2 8. listopadu 2024 1/39 Zpracování dat z výběrových zjišťování Cíle kapitoly: • Definovat pojem náhodného výběru a výběrového souboru. • Představit základní výběrové charakteristiky a jejich rozdělení. 9 Uvést základní metody výběrových šetření a jejich použití. Jiří Fišer (MVŠO) YSTA2-01-2 8. listopadu 2024 2/39 Úvodní příklad - Výběrové šetření Představte si, že jste analytikem ve velké maloobchodní společnosti. Vedení chce zjistit průměrnou spokojenost zákazníků, ale místo dotazování všech provede výběrové šetření. Ukol: Navrhnout spolehlivé šetření, kde každý zákazník má stejnou šanci být zahrnut (prostý náhodný výběr). Jiří Fišer (MVŠO) YSTA2-01-2 8. listopadu 2024 3/39 Výpočet průměrné spokojenosti Příklad: Z 100 zákazníků získáte následující hodnocení spokojenosti na škále 1-10: x = (8,7,9,6,...) Součet všech hodnocení je 750. Výběrový průměr: 100 Tento průměr použijeme jako odhad průměrné spokojenosti všech zákazníků. Jiří Fišer (MVŠO) YSTA2-01-2 8. listopadu 2024 4/39 Směrodatná odchylka Směrodatná odchylka měří, jak moc se odpovědi liší od průměru Příklad: Výpočet směrodatné odchylky: s = . 100 — V(x/-x)2 « 1,2 99 1 > i=l Interpretace: Většina odpovědí se pohybuje v rozmezí 7,5 ± 1,2, tedy mezi 6,3 a 8,7. Jiří Fišer (MVŠO) YSTA2-01-2 8. listopadu 2024 5/39 Význam směrodatné odchylky Směrodatná odchylka ukazuje, jak jsou odpovědi konzistentní: Nižší hodnota: spokojenost zákazníků je podobná. • Vyšší hodnota: větší rozdíly mezi zákazníky (někteří velmi spokojeni, jiní méně). Pomocí tohoto šetření můžeme také odhadnout interval spokojenosti pro celou populaci zákazníků. Jiří Fišer (MVŠO) YSTA2-01-2 8. listopadu 2024 6/39 "~7 ' v \ / ' I v / v , v ' Zaver - Výberové setrem Tento příklad ukazuje důležitost správně provedeného výběrového šetření: • Správný výběr zajišťuje reprezentativnost výsledků. • Výběrové charakteristiky, jako průměr a směrodatná odchylka, pomáhají analyzovat a odhadovat parametry populace. Jiří Fišer (MVŠO) YSTA2-01-2 8. listopadu 2024 7/39 Výberová setrem Pravděpodobnostní (náhodný) výběr zajišťuje, že každý prvek souboru má určitou pravděpodobnost, že bude zahrnut do výběrového souboru. Tento přístup umožňuje reprezentativnost výsledků na základě náhodně vybraných jednotek. Jiří Fišer (MVŠO) YSTA2-01-2 8. listopadu 2024 8/39 Tvorba výběrového souboru Tvorba výběrového souboru zahrnuje dvě hlavní složky: • Pravděpodobnost vybrání: Každá jednotka má přiřazenou pravděpodobnost být vybrána. • Náhodnost výběru: Výběr je prováděn náhodně, rozhoduje pouze náhoda. Spojení těchto dvou složek je klíčové pro zajištění reprezentativnosti. Jiří Fišer (MVŠO) YSTA2-01-2 8. listopadu 2024 9/39 Pravděpodobnostní a náhodný výběr • Termín , pravděpodobnostní výběr převažuje nad „náhodný výběr". • Pravděpodobnosti vybrání mohou být různé, pokud jsou stejné, jedná se o prostý náhodný výběr. Jiří Fišer (MVŠO) YSTA2-01-2 8. listopadu 2024 10/39 Pochybnosti o náhodném výběru Pochybnosti neodborníků: Náhodný výběr se může jevit jako náhodný proces bez kontroly. Reakce: Náhodný výběr s předem známými pravděpodobnostmi využívá výhod náhody a lze matematicky kontrolovat jeho zákonitosti, což zajišťuje reprezentativnost. Jiří Fišer (MVŠO) YSTA2-01-2 8. listopadu 2024 11 / 39 Výhody pravděpodobnostního výběru Pravděpodobnostní výběry umožňují spolehlivé odhady: • Konzistentní odhady: Přesnost odhadů roste se zvyšováním počtu jednotek. • Nevychýlené odhady: Odhady v průměru ani nepřehánějí, ani nebagatelizují skutečnou hodnotu. Jiří Fišer (MVŠO) YSTA2-01-2 8. listopadu 2024 12/39 Měření přesnosti odhadů Přesnost odhadů lze měřit pomocí: • Střední výběrové chyby (standardní chyba průměru) • Intervalových odhadů: poskytují interval, ve kterém se skutečná hodnota téměř jistě nachází. Další kapitoly se budou podrobněji věnovat těmto odhadům a jejich interpretaci. Jiří Fišer (MVSO) YSTA2-01-2 Prostý náhodný výběr Prostý náhodný výběr je základní forma pravděpodobnostního výběru. Každý prvek základního souboru (ZS) má stejnou pravděpodobnost, že bude do výběru zahrnut. Definice: Prostý náhodný výběr je výběr o rozsahu n, kdy každá množina n prvků má stejnou pravděpodobnost, že bude vybrána. Podmínka: Je nutné mít: 9 očíslovaný seznam všech prvků základního souboru (opora výběru), • generátor náhodných čísel pro výběr prvků. Jiří Fišer (MVŠO) YSTA2-01-2 8. listopadu 2024 14/39 Postup pri prostém náhodném výběru Postup při provádění prostého náhodného výběru: O Sestavte oporu výběru a přiřaďte každému prvku celé číslo od 1 do N. O Rozhodněte o rozsahu výběru n. O Vygenerujte n náhodných čísel mezi 1 a N. O Získejte data od prvků identifikovaných těmito čísly. Jiří Fišer (MVŠO) YSTA2-01-2 8. listopadu 2024 15/39 Výběrový poměr Výběrový poměr je poměr mezi rozsahem výběru n a velikostí základního souboru N\ n N 9 Vyjadřuje pravděpodobnost, že prvek ZS bude zahrnut do výběru. • Výběr může být s vracením (prvek může být vybrán vícekrát) nebo bez vracení. □ t3 Jiří Fišer (MVŠO) YSTA2-01-2 8. listopadu 2024 16/39 Náhradní metody při neproveditelnosti prostého náhodného výběru Pokud je prostý náhodný výběr neproveditelný nebo příliš nákladný, lze použít: • Stratifikovaný náhodný výběr: Populace je rozdělena na skupiny (straty) a z každé straty se provede náhodný výběr. o Systematický výběr: Po seřazení ZS je náhodně vybrán jeden prvek z prvních k a dále každý /c-tý prvek. • Vícestupňový shlukový výběr: Výběr probíhá ve více stupních (např. okresy, města, sídliště, domácnosti). Jiří Fišer (MVŠO) YSTA2-01-2 8. listopadu 2024 17/39 St ratifikovaný náhodný výběr Stratifikovaný náhodný výběr: ZS je rozdělen na dílčí skupiny (straty) a z každé se provede náhodný výběr. Vhodné pro: Populace, které lze stratifikovat podle určitého znaku (např. věk, pohlaví) pro zajištění reprezentace každé podskupiny. Jiří Fišer (MVŠO) YSTA2-01-2 8. listopadu 2024 18/39 Systematický výběr Systematický výběr: Ze seřazeného ZS se náhodně vybere jeden prvek z prvních k, poté každý /c-tý prvek. Příklad: Při ZS o 100 prvcích a výběru 10 prvků (k=10) náhodně vybereme prvek, např. 5, a následně vybereme 5, 15, 25, 95. Jiří Fišer (MVŠO) YSTA2-01-2 8. listopadu 2024 19/39 Vícestupňový shlukový výběr Vícestupňový shlukový výběr: Metoda vhodná pro rozsáhlé základní soubory, např. při výzkumu veřejného mínění. O Náhodně vybereme vzorek okresů. Q Z každého okresu vybereme vzorek měst. O Z vybraných měst vybereme vzorek sídlišť. O Z vybraných sídlišť vybereme domácnosti k dotazování. Výhoda: Efektivní a méně nákladný než prostý náhodný výběr. Jiří Fišer (MVŠO) YSTA2-01-2 8. listopadu 2024 20/39 Výběrové charakteristiky a jejich rozdělení • Výběrové charakteristiky jsou statistiky ► získané z výběrového souboru, ► poskytují informace o základním souboru. • Jsou funkcemi náhodných veličin, ► protože závisí na konkrétním výběru vzorku. Jiří Fišer (MVŠO) YSTA2-01-2 8. listopadu 2024 21/39 Základní pojmy • Základní soubor: ► Skladá se z N jednotek, ► zajíma nás znak X. 9 Výběrový soubor: ► Obsahuje n jednotek ► náhodně vybraných ze základního souboru. • Statistický model: ► Pravděpodobnostní rozdělení náhodné veličiny X tvoří statistický model. Výběrové charakteristiky Výběrové charakteristiky jsou funkce náhodných veličin Xi, X2,..., Xn, definované jako: T = 7"(Xi, X2,..., Xn), kde ► Xi je náhodná veličina náhodného výběru 1. prvku ve výběru, ► X2 je náhodná veličina náhodného výběru 2. prvku ve výběru, Jiří Fišer (MVŠO) YSTA2-01-2 □ - = 8. listopadu 2024 Výběrový obecný moment a výběrový průměr Výběrový obecný moment: k-tý obecný moment je m k = 1 " i=l Výběrový průměr: x — m\ — 1 n n ^-^ i=i U prostého náhodného výběru platí E(X) = fi, což z něj činí vhodný odhad střední hodnoty ZS: Jiří Fišer (MVŠO) YSTA2-01-2 □ S1 ~ = 8. listopadu 2024 Výběrový centrální moment a výběrový rozptyl Výběrový centrální moment: /c-tý centrální moment AT?/, = - k n /=1 Výběrový rozptyl: s2 = m'2 /=1 Výběrový rozptyl je vhodný pro odhad rozptylu základního souboru 2 2 cr « S . Jiří Fišer (MVŠO) YSTA2-01-2 8. listopadu 2024 25/39 Výběrová směrodatná odchylka a výběrová kovariance Výběrová směrodatná odchylka: s = Vs^. Výběrová kovariance: Pokud sledujeme dva znaky X a Y: Cov(X, Y) = ^-j- £(xř- - x)(y; - y). /=1 • Kovariance nám ukazuje, zda a jakým směrem se dvě proměnné pohybují společně (kladná hodnota znamená pozitivní vztah, záporná hodnota negativní vztah). 9 Její velikost však závisí na měřítku proměnných, což komplikuje interpretaci. Jiří Fišer (MVŠO) YSTA2-01-2 8. listopadu 2024 26/39 Výběrový lineární korelační koeficient Výběrový lineární korelační koeficient: Cov(X, Y) sxsy kde sx a sy jsou výběrové směrodatné odchylky znaků X a Y. • Korelační koeficient standardizuje kovarianci do intervalu [-1, 1], což usnadňuje interpretaci: ► rxy ~ 1: silná pozitivní korelace ► rxy ~ —1: silná negativní korelace ► rxy ~ 0: žádný lineární vztah Jiří Fišer (MVŠO) YSTA2-01-2 8. listopadu 2024 27/39 Úloha výběrového šetrení Úkolem výběrového šetření je odhadnout neznámé parametry základního souboru pomocí výběrových charakteristik: • Parametry základního souboru (/i, a2) • Výběrové charakteristiky (x, sx, Ocv) Cílem je získat odhady, které jsou přesné a nevychýlené. Jiří Fišer (MVŠO) YSTA2-01-2 8. listopadu 2024 28/39 Řešené příklady • Příklady ilustrují probranou látku. • Nejsou příliš náročné na výpočty. • V praxi by byly výběry rozsáhlejší. Příklad: St ratifikovaný výběr a výběrové charakteristiky Situace: Obchodní řetězec analyzuje průměrné nákupy zákazníků ve dvou regionech (A a B). Celkový počet zákazníků: 20 000 (12 000 v regionu A, 8 000 v regionu B) Stratif i kovaný náhodný výběr: 5 zákazníků z každého regionu. Jiří Fišer (MVŠO) YSTA2-01-2 8. listopadu 2024 30/39 Údaje o útratách zákazníků ve výběru Region A: xA = (800,1500,700,1200,900) Region B: xB = (1000,1100,950,1300, 750) Cílem je vypočítat: O Průměrnou útratu zákazníků ve výběru v regionu A a regionu B. O Směrodatnou odchylku útrat zákazníků v regionu A a regionu B. Jiří Fišer (MVŠO) YSTA2-01-2 8. listopadu 2024 31 / 39 Výpočet průměrné útraty zákazníků Region A: 1 5 E x a = - y xa. 5 ;=i 800 + 1500 + 700 + 1200 + 900 = 1020 Kč. Region B: 1 5 5Ľ XB = 5 2^ XB>> i=l 1000 + 1100 + 950 + 1300 + 750 = 1020 Kč, Průměrná útrata je stejná v obou regionech: 1020 Kč. Jiří Fišer (MVŠO) YSTA2-01-2 8. listopadu 2024 32/39 Výpočet směrodatné odchylky Region A: sa = Region B: 1 5 - 22(xA,i - xA)2 = V107 000 « 327,11 Kč, ;=i sb = 1 5 - - *b)2 = V40750 « 201,87 Kč, /=i Směrodatná odchylka je vyšší v regionu A, což značí větší rozptyl kolem průměru. Jiří Fišer (MVŠO) YSTA2-01-2 8. listopadu 2024 33/39 Interpretace výsledků Stratif i kovaný náhodný výběr „ukázal", že: • Průměrná útrata je stejná v obou regionech (1020 Kč). o Směrodatná odchylka je vyšší v regionu A (327,11 Kč) než v regionu B (201,87 Kč), což naznačuje větší variabilitu v regionu A. Jiří Fišer (MVŠO) YSTA2-01-2 8. listopadu 2024 34/39 Příklad: Kovariance a korelační koeficient Situace: Jako analytik pro investiční společnost zkoumáte vztah mezi ročními výnosy dvou akcií (X a Y) za posledních 5 let. Výnosy (v %) jsou následující: • Akcie X: X = (5,10,12,6,8) o Akcie Y: Y = (3,8,9,5,6) Cílem je vypočítat průměrné výnosy, kovarianci a korelační koeficient. Jiří Fišer (MVŠO) YSTA2-01-2 8. listopadu 2024 35/39 Výpočet průměrných výnosů Průměrný výnos pro akcii X: X=l£ X,= 5 + 10 + 12 + 6 + 8=8,2% ;=i Průměrný výnos pro akcii Y: — 1^ 3 + 8 + 9 + 5 + 6 i=l Průměrné roční výnosy: X = 8,2 %, Y = 6,2 %. Jiří Fišer (MVŠO) YSTA2-01-2 8. listopadu 2024 36/39 Výpočet kovariance Kovariance mezi výnosy X a Y: Cov(X, Y) = —^ £(X/ - X)(Y; - Y). i=l Cov(X, Y) = ^ = 6,7. Kovariance je kladná, což značí pozitivní vztah mezi výnosy X a Y. Jiří Fišer (MVŠO) YSTA2-01-2 8. listopadu 2024 37/39 Výpočet korelačního koeficientu Korelační koeficient mezi X a Y: Cov(X, Y) ľXY — -• sxsy Po výpočtu směrodatných odchylek získame: rxv ~-—-~ 0,98. Ar 2,86 • 2,38 Korelační koeficient 0,98 znamená silnou pozitivní korelaci Jiří Fišer (MVŠO) YSTA2-01-2 8. listopadu 2024 38/39 Interpretace kovariance a korelačního koeficientu • Kovariance Cov(X, Y) = 6,7: kladná hodnota znamená, že výnosy akcií X a Y mají pozitivní vztah. 9 Korelační koeficient rxy — 0,98: vysoká hodnota ukazuje na velmi silnou pozitivní korelaci. Tento výsledek naznačuje, že výnosy akcií X a Y se pohybují podobně, což může ovlivnit rozhodnutí o diverzifikaci portfolia. Jiří Fišer (MVŠO) YSTA2-01-2 8. listopadu 2024 39/39