Hlavní » algoritmické obchodování » Stratifikovaný náhodný odběr vzorků

Stratifikovaný náhodný odběr vzorků

algoritmické obchodování : Stratifikovaný náhodný odběr vzorků
Co je stratifikovaný náhodný výběr?

Stratifikovaný náhodný výběr je metoda vzorkování, která zahrnuje rozdělení populace do menších podskupin známých jako vrstvy. Ve stratifikovaném náhodném výběru vzorků nebo stratifikacích jsou vrstvy vytvářeny na základě sdílených atributů nebo charakteristik členů, jako je příjem nebo vzdělání.

Stratifikovaný náhodný výběr se také nazývá proporcionální náhodný výběr nebo náhodný výběr podle kvót.

[Důležité: Rozvrstvený odběr vzorků se používá k zvýraznění rozdílů mezi skupinami v populaci, na rozdíl od jednoduchého náhodného odběru vzorků, který zachází se všemi členy populace jako se stejnými pravděpodobnostmi, že budou vzorkovány.]

1:40

Stratifikovaný náhodný odběr vzorků

Jak funguje stratifikovaný náhodný výběr vzorků

Při provádění analýzy nebo výzkumu na skupině subjektů s podobnými charakteristikami může vědec zjistit, že velikost populace je příliš velká na to, aby mohla dokončit výzkum. Abychom ušetřili čas a peníze, může analytik zvolit proveditelnější přístup výběrem malé skupiny z populace. Malá skupina se označuje jako velikost vzorku, což je podskupina populace, která se používá k reprezentaci celé populace. Vzorek může být vybrán z populace několika způsoby, jedním z nich je stratifikovaná metoda náhodného vzorkování.

Vrstvený náhodný výběr zahrnuje rozdělení celé populace do homogenních skupin nazývaných vrstvy (množné číslo pro vrstvu). Z každé vrstvy se potom vyberou náhodné vzorky. Zvažte například akademického vědce, který by chtěl vědět, kolik studentů MBA v roce 2007 dostalo pracovní nabídku do tří měsíců od ukončení studia.

Brzy zjistí, že v tomto roce bylo téměř 200 000 absolventů MBA. Možná by se rozhodl odebrat jednoduchý náhodný vzorek 50 000 absolventů a provést průzkum. Ještě lépe by mohl rozdělit populaci na vrstvy a odebrat náhodný vzorek ze vrstev. Za tímto účelem by vytvářel skupiny obyvatel na základě pohlaví, věku, rasy, země národnosti a kariérního zázemí. Náhodný vzorek z každé vrstvy se odebere v počtu úměrném velikosti vrstvy ve srovnání s populací. Tyto podmnožiny vrstev se pak spojí a vytvoří náhodný vzorek.

Klíč s sebou

  • Stratifikovaný náhodný výběr vzorků umožňuje vědcům získat vzorek populace, který nejlépe reprezentuje celou studovanou populaci.
  • Stratifikovaný náhodný výběr zahrnuje rozdělení celé populace do homogenních skupin zvaných strata.
  • Vrstvený náhodný výběr se liší od jednoduchého náhodného odběru vzorků, který zahrnuje náhodný výběr dat z celé populace, takže je pravděpodobný výskyt každého možného vzorku.

Příklad stratifikovaného náhodného vzorkování

Předpokládejme, že výzkumný tým chce určit GPA vysokoškolských studentů v USA. Výzkumný tým má potíže se shromažďováním údajů od všech 21 milionů vysokoškolských studentů; rozhodne se odebrat náhodný vzorek populace pomocí 4 000 studentů.

Nyní předpokládejme, že tým zkoumá různé atributy účastníků a zázraků, pokud existují rozdíly v GPA a velkých studentech. Předpokládejme, že zjistí, že 560 studentů jsou anglické velké společnosti, 1 135 jsou vědecké vědy, 800 je počítačové vědy, 1 090 technických inženýrů a 415 jsou matematické společnosti. Tým chce použít proporcionální stratifikovaný náhodný vzorek, kde je vrstva vzorku úměrná náhodnému vzorku v populaci.

Předpokládejme, že tým zkoumá demografii vysokoškolských studentů v USA a zjistí procento toho, co studenti hlavní ve 12% hlavních v angličtině, 28% ve vědě, 24% ve vědě o počítačích, 21% ve strojírenství a 15% v matematice. Takto se z stratifikovaného náhodného vzorkovacího procesu vytvoří pět vrstev.

Tým poté musí potvrdit, že vrstva populace je úměrná vrstvě ve vzorku; zjistí však, že proporce nejsou stejné. Tým pak musí znovu vzorkovat 4 000 studentů z populace a náhodně vybrat 480 angličtiny, 1 120 vědy, 960 informatiky, 840 inženýrství a 600 studentů matematiky.

S nimi má poměrný stratifikovaný náhodný vzorek vysokoškolských studentů, což poskytuje lepší zastoupení vysokoškolských studentů studentů v USA. Vědci pak mohou zvýraznit konkrétní vrstvu, sledovat různá studia amerických vysokoškolských studentů a sledovat různé průměrné body .

Jednoduché náhodné versus stratifikované náhodné vzorky

Jednoduché náhodné vzorky i stratifikované náhodné vzorky jsou nástroje statistického měření. Jednoduchý náhodný vzorek se používá k reprezentaci celé datové populace. Vrstvený náhodný vzorek rozděluje populaci do menších skupin nebo vrstev na základě sdílených charakteristik.

Jednoduchý náhodný vzorek se často používá, když je k dispozici jen velmi málo informací o datové populaci, když má datová populace příliš mnoho rozdílů na to, aby se rozdělila na různé podmnožiny, nebo pokud existuje pouze jedna odlišná charakteristika mezi datovou populací.

Například cukrovinková společnost může chtít studovat nákupní zvyklosti svých zákazníků, aby určila budoucnost své produktové řady. Pokud existuje 10 000 zákazníků, může jako náhodný vzorek použít 100 z nich. Poté může aplikovat to, co najde od těchto 100 zákazníků na zbytek své základny. Na rozdíl od stratifikace bude vzorkovat 100 členů čistě náhodně bez ohledu na jejich individuální charakteristiky.

Poměrné a nepřiměřené stratifikace

Vrstvený náhodný výběr zajišťuje, že každá podskupina dané populace je adekvátně zastoupena v celé populaci vzorku výzkumné studie. Rozvrstvení může být přiměřené nebo nepřiměřené. V metodě poměrné stratifikace je velikost vzorku každé vrstvy úměrná velikosti populace vrstvy.

Například, pokud výzkumný pracovník chtěl vzorek 50 000 absolventů s použitím věkového rozmezí, získá se proporcionální stratifikovaný náhodný vzorek pomocí tohoto vzorce: (velikost vzorku / velikost populace) x velikost vrstvy. Následující tabulka předpokládá velikost populace 180 000 absolventů MBA ročně.

Věková skupina


24-28


29-33


34-37


Celkový


Počet lidí ve vrstvě


90 000


60 000


30 000


180 000


Velikost vzorku Strata


25 000


16, 667


8, 333


50 000


Velikost vzorku vrstev pro absolventy MBA ve věku 24 až 28 let se počítá jako (50 000/180 000) x 90 000 = 25 000. Stejná metoda se používá pro ostatní věkové skupiny. Nyní, když je známa velikost vzorku vrstev, může vědec provést jednoduchý náhodný výběr vzorků v každé vrstvě, aby vybral své účastníky průzkumu. Jinými slovy, z celé populace bude náhodně vybráno 25 000 absolventů ve věkové skupině 24–28 let, 16 667 absolventů ve věku 29–33 let bude vybráno z populace náhodně atd.

V nepřiměřeném stratifikovaném vzorku není velikost každé vrstvy úměrná její velikosti v populaci. Výzkumný pracovník se může rozhodnout pro výběr 1/2 absolventů ve věkové skupině 34–37 let a 1/3 absolventů ve věkové skupině 29–33 let.

Je důležité si uvědomit, že jeden člověk se nevejde do více vrstev. Každá entita musí zapadat pouze do jedné vrstvy. Mají-li se překrývající se podskupiny, znamená to, že někteří jednotlivci budou mít větší šanci na výběr do průzkumu, což zcela vylučuje koncept stratifikovaného vzorkování jako typu pravděpodobnostního výběru.

[Důležité: Správci portfolií mohou použít stratifikovaný náhodný výběr vzorků k vytvoření portfolií replikací indexu, jako je index dluhopisů.]

Výhody stratifikovaného náhodného vzorkování

Hlavní výhodou stratifikovaného náhodného vzorkování je to, že zachycuje klíčové charakteristiky populace ve vzorku. Podobně jako vážený průměr vytváří tato metoda odběru vzorků ve vzorku charakteristiky, které jsou úměrné celkové populaci. Stratifikovaný náhodný výběr funguje dobře pro populace s různými atributy, ale jinak je neúčinný, pokud nelze vytvořit podskupiny.

Rozvrstvení dává menší chybu v odhadu a větší přesnost než jednoduchá metoda náhodného vzorkování. Čím větší jsou rozdíly mezi vrstvami, tím větší je přesnost.

Nevýhody stratifikovaného náhodného vzorkování

Tuto metodu výzkumu bohužel nelze použít v každé studii. Nevýhodou metody je, že pro správné použití musí být splněno několik podmínek. Vědci musí identifikovat každého člena studované populace a klasifikovat každou z nich do jedné a pouze jedné subpopulace. Výsledkem je, že stratifikovaný náhodný výběr vzorků je nevýhodný, pokud vědci nemohou s jistotou klasifikovat každého člena populace do podskupiny. Také nalezení vyčerpávajícího a definitivního seznamu celé populace může být náročné.

Překrývání může být problémem, pokud existují předměty, které spadají do více podskupin. Pokud se provádí jednoduchý náhodný výběr, je pravděpodobnější, že bude vybrán ten, kdo je ve více podskupinách. Výsledkem by mohla být nesprávná prezentace nebo nepřesná reflexe populace.

Výše uvedené příklady usnadňují: vysokoškolák, absolvent, muž a žena jsou jasně definované skupiny. V jiných situacích však může být mnohem obtížnější. Představte si, že zahrnují vlastnosti, jako je rasa, etnika nebo náboženství. Proces třídění se stává obtížnějším, což činí stratifikovaný náhodný výběr vzorků neúčinnou a méně než ideální metodou.

Porovnat poskytovatele investičních účtů Jméno Popis Zveřejnění inzerenta × Nabídky, které se objevují v této tabulce, pocházejí od partnerství, od nichž Investopedia dostává náhradu.

Související termíny

Ukázka Ukázka je menší, spravovatelná verze větší skupiny. Vzorky se používají při statistickém testování, jsou-li populace příliš velké. více Jak jednoduché náhodné vzorky fungují Jednoduchý náhodný vzorek je podmnožina statistické populace, ve které má každý člen podmnožiny stejnou pravděpodobnost, že bude vybrán. Jednoduchý náhodný vzorek je zamýšlen jako nestranná reprezentace skupiny. více Reprezentativní vzorek se často používá k extrapolaci širšího sentimentu Reprezentativní vzorek je podmnožinou populace, která odráží charakteristiky celé populace. více Vstupy a výstupy systematického vzorkování Systematické vzorkování je metoda vzorkování pravděpodobnosti, při které je vybrán náhodný vzorek z větší populace. více Definice vzorkování Vzorkování je proces používaný ve statistické analýze, ve kterém je skupina pozorování extrahována z větší populace. více Definice T-testu T-test je typ inferenciální statistiky, která se používá k určení, zda existuje významný rozdíl mezi prostředkem dvou skupin, který může souviset s určitými vlastnostmi. více partnerských odkazů
Doporučená
Zanechte Svůj Komentář