Hlavní » obchodní vedoucí » Chi Square (χ2) Statistická definice

Chi Square (χ2) Statistická definice

obchodní vedoucí : Chi Square (χ2) Statistická definice
Co je statistika Chi Square?

Čchi náměstí ( χ 2 ) statistika je test, který měří, jak se očekávání porovnávají se skutečnými pozorovanými údaji (nebo výsledky modelu). Data použitá při výpočtu statistiky čtverců chi musí být náhodná, nezpracovaná, vzájemně se vylučující, čerpaná z nezávislých proměnných a čerpaná z dostatečně velkého vzorku. Například výsledky, které hodí minci 100krát, splňují tato kritéria.

Chi čtvercové testy se často používají při testování hypotéz.

Vzorec pro náměstí Chi je

χc2 = ∑ (Oi − Ei) 2 kdekoli: c = stupně volnostiO = pozorovaná hodnota (y) E = očekávaná hodnota (y) \ begin {zarovnané} & \ chi ^ 2_c = \ sum \ frac {(O_i - E_i) ^ 2} {E_i} \\ & \ textbf {kde:} \\ & c = \ text {stupně svobody} \\ & O = \ text {pozorované hodnoty)} \\ & E ​​= \ text {očekávané hodnoty )} \\ \ end {zarovnané} χc2 = ∑Ei (Oi −Ei) 2 kde: c = stupně volnostiO = pozorovaná hodnota (y) E = očekávaná hodnota (y)

Co vám říká statistika Chi Square?

Existují dva hlavní druhy testů chi square: test nezávislosti, který klade otázku vztahu, například: „Existuje vztah mezi pohlavím a skóre SAT?“; a test shody dobroty, který se ptá něco jako „Pokud je mince hodena 100krát, přijde to 50krát nahoru a ocasu 50krát?“

Pro tyto testy se používají stupně volnosti k určení, zda lze určitou nulovou hypotézu odmítnout na základě celkového počtu proměnných a vzorků v experimentu.

Například při zvažování výběru studentů a kurzů není velikost vzorku 30 nebo 40 studentů dostatečně velká, aby vygenerovala významná data. Získání stejných nebo podobných výsledků ze studie pomocí vzorku vzorku 400 nebo 500 studentů je platnější.

V dalším příkladu zvažte 100krát hodit minci. Očekávaný výsledek toho, že hodí spravedlivou minci 100krát, je, že hlavy přijdou 50krát a ocásky přijdou 50krát. Skutečným výsledkem by mohlo být to, že hlavy přijdou 45krát a ocasy 55krát. Čtvercová statistika chi ukazuje jakékoli nesrovnalosti mezi očekávanými a skutečnými výsledky.

Klíč s sebou

  • Čchi náměstí (χ 2 ) statistika je test, který měří, jak se očekávání porovnávají se skutečnými pozorovanými údaji.
  • Existují dva hlavní druhy chí kvadrátových testů: test nezávislosti dat a testy vhodnosti modelu.
  • Tyto testy mohou být použity k určení, zda může být určitá nulová hypotéza při testování hypotéz odmítnuta.

Příklad testu Chi Squared

Představte si, že byl proveden náhodný průzkum mezi 2000 různými voliči, muži i ženy. Lidé, kteří odpověděli, byli klasifikováni podle pohlaví a zda byli republikánští, demokratičtí nebo nezávislí. Představte si mřížku se sloupci označenými republikánskými, demokratickými a nezávislými a dvěma řadami označenými muži a ženy. Předpokládejme, že údaje od 2 000 respondentů jsou následující:

RepublikánDemokratNezávislýCelkový
mužský400300100800
ženský5006001001200
Celkový9009002002000

Prvním krokem pro výpočet statistiky na druhou mocninu je nalezení očekávaných frekvencí. Ty se počítají pro každou „buňku“ v mřížce. Protože existují dvě kategorie pohlaví a tři kategorie politického pohledu, očekává se celkem šest četností. Vzorec pro očekávanou frekvenci je:

E (r, c) = n (r) × c (r) na kterémkoli místě: r = řádek v otázcec = sloupec v otázce = odpovídající celkový součet \ begin {zarovnaný} a E (r, c) = \ frac {n (r) \ times c (r)} {n} \\ & \ textbf {kde:} \\ & r = \ text {sporný řádek} \\ & c = \ text {sporný sloupec} \\ & n = \ text {odpovídající součet } \\ \ end {zarovnané} E (r, c) = nn (r) × c (r) kde: r = řádek v otázcec = sloupec v otázce = odpovídající celkový součet

V tomto příkladu jsou očekávané frekvence:

  • E (1, 1) = (900 x 800) / 2 000 = 360
  • E (1, 2) = (900 x 800) / 2 000 = 360
  • E (1, 3) = (200 x 800) / 2000 = 80
  • E (2, 1) = (900 x 1200) / 2000 = 540
  • E (2, 2) = (900 x 1200) / 2000 = 540
  • E (2, 3) = (200 x 1200) / 2000 = 120

Dále se použijí tyto hodnoty pro výpočet statistik chí kvadrátů pomocí následujícího vzorce:

Chi-kvadrát = ∑ [O (r, c) −E (r, c)] 2E (r, c) kde: O (r, c) = pozorovaná data pro daný řádek a sloupec \ begin {zarovnané} & \ text {Chi-kvadrát} = \ sum \ frac {[O (r, c) - E (r, c)] ^ 2} {E (r, c)} \\ & \ textbf {kde:} \\ & O (r, c) = \ text {pozorovaná data pro daný řádek a sloupec} \\ \ end {zarovnání} Chi-kvadrát = ∑E (r, c) [O (r, c) −E (r, c)] 2 kde: O (r, c) = pozorovaná data pro daný řádek a sloupec

V tomto příkladu je výraz pro každou pozorovanou hodnotu:

  • O (1, 1) = (400 - 360) 2/360 = 4, 44
  • O (1, 2) = (300 - 360) 2/360 = 10
  • O (1, 3) = (100 - 80) 2/80 = 5
  • O (2, 1) = (500 - 540) 2/540 = 2, 96
  • O (2, 2) = (600 - 540) 2/540 = 6, 67
  • O (2, 3) = (100 - 120) 2/120 = 3, 33

Statistika druhé mocniny se pak rovná součtu těchto hodnot, nebo 32, 41. Pak se můžeme podívat na statistickou tabulku chi na druhou stranu, abychom zjistili, zda je výsledek statisticky významný nebo ne, vzhledem k stupňům volnosti v našem uspořádání.

Porovnat poskytovatele investičních účtů Jméno Popis Zveřejnění inzerenta × Nabídky, které se objevují v této tabulce, pocházejí od partnerství, od nichž Investopedia dostává náhradu.

Související termíny

Definice stupňů svobody Stupně svobody se vztahuje na maximální počet logicky nezávislých hodnot, což jsou hodnoty, které se mohou volně měnit, ve vzorku dat. více Definice T-testu T-test je typ inferenciální statistiky, která se používá k určení, zda existuje významný rozdíl mezi prostředky dvou skupin, které mohou souviset s určitými vlastnostmi. více Co nám říká inverzní korelace Inverzní korelace, také známá jako negativní korelace, je opačný vztah mezi dvěma proměnnými, takže se pohybují v opačných směrech. více Jak zbytková směrodatná odchylka funguje Zbytková směrodatná odchylka je statistický pojem, který se používá k popisu rozdílu směrodatných odchylek pozorovaných hodnot oproti předpovězeným hodnotám, jak ukazují body v regresní analýze. více Jak funguje analýza rozptylu (ANOVA) Analýza rozptylu (ANOVA) je statistický analytický nástroj, který rozděluje celkovou variabilitu nalezenou v datovém souboru na dvě složky: náhodné a systematické faktory. více Korelace Korelace je statistické měřítko toho, jak se dva cenné papíry pohybují ve vztahu k sobě navzájem. více partnerských odkazů
Doporučená
Zanechte Svůj Komentář