Kovariance a korelace

Už v předchozích částech jsme řešili problematiku závislosti či nezávislosti výběrů. Řekli jsme si, že tu jsme schopni řídit designem sběru dat či výběrem objektů pro experiment. Kromě tohoto problému patří k základním statistickým metodám ještě řešení problému vzájemné souvislosti měřených náhodných veličin. Na tomto místě se podíváme na vyjádření vzájemné souvislosti, dále i na závislosti náhodných veličin, které jsme na objektech změřili.

Kovariance

Je základním ukazatelem vzájemné souvislosti (založené na variabilitě) dvou náhodných veličin. Jde vpodstatě o hodnotu společného rozptylu a z výpočtu rozptylu také vychází. V MS Excel je na její výpočet funkce COVARIANCE.S. Značíme ji cov(XY) nebo s(XY) a pro spojitou veličinu ji lze vypočítat jako:

cov(XY) = SUMA(i = 1 až n) ((Xi – průměr X)*(Yi – průměr Y)) / (n-1)

  • pokud je cov(XY) větší než 0, pak je souvislost mezi veličinami X a Y pozitivní, čím je větší X tím je větší Y a naopak
  • pokud je cov(XY) menší než 0, pak je souvislost mezi veličinami X a Y negativní, čím je větší X tím je menší Y a naopak
  • platí, že nezávislé veličiny mají cov(XY) rovnu nule, ale bohužel neplatí, že by cov(XY) rovnou nule znamenalo, že X a Y jsou nezávislé
  • kovariance nám neříká také nic o síle vazby – je vyjádřena v jednotkách X a Y

V praktické statistice základní úrovně se hlavně z důvodu výše uvedených nevýhod moc nepoužívá (místo ní se používá korelace – viz dále). Svůj velký význam má kovariance v mnohorozměrných analýzách, kde je matice kovariancí velkého množství proměnných vstupem do vlastních analýz.

  • Příklad z přírodních věd 1: Existuje souvislost v koncentracích vápenatých a hořečnatých iontů v podzemní vodě sytící slatiniště? Na větším počtu lokalit jsme odebrali po jednom vzorku vody, dám udělat rozbor množství iontů v každém vzorku a zajímá mě, jestli je mezi oběma hodnotami zjištěnými na jednotlivých lokalitách nějaká vazba. Použijte soubor data1.xlsx a proměnné Ca1 a Mg1.
  • Příklad z přírodních věd 2: Existuje souvislost mezi velikostí samice ostrorepa a biomasou samců, které nese při rozmnožování? Použijte soubor korelace.xlsx a proměnné samci_biomasa a samice_hmotnost.
  • Příklad ze sociálních věd: Existuje souvislost hodnocení spokojenosti s návštěvou zámku (měřené na 7-stupňové škále) a ochotou jeho návštěvu doporučit známým (měřené na 7-stupňové škále)? V dotazníku se ptám návštěvníků na obě proměnné a potom porovnávám odpovědi v dotaznících.

 

Párová korelace (Lepš, 1996, s. 120-121)

Korelací rozumíme taktéž statistickou souvislost dvou kvantitativních proměnných. Na rozdíl od kovariance je však vyjádřením míry této souvislosti. Míra (= síla) souvislosti je dána korelačním koeficientem. Popis včetně vzorce (Lepš, 1996, Vz. 13-1) jsou jasné z učebnice. Základním rozdílem od kovariance je jeho bezrozměrnost (hodnota je nezávislá na jednotkách obou veličin) a normalizované vyjádření = může nabývat hodnot v intervalu od -1 do 1 a 0 znamená nezávislost.

  • Příklady ve výuce jsou stejné jako u kovariance

Korelační koeficient používáme často při prvním náhledu na strukturu sebraných dat. Nejčastěji se používá Pearsonův korelační koeficient, jehož vzorec je na tabuli. V MS Excel má funkci CORREL – dobré výsledky však dává jen při splnění předpokladu normality rozdělení porovnávaných proměnných.

Také pro korelační koeficient se testuje jeho významnost. Její význam je velmi dobře popsán v kapitolce “Poznámky k interpretaci” na s. 124 uprostřed (Lepš, 1996). Důležité je, že významnost je funkcí počtu měření – s narůstajícím počtem měření stačí pro “prokázání” statistické významnosti koeficient s hodnotou stále bližší nule. Obecně platí, že “prokázání” souvislosti závisí především na řešeném problému – v případě porovnání měření jedné veličiny dvěma přístroji nebudeme s korelací 0,95 spokojeni, ale v případě zjištění korelace 0,35 mezi výdaji turisty na dovolené a mírou jeho zájmu o určitý produkt, budeme tuto hodnotu považovat za prokázání korelace.

Často ovšem neměřím jen dvě proměnné, ale větší množství vztahující se k řešenému problému – pro každou dvojici počítám korelační koeficient a výsledkem je korelační matice. Výpočet korelační matice Pearsonových korelačních koeficientů je v MS Excel jednoduchý a je na videu. Ovládání ve Statistica je na videu.

Pro data, která nesplňují podmínku normality dat, se běžně používá vícero neparametrických korelačních koeficientů (Lepš, 1996, s. 123 dole) – nejčastěji používaným je Spearmanův koeficient pořadové korelace (Lepš, 1996, Vz. 13-7), jehož vzorec je na tabuli, popřípadě Kendall-Tau korelační koeficient. Návod na výpočet v MS Excel je na externím videu. Lze je použít pro poměrová data, která nesplňují podmínku normality, pro ordinální data (pro která jsou primárně tyto koeficienty určeny), i data nominální – u nich je však třeba dát si pozor na kódování (bezpodmínečně musíte použít bivariátní kódování = jedna proměnná bude mít tolik sloupců, kolik je kategorií této proměnné – řešili jsme to zde).

  • Základní příklady jsou stejné jako u kovariance
  • Další příklad z přírodních věd: Chci-li korelovat hodnotu pH s geologickým substrátem, musím mít geologický substrát zadán jako bivariátní proměnnou a ne jako vícekategoriální nominální proměnnou. Korelovat mohu nikoliv geologický substrát, ale zvlášť žulu, rulu, svor, atd.
  • Další příklad ze sociálních věd: Chci-li korelovat hodnotu míry spokojenosti s ubytováním v hotelu s věkovou kategorií, musím mít věkové kategorie zadány jako bivariátní proměnnou a ne jako vícekategoriální nominální proměnnou. Korelovat mohu nikoliv věkové kategorie, ale zvlášť věk 18-25, 25-35, 35-45, atd.

POZOR!!!! – statistická významnost není statistickým důkazem kauzality, jde pouze o identifikátor existence nebo neexistence “nějaké” vazby mezi náhodnými veličinami. Také platí, že tato vazba nemusí být přímá, ale je zprostředkovaná nějakou další proměnnou.

Vzhledem k tomu, že obvykle měřené proměnné jsou vzájemně “prokorelované”, pak mě často zajímají čisté závislosti a používám parciálních korelací, nebo celkový vliv měřených proměnných na jednu proměnnou, pak používáme mnohonásobnou korelaci.

Parciální korelace (Lepš, 1996, s. 131-133)

Závislost dvou veličin může být ovlivněna závislostí obou těchto veličin a veličinou třetí (čtvrtou, pátou, atd., podle toho, kolik jsme jich naměřili). Pokud máme větší počet veličin můžeme se pokusit zjistit závislost dvou veličin bez vlivu ostatních měřených veličin, k tomu se používá parciálních korelačních koeficientů. Ty jsou různých řádů – počet řádů je dán počtem vyloučených proměnných (pokud vlivu dvou veličin vyloučím vliv dalších tří měřených, pak se jedná o parciální korelaci třetího řádu). Ono “vyloučení” znamená, že “vyloučené” proměnné zůstávají neměnné = konstantní.

Parciální koeficienty se počítají různě, pro MS Excel lze výhodně použít vzorec, který uvádí Meloun:

R1i(2,3, . . .m) = ((-1)i*DETERMINANT(R1,i)) / (ODMOCNINA(DETERMINANT(R1,1)*DETERMINANT(Ri,i))

kde R je korelační matice všech měřených proměnných, kde v prvním řádku a sloupci je proměnná pro niž chci počítat parciální korelační koeficient a na i-tém místě je proměnná s níž chci proměnnou v prvním řádku a sloupci korelovat; matice (R1,i) vzniká z korelační matice R odstraněním prvního řádku a sloupce v němž se nachází druhá proměnná pro parciální korelaci; matice (R1,1) vzniká z korelační matice R odstraněním prvního řádku a prvního sloupce; matice (Ri,i) vzniká z korelační matice R odstraněním řádku a sloupce v nichž se nachází druhá proměnná pro parciální korelaci. Důrazně doporučujeme (s ohledem na minimalizaci generování chyb) ve výpočtu, dávat druhou proměnnou pro výpočet parciálního korelačního koeficientu na druhé místo. Příklad výpočtu v MS Excel je na videu.

POZOR!!!!! – z výpočtu je jasné, že “čistá” korelace po odfiltrování vlivu jedné nebo více proměnných je závislá na tom, co za proměnné mám naměřeno. S ohledem na tuto skutečnost je třeba výsledky interpretovat.

Mnohonásobná korelace

Mnohonásobný (nebo vícenásobný) korelační koeficient určuje míru závislosti mnou zvolené měřené proměnné a nejlepší kombinace všech dalších měřených proměnných. Taktéž jej uvádí Meloun:

R1(2, . . .m) = ODMOCNINA(-1*(DETERMINANT(R) / DETERMINANT(R1,1))

kde R je opět korelační matice všech měřených proměnných, kde v prvním řádku a sloupci je proměnná pro niž chci počítat mnohonásobný korelační koeficient; matice (R1,1) vzniká z korelační matice R odstraněním prvního řádku a prvního sloupce. Příklad výpočtu v MS Excel je na videu.

Pokud výsledný korelační koeficient umocníte na druhou a vynásobíte stem, tak získáte procentickou hodnotu, ze které variabilita všech dalších proměnných vysvětluje variabilitu v datech mnou zvolené proměnné (té, co je na prvním řádku a v prvním sloupci).

Výsledky mnohonásobné korelace nás už posunuly k jinému typu závislosti, od typu “A” souvisí “B” k typu “A” je závislé na “B”, tedy k regresi.