Kovariance a korelace

Už v předchozích částech jsme řešili problematiku závislosti či nezávislosti výběrů. Řekli jsme si, že tu jsme schopni řídit designem sběru dat či výběrem objektů pro experiment. Kromě tohoto problému patří k základním statistickým metodám ještě řešení problému vzájemné souvislosti měřených náhodných veličin. Na tomto místě se podíváme na vyjádření vzájemné souvislosti, dále i na závislosti náhodných veličin, které jsme na objektech změřili.

Kovarianci a korelaci se naučíme v 10. lekci R.

Videoprezentace


Kovariance

Je základním ukazatelem vzájemné souvislosti (založené na variabilitě) dvou náhodných veličin. Jde v podstatě o hodnotu společného rozptylu a z výpočtu rozptylu také vychází. V MS Excel je na její výpočet funkce COVARIANCE.S. v R je to jednodušší – příkaz zní cov(). Kovarianci značíme obvykle cov(XY) nebo s(XY) a pro spojitou veličinu ji lze vypočítat jako:

cov(XY) = SUMA(i = 1 až n) ((Xi – průměr X)*(Yi – průměr Y)) / (n-1)

  • pokud je cov(XY) větší než 0, pak je souvislost mezi veličinami X a Y pozitivní, čím je větší X tím je větší Y a naopak
  • pokud je cov(XY) menší než 0, pak je souvislost mezi veličinami X a Y negativní, čím je větší X tím je menší Y a naopak
  • platí, že nezávislé veličiny mají cov(XY) rovnu nule, ale bohužel neplatí, že by cov(XY) rovnou nule znamenalo, že X a Y jsou nezávislé
  • kovariance nám neříká také nic o síle vazby – je vyjádřena v jednotkách X a Y

V praktické statistice základní úrovně se hlavně z důvodu výše uvedených nevýhod moc nepoužívá (místo ní se používá korelace – viz dále). Svůj velký význam má kovariance v mnohorozměrných analýzách, kde je matice kovariancí velkého množství proměnných vstupem do vlastních analýz. POZOR – na diagonále kovariační matice je hodnota rozptylu dané proměnné.

  • Příklad z přírodních věd 1: Existuje souvislost v koncentracích vápenatých a hořečnatých iontů v podzemní vodě sytící slatiniště? Na větším počtu lokalit jsme odebrali po jednom vzorku vody, dám udělat rozbor množství iontů v každém vzorku a zajímá mě, jestli je mezi oběma hodnotami zjištěnými na jednotlivých lokalitách nějaká vazba. Použijte soubor data1.xlsx a proměnné Ca1 a Mg1.
  • Příklad z přírodních věd 2: Existuje souvislost mezi velikostí samice ostrorepa a biomasou samců, které nese při rozmnožování? Použijte soubor korelace.xlsx a proměnné samci_biomasa a samice_hmotnost.
  • Příklad ze sociálních věd: Existuje souvislost hodnocení spokojenosti s návštěvou zámku (měřené na 7-stupňové škále) a ochotou jeho návštěvu doporučit známým (měřené na 7-stupňové škále)? V dotazníku se ptám návštěvníků na obě proměnné a potom porovnávám odpovědi v dotaznících.

Videoprezentace


Korelace

Párová korelace

Korelací rozumíme taktéž statistickou souvislost dvou obvykle kvantitativních proměnných. Na rozdíl od kovariance je však vyjádřením míry této souvislosti. Míra (= síla) souvislosti je dána korelačním koeficientem. Základním rozdílem od kovariance je jeho bezrozměrnost (hodnota je nezávislá na jednotkách obou veličin) a normalizované vyjádření = může nabývat hodnot v intervalu od -1 do 1; kde 1 znamená 100% pozitivní souvislost, -1 znamená 100% negativní souvislost a 0 znamená absolutní nezávislost.

Korelační koeficient používáme často při prvním náhledu na strukturu sebraných dat. Nejčastěji se používá Pearsonův korelační koeficient, jehož vzorec je na tabuli. Dobré výsledky však dává jen při splnění předpokladu normality rozdělení porovnávaných proměnných.

Pearsonův korelační koeficient

V MS Excel má funkci CORREL,

V R zní příkaz pro korelaci cor().

Také pro korelační koeficient se testuje jeho významnost. Jejím problémem ale je, že ta je funkcí počtu měření – s narůstajícím počtem měření tedy stačí pro “prokázání” statistické významnosti koeficient s hodnotou stále bližší nule. Obecně platí, že “prokázání” souvislosti závisí především na řešeném problému – v případě porovnání měření jedné veličiny dvěma přístroji nebudeme s korelací 0,95 spokojeni, ale v případě zjištění korelace 0,35 mezi výdaji turisty na dovolené a mírou jeho zájmu o určitý produkt, budeme tuto hodnotu považovat za prokázání korelace. Statistická významnost bude v obou případech hrát v praxi podružnou roli, nicméně pro BP a DP byste se měli primárně vyjadřovat ke koeficientům, které jsou statisticky významné – pokud budete mít dostatečný počet měření a mezi proměnnými souvislost opravdu existuje, pak by s prokázáním statistické významnosti koeficientu neměl být problém.

Často ovšem neměřím jen dvě proměnné, ale větší množství vztahující se k řešenému problému – pro každou dvojici počítám korelační koeficient a výsledkem je korelační matice, tedy symetrická matice, kde na diagonále jsou samé jedničky.

Výpočet korelační matice Pearsonových korelačních koeficientů je v MS Excel jednoduchý a je na videu. Ovládání ve Statistica je na videu.

  • Příklady: jsou stejné jako u kovariance

Pro data, která nesplňují podmínku normality dat, se běžně používá vícero neparametrických korelačních koeficientů – nejčastěji používaným je Spearmanův koeficient pořadové korelace, jehož vzorec je na tabuli, popřípadě Kendall-Tau korelační koeficient.

Spearmanův koeficient pořadové korelace

Návod na výpočet v MS Excel je na externím videu. Lze jej použít pro poměrová data, která nesplňují podmínku normality, pro ordinální data (pro která jsou primárně tyto koeficienty určeny), i data nominální – u nich je však třeba dát si pozor na kódování (bezpodmínečně musíte použít bivariátní kódování = jedna proměnná bude mít tolik sloupců, kolik je kategorií této proměnné – řešili jsme to v typech dat).

  • Základní příklady: jsou stejné jako u kovariance
  • Další příklad z přírodních věd: Chci-li korelovat hodnotu pH s geologickým substrátem, musím mít geologický substrát zadán jako bivariátní proměnnou a ne jako vícekategoriální nominální proměnnou. Korelovat mohu nikoliv geologický substrát, ale zvlášť žulu, rulu, svor, atd.
  • Další příklad ze sociálních věd: Chci-li korelovat hodnotu míry spokojenosti s ubytováním v hotelu s věkovou kategorií, musím mít věkové kategorie zadány jako bivariátní proměnnou a ne jako vícekategoriální nominální proměnnou. Korelovat mohu nikoliv věkové kategorie, ale zvlášť věk 18-25, 25-35, 35-45, atd.

Pro korelační koeficienty lze testovat statistickou významnost, která se odvíjí od počtu měření – čím mám větší počet měření, tím mi k prokázání významnosti stačí nižší absolutní hodnota korelačního koeficientu. POZOR!!!! – statistická významnost koeficientu však není statistickým důkazem kauzality, jde pouze o identifikátor existence nebo neexistence “nějaké” vazby mezi náhodnými veličinami. Také platí, že tato vazba nemusí být přímá, ale je zprostředkovaná nějakou další proměnnou.

Vzhledem k tomu, že obvykle měřené proměnné jsou vzájemně “prokorelované”, pak mě často zajímají čisté závislosti a používám parciálních korelací, nebo celkový vliv měřených proměnných na jednu proměnnou, pak používáme mnohonásobnou korelaci.

Parciální korelace

Závislost dvou proměnných může být ovlivněna závislostí obou těchto proměnných a proměnnou třetí (čtvrtou, pátou, atd., podle toho, kolik jsme jich naměřili). Pokud máme větší počet proměnných můžeme se pokusit zjistit závislost dvou proměnných bez vlivu ostatních měřených proměnných. K tomu se používá parciálních korelačních koeficientů. Ty jsou různých řádů – počet řádů je dán počtem vyloučených proměnných (pokud vlivu dvou veličin vyloučím vliv dalších tří měřených, pak se jedná o parciální korelaci třetího řádu). Ono “vyloučení” znamená, že “vyloučené” proměnné zůstávají neměnné = konstantní.

Parciální koeficienty se počítají různě, pro MS Excel lze výhodně použít vzorec, který uvádí Meloun:

R1i(2,3, . . .m) = ((-1)i*DETERMINANT(R1,i)) / (ODMOCNINA(DETERMINANT(R1,1)*DETERMINANT(Ri,i))

kde R je korelační matice všech měřených proměnných, kde v prvním řádku a sloupci je proměnná pro niž chci počítat parciální korelační koeficient a na i-tém místě je proměnná s níž chci proměnnou v prvním řádku a sloupci korelovat; matice (R1,i) vzniká z korelační matice R odstraněním prvního řádku a sloupce v němž se nachází druhá proměnná pro parciální korelaci; matice (R1,1) vzniká z korelační matice R odstraněním prvního řádku a prvního sloupce; matice (Ri,i) vzniká z korelační matice R odstraněním řádku a sloupce v nichž se nachází druhá proměnná pro parciální korelaci. Důrazně doporučujeme (s ohledem na minimalizaci generování chyb) ve výpočtu, dávat druhou proměnnou pro výpočet parciálního korelačního koeficientu na druhé místo.

POZOR!!!!! – z výpočtu je jasné, že “čistá” korelace po odfiltrování vlivu jedné nebo více proměnných je závislá na tom, co za proměnné mám naměřeno. S ohledem na tuto skutečnost je třeba výsledky interpretovat.

Příklad výpočtu v MS Excel je na videu.

Mnohonásobná korelace

Mnohonásobný (nebo vícenásobný) korelační koeficient určuje míru závislosti mnou zvolené měřené proměnné a nejlepší kombinace všech dalších měřených proměnných. Taktéž jej uvádí Meloun:

R1(2, . . .m) = ODMOCNINA(-1*(DETERMINANT(R) / DETERMINANT(R1,1))

kde R je opět korelační matice všech měřených proměnných, kde v prvním řádku a sloupci je proměnná pro niž chci počítat mnohonásobný korelační koeficient; matice (R1,1) vzniká z korelační matice R odstraněním prvního řádku a prvního sloupce.

Pokud výsledný korelační koeficient umocníte na druhou a vynásobíte stem, tak získáte procentickou hodnotu, ze které variabilita všech dalších proměnných vysvětluje variabilitu zvolené proměnné (té, co je na prvním řádku a v prvním sloupci). R nic základního v počtu R nemá a mi se na něj podíváme příště u regresí, kde upravené R2 je jedním z hlavních výsledků.

Výsledky mnohonásobné korelace nás už totiž posunuly k jinému typu závislosti, od typu “A” souvisí “B” k typu “A” je závislé na “B”, tedy k regresi.

Příklad výpočtu v MS Excel je na videu.

Videoprezentace