Advanced typy ANOVA
Jejich podstatou, stejně jako u lineární regrese a jednofaktorové ANOVA, je rozdělení varibility závislé proměnné (kterou je vždy poměrová proměnná), na části, které jsou schopny vysvětlit jednotlivé použité nezávislé proměnné (které mohou být podle modelu poměrového až nominálního charakteru) a část těmito proměnnými nevysvětlitelné.
Software určené ke zpracování dat jsou obvykle nastaveny i k jednoduchému ovládání počítání složitějších úloh, než je ANOVA jednoduchého třídění (k zopakování tabule).
Pro zopakování základní info k One-way ANOVA.
Pokud máme na straně vysvětlovaných proměnných jedinou proměnnou, patří různé typy ANOVA (vedle regresí) k nejčastěji používaným nástrojům řešení problémů pro factorial i nested design pokusů a sběru dat. Jde samozřejmě o případy, kdy mám více než jeden kategoriální prediktor – abychom se ve výsledcích byli schopni “rozumně” orientovat je dobré, aby faktory měly jen dvě úrovně (popř. 3) a aby těch faktorů určitě nebylo víc než 4.
Design sběru dat pro různé modely ANOVA.
U faktoriálního designu (na tabuli) lze v základu použít faktorovou ANOVA, pokud počítáme s interakcemi = předpokládáme, že vliv sledovaných kategoriálních proměnných (faktorů) není pouze aditivní – tedy, že kromě vlivu měřených proměnných, existuje i nenáhodný vliv kombinace těchto faktorů na variabilitu hodnot sledované proměnné. Je-li vztah čistě aditivní, pak používáme ANOVA hlavních efektů.
Pro klasická faktoriální data, aby je šlo “jednoduše” hodnotit pomocí ANOVA, platí:
- počty úrovní u faktorů se mohou lišit
- počet opakování v každé kombinaci by měl být stejný, pokud není, lze výpočty dělat, ale obvykle se speciálním nastavením – experimenty plánujte vždy se stejným počtem opakování!!!!!!!!!
- pokud nemám opakování, nemohu použít Factorial ANOVA, jen Main Effect ANOVA, protože není kde brát variabilitu pro průměr v každé kombinaci úrovní faktorů
Faktorová (factorial) ANOVA
Testujeme vliv dvou a více kategoriálních faktorů a současně vliv vzájemné kombinace těchto faktorů (= neaditivitu) na závislou proměnnou. Suma čtverců (SS), počet stupňů volnosti (DF) i variabilita (MS) se pro faktory počítá identicky jako v One-Way ANOVA (tedy jako SSG, DFG a MSG). Reziduální MS a SS se počítají taktéž stejně jako u One-way ANOVA, DFE je pak dán součinem počtu úrovní všech faktorů a počtu měření v kombinaci úrovní faktorů (ten poslední se obvykle značí r) sníženého o 1. Výpočet interakce faktorů je pak náročnější a základem variability je rozdíl průměru hodnot naměřených v dané kombinaci úrovní faktorů a jeho očekávané hodnoty. Tato očekávaná hodnota se vypočítá jako součet průměrů úrovní faktorů pro danou kombinaci (= u Two-way ANOVA jde průměr řádku a průmer sloupce dané kombinace úrovní faktorů) od nichž odečtu hodnotu celkového průměru. Rozdíl reálného průměru v kombinacích úrovní faktorů a očekávaného průměru v dané kombinaci faktorů pak musím násobit počtem měření v dané kombinaci úrovní faktorů. Počet stupňů volnosti je pak dán součinem úrovní faktorů, snížených 1 u každého faktoru.
Speciálním případem faktorové ANOVA je dvoufaktorová (dvoucestná) ANOVA, kterou umí i MS Excel (video). Učebnicovým příkladem (Lepš, 1996) jednoznačně neaditivních faktorů je test vlivu kombinace zálivky a hnojení na růst rostlin. Ve společenských vědách mohu třeba sledovat současný vliv pohlaví a věku (vyjádřený ve věkových kategoriích) na hodnocení atraktivity výstavy zbraní v zámecké expozici.
- Příklad z přírodních věd: hodnotíme vliv dvou dvouúrovňových proměnných na druhovou pokryvnost (předpokládáme splnění požadavku na zcela náhodné rozmístění ploch). Těmi faktory jsou minerální bohatost a množství živin. Nejprve na příkladu Drosera rotundifolia a následně Carex lasiocarpa.
Factorial ANOVA pro Drosera rotundifolia.
Factorial ANOVA pro Carex lasiocarpa.
ANOVA hlavních efektů (Main Effect ANOVA)
Používám pro testování pouze hlavních efektů – a priori na základě znalostí problematiky předpokládám aditivitu, tedy vzájemnou nezávislost sledovaných faktorů). Další možností je případ, kdy jsem ve Factorial ANOVA nemohl vyvrátit nulovou hypotézu o neexistenci vazby mezi faktory – nicméně platí, že to, že jsem nemohl zamítnou hypotézu o významu aditivity, ještě neznamená, že jsem potvrdil aditivitu – viz nulové hypotézy.
Při použití ANOVA hlavních efektů veškeré odchylky od aditivity považuji za náhodné a tyto odchylky se stávají součástí celkové variance – SS pro celkovou varianci se vypočítá jako součet reziduální SS (=SSE Factorial ANOVA) a interakční SS (vypočítané stejně jako u Factorial ANOVA), stejně tak DF celkové variance v Main Effect ANOVA je součem DFE a interančního DF. Praktické použití ve STATISTICA jsme si ukázali v předchozí části.
Pevné (fixed) versus náhodné (random) faktory
Pro použití ANOVA, do jejichž modelů vstupuje více faktorů, je významné rozhodnutí, jestli testuji vliv faktoru pevného nebo náhodného. Toto rozhodnutí dělán na základě podstaty dat vzhledem k výzkumné otázce a tedy stanovené nulové hypotéze. Pokud mě zajímá konkrétní úroveň faktoru, pak se jedná o faktor pevný, pokud je tento faktor jakýmsi obecným náhodným případem a mě zajímá na obecné a nikoliv “věcně” konkrétní úrovni, pak je náhodný. Rozhodování je často obtížné a odvíjí se od konkrétní situce nastoleného problému a jeho řešení, přesto lze uvést jakousi všeobecně platnou radu: pevné jsou obvykle faktory, které vysvětluji = jsou vlastním předmětem mého výzkumu, náhodné jsou faktory, které nějak souvisejí s designem pokusu (jsou náhodné a nikoliv vysvětlované, a to, co obvykle testuji, je zobecnění a nikoliv rozdíly mezi konkrétními místy, kde jsem pokus provedl).
Příklad mám dva zásahy a kontrolu, tedy 3 typy zásahu celkem, a budu v experimentu každý zásah opakovat 3x. Celkem mám tedy 9 měřených ploch. Aby to bylo naprosto správně, pak mohu udělat v podstatě tři základní věci: (1) použít (zcela) náhodné rozmístění ploch, (2) úplné znáhodnělé bloky, nebo (3) latinský čtverec. V každém z těchto případů musím použít jiný typ nastavení ANOVA – pro náhodné rozmístění (bod 1) použiji One-way ANOVA (faktor je typ zásahu = tři úrovně), pro úplné znáhodnělé bloky (bod 2) použiji Two-way ANOVA, kde zásahy budou fixed, bloky random, model je main effect, pro latinský čtverec budu muset použít Three-way ANOVA, kde fixed budou zásahy, ale pořadí plochy v řádku bude jeden random effect a pořadí plochy ve sloupci bude druhý random effect.
S tímto je problém ve STATISTICA, pokud používáme rychlého průvodce ANOVA v přímé nabídce Statistics – v nastavení random versus fixed jinak než otevřením syntax editoru nelze. Takže pokud chcete použít jen průvodce a hodnotit Factorial ANOVA nebo Main effect ANOVA, pak nemůžete použít jejich nabídku a musíte zvolit jeden z následujících postupů:
- na kartě Statistics položku Advanced models a v ní Variance components. V průvodci pak na záložce Quick zvolím požadované proměnné (všimněte si, že tam lze navolit i kovariátu – čili tento nástroj použiji i pro složitější designy ANCOVA), na kartě Model pak na druhé volbě volím jestli interakce mají bít fixed nebo random (zde si všimněte, že kromě factorial design lze níže nastavit i nested design).
- další a v drtivé většině případů šťastnější volbou je volit Advanced models – General linear a na jejich kartě zvolený typ ANOVA (factorial, main effect, hierarchical) nebo dole obecně General linear models. V dialogu nastavení na kartě Options mám nově volbu nastavení, které efekty mají být náhodné. Také zde lze nastavit poměrovou spojitou kovariátu. Přehled nastavení pro měření provedené na pokryvnosti Carex lasiocarpa s nastavením obou efektů jako random je na videu.
Nastavení náhodných faktorů ve STATISTICA.
Matematický rozdíl v pevných a náhodných efektech – výsledky pro nastavení pevných a náhodných efektů se liší neboť se liší výpočet F-testu. V čitateli zůstá v obou výpočtech MS faktoru, ale ve jmenovateli je pro pevné efekty reziduální průměrný čtverec (jaku u One-way ANOVA), ale u náhodných faktorů je ve jmenovateli interakční průměrný čtverec.
Mnohonásobné porovnání – podobně jako u One-way ANOVA, kde jsou tři a více úrovní grupovací proměnné, i zde lze pomocí post-hoc testů identifikovat “co se od čeho liší.” Ve STATISTICA vypadají karty Factorial i Main effect ANOVA stejně jako u One-way ANOVA. Pokud použijete nástroj Variance components, tak tady možnost post-hoc testování není. Nicméně musíme na tomto místě upozornit, že z podstaty věci je ANOVA explorativní analýza a s ohledem na nulové hypotézy jí nelze prokázat rozdíly, ale pouze jí můžeme nebo nemůžeme potvrdit neexistenci rozdílů. K interpretaci výsledků bychom měli primárně používat interakčních grafů a znalosti studovaného problému.
ANOVA pro porušení zásady nezávislosti měření (výběrů)
V pokusech můžeme mít nejčastěji dva typy plánovaných porušení nezávislosti měření. Prvním typem je porušení plynoucí z použití skupinového náhodného výběru a druhů, že opakujeme měření. Pro řešení prvního typu porušení nezávislosti výběrů je určena hierarchická ANOVA, pro druhý RMANOVA.
Hierarchická (Nested) ANOVA
Také v ní můžeme testovat více “faktorů”, ale o “faktorech” víme, že si nejsou rovnocenné, ale tvoří jistý hierarchický systém (na tabuli).
K porovnání dat z factorial a nested designu sběru dat.
Vulgárně řečeno, faktor nižší úrovně tvoří podmnožiny faktoru postaveného výše. Asi nejlepší na vysvětlení je příklad z učebnice (Lepš, 1996, s. 104) – autory zajímaly rozdíly délek korunních trubek u nějakého druhu hluchavky – styl, kterým vybrali květy není faktorový, ale je “nested” – navštíveny byly lokality a na lokalitách byly sebrány kytky a na nich byly měřeny vybrané květy. V podstatě můžeme říci, že se jedná o “bloky” (kytky) umístěné v “blocích” (lokality). Vysvětlovanou (závislou) proměnnou je samozřejmě délka korunní trubky. Nezávislou proměnnou je rostlina, na které jsme květy měřili a lokalita, na které jsme nasbírali ty kytky. Kytka je pak faktor s náhodným efektem. Lokalita může být fixed i random, podle situace pokusu – vzhledem k tomu, že autoři píší, že “porovnáváme lokality”, tak by měla být fixed.
Tady je asi zapotřebí upozornit na rozdíl mezi factorial a nested design – ten je primárně jasný z dat “faktorů”. Úplně znáhodnělé bloky, které jsme řešili při vysvětlování “fixed” versus “random”, jsou faktory, protože zásah typu 1 byl proveden v bloku 1, 2 i 3, zásah typu 2 byl proveden taktéž v bloku 1, 2 i 3. Naproti tomu kytka 1 (z předchozího odstavce) pochází jen z lokality 1, kytka 2 pochází jen z lokality 1, kytka 3 pochází jen z lokality 3, atd. Čili přinejmenším z kódování dat je jasné, jde-li o factorial nebo nested design (to uvádíme jen proto, že s tím jsou těžké problémy u zápočtu 🙂
Hierarchickou ANOVA v drtivé většině případů použijeme proto, že jsme naplánovali pokus nebo sběr dat na hierarchické úrovni (obvykle jde o skupinové náhodné výběry na jedné a více úrovních). Pro tento typ designu je pravidlem, že nás zajímá jen rozdíl skupin nejvyšší úrovně – tento faktor je pevný. Nižší “faktory” jsou zahnízděny v (nested in / nested under / nested within) skupinách (vyšší úrovně) – tvoří tedy podskupiny (subgroups). Konkrétní měřené vzorky jsou v nich vybrány náhodně a i tyto podskupiny jsou náhodným výběrem ze základního souboru podskupin – proto podskupiny (a případné další podpodskupiny) nastavujeme vždy jako náhodné faktory.
Přestože jsme na začátku uváděli nested design jako jeden ze způsobů designu experimentů, má tento design své uplatnění i v neexperimentálních výzkumných plánech. Nejčastěji se s ním v praxi setkáte, když budete dělat více měření na jednom objektu = na jedné lokalitě uděláte více měření (např. tam uděláte více vegetačních snímků nebo budete sledovat více transektů) nebo sledovanou proměnou změříte na jednom laboratorním zvířeti na několika místech jeho těla.
POZOR!!!!!
- V základním kurzu jsme pro řešení podobných (ne stejných!!!!) úloh používali One-way ANOVA – měli jsme tam ale jen jednu úroveň (= tu nejvyšší). Řešili jsme už jen konkrétní případy (= jejich rozdíly mezi skupinami nejvyšší úrovně) a neřešili jsme, že vzorky pochází ze specifických podskupin. Mohli jsme si to dovolit, protože jsme dat amístopsežně prohlásili z adata sebrané zce náhodně. Tento statistický postup vyhodnocení ale není v případech, kdy byly vzorky (konkrétní lokality, respondenti dotazníků, pokusní jedinci) vybírány skupinově, správný – je porušeno pravidlo nezávislosti jednotlivých měření (data jsou výsledkem pseudoreplikace). Musíme použít hierarchickou ANOVA s příslušným počtem úrovní skupin.
- Pokud nás zajímají i rozdíly v podskupinách a hlavně mezi nimi, pak je musíme nastavovat jako fixed a v těchto případech se už nepoužívá hierarchická ale faktorová ANOVA.
Hierarchickou ANOVA naleznete ve Statistice např. ve struktuře Statistics – Advanced models – General linear, kde je to položka Nested design ANOVA. V něm jsem schopen veškerá nastavení učinit.
- Příklad z přírodních věd: Jsme postaveni před otázku – Existuje souvislost mezi pokryvností Carex rostrata a množstvím minerálů rozpuštěných v podzemní vodě na jejím stanovišti? Pro studování této souvislosti byl zvolen Nested design. Základní vysvětlující proměnnou je minerální bohatost podzemní vody stanoviště prezentovaná dvěma stupni – minerálně bohatá versus minerálně chudá, v rámci těchto dvou typů stanovišť byly vybrány čtyři lokality a na nich provedeny dvoje měření pokryvnosti Carex rostrata. Řešení ve Statistica je na videu.
Práce s Nested ANOVA ve STATISTICA.
- Příklad ze sociálních věd: Zde je příklad jasný. V momentě, kdy mě zajímají rozdíly např. mezi lokalitami a data byla řešena sběrem dotazníky, kde bylo na každé lokalitě povícero tazatelů, tak by se neměla používat One-way ANOVA, ale hierarchická a jako podskupina by se mělo použít jednotlivých tazatelů, kteří jsou zahnízděni v lokalitě.
Na tomto místě se podívejme na další možnost ovládání testů v software Statistica – použití Analysis Wizard na příkladu nested design je na videu.
Ovládání Analysis Wizard ve STATISTICA.
ANOVA pro opakovaná měření (RMANOVA)
Testujeme vliv jednoho nebo více faktorů, které byly měřeny opakovaně (např. pH na lokalitě na jaře, v létě a na podzim nebo např. míra spokojenosti s ubytováním při první, při druhé a při třetí návštěvě daného hotelu). Podstatou tohoto opakování je, že lokalita byla změřena opakovaně na stejném místě nebo vzorek byl odebrán přesně ze stejného místa na zvířeti). V takových případech nemůžeme použít faktorovou ANOVA, pač měření pH na jaře a na podzim nejsou vzájemně nezávislé proměnné, stejně jako měření spokojenosti s prvním pobytem a třetím pobytem – musíme proto snižovat stupně volnosti. Už jsme i viděli, že jako závislé je považováno, když se v dotazníku ptáte respondenta na názor na větší množství např. produktů (s tím, že u každého produktu respondent rozhodoval na samostatné škále). Obecně je tento design označován jako “subject by trials design”. Ve své podstatě se jedná o factorial design, kde jeden faktor je tvořen vzájemně závislými měřeními.
STATISTICA má pro tato měření speciální nástroj volaný z karty ANOVA hlavní nabídky Statistics.
- Příklad z přírodních věd: Jako příklad si můžeme ukázat to, co jsme již řešili v základním kurzu. Otázkou je jestli se pH liší v typech vegetace podle druhové bohatosti, jestli se liší jednotlivá měření pH a jestli jsou tyto odlišnosti odlišné v typech vegetace podle druhové bohatosti? Řešení ve Statistica je na videu.
Výpočet RM ANOVA ve STATISTICA.
Pro všechny typy ANOVA platí, že v nastavení Sum of squares nastavujeme Type I nebo Type II, pokud máme vyvážené uspořádání, a Type III, pokud máme nevyvážené uspořádání, tedy různý počet měření v různých kombinacích proměnných, nebo některé kombinace měřeny nejsou – viz fractional factorial design – pro tyto případy jsou v nabídce i Type IV-VI.
Všimněte si, že u všech případů těchto komplikovanějších výzkumů, je zásadním už vlastní příprava měření – je třeba dopředu vědět, co proti čemu chci hodnotit, a podle toho nastavit systém sběru dat.
Návod na výpočet RM-ANOVA (jen faktor čas) pro MS Excel je na tomto externím odkazu.
Velikost účinku v lineárních modelech
Máme-li v modelu více nezávislých proměnných, které mají statistický vliv na nezávislou proměnnou, budeme postaveni před problém rozhodnout, jak důležité jsou. Už víme, že pro rozhodování o významu modelu jako celku používáme hodnotu adjusted R2, která nám říká z jakého podílu nám kombinace nezávislých proměnných vysvětluje variabilitu závislé proměnné. O důležitosti vlivu jednotlivých nezávislých proměnných na závislou proměnnou nám říká velikost účinku (effect size) – její mírou je v ANOVA modelech hodnota partial eta-squared.
Friedmanova ANOVA neboli Friedmanův test
Je neparametrickou obdobou testu ANOVA pro opakovaná měření (RMANOVA). Podobně jako Wilcoxonův test je výpočet založen na pořadí. Vzorec na výpočet testovacího kritéria je podobný Kruskal-Wallisovu testu. Vzorec včetně modelového výpočtu v MS Excel je na externím odkazu. Mnohonásobné porovnání se pak dělá na základě absolutní hodnoty rozdílu sum pořadí dvojice úrovní a jeho porovnání s tabelovanou hodnotou.
Friedmanův test se používá běžně v případech, kde není možné použít RMANOVA – teoreticky by se měla používat vždy, když máme ordinální data z dotaníků, která nejčastěji neoprávněně prohlašujeme za poměrová a navíc “normální”.
Bohužel Statistica nemá nástroj na “Two way” variantu tohoto testu, který by byl pravou náhradou RMANOVA (má ho ale např. Unistat). K dispozici máme jen jeho one-way variantu – tedy nejsme schopni jednoduše souběžně posoudit rozdíl v čase a mezi např. vegetačními typy, můžeme jen posoudit rozdíly v čase – video.
Friedmanův test ve STATISTICA.
Návod na výpočet Friedmanův test (jen faktor čas) pro MS Excel je na tomto externím odkazu.
ANCOVA
Pod tímto názvem se skrývá analýza kovariance. Tu použijeme v případě, že kromě kategoriálních skupin v jednofaktorové nebo vícefaktové ANOVA máme i poměrovou proměnnou, o které víme, že má vliv na velikost závislé proměnné. Vliv této proměnné chceme eliminovat, protože nás nezajímá, ale mi víme, že má vliv na sledovanou závislou proměnnou – použijeme ji v analýze jako tzv. kovariátu, jejíž vliv se nejprve od závislé proměnné “odečte” a následně se testuje rozdíl ve skupinách faktoru/ů. MS Excel v doplňcích analytických nástrojů ANCOVA nemá, nicméně pomocí regrese a ANOVA se k výsledku lze relativně jednoduše dobrat i v něm – návod je na externím odkazu. Ve STATISTICA je ANCOVA s sekci Statistics – Advanced models, a tam buď v General linear nebo, pokud chci nastavovat fixed versus random predictors, tak pak ve Variance components. Ani STATISTICA není schopna počítat s kovariátou nominálního charakteru, což je dost velké mínus pro ekologické experimenty – musí se použít CANOCO.
- Příklad z přírodních věd: Ústně jsme několikrát řešili na přednáškách v základním kurzu délky ocásků u tarbíků. Jenou z možností jak řešit problém rozdílnosti délky ocásků mezi pohlavími u tarbíka je použití modelu ANCOVA, kde vysvětlovanou proměnnou je délka ocásku, kategorickým prediktorem je pohlaví a kovariátou bude celková velikost jedince.