Advanced typy ANOVA

Jejich podstatou, stejně jako u lineární regrese a jednofaktorové ANOVA, je rozdělení varibility závislé proměnné (kterou je vždy poměrová proměnná), na části, které jsou schopny vysvětlit jednotlivé použité nezávislé proměnné (které mohou být podle modelu poměrového až nominálního charakteru) a část těmito proměnnými nevysvětlitelné.

Software určené ke zpracování dat jsou obvykle nastaveny i k jednoduchému ovládání počítání složitějších úloh, než je ANOVA jednoduchého třídění (k zopakování tabule). Pokud máme na straně vysvětlovaných proměnných jedinou proměnnou, patří různé typy ANOVA (vedle regresí) k nejčastěji používaným nástrojům řešení problémů pro factorial i nested design pokusů a sběru dat. Jde samozřejmě o případy, kdy mám více než jeden kategoriální prediktor – už jsme si říkali, že pro následné vysvětlení není dobré, aby každý faktor neměl o moc více úrovní než dvě a aby takových faktorů bylo do čtyř.

U faktoriálního designu (na tabuli) lze v základu použít faktorovou ANOVA, pokud počítáme s interakcemi = předpokládáme, že vliv sledovaných kategoriálních proměnných (faktorů) není pouze aditivní – tedy, že kromě vlivu měřených proměnných, existuje i nenáhodný vliv kombinace těchto faktorů na variabilitu hodnot sledované proměnné. Je-li vztah čistě aditivní, pak používáme ANOVA hlavních efektů.

Faktorová (factorial) ANOVA (Lepš, 1996, kap. 9)

Testujeme vliv více kategoriálních faktorů než jednoho a současně vliv kombinace těchto faktorů (= neaditivitu) – měl by být stejný počet měření pro každou kombinaci působících faktorů (ale nemusí, pak ale je třeba měnit automatické nastavení), faktory mohou mít různé počty skupin (Lepš, 1996, s. 89-94 nahoře), jen na okraj – v Obr. 9-1 jsou kontingenční tabulky, v polích jsou ale zobrazeny průměrné hodnoty měření jednotlivých kombinací faktorů a nikoliv počty – ty jsou všude stejné. Speciálním případem faktorové ANOVA je dvoufaktorová (dvoucestná) ANOVA, kterou umí i MS Excel (video). Příklad v učebnici (Lepš, 1996; hnojení a zálivka) je snad jasný – ve společenských vědách mohu třeba sledovat současný vliv pohlaví a věku (vyjádřený ve věkových kategoriích) na hodnocení atraktivity výstavy zbraní v zámecké expozici.

  • Příklad z přírodních věd: hodnotíme vliv dvou dvouúrovňových proměnných na druhovou pokryvnost (předpokládáme splnění požadavku na zcela náhodné rozmístění ploch). Těmi faktory jsou minerální bohatost a množství živin. Nejprve na příkladu Drosera rotundifolia a následně Carex lasiocarpa.

ANOVA hlavních efektů (Main effect ANOVA) (Lepš, 1996, s. 93-94)

Používám pro testování pouze hlavních efektů – a priori předpokládám aditivitu, nebo jsem ji pomocí factorial ANOVA “potvrdil” (výše uvedeným postupem toto potvrzení ale není až tak úplně možné; to, že jsem nemohl zamítnou hypotézu o významu neaditivity, ještě neznamená, že jsem potvrdil aditivitu – viz nulové hypotézy). Rozhodování o adivitě a neaditivitě je primárně založeno na naší znalosti vazby mezi efekty na sledovanou proměnou.

Při použití ANOVA hlavních efektů veškeré odchylky od aditivity považuji za náhodné a tyto odchylky se stávají součástí celkové variance. Použití jsme si ukázali v předchozí části.

Pevné (fixed) versus náhodné (random) faktory (Lepš, 1996, s. 80 dole – 81 nahoře a 93 nahoře)

Tabulka 9-2 (Lepš, 1996) názorně shrnuje z čeho je F-test v ANOVA počítán, při různém uvažovaní o variabilitě měřených proměnných. O použití Modelu I, II a III rozhoduji podle podstaty dat. Rozumně je to vysvětleno v části “Dva modely analýzy variance”. K tomu lze uvést následující berličku pro Vaše rozhodování: fixed jsou obvykle faktory, které vysvětluji = jsou předmětem mého výzkumu, random jsou faktory, které nějak souvisejí s designem pokusu (jsou náhodné a nikoliv vysvětlované, a to, co obvykle testuji, je zobecnění a nikoliv rozdíly mezi konkrétními místy, kde jsem pokus provedl).
Komentář k obrázku 9-4 (Lepš, 1996) to snad osvětlí lépe: mám tři zásahy a kontrolu, tedy 4 typy zásahu celkem, a budu v experimentu každý zásah opakovat 4x. Celkem mám tedy 16 měřených ploch. Aby to bylo naprosto správně, pak mohu udělat v podstatě tři základní věci: (1) použít náhodné rozmístění ploch (to tam není ukázáno), (2) úplné znáhodnělé bloky, nebo (3) latinský čtverec. V každém z těchto případů musím použít jiný typ nastavení ANOVA – pro náhodné rozmístění použiji one-way ANOVA (skupinou budou 4 typy zásahu), pro úplné znáhodnělé bloky použiji Two-way ANOVA, kde zásahy budou fixed, bloky random, model je main effect, pro latinský čtverec budu muset použít three-way ANOVA, kde fixed budou zásahy, ale pořadí plochy v řádku bude jeden random effect a pořadí plochy ve sloupci bude druhý random effect.

S tímto je problém ve STATISTICA 12, pokud používáme rychlého průvodce ANOVA v přímé nabídce Statistics – v nastavení random versus fixed jinak než otevřením syntax editoru nelze. Takže pokud chcete použít jen průvodce a hodnotit Factorial ANOVA nebo Main effect ANOVA, pak nemůžete použít jejich nabídku a musíte zvolit jeden z následujících postupů:

  • na kartě Statistics položku Advanced models a v ní Variance components. V průvodci pak na záložce Quick zvolím požadované proměnné (všimněte si, že tam lze navolit i kovariátu – čili tento nástroj použiji i pro složitější designy ANCOVA), na kartě Model pak na druhé volbě volím jestli interakce mají bít fixed nebo random (zde si všimněte, že kromě factorial design lze níže nastavit i nested design).
  • další a v drtivé většině případů šťastnější volbou je volit Advanced models – General linear a na jejich kartě zvolený typ ANOVA (factorial, main effect, hierarchical) nebo dole obecně General linear models. V dialogu nastavení na kartě Options mám nově volbu nastavení, které efekty mají být náhodné. Také zde lze nastavit poměrovou spojitou kovariátu. Přehled nastavení pro měření provedené na pokryvnosti Carex lasiocarpa s nastavením obou efektů jako random je na videu.

Mnohonásobné porovnání – podobně jako u One-way ANOVA, kde jsou tři a více úrovní grupovací proměnné, i zde lze pomocí post-hoc testů identifikovat “co se od čeho liší.” Ve STATISTICA vypadají karty Factorial i Main effect ANOVA stejně jako u One-way ANOVA. Pokud použijete nástroj Variance components, tak tady možnost post-hoc testování není. Nicméně musíme na tomto místě upozornit, že z podstaty věci je ANOVA explorativní analýza a s ohledem na nulové hypotézy jí nelze prokázat rozdíly, ale pouze jí můžeme nebo nemůžeme potvrdit neexistenci rozdílů. K interpretaci výsledků bychom měli primárně používat interakčních grafů a znalosti studovaného problému.

Hierarchická (nested) ANOVA (Lepš, 1996, kap. 11)

Také můžeme testovat více “faktorů”, ale o “faktorech” víme, že si nejsou rovnocenné, ale tvoří jistý hierarchický systém (na tabuli). Vulgárně řečeno, faktor nižší úrovně tvoří podmnožiny faktoru postaveného výše. Asi nejlepší na vysvětlení je příklad 3 na s. 104 (Lepš, 1996) – autory zajímaly rozdíly délek korunních trubek u nějakého druhu hluchavky – styl, kterým vybrali květy není faktorový, ale je “nested” – navštíveny byly lokality a na lokalitách byly sebrány kytky a na nich byly měřeny vybrané květy. V podstatě můžeme říci, že se jedná o bloky (kytky) umístěné v blocích (lokality). Vysvětlovanou (závislou) proměnnou je samozřejmě délka korunní trubky. Nezávislou proměnnou je rostlina, na které jsme květy měřili a lokalita, na které jsme nasbírali ty kytky. Kytka je pak faktor s náhodným efektem. Lokalita může být fixed i random, podle situace pokusu – vzhledem k tomu, že autoři píší, že “porovnáváme lokality”, tak by měla být fixed.

Tady je asi zapotřebí upozornit na rozdíl mezi factorial a nested design – ten je primárně jasný z dat “faktorů”. Úplně znáhodnělé bloky, které jsme řešili při vysvětlování “fixed” versus “random”, jsou faktory, protože zásah typu 1 byl proveden v bloku 1, 2, 3 i 4, zásah typu 2 byl proveden taktéž v bloku 1, 2, 3 i 4. Naproti tomu kytka 1 (z předchozího odstavce) pochází jen z lokality 1, kytka 2 pochází jen z lokality 1, kytka 3 pochází jen z lokality 3, atd. Čili přinejmenším z kódování dat je jasné, jde-li o factorial nebo nested design (to uvádíme jen proto, že s tím jsou těžké problémy u zápočtu 🙂

Hierarchickou ANOVA v drtivé většině případů použijeme proto, že jsme naplánovali pokus nebo sběr dat na hierarchické úrovni (obvykle jde o skupinové náhodné výběry na jedné a více úrovních). Pro tento typ designu je pravidlem, že nás zajímá jen rozdíl skupin nejvyšší úrovně – tento faktor je pevný. Nižší “faktory” jsou zahnízděny v (nested in / nested under / nested within) skupinách (vyšší úrovně) – tvoří tedy podskupiny (subgroups). Konkrétní měřené vzorky jsou v nich vybrány náhodně a i tyto podskupiny jsou náhodným výběrem ze základního souboru podskupin – proto podskupiny (a případné další podpodskupiny) nastavujeme vždy jako náhodné faktory.
Přestože jsme na začátku uváděli nested design jako jeden ze způsobů designu experimentů, má tento design své uplatnění i v neexperimentálních výzkumných plánech. Nejčastěji se s ním v praxi setkáte, když budete dělat více měření na jednom objektu = na jedné lokalitě uděláte více měření (např. tam uděláte více vegetačních snímků nebo budete sledovat více transektů) nebo sledovanou proměnou změříte na jednom laboratorním zvířeti na několika místech jeho těla.

POZOR!!!!!

  • V základním kurzu jsme pro řešení podobných (ne stejných!!!!) úloh používali One-way ANOVA – měli jsme jen jednu úroveň (= tu nejvyšší). Řešili jsme už jen konkrétní případy (= jejich rozdíly mezi skupinami nejvyšší úrovně) a neřešili jsme, že vzorky pochází ze specifických podskupin. Tento postup ale není v případech, kdy byly vzorky (konkrétní lokality, respondenti dotazníků, pokusní jedinci) vybírány skupinově, správný – je porušeno pravidlo nezávislosti jednotlivých měření (data jsou výsledkem pseudoreplikace). Musíme použít hierarchickou ANOVA s příslušným počtem úrovní skupin.
  • Pokud nás zajímají i rozdíly v podskupinách a mezi nimi, pak je musíme nastavovat jako fixed a v těchto případech se už nepoužívá hierarchická ale faktorová ANOVA.

Hierarchickou ANOVA naleznete ve Statistice např. ve struktuře Statistics – Advanced models – General linear, kde je to položka Nested design ANOVA. V něm jsem schopen veškerá nastavení učinit.

  • Příklad z přírodních věd: Jsme postaveni před otázku – Existuje souvislost mezi pokryvností Carex rostrata a množstvím minerálů rozpuštěných v podzemní vodě na jejím stanovišti? Pro studování této souvislosti byl zvolen Nested design. Základní vysvětlující proměnnou je minerální bohatost podzemní vody stanoviště prezentovaná dvěma stupni – minerálně bohatá versus minerálně chudá, v rámci těchto dvou typů stanovišť byly vybrány čtyři lokality a na nich provedeny dvoje měření pokryvnosti Carex rostrata. Řešení ve Statistica je na videu.
  • Příklad ze sociálních věd: Zde je příklad jasný. V momentě, kdy mě zajímají rozdíly např. mezi lokalitami a data byla řešena sběrem dotazníky, kde bylo na každé lokalitě povícero tazatelů, tak by se neměla používat One-way ANOVA, ale hierarchická a jako podskupina by se mělo použít jednotlivých tazatelů, kteří jsou zahnízděni v lokalitě.

Na tomto místě se podívejme na další možnost ovládání testů v software Statistica – použití Analysis Wizard na příkladu nested design je na videu.

ANOVA pro opakovaná měření (RMANOVA)

Testujeme vliv jednoho nebo více faktorů, které byly měřeny opakovaně (např. pH na lokalitě na jaře, v létě a na podzim nebo např. míra spokojenosti s ubytováním při první, při druhé a při třetí návštěvě daného hotelu). V takových případech nemůžeme použít faktorovou ANOVA, pač měření pH na jaře a na podzim nejsou vzájemně nezávislé proměnné, stejně jako měření spokojenosti s prvním pobytem a třetím pobytem – musíme proto snižovat stupně volnosti. Už jsme i viděli, že jako závislé je považováno, když se v dotazníku ptáte respondenta na názor na větší množství např. produktů (s tím, že u každého produktu respondent rozhodoval na samostatné škále). Obecně je tento design označován jako “subject by trials design”. Ve své podstatě se jedná o factorial design, kde jeden faktor je tvořen vzájemně závislými měřeními.

STATISTICA má pro tato měření speciální nástroj volaný z karty ANOVA hlavní nabídky Statistics.

  • Příklad z přírodních věd: Jako příklad si můžeme ukázat to, co jsme již řešili v základním kurzu. Otázkou je jestli se pH liší v typech vegetace podle druhové bohatosti, jestli se liší jednotlivá měření pH a jestli jsou tyto odlišnosti odlišné v typech vegetace podle druhové bohatosti? Řešení ve Statistica je na videu.

Pro všechny typy ANOVA platí, že v nastavení Sum of squares nastavujeme Type I nebo Type II, pokud máme vyvážené uspořádání, a Type III, pokud máme nevyvážené uspořádání, tedy různý počet měření v různých kombinacích proměnných, nebo některé kombinace měřeny nejsou – viz fractional factorial design – pro tyto případy jsou v nabídce i Type IV-VI.

Všimněte si, že u všech případů těchto komplikovanějších výzkumů, je zásadním už vlastní příprava měření – je třeba dopředu vědět, co proti čemu chci hodnotit, a podle toho nastavit systém sběru dat.

Návod na výpočet RM-ANOVA (jen faktor čas) pro MS Excel je na tomto externím odkazu.

Friedmanova ANOVA neboli Friedmanův test

Je neparametrickou obdobou testu ANOVA pro opakovaná měření (RMANOVA). Podobně jako Wilcoxonův test je výpočet založen na pořadí. Vzorec na výpočet testovacího kritéria je podobný Kruskal-Wallisovu testu. Vzorec včetně modelového výpočtu v MS Excel je na externím odkazu. Mnohonásobné porovnání se pak dělá na základě absolutní hodnoty rozdílu sum pořadí dvojice úrovní a jeho porovnání s tabelovanou hodnotou.
Friedmanův test se používá běžně v případech, kde není možné použít RMANOVA – teoreticky by se měla používat vždy, když máme ordinální data z dotaníků, která nejčastěji neoprávněně prohlašujeme za poměrová a navíc “normální”.
Bohužel Statistica nemá nástroj na “Two way” variantu tohoto testu, který by byl pravou náhradou RMANOVA (má ho ale např. Unistat). K dispozici máme jen jeho one-way variantu – tedy nejsme schopni jednoduše souběžně posoudit rozdíl v čase a mezi např. vegetačními typy, můžeme jen posoudit rozdíly v čase – video.

Návod na výpočet Friedmanův test (jen faktor čas) pro MS Excel je na tomto externím odkazu.

ANCOVA (Lepš, 1996, s. 133 poslední odstavec – 134)

Pod tímto názvem se skrývá analýza kovariance. Tu použijeme v případě, že kromě kategoriálních skupin v jednofaktorové nebo vícefaktové ANOVA máme i poměrovou proměnnou, o které víme, že má vliv na velikost závislé proměnné. Vliv této proměnné chceme eliminovat, použijeme ji v analýze jako tzv. kovariátu, jejíž vliv se nejprve od závislé proměnné “odečte” a následně se testuje rozdíl ve skupinách. Excel v doplňcích analytických nástrojů ANCOVA nemá, nicméně pomocí regrese a ANOVA se k výsledku lze relativně jednoduše dobrat i v něm – návod je na externím odkazu. Ve STATISTICA je ANCOVA s sekci Statistics – Advanced models, a tam buď v General linear nebo, pokud chci nastavovat fixed versus random predictors, tak pak ve Variance components. Ani STATISTICA není schopna počítat s kovariátou nominálního charakteru, což je dost velké mínus pro ekologické experimenty – musí se použít CANOCO.

  • Příklad z přírodních věd: Ústně jsme několikrát řešili na přednáškách v základním kurzu délky ocásků u tarbíků. Jenou z možností jak řešit problém rozdílnosti délky ocásků mezi pohlavími u tarbíka je použití modelu ANCOVA, kde vysvětlovanou proměnnou je délka ocásku, kategorickým prediktorem je pohlaví a kovariátou bude celková velikost jedince.