Permutational Multivariate Analysis of Variance

Jde o mnohorozměrnou analýzu rozptylu založenou na matici vzdáleností s permutačním testem s pseudo-F podíly. Mohu takto testovat rozdíl mezi skupinami, kdy v každé skupině je velké množství závislých proměnných, jde tedy o metodu mnohorozměrnou. Na rozdíl od gradientových analýz je ale testován rozdíl ve zdrojích rozptylu mezi skupinami a celkem. Tento rozdíl je dán rozptyly založenými na rozdílech v matici vzdáleností. Počítá se v R příkazem “adonis” v package “vegan”.

  • Příklad z přírodních věd: Liší se druhové složení na lokalitách na rule a svoru? K dispozici mám větší počet vegetačních snímků. Ptáme se, jestli se liší složení vegetace na obou typech stanovišť.

Diskriminační analýza

Charakter a předpoklady (Haruštiaková et al., 2012, s. 85)

Diskriminační analýza je specifickou ordinační metodou jež zahrnuje řešení pro dva typy úloh:

  • ve větším množství proměnných hledáme takovou, která je rozhodující pro zařazení daného objektu do skupiny – víme, který objekt patří do jaké skupiny (objektem je muž nebo žena, objektem je jarní měření nebo letní měření, objektem je měření v ČR a v SR) = kanonická diskriminační analýza
  • máme objekt a ten chceme zařadit do skupiny = klasifikační diskriminační analýza

Předpoklady:

  • proměnné mají kvantitativní charakter s normálním rozdělením a nejsou svými vzájemnými lineárními kombinacemi
  • objekty musí být v každé skupině minimálně dva a objektů celkem by mělo být podstatně více než je
  • počet proměnných i počet znaků
  • proměnná nemůže být v žádné skupině konstantní

Kanonická diskriminační analýza (Haruštiaková et al., 2012, oddíl 7.5.1 celý)

Posuzují se jen proměnné, pro něž se liší střední hodnota mezi skupinami kategoriální proměnné. Metoda hledá lineární kombinace proměnných, které nejlépe identifikují příslušnost objektu ke skupině. Těchto nových dimenzí je p-1 a jde o kanonické osy. V potaz se bere maximální vzdálenost centroidů (těžišť) skupin. Pokud má vzorek více než dvě skupiny, diskriminačních funkcí je více. Vazbu původních proměnných na hodnotu diskriminační funkce určují nestandardizované a standardizované koeficienty. Tento větší počet je pak možné zobrazit v ordinačním diagramu. Souvislost diskriminačních os s původními proměnnými se vysvětluje pomocí korelačních koeficientů mezi původními funkcemi a diskriminačními funkcemi – a to bez vlivu ostatních původních proměnných. Významnost lze testovat.

Kanonická diskriminační analýza má ve STATISTICA kvalitní návod – při řešení zadání kanonické diskriminační analýzy postupujte podle něj. Na ukázku řešení použijeme příkladu z manuálu.

  • Příklad z přírodních věd: Zařazení kosatce do druhu podle délky a šířky kališních a korunních lístků, návod pro STATISTICA je na videu.

Klasifikační diskriminační analýza (Haruštiakové et al., 2012, oddíl 7.5.2 celý)

Určuje pravděpodobnost příslušnosti objektu do skupiny na základě klasifikační funkce. K dispozici musíme mít skupinu objektů u nichž máme kromě kvantitativních proměnných i proměnnou kódující příslušnost objektu do skupiny = trénovací výběr. Na něm jsou vybudovány klasifikační funkce. V nejjednodušším případě vychází metodika ze sestavení klasifikační funkce pro každou skupinu, pro kterou získá objekt nejvyšší hodnotu, do té bude zařazen. Účinnost klasifikačních kritérií lze testovat a z ní lze určit úspěšnost zařazení objektů.

  • Příklad z přírodních věd: Klasifikace objektů (květů kosatce) podle charakteru květů z příkladu kanonické diskriminační analýzy je na videu.

Formalizované klasifikace společenstev

Další možností jak lze na základě dosažených hodnot proměnných identifikovat skupinu, do které daný objekt patří je expertní systém. Tyto skupiny jsou vždy skupinami externími = existujícími mimo má data. Cílem je na základě formalizované definice určit skupinu, do které patří ten který objekt. Pokud typ nelze na základě definice určit, může být na základě indexů podobnosti určen nejpodobnější typ. Tyto typy jsou dopředu dány a my se ptáme “Do kterého typu naše případy patří?”

Na úrovni celé České republiky funguje takovýto systém pro vegetaci na základě fytocenologických snímků – existuje pro celý systém rostlinných společenstev do úrovně asociací. Tento systém si je možné naimportovat do software JUICE a zdarma si klasifikovat vlastní fytocenologické snímky.

Kanonická ordinační analýza

Principy kanonické ordinační analýzy (Haruštiaková et al., 2012, kap. 7.1 celá)

Tyto ordinace jsou označovány jako přímé gradientové analýzy. Od předchozích se liší především tím, že přímo do výpočtů, směřujících k eliminaci dimenzí, vstupují “environmental variables”, které už nejsou supplementary (a pasivně prokládány), ale jsou součástí výpočtu. Ve většině případů je chápeme jako větší množství proměnných, jimiž se snažíme vysvětlit větší množství proměnných na levé straně. Nejčastěji vysvětlujeme pomocí mnoha proměnných prostředí variabilitu druhového složení (zde opět co druh, to proměnná).

Kanonická korelační analýza – CCorA (Haruštiaková et al., 2012, kap 7.4 celá)

Cílem je vyhodnocení korelace dvou skupin proměnných přes objekty. V principu metoda nerozlišuje, která skupina je závislá a která nezávislá. Jde o korelační metodu, nicméně výsledky jsou uváděny skupina 1 versus skupina 2 i skupina 2 versus skupina 1, čili ji lze použít i jako vysvětlovaná – vysvětlující proměnná. Přestože není v biologických výzkumech často používaná, my ji uvádíme jako první, protože je jedinou kanonickou ordinační metodou, kterou umí se vším všudy STATISTICA.

Podmínkou pro analýzu je poměrový (alespoň kvantitativní) charakter vstupních dat a celkový počet proměnných musí být menší než je počet objektů. Latentní dimenze (faktory, zde označované jako kořeny – roots) jsou pak lineárními kombinacemi vstupních proměnných a jejich určení je analogické PCA. Závislosti mezi nimi jsou pak rozšířením mnohonásobné lineární regrese s tím rozdílem, že na Lhs není jedna proměnná, ale větší počet latentních proměnných. Hodnota korelačního koeficientu mezi latentními faktory je druhou odmocninou vlastní hodnoty matice. Celkově jsou výsledky CCorA hodně podobné výsledkům FA – korelační koeficienty odpovídají faktorovým zátěžím (loadings) a lze je použít pro pojmenování osy jako u FA. Počet vlastních hodnot je roven počtu původních proměnných ze skupiny, kde jich bylo méně. První kanonická osa je nejsilnější a ostatní jsou s ní nekorelované. Interpretují se jen signifikantní kořeny a to pomocí kanonických korelací pro jednotlivé proměnné a objekty. Pomocí kanonických vah (které jsou obdobou faktorových vah ve FA) lze sestavit ordinační diagram i biplot pro jednodušší interpretaci (ve STATISTICA si to budete ale muset udělat sami, pač ta jej v nabídce nemá, ale váhy si můžete vyexportovat).

STATISTICA má prokanonickou korelační analýzu výborný návod, pokud se ho budete držet, bez potíží analýzu zvládnete udělat.

  • Příklad z přírodních věd: stejná data jako v PCA, zajímá mě vazba fyzikálně chemických vlastností podzemní vody na druhové složení rašeliníků na rašeliništích. Druhové složení je vysvětlovanou proměnou, vlastnosti podzemní vody vysvětlující proměnnou. Řešení ve STATISTICA je na videu.

Redundanční analýza – RDA (Haruštiaková et al., 2012, kap. 7.3 celá)

Jde o lineární model přímé ordinační analýzy, který je založen na PCA. Předpokládá tedy krátký CA gradient a lineární odpovědi proměnných na ordinační osu. Je tak omezenou formou PCA a sdílí s ní předpoklady použití.

Je velmi podobná kanonické korelační analýze. Také do ní vstupují dvě sady proměnných, v tomto případě, ale jednoznačně rozdělena na sadu vysvětlovanou a sadu nezávislou. Cílem je sadou nezávislých proměnných vysvětlit maximum variability sady vysvětlovaných proměnných – vysvětlované jsou lineární kombinací vysvětlovaných.

Popis výpočtu ordinačních os, respektive polohy objektů a proměnných v jejich souřadnicovém systému uvádí Haruštiaková et al. (2012, s. 82-83).

Kanonické osy,na rozdíl od neomezených ordinačních lze testovat na statistickou významnost (permutačními Monte-Carlo testy) a jednotlivé proměnné tak lze zařazovat do modelu na principu “forward selection”. Do modelu vstupují jen proměnné, které jsou statisticky významné.

V praxi se používá často po PCA, kdy máme k dispozici i environemntální proměnné. Pak je cílem RDA popis vazby složení společenstev se současným započítám vlivu faktorů prostředí. Jak už bylo zmíněno výše, použít by se měla jen na krátké gradienty, které splňují podmínku linearity vazeb.

Interpretace ordinačního diagramu je stejná jako u PCA.

STATISTICA ji neumí, pokud ji potřebujete dělat, nahraďte ji kanonickou korelační analýzou. Pokud nechcete nebo nemůžete, musíte zvolit jiný software – doporučit se dá CANOCO nebo B-VegAna.

  • Příklad z přírodních věd: Projděte si článek kombinující přístupy DCA, PCA a následně RDA a CCA při řešení problému odpovědi druhového složení blatkových borů na různý typ disturbance.

Kanonická korespondenční analýza – CCA (Haruštiaková et al., 2012, kap. 7.2 celá)

V tomto případě jde o unimodální model přímé analýzy, který je založen na CA (DCA). Předpokládá tedy dlouhý CA gradient (větší než 3, obvykle i větší než 2) a unimodální odpovědi proměnných na ordinační osu. Je tak omezenou formou CA (DCA) a sdílí s ní předpoklady použití. Na rozdíl od CCorA a RDA lze použít jako vysvětlující proměnné i proměnné, které nemají normální rozdělení a mají i nižší charakter, např. nominální (pak je ale třeba je kódovat jako bivariátní dummy proměnné). Jde o suverénně nejčastěji používanou metodu, kdy na Lhs i Rhs je větší počet proměnných a mým cílem je určit mezi nimi vazbu za současného radikálnějšího snížení dimenzionality.

Stejně jako CCorA a RDA pracuje se sadou dvou typů proměnných. Cílem je ale určení takových lineárních kombinací, které nejlépe vysvětlují inerci ordinačních skóre ze závislých proměnných. Podíl vysvětlené inerce na celkové CA (DCA) inerci pak má vypovídací hodnotu o míře vysvětlení variability závislých proměnných použitými nezávislými proměnnými.

V praxi se používá často po CA (DCA), kdy máme k dispozici i environemntální proměnné. Pak je cílem CCA popis vazby složení společenstev se současným započítám vlivu faktorů prostředí. Jak už bylo zmíněno výše použít by se měla na dlouhé gradienty, které nesplňují podmínku linearity vazeb.

Interpretace ordinačního diagramu je stejná jako u CA.

STATISTICA ji neumí a není ji v ní čím nahradit. K tomu budete muset použít CANOCO nebo B-VegAna.

  • Příklad z přírodních věd: Projděte si článek, kde byla použita DCA a následně CCA k vysvětlení druhového složení rybničních rašelinišť na vybraných environmentálních faktorech. Ve Fig 1 i Fig 2 jsou body zobrazeny polohy objektů (=lokality) naklasifikované podle typu vegetace (což je výstup TWINSPANu). Ve Fig 1 jsou pasivně proloženy všechny environmetální proměnné (jako supplementary) – v Tab. 2 jsou pak korelace skórů těchto proměnných s 1. a 2. ordinační osou (požito je to pro popis os). Ve Fig 2 jde o kanonické osy a zobrazeny jsou signifikantní env. proměnné.

Na doplnění

  • RDA i CCA lze dělat i jako parciální – je možno odečíst vliv některé proměnné a sledovat odpověď jiné proměnné po odečtení jejich vlivu
  • výsledek (poloha objektů) v ordinačním diagramu by se u CCA měla srovnat s jejich polohou v CA, pokud je podobná, pak je výsledek CCA uspokojivý (znamená to, že mnou měřené faktory prostředí mají “opravdu” vztah k poloze objektů)
  • kanonické osy sice už nejsou teoretickými gradienty jako v CA nebo PCA, nýbrž jsou kombinací nezávislých proměnných (použitých v analýze), přesto vztahy v ordinačním digramu CCA i RDA zůstávají popisné a nejsou kauzální, pokud analyzovaná data nejsou výsledkem manipulace – kauzalitu prokazujeme jen experimentem !!!!!

Nepřímá ordinační analýza

Principy ordinační analýzy (Haruštiaková et al., 2012, kap. 6.1 celá)

Ordinační analýzy jsou základní pro posouzení druhového složení společenstev – objektem je společenstvo dané soupisem druhů/taxonů (co druh/taxon, to proměnná) v konkrétním nějak vymezeném prostoru (nejčastěji nějaká pokusná plocha nebo náhodně v terénu vybraná plocha o standardizované výměře). Druhy mohou nabývat binárních hodnot (přítomen/nepřítomen), ordinálních hodnot (např. Braun Blanquetova škála ve fytocenologii) nebo poměrových hodnot (počet jedinců druhu). Druhové složení společenstva je to, co se snažíme vysvětlit = je to vysvětlovaná proměnná (Lhs), která má však mnoho proměnných (pro jistotu znovu – co druh, to jedna proměnná). Obvykle máme k dispozici ještě další proměnné, které se vztahují k ploše objektu = environmentální proměnné, které popisují stanoviště společenstva. Obvykle se označují jako tzv. suplementary variables. Z ekologie víte, že aktuální společenstvo je odpovědí na podmínky stanoviště a jeho historický vývoj. Proto environmentální proměnné považujeme za vysvětlující proměnné (Rhs) druhového složení společenstva.

  • Příklad ze sociálních věd: Zájezd, který si turista zakoupí je ovlivněn širokou škálou postojů a přesvědčení zákazníka, šance, že bude vybrán konkrétní zájezd je závislá na proměnných, které charakterizují tento zájezd. Někdo dává přednost poznání, někdo odpočinku, někdo zábavě, někdo sportu, někdo přírodě, a většina různým kombinacím těchto a mnoha jiných prvků.

. . . ano, ordinační analýzy se používají i v mnoha jiných typech úloh, to je ale za hranicí našeho rozšiřujícího kurzu.

Studovat vazby mezi objekty podle hodnot velkého množství měřených proměnných (v “normálních” výzkumech na diplomku se asi vždycky přehoupnete přes 100 druhů) je “okometricky” (tedy stylem “mrknu a vidím“) obvykle nemožné. Taktéž obvykle platí, že měřené proměnné jsou jen zprostředkováním skutečnosti a nikoliv realitou samotnou. A taktéž v mnoha případech platí, že charakter prvků se v realitě nemění skokově, ale podél gradientů v realitě prostředí. Použití shlukových analýz ve studiu vazby odpovědí objektů na měřené proměnné prostředí je tak často nevhodné.

Skupině ordinačních metod je se shlukovou analýzou společná snaha o redukci proměnných do “minimálního” počtu. Od shlukové analýzy se ale liší v tom, že cílem je identifikace gradientů a nikoliv klasifikace (viz Haruštiaková et al., 2012, obr 6.2 na s. 49). Tyto metody slouží k seřazení objektů podél teoretického gradientu počítaného z měřených proměnných, ježto je v podstatě hypotetickou (= latentní) proměnnou – tento gradient se označuje jako “ordinační osa”. Jednotlivé ordinační osy jsou seřazeny podle významu a jsou navzájem kolmé (= nezávislé, ortogonální). Obvykle se snažíme interpretovat první dvě osy, ale v poslední době existuje snaha spíše hlavní osy odfitrovávat a věnovat se pitvání dalších gradientů, které nejsou obvykle zjevné. Předpokládáme, že dosažené hodnoty objektu u jednotlivých proměnných mají vazbu na prostředí a jsou tak odrazem chování společenstva na podmínky prostředí, a tedy ordinační osa je gradientem, který ovlivňuje intenzitu výskytu jednotlivých druhů ve společenstvu v jednotlivých objektech.

Polohu objektů a proměnných lze na ordinačních osách vyjádřit tabelárně pomocí souřadnic – to se používá např. pro posouzení korelace mezi pozicí na dílčí ordinační ose a hodnotou měřené proměnné. Nicméně nejčastěji se používá vyjádření pomocí grafů, které se označují jako ordinační diagramy – ty jsou obvykle hlavním výstupem analýzy. V nich může být zobrazena poloha objektů nebo proměnných nebo obojí najednou (= biplot). Nebo, pokud máme environmetální proměnné, můžeme zobrazit i je (= triplot).

Výsledky takovýchto analýz jsou u redaktorů oblíbené, ale metody samy o sobě však nejsou všespásné. Pro interpretaci platí stejná podmínka jako u shlukových analýz – základem interpretace je zkušenost badatele a jeho obeznámenost s tématem (statistika obvykle končí u toho, že na základě dat vyberete vhodnou metodu, pak následuje rychlý technický krok, který předpokládá obeznámenost se software určeným pro výpočet a následuje dlouhá doba snahy o nahlédnutí výsledku).

Přehled běžně používaných ordinačních metod uvádí Haruštiaková et al. (2012) na s. 51 v oddíle 6.1.3. Vám bude stačit, když budete znát zde a na další stránce uvedené metody, které jsou rozděleny do dvou kategorií. Nepřímé ordinační analýzy jsou takové, kdy provádím analýzu Lhs (nejčastěji druhového složení) nebo méně často analýzu Rhs. Do ordinačního diagramu z analýzy Lhs mohu proložit pasivně Rhs proměnné (ty ale nikdy nejsou součástí výpočtu). Naopak přímé ordinační analýzy (označované jako kanonické) jsou takové, kdy analyzuji Lhs a Rhs se stávají součástí výpočtu ordinace.

NEPŘÍMÁ ORDINAČNÍ ANALÝZA

Analýza hlavních komponent – PCA (Haruštiaková et al., 2012, oddíl 6.2.1 celý)

Základním principem je snaha o vyjádření měřených proměnných pomocí latentních proměnných, tím snížení jejich původního počtu, a vazby mezi nimi, přičemž nemám primární ambici závislost Lhs na Rhs vysvětlovat příčinnými vztahy (viz výše):

  • Proměnné by měly mít kvantitativní charakter, ale software pracují i s binárními proměnnými (nominální vícekategoriální mohou být problematicky vyhodnotitelné).
  • Počet proměnných by měl být menší než počet objektů (těch by optimálně měla být druhá mocnina počtu proměnných), což obvykle porušujeme – zkuste si zpočítat, kolik pokusných ploch byste museli mít k dispozici, když bude uvažovat minimální počet druhů jako 100.
  • Předpokladem PCA je, že závislost druhů na ordinační ose je lineární; to obvykle znamená, že posuzuji jen část “reálného” gradientu (viz Lepš et Šmialuer, 2000, obr. 2-1 na s. 22). Jak poznáme, že jde o lineární gradient, si ukážeme u CA za chvíli.

Metodicky je PCA orientována na konstrukci takových nových proměnných (= hlavní komponenty), které vysvětlují maximum celkového rozptylu původních proměnných.

Identifikace hlavních komponent je postupná. Nejprve je identifikována první hlavní komponenta, a to ve směru největší variability objektů. Další osa vysvětluje část “zbytkové” variability za podmínky nezávislosti na ose předchozí. A tak se postupuje až do vysvětlení veškeré variability.

Existují dva základní typy PCA – centrovaná PCA využívá při výpočtech asociační matici založenou na kovariancích a použijeme ji, když máme proměnné v podobných jednotkách; standardizovaná PCA využívá korelací a volíme ji, když proměnné mají zcela odlišná měřítka.

Geometrický význam vynikajícím způsobem popisuje Haruštiaková et al. (2012) na s. 54-55. Jde ve zjednodušené podstatě o rotaci původních os variability (= měřených proměnných = nejčastěji druhů) do polohy, kdy je vysvětleno maximum variability – původní hodnoty proměnných (obvykle druhů) jsou následně převedeny do nového souřadnicového systému daného latentními gradienty (= hlavními komponentami).

Počet interpretovatelných os je dán logickou úvahou a omezen je maximálně na Kaiserovo kritérium – interpretovat má smysl pouze komponenty s hodnotou vlastního čísla větší než 1 (pak daná komponenta vysvětluje více variability než původní měřená proměnná). Hlavní význam však mají pouze osy s vysokými hodnotami vlastního čísla, tedy ty, co vysvětlují maximum variability – hodnoty vysvětlené variability nalezneme v tabulce hodnot vlastních čísel nebo je můžeme vidět v diagramu, který se jmenuje scree plot (obr. 6.5 v Haruštiaková et al., 2012, s. 56), někdo bere v potaz opravdu vysoké hodnoty vlastního čísla (ty bývají obvykle jen tři, ale záleží na povaze gradientů v datech), někdo bere v potaz komponenty s nadprůměrnými hodnotami vlastního čísla, vy budete asi nejčastěji pracovat s prvními dvěma osami.

Zásady pro interpretaci uvádí přehledně Haruštiaková et al. (2012) na s. 57-60. Jako hlavní vybíráme:

  • proměnné jsou v ordinačním prostoru daném ordinačními osami zobrazeny jako vektory, čím je vektor delší, tím větší je jeho význam v ordinačním prostoru, kosinus úhlu, který svírají vektory původních proměnných mezi sebou a s ordinačními osami, je úměrný jejich korelaci,
  • objekty jsou v ordinačním prostoru vyjádřeny jako body pomocí komponentních skóre (= souřadnice na dané komponentní ose), zajímá nás vzájemná pozice objektů a vazba pozice objektů na vektory proměnných – používá se obvykle biplotu (= grafu, kde jsou proměnné i objekty),
  • tedy pro interpretaci platí, ke kterým bodům vede šipka proměnné, pro ty body je tato proměnná významná, a čím blíže jsou body a šipky k dané komponentní ose a čím jsou dále od souřadnice 0,0, tím jsou významnější pro identifikaci komponentní osy, která pro Vás představuje latentní proměnnou, podél níž dochází ke změně druhového složení společenstva
  • grafem lze prokládat i suplementary variables – ty nejsou součástí výpočtu matice PCA, ale lze jim podle hlavních komponent přepočítat původní hodnoty do souřadnicového prostoru daného komponentními osami a ty zobrazit v grafech. Obvykle se jich používá pro interpretaci (= často pojmenování) “latentních” os – můžete se pokusit osy interpretovat, ale nemůžete tvrdit, že tato osa znamená reakci společenstva např. na kyselost substrátu – “kauzalitu” pomocí PCA “prokázat” nemůžete,
  • v PCA existují dva typy biplotů, které se liší interpretací.

PCA má hlavní využití v přírodních vědách (v sociálních se místo ní obvykle používá faktorová analýza).

  • Příklad z přírodních věd: Naší snahou je identifikace hlavních komponent ovlivňujících výskyt rašeliníků různých druhů. Jednotlivé druhy jsou proměnné vyjádřené pokryvností na jednotlivých lokalitách (to jsou objekty). Kromě nich byly měřeny i některé charakteristiky prostředí – ty budou použity jako suplementary variables. Návod pro výpočet ve STATISTICA je na videu.

Faktorová analýza – FA (Haruštiaková et al., 2012, oddíl 6.2.2 celý)

Faktorová analýza posouvá PCA dále v tom slova smyslu, že kromě redukce počtu proměnným má za cíl i vysvětlení závislosti proměnných. Právě tato snaha po vysvětlení vede k tomu, že v přírodních vědách není příliš oblíbená pro svou “neobjektivnost”. Název faktorová analýza nesou dva odlišné typy analýz – explorativní faktorová analýza (EFA) a konfirmační faktorová analýza (CFA). Na tomto místě se věnujeme pouze explorativní faktorové analýze (ta je popsána i v učebnici).

S EFA souvisí význam tzv. faktorových vah, což jsou korelační koeficienty proměnných se společnými faktory (extrahovaný menší počet dimenzí, než byl původní počet proměnných = druhů, jako u PCA), a komunality, která udává část rozptylu proměnné, která je vysvětlena působením společných faktorů. Oba tyto prvky jsme poznali ale už i u PCA – u FA jsou ale hlavním výsledkem.

Základem EFA je PCA – komunalita je odhadována a hlavní komponentní osy jsou následně rotovány tak, aby co nejjednodušeji popisovaly vstupující proměnné (viz obr. 6.7 na s. 62 v Haruštiaková et al., 2012). Cílem EFA je dostat hlavní komponentu v novém souřadnicovém systému do polohy, kde se vyskytuje více vzájemně prokorelovaných původních proměnných (= druhů) – ta přestává být hlavní komponentou a stává se společným faktorem. Tento postup je považován za “neobjektivní”, protože předjímá, že proměnné jsou “reálným”, byť neměřeným, faktorem. Důsledkem totiž je, že faktorové osy na rozdíl od hlavních komponent mohou být prokorelovány a nemusí tedy být orthogonální (což obvykle nejsou). Navíc počet společných faktorů, které mají být rotovány je dán badatelem (počet os se nejčastěji drží Kaiserova pravidla a vychází z PCA) – počet rotovaných os ovlivňuje výsledek (tedy výsledek EFA bude jiný, pokud zadám, že chci mít 4 nebo 5 faktorů). Pro daný společný faktor nás pak zajímají jen proměnné s hodnotou faktorové váhy vyšší jež je stanovená hodnota, tou je obvykle 0,6 – používají se i nižší, ty jsou podle našich zkušeností ale stejně v následných analýzách vyřazeny na základě výsledků CFA a testem validity (viz dále v této sekci).

Rozdíl EFA od PCA si nejlépe ukážeme za použití stejných dat jako v PCA, na něm se i naučíme faktorovou analýzu ovládat – video. Především si všimněte, že došlo k jasnějšímu vyčlenění skupin rašeliníků podél jednotlivých os.

Faktorová analýza je původní v psychologii a běžně se používá v sociálních vědách, kde existuje přesvědčení, že nic nelze měřit přímo, ale mnoho nepřímých proměnných má dobrou vypovídací schopnost o latentní proměnné, která nás zajímá, a tedy, že je možno ji poměrně přesně určit měřením známých proměnných. A priori tak předpokládám její existenci = mohu si dovolit ohýbat prostor PCA do podoby, která odpovídá mé představě. Z toho plyne, že toho musím dopředu o měřené proměnné opravdu hodně vědět.

Vzhledem k tomuto základu úvahy, je vždy nutné testovat reliabilitu takového faktoru. Nejběžnější metodou je výpočet Cronbachova alfa. V “přesných” psychologických měřeních se důrazně doporučuje hodnota větší než 0,9, nicméně hodnota nad 0,7 je obecně považována za prokázání reliability. Ve Statistica Conbachovo alfa naleznete na kartě Statistics v záložce Mult/Exploratory v nabídce Reliability/Item. Touto analýzou též identifikujete, které z proměnných nemusí být do faktoru zahrnuty. Rychlý návod na ovládání je na videu.

Po testu reliability by měla ještě následovat CFA a po ní ještě jednou test reliability. Tu si ale tady ukazovat nebudeme. Teprve jí je faktor a především jeho složení potvrzen a lze jej použít v dalších analýzách. Hodnota latentního faktoru se pro další výpočty často aproximuje průměrnou hodnotou, kterou objekt získal na všech proměnných jež byly pomocí EFA, CFA a testem reliability za faktor určeny.

Korespondenční analýza – CA (Haruštiaková et al., 2012, kap. 6.3 celá)

Podobně jako PCA je jejím cílem snížení dimenzionality v datech (tedy identifikace gradientů, podél nichž se mění maximum variability souboru proměnných). Základním postupem řešení je taktéž maticová algebra. Na rozdíl od PCA a FA je ale maticí kontingenční tabulka, konkrétně její relativní vyjádření. Vstupní data tedy mohou být na nominální a ordinální škále a nemusejí mít normální rozdělení (což jsou doporučované, ale nikoliv povinné, předpoklady pro PCA a EFA). Vedle PCA je nejběžněji používanou metodou pro posouzení vazeb druhů a lokalit ve společenstvech. Předpokladem použití CA je unimodální odezva druhu na gradient ordinační osy (viz Lepš et Šmialuer, 2000, obr. 2-3 na s. 23) – použít PCA v tomto případě by bylo chybou (viz Lepš et Šmialuer, 2000, obr. 2-2 na s. 22).

V CA jde o rozklad na faktory (= ordinační osy) – rozkládá se tzv. inerce (celková inerce je rovna podílu celkové hodnoty chí-kvadrát statistiky a počtu pozorování) do částí, aby zůstala zachována maximální hodnoty inerce na jednotlivých osách – význam os tak tedy také klesá s jejich pořadím jako v PCA – maximální podíl na inerci má první osa. Počet extrahovaných os je roven minimu z počtu řádků a sloupců sníženém o jedna. Pro interpretaci se používají osy vysvětlující významný podíl inerce (osy s minimálně nadprůměrnou hodnotou vlastního čísla). Matematicky se počítá buď pomocí maticové algebry nebo metodou váženého průměrování (viz Haruštiaková et al., 2012, s. 64-66) – my po Vás vysvětlení chtít nebudeme.

Nejčastěji používaným výsledkem CA je jako u PCA ordinační diagram (obvykle biplot objektů = vzorků a proměnných = druhů) do nějž je možné, analogicky jako v PCA, vložit pasivně environmentální proměnné. V diagramu jsou vzorky i druhy vyjádřeny jako body, jejichž souřadnice na ordinačních osách jsou označovány jako skóry. Jedná se, jednoduše řečeno, o “těžiště” polohy druhu (= proměnné) v novém sníženém počtu dimenzí. Pravděpodobnost výskytu druhu klesá všesměrně od tohoto bodu. Body vzorků pak odpovídají poloze vypočítané na základě zastoupení jednotlivých druhů v konkrétním vzorku (samozřejmě přepočítaném do souřadnic nového prostoru). Pro interpretaci, je tak zásadní všesměrná absolutní blízkost bodů v ordinačním diagramu (kompletní přehled uvádí Haruštiaková et al., 2012, v odrážkách na s. 68-69), my jako nejdůležitější vybíráme:

  • body, které si jsou blíže, si jsou svým výskytem více podobné (druhy se vyskytují spolu a druh je významným indikátorem daného vzorku)
  • body vzdálené v diagramu (podél osy) jsou si vzájemně nepodobné (druhy se spolu nevyskytují, druh se nevyskytuje ve vzorku)
  • čím blíže je bod k souřadnici (0,0), tím je jeho význam pro oddělení druhů a vzorků menší (mají nevýrazný profil – obvykle to znamená, že druh je zastoupen ve většině vzorků a ve vzorku se vyskytují převážně druhy, které se často vyskytují i v jiných vzorcích) – podobně jako u PCA, body vzdálené od průsečíku ordinačních os mají větší indikační význam pro danou osu.

Samozřejmě pro posouzení jsou důležité i další výstupy analýzy – vlastní hodnoty matice, procento vysvětlené inerce a skóry (které jsou ale zobrazeny v diagramu).

V CA se běžně vyskytuje tzv. obloukový efekt – skóre na druhé ose vykazuje kvadratickou závislost na skórech na první ose (Haruštiaková et al., 2012, obr 6.11 na s. 71), což je důsledkem metody výpočtu a faktu, že ve vzorcích máme zastoupeno více druhů, které se vyskytují jen v málo vzorcích, což je normální u dlouhých gradientů (viz Biogeografie). Druhá osa pak není “reálným” gradientem. Nejčastějším postupem, jak se obloukového efektu zbavit, je detrendování druhé (a dalších) osy. Analýza se pak označuje jako detrendovaná korespondenční analýza – DCA. Ta je suverénně nejoblíbenější metodou posuzování druhových dat na základě pořízených vzorků.

Detrendování se prování polynomem – skóry na druhé ose jsou vyjádřeny polynomickou funkcí skórů první osy (jde o polynomickou regresi) a následně jsou skóry druhé osy nahrazeny novými skóry, které jsou rezidui z této regrese. Tedy v podstatě je regresní funkce použita jako kovariáta.

Dalším častým problémem výsledku CA je větší blízkost bodů u konců os než při jejich středu. To se upravuje přeškálováním segmentací. Ve výsledku je pak délka ordinační osy měřena v násobcích směrodatné odchylky. Toho se používá při rozhodování o metodě analýzy – pokud je gradient delší než 3 (obvykle ale i než 2), pak se použije CA nebo DCA, pokud je kratší, pak je vhodnější PCA. Pokud se hodnota délky gradientu blíží 4, pak vzorky na opačných koncích dané osy nemají žádný společný druh. Jak se změní ordinační diagram při detrendování druhé osy se můžete podívat na s. 71 (Haruštiaková et al., 2012).

V CA a DCA tak hodnotíme dlouhé gradienty, na nich pak mají velký vliv tzv. vzácné druhy – tedy proměnné vyskytující se v minimu vzorků a s malou frekvencí. Takových druhů je obvykle mnoho, zvláště když máme málo vzorků, které si nejsou podobné. Obvykle je vhodné transformací vliv těchto druhů omezit = downweighted of rare species.

Statistica není moc vhodným nástrojem pro CA (DCA neumí vůbec) analýzy ekologických dat. Nicméně si ji ukážeme protože sice neumí vše, ale umí toho mnoho a pokud nemáme po ruce jiný software, lze CA provést i v ní, ale POZOR!!!!

  • nastavena je na hodnocení opravdu frekvenčních dat, a to např. ze sociologických dotazníkových průzkumů. Chcete-li něco hodnotit, projděte si pečlivě přiložené příklady: základní pro jednu proměnnou s vložením supplementary variables je popsán v dokumentaci zde, složitější s více proměnnými pak zde a zde.
  • data druhových seznamů z lokalit vkládáme jako tabulku, kde ve sloupcích jsou druhy a v řádcích vzorky, na jejich průsečíku je frekvence (u vegetace vyjádřena např. hodnotami 1-9 podle Br.-Bl. škály převedené na číslo – tedy pokryvnost odpovídá frekvenci výskytu – to je volba Frequencies w/out grouping vars, pokud budete chtít používat jiných vstupů, což je vhodné u opravdu nominálních socioekonomických dat, tak si nejprve nastudujte tři výše v tomto výčtu uvedené odkazy

 

  • Příklad z přírodních věd: Máme stejná data jako u shlukové analýzy. Naším cílem je posouzení dimenzí podél nichž dochází k diferenciaci druhového složení rašelinišť – výpočty a návod pro STATISTICA je na videu
  • Příklad ze sociálních věd 1: DCA bylo použito při posouzení vazby množství úlovků na revírech ČRS podle příslušnosti rybáře k místní organizaci – příkladový článek.
  • Příklad ze sociálních věd 2: DCA bylo použito při snaze o posouzení odpovědí na dotazníky sebrané na třech lokalitách – viz Figure 3 v příkladovém článku.

Mnohorozměrné škálování a nemetrické mnohonásobné škálování MDS, NMDS (Haruštiaková et al., 2012, kap 6.4 a 6.5 celé)

Jde o další metodu snížení počtu dimenzí, tentokrát založenou na matici vzdáleností. Má své metrické i nemetrické techniky. Výsledkem je rozmístění objektů v novém souřadnicovém systému o menším počtu dimenzí.

Počet dimenzí se, stejně jako u EFA, nastavuje ručně. Čím je větší počet dimenzí, tím je metoda přesnější. Vzhledem k tomu, že je ale naším cílem minimalizovat počet dimenzí, tak musíme najít optimální variantu, nízkého, ale “věrohodného” počtu dimenzí. K tomu slouží dva základní ukazatelé:

  • měřítko reprezentace (stress, D-hat value)
  • cizost (alienation, D-star value)

Obě určují míru (na základě pořadí) vazby nové vzdálenosti na vzdálenost původní (viz dokumentace). Nabývají hodnot 0 až 1 a platí, že čím blíže je číslo nule, tím je výsledek lepší. Dalším ukazatelem je Shaperdův diagram, který vyjadřuje nové vzdálenosti (na ose y) versus původní vzdálenosti (na ose x) – linií jsou vyneseny hodnoty D-hat vs. data a body původní vzdálenosti, pokud body “sedí” na linii, lze se domnívat, že naše nastavení počtu dimenzí “odpovídá” původním datům.

Samotný proces výpočtu je iterační. Podle badatelem určeného počtu dimenzí jsou spočítány vlastní vektory a koordináty původních proměnných na nových dimenzích. Vypočítány jsou ukazatelé a objekty jsou posunuty směrem snížení D-hat value, opět se počítají ukazatelé a srovnávají s předchozími, takto postupuje proces až do nastaveného počtu iterací nebo dosažení minima D-hat.

Problémem MDS/NMDS je nutnost nastavení počtu dimenzí a také to, že funkce iteračního procesu identifikují lokální a nikoliv globální minimum, proto se doporučuje proces několikrát opakovat s různými počátečními nastaveními. V praxi lze tohoto postupu mino jiné použít před shlukovou analýzou K-průměrů – lze totiž určit “optimální” počet dimenzí a tím i shluků v datech – MDS/NMDS je typická průzkumná metoda, podávající informaci o struktuře dat.

Výhodou MDS/NMDS je možnost využití matic vzdáleností, které nemají euklidovskou vzdálenost, nevýhodou, podobně jako u EFA, je citlivost na nastavený počet dimenzí, no a samozřejmě také citlivost na použitou míru vzdáleností.

Výsledkem analýzy je ordinační diagram znázorňující body (= objekty) v souřadnicové síti nových dimenzí pomocí skórů. POZOR!!!! – nové dimenze nejsou jako v předchozích analýzách lineárně závislé na původních proměnných.

MDS je původně doma v psychologii, kde slouží jako základní nástroj pro analýzu sémantického diferenciálu. Proto cílem MDS není zkoumání vazeb mezi proměnnými, ale mezi objekty – matice vzdáleností je ale počítána z hodnot dosažených objekty na jednotlivých proměnných.

POZOR!!!! Statistica vyžaduje zadat matici vzdáleností a nikoliv surová databázová data – důvod je zřejmý, jednotky míry vzdáleností jsou na badateli. Nejjednodušeji je lze získat z hierarchické shlukové analýzy. NMDS Statistica neumí.

  • Příklad z přírodních věd 1: Mým cílem je identifikace dimenzí vzájemné druhové podobnosti rašelinišť podle druhového složení. Nejprve musíme získat matici vzdáleností lokalit (video) podle zastoupení druhů, následně mohu provést MDS (video).
  • Příklad z přírodních věd 2: NMDS bylo použito při klasifikaci vegetace svahů říčních údolí – viz první část Results v příkladovém článku.

Shluková analýza

Podstatou je rozdělení objektů na základě dosažených hodnot u jednotlivých proměnných do skupin (Haruštiaková et al., 2012, kap. 5). Tyto skupiny se označují jako shluky a odtud je odvozen název shluková analýza. Rozdělením objektů do skupin se reálně sníží počet proměnných na jedinou – příslušnost objektu ke skupině. Používáme ji v případech, kdy víme, že pozorované objekty reálně náleží do nějaké třídy, kde platí, že objekty v třídě si jsou vzájemně bližší, než objekty z různých tříd, nicméně je lze použít i pro data připomínající “homogenní chaos”, v něm se obvykle snažíme najít nějaký “systém”.

Přístupy ve shlukové analýze jsou v zásadě dva – hierarchické a nehierarchické. Výsledkem hierarchického shlukování je systém skupin a podskupin – výsledkem jsou grafické stromy = dendrogramy. Aglomerativním postupem se postupně spojují nejpodobnější objekty až jsou všechny spojeny do jediné skupiny zahrnující všechny objekty. Divizivním postupem se naopak celý soubor objektů dělí v postupných krocích na části (nejčastěji dvě), a to podle vzdálenosti. Nehierarchické shlukování pak dělí objekty do badatelem určeného počtu shluků stejného řádu.

Hierarchické aglomerativní shlukování

Její podstatou je výpočet podobnosti/vzdálenosti mezi všemi dvojicemi objektů, tedy posouzení asociační matice. V postupných krocích se pak posuzuje podobnost/vzdálenost objektů, objektu a shluku a dvou shluků. Metoda posouzení vzdálenosti mezi shluky je základem pro požadovaný výsledek. Rozdíly v použití jednotlivých metod jsou nádherně popsány na s. 31-35 (Haruštiaková et al., 2012). Další významu volbou je výběr míry vzdálenosti – nejčastěji se používá euklidovská vzdálenost. Vlastním výstupem analýzy je dedrogram a tabulka postupu skládání stromu. Popis dendrogramu není složitý, na začátek je však ale třeba upozornit, že vedle sebe umístěné objekty si nemusí být vzájemně podobnější než objekty umístěné dále od sebe. Vzdálenost se počítá po větvi dedrogramu k nejbližšímu společnému rozvětvení dvou posuzovaných objektů. Takže např. na obr. 5.9 na s. 36 je třetí z vrchu objekt B1, jemu nejpodobnějším je objekt G1 – sloučeny do jednoho shluku (obsahujícího objekty B1 a G1) na úrovni vzdálenosti cca. 6,5 (to je hodnota průsečíku spojnice větví B1 a G1 a osy x). Ale hodnota vzdálenosti objektů B1 a I1 je ale cca. 15, přestože jsou na “ose y” tyto objekty vedle sebe. Objektu B1 je podobnější D1 než I1 – společný shluk tvoří B1 a D1 (samozřejmě už společně s G1) na vzdálenosti cca. 9,5. Chci-li definovat třídy na základě hierarchické aglomerativní metody musím rozhodnout na jaké vzdálenosti dendrogram “říznu”. Haruštiaková et al. (2012) v obr. 5.9 jej “řízli” na úrovni vzdálenosti cca. 13 – vzniklo tak pět tříd. Rozhodnutí, na jaké úrovni “říznout” je věcí zkušenosti a charakteru dedrogramu (posuzuji kombinace vzdáleností větvení – já bych se asi v tomto případě rozhodoval mezi vzdáleností 11 – t.j. 7 tříd – nebo vzdáleností 14 – t.j. 4 třídy). Při rozhodování je obvykle lépe vlastní metriku vynést na “ose x” jako procentické hodnoty vzdálenosti. Pak se rozhoduji na úrovni procent, které zároveň znamenají procentickou ztrátu detailu informace (informace, kterou nesly objekty v úrovni 0 % je nahrazena přepočty na centrální hodnoty shluku na úrovni x %. Pokud detailně popisuji shluky, pak by asi ztráta neměla být vyšší než 50 %, nicméně v jednom posudku na článek mi recenzent doporučil úroveň 20 %.

Hierarchické aglomerativní shlukování se často používá jako předstupeň před nehierarchickým shlukováním a jeho cílem je v tomto případě určit “optimální” počet shluků – příslušnost objektu ke shluku je pak řešena nehierarchickým shlukováním.

Tuto metodu lze taktéž použít ke klasifikaci proměnných.

  • Příklad z přírodních věd: Na rašeliništích jisté oblasti byl proveden větší počet fytocenologických snímků a nás zajímá, které lokality si jsou v druhovém složení podobnější. Ovládání ve STATISTICA je na videu.
  • Příklad ze sociálních věd: Mezi návštěvníky národních parků a chráněných krajinných oblastí byla zjišťována míra participace na dílčích rekreačních aktivitách, které provozují v době své dovolené návštěvníci těchto území. Autory zajímalo vymezení skupin návštěvníků a vzájemná podobnost v provozování dílčích aktivit. Zde je příkladový článek.

Hierarchické divizivní shlukování

Jak už bylo zmíněno výše, divizivní metoda pracuje “opačně” než aglomerativní. Při tomto dělení “větší rozdíly přetrvávají nad méně důležitými rozdíly: celková struktura shluku determinuje podskupiny” (Haruštiaková et al., 2012, s. 37). Princip je graficky vyjádřen v obr. 5.12 na s. 38 (Haruštiaková et al., 2012). Hierarchické divizivní metody se používají velmi často při klasifikaci společenstev – nejčastější metodou je TWINSPAN – my používáme výhradně ji. Jako základ pro posouzení vzdáleností podél níž dochází k dělení na jednotlivých úrovních je ordinace korespondenční analýzou (vis ordinace). Asi největší výhodou je, že tato metoda je přímo inkorporována do software JUICE, který je určen pro analýzu společenstev a je ZADARMO ke stažení zde. Základní popis uvádí Haruštiaková et al (2012) na s. 39-40, detailnější na konkrétním příkladu uvádí Lepš et Šmilauer (2000) na s. 59-65. Nevýhodou je nutnost ručního nastavení cut level, podobně jako v předchozím případě je toto rozhodnutí čistě na badateli a je dáno zkušeností a charakterem aktuálních dat.

  • Příklad z přírodních věd: Na toku dolní Lužnice byly pořízeny fytocenologické snímky kulturního lesa. Zajímá nás jejich klasifikace na základě druhového složení, o kterém předpokládáme, že je výsledkem kombinace lidského zásahu a úživnosti substrátu. K tomu použijeme Klasifikaci metodou TWINSPAN. Výsledek takovéto klasifikace si můžete prohlédnout zde.
  • Příklad ze sociálních věd: V šetřeném území byl identifikován větší počet atraktivit cestovního ruchu v dílčích územních jednotkách šetřeného území. Na základě kombinací množství zastoupení dílčích atraktivit byly vymezeny typy atraktivnosti území. Výsledek je v příkladovém článku v Table 1.

Další nevýhodou klasického TWINSPANu je dělení už zjevně dostatečně homogenních skupin, dokud není dosaženo stanoveného počtu shluků. Proto byla vyvinuta varianta, kde je možno nastavit i minimální hodnotu heterogenity uvnitř shluku a pokud není dosažena, daný shluk není v následujícím kroku dělen. princip je následující:

  • nastavím cut level, pseoudospecies, počet požadovaných shluků a minimální velikost shluků, tedy stejně jako v klasickém TWINSANu
  • dále nastavím metodu výpočtu heterogenity a hodnotu heterogenity, do které se má dělení provádět
  • spustí se analýza, která rozdělí soubor na dvě části, spočítá heterogenitu obou a tu, která má hodnotu heterogenity větší (a je také větší než heterogenita nastavená v předchozím bodě) tu dělí
  • následně je opět pro nové shluky spočítána heterogenita – pokud nebylo dosaženo cílového počtu shluků a/nebo by nově vzniknuvší skupina byla menší než v bodě 1 nastavená minimální velikost shluku, je dělena ta skupina, která má nejvyšší hodnotu heterogenity – může to být jedna ze skupin vzniknuvších
  • ve druhém kole nebo skupina nedělaná po prvním kole
  • vše je jasné z posteru, pokud to použijete citujte tento článek

Nehierarchické shlukování

Cílem je vytvořit hierarchicky rovnocenné shluky uvnitř nichž budou vzájemně podobnější objekty než mimo ně. Toho lze dosáhnout několika postupy. Základním a nejčastěji používaným přístupem je metoda maximalizace vnitrodruhové podobnosti = metoda K-průměrů. To v praxi odpovídá minimalizaci inverzní funkce – minimalizují se sumy čtverců vzdáleností uvnitř skupiny. Vzhledem k tomu, že počet shluků stanovuje badatel, je obvykle třeba uvažovat nad počáteční (nulovou) příslušností objektů ke skupinám a také zkusit vytvořit větší počet skupin a použít tu variantu, která vykazuje minimální vnitroskupinovou variabilitu.

Kromě metody K-průměrů nabízejí některé software i její dynamickou variantu označovanou jako metoda X-průměrů – u té se nastavují jen meze počtu shluků a na základě informačních kritérií (BIC nebo AIC) se vybírají nejvhodnější varianty přiřazení objektů do shluků a počtu shluků. Další metodou je metoda K-metoidů, kde skupinu nereprezentuje centroid, ale metoid = reprezentativní objekt.

  • Příklad z přírodních věd: Na vybraných rašeliništích byly měřeny vybrané fyzikálně chemické vlastnosti podzemní vody. Zajímá nás, která místa vykazují stejný typ chemismu podzemní vody. Ovládání ve STATISTICA je na videu (data byla před analýzou standardizována).
  • Příklad ze sociálních věd: Autoři měli k dispozici vybraná segmentační kritéria respondentů se vztahem k poptávce po loveckém cestovním ruchu. Jejich cílem bylo rozdělit poptávku do poptávkových segmentů podle těchto kritérií. Počet shluků byl odvozen od předchozí hierarchické aglomerativní analýzy. Výsledek je v článku ve Figure 2.

Všechny tyto metody se potýkají s problémem optimálního určení počtu shluků. Jak už bylo naznačeno výše, počet shluků lze předem odhadnout s využitím hierarchické shlukové analýzy – nejlépe s Wardovou metodou, protože metoda K-průměrů počítá, stejně jako ona, s centroidy. Validace výsledků nehierarchické shlukové analýzy lze provést několika způsoby – asi nejčastěji používaných (z důvodu jednoduchosti) je analýza rozptylu – shluky se použijí jako kategoriální proměnná a testovány jsou průměry dílčích proměnných v těchto shlucích. Dále se používá indexů, jejichž porovnáním se vybere “optimálnější” počet shluků. Zejména v sociálních vědách je oblíbená validační metoda siluety – Statistica ji neumí.

Regresní modely

Vycházejí ze stejných rámců jako různé typy ANOVA a zjednodušeně řečeno je od sebe dělí jen rozdíl v charakteru vysvětlujících proměnných – u ANOVA jsou kategoriální, u regresí mohou mít jakýkoliv typ dat, což platí i pro vysvětlovanou proměnnou. Právě podle jejich charakteru se rozlišují jednotlivé typy regresí. My se jim teoreticky moc věnovat nebudeme a omezíme se na jejich přehled a způsob ovládání ve STATISTICA. S vědomím toho, že pomocí Real Statistics lze většinu z toho, co si ukážeme, udělat i v MS Excel. Nejjednodušší jsou (mimo to, co jsme si ukázali v základním kurzu) regrese, kde na straně vysvětlované i vysvětlující stojí poměrové proměnné, ale jejich kombinace nejsou lineární.

Nelineární regrese (Lepš, 1996, s. 135-138)

Nejčastěji se používá polynomiální regrese – závislost je konstantní, ale ne lineární. Ve výsledku se nám často podaří pěkně proložit křivku našimi daty, ale interpretace, především u polynomů vyšších stupňů, je v podstatě nemožná. Proto se snažíme používat kvadratickou regresi. To co těmito modely dokazujeme je “nelinearita” závislosti.

Nelineární (fukční) regrese umožňují proložit křivku zvolené funkce – nejlepší se nedají vybrat postupem jako u lineární regrese a obvykle jsou výstupem nějakého opakovacího (iteračního procesu) – program začne s nějakou nulovou verzí, vypočte metodou nejmenších čtverců reziduály, následně zvolí jiné nastavení výchozích hodnot a porovná jejich reziduály a reziduály prvního výpočtu, takovýchto výpočtů udělá velké množství a vybere ten “nejlepší” – najde lokální optimum, těch ale může být několik. Statisticky správnější je obvykle data nejprve transformovat a následně podrobit lineární regresi.

  • Příklad z přírodních věd: závislost druhové bohatosti na množství živin v půdě reprezentovaných amoniakálním dusíkem řešená na videu pomocí Graphs ve STATISTICA.

Pokud potřebuji pracovat s větším množstvím polynomiálních nezávislých proměnných, pak musíme volit “Advanced models”, v ní “General linear” a na její kartě “Polynomial regression”.

Hierarchická mnohonásobná lineární regrese

Problém u mnoha regresí je ten, že mám obvykle skupiny vysvětlujících proměnných a nikoliv “jednotlivé” vysvětlující proměnné. Zajímá nás vliv jedné skupiny nezávislých proměnných na závislou proměnou, ale máme i další skupinu nezávislých proměnných, o které víme, že má na vysvětlovanou proměnnou vliv – tento nás ale nezajímá. Naším cílem je zjistit vliv první skupiny při spolupůsobení druhé skupiny. V podstatě nás tedy zajímá, jak se projeví vliv zařazení druhé skupiny proměnných na výslednou hodnotu Adjusted R2.

Příklad ze sociálních věd: Sledujeme zájem o daný typ outdoorové rekreační činnosti. Zajímá nás vliv vztahu k životnímu prostředí respondenta na zájem o tu konkrétní outdoorovou rekreační činnost. Nicméně vím, že existují další proměnné, které mají na zájem vliv – demografická a socioekonomická data o respondentovi.

V podstatě jde o “jednoduchou” variantu komplikovaných strukturálních modelů, kde pomocí série regresních koeficientů posuzujeme vazby mezi větším množstvím proměnných, jež vystupují často zároveň na úrovni vysvětlovaných i vysvětlujících. Nicméně zde mám dvě skupiny, kde mě nezajímá hierarchie jejich vlivu, ale jen chci posoudit jak zásadně se změní Adjusted R2, když do modelu, kromě proměnných o zájmu o životní prostředí vstoupí i data o demografických a socioekonomických ukazatelích o respondentovi.

Ve STATISTICA je zapotřebí v úvodním panelu zaškrtnout všechny varianty výpočtů v modelu, následně zvolit proměnné. Po odeslání se dostanete do panelu volby modelů, v něm musíte nejprve zvolit všechny vysvětlující proměnné a pak samozřejmě specifikaci modelu. Po odeslání lze mezi výsledky vpravo dole najít položku “Stepwise regression summary”, v ní najdete výsledek tohoto prvního kroku. Dáte OK, následně v hlavním výsledkovém okně dáte Cancel a ve volbách modelů vyberete jen část vysvětlujících proměnných, které Vás zajímají. Model nastavíte stejně a odešlete. V položce “Stepwise regression summary” najdete výsledek pro nový model a změny, ke kterým došlo oproti předchozímu modelu. Tímto způsobem můžete zeštíhlovat model po jedné nebo několika proměnných. Vždy ale musí jít o odebrání proměnných z předešlého modelu – nelze už žádné další přidávat (respektive lze, ale program nevypočítá změnu).

Další typy regresí (Lepš et Šmilauer, 2000, kap. 11)

Všechny výše uvedené typy regresí měly společného jmenovatele v tom, že na straně vysvětlované proměnné (Lhs) i straně vysvětlujících proměnných (Rhs) mohly stát výhradně poměrové proměnné. To je ale značné omezení, protože velké množství dat má ordinální (stupnice v dotaznících) či nominální charakter (barva kožichu, pohlaví, geologický substrát). My jsme už skupinu modelů umožňující pracovat s Rhs nominálními proměnnými poznali – skupinu modelů ANOVA. ANOVA a další modely umožňující pracovat jen s poměrovými Lhs a kterýmikoliv Rhs označujeme jako obecné lineární modely (General Liner Models, GLM). Pro regrese obecných lineárních modelů platí odhady nezávislosti jednotlivých prediktorů – aditivita.

  • Příklad z přírodních věd: Závisí velikost snůšky vybraného druhu vodního ptáka na environmentálních charakteristikách polohy hnízda? Snůška je měřena součtem objemu všech vajec (poměrová proměnná), nezávislými proměnnými jsou vzdálenost od nejbližšího dalšího hnízda (poměrová proměnná), vzdálenost hnízda od volné vodní hladiny (poměrová proměnná), typ porostu podle rostlinné dominanty (4 typy, nominální proměnná). Výpočet ve Statistica je na videu.

Jejich zobecněním vznikají komplikovanější modely označované jako zobecněné lineární modely, čili Generalized Linear Models (GLZ). Rozšířeny jsou v tom slova smyslu, že u nich můžeme použít u Lhs proměnnou ordinálního i nominálního charakteru. Podle charakteru vysvětlované proměnné jsou definovány základní link funkce, pomocí kterých jsou převedeny hodnoty prediktorů b (beta) jednotlivých nezávislých proměnných z lineárního modelu (teoreticky zasahujících z mínus nekonečna do plus nekonečna) na ordinální nebo nominální stupnici toho kterého konkrétního prediktoru.

STATISTICA umožňuje komplexní volbu jednotlivých modelů ve svých panelech nástrojů – vysvětlení hlavních případů je asi jednodušší na příkladech:

  • Příklad z přírodních věd: Zadání stejné jako předchozí, ale velikost snůšky je měřena počtem vajec, ten je nízký a má Poissonovo rozdělení – video s výpočtem.

POZOR!!!!!! U následujících příkladů stejně jako u nominal multinomial závislé proměnné (kterou asi v praxi budete taky používat) STATISTICA bere jako úroveň pro níž je počítána pravděpodobnost volby, úroveň s nejnižší hodnotou – proto budou výsledky regresních koeficientů s opačnými znaménky než u předchozích dvou příkladů. Lze počítat pro regresní model, kde na straně Lhs je proměnná s ordinální stupnicí:

  • Příklad z přírodních věd: Zadání stejné jako předchozí, ale velikost snůšky je měřena typem počtu vajec – nadprůměrná snůška, průměrná snůška, podprůměrná snůška – závislá proměnná je na ordinální stupnici – video.

. . . nebo i proměnná s bivariátní stupnicí:

  • Příklad z přírodních věd: Zadání stejné jako předchozí, ale ptám se na rozdíly, které odlišují hnízda s nadprůměrnou a podprůměrnou snůškou – závislá proměnná je tak nominální, bivariátní (podprůměrná versus nadprůměrná nebo jinak nadprůměrná ANO nebo NE) – video.

Advanced typy ANOVA

Jejich podstatou, stejně jako u lineární regrese a jednofaktorové ANOVA, je rozdělení varibility závislé proměnné (kterou je vždy poměrová proměnná), na části, které jsou schopny vysvětlit jednotlivé použité nezávislé proměnné (které mohou být podle modelu poměrového až nominálního charakteru) a část těmito proměnnými nevysvětlitelné.

Software určené ke zpracování dat jsou obvykle nastaveny i k jednoduchému ovládání počítání složitějších úloh, než je ANOVA jednoduchého třídění (k zopakování tabule). Pokud máme na straně vysvětlovaných proměnných jedinou proměnnou, patří různé typy ANOVA (vedle regresí) k nejčastěji používaným nástrojům řešení problémů pro factorial i nested design pokusů a sběru dat. Jde samozřejmě o případy, kdy mám více než jeden kategoriální prediktor – už jsme si říkali, že pro následné vysvětlení není dobré, aby každý faktor neměl o moc více úrovní než dvě a aby takových faktorů bylo do čtyř.

U faktoriálního designu (na tabuli)lze v základu použít faktorovou ANOVA, pokud počítáme s interakcemi = předpokládáme, že vliv sledovaných kategoriálních proměnných (faktorů) není pouze aditivní – tedy, že kromě vlivu měřených proměnných, existuje i nenáhodný vliv kombinace těchto faktorů na variabilitu hodnot sledované proměnné. Je-li vztah čistě aditivní, pak používáme ANOVA hlavních efektů.

Faktorová (factorial) ANOVA (Lepš, 1996, kap. 9)

Testujeme vliv více kategoriálních faktorů než jednoho a současně vliv kombinace těchto faktorů (= neaditivitu) – měl by být stejný počet měření pro každou kombinaci působících faktorů (ale nemusí, pak ale je třeba měnit automatické nastavení), faktory mohou mít různé počty skupin (Lepš, 1996, s. 89-94 nahoře), jen na okraj – v Obr. 9-1 jsou kontingenční tabulky, v polích jsou ale zobrazeny průměrné hodnoty měření jednotlivých kombinací faktorů a nikoliv počty – ty jsou všude stejné. Speciálním případem faktorové ANOVA je dvoufaktorová (dvoucestná) ANOVA, kterou umí i MS Excel (video). Příklad v učebnici (Lepš, 1996; hnojení a zálivka) je snad jasný – ve společenských vědách mohu třeba sledovat současný vliv pohlaví a věku (vyjádřený ve věkových kategoriích) na hodnocení atraktivity výstavy zbraní v zámecké expozici.

  • Příklad z přírodních věd: hodnotíme vliv dvou dvouúrovňových proměnných na druhovou pokryvnost (předpokládáme splnění požadavku na zcela náhodné rozmístění ploch). Těmi faktory jsou minerální bohatost a množství živin. Nejprve na příkladu Drosera rotundifolia a následně Carex lasiocarpa.

ANOVA hlavních efektů (Main effect ANOVA) (Lepš, 1996, s. 93-94)

Používám pro testování pouze hlavních efektů – a priori předpokládám aditivitu, nebo jsem ji pomocí factorial ANOVA “potvrdil” (výše uvedeným postupem toto potvrzení ale není až tak úplně možné; to, že jsem nemohl zamítnou hypotézu o významu neaditivity, ještě neznamená, že jsem potvrdil aditivitu – viz nulové hypotézy). Rozhodování o adivitě a neaditivitě je primárně založeno na naší znalosti vazby mezi efekty na sledovanou proměnou.

Při použití ANOVA hlavních efektů veškeré odchylky od aditivity považuji za náhodné a tyto odchylky se stávají součástí celkové variance. Použití jsme si ukázali v předchozí části.

Pevné (fixed) versus náhodné (random) faktory (Lepš, 1996, s. 80 dole – 81 nahoře a 93 nahoře)

Tabulka 9-2 (Lepš, 1996) názorně shrnuje z čeho je F-test v ANOVA počítán, při různém uvažovaní o variabilitě měřených proměnných. O použití Modelu I, II a III rozhoduji podle podstaty dat. Rozumně je to vysvětleno v části “Dva modely analýzy variance”. K tomu lze uvést následující berličku pro Vaše rozhodování: fixed jsou obvykle faktory, které vysvětluji = jsou předmětem mého výzkumu, random jsou faktory, které nějak souvisejí s designem pokusu (jsou náhodné a nikoliv vysvětlované, a to, co obvykle testuji, je zobecnění a nikoliv rozdíly mezi konkrétními místy, kde jsem pokus provedl).
Komentář k obrázku 9-4 (Lepš, 1996) to snad osvětlí lépe: mám tři zásahy a kontrolu, tedy 4 typy zásahu celkem, a budu v experimentu každý zásah opakovat 4x. Celkem mám tedy 16 měřených ploch. Aby to bylo naprosto správně, pak mohu udělat v podstatě tři základní věci: (1) použít náhodné rozmístění ploch (to tam není ukázáno), (2) úplné znáhodnělé bloky, nebo (3) latinský čtverec. V každém z těchto případů musím použít jiný typ nastavení ANOVA – pro náhodné rozmístění použiji one-way ANOVA (skupinou budou 4 typy zásahu), pro úplné znáhodnělé bloky použiji Two-way ANOVA, kde zásahy budou fixed, bloky random, model je main effect, pro latinský čtverec budu muset použít three-way ANOVA, kde fixed budou zásahy, ale pořadí plochy v řádku bude jeden random effect a pořadí plochy ve sloupci bude druhý random effect.

S tímto je problém ve STATISTICA 12, pokud používáme rychlého průvodce ANOVA v přímé nabídce Statistics – v nastavení random versus fixed jinak než otevřením syntax editoru nelze. Takže pokud chcete použít jen průvodce a hodnotit Factorial ANOVA nebo Main effect ANOVA, pak nemůžete použít jejich nabídku a musíte zvolit jeden z následujících postupů:

  • na kartě Statistics položku Advanced models a v ní Variance components. V průvodci pak na záložce Quick zvolím požadované proměnné (všimněte si, že tam lze navolit i kovariátu – čili tento nástroj použiji i pro složitější designy ANCOVA), na kartě Model pak na druhé volbě volím jestli interakce mají bít fixed nebo random (zde si všimněte, že kromě factorial design lze níže nastavit i nested design).
  • další a v drtivé většině případů šťastnější volbou je volit Advanced models – General linear a na jejich kartě zvolený typ ANOVA (factorial, main effect, hierarchical) nebo dole obecně General linear models. V dialogu nastavení na kartě Options mám nově volbu nastavení, které efekty mají být náhodné. Také zde lze nastavit poměrovou spojitou kovariátu. Přehled nastavení pro měření provedené na pokryvnosti Carex lasiocarpa s nastavením obou efektů jako random je na videu.

Mnohonásobné porovnání – podobně jako u One-way ANOVA, kde jsou tři a více úrovní grupovací proměnné, i zde lze pomocí post-hoc testů identifikovat “co se od čeho liší.” Ve STATISTICA vypadají karty Factorial i Main effect ANOVA stejně jako u One-way ANOVA. Pokud použijete nástroj Variance components, tak tady možnost post-hoc testování není. Nicméně musíme na tomto místě upozornit, že z podstaty věci je ANOVA explorativní analýza a s ohledem na nulové hypotézy jí nelze prokázat rozdíly, ale pouze jí můžeme nebo nemůžeme potvrdit neexistenci rozdílů. K interpretaci výsledků bychom měli primárně používat interakčních grafů a znalosti studovaného problému.

Hierarchická (nested) ANOVA (Lepš, 1996, kap. 11)

Také můžeme testovat více “faktorů”, ale o “faktorech” víme, že si nejsou rovnocenné, ale tvoří jistý hierarchický systém (na tabuli). Vulgárně řečeno, faktor nižší úrovně tvoří podmnožiny faktoru postaveného výše. Asi nejlepší na vysvětlení je příklad 3 na s. 104 (Lepš, 1996) – autory zajímaly rozdíly délek korunních trubek u nějakého druhu hluchavky – styl, kterým vybrali květy není faktorový, ale je “nested” – navštíveny byly lokality a na lokalitách byly sebrány kytky a na nich byly měřeny vybrané květy. V podstatě můžeme říci, že se jedná o bloky (kytky) umístěné v blocích (lokality). Vysvětlovanou (závislou) proměnnou je samozřejmě délka korunní trubky. Nezávislou proměnnou je rostlina, na které jsme květy měřili a lokalita, na které jsme nasbírali ty kytky. Kytka je pak faktor s náhodným efektem. Lokalita může být fixed i random, podle situace pokusu – vzhledem k tomu, že autoři píší, že “porovnáváme lokality”, tak by měla být fixed.

Tady je asi zapotřebí upozornit na rozdíl mezi factorial a nested design – ten je primárně jasný z dat “faktorů”. Úplně znáhodnělé bloky, které jsme řešili při vysvětlování “fixed” versus “random”, jsou faktory, protože zásah typu 1 byl proveden v bloku 1, 2, 3 i 4, zásah typu 2 byl proveden taktéž v bloku 1, 2, 3 i 4. Naproti tomu kytka 1 (z předchozího odstavce) pochází jen z lokality 1, kytka 2 pochází jen z lokality 1, kytka 3 pochází jen z lokality 3, atd. Čili přinejmenším z kódování dat je jasné, jde-li o factorial nebo nested design (to uvádíme jen proto, že s tím jsou těžké problémy u zápočtu 🙂

Hierarchickou ANOVA v drtivé většině případů použijeme proto, že jsme naplánovali pokus nebo sběr dat na hierarchické úrovni (obvykle jde o skupinové náhodné výběry na jedné a více úrovních). Pro tento typ designu je pravidlem, že nás zajímá jen rozdíl skupin nejvyšší úrovně – tento faktor je pevný. Nižší “faktory” jsou zahnízděny v (nested in / nested under / nested within) skupinách (vyšší úrovně) – tvoří tedy podskupiny (subgroups). Konkrétní měřené vzorky jsou v nich vybrány náhodně a i tyto podskupiny jsou náhodným výběrem ze základního souboru podskupin – proto podskupiny (a případné další podpodskupiny) nastavujeme vždy jako náhodné faktory.
Přestože jsme na začátku uváděli nested design jako jeden ze způsobů designu experimentů, má tento design své uplatnění i v neexperimentálních výzkumných plánech. Nejčastěji se s ním v praxi setkáte, když budete dělat více měření na jednom objektu = na jedné lokalitě uděláte více měření (např. tam uděláte více vegetačních snímků nebo budete sledovat více transektů) nebo sledovanou proměnou změříte na jednom laboratorním zvířeti na několika místech jeho těla.

POZOR!!!!!

  • V základním kurzu jsme pro řešení podobných (ne stejných!!!!) úloh používali One-way ANOVA – měli jsme jen jednu úroveň (= tu nejvyšší). Řešili jsme už jen konkrétní případy (= jejich rozdíly mezi skupinami nejvyšší úrovně) a neřešili jsme, že vzorky pochází ze specifických podskupin. Tento postup ale není v případech, kdy byly vzorky (konkrétní lokality, respondenti dotazníků, pokusní jedinci) vybírány skupinově, správný – je porušeno pravidlo nezávislosti jednotlivých měření (data jsou výsledkem pseudoreplikace). Musíme použít hierarchickou ANOVA s příslušným počtem úrovní skupin.
  • Pokud nás zajímají i rozdíly v podskupinách a mezi nimi, pak je musíme nastavovat jako fixed a v těchto případech se už nepoužívá hierarchická ale faktorová ANOVA.

Hierarchickou ANOVA naleznete ve Statistice např. ve struktuře Statistics – Advanced models – General linear, kde je to položka Nested design ANOVA. V něm jsem schopen veškerá nastavení učinit.

  • Příklad z přírodních věd: Jsme postaveni před otázku – Existuje souvislost mezi pokryvností Carex rostrata a množstvím minerálů rozpuštěných v podzemní vodě na jejím stanovišti? Pro studování této souvislosti byl zvolen Nested design. Základní vysvětlující proměnnou je minerální bohatost podzemní vody stanoviště prezentovaná dvěma stupni – minerálně bohatá versus minerálně chudá, v rámci těchto dvou typů stanovišť byly vybrány čtyři lokality a na nich provedeny dvoje měření pokryvnosti Carex rostrata. Řešení ve Statistica je na videu.
  • Příklad ze sociálních věd: Zde je příklad jasný. V momentě, kdy mě zajímají rozdíly např. mezi lokalitami a data byla řešena sběrem dotazníky, kde bylo na každé lokalitě povícero tazatelů, tak by se neměla používat One-way ANOVA, ale hierarchická a jako podskupina by se mělo použít jednotlivých tazatelů, kteří jsou zahnízděni v lokalitě.

Na tomto místě se podívejme na další možnost ovládání testů v software Statistica – použití Analysis Wizard na příkladu nested design je na videu.

ANOVA pro opakovaná měření (RMANOVA)

Testujeme vliv jednoho nebo více faktorů, které byly měřeny opakovaně (např. pH na lokalitě na jaře, v létě a na podzim nebo např. míra spokojenosti s ubytováním při první, při druhé a při třetí návštěvě daného hotelu). V takových případech nemůžeme použít faktorovou ANOVA, pač měření pH na jaře a na podzim nejsou vzájemně nezávislé proměnné, stejně jako měření spokojenosti s prvním pobytem a třetím pobytem – musíme proto snižovat stupně volnosti. Už jsme i viděli, že jako závislé je považováno, když se v dotazníku ptáte respondenta na názor na větší množství např. produktů (s tím, že u každého produktu respondent rozhodoval na samostatné škále). Obecně je tento design označován jako “subject by trials design”. Ve své podstatě se jedná o factorial design, kde jeden faktor je tvořen vzájemně závislými měřeními.

STATISTICA má pro tato měření speciální nástroj volaný z karty ANOVA hlavní nabídky Statistics.

  • Příklad z přírodních věd: Jako příklad si můžeme ukázat to, co jsme již řešili v základním kurzu. Otázkou je jestli se pH liší v typech vegetace podle druhové bohatosti, jestli se liší jednotlivá měření pH a jestli jsou tyto odlišnosti odlišné v typech vegetace podle druhové bohatosti? Řešení ve Statistica je na videu.

Pro všechny typy ANOVA platí, že v nastavení Sum of squares nastavujeme Type I nebo Type II, pokud máme vyvážené uspořádání, a Type III, pokud máme nevyvážené uspořádání, tedy různý počet měření v různých kombinacích proměnných, nebo některé kombinace měřeny nejsou – viz fractional factorial design – pro tyto případy jsou v nabídce i Type IV-VI.

Všimněte si, že u všech případů těchto komplikovanějších výzkumů, je zásadním už vlastní příprava měření – je třeba dopředu vědět, co proti čemu chci hodnotit, a podle toho nastavit systém sběru dat.

Návod na výpočet RM-ANOVA (jen faktor čas) pro MS Excel je na tomto externím odkazu.

Friedmanova ANOVA neboli Friedmanův test

Je neparametrickou obdobou testu ANOVA pro opakovaná měření (RMANOVA). Podobně jako Wilcoxonův test je výpočet založen na pořadí. Vzorec na výpočet testovacího kritéria je podobný Kruskal-Wallisovu testu. Vzorec včetně modelového výpočtu v MS Excel je na externím odkazu. Mnohonásobné porovnání se pak dělá na základě absolutní hodnoty rozdílu sum pořadí dvojice úrovní a jeho porovnání s tabelovanou hodnotou.
Friedmanův test se používá běžně v případech, kde není možné použít RMANOVA – teoreticky by se měla používat vždy, když máme ordinální data z dotaníků, která nejčastěji neoprávněně prohlašujeme za poměrová a navíc “normální”.
Bohužel Statistica nemá nástroj na “Two way” variantu tohoto testu, který by byl pravou náhradou RMANOVA (má ho ale např. Unistat). K dispozici máme jen jeho one-way variantu – tedy nejsme schopni jednoduše souběžně posoudit rozdíl v čase a mezi např. vegetačními typy, můžeme jen posoudit rozdíly v čase – video.

Návod na výpočet Friedmanův test (jen faktor čas) pro MS Excel je na tomto externím odkazu.

ANCOVA (Lepš, 1996, s. 133 poslední odstavec – 134)

Pod tímto názvem se skrývá analýza kovariance. Tu použijeme v případě, že kromě kategoriálních skupin v jednofaktorové nebo vícefaktové ANOVA máme i poměrovou proměnnou, o které víme, že má vliv na velikost závislé proměnné. Vliv této proměnné chceme eliminovat, použijeme ji v analýze jako tzv. kovariátu, jejíž vliv se nejprve od závislé proměnné “odečte” a následně se testuje rozdíl ve skupinách. Excel v doplňcích analytických nástrojů ANCOVA nemá, nicméně pomocí regrese a ANOVA se k výsledku lze relativně jednoduše dobrat i v něm – návod je na externím odkazu. Ve STATISTICA je ANCOVA s sekci Statistics – Advanced models, a tam buď v General linear nebo, pokud chci nastavovat fixed versus random predictors, tak pak ve Variance components. Ani STATISTICA není schopna počítat s kovariátou nominálního charakteru, což je dost velké mínus pro ekologické experimenty – musí se použít CANOCO.

  • Příklad z přírodních věd: Ústně jsme několikrát řešili na přednáškách v základním kurzu délky ocásků u tarbíků. Jenou z možností jak řešit problém rozdílnosti délky ocásků mezi pohlavími u tarbíka je použití modelu ANCOVA, kde vysvětlovanou proměnnou je délka ocásku, kategorickým prediktorem je pohlaví a kovariátou bude celková velikost jedince.

Software Statistica

Pro práci v rozšiřujícím kurzu budeme používat software Dell Statistica. Je to komerční program zakoupený školou, který jsme vybrali proto, že je nainstalovaný na všech učebnách, je jednoduchý na ovládání a je schopen vyřešit většinu problémů, před kterými budete stát při vyhodnocování Vašich DP. Všechny další alternativy mají nějakou překážku v použití:

  • SPSS je taktéž komerční program, který není školou koupen (především na neparametrické regrese je rozhodně lepší než Statistica)
  • CANOCO, které je nejlepší pro mnoho zde zmíněných metod (především mnohorozměrnou statistiku), je komerčním programem, který není pro studenty fakulty pořízen
  • B-VegAna, je sice freeware, ale běží na Javě a nemá schválen bezpečnostní certifikát, jeho instalace a pak především spouštění není ve škole možné (nicméně na domácí použití při řešení mnohorozměrných úloh ho důrazně doporučujeme)
  • R je aktuálně nejpopulárnější free statistický software, není však všude nainstalováno (často chybí R-studio), jeho ovládání však není intuitivní a vyžaduje praxi, kterou není možné po studentech vyžadovat, jinak je to ale asi nejlepší řešení pro ty, co hodlají statistikovat data i po absolvování tohoto kurzu – na webu je návodů dost
  • MS Excel, v něm jsme se naučili hodně, sami si můžete vyzkoušet věci další – je toho hodně – už jsme doporučovali RealStatistics a existuje noho komerčních “extenzí”, jako je např. Unistat
  • ovládání většiny výše uvedených programů jsme vám zpřístupnili na zvláštních stránkách
  • plus existuje noho komerčních programů řešících dílčí statistické úlohy

Stažení

Program máte k dispozici na \\archive.jcu.cz\public\Statistica Tuto lokalizaci musíte připojit jako síťovou jednotku. Budete to po Vás chtít autentizaci (je identická jako do STAGu). Program si stáhněte a nainstalujte – je tam více verzí – doporučuji stáhnout poslední a s tou pracovat. Návod je zde.

Program

Níže naleznete základní tutoriál pro práci s tímto software. Je to sice starší verze, nicméně většina věcí funguje stejně, jen na Windows 8 to vypadá trochu jinak než na Windows XP. Kromě importu dat je jako komplexní cvičná analýza uvedena jednocestná ANOVA plus korelace. Z toho by mělo být jasné základní ovládání programu, pokud něco jasného není tak doporučuji některá další videa, která má tenhle borec, je to sice v polštině, to by Vám ale jako slovanům nemělo vadit. Pokud se Vám to nezdá, tak původní majitel software StatSoft na to má svoje videa.

Při práci určitě používejte jejich učebnici – je vynikající.

Níže jsou videa, které jsem natočil pro bakalářky v roce 2009 ještě na starých verzích programu – zpracovávali jsme odpovědi z dotazníků, kde byly škály a nějaká segmentační kritéria:

Pokud Vám nic z toho nepomohlo, tak základní manuál v češtině je tady.

POZOR!!! – funkčnost programu je obrovská a jeden požadavek lze uskutečnit průměrně 3 různými způsoby (to je alespoň náš odhad). Dále jsou uvedeny způsoby, které používáme my, a v žádném případě netvrdíme, že to jsou způsoby nejlepší nebo nejjednodušší.

Komě výše uvedeného ještě pro jistotu uvedeme základní práci, kterou jsme se naučili v základním kurzu zpracovat v ruce a v MS Excel. Vstupní data jsou v xls – v jednotlivých sloupcích jsou environmentální proměnné podzemní vody měřené na 21 místech v rašeliništní vegetací. Tyto proměnné byly měřeny obvykle 4x do roka (název sloupce se liší posledním číslem), kromě těchto environmentálních proměnných máme ve sloupcích ještě typ vegetace, jeho druhovou bohatost a typ druhové bohatosti). Pokud jste se software nikdy předtím nepracovali, tak začněte u těchto příkladů a pak se podívejte na další odkazy výše.

Pokud se ve výše uvedených videích hovoří o tom, že jsme to už viděli, tak příslušná videa naleznete obvykle v základním kurzu – v části, která je věnována konkrétnímu testu.

MKV2 – požadavky

K zápočtu

Vzhledem k tomu, že se jedná o v podstatě čistě praktický předmět (teoretické pozadí téměř žádné po studentech nechceme), studenti se na cvičení bohužel vůbec nepřipravovali a zavádět “chemické” požadavky na absolvování testu před každým cvičením nám přijde zbytečné, zavádíme od ZS2017/2018 povinný “midterm exam”, který je součástí zápočtových bodů.
Získání zápočtu je podmíněno ziskem v součtu alespoň 60 % bodů ze dvou zápočtových testů (platí pro PS; KS píše test jediný) a účastí na cvičení (povoleny jsou dvě absence).

“Midterm exam”

Probíhá v polovině semestru – pokud nedojde k nějakému odpadnutí výuky, tak v 7. týdnu semestru, vždy po ukončení bloku věnovaného regresím. Předmětem tohoto testu je látka probíraná na 1.- 6. přednášce, tedy základní statistika v Dell Statistica:

  • chí-kvadrát testy,
  • t-testy,
  • F-test,
  • Mann-Whitney test,
  • Wilcoxon test,
  • jednofaktorová ANOVA,
  • parametrická a neparametrická korelace,
  • jednoduchá a mnohonásobná lineární regrese,
  • a “advanced” typy ANOVA a regresních modelů
  • ANOVA hlavních efektů,
  • faktorová ANOVA,
  • heirarchická ANOVA,
  • ANOVA pro opakovaná měření,
  • ovládání nastavení pevných a náhodných efektů u výše uvedených typů ANOVA,
  • regrese ze soudku GLM včetně nastavení metody výběru proměnných,
  • regrese ze soudku GLZ včetně nastavení metody výběru proměnných.

Předmětem tohoto testu je ověření schopnosti řešit problémy kvantitativního zpracování dat v prostředí

Dell Statistica (nicméně můžete použít i MS Excel a/nebo R).
Zadáno je vždy 6 úloh. Vybrané výsledky zapisujete do tištěného zápočtového testu. Na vypracování testu je k dispozici 75 minut.

Pravidla pro vypracování:

  1. Pracujete výhradně s daty předanými pedagogem.
  2. Při vypracovávání můžete používat Help STATISTICA.
  3. Během vypracovávání zápočtu je zakázáno prohlížení jiných stránek než odkazů z Help STATISTICA.
  4. Pedagogovi odevzdáváte workbook s koncovkou souboru .stw, který pojmenuje qphee_zapocet_Vaseprijmeni.stw.

 

Několik rad k úspěšnému zvládnutí testu:

  • základní statistiky se ve většině případů v Dell Statistica nejmenují podle svého označení, proto je nutné vědět, kde je hledat
  • výsledky software pro jednotlivé proměnné či kategorie reportuje různě podle nastavení konkrétní instalace a podle Vašeho zadání proměnných, čili se výstup může lišit od předepsaných polí v testu – je třeba si přečíst hlavičky v zadání testu ve výstupu, který vydíte na obrazovce
  • u mnoha “advanced” typů ANOVA a regresí je třeba udělat po výpočtu ještě další operace, aby jste se dostali k výsledku, který je po Vás požadován
2. zápočtový test

Probíhá v zápočtovém týdnu. Předmětem také tohoto testu je ověření schopnosti řešit problémy kvantitativního zpracování dat v prostředí Dell Statistica (nicméně můžete použít i MS Excel a/nebo R, ale pozor, ani pro MS Excel ani pro R si nebudete moct dohrát nástroje pro řešení úloh a my nemůžeme garantovat, že zrovna na počítači, na kterém budete u zápočtu sedět, bude mít příslušné extenze nahrány).
Zadány jsou vždy 4 úlohy. Vybrané výsledky zapisujete do tištěného zápočtového testu. Na vypracování testu je k dispozici 60 minut.
2. zápočtový test je zaměřen na schopnost řešit složitější úkoly pomocí mnohorozměrných metod:

  • hierarchická shluková analýza,
  • nehierarchická shluková analýza metodou K-průměrů,
  • PCA,
  • FA,
  • CA,
  • MDS,
  • CCorA,
  • kanonická diskriminační analýza,
  • klasifikační diskriminační analýza.

Pravidla pro vypracování:

  1. Pracujete výhradně s daty předanými pedagogem.
  2. Při vypracovávání můžete používat Help STATISTICA.
  3. Během vypracovávání zápočtu je zakázáno prohlížení jiných stránek než odkazů z Help STATISTICA.
  4. Pedagogovi odevzdáváte workbook s koncovkou souboru .stw, který pojmenuje qphee_zapocet_Vaseprijmeni.stw.

Pokud jste z důvodu absence neabsolvovali “midterm exam”, pak jej absolvujete společně s 2. zápočtovým testem v zápočtovém týdnu.

Pokud v součtu “midterm exam” a 2. zápočtového testu nezískáte minimálně 60 %, musíte absolvovat oba testy společně v opravném termínu – opravné termíny máte dva.

Jelikož se ukázalo jako nemožné provést “midterm exam” pro kombinované studium, bude kombinované studium psát oba testy společně v jednom termínu, na kterém se dohodneme na první konzultaci!!!!!!!!!

Ke zkoušce

Zkouška je teoretická a probíhá písemnou formou testu. Test se skládá z 10 otázek na teorii ohledně zpracování dat různých přístupů analýzy variance (všechny probrané typy ANOVA), regresních modelů (normal, binomial, multinomial, ordinal), shlukových analýz (K-means, hiararchická) a ordinačních analýz (PCA, RDA, DCA/CA, CCA, CCorA). Typickými otázkami jsou otázky na to, kdy jakou analýzu použít, v čem se podobné analýzy liší, jaké mají předpoklady, co mohu vyčíst z ordinačních diagramů. Za každou správnou odpověď (čtyři možnosti na výběr, právě jedna z nich správná) získáte bod. K absolvování zkoušky je třeba 6 bodů. Čas na vypracování je 25 minut.