LIMDEP

Jde o software určený k analýze ekonomických dat a jeden z nejdůležitějších ekonometrických programů vůbec. Následující platí pro NLOGIT4 bežící  s LIMDEP9 na platformě Windows10.

Prostředí

Filozoficky je založen na práci v projektech – koncovka *.LPJ. Projekt je primárně prostor správy dat, se kterými pracuji – nejdůležitější jsou data pro analýzu. Vlastní statistická práce se děje buď přes průvodce, kteří jsou podobní jako ve Statistica (k nim se dá dostat přes roletky a jednotlivé karty) nebo zadáváním příkazů ručně jako v R v “klasickém” textovém editoru (viz níže) – ty lze uložit jako *.LIM. Kromě těchto dvou součástí existuje ještě třetí, která nese název “Output” a je rozdělena do dvou částí – ve vrchní je Trace, kde jsou dokumentovány veškeré provedené kroky (především odeslané příkazy a stavy systému, ke kterým tyto příkazy vedly), ve spodní je vlastní Output, kde jsou postupně zobrazovány výsledky všech provedených příkazů. Uložit jej lze taktéž s koncovkou *.LIM. To je dost nešťastné a je třeba si odlišovat názvy, co jsou soubory s příkazy a co s výstupy.

Popis prostředí na videu zde.

POZOR – vše ukládáme pomocí panelu nabídky – ta se mění podle toho, jestli jsem nakliknut v projektu, v příkazech nebo výstupech – je třeba si dávat pozor na to, co ukládám – podobně jako ve Statistica.

Vstupní data

Existuje nekonečně mnoho způsobů jak dostat data do programu. V kombinaci s Windows10 mi však “normálně” funguje jediný postup.

Před importem dat je třeba nejprve nastavit “Work Areas”, primární je nastavit počet buněk a následně řádků tak, aby se mi do toho vešla veškerá data a proměnné, které hodlám dopočítávat. Postup je zde:

Přestože data lze v LIMDEP v podstatě jakkoliv upravit, důrazně doporučuji udělat veškeré úpravy dat v MS Excel a do LIMDEP importovat finální soubor. Postup je na videu.

Pravidla pro názvy proměnných:

  • název proměnné může mít max. 8 znaků a z nich jen číslice, písmena a dolní podtržítko”_”
  • vyhrazená slova jsou na s. R3-16 nahoře

Pravidla pro data:

  • mohou nabývat pouze číselné hodnoty (s desetinnou tečkou) – nominální proměnné kódu pouze čísly
  • čísla se oddělují mezerami a/nebo čárkami
  • chybějící data musí být označeny něčím jiným než číslem – znamená to čímkoliv, nejlépe je na dané místo napsat “m”
  • POZOR – Data Editor” zobrazuje jen 1900 případů – zkutečný počet pozorování se dozvíte v jeho okně na řádku vlevo nahoře, společně s počtem řádků a počtem obsazených proměnných.

Proměnné lze grupovat do různých skupin – k tomu slouží příkaz

NAMELIST; název seznamu proměnných = názvy proměnných oddělených čárkou $ Pro tvoření názvů platí stejná pravidla jako pro názvy proměnných – namelistů může být maximálně 25 a v každém maximálně 150 proměnných
 
Výběr z případů pro analýzy lze udělat různě. První možností je přímo u daného příkazu. Zde lze použít specifikace 
 
    PŘÍKAZ ; If [sex=1] ; Lhs = proměnná1 ; Rhs = proměnná2,proměnná3, . . . $ Tady se udělá příkaz na daných proměnných jen pro ženy. 
 
Nebo pomocí specifikace 
 
    PŘÍKAZ ; For [sex] ; Lhs = proměnná1 ; Rhs = proměnná2,proměnná3, . . . $ Tady se příkaz provede zvlášť pro všechny parametry, které obsahuje proměnná sex – čili zvlášť pro ženy=1 a muže=0.
 
Globálně lze udělat výběr, na kterém se dělají všechny dále uvedené příkazy, pomocí nástroje “actual sample“, který se specifikuje pomocí příkazu 
 
    SAMPLE ; výčet případů $. Tento výčet lze doplnit nebo z něho vyjmout případy pomocí funkcí REJECT a INCLUDE, kde za středníkem následuje podmínka. 
 
Výběry jsou obvykle definovány komplikovanými podmínkami – všechny možné případy jsou v kapitole R7.4.  
 
Specifickým výběrem z  případů je náhodný výběr z případů, který je nejlepší dělat přes nabídku Project – Set Sample – Draw… Tam “replacement” znamená, že jeden případ může být vybrán vícekrát. Funkce pro textový editor se jmenuje DRAW (R7.5).
 

Transformace dat

Jak už bylo zmíněno výše – nejlepší je veškeré transformace udělat v MS Excel a do LIMDEP si naimportovat data čistě pro analýzy. LIMDEP má spoustu předdefinovaných specifikací pro příkaz CREATE, jímž se tvoří nové proměnné (= transformované původní proměnné) – seznam je na s. R5-9. Tvorba může být vysoce komplikovaná a zahrnovat podmínky typu If/Else.
 
V některých případech je vhodné použít LIMDEP místo MS Excel, k nim patří především automatické vytvoření dummy variables z jedné kategoriální proměnné se syntaxí CREATE ; Expand (název proměnné) = jména nových proměnných oddělených čárkou. Podstatné je, že kódování musí být pouze celými čísly, která začínají od 1 a v řadě nechybí číslo. Pak platí, že místo kódu 1 bude proměnná uvedená první v pořadí, místo kódu 2 bude proměnná uvedená druhá v pořadí, atd. Pokud je více kategorií než jmen nových proměnných ve specifikaci příkazu, pak se pojmenují původním názvem s pořadovým číslem kódu.
 
Dalším případem vhodného použití je generování náhodných čísel s daným rozdělením. Jejich přehled a syntaxe jsou na R5-19 a R5-20.
 
Kompletní přehled transformací je v kapitole R5.

Panel data

V některých případech je nutné data k jednomu měření (= jednomu objektu) zaznamenat na více řádků – takovýmto datům se říká “panel data”. Pokud je u každého měření stejný počet řádků, pak jsou data “ballanced”, pokud ne, pak “unballanced”. 
 
Panel data se v příkazech uvádí specifikací 
 
    ; Pds = počet řádků u “ballanced”  nebo ; Pds = název stratifikační proměnné u “unballanced”

Syntaxe

Rychlý průvodce je v kapitole R3.5, základní model vypadá takto:
 
Příkaz ; specifikace1 = její parametr ; specifikace2 = její parametr  $
  • specifikace lze psát na samostatné řádky
  • pod sebe mohu napsat několik příkazů
  • příkaz musí vždy začínat na novém řádku a končit symbolem “$”
  • ignorovány jsou nadbytečné mezery i prázdné řádky 
  • komentáře, které program rozpozná jako něco, co není příkaz nebo specifikace, a nevadí mu to při vykonání, se píší na konec řádku za “?” – nesmí za ním ale následovat konec “$”, pač ho program nenajde
  • blok komentářů (= textu ignorovaného programem) se píše tak, že na začátku řádku uvedeme “/*” a na konci “*/”, komentář může zahrnovat mnoho řádků a nesmí zasahovat žádnou svou částí na řádky, kde jsou příkazy
  • některé specifikace nemají parametry, ale pouze říkají, že model má být takový, např. ; Panel  

Drtivá většina příkazů má strukturu odvozenou on tohoto modelu:

 
PŘÍKAZ     ; Lhs = závislá proměnná
           ; Rhs = one, závislé proměnné oddělené čárkou
           ; . . . další specifikace modelu ; … $ 
 
one je konstanta, kterou Statistica počítá automaticky, ale LIMDEP nikoliv – neměla by se dávat u regresí s pevnými efekty, jinak většinou ano a automaticky je počítána jen stepwise lineární regrese.
 
Váhy se používají u metody nejmenších čtverců – místo druhé mocniny je použito násobku hodnoty reziduálu a hodnoty váhy. I u metody maximum likehood je vahou násoben člen v log likehood a jeho deriváty a nikoliv vlastní data. Během výpočtu jsou váhy automaticky přeškálovány. Specifikace je 
 
    ; Wts = jméno proměnné  
 
Všechny modely jsou dosažitelné bez znalostí syntaxe přes výše zmiňované průvodce (“Command Builder”). Problémem je, že modely mají mnoho specifikací – až 150 a ty nelze tímto průvodcem všechny postihnout, proto v průvodce nejsou, lze je však do příkazu v textovém editoru po proběhnutí výpočtu z průvodce doplnit a přes “Go” spustit analýzu znovu.  

Výstupy výpočtů

Ty nalezneme v okně “Output”, zmíněném výše, popřípadě matice jsou ukládány přímo do projektu, stejně jako skaláry a nové vypočítané proměnné – LIMDEP je ukládá automaticky. Na našem noťasu je jediný způsob jak dostat data z “Output” do MS Excel přes schránku – CTRL+C a pak CTRL+V.
Kromě toho jsou výsledky posledně aplikovaného testu v okně projektu v částech “Matrices” a “Scalars”
 
Charakteristiky polohy a variability (průměr, s.d., min, max a n) lze získat přes DSTAT ; Rhs = výčet proměnných $, zadáte-li ještě 
  • ; All $, pak dostanete info k šikmosti a špičatosti
  • ; Normality test, pak k tomu budete mít i test normality dat, což je největší výhoda tohoto software oproti Statistica
  • ; Output = 1, pak dostanete i kovariační matici
  • ; Output = 2, pak dostanete i korelační matici
  • ; Output = 3, pak dostanete obě matice
  • ; Quantiles, pak dostanete kvantily (decily)
  • a pokud za ně zadáte ještě ; Plot, pak dostanete ještě Norm-Quantile Plot
  • když místo toho zadáte ; Box Plots, pak dostanete krabicový graf
Máte-li k dispozici proměnnou, kterou určujete skupiny, pak ji lze tuto použít jako stratifikační a vše předchozí zobrazit pro v této proměnné uvedené kategorie (např. zvlášť pro samce a samice, či muže a ženy) po zadání ; Str = stratifikační proměnná $
Lze udělat i výběr ; If [proměnná <= číslo] ; Rhs = jména proměnné ; … $
 
Kromě příkazu DSTAT existuje ještě příkaz TABLE, který je mu hodně podobný a liší se jen charakterem výstupních dat, která mají podobu “klasické” tabulky – používá se tohoto příkazu především, když chci deskriptivní statistiku stratifikovaných dat:
  • místo specifikace ; Str lze použít ; Pds = číslo  $, kterým se udává počet případů, které tvoří skupinu v balanced panel data
  • nejzajímavější specifikace je pak ; FPC = počet členů základního souboru $, který Vám vrátí s.e. a 95% konfidenční intervaly upravené právě podle počtu celkové populace (což je výhodné u sociologických výzkumů) 
  • další možnou specifikací je ; Cluster = stratifikační proměnná $, která Vám dá stejný výsledek jako  ; Str plus s.e. 
 

LIMDEP

Histogram má příkaz HISTOGRAM v základní syntaxi HISTOGRAM ; Rhs = jméno proměnné $
U poměrových proměnných: 
  • dělá automaticky 40 intervalů, lze nastavit pomocí ; Int = počet skupin 
  • lze zadat levé hranice intervalů ; Limits = hranice oddělené čárkou a mezerou
  • Limits a Int lze kombinovat
U diskrétních dat:
  • lze vytvořit max 90 intervalů
  • lze omezit jejich počtem podmínkou ; If [proměnná <= číslo] ; Rhs = jméno proměnné $
Multiple histogramy: 
  • lze dělat do počtu 4 proměnných, kde se všechny zadávají jako Rhs nebo stratifikací příkazem ; Group = stratifikační proměnná (kategorií může být max 4)
  • počet proměnných a Group lze kombinovat
  • pomocí ; Choice = kategorie z daní proměnné – lze tedy z proměnné zobrazit jen některé kategorie (ty lze například i dělit dále pomocí ; Group)

Regrese

LIMDEP automaticky nezobrazuje očekávané hodnoty a reziduály, ty je nutno vyvolat pomocí specifikací:
  • ; Keep = jméno nové proměnné – uloží očekávané hodnoty do proměnné zadaného jména 
  • ; Res = jméno nové proměnné – uloží reziduály do proměnné zadaného jména
  • ; List – zobrazí obě předchozí a další informace k provedené regresi (viz R10-33 dole)
  • ; Fill – zadá-li se ; Keep = jméno proměnné , pak dopočítá očekávané hodnoty i pro pozorování, která nebyla součástí výpočtu – výpočet byl proveden na “actual sample”, který netvořily všechny případy, jde tak o vanikající nástroj pro dopočítávání predikčního hodnot (příklad s regresemi ja na s. R10-32 a R10-33) 

Turboveg

Tato stránka obsahuje informace pro práci v systému pro zadávání fytocenologických snímků.

Instalace programu

Postupujte přesně podle návodu zaslaného v e-mailu z MU.
Tedy:

  1. Stáhněte si vlastní program ze stránek MU (odkaz a hesla máte v návodu v bodu 1). Pokud Vám to nefunguje, tak si soubory stáhněte ze školního počítače – se školní IP to půjde na 100%.
  2. Stáhněte si aktualizační soubor z adresy v návodu v bodu 2.
  3. Stáhněte si aktuální verzi druhových seznamů popup.zip ze stránek MU uvedeném v bodu 3.
  4. Nainstalujte program a pak nainstalujte aktualizace. Pokud používáte AVAST, tak to může nějakou dobu trvat.
  5. Rozbalte popup.zip do adresáře TURBOWIN (nebo jiného, podle toho, jak jste si adresář s programem uložili).

Založení databáze

Svá terénní druhová data ukládáte do databáze. Na jednu DP nebo BP si udělejte jednu databázi, ať je s tím v budoucnu rozumnější práce. Pokud budete Turboveg používat i na jiné účely než je BP nebo DP, tak si pro ně založte vlastní jiné databáze.

Návod na vytvoření databáze je na externím odkazu na s. 5 dole a pokračování je na s. 6. Tady je video s ukázkou založení databáze.

Zadávání snímků

  • Zadávání hlavičkových dat – úvod, form 1: video
  • Zadávání hlavičkových dat – form 2: video
  • Zadání druhu – úvod a první druh: video
  • Zadání druhu – doplnění všech druhů ve snímku: video
  • Zadávání hlavičkových dat nového snímku – použití hlavičky z předchozího snímku: video
  • Opakování zadávání druhů na druhém příkladě: video

Na videích by mělo být vše, co potřebujete umět. Jinak program toho umí samozřejmě více – pokud budete něco dalšího potřebovat, tak postupujte podle manuálu.

Jak opravit už zadaný snímek

  • Opravy ve hlavičkových datech: video
  • Opravy chyb v druzích: video

Operace s hotovými databázemi

  • Export snímků do XLS: video
  • Zálohování souborů databáze pro přenos celé databáze: video (tento ZIP mi posíláte ke kontrole databáze)

B-VegAna

Jde o projekt určený k ukládání, editaci, analýze a vizualizaci vegetace Španělska. Složen je z několika samostatných modulů – pro Vás může být zajímavý Quercus, který je určen pro ukládání druhových záznamů společenstev, Yucca, což je jednoduchý GIS pro vizualizaci jakýchkoliv georeferencovaných dat, na a především Ginkgo, tedy vlastní software, ve kterém najdete několik balíků pro mnohorozměrnou analýzu dat. Je to freeware s jednoduchým a plus-mínus intuitivním ovládáním základních prvků.

Instalace a spouštění

Instalují se jednotlivé moduly – pokuste se držet tohoto. Úplně jednoduchá instalace není, především z důvodu, že to běží na Javě a nemá to bezpečnostní certifikát, což dělá problémy mimo jiné i při každém spouštění = POZOR, spuštění může trvat i několik minut a spouštějte soubor jako správce.

Ovládání

Základní práce s vlastním modulem Ginkgo je poměrně jednoduchá a hodně intuitivní – nástroje jsou tam, kde je čekáte, a jsou jasně pojmenovány. Pro složitější věci je nutné šáhnout do manuálu, který sice není psán nijak excelentně, ale je anglicky, takže není nutno luštit španělštinu/katalánštinu.

Podobně jako ve většině takovýchto software, je i v tomto práce organizovány v projektech. Možnosti nastavení projektu jsou v Project – Edit project options a nastavit je lze při zahájení nového projektu a nebo je lze kdykoliv přes nabídku změnit – hlavní je tady nastavit, co chcete do projektu ukládat a jak se to má s desetinnými čárkami ve Vašich číslech. Vlastní projekty obvykle zahrnují tabulky dat určené k analýze (Data Editor) a výstupy těchto analýz – textové (Analysis Manager) a grafické (Graphic Editor).

V Data Editor lze data různým způsobem upravovat (Edit), transformovat (Transform), počítat z nich popisnou statistiku (Variable Analysis), asociační matice (Object Resemblance) a kreslit některé vybrané asociační grafy (Draw).

V Graphic Editor se na samostatných kartách objevují grafy/diagramy, které jste vytvořili přes Dat Editor nebo Analysis Manager. Lze je ukládat do GIF, JPG nebo PNG a přímo tisknout (File). Vlastní grafy lze upravovat pomocí nástrojů v nabídce Options – jde hlavně o velikost grafu (Resize graphic), změnu měřítka a rozsahu os (Change axes range), vypnutí/zapnutí mřížky (Show Grid), barevnou úpravy zobrazených dat v grafu (Edit series), úpravu popisků dat (Edit Titles) a pak je tam možnost vyhlazení (Antialiasing).

Oproti Graphic Editor je Analysis Manager strukturovaný předem do typů statistiky – každá skupina metod má svou “výstupní oblast”, která je podobná Struktuře užívané v pracovních listech výstup Statistica – jen je pro každou statistiku jen jedna oblast výstupu. Taktéž se liší pás nástrojů statistiku od statistiky – každá má jinou možnost postprocessingu – v ordinačních metodách nás budou zajímat hlavně možnosti tvorby grafických výstupů.

Založení projektu, příprava a import dat

Data si připravujte MS Excel, pokud možno do finální podoby. Vždy mějte zvlášť tabulku pro druhy a zvlášť tabulku pro supplementary variables. Návod na přípravu dat je na videu.

Založení nového projektu je jednoduché a nemá žádných zádrhelů – jen se vždycky podívejte do nastavení projektu.

Import dat je ve Windows 10 ale katastrofální, protože nástroj pro import dat z ASCII formátu, alespoň na naší instalaci nefunguje = odmítá importovat data, která mají před čárkou více než jednu cifru.

Naštěstí existuje možnost špatně naimportovaná data vyexportit do ASCII a do tohohle souboru v poznámkovém bloku vkopírovat původní data a tento soubor opětovně naimportovat do Data Editor.

Návod na založení projektu a import dat je na videu.

Ovládání statistických procedur

Před každou analýzou si pozorně pročtěte manuál, jakým způsobem je ta která metoda počítána a co značí používané zkratky a označení – je to často jinak než ve Statistica nebo v CANOCO.

My si ukážeme na videu princip ovládání na příkladu PCA a následně RDA dat druhového složení rašeliníků, jako jsme to řešili ve Satistica v PCA a CCorA.

Další analýzy se ovládají podobně a konkrétní věci je třeba řešit s manuálem.

CANOCO

Canoco je komerční software vyvinutý speciálně pro analýzu širokého spektra dat vztaženích ke společenstvům. Nicméně záběr jeho využití je podstatně širší, neboť umí velkou spoustu mnohorozměrných metod – je jich několik desítek a členěny jsou do šesti hlavních skupin mnohorozměrných analýz (kap 4.3.4) a skupiny dalších doplňujících analýz. My se na tomto místě podíváme jen na základní funkcionalitu.

Informační zdroje

Kompletní praktický popis ovládání včetně statistického pozadí a příkladů je v manuálu ter Braak, C.F.J. et Šmilauer, P. (2012). Canoco. Biometrics: Wageningen et České Budějovice. Bez něj se neobejdete a dostanete jej zdarma k zakoupenému software.
Kromě níže uvedených videí můžete zkusit nějaké info najít v přehledu programu a v galerii hlavní funkcionality.

Import dat

Důrazně doporučujeme použít import z MS Excel (existují i jiné formáty pro import) a držet se následujících pravidel:

  • data musí mít databázovou strukturu – první řádek jsou jména proměnných, první sloupec je označení případu
  • u druhů používejte celých názvů oddělených mezerou – CANOCO z nich vytvoří během importu rozumné zkratky
  • mějte druhová i environmentální data v jednom XLS/XLSX souboru
  • pokud budete mít nominální proměnné kódovány nečíselnými znaky – CANOCO rovnou při importu pozná, že jde o nominální proměnnou (takže raději pohlaví kódujte F a M a ne 1 a 0) – jinak to budete muset nastavovat ručně
  • druhová a environmentální data mějte na samostatných listech, které si pojmenujte třeba “druhy” a “env”
    v době importu nesmíte mít daný soubor otevřený v MS Excel !!!!!!!!!
  • import voláte z File-Import Project-from Excel, pozor na rozbalovací políčko formátu vpravo dole – pokud máte XLS soubor, nastavte XLS, pokud máte XLSX, nastavte XLSX !!!!!!!
  • po označení souboru označte oba listy a potvrďte, že výsledný import bude zahrnovat 2 tabulky
  • prvně importujte druhová data a ponechte první dvě položky Table identity, ale zadejte Table name – obvykle to bude “druhy”; v Data sources zaškrtněte “in a single sheet” a zkontrolujte, jestli je to opravdu list, který to má být; empty cells zde budou rozhodně vždy “zeros” a This table represent “compositional data” (= data, jejichž součet za případ dává smysl – je to buď celková pokryvnost nebo abundance)
  • dejte next a zkontrolujte náhle, dejte zase next a stejně pracujte s tabulkou environmentálních dat (samozřejmě, že ji pojmenujete jinak – asi “envir” – This table represents nastavíte na “general” – co se týče empty cells, tak tady rozhodujte podle toho, co opravdu znamenají)

Návod na import dat má doc. Šmilauer na externím videu.

Základy ovládání

Ovládání bohužel není jednoduché a už vůbec ne intuitivní, a to i když uvažujeme o obrovské komplikovanosti metod. Je ale pravdou, že autoři připravili připravili Setup Wizard, který Vás provede nastavení analýzou a chtěnými výstupy – v něm CANOCO předpovídá, co chcete udělat a nastavení je tam intuitivní. Má dva módy “Quick” a “Slow” – přepínají se ikonou hůlky s pěticípou zlatou hvězdou, která je v panelu hlavní nabídky pátá zleva. Quick mode je jednoduchý a napovídá Vám, co chcete dělat a nabízí Vám jen důležité volby pro standardně zpracovávaná data.

Návod na nejjednodušší možné spuštění analýzy a nastavení analýzy v Quick mode (zde DCA) má doc. Šmilauer na externím videu.

Další analýzy spustíte pomocí tlačítka “New…” na kartě projektu v pracovní ploše programu.

Přehled hlavních výsledků analýzy na příkladu DCA a jednoduchého ovládání ordinačních diagramů má doc. Šmilauer na externím videu. Je tu i ukázka tlačítka “Help”.

Standardní spuštění analýz má doc. Šmilauer na příkladu CCA navazující na předchozí DCA na externím videu.

Nastavení ovládání

Zatímco základní ovládání je intuitivní a průvodce Vás jimi provede v horizontu vteřin, speciální nastavení jsou různě poschovávána v nastaveních.

My zde uvedeme ty, které jsou používány často.

Hlavním nástrojem pro ovládání charakteru výstupů je v hlavní nabídce “Edit” a v ní “Settings“. Popis jednotlivých možností je v manuálu v sekci 7.3.3. Zde uvedená nastavení ovlivňují všechny projekty!!!!! První nabídkou je “Canoco5 Options“:

  • V “General” doporučujeme mít vše zaškrtnuté, ale odškrtnout “Show brief version of notebooks . . .” – jen tak se dostanete ke všem výsledkům analýz, které budete potřebovat!!!!!!!!!
  • V “Data Sheets” zvažte zaškrtnutí “Fast start od the cell editor” a jednotlivé “Data tips”
  • Hodně důležitých nastavení je i v “Analyses“. Pokud se divíte, že to počítá jinak nebo to zobrazuje jinak než očekáváte, tak to může souviset právě s nastavením těchto položek.

Druhou nabídkou je “Graphing options” – je to první místo, kde se nastavují atributy grafických výstupů všech analýz ve všech projektech. Jde především a nastavení související s nastavením zobrazení os, měřítek a pod.

Čtvrtou a asi nejdůležitější nabídkou je “Visual options“. Na tomto místě si nastavujete symbologii, která bude primárně použita ve všech grafech – hlavě barevný versus černobílý formát¨a značky pro kategorie. Grafy lze upravovat i jinde, ale tohle nastavení ovlivňuje grafiku grafu jak ho primárně zobrazí výstup analýzy.

Dalším důležitým nástrojem je v hlavní nabídce “Project” druhá část nástrojů. Ve “Visibility and labeling” se nastavuje hlavně označování případů a proměnných (short vs. full). Pod ní “Classification” a “Groups” slouží ke klasifikaci a definování skupin proměnných nebo případů – budete-li chtít klasifikovat případy, pak se bez toho neobejdete. Poslední dvě nabídky slouží k určení skupin dat pro potlačení nebo znázornění v grafech.

Aby toho nebylo málo, tak hodně důležitá nastavení grafů jsou i v nabídce “Analysis“, kde najdete v dolní třetině možnost “Plot creation options“. Zde se dá nastavit které osy se mají po analýze zobrazit, jak se má provést výběr zobrazených případů, proměnných, jaké hodnoty se mají na osách vynášet atd. Všechno to lze nastavit ručně v “Graph Advisor” pro konkrétní analýzu. Tady to lze ale nastavit pro všechny grafy v projektu. Mimo jiné se tady nastavují koláčové grafy na místo symbolů.

Ve všech výše uvedených nabídkách můžete dělat změny kdykoliv – v už existujících grafech projektu se změny projeví po stlačení tlačítka “Re-create graph“.

Nový graf z analýzy můžete vytvořit přes průvodce “Advise on graphs“, který je v hlavním nástrojovém panelu pod ikonou kouzelnické hůlky na barevném políčku nebo v nabídce “Graphs“. V této nabídce si můžete z dané analýzy vytvořit další grafy. Vypadat budou podle nastavení provedených v nabídkách zmíněných výše. Zde najdete i “Atribute editor“, který je i součástí grafického nástrojového panelu – v něm můžete ručně upravovat grafiku grafu, obvykle tak že pravým tlačítkem myši označíte prvek a pak “suchlike” nebo “similar” a následně otevřete editor. POZOR – pokud dáte “Re-create graph”, tak veškeré úpravy dělané jen přes “Atribute editor” ztratíte – tyto úpravy dělejte až naposled!!!!!!!

Tabulky – pokud potřebujete šahat do dat v tabulkách, tak možné to je především přes nástroje “Data” v hlavní nabídce. Podle našich zkušeností je ale asi rozumnější, pokud s tím nepracujete pořád, opravit si data v MS Excel a znovu si je naimportovat.

Permutational Multivariate Analysis of Variance

Jde o mnohorozměrnou analýzu rozptylu založenou na matici vzdáleností s permutačním testem s pseudo-F podíly. Mohu takto testovat rozdíl mezi skupinami, kdy v každé skupině je velké množství závislých proměnných, jde tedy o metodu mnohorozměrnou. Na rozdíl od gradientových analýz je ale testován rozdíl ve zdrojích rozptylu mezi skupinami a celkem. Tento rozdíl je dán rozptyly založenými na rozdílech v matici vzdáleností. Počítá se v R příkazem “adonis” v package “vegan”.

  • Příklad z přírodních věd: Liší se druhové složení na lokalitách na rule a svoru? K dispozici mám větší počet vegetačních snímků. Ptáme se, jestli se liší složení vegetace na obou typech stanovišť.

Diskriminační analýza

Charakter a předpoklady (Haruštiaková et al., 2012, s. 85)

Diskriminační analýza je specifickou ordinační metodou jež zahrnuje řešení pro dva typy úloh:

  • ve větším množství proměnných hledáme takovou, která je rozhodující pro zařazení daného objektu do skupiny – víme, který objekt patří do jaké skupiny (objektem je muž nebo žena, objektem je jarní měření nebo letní měření, objektem je měření v ČR a v SR) = kanonická diskriminační analýza
  • máme objekt a ten chceme zařadit do skupiny = klasifikační diskriminační analýza

Předpoklady:

  • proměnné mají kvantitativní charakter s normálním rozdělením a nejsou svými vzájemnými lineárními kombinacemi
  • objekty musí být v každé skupině minimálně dva a objektů celkem by mělo být podstatně více než je
  • počet proměnných i počet znaků
  • proměnná nemůže být v žádné skupině konstantní

Kanonická diskriminační analýza (Haruštiaková et al., 2012, oddíl 7.5.1 celý)

Posuzují se jen proměnné, pro něž se liší střední hodnota mezi skupinami kategoriální proměnné. Metoda hledá lineární kombinace proměnných, které nejlépe identifikují příslušnost objektu ke skupině. Těchto nových dimenzí je p-1 a jde o kanonické osy. V potaz se bere maximální vzdálenost centroidů (těžišť) skupin. Pokud má vzorek více než dvě skupiny, diskriminačních funkcí je více. Vazbu původních proměnných na hodnotu diskriminační funkce určují nestandardizované a standardizované koeficienty. Tento větší počet je pak možné zobrazit v ordinačním diagramu. Souvislost diskriminačních os s původními proměnnými se vysvětluje pomocí korelačních koeficientů mezi původními funkcemi a diskriminačními funkcemi – a to bez vlivu ostatních původních proměnných. Významnost lze testovat.

Kanonická diskriminační analýza má ve STATISTICA kvalitní návod – při řešení zadání kanonické diskriminační analýzy postupujte podle něj. Na ukázku řešení použijeme příkladu z manuálu.

  • Příklad z přírodních věd: Zařazení kosatce do druhu podle délky a šířky kališních a korunních lístků, návod pro STATISTICA je na videu.

Klasifikační diskriminační analýza (Haruštiakové et al., 2012, oddíl 7.5.2 celý)

Určuje pravděpodobnost příslušnosti objektu do skupiny na základě klasifikační funkce. K dispozici musíme mít skupinu objektů u nichž máme kromě kvantitativních proměnných i proměnnou kódující příslušnost objektu do skupiny = trénovací výběr. Na něm jsou vybudovány klasifikační funkce. V nejjednodušším případě vychází metodika ze sestavení klasifikační funkce pro každou skupinu, pro kterou získá objekt nejvyšší hodnotu, do té bude zařazen. Účinnost klasifikačních kritérií lze testovat a z ní lze určit úspěšnost zařazení objektů.

  • Příklad z přírodních věd: Klasifikace objektů (květů kosatce) podle charakteru květů z příkladu kanonické diskriminační analýzy je na videu.

Formalizované klasifikace společenstev

Další možností jak lze na základě dosažených hodnot proměnných identifikovat skupinu, do které daný objekt patří je expertní systém. Tyto skupiny jsou vždy skupinami externími = existujícími mimo má data. Cílem je na základě formalizované definice určit skupinu, do které patří ten který objekt. Pokud typ nelze na základě definice určit, může být na základě indexů podobnosti určen nejpodobnější typ. Tyto typy jsou dopředu dány a my se ptáme “Do kterého typu naše případy patří?”

Na úrovni celé České republiky funguje takovýto systém pro vegetaci na základě fytocenologických snímků – existuje pro celý systém rostlinných společenstev do úrovně asociací. Tento systém si je možné naimportovat do software JUICE a zdarma si klasifikovat vlastní fytocenologické snímky.

Kanonická ordinační analýza

Principy kanonické ordinační analýzy (Haruštiaková et al., 2012, kap. 7.1 celá)

Tyto ordinace jsou označovány jako přímé gradientové analýzy. Od předchozích se liší především tím, že přímo do výpočtů, směřujících k eliminaci dimenzí, vstupují “environmental variables”, které už nejsou supplementary (a pasivně prokládány), ale jsou součástí výpočtu. Ve většině případů je chápeme jako větší množství proměnných, jimiž se snažíme vysvětlit větší množství proměnných na levé straně. Nejčastěji vysvětlujeme pomocí mnoha proměnných prostředí variabilitu druhového složení (zde opět co druh, to proměnná).

Kanonická korelační analýza – CCorA (Haruštiaková et al., 2012, kap 7.4 celá)

Cílem je vyhodnocení korelace dvou skupin proměnných přes objekty. V principu metoda nerozlišuje, která skupina je závislá a která nezávislá. Jde o korelační metodu, nicméně výsledky jsou uváděny skupina 1 versus skupina 2 i skupina 2 versus skupina 1, čili ji lze použít i jako vysvětlovaná – vysvětlující proměnná. Přestože není v biologických výzkumech často používaná, my ji uvádíme jako první, protože je jedinou kanonickou ordinační metodou, kterou umí se vším všudy STATISTICA.

Podmínkou pro analýzu je poměrový (alespoň kvantitativní) charakter vstupních dat a celkový počet proměnných musí být menší než je počet objektů. Latentní dimenze (faktory, zde označované jako kořeny – roots) jsou pak lineárními kombinacemi vstupních proměnných a jejich určení je analogické PCA. Závislosti mezi nimi jsou pak rozšířením mnohonásobné lineární regrese s tím rozdílem, že na Lhs není jedna proměnná, ale větší počet latentních proměnných. Hodnota korelačního koeficientu mezi latentními faktory je druhou odmocninou vlastní hodnoty matice. Celkově jsou výsledky CCorA hodně podobné výsledkům FA – korelační koeficienty odpovídají faktorovým zátěžím (loadings) a lze je použít pro pojmenování osy jako u FA. Počet vlastních hodnot je roven počtu původních proměnných ze skupiny, kde jich bylo méně. První kanonická osa je nejsilnější a ostatní jsou s ní nekorelované. Interpretují se jen signifikantní kořeny a to pomocí kanonických korelací pro jednotlivé proměnné a objekty. Pomocí kanonických vah (které jsou obdobou faktorových vah ve FA) lze sestavit ordinační diagram i biplot pro jednodušší interpretaci (ve STATISTICA si to budete ale muset udělat sami, pač ta jej v nabídce nemá, ale váhy si můžete vyexportovat).

STATISTICA má prokanonickou korelační analýzu výborný návod, pokud se ho budete držet, bez potíží analýzu zvládnete udělat.

  • Příklad z přírodních věd: stejná data jako v PCA, zajímá mě vazba fyzikálně chemických vlastností podzemní vody na druhové složení rašeliníků na rašeliništích. Druhové složení je vysvětlovanou proměnou, vlastnosti podzemní vody vysvětlující proměnnou. Řešení ve STATISTICA je na videu.

Redundanční analýza – RDA (Haruštiaková et al., 2012, kap. 7.3 celá)

Jde o lineární model přímé ordinační analýzy, který je založen na PCA. Předpokládá tedy krátký CA gradient a lineární odpovědi proměnných na ordinační osu. Je tak omezenou formou PCA a sdílí s ní předpoklady použití.

Je velmi podobná kanonické korelační analýze. Také do ní vstupují dvě sady proměnných, v tomto případě, ale jednoznačně rozdělena na sadu vysvětlovanou a sadu nezávislou. Cílem je sadou nezávislých proměnných vysvětlit maximum variability sady vysvětlovaných proměnných – vysvětlované jsou lineární kombinací vysvětlovaných.

Popis výpočtu ordinačních os, respektive polohy objektů a proměnných v jejich souřadnicovém systému uvádí Haruštiaková et al. (2012, s. 82-83).

Kanonické osy,na rozdíl od neomezených ordinačních lze testovat na statistickou významnost (permutačními Monte-Carlo testy) a jednotlivé proměnné tak lze zařazovat do modelu na principu “forward selection”. Do modelu vstupují jen proměnné, které jsou statisticky významné.

V praxi se používá často po PCA, kdy máme k dispozici i environemntální proměnné. Pak je cílem RDA popis vazby složení společenstev se současným započítám vlivu faktorů prostředí. Jak už bylo zmíněno výše, použít by se měla jen na krátké gradienty, které splňují podmínku linearity vazeb.

Interpretace ordinačního diagramu je stejná jako u PCA.

STATISTICA ji neumí, pokud ji potřebujete dělat, nahraďte ji kanonickou korelační analýzou. Pokud nechcete nebo nemůžete, musíte zvolit jiný software – doporučit se dá CANOCO nebo B-VegAna.

  • Příklad z přírodních věd: Projděte si článek kombinující přístupy DCA, PCA a následně RDA a CCA při řešení problému odpovědi druhového složení blatkových borů na různý typ disturbance.

Kanonická korespondenční analýza – CCA (Haruštiaková et al., 2012, kap. 7.2 celá)

V tomto případě jde o unimodální model přímé analýzy, který je založen na CA (DCA). Předpokládá tedy dlouhý CA gradient (větší než 3, obvykle i větší než 2) a unimodální odpovědi proměnných na ordinační osu. Je tak omezenou formou CA (DCA) a sdílí s ní předpoklady použití. Na rozdíl od CCorA a RDA lze použít jako vysvětlující proměnné i proměnné, které nemají normální rozdělení a mají i nižší charakter, např. nominální (pak je ale třeba je kódovat jako bivariátní dummy proměnné). Jde o suverénně nejčastěji používanou metodu, kdy na Lhs i Rhs je větší počet proměnných a mým cílem je určit mezi nimi vazbu za současného radikálnějšího snížení dimenzionality.

Stejně jako CCorA a RDA pracuje se sadou dvou typů proměnných. Cílem je ale určení takových lineárních kombinací, které nejlépe vysvětlují inerci ordinačních skóre ze závislých proměnných. Podíl vysvětlené inerce na celkové CA (DCA) inerci pak má vypovídací hodnotu o míře vysvětlení variability závislých proměnných použitými nezávislými proměnnými.

V praxi se používá často po CA (DCA), kdy máme k dispozici i environemntální proměnné. Pak je cílem CCA popis vazby složení společenstev se současným započítám vlivu faktorů prostředí. Jak už bylo zmíněno výše použít by se měla na dlouhé gradienty, které nesplňují podmínku linearity vazeb.

Interpretace ordinačního diagramu je stejná jako u CA.

STATISTICA ji neumí a není ji v ní čím nahradit. K tomu budete muset použít CANOCO nebo B-VegAna.

  • Příklad z přírodních věd: Projděte si článek, kde byla použita DCA a následně CCA k vysvětlení druhového složení rybničních rašelinišť na vybraných environmentálních faktorech. Ve Fig 1 i Fig 2 jsou body zobrazeny polohy objektů (=lokality) naklasifikované podle typu vegetace (což je výstup TWINSPANu). Ve Fig 1 jsou pasivně proloženy všechny environmetální proměnné (jako supplementary) – v Tab. 2 jsou pak korelace skórů těchto proměnných s 1. a 2. ordinační osou (požito je to pro popis os). Ve Fig 2 jde o kanonické osy a zobrazeny jsou signifikantní env. proměnné.

Na doplnění

  • RDA i CCA lze dělat i jako parciální – je možno odečíst vliv některé proměnné a sledovat odpověď jiné proměnné po odečtení jejich vlivu
  • výsledek (poloha objektů) v ordinačním diagramu by se u CCA měla srovnat s jejich polohou v CA, pokud je podobná, pak je výsledek CCA uspokojivý (znamená to, že mnou měřené faktory prostředí mají “opravdu” vztah k poloze objektů)
  • kanonické osy sice už nejsou teoretickými gradienty jako v CA nebo PCA, nýbrž jsou kombinací nezávislých proměnných (použitých v analýze), přesto vztahy v ordinačním digramu CCA i RDA zůstávají popisné a nejsou kauzální, pokud analyzovaná data nejsou výsledkem manipulace – kauzalitu prokazujeme jen experimentem !!!!!

Nepřímá ordinační analýza

Principy ordinační analýzy (Haruštiaková et al., 2012, kap. 6.1 celá)

Ordinační analýzy jsou základní pro posouzení druhového složení společenstev – objektem je společenstvo dané soupisem druhů/taxonů (co druh/taxon, to proměnná) v konkrétním nějak vymezeném prostoru (nejčastěji nějaká pokusná plocha nebo náhodně v terénu vybraná plocha o standardizované výměře). Druhy mohou nabývat binárních hodnot (přítomen/nepřítomen), ordinálních hodnot (např. Braun Blanquetova škála ve fytocenologii) nebo poměrových hodnot (počet jedinců druhu). Druhové složení společenstva je to, co se snažíme vysvětlit = je to vysvětlovaná proměnná (Lhs), která má však mnoho proměnných (pro jistotu znovu – co druh, to jedna proměnná). Obvykle máme k dispozici ještě další proměnné, které se vztahují k ploše objektu = environmentální proměnné, které popisují stanoviště společenstva. Obvykle se označují jako tzv. suplementary variables. Z ekologie víte, že aktuální společenstvo je odpovědí na podmínky stanoviště a jeho historický vývoj. Proto environmentální proměnné považujeme za vysvětlující proměnné (Rhs) druhového složení společenstva.

  • Příklad ze sociálních věd: Zájezd, který si turista zakoupí je ovlivněn širokou škálou postojů a přesvědčení zákazníka, šance, že bude vybrán konkrétní zájezd je závislá na proměnných, které charakterizují tento zájezd. Někdo dává přednost poznání, někdo odpočinku, někdo zábavě, někdo sportu, někdo přírodě, a většina různým kombinacím těchto a mnoha jiných prvků.

. . . ano, ordinační analýzy se používají i v mnoha jiných typech úloh, to je ale za hranicí tohoto našeho kurzu.

Studovat vazby mezi objekty podle hodnot velkého množství měřených proměnných (v “normálních” výzkumech na diplomku se asi vždycky přehoupnete přes 100 druhů) je “okometricky” (tedy stylem “mrknu a vidím“) obvykle nemožné. Taktéž obvykle platí, že měřené proměnné jsou jen zprostředkováním skutečnosti a nikoliv realitou samotnou. A taktéž v mnoha případech platí, že charakter prvků se v realitě nemění skokově, ale podél gradientů v “realitě” prostředí. Použití shlukových analýz ve studiu vazby odpovědí objektů na měřené proměnné prostředí je tak často nevhodné.

Skupině ordinačních metod je se shlukovou analýzou společná snaha o redukci proměnných do “minimálního” počtu. Od shlukové analýzy se ale liší v tom, že cílem je identifikace gradientů a nikoliv klasifikace (viz Haruštiaková et al., 2012, obr 6.2 na s. 49). Tyto metody slouží k seřazení objektů podél teoretického gradientu počítaného z měřených proměnných, ježto je v podstatě hypotetickou (= latentní) proměnnou – tento gradient se označuje jako “ordinační osa“. Jednotlivé ordinační osy jsou seřazeny podle významu a jsou navzájem kolmé (= nezávislé, ortogonální). Obvykle se snažíme interpretovat první dvě osy, ale v poslední době existuje snaha spíše hlavní osy odfitrovávat a věnovat se pitvání dalších gradientů, které nejsou obvykle zjevné. Předpokládáme, že dosažené hodnoty objektu u jednotlivých proměnných mají vazbu na prostředí a jsou tak odrazem chování společenstva na podmínky prostředí, a tedy ordinační osa je gradientem, který ovlivňuje intenzitu výskytu jednotlivých druhů ve společenstvu v jednotlivých objektech.

Polohu objektů a proměnných lze na ordinačních osách vyjádřit tabelárně pomocí souřadnic – to se používá např. pro posouzení korelace mezi pozicí na dílčí ordinační ose a hodnotou měřené proměnné. Nicméně nejčastěji se používá vyjádření pomocí grafů, které se označují jako ordinační diagramy – ty jsou obvykle hlavním výstupem analýzy. V nich může být zobrazena poloha objektů nebo proměnných nebo obojí najednou (= biplot). Nebo, pokud máme environmetální proměnné, můžeme zobrazit i je (= triplot).

Výsledky takovýchto analýz jsou u redaktorů časopisů obvykle oblíbené, avšak metody samy o sobě  nejsou všespásné. Pro interpretaci platí stejná podmínka jako u shlukových analýz – základem interpretace je zkušenost badatele a jeho obeznámenost s tématem (statistika obvykle končí u toho, že na základě dat vyberete vhodnou metodu, pak následuje rychlý technický krok, který předpokládá obeznámenost se software určeným pro výpočet a následuje dlouhá doba snahy o nahlédnutí výsledku).

Přehled běžně používaných ordinačních metod uvádí Haruštiaková et al. (2012) na s. 51 v oddíle 6.1.3. Vám bude stačit, když budete znát zde a na další stránce uvedené metody, které jsou rozděleny do dvou kategorií. Nepřímé ordinační analýzy jsou takové, kdy provádím analýzu Lhs (nejčastěji druhového složení) nebo méně často analýzu Rhs. Do ordinačního diagramu z analýzy Lhs mohu proložit pasivně Rhs proměnné (ty ale nikdy nejsou součástí výpočtu). Naopak přímé ordinační analýzy (označované jako kanonické) jsou takové, kdy analyzuji Lhs a Rhs se stávají součástí výpočtu ordinace.

NEPŘÍMÁ ORDINAČNÍ ANALÝZA

Analýza hlavních komponent – PCA (Haruštiaková et al., 2012, oddíl 6.2.1 celý)

Základním principem je snaha o vyjádření měřených proměnných pomocí latentních proměnných, tím snížení jejich původního počtu, a vazby mezi nimi, přičemž nemám primární ambici závislost Lhs na Rhs vysvětlovat příčinnými vztahy (viz výše):

  • Proměnné by měly mít kvantitativní charakter, ale software pracují i s binárními proměnnými (nominální vícekategoriální mohou být problematicky vyhodnotitelné).
  • Počet proměnných by měl být menší než počet objektů (těch by optimálně měla být druhá mocnina počtu proměnných), což obvykle porušujeme – zkuste si zpočítat, kolik pokusných ploch byste museli mít k dispozici, když bude uvažovat minimální počet druhů jako 100.
  • Předpokladem PCA je, že závislost druhů na ordinační ose je lineární; to obvykle znamená, že posuzuji jen část “reálného” gradientu (viz Lepš et Šmialuer, 2000, obr. 2-1 na s. 22). Jak poznáme, že jde o lineární gradient, si ukážeme u CA za chvíli.

Metodicky je PCA orientována na konstrukci takových nových proměnných (= hlavní komponenty), které vysvětlují maximum celkového rozptylu původních proměnných.

Identifikace hlavních komponent je postupná. Nejprve je identifikována první hlavní komponenta, a to ve směru největší variability objektů. Další osa vysvětluje část “zbytkové” variability za podmínky nezávislosti na ose předchozí. A tak se postupuje až do vysvětlení veškeré variability.

Existují dva základní typy PCA – centrovaná PCA využívá při výpočtech asociační matici založenou na kovariancích a použijeme ji, když máme proměnné v podobných jednotkách; standardizovaná PCA využívá korelací a volíme ji, když proměnné mají zcela odlišná měřítka.

Geometrický význam vynikajícím způsobem popisuje Haruštiaková et al. (2012) na s. 54-55. Jde ve zjednodušené podstatě o rotaci původních os variability (= měřených proměnných = nejčastěji druhů) do polohy, kdy je vysvětleno maximum variability – původní hodnoty proměnných (obvykle druhů) jsou následně převedeny do nového souřadnicového systému daného latentními gradienty (= hlavními komponentami).

Počet interpretovatelných os je dán logickou úvahou a omezen je maximálně na Kaiserovo kritérium – interpretovat má smysl pouze komponenty s hodnotou vlastního čísla větší než 1 (pak daná komponenta vysvětluje více variability než původní měřená proměnná). Hlavní význam však mají pouze osy s vysokými hodnotami vlastního čísla, tedy ty, co vysvětlují maximum variability – hodnoty vysvětlené variability nalezneme v tabulce hodnot vlastních čísel nebo je můžeme vidět v diagramu, který se jmenuje scree plot (obr. 6.5 v Haruštiaková et al., 2012, s. 56), někdo bere v potaz opravdu vysoké hodnoty vlastního čísla (ty bývají obvykle jen tři, ale záleží na povaze gradientů v datech), někdo bere v potaz komponenty s nadprůměrnými hodnotami vlastního čísla, vy budete asi nejčastěji pracovat s prvními dvěma osami.

Zásady pro interpretaci uvádí přehledně Haruštiaková et al. (2012) na s. 57-60. Jako hlavní vybíráme:

  • proměnné jsou v ordinačním prostoru daném ordinačními osami zobrazeny jako vektory, čím je vektor delší, tím větší je jeho význam v ordinačním prostoru, kosinus úhlu, který svírají vektory původních proměnných mezi sebou a s ordinačními osami, je úměrný jejich korelaci,
  • objekty jsou v ordinačním prostoru vyjádřeny jako body pomocí komponentních skóre (= souřadnice na dané komponentní ose), zajímá nás vzájemná pozice objektů a vazba pozice objektů na vektory proměnných – používá se obvykle biplotu (= grafu, kde jsou proměnné i objekty),
  • tedy pro interpretaci platí, ke kterým bodům vede šipka proměnné, pro ty body je tato proměnná významná, a čím blíže jsou body a šipky k dané komponentní ose a čím jsou dále od souřadnice 0,0, tím jsou významnější pro identifikaci komponentní osy, která pro Vás představuje latentní proměnnou, podél níž dochází ke změně druhového složení společenstva
  • grafem lze prokládat i suplementary variables – ty nejsou součástí výpočtu matice PCA, ale lze jim podle hlavních komponent přepočítat původní hodnoty do souřadnicového prostoru daného komponentními osami a ty zobrazit v grafech. Obvykle se jich používá pro interpretaci (= často pojmenování) “latentních” os – můžete se pokusit osy interpretovat, ale nemůžete tvrdit, že tato osa znamená reakci společenstva např. na kyselost substrátu – “kauzalitu” pomocí PCA tímto způsobem “prokázat” nemůžete,
  • v PCA existují dva typy biplotů, které se liší interpretací.

PCA má hlavní využití v přírodních vědách (v sociálních se místo ní obvykle používá faktorová analýza, pokud PCA, pak obvykle v souvislosti s RDA – viz dále).

  • Příklad z přírodních věd: Naší snahou je identifikace hlavních komponent ovlivňujících výskyt rašeliníků různých druhů. Jednotlivé druhy jsou proměnné vyjádřené pokryvností na jednotlivých lokalitách (to jsou objekty). Kromě nich byly měřeny i některé charakteristiky prostředí – ty budou použity jako suplementary variables. Návod pro výpočet ve STATISTICA je na videu.

Faktorová analýza – FA (Haruštiaková et al., 2012, oddíl 6.2.2 celý)

Faktorová analýza posouvá PCA dále v tom slova smyslu, že kromě redukce počtu proměnným má za cíl i vysvětlení závislosti proměnných. Právě tato snaha po vysvětlení vede k tomu, že v přírodních vědách není příliš oblíbená pro svou “neobjektivnost”.

Název faktorová analýza nesou dva odlišné typy analýz – explorativní faktorová analýza (EFA) a konfirmační faktorová analýza (CFA). Na tomto místě se věnujeme pouze explorativní faktorové analýze (ta je popsána i v učebnici).

S EFA souvisí význam tzv. faktorových vah, což jsou korelační koeficienty proměnných se společnými faktory (extrahovaný menší počet dimenzí, než byl původní počet proměnných = druhů, jako u PCA), a komunality, která udává část rozptylu proměnné, která je vysvětlena působením společných faktorů. Oba tyto prvky jsme poznali ale už i u PCA – u FA jsou ale hlavním výsledkem.

Základem EFA je PCA – komunalita je odhadována a hlavní komponentní osy jsou následně rotovány tak, aby co nejjednodušeji popisovaly vstupující proměnné (viz obr. 6.7 na s. 62 v Haruštiaková et al., 2012). Cílem EFA je dostat hlavní komponentu v novém souřadnicovém systému do polohy, kde se vyskytuje více vzájemně prokorelovaných původních proměnných (= druhů) – ta přestává být hlavní komponentou a stává se společným faktorem. Tento postup je považován za “neobjektivní”, protože předjímá, že proměnné jsou “reálným”, byť přímo neměřeným, faktorem. Důsledkem totiž je, že faktorové osy na rozdíl od hlavních komponent mohou být prokorelovány a nemusí tedy být orthogonální (což obvykle nejsou). Navíc počet společných faktorů, které mají být rotovány je dán badatelem (počet os se nejčastěji drží Kaiserova pravidla a vychází z PCA) – počet rotovaných os ovlivňuje výsledek (tedy výsledek EFA bude jiný, pokud zadám, že chci mít 4 nebo 5 faktorů). Pro daný společný faktor nás pak zajímají jen proměnné s hodnotou faktorové váhy vyšší jež je stanovená hodnota, tou je obvykle 0,6 – používají se i nižší, ty jsou podle našich zkušeností ale stejně v následných analýzách vyřazeny na základě výsledků CFA a testem validity (viz dále v této sekci).

Rozdíl EFA od PCA si nejlépe ukážeme za použití stejných dat jako v PCA, na něm se i naučíme faktorovou analýzu ovládat – video. Především si všimněte, že došlo k jasnějšímu vyčlenění skupin rašeliníků podél jednotlivých os.

Faktorová analýza je původní v psychologii a běžně se používá v sociálních vědách, kde existuje přesvědčení, že nic nelze měřit přímo, ale mnoho nepřímých proměnných má dobrou vypovídací schopnost o latentní proměnné, která nás zajímá, a tedy, že je možno ji poměrně přesně určit měřením známých proměnných. A priori tak předpokládám její existenci = mohu si dovolit ohýbat prostor PCA do podoby, která odpovídá mé představě. Z toho plyne, že toho musím dopředu o měřené proměnné opravdu hodně vědět 🙂

Vzhledem k tomuto základu úvahy, je vždy nutné testovat reliabilitu takového faktoru. Nejběžnější metodou je výpočet Cronbachova alfa. V “přesných” psychologických měřeních se důrazně doporučuje hodnota větší než 0,9, nicméně hodnota nad 0,7 je obecně považována za prokázání reliability. Ve Statistica Conbachovo alfa naleznete na kartě Statistics v záložce Mult/Exploratory v nabídce Reliability/Item. Touto analýzou též identifikujete, které z proměnných nemusí být do faktoru zahrnuty. Rychlý návod na ovládání je na videu.

Po testu reliability by měla ještě následovat CFA a po ní ještě jednou test reliability. Tu si ale tady ukazovat nebudeme. Teprve jí je faktor a především jeho složení potvrzen a lze jej použít v dalších analýzách. Hodnota latentního faktoru se pro další výpočty často aproximuje průměrnou hodnotou, kterou objekt získal na všech proměnných jež byly pomocí EFA, CFA a testem reliability za faktor určeny.

Korespondenční analýza – CA (Haruštiaková et al., 2012, kap. 6.3 celá)

Podobně jako PCA je jejím cílem snížení dimenzionality v datech (tedy identifikace gradientů, podél nichž se mění maximum variability souboru proměnných). Základním postupem řešení je taktéž maticová algebra. Na rozdíl od PCA a FA je ale maticí kontingenční tabulka, konkrétně její relativní vyjádření. Vstupní data tedy mohou být na nominální a ordinální škále a nemusejí mít normální rozdělení (což jsou doporučované, ale nikoliv povinné, předpoklady pro PCA a EFA). Vedle PCA je nejběžněji používanou metodou pro posouzení vazeb druhů a lokalit ve společenstvech. Předpokladem použití CA je unimodální odezva druhu na gradient ordinační osy (viz Lepš et Šmialuer, 2000, obr. 2-3 na s. 23) – použít PCA v tomto případě by bylo chybou (viz Lepš et Šmialuer, 2000, obr. 2-2 na s. 22).

V CA jde o rozklad na faktory (= ordinační osy) – rozkládá se tzv. inerce (celková inerce je rovna podílu celkové hodnoty chí-kvadrát statistiky a počtu pozorování) do částí, aby zůstala zachována maximální hodnota inerce na jednotlivých osách – význam os tak tedy také klesá s jejich pořadím jako v PCA – maximální podíl na inerci má první osa. Počet extrahovaných os je roven minimu z počtu řádků a sloupců sníženém o jedna. Pro interpretaci se používají osy vysvětlující významný podíl inerce (osy s minimálně nadprůměrnou hodnotou vlastního čísla). Matematicky se počítá buď pomocí maticové algebry nebo metodou váženého průměrování (viz Haruštiaková et al., 2012, s. 64-66) – my po Vás vysvětlení chtít nebudeme.

Nejčastěji používaným výsledkem CA je jako u PCA ordinační diagram (obvykle biplot objektů = vzorků a proměnných = druhů) do nějž je možné, analogicky jako v PCA, vložit pasivně environmentální proměnné. V diagramu jsou vzorky i druhy vyjádřeny jako body, jejichž souřadnice na ordinačních osách jsou označovány jako skóry. Jedná se, jednoduše řečeno, o “těžiště” polohy druhu (= proměnné) v novém sníženém počtu dimenzí. Pravděpodobnost výskytu druhu klesá všesměrně od tohoto bodu. Body vzorků pak odpovídají poloze vypočítané na základě zastoupení jednotlivých druhů v konkrétním vzorku (samozřejmě přepočítaném do souřadnic nového prostoru). Pro interpretaci, je tak zásadní všesměrná absolutní blízkost bodů v ordinačním diagramu (kompletní přehled uvádí Haruštiaková et al., 2012, v odrážkách na s. 68-69), my jako nejdůležitější vybíráme:

  • body, které si jsou blíže, si jsou svým výskytem více podobné (druhy se vyskytují spolu a druh je významným indikátorem daného vzorku)
  • body vzdálené v diagramu (podél osy) jsou si vzájemně nepodobné (druhy se spolu nevyskytují, druh se nevyskytuje ve vzorku)
  • čím blíže je bod k souřadnici (0,0), tím je jeho význam pro oddělení druhů a vzorků menší (mají nevýrazný profil – obvykle to znamená, že druh je zastoupen ve většině vzorků a ve vzorku se vyskytují převážně druhy, které se často vyskytují i v jiných vzorcích) – podobně jako u PCA, body vzdálené od průsečíku ordinačních os mají větší indikační význam pro danou osu.

Samozřejmě pro posouzení jsou důležité i další výstupy analýzy – vlastní hodnoty matice, procento vysvětlené inerce a skóry (které jsou ale zobrazeny v diagramu).

V CA se běžně vyskytuje tzv. obloukový efekt – skóre na druhé ose vykazuje kvadratickou závislost na skórech na první ose (Haruštiaková et al., 2012, obr 6.11 na s. 71), což je důsledkem metody výpočtu a faktu, že ve vzorcích máme zastoupeno více druhů, které se vyskytují jen v málo vzorcích, což je normální u dlouhých gradientů (viz Biogeografie). Druhá osa pak není “reálným” gradientem. Nejčastějším postupem, jak se obloukového efektu zbavit, je detrendování druhé (a dalších) osy. Analýza se pak označuje jako detrendovaná korespondenční analýza – DCA. Ta je suverénně nejoblíbenější metodou posuzování druhových dat na základě pořízených vzorků.

Detrendování se prování polynomem – skóry na druhé ose jsou vyjádřeny polynomickou funkcí skórů první osy (jde o polynomickou regresi) a následně jsou skóry druhé osy nahrazeny novými skóry, které jsou rezidui z této regrese. Tedy v podstatě je regresní funkce použita jako kovariáta.

Dalším častým problémem výsledku CA je větší blízkost bodů u konců os než při jejich středu. To se upravuje přeškálováním segmentací. Ve výsledku je pak délka ordinační osy měřena v násobcích směrodatné odchylky. Toho se používá při rozhodování o metodě analýzy – pokud je gradient delší než 3 (obvykle ale i než 2), pak se použije CA nebo DCA, pokud je kratší, pak je vhodnější PCA. Pokud se hodnota délky gradientu blíží 4, pak vzorky na opačných koncích dané osy nemají žádný společný druh. Jak se změní ordinační diagram při detrendování druhé osy se můžete podívat na s. 71 (Haruštiaková et al., 2012).

V CA a DCA tak hodnotíme dlouhé gradienty, na nich pak mají velký vliv tzv. vzácné druhy – tedy proměnné vyskytující se v minimu vzorků a s malou frekvencí. Takových druhů je obvykle mnoho, zvláště když máme málo vzorků, které si nejsou podobné. Obvykle je vhodné transformací vliv těchto druhů omezit = downweighted of rare species.

Statistica není moc vhodným nástrojem pro CA (DCA neumí vůbec) analýzy ekologických dat. Nicméně si ji ukážeme protože sice neumí vše, ale umí toho mnoho a pokud nemáme po ruce jiný software, lze CA provést i v ní, ale POZOR!!!!

  • nastavena je na hodnocení opravdu frekvenčních dat, a to např. ze sociologických dotazníkových průzkumů. Chcete-li něco hodnotit, projděte si pečlivě přiložené příklady: základní pro jednu proměnnou s vložením supplementary variables je popsán v dokumentaci zde, složitější s více proměnnými pak zde a zde.
  • data druhových seznamů z lokalit vkládáme jako tabulku, kde ve sloupcích jsou druhy a v řádcích vzorky, na jejich průsečíku je frekvence (u vegetace vyjádřena např. hodnotami 1-9 podle Br.-Bl. škály převedené na číslo – tedy pokryvnost odpovídá frekvenci výskytu) to je volba Frequencies w/out grouping vars, pokud budete chtít používat jiných vstupů, což je vhodné u opravdu nominálních socioekonomických dat, tak si nejprve nastudujte tři výše v tomto výčtu uvedené odkazy

 

  • Příklad z přírodních věd: Máme stejná data jako u shlukové analýzy. Naším cílem je posouzení dimenzí podél nichž dochází k diferenciaci druhového složení rašelinišť – výpočty a návod pro STATISTICA je na videu
  • Příklad ze sociálních věd 1: DCA bylo použito při posouzení vazby množství úlovků na revírech ČRS podle příslušnosti rybáře k místní organizaci – příkladový článek.
  • Příklad ze sociálních věd 2: DCA bylo použito při snaze o posouzení odpovědí na dotazníky sebrané na třech lokalitách – viz Figure 3 v příkladovém článku.

Mnohorozměrné škálování a nemetrické mnohonásobné škálování MDS, NMDS (Haruštiaková et al., 2012, kap 6.4 a 6.5 celé)

Jde o další metodu snížení počtu dimenzí, tentokrát založenou na matici vzdáleností. Má své metrické i nemetrické techniky. Výsledkem je rozmístění objektů v novém souřadnicovém systému o menším počtu dimenzí.

Počet dimenzí se, stejně jako u EFA, nastavuje ručně. Čím je větší počet dimenzí, tím je metoda přesnější. Vzhledem k tomu, že je ale naším cílem minimalizovat počet dimenzí, tak musíme najít optimální variantu, nízkého, ale “věrohodného” počtu dimenzí. K tomu slouží dva základní ukazatelé:

  • měřítko reprezentace (stress, D-hat value)
  • cizost (alienation, D-star value)

Obě určují míru (na základě pořadí) vazby nové vzdálenosti na vzdálenost původní (viz dokumentace). Nabývají hodnot 0 až 1 a platí, že čím blíže je číslo nule, tím je výsledek lepší. Dalším ukazatelem je Shaperdův diagram, který vyjadřuje nové vzdálenosti (na ose y) versus původní vzdálenosti (na ose x) – linií jsou vyneseny hodnoty D-hat vs. data a body původní vzdálenosti, pokud body “sedí” na linii, lze se domnívat, že naše nastavení počtu dimenzí “odpovídá” původním datům.

Samotný proces výpočtu je iterační. Podle badatelem určeného počtu dimenzí jsou spočítány vlastní vektory a koordináty původních proměnných na nových dimenzích. Vypočítány jsou ukazatelé a objekty jsou posunuty směrem snížení D-hat value, opět se počítají ukazatelé a srovnávají s předchozími, takto postupuje proces až do nastaveného počtu iterací nebo dosažení minima D-hat.

Problémem MDS/NMDS je nutnost nastavení počtu dimenzí a také to, že funkce iteračního procesu identifikují lokální a nikoliv globální minimum, proto se doporučuje proces několikrát opakovat s různými počátečními nastaveními. V praxi lze tohoto postupu mino jiné použít před shlukovou analýzou K-průměrů – lze totiž určit “optimální” počet dimenzí a tím i shluků v datech – MDS/NMDS je typická průzkumná metoda, podávající informaci o struktuře dat.

Výhodou MDS/NMDS je možnost využití matic vzdáleností, které nemají euklidovskou vzdálenost, nevýhodou, podobně jako u EFA, je citlivost na nastavený počet dimenzí, no a samozřejmě také citlivost na použitou míru vzdáleností.

Výsledkem analýzy je ordinační diagram znázorňující body (= objekty) v souřadnicové síti nových dimenzí pomocí skórů. POZOR!!!! – nové dimenze nejsou jako v předchozích analýzách lineárně závislé na původních proměnných.

MDS je původně doma v psychologii, kde slouží jako základní nástroj pro analýzu sémantického diferenciálu. Proto cílem MDS není zkoumání vazeb mezi proměnnými, ale mezi objekty – matice vzdáleností je ale počítána z hodnot dosažených objekty na jednotlivých proměnných.

POZOR!!!! Statistica vyžaduje zadat matici vzdáleností a nikoliv surová databázová data – důvod je zřejmý, jednotky míry vzdáleností jsou na badateli. Nejjednodušeji je lze získat z hierarchické shlukové analýzy. NMDS Statistica neumí.

  • Příklad z přírodních věd 1: Mým cílem je identifikace dimenzí vzájemné druhové podobnosti rašelinišť podle druhového složení. Nejprve musíme získat matici vzdáleností lokalit (video) podle zastoupení druhů, následně mohu provést MDS (video).
  • Příklad z přírodních věd 2: NMDS bylo použito při klasifikaci vegetace svahů říčních údolí – viz první část Results v příkladovém článku.

Shluková analýza

Podstatou je rozdělení objektů na základě dosažených hodnot u jednotlivých proměnných do skupin (Haruštiaková et al., 2012, kap. 5). Tyto skupiny se označují jako shluky a odtud je odvozen název shluková analýza. Rozdělením objektů do skupin se reálně sníží počet proměnných na jedinou – příslušnost objektu ke skupině. Používáme ji v případech, kdy víme, že pozorované objekty reálně náleží do nějaké třídy, kde platí, že objekty v třídě si jsou vzájemně bližší, než objekty z různých tříd, nicméně je lze použít i pro data připomínající “homogenní chaos”, v něm se obvykle snažíme najít nějaký “systém”.

Přístupy ve shlukové analýze jsou v zásadě dva – hierarchické a nehierarchické. Výsledkem hierarchického shlukování je systém skupin a podskupin – výsledkem jsou grafické stromy = dendrogramy. Aglomerativním postupem se postupně spojují nejpodobnější objekty až jsou všechny spojeny do jediné skupiny zahrnující všechny objekty. Divizivním postupem se naopak celý soubor objektů dělí v postupných krocích na části (nejčastěji dvě), a to podle vzdálenosti. Nehierarchické shlukování pak dělí objekty do badatelem určeného počtu shluků stejného řádu.

Hierarchické aglomerativní shlukování

Její podstatou je výpočet podobnosti/vzdálenosti mezi všemi dvojicemi objektů, tedy posouzení asociační matice. V postupných krocích se pak posuzuje podobnost/vzdálenost objektů, objektu a shluku a dvou shluků. Metoda posouzení vzdálenosti mezi shluky je základem pro požadovaný výsledek. Rozdíly v použití jednotlivých metod jsou nádherně popsány na s. 31-35 (Haruštiaková et al., 2012). Další významu volbou je výběr míry vzdálenosti – nejčastěji se používá euklidovská vzdálenost. Vlastním výstupem analýzy je dedrogram a tabulka postupu skládání stromu. Popis dendrogramu není složitý, na začátek je však ale třeba upozornit, že vedle sebe umístěné objekty si nemusí být vzájemně podobnější než objekty umístěné dále od sebe. Vzdálenost se počítá po větvi dedrogramu k nejbližšímu společnému rozvětvení dvou posuzovaných objektů. Takže např. na obr. 5.9 na s. 36 je třetí z vrchu objekt B1, jemu nejpodobnějším je objekt G1 – sloučeny do jednoho shluku (obsahujícího objekty B1 a G1) na úrovni vzdálenosti cca. 6,5 (to je hodnota průsečíku spojnice větví B1 a G1 a osy x). Ale hodnota vzdálenosti objektů B1 a I1 je ale cca. 15, přestože jsou na “ose y” tyto objekty vedle sebe. Objektu B1 je podobnější D1 než I1 – společný shluk tvoří B1 a D1 (samozřejmě už společně s G1) na vzdálenosti cca. 9,5. Chci-li definovat třídy na základě hierarchické aglomerativní metody musím rozhodnout na jaké vzdálenosti dendrogram “říznu”. Haruštiaková et al. (2012) v obr. 5.9 jej “řízli” na úrovni vzdálenosti cca. 13 – vzniklo tak pět tříd. Rozhodnutí, na jaké úrovni “říznout” je věcí zkušenosti a charakteru dedrogramu (posuzuji kombinace vzdáleností větvení – já bych se asi v tomto případě rozhodoval mezi vzdáleností 11 – t.j. 7 tříd – nebo vzdáleností 14 – t.j. 4 třídy). Při rozhodování je obvykle lépe vlastní metriku vynést na “ose x” jako procentické hodnoty vzdálenosti. Pak se rozhoduji na úrovni procent, které zároveň znamenají procentickou ztrátu detailu informace (informace, kterou nesly objekty v úrovni 0 % je nahrazena přepočty na centrální hodnoty shluku na úrovni x %. Pokud detailně popisuji shluky, pak by asi ztráta neměla být vyšší než 50 %, nicméně v jednom posudku na článek mi recenzent doporučil úroveň 20 %.

Hierarchické aglomerativní shlukování se často používá jako předstupeň před nehierarchickým shlukováním a jeho cílem je v tomto případě určit “optimální” počet shluků – příslušnost objektu ke shluku je pak řešena nehierarchickým shlukováním.

Tuto metodu lze taktéž použít ke klasifikaci proměnných.

  • Příklad z přírodních věd: Na rašeliništích jisté oblasti byl proveden větší počet fytocenologických snímků a nás zajímá, které lokality si jsou v druhovém složení podobnější. Ovládání ve STATISTICA je na videu.
  • Příklad ze sociálních věd: Mezi návštěvníky národních parků a chráněných krajinných oblastí byla zjišťována míra participace na dílčích rekreačních aktivitách, které provozují v době své dovolené návštěvníci těchto území. Autory zajímalo vymezení skupin návštěvníků a vzájemná podobnost v provozování dílčích aktivit. Zde je příkladový článek.

Hierarchické divizivní shlukování

Jak už bylo zmíněno výše, divizivní metoda pracuje “opačně” než aglomerativní. Při tomto dělení “větší rozdíly přetrvávají nad méně důležitými rozdíly: celková struktura shluku determinuje podskupiny” (Haruštiaková et al., 2012, s. 37). Princip je graficky vyjádřen v obr. 5.12 na s. 38 (Haruštiaková et al., 2012). Hierarchické divizivní metody se používají velmi často při klasifikaci společenstev – nejčastější metodou je TWINSPAN – my používáme výhradně ji. Jako základ pro posouzení vzdáleností podél níž dochází k dělení na jednotlivých úrovních je ordinace korespondenční analýzou (vis ordinace). Asi největší výhodou je, že tato metoda je přímo inkorporována do software JUICE, který je určen pro analýzu společenstev a je ZADARMO ke stažení zde. Základní popis uvádí Haruštiaková et al (2012) na s. 39-40, detailnější na konkrétním příkladu uvádí Lepš et Šmilauer (2000) na s. 59-65. Nevýhodou je nutnost ručního nastavení cut level, podobně jako v předchozím případě je toto rozhodnutí čistě na badateli a je dáno zkušeností a charakterem aktuálních dat.

  • Příklad z přírodních věd: Na toku dolní Lužnice byly pořízeny fytocenologické snímky kulturního lesa. Zajímá nás jejich klasifikace na základě druhového složení, o kterém předpokládáme, že je výsledkem kombinace lidského zásahu a úživnosti substrátu. K tomu použijeme Klasifikaci metodou TWINSPAN. Výsledek takovéto klasifikace si můžete prohlédnout zde.
  • Příklad ze sociálních věd: V šetřeném území byl identifikován větší počet atraktivit cestovního ruchu v dílčích územních jednotkách šetřeného území. Na základě kombinací množství zastoupení dílčích atraktivit byly vymezeny typy atraktivnosti území. Výsledek je v příkladovém článku v Table 1.

Další nevýhodou klasického TWINSPANu je dělení už zjevně dostatečně homogenních skupin, dokud není dosaženo stanoveného počtu shluků. Proto byla vyvinuta varianta, kde je možno nastavit i minimální hodnotu heterogenity uvnitř shluku a pokud není dosažena, daný shluk není v následujícím kroku dělen. princip je následující:

  • nastavím cut level, pseoudospecies, počet požadovaných shluků a minimální velikost shluků, tedy stejně jako v klasickém TWINSANu
  • dále nastavím metodu výpočtu heterogenity a hodnotu heterogenity, do které se má dělení provádět
  • spustí se analýza, která rozdělí soubor na dvě části, spočítá heterogenitu obou a tu, která má hodnotu heterogenity větší (a je také větší než heterogenita nastavená v předchozím bodě) tu dělí
  • následně je opět pro nové shluky spočítána heterogenita – pokud nebylo dosaženo cílového počtu shluků a/nebo by nově vzniknuvší skupina byla menší než v bodě 1 nastavená minimální velikost shluku, je dělena ta skupina, která má nejvyšší hodnotu heterogenity – může to být jedna ze skupin vzniknuvších
  • ve druhém kole nebo skupina nedělaná po prvním kole
  • vše je jasné z posteru, pokud to použijete citujte tento článek

Nehierarchické shlukování

Cílem je vytvořit hierarchicky rovnocenné shluky uvnitř nichž budou vzájemně podobnější objekty než mimo ně. Toho lze dosáhnout několika postupy. Základním a nejčastěji používaným přístupem je metoda maximalizace vnitrodruhové podobnosti = metoda K-průměrů. To v praxi odpovídá minimalizaci inverzní funkce – minimalizují se sumy čtverců vzdáleností uvnitř skupiny. Vzhledem k tomu, že počet shluků stanovuje badatel, je obvykle třeba uvažovat nad počáteční (nulovou) příslušností objektů ke skupinám a také zkusit vytvořit větší počet skupin a použít tu variantu, která vykazuje minimální vnitroskupinovou variabilitu.

Kromě metody K-průměrů nabízejí některé software i její dynamickou variantu označovanou jako metoda X-průměrů – u té se nastavují jen meze počtu shluků a na základě informačních kritérií (BIC nebo AIC) se vybírají nejvhodnější varianty přiřazení objektů do shluků a počtu shluků. Další metodou je metoda K-metoidů, kde skupinu nereprezentuje centroid, ale metoid = reprezentativní objekt.

  • Příklad z přírodních věd: Na vybraných rašeliništích byly měřeny vybrané fyzikálně chemické vlastnosti podzemní vody. Zajímá nás, která místa vykazují stejný typ chemismu podzemní vody. Ovládání ve STATISTICA je na videu (data byla před analýzou standardizována).
  • Příklad ze sociálních věd: Autoři měli k dispozici vybraná segmentační kritéria respondentů se vztahem k poptávce po loveckém cestovním ruchu. Jejich cílem bylo rozdělit poptávku do poptávkových segmentů podle těchto kritérií. Počet shluků byl odvozen od předchozí hierarchické aglomerativní analýzy. Výsledek je v článku ve Figure 2.

Všechny tyto metody se potýkají s problémem optimálního určení počtu shluků. Jak už bylo naznačeno výše, počet shluků lze předem odhadnout s využitím hierarchické shlukové analýzy – nejlépe s Wardovou metodou, protože metoda K-průměrů počítá, stejně jako ona, s centroidy. Validace výsledků nehierarchické shlukové analýzy lze provést několika způsoby – asi nejčastěji používaných (z důvodu jednoduchosti) je analýza rozptylu – shluky se použijí jako kategoriální proměnná a testovány jsou průměry dílčích proměnných v těchto shlucích. Dále se používá indexů, jejichž porovnáním se vybere “optimálnější” počet shluků. Zejména v sociálních vědách je oblíbená validační metoda siluety – Statistica ji neumí.

Regresní modely

Vycházejí ze stejných rámců jako různé typy ANOVA a zjednodušeně řečeno je od sebe dělí jen rozdíl v charakteru vysvětlujících proměnných – u ANOVA jsou kategoriální, u regresí mohou mít jakýkoliv typ dat, což platí i pro vysvětlovanou proměnnou. Právě podle jejich charakteru se rozlišují jednotlivé typy regresí. My se jim teoreticky moc věnovat nebudeme a omezíme se na jejich přehled a způsob ovládání ve STATISTICA. S vědomím toho, že pomocí Real Statistics lze většinu z toho, co si ukážeme, udělat i v MS Excel. Nejjednodušší jsou (mimo to, co jsme si ukázali v základním kurzu) regrese, kde na straně vysvětlované i vysvětlující stojí poměrové proměnné, ale jejich kombinace nejsou lineární.

Nelineární regrese

Nejčastěji se používá polynomiální regrese – závislost je konstantní, ale ne lineární. Ve výsledku se nám často podaří pěkně proložit křivku našimi daty, ale interpretace, především u polynomů vyšších stupňů, je v podstatě nemožná. Proto se snažíme používat maximálně kvadratickou regresi. To co těmito modely dokazujeme je “nelinearita” závislosti.

Nelineární (fukční) regrese umožňují proložit křivku zvolené funkce – nejlepší se nedají vybrat postupem jako u lineární regrese a obvykle jsou výstupem nějakého opakovacího (iteračního procesu) – program začne s nějakou nulovou verzí, vypočte metodou nejmenších čtverců reziduály, následně zvolí jiné nastavení výchozích hodnot a porovná jejich reziduály a reziduály prvního výpočtu, takovýchto výpočtů udělá velké množství a vybere ten “nejlepší” – najde lokální optimum, těch ale může být několik. Statisticky správnější je obvykle data nejprve transformovat a následně podrobit lineární regresi.

  • Příklad z přírodních věd: závislost druhové bohatosti na množství živin v půdě reprezentovaných amoniakálním dusíkem řešená na videu pomocí Graphs ve STATISTICA.

Nelineární regerese v Graphs ve STATISTICA.

Pokud potřebuji pracovat s větším množstvím polynomiálních nezávislých proměnných, pak musíme volit “Advanced models”, v ní “General linear” a na její kartě “Polynomial regression”.

Hierarchická mnohonásobná lineární regrese

Problém u mnoha regresí je ten, že máme obvykle skupiny vysvětlujících proměnných a nikoliv “jednotlivé” vysvětlující proměnné. Zajímá nás vliv jedné skupiny nezávislých proměnných na závislou proměnou, ale máme i další skupinu nezávislých proměnných, o které víme, že má na vysvětlovanou proměnnou vliv – tento nás ale nezajímá. Naším cílem je zjistit vliv první skupiny při spolupůsobení druhé skupiny. V podstatě nás tedy zajímá, jak se projeví vliv zařazení druhé skupiny proměnných na výslednou hodnotu Adjusted R2.

Příklad ze sociálních věd: Sledujeme zájem o daný typ outdoorové rekreační činnosti. Zajímá nás vliv vztahu k životnímu prostředí respondenta na zájem o tu konkrétní outdoorovou rekreační činnost. Nicméně vím, že existují další proměnné, které mají na zájem vliv – demografická a socioekonomická data o respondentovi.

V podstatě jde o “jednoduchou” variantu komplikovaných strukturálních modelů, kde pomocí série regresních koeficientů posuzujeme vazby mezi větším množstvím proměnných, jež vystupují často zároveň na úrovni vysvětlovaných i vysvětlujících. Nicméně zde mám dvě skupiny, kde mě nezajímá hierarchie jejich vlivu, ale jen chci posoudit jak zásadně se změní Adjusted R2, když do modelu, kromě proměnných o zájmu o životní prostředí vstoupí i data o demografických a socioekonomických ukazatelích o respondentovi.

Ve STATISTICA je zapotřebí v úvodním panelu zaškrtnout všechny varianty výpočtů v modelu, následně zvolit proměnné. Po odeslání se dostanete do panelu volby modelů, v něm musíte nejprve zvolit všechny vysvětlující proměnné a pak samozřejmě specifikaci modelu. Po odeslání lze mezi výsledky vpravo dole najít položku “Stepwise regression summary”, v ní najdete výsledek tohoto prvního kroku. Dáte OK, následně v hlavním výsledkovém okně dáte Cancel a ve volbách modelů vyberete jen část vysvětlujících proměnných, které Vás zajímají. Model nastavíte stejně a odešlete. V položce “Stepwise regression summary” najdete výsledek pro nový model a změny, ke kterým došlo oproti předchozímu modelu. Tímto způsobem můžete zeštíhlovat model po jedné nebo několika proměnných. Vždy ale musí jít o odebrání proměnných z předešlého modelu – nelze už žádné další přidávat (respektive lze, ale program nevypočítá změnu).

Další typy regresí

Všechny výše uvedené typy regresí měly společného jmenovatele v tom, že na straně vysvětlované proměnné (Lhs) i straně vysvětlujících proměnných (Rhs) mohly stát výhradně poměrové proměnné. To je ale značné omezení, protože velké množství dat má ordinální (stupnice v dotaznících) či nominální charakter (barva kožichu, pohlaví, geologický substrát). My jsme už skupinu modelů umožňující pracovat s Rhs nominálními proměnnými poznali – skupinu modelů ANOVA. ANOVA a další modely umožňující pracovat jen s poměrovými Lhs a kterýmikoliv Rhs označujeme jako obecné lineární modely (General Liner Models, GLM). Pro regrese obecných lineárních modelů platí odhady nezávislosti jednotlivých prediktorů – aditivita.

  • Příklad z přírodních věd: Závisí velikost snůšky vybraného druhu vodního ptáka na environmentálních charakteristikách polohy hnízda? Snůška je měřena součtem objemu všech vajec (poměrová proměnná), nezávislými proměnnými jsou vzdálenost od nejbližšího dalšího hnízda (poměrová proměnná), vzdálenost hnízda od volné vodní hladiny (poměrová proměnná), typ porostu podle rostlinné dominanty (4 typy, nominální proměnná). Výpočet ve Statistica je na videu.

Řešení regresní úlohy v GLM nástrojích STATISTICA.

Jejich zobecněním vznikají komplikovanější modely označované jako zobecněné lineární modely, čili Generalized Linear Models (GLZ). Rozšířeny jsou v tom slova smyslu, že u nich můžeme použít u Lhs proměnnou ordinálního i nominálního charakteru. Podle charakteru vysvětlované proměnné jsou definovány základní link funkce, pomocí kterých jsou převedeny hodnoty prediktorů b (beta) jednotlivých nezávislých proměnných z lineárního modelu (teoreticky zasahujících z mínus nekonečna do plus nekonečna) na ordinální nebo nominální stupnici toho kterého konkrétního prediktoru.

STATISTICA umožňuje komplexní volbu jednotlivých modelů ve svých panelech nástrojů – vysvětlení hlavních případů je asi jednodušší na konkrétních příkladech:

  • Příklad z přírodních věd: Zadání stejné jako předchozí, ale velikost snůšky je měřena počtem vajec, ten je nízký a má Poissonovo rozdělení – video s výpočtem.

Regrese závislé proměnné s Poissonovým rozdělením ve STATISTICA.

POZOR!!!!!! U následujících příkladů stejně jako u nominal multinomial závislé proměnné (kterou asi v praxi budete taky používat) STATISTICA bere jako porovnávací úroveň vždy tu úroveň, která je nejvyšší (číselně nebo abecedně) a v “Estimates” potom uvádí postupně od nejnižší úrovně porovnání s touto nejvyšší úrovní. Celkový model naleznete v “Summary of all effects”. Tento výsledek by se měl ještě zkontrolovat s modelem 1 a modelem 3 ANOVA (1 pro vyvážený design a 3 pro nevyvážený design) – Type 1 LR test, resp. Type 3 LR test. Lze počítat pro regresní model, kde na straně Lhs je proměnná s ordinální stupnicí:

  • Příklad z přírodních věd: Zadání stejné jako předchozí, ale velikost snůšky je měřena typem počtu vajec – nadprůměrná snůška, průměrná snůška, podprůměrná snůška – závislá proměnná je na ordinální stupnici – video.

Regrese závislé proměnné na ordinální stupnici ve STATISTICA.

. . . nebo i proměnná s bivariátní stupnicí:

  • Příklad z přírodních věd: Zadání stejné jako předchozí, ale ptám se na rozdíly, které odlišují hnízda s nadprůměrnou a podprůměrnou snůškou – závislá proměnná je tak nominální, bivariátní (podprůměrná versus nadprůměrná nebo jinak nadprůměrná ANO nebo NE) – video.

Regrese závislé proměnné na nominální (bivariátní) stupnici ve STATISTICA.