Normální rozdělení

Parametrické metody hodnocení souborů dat předpokládají, mimo jiné, normální rozložení zpracovávaných dat. Použít je můžeme jen když máme poměrová (intervalová) data a dostatečný počet měření (u nízkých počtů měření obvykle nebudeme moci potvrdit normální rozdělení). V tomto měření by pak, vulgárně řečeno, měl být nízký počet velmi nízkých i velmi vysokých měřených hodnot. Četnosti měření by od velmi nízkých a velmi vysokých měly měly postupně růst k hodnotě průměru, která je velmi blízká mediánu a modu.

Toto rozdělení je základním rozdělením dat, nazývá se Gaussovým a má zvonovitý charakter. Platí, že hustota pravděpodobnosti je u něj symetrická. K výpočtu hustoty se používá Ludolfova čísla, základu přirozeného logaritmu a parametrů – průměru a rozptylu – průměr posouvá křivku po ose x a rozptyl udává “výšku” Gaussovy křivky.

Standardizované normální rozdělení

K tomu, abychom mohli v MS Excel posoudit i testovat, jestli naše data mají nebo nemají normální rozdělení, se musíme nejprve podívat na standardizované normální rozdělení. Standardizace je postup, jímž získáváme novou proměnnou, která je odvozena z měřených hodnot původní proměnné, ale její průměr je 0 a rozptyl se směrodatnou odchylkou jsou 1. Výpočet provedeme tak, že od každé měřené hodnoty proměnné odečteme průměrnou hodnotu všech měření proměnné a tento rozdíl vydělím směrodatnou odchylku průměru měřené proměnné (detailněji v navazujícím kurzu).

Posouzení normality pomocí MS Excel

  1. Okometrické posouzení histogramu, rychlého vytvoření histogramu lze docílit pomocí nástroje v nabídce Analýza dat, viz dále.
  2. Okometrické posouzení Q-Q grafu. Tvorba grafu je na videu.
  3. Posouzení šikmosti a špičatosti rozdělení, jejichž vysvětlení je uvedeno na tabuli. Za špičatá, respektive šikmá rozdělení, lze považována taková, jejichž hodnoty jsou nižší než -2 nebo vyšší než +2.
  • Šikmost se vypočítá jako podíl třetího centrálního momentu (= třetí mocniny rozdílu všech měřených hodnot a průměru) a třetí mocniny směrodatné odchylky, normální rozdělení má hodnotu 0, rozdíl mé hodnoty od nulové lze testovat a kritické hodnoty jsou pro různý počet n tabelovány např. zde,
  • Špičatost se vypočítá jako podíl čtvrtého centrálního momentu a čtvrté mocniny rozptylu od níž odečítáme hodnotu 3, pokud je hodnoty větší než 0, pak je rozdělení našich dat špičaté, jinak je ploché, opět lze hodnotu špičatosti testovat, kritické hodnoty zde.

4. Test normality rozdělení. Pro MS Excel je nejvýhodnější použít Kolmogorov-Smirnov test, což je neparametrický test, který je obdobou chí-kvadrát testu, více v neparametrických metodách. Na tomto konkrétním místě nám jde o techniku výpočtu – video. Doma můžete použít RealStatistics s těmito moduly.

Ve Vaší praxi budete tímto rozdělením aproximovat i diskrétní data, podmínkou použití ale bude, že k dispozici budete mít opravdu mnoho měřených hodnot.

V povinné literatuře naleznete informace zde: (Lepš, 1996, s. 41-43).

Testování hypotéz

Podstata statistického testování hypotéz tkví ve filozofiích karteziánského racionalismu, pozitivismu a kritického racionalismu. Z toho poslední plyne tvrzení, že pravdivé hypotézy jsou pouze ty, které nelze falzifikovat – hypotézu nelze potvrdit, ale snažíme se o její vyvrácení, pokud ji vyvrátíme, není pravdivá, pokud ji nelze vyvrátit chováme se k ní jako k pravdivé.

Statistické hypotézy tedy vycházejí z předpokladu, že hypotézu nelze na základě dat dokázat, nicméně ji lze vyvrátit. Proto se formulují hypotézy, které se označují H0, tedy nulové hypotézy, které jsou obvykle opakem toho, co se snažíme prokázat!!!!!!!! Proto H0 obvykle zní “není rozdíl mezi skupinou X a skupinou Y”. Pokud jsme schopni na základě dat nulovou hypotézu vyvrátit, mohu ji zamítnout a mohu přijmout ji negující hypotézu (alternativní, která se obvykle značí HA nebo H1).

Způsob uvažovaní při testování hypotéz a faktorů ovlivňujících jejich výstup si ukážeme na příkladu dvouvýběrového t-testu, ke kterému se dostaneme v konkrétní podobě za chvíli.

Přijmutí nebo zamítnutí nulové hypotézy vychází z porovnání vypočtené hodnoty statistické metody (což je nějaká funkce, vzorec, do kterého vstupují měřená data) a kritické hodnoty dané metody (hodnota je tabelována = najdu ji v tabulkách, statistické software ji znají a rovnou reportují). Princip je shrnut na tabuli. Je-li hodnota vypočtená z našich dat menší než kritická, pak nulovou hypotézu nemohu zamítnout a opačně (toto neplatí vždy – výjimkou jsou např. Mann-Whitney a Wilcoxon, jejichž funkce mají obrácený charakter – tabule). Kritická hodnota je závislá na pravděpodobnosti, kterou jsem ochoten přijmout pro platnost nulové hypotézy a odpovídá hodnotě dané pravděpodobnosti pod křivkou funkce hustoty rozdělení pravděpodobnosti (celkový obsah pod křivkou je 100% a já říkám, co je nepravděpodobné – nejčastěji 5 %, 1 %, nebo 0,1 %, pravděpodobnost platnosti H0 je tedy 95%, 99%, resp. 99,9%, nejčastěji se tato hodnota uvádí jako hladina významnosti, která se značí “p” a uvádí se v desetinách, tedy 0,05, 0,01 a 0,001). Čím je tato hodnota nižší, tím podstupuji větší riziko, že zamítnu skutečnost, která je pravdou (= chyba 1. druhu), na druhou stranu tím snižuji pravděpodobnost, že bych zamítl hypotézu, která by nebyla pravdou (= chyba 2. druhu). Samozřejmě to platí i opačně.

POZOR – nestanovuji její konkrétní kritickou hodnotu, ale pravděpodobnost – od ní se odvíjí konkrétní kritická hodnota. Je to proto, že tvar křivky se mění s počty stupňů volnosti a mohu testovat oboustrannou i jednostrannou rovnost – viz dále.

Kritická hodnota statistické metody je tedy závislá na počtu stupňů volnosti. Ty se odvíjejí od počtu měření a v mnoha testech i od počtu kategorií, pro něž se test provádí. U našeho modelového testu platí, že kolem nuly je křivka vyšší a celkově je vysoká část užší při vyšších hodnotách počtu stupňů volnosti, proto pak je kritická hodnota pro stejnou hladinu významnosti v absolutní hodnotě menší číslo než u nižšího počtu stupňů volnosti – v rámcích statistiky je to logické – mám více měření, jsem blíže základnímu souboru a tedy data jsou blíže “pravdě”. Vliv počtu stupňů volnosti je znázorněn na tabuli.

Existují i případy, kdy nás nezajímá test shody dvou výběrů, ale H0 je postavena na nerovnosti (typicky mám dva výběry a vím, že jeden by měl dosahovat vyšších hodnot, pak nemá smysl testovat rovnost, ale bude nás zajímat jen jedna strana. Kritická hodnota je pak jiná při stejném počtu stupňů volnosti a hladině významnosti – vysvětlení proč je modrou barvou na tabuli.

Více informací naleznete například ve zkušební literatuře – Lepš, 1996, s. 23 – první 4 odstavce, s. 25 – Tab. 2-1.

MKV1 – požadavky

K zápočtu

Získání zápočtu je podmíněno účastí na cvičení (povoleny jsou dvě absence, platí pro PS) a ziskem bodů ze zápočtového testu (platí pro PS i KS).

Zápočtový test

Je praktický a je zaměřen na praktickou aplikaci získaných poznatků o práci s daty v MS Excel. Zadáno je vždy 5 úkolů a získání je podmíněno ziskem 3 bodů (= 60 %). Výsledky se bodují jen do dosažení 3 bodů.

  1. Poznámky k vypracování:
  2. Pracujete výhradně s daty na listu “data”.
  3. Při vypracovávání můžete používat Help MS Excel.
  4. Během vypracovávání zápočtu je zakázáno prohlížení jiných stránek než odkazů z Help MS Excel.
  5. Kritické hodnoty potřebné pro naplnění některých úkolů najdete v tabulkách předaných ve vytištěné podobě pedagogem.
  6. K absolvování zápočtu potřebujete minimálně 3 body (= 60 % z celkového počtu bodů)
  7. Na vypracování zápočtu je 60 minut.
  8. Pedagogovi odevzdáváte XLS nebo XLSX soubor pojmenovaný Vaším příjmením bez diakritiky.

Zápočtový test zahrnuje následující prvky, které je nutno umět ovládat:

Ovládání MS Excel

  • úprava formátu tabulky do podoby databáze využitelné ke statistickému zpracování (např.: dostanete tabulku a bude třeba ji převést do formátu, kde v jednotlivých sloupcích budou jednotlivé proměnné a na řádcích jednotlivé případy s tím, že v prvním řádku budou obsažena hlavičková data a v prvním sloupci kód případu)
  • výpočty v buňkách bez využití funkcí (např.: vypočítejte podíl proměnných A a B, vyjádřete tento podíl jako odchylku od průměru)
  • výpočty ukazatelů s využitím funkcí MS Excel (např.: vypočítejte rozptyl výběrového souboru)
  • vytvoření kontingenční tabulky (např.: na nový list vytvořte tabulku v níž budou zobrazeny počty proměnná B podle kategorií proměnné A)
  • vytvoření histogramu (např.: vytvořte kumulativní histogram četností proměnné A, kterou klasifikujete do 10 stejně velkých intervalů)

Statistika v MS Excel

  • t-testy
  • F-test
  • Jednofaktorová ANOVA
  • chí-kvadrát test
  • Fisherův exaktní test
  • Mann-Whiney test
  • Wilcoxonů test
  • korelační matice
  • regrese

Ke zkoušce

Ke zkoušce nebudete mít k dispozici počítač, takže budete muset především znát vzorce a jejich aplikace na příklady (na výpočty bude 5 úloh, co úloha, to maximálně 2 body):

  • aritmetický průměr
  • medián
  • kvartily
  • rozptyl základního a výběrového souboru
  • směrodatná odchylka
  • variační koeficient
  • střední chyba průměru
  • chí-kvadrát test pro jednu proměnnou a teoretické rozdělení
  • chí-kvadrát test pro dvě proměnné
  • Fisherův exaktní test
  • Mann-Whitney test
  • Wilcoxon test
  • t-test jednovýběrový
  • t-test dvouvýběrový
  • t-test párový
  • F-test
  • Tukeyko post hoc test aplikovaný na výsledky jednofaktorové ANOVA
  • Pearsonův korelační koeficient

Dále se zkouška skládá z části teoretické (10 otázek se 4 možnostmi odpovědí, právě jedna správná, body se nestrhávají), tedy teoreticky umět:

  • rozhodnout při stanovených podmínkách o vhodném použití testu
  • popsat výsledky uvedeného výsledku testu
  • základy teoretického pozadí u jednotlivých problémových okruhů (např.: co je to Yatesova korekce; čím se liší nominální a ordinální data; co je to histogram; co je to chyba 1. druhu; k čemu slouží Kruskal-Wallis ANOVA, apod.)

K absolvování zkoušky je zapotřebí získat 60% bodů.

Data

Základní kurz

Pohlaví/(délka, výška, šířka)

Podzemní voda na rešeliništích

Databáze 1 – spojení tabulek

Databáze 2 – informace o druhu k fotografii

Ostrorep – F(šířka, hmotnost)/M(biomasa)

Ostrorep – F(barva, trny)/M(přítomnost)

Tělesná teplota (ráno, v poledne, večer)

Výška rostliny/(substrát, poloha)

Rozšiřující kurz

ANOVA – druhy a prostředí
Vliv substrátu na druh
Regrese – vejce

. . . bude doplňováno v průběhu semestru

LIMDEP

Jde o software určený k analýze ekonomických dat a jeden z nejdůležitějších ekonometrických programů vůbec. Následující platí pro NLOGIT4 bežící  s LIMDEP9 na platformě Windows10.

Prostředí

Filozoficky je založen na práci v projektech – koncovka *.LPJ. Projekt je primárně prostor správy dat, se kterými pracuji – nejdůležitější jsou data pro analýzu. Vlastní statistická práce se děje buď přes průvodce, kteří jsou podobní jako ve Statistica (k nim se dá dostat přes roletky a jednotlivé karty) nebo zadáváním příkazů ručně jako v R v “klasickém” textovém editoru (viz níže) – ty lze uložit jako *.LIM. Kromě těchto dvou součástí existuje ještě třetí, která nese název “Output” a je rozdělena do dvou částí – ve vrchní je Trace, kde jsou dokumentovány veškeré provedené kroky (především odeslané příkazy a stavy systému, ke kterým tyto příkazy vedly), ve spodní je vlastní Output, kde jsou postupně zobrazovány výsledky všech provedených příkazů. Uložit jej lze taktéž s koncovkou *.LIM. To je dost nešťastné a je třeba si odlišovat názvy, co jsou soubory s příkazy a co s výstupy.

Popis prostředí na videu zde.

POZOR – vše ukládáme pomocí panelu nabídky – ta se mění podle toho, jestli jsem nakliknut v projektu, v příkazech nebo výstupech – je třeba si dávat pozor na to, co ukládám – podobně jako ve Statistica.

Vstupní data

Existuje nekonečně mnoho způsobů jak dostat data do programu. V kombinaci s Windows10 mi však “normálně” funguje jediný postup.

Před importem dat je třeba nejprve nastavit “Work Areas”, primární je nastavit počet buněk a následně řádků tak, aby se mi do toho vešla veškerá data a proměnné, které hodlám dopočítávat. Postup je zde:

Přestože data lze v LIMDEP v podstatě jakkoliv upravit, důrazně doporučuji udělat veškeré úpravy dat v MS Excel a do LIMDEP importovat finální soubor. Postup je na videu.

Pravidla pro názvy proměnných:

  • název proměnné může mít max. 8 znaků a z nich jen číslice, písmena a dolní podtržítko”_”
  • vyhrazená slova jsou na s. R3-16 nahoře

Pravidla pro data:

  • mohou nabývat pouze číselné hodnoty (s desetinnou tečkou) – nominální proměnné kódu pouze čísly
  • čísla se oddělují mezerami a/nebo čárkami
  • chybějící data musí být označeny něčím jiným než číslem – znamená to čímkoliv, nejlépe je na dané místo napsat “m”
  • POZOR – Data Editor” zobrazuje jen 1900 případů – zkutečný počet pozorování se dozvíte v jeho okně na řádku vlevo nahoře, společně s počtem řádků a počtem obsazených proměnných.

Proměnné lze grupovat do různých skupin – k tomu slouží příkaz

NAMELIST; název seznamu proměnných = názvy proměnných oddělených čárkou $ Pro tvoření názvů platí stejná pravidla jako pro názvy proměnných – namelistů může být maximálně 25 a v každém maximálně 150 proměnných
 
Výběr z případů pro analýzy lze udělat různě. První možností je přímo u daného příkazu. Zde lze použít specifikace 
 
    PŘÍKAZ ; If [sex=1] ; Lhs = proměnná1 ; Rhs = proměnná2,proměnná3, . . . $ Tady se udělá příkaz na daných proměnných jen pro ženy. 
 
Nebo pomocí specifikace 
 
    PŘÍKAZ ; For [sex] ; Lhs = proměnná1 ; Rhs = proměnná2,proměnná3, . . . $ Tady se příkaz provede zvlášť pro všechny parametry, které obsahuje proměnná sex – čili zvlášť pro ženy=1 a muže=0.
 
Globálně lze udělat výběr, na kterém se dělají všechny dále uvedené příkazy, pomocí nástroje “actual sample“, který se specifikuje pomocí příkazu 
 
    SAMPLE ; výčet případů $. Tento výčet lze doplnit nebo z něho vyjmout případy pomocí funkcí REJECT a INCLUDE, kde za středníkem následuje podmínka. 
 
Výběry jsou obvykle definovány komplikovanými podmínkami – všechny možné případy jsou v kapitole R7.4.  
 
Specifickým výběrem z  případů je náhodný výběr z případů, který je nejlepší dělat přes nabídku Project – Set Sample – Draw… Tam “replacement” znamená, že jeden případ může být vybrán vícekrát. Funkce pro textový editor se jmenuje DRAW (R7.5).
 

Transformace dat

Jak už bylo zmíněno výše – nejlepší je veškeré transformace udělat v MS Excel a do LIMDEP si naimportovat data čistě pro analýzy. LIMDEP má spoustu předdefinovaných specifikací pro příkaz CREATE, jímž se tvoří nové proměnné (= transformované původní proměnné) – seznam je na s. R5-9. Tvorba může být vysoce komplikovaná a zahrnovat podmínky typu If/Else.
 
V některých případech je vhodné použít LIMDEP místo MS Excel, k nim patří především automatické vytvoření dummy variables z jedné kategoriální proměnné se syntaxí CREATE ; Expand (název proměnné) = jména nových proměnných oddělených čárkou. Podstatné je, že kódování musí být pouze celými čísly, která začínají od 1 a v řadě nechybí číslo. Pak platí, že místo kódu 1 bude proměnná uvedená první v pořadí, místo kódu 2 bude proměnná uvedená druhá v pořadí, atd. Pokud je více kategorií než jmen nových proměnných ve specifikaci příkazu, pak se pojmenují původním názvem s pořadovým číslem kódu.
 
Dalším případem vhodného použití je generování náhodných čísel s daným rozdělením. Jejich přehled a syntaxe jsou na R5-19 a R5-20.
 
Kompletní přehled transformací je v kapitole R5.

Panel data

V některých případech je nutné data k jednomu měření (= jednomu objektu) zaznamenat na více řádků – takovýmto datům se říká “panel data”. Pokud je u každého měření stejný počet řádků, pak jsou data “ballanced”, pokud ne, pak “unballanced”. 
 
Panel data se v příkazech uvádí specifikací 
 
    ; Pds = počet řádků u “ballanced”  nebo ; Pds = název stratifikační proměnné u “unballanced”

Syntaxe

Rychlý průvodce je v kapitole R3.5, základní model vypadá takto:
 
Příkaz ; specifikace1 = její parametr ; specifikace2 = její parametr  $
  • specifikace lze psát na samostatné řádky
  • pod sebe mohu napsat několik příkazů
  • příkaz musí vždy začínat na novém řádku a končit symbolem “$”
  • ignorovány jsou nadbytečné mezery i prázdné řádky 
  • komentáře, které program rozpozná jako něco, co není příkaz nebo specifikace, a nevadí mu to při vykonání, se píší na konec řádku za “?” – nesmí za ním ale následovat konec “$”, pač ho program nenajde
  • blok komentářů (= textu ignorovaného programem) se píše tak, že na začátku řádku uvedeme “/*” a na konci “*/”, komentář může zahrnovat mnoho řádků a nesmí zasahovat žádnou svou částí na řádky, kde jsou příkazy
  • některé specifikace nemají parametry, ale pouze říkají, že model má být takový, např. ; Panel  

Drtivá většina příkazů má strukturu odvozenou on tohoto modelu:

 
PŘÍKAZ     ; Lhs = závislá proměnná
           ; Rhs = one, závislé proměnné oddělené čárkou
           ; . . . další specifikace modelu ; … $ 
 
one je konstanta, kterou Statistica počítá automaticky, ale LIMDEP nikoliv – neměla by se dávat u regresí s pevnými efekty, jinak většinou ano a automaticky je počítána jen stepwise lineární regrese.
 
Váhy se používají u metody nejmenších čtverců – místo druhé mocniny je použito násobku hodnoty reziduálu a hodnoty váhy. I u metody maximum likehood je vahou násoben člen v log likehood a jeho deriváty a nikoliv vlastní data. Během výpočtu jsou váhy automaticky přeškálovány. Specifikace je 
 
    ; Wts = jméno proměnné  
 
Všechny modely jsou dosažitelné bez znalostí syntaxe přes výše zmiňované průvodce (“Command Builder”). Problémem je, že modely mají mnoho specifikací – až 150 a ty nelze tímto průvodcem všechny postihnout, proto v průvodce nejsou, lze je však do příkazu v textovém editoru po proběhnutí výpočtu z průvodce doplnit a přes “Go” spustit analýzu znovu.  

Výstupy výpočtů

Ty nalezneme v okně “Output”, zmíněném výše, popřípadě matice jsou ukládány přímo do projektu, stejně jako skaláry a nové vypočítané proměnné – LIMDEP je ukládá automaticky. Na našem noťasu je jediný způsob jak dostat data z “Output” do MS Excel přes schránku – CTRL+C a pak CTRL+V.
Kromě toho jsou výsledky posledně aplikovaného testu v okně projektu v částech “Matrices” a “Scalars”
 
Charakteristiky polohy a variability (průměr, s.d., min, max a n) lze získat přes DSTAT ; Rhs = výčet proměnných $, zadáte-li ještě 
  • ; All $, pak dostanete info k šikmosti a špičatosti
  • ; Normality test, pak k tomu budete mít i test normality dat, což je největší výhoda tohoto software oproti Statistica
  • ; Output = 1, pak dostanete i kovariační matici
  • ; Output = 2, pak dostanete i korelační matici
  • ; Output = 3, pak dostanete obě matice
  • ; Quantiles, pak dostanete kvantily (decily)
  • a pokud za ně zadáte ještě ; Plot, pak dostanete ještě Norm-Quantile Plot
  • když místo toho zadáte ; Box Plots, pak dostanete krabicový graf
Máte-li k dispozici proměnnou, kterou určujete skupiny, pak ji lze tuto použít jako stratifikační a vše předchozí zobrazit pro v této proměnné uvedené kategorie (např. zvlášť pro samce a samice, či muže a ženy) po zadání ; Str = stratifikační proměnná $
Lze udělat i výběr ; If [proměnná <= číslo] ; Rhs = jména proměnné ; … $
 
Kromě příkazu DSTAT existuje ještě příkaz TABLE, který je mu hodně podobný a liší se jen charakterem výstupních dat, která mají podobu “klasické” tabulky – používá se tohoto příkazu především, když chci deskriptivní statistiku stratifikovaných dat:
  • místo specifikace ; Str lze použít ; Pds = číslo  $, kterým se udává počet případů, které tvoří skupinu v balanced panel data
  • nejzajímavější specifikace je pak ; FPC = počet členů základního souboru $, který Vám vrátí s.e. a 95% konfidenční intervaly upravené právě podle počtu celkové populace (což je výhodné u sociologických výzkumů) 
  • další možnou specifikací je ; Cluster = stratifikační proměnná $, která Vám dá stejný výsledek jako  ; Str plus s.e. 
 

LIMDEP

Histogram má příkaz HISTOGRAM v základní syntaxi HISTOGRAM ; Rhs = jméno proměnné $
U poměrových proměnných: 
  • dělá automaticky 40 intervalů, lze nastavit pomocí ; Int = počet skupin 
  • lze zadat levé hranice intervalů ; Limits = hranice oddělené čárkou a mezerou
  • Limits a Int lze kombinovat
U diskrétních dat:
  • lze vytvořit max 90 intervalů
  • lze omezit jejich počtem podmínkou ; If [proměnná <= číslo] ; Rhs = jméno proměnné $
Multiple histogramy: 
  • lze dělat do počtu 4 proměnných, kde se všechny zadávají jako Rhs nebo stratifikací příkazem ; Group = stratifikační proměnná (kategorií může být max 4)
  • počet proměnných a Group lze kombinovat
  • pomocí ; Choice = kategorie z daní proměnné – lze tedy z proměnné zobrazit jen některé kategorie (ty lze například i dělit dále pomocí ; Group)

Regrese

LIMDEP automaticky nezobrazuje očekávané hodnoty a reziduály, ty je nutno vyvolat pomocí specifikací:
  • ; Keep = jméno nové proměnné – uloží očekávané hodnoty do proměnné zadaného jména 
  • ; Res = jméno nové proměnné – uloží reziduály do proměnné zadaného jména
  • ; List – zobrazí obě předchozí a další informace k provedené regresi (viz R10-33 dole)
  • ; Fill – zadá-li se ; Keep = jméno proměnné , pak dopočítá očekávané hodnoty i pro pozorování, která nebyla součástí výpočtu – výpočet byl proveden na “actual sample”, který netvořily všechny případy, jde tak o vanikající nástroj pro dopočítávání predikčního hodnot (příklad s regresemi ja na s. R10-32 a R10-33) 

Turboveg

Tato stránka obsahuje informace pro práci v systému pro zadávání fytocenologických snímků.

Instalace programu

Postupujte přesně podle návodu zaslaného v e-mailu z MU.
Tedy:

  1. Stáhněte si vlastní program ze stránek MU (odkaz a hesla máte v návodu v bodu 1). Pokud Vám to nefunguje, tak si soubory stáhněte ze školního počítače – se školní IP to půjde na 100%.
  2. Stáhněte si aktualizační soubor z adresy v návodu v bodu 2.
  3. Stáhněte si aktuální verzi druhových seznamů popup.zip ze stránek MU uvedeném v bodu 3.
  4. Nainstalujte program a pak nainstalujte aktualizace. Pokud používáte AVAST, tak to může nějakou dobu trvat.
  5. Rozbalte popup.zip do adresáře TURBOWIN (nebo jiného, podle toho, jak jste si adresář s programem uložili).

Založení databáze

Svá terénní druhová data ukládáte do databáze. Na jednu DP nebo BP si udělejte jednu databázi, ať je s tím v budoucnu rozumnější práce. Pokud budete Turboveg používat i na jiné účely než je BP nebo DP, tak si pro ně založte vlastní jiné databáze.

Návod na vytvoření databáze je na externím odkazu na s. 5 dole a pokračování je na s. 6. Tady je video s ukázkou založení databáze.

Zadávání snímků

  • Zadávání hlavičkových dat – úvod, form 1: video
  • Zadávání hlavičkových dat – form 2: video
  • Zadání druhu – úvod a první druh: video
  • Zadání druhu – doplnění všech druhů ve snímku: video
  • Zadávání hlavičkových dat nového snímku – použití hlavičky z předchozího snímku: video
  • Opakování zadávání druhů na druhém příkladě: video

Na videích by mělo být vše, co potřebujete umět. Jinak program toho umí samozřejmě více – pokud budete něco dalšího potřebovat, tak postupujte podle manuálu.

Jak opravit už zadaný snímek

  • Opravy ve hlavičkových datech: video
  • Opravy chyb v druzích: video

Operace s hotovými databázemi

  • Export snímků do XLS: video
  • Zálohování souborů databáze pro přenos celé databáze: video (tento ZIP mi posíláte ke kontrole databáze)

B-VegAna

Jde o projekt určený k ukládání, editaci, analýze a vizualizaci vegetace Španělska. Složen je z několika samostatných modulů – pro Vás může být zajímavý Quercus, který je určen pro ukládání druhových záznamů společenstev, Yucca, což je jednoduchý GIS pro vizualizaci jakýchkoliv georeferencovaných dat, na a především Ginkgo, tedy vlastní software, ve kterém najdete několik balíků pro mnohorozměrnou analýzu dat. Je to freeware s jednoduchým a plus-mínus intuitivním ovládáním základních prvků.

Instalace a spouštění

Instalují se jednotlivé moduly – pokuste se držet tohoto. Úplně jednoduchá instalace není, především z důvodu, že to běží na Javě a nemá to bezpečnostní certifikát, což dělá problémy mimo jiné i při každém spouštění = POZOR, spuštění může trvat i několik minut a spouštějte soubor jako správce.

Ovládání

Základní práce s vlastním modulem Ginkgo je poměrně jednoduchá a hodně intuitivní – nástroje jsou tam, kde je čekáte, a jsou jasně pojmenovány. Pro složitější věci je nutné šáhnout do manuálu, který sice není psán nijak excelentně, ale je anglicky, takže není nutno luštit španělštinu/katalánštinu.

Podobně jako ve většině takovýchto software, je i v tomto práce organizovány v projektech. Možnosti nastavení projektu jsou v Project – Edit project options a nastavit je lze při zahájení nového projektu a nebo je lze kdykoliv přes nabídku změnit – hlavní je tady nastavit, co chcete do projektu ukládat a jak se to má s desetinnými čárkami ve Vašich číslech. Vlastní projekty obvykle zahrnují tabulky dat určené k analýze (Data Editor) a výstupy těchto analýz – textové (Analysis Manager) a grafické (Graphic Editor).

V Data Editor lze data různým způsobem upravovat (Edit), transformovat (Transform), počítat z nich popisnou statistiku (Variable Analysis), asociační matice (Object Resemblance) a kreslit některé vybrané asociační grafy (Draw).

V Graphic Editor se na samostatných kartách objevují grafy/diagramy, které jste vytvořili přes Dat Editor nebo Analysis Manager. Lze je ukládat do GIF, JPG nebo PNG a přímo tisknout (File). Vlastní grafy lze upravovat pomocí nástrojů v nabídce Options – jde hlavně o velikost grafu (Resize graphic), změnu měřítka a rozsahu os (Change axes range), vypnutí/zapnutí mřížky (Show Grid), barevnou úpravy zobrazených dat v grafu (Edit series), úpravu popisků dat (Edit Titles) a pak je tam možnost vyhlazení (Antialiasing).

Oproti Graphic Editor je Analysis Manager strukturovaný předem do typů statistiky – každá skupina metod má svou “výstupní oblast”, která je podobná Struktuře užívané v pracovních listech výstup Statistica – jen je pro každou statistiku jen jedna oblast výstupu. Taktéž se liší pás nástrojů statistiku od statistiky – každá má jinou možnost postprocessingu – v ordinačních metodách nás budou zajímat hlavně možnosti tvorby grafických výstupů.

Založení projektu, příprava a import dat

Data si připravujte MS Excel, pokud možno do finální podoby. Vždy mějte zvlášť tabulku pro druhy a zvlášť tabulku pro supplementary variables. Návod na přípravu dat je na videu.

Založení nového projektu je jednoduché a nemá žádných zádrhelů – jen se vždycky podívejte do nastavení projektu.

Import dat je ve Windows 10 ale katastrofální, protože nástroj pro import dat z ASCII formátu, alespoň na naší instalaci nefunguje = odmítá importovat data, která mají před čárkou více než jednu cifru.

Naštěstí existuje možnost špatně naimportovaná data vyexportit do ASCII a do tohohle souboru v poznámkovém bloku vkopírovat původní data a tento soubor opětovně naimportovat do Data Editor.

Návod na založení projektu a import dat je na videu.

Ovládání statistických procedur

Před každou analýzou si pozorně pročtěte manuál, jakým způsobem je ta která metoda počítána a co značí používané zkratky a označení – je to často jinak než ve Statistica nebo v CANOCO.

My si ukážeme na videu princip ovládání na příkladu PCA a následně RDA dat druhového složení rašeliníků, jako jsme to řešili ve Satistica v PCA a CCorA.

Další analýzy se ovládají podobně a konkrétní věci je třeba řešit s manuálem.

CANOCO

Canoco je komerční software vyvinutý speciálně pro analýzu širokého spektra dat vztaženích ke společenstvům. Nicméně záběr jeho využití je podstatně širší, neboť umí velkou spoustu mnohorozměrných metod – je jich několik desítek a členěny jsou do šesti hlavních skupin mnohorozměrných analýz (kap 4.3.4) a skupiny dalších doplňujících analýz. My se na tomto místě podíváme jen na základní funkcionalitu.

Informační zdroje

Kompletní praktický popis ovládání včetně statistického pozadí a příkladů je v manuálu ter Braak, C.F.J. et Šmilauer, P. (2012). Canoco. Biometrics: Wageningen et České Budějovice. Bez něj se neobejdete a dostanete jej zdarma k zakoupenému software.
Kromě níže uvedených videí můžete zkusit nějaké info najít v přehledu programu a v galerii hlavní funkcionality.

Import dat

Důrazně doporučujeme použít import z MS Excel (existují i jiné formáty pro import) a držet se následujících pravidel:

  • data musí mít databázovou strukturu – první řádek jsou jména proměnných, první sloupec je označení případu
  • u druhů používejte celých názvů oddělených mezerou – CANOCO z nich vytvoří během importu rozumné zkratky
  • mějte druhová i environmentální data v jednom XLS/XLSX souboru
  • pokud budete mít nominální proměnné kódovány nečíselnými znaky – CANOCO rovnou při importu pozná, že jde o nominální proměnnou (takže raději pohlaví kódujte F a M a ne 1 a 0) – jinak to budete muset nastavovat ručně
  • druhová a environmentální data mějte na samostatných listech, které si pojmenujte třeba “druhy” a “env”
    v době importu nesmíte mít daný soubor otevřený v MS Excel !!!!!!!!!
  • import voláte z File-Import Project-from Excel, pozor na rozbalovací políčko formátu vpravo dole – pokud máte XLS soubor, nastavte XLS, pokud máte XLSX, nastavte XLSX !!!!!!!
  • po označení souboru označte oba listy a potvrďte, že výsledný import bude zahrnovat 2 tabulky
  • prvně importujte druhová data a ponechte první dvě položky Table identity, ale zadejte Table name – obvykle to bude “druhy”; v Data sources zaškrtněte “in a single sheet” a zkontrolujte, jestli je to opravdu list, který to má být; empty cells zde budou rozhodně vždy “zeros” a This table represent “compositional data” (= data, jejichž součet za případ dává smysl – je to buď celková pokryvnost nebo abundance)
  • dejte next a zkontrolujte náhle, dejte zase next a stejně pracujte s tabulkou environmentálních dat (samozřejmě, že ji pojmenujete jinak – asi “envir” – This table represents nastavíte na “general” – co se týče empty cells, tak tady rozhodujte podle toho, co opravdu znamenají)

Návod na import dat má doc. Šmilauer na externím videu.

Základy ovládání

Ovládání bohužel není jednoduché a už vůbec ne intuitivní, a to i když uvažujeme o obrovské komplikovanosti metod. Je ale pravdou, že autoři připravili připravili Setup Wizard, který Vás provede nastavení analýzou a chtěnými výstupy – v něm CANOCO předpovídá, co chcete udělat a nastavení je tam intuitivní. Má dva módy “Quick” a “Slow” – přepínají se ikonou hůlky s pěticípou zlatou hvězdou, která je v panelu hlavní nabídky pátá zleva. Quick mode je jednoduchý a napovídá Vám, co chcete dělat a nabízí Vám jen důležité volby pro standardně zpracovávaná data.

Návod na nejjednodušší možné spuštění analýzy a nastavení analýzy v Quick mode (zde DCA) má doc. Šmilauer na externím videu.

Další analýzy spustíte pomocí tlačítka “New…” na kartě projektu v pracovní ploše programu.

Přehled hlavních výsledků analýzy na příkladu DCA a jednoduchého ovládání ordinačních diagramů má doc. Šmilauer na externím videu. Je tu i ukázka tlačítka “Help”.

Standardní spuštění analýz má doc. Šmilauer na příkladu CCA navazující na předchozí DCA na externím videu.

Nastavení ovládání

Zatímco základní ovládání je intuitivní a průvodce Vás jimi provede v horizontu vteřin, speciální nastavení jsou různě poschovávána v nastaveních.

My zde uvedeme ty, které jsou používány často.

Hlavním nástrojem pro ovládání charakteru výstupů je v hlavní nabídce “Edit” a v ní “Settings“. Popis jednotlivých možností je v manuálu v sekci 7.3.3. Zde uvedená nastavení ovlivňují všechny projekty!!!!! První nabídkou je “Canoco5 Options“:

  • V “General” doporučujeme mít vše zaškrtnuté, ale odškrtnout “Show brief version of notebooks . . .” – jen tak se dostanete ke všem výsledkům analýz, které budete potřebovat!!!!!!!!!
  • V “Data Sheets” zvažte zaškrtnutí “Fast start od the cell editor” a jednotlivé “Data tips”
  • Hodně důležitých nastavení je i v “Analyses“. Pokud se divíte, že to počítá jinak nebo to zobrazuje jinak než očekáváte, tak to může souviset právě s nastavením těchto položek.

Druhou nabídkou je “Graphing options” – je to první místo, kde se nastavují atributy grafických výstupů všech analýz ve všech projektech. Jde především a nastavení související s nastavením zobrazení os, měřítek a pod.

Čtvrtou a asi nejdůležitější nabídkou je “Visual options“. Na tomto místě si nastavujete symbologii, která bude primárně použita ve všech grafech – hlavě barevný versus černobílý formát¨a značky pro kategorie. Grafy lze upravovat i jinde, ale tohle nastavení ovlivňuje grafiku grafu jak ho primárně zobrazí výstup analýzy.

Dalším důležitým nástrojem je v hlavní nabídce “Project” druhá část nástrojů. Ve “Visibility and labeling” se nastavuje hlavně označování případů a proměnných (short vs. full). Pod ní “Classification” a “Groups” slouží ke klasifikaci a definování skupin proměnných nebo případů – budete-li chtít klasifikovat případy, pak se bez toho neobejdete. Poslední dvě nabídky slouží k určení skupin dat pro potlačení nebo znázornění v grafech.

Aby toho nebylo málo, tak hodně důležitá nastavení grafů jsou i v nabídce “Analysis“, kde najdete v dolní třetině možnost “Plot creation options“. Zde se dá nastavit které osy se mají po analýze zobrazit, jak se má provést výběr zobrazených případů, proměnných, jaké hodnoty se mají na osách vynášet atd. Všechno to lze nastavit ručně v “Graph Advisor” pro konkrétní analýzu. Tady to lze ale nastavit pro všechny grafy v projektu. Mimo jiné se tady nastavují koláčové grafy na místo symbolů.

Ve všech výše uvedených nabídkách můžete dělat změny kdykoliv – v už existujících grafech projektu se změny projeví po stlačení tlačítka “Re-create graph“.

Nový graf z analýzy můžete vytvořit přes průvodce “Advise on graphs“, který je v hlavním nástrojovém panelu pod ikonou kouzelnické hůlky na barevném políčku nebo v nabídce “Graphs“. V této nabídce si můžete z dané analýzy vytvořit další grafy. Vypadat budou podle nastavení provedených v nabídkách zmíněných výše. Zde najdete i “Atribute editor“, který je i součástí grafického nástrojového panelu – v něm můžete ručně upravovat grafiku grafu, obvykle tak že pravým tlačítkem myši označíte prvek a pak “suchlike” nebo “similar” a následně otevřete editor. POZOR – pokud dáte “Re-create graph”, tak veškeré úpravy dělané jen přes “Atribute editor” ztratíte – tyto úpravy dělejte až naposled!!!!!!!

Tabulky – pokud potřebujete šahat do dat v tabulkách, tak možné to je především přes nástroje “Data” v hlavní nabídce. Podle našich zkušeností je ale asi rozumnější, pokud s tím nepracujete pořád, opravit si data v MS Excel a znovu si je naimportovat.

Permutational Multivariate Analysis of Variance

Jde o mnohorozměrnou analýzu rozptylu založenou na matici vzdáleností s permutačním testem s pseudo-F podíly. Mohu takto testovat rozdíl mezi skupinami, kdy v každé skupině je velké množství závislých proměnných, jde tedy o metodu mnohorozměrnou. Na rozdíl od gradientových analýz je ale testován rozdíl ve zdrojích rozptylu mezi skupinami a celkem. Tento rozdíl je dán rozptyly založenými na rozdílech v matici vzdáleností. Počítá se v R příkazem “adonis” v package “vegan”.

  • Příklad z přírodních věd: Liší se druhové složení na lokalitách na rule a svoru? K dispozici mám větší počet vegetačních snímků. Ptáme se, jestli se liší složení vegetace na obou typech stanovišť.