Rozšiřující statistika

Informace k zápočtu a zkoušce naleznete zde. Veškerá povinná literatura je volně dostupná v češtině v elektronické podobě s možností tisku (věřte nám, dalo to práci, abychom něco sehnali, co má hlavu a patu, není to striktně matematické nebo statisticko-matematické a bylo to česky):

Bohužel nemáme jednu publikaci, ale hned několik, ze kterých po Vás musíme chtít vybrané kapitoly – tento web vám slouží k orientaci v jednotlivých publikacích.

Kurz je v kombinovaném studiu obvykle členěn do tří bloků:
  • V prvním bloku si zopakujeme základy statistického uvažování a naučíme se pracovat v software Statistica.
  • Ve druhém bloku bychom se podívali na “advanced” ANOVA a regresní modely,
  • ve třetím na mnohorozměrné metody hodnocení.

ÚVODNÍ KAPITOLY

1. Statistické uvažování

Zopakujeme si rámce, ve kterých se pohybujeme – datanáhodné veličinycharakteristiky souboru dat.

Naučíme se ovládat prostředí Statistica:

2. Testování hypotéz

Zopakujeme si problematiku testování hypotéz a podíváme se na základní parametrické metody a neparametrické metody (včetně případů pro více výběrů) řešené pomocí Statistica.

3a. Výzkumné plány

Podíváme se na složitější výzkumné plány, než byl ten, který jsme používali v základním kurzu. Přehled naleznete v prezentaci, kde jsou odkazy na povinnou literaturu ke zkoušce (nebudu po Vás chtít jen odkazy Ferjenčík, 2000 a Quin a Keough, 2003).

3b. Kejkle s daty

Transformace a metody “standardizace”

Transformace dat se provádí relativně velmi často, a to především ve dvou případech – buď potřebujeme “zlineárnit” závislosti proměnných (např. u lineární regrese) nebo častěji přiblížit rozdělení získaných dat normálnímu rozdělení (abychom mohli použít statistiky, které předpokládají normalitu v datech – např. u ANOVA). Přehled tří nejčastěji používaných transformací uvádí Lepš (1996, s. 99-102 a 113-116). Transformace dat ve STATISTICA je na videu a je podobná jako v práce v MS Excel.

Dalšími úpravami dat, které některé statistické metody vyžadují jsou centrování, standardizace a normalizace (Haruštiaková et al., 2012, kap. 2.2.2 a 2.2.3).

Například u mnohonásobné lineární regrese je jedno, jestli jsou jednotlivé vysvětlující proměnné na různých škálách (pH nabývá jiných absolutních hodnot než teplota nebo koncentrace iontů), nicméně u mnohorozměrných metod to “jedno” není (především to platí pro shlukovou analýzu) a jednotlivé proměnné je třeba převést na jednotkovou stupnici, tedy zrelativnit vlastní měřená data. Nejvýhodnějším postupem je tzv. standardizace směrodatnou odchylkou (Z-skóre), kdy od každé měřené hodnoty proměnné odečtu průměrnou hodnotu všech měření a tento rozdíl vydělím směrodatnou odchylku tohoto průměru. Ve výsledku pak získám proměnnou jejíž průměr je 0 a směrodatná odchylka 1. Pokud to provedu se všemi vysvětlujícími proměnnými, pak jsem je převedl na stejné měřítko. MS Excel na ni má samostatnou funkci – standardize. Standardizací ale existuje velké množství.

V některých případech však potřebuji, aby byly převedeny měřené proměnná na jednotné měřítko, ale výsledné hodnoty zůstaly kladné. Nejčastěji se tak děje pomocí lineární normalizace, jejímž výsledkem jsou hodnoty od 0 do 1. Používá se různých postupů – nejjednodušším je min-max normalizace označovaná i jako standardizace rozpětím:

xi’ = (xi – min(x1, . . . xn))/(max(x1, . . . xn) – min(x1, . . . xn))

Matematicky nejjednodušším převedením na relativní měřítko je centrování, které zahrnuje pouze odečtení průměru proměnné od konkrétní měřené hodnoty.

Komplikované je rozhodování o transformacích v mnohorozměrných analýzách, kdy vysvětlovanou proměnnou není jedna měřená charakteristika, ale druhové složení (Lepš et Šmialuer, 2000, kapitola 1.11.). POZOR – pokud v botanice používáte Braun-Blanquetovu stupnici, kterou kódujete 1 až 7 nebo 9, tak stupnice už v podstatě logaritmická je.

Chybějící data

Je obvyklé, že v měřeních máme nějaká data chybějící – prostě z nějakých příčin nebylo možné měření uskutečnit – respondent odmítl odpovědět, louže pro odebírání vody vyschla, zapomněl jsem doma metr. Nemělo by se to stát, ale co když se to stane? Možná řešení uvádí v přehledu Haruštiaková et al. (2012, kap. 2.2.1)

VLASTNÍ ROZŠIŘUJÍCÍ METODY

Pozornost budeme věnovat dvěma skupinám metod.

Typy lineárních modelů

Mnohorozměrné metody

Základy: Podobnosti, nepodobnosti a vzdálenosti

Vstupním souborem pro vícerozměrné statistické metody jsou tabulky charakteru databáze, kdy na řádcích jsou jednotlivé případy (= objekty, jejich počet je značen n) a ve sloupcích jsou jednotlivé parametry (jejich počet je značen p). K dispozici je tedy n x p matice objektů a parametrů. Z ní je počítána asociační matice (= matice vztahů), kde v řádcích i sloupcích jsou jednotlivé parametry a v matici jsou na základě hodnot objektů počítané asociační koeficienty (Haruštiaková et al., 2012 kap. 4).

Asociační koeficienty proměnných

Základní asociační koeficienty proměnných jsme poznali v základní statistice – kovarianci, Pearsonův korelační koeficient, Spearmanův korelační koeficient.

Asociační koeficienty vzdálenosti objektů

Ty patří v mnohorozměrných analýzách k nejvýznamnějším. Jejich podstatou je skutečnost, že koeficient má maximální hodnotu dvou objektů, které jsou nejvíce odlišné a objekty identické mají vzdálenost nulovou. Podmínky uvádí Haruštiaková et al. (2012) na s. 16, zde je i jasný popis nejčastěji používané metriky vzdálenosti – Euklidovská metrika – na příkladu dvou proměnných. Její použití předpokládá standardizovaná vstupní data. Vzhledem k tomu, že je základem shlukových analýz, je jasný požadavek na standardizaci dat před využitím shlukové analýzy. Dále jsou uvedeny další metriky bojující s nedostatky euklidovské vzdálenosti.

Asociační koeficienty podobnosti objektů

Nejsou metrické = neplatí pro ně zásady uvedené na s. 16 (Haruštiaková et al., 2012) a nelze je přímo umístit v metrickém prostoru – nicméně je lze převést na vzdálenosti. Jejich základem je posouzení “shody” v hodnotách dosažených u jednotlivých proměnných (u většiny koeficientů platí, že je míra podobnosti je vlastně vyjádřením relativní shody). Koeficienty mohou být symetrické nebo nesymetrické – nesymetrické jsou založeny na předpokladu, že některé kombinace dosažených hodnot mají jinou váhu než ostatní – typicky duplicitní nulové hodnoty u srovnávaných objektů nejsou informací o podobnosti. Koeficienty byly vyvinuty primárně pro binární proměnné a následně byly určeny i jejich kvantitativní varianty – tabulky v kapitole 4 (Haruštiaková et al., 2012) jsou snad jasné.

Software na řešení mnohorozměrných metod

  • Vzhledem k tomu, že škola má koupeny licence pro Dell Statistica, tak budeme používat ji.
  • Nejkomplexnějším programem na jejich řešení je CANOCO, to na fakultě pro studenty bohužel nemáme, a tak ho řešit nebudeme. Pokud o něj budete mít zájem, tak v ČR pořádá jejich školení PřF JU v Č.B.
  • Freewarem pro hodnocení těchto typů úloh je B-VegAna.
  • Divizivní hierarchické shlukování děláme nejčastěji metodou TWINSPAN, kterou z freeware umí JUICE.
  • Freewarem, kde lze řešit všechny níže nastolené problémy je R, konkrétně je k tomu určen package “vegan“, jehož tutoriál je na externím odkaze.

Typy mnohorozměrných metod