Typy dat
Existují čtyři základní typy dat:
- poměrová – např. objem, hmotnost, vzdálenost
- intervalová – např. teplota (stejná jako poměrová, jen nula nemá “smysl”), my dále rozlišovat poměrová a intervalová data nebudeme a budeme je označovat jako data poměrová
- ordinální – není zaručena konstantní velikost intervalu jednotek, jde o nejrůznější škály, např. málo, mnoho, velmi mnoho (víme, že málo je méně než mnoho a velmi mnoho je více než mnoho, ale nevíme o kolik a také rozdíl mezi mnoho a velmi mnoho je jiný než mezi málo a mnoho)
- nominální – neměřitelné, ale sledovatelné charakteristiky – barva, typ porostu, prostý výskyt typu ANO/NE
Většina statistických metod je určena pro data poměrová, často se však používají i na data ordinální, pokud můžeme alespoň částečně tvrdit, že jejich stupnice jeví známky “poměrovosti” a získaná data mají něco na způsob normálního rozdělení (statisticky to správně není, ale při velkém počtu měření se to běžně dělá). Na druhou stranu velké množství dat, které budete sbírat, má charakter dat nominálních, často binárních (nejčastěji pohlaví, presence/absence data, přežil/nepřežil, vyklíčil/nevyklíčil). Ve společenských vědách máme většinu dat pocházejících z dotazníků typu ordinálního (respondenti v dotazníkových šetřeních jsou nejčastěji nuceni odpovídat na různých škálách), nicméně na ně často aplikujeme metody určené na data poměrová – nejčastěji na ně budete aplikovat jednofaktorovou analýzu rozptylu (ANOVA) nebo t-testy, když budete hledat rozdíly mezi kategoriemi, to není statisticky vůbec dobře, ale také se to běžně dělá.
Pro poměrová data pak platí, že mohou být spojitá, pokud lze mezi jakýmikoliv dvěma hodnotami nalézt jinou hodnotu, nebo nespojitá (diskrétní), pokud tato podmínka není splněna – nejčastěji jde o počty. Je-li počtů mnoho, pak se obvykle k diskrétním datům chováme, jako by byla spojitá.
Zadávání a uchovávání dat
Jako nejvýhodnější pro většinu získaných dat se jeví jejich uchovávání v jednoduché databázové struktuře. To znamená, že v každém sloupci je jedna proměnná a v každém řádku případ (= objekt, plocha, lokalita, respondent, jedinec, . . .). První řádek obsahuje “hlavičková data” – což jsou názvy proměnných (= jednotlivých sloupců). Skvěle se data připravují v tabulkových procesorech (buď ručně nebo přes nějaký zadávací formulář). Výhodou tabulkových procesorů je také přehlednost uložení dat umožňující vynikající platformu pro přemýšlení nad otázkou: “OK, mám data, ale co s nimi udělám?” Pokud data připravujete v MS Excel a ne v databázovém programu (což bude asi nejčastější případ), pak dodržujte následující pravidla:
- názvy proměnných uvádějte výhradně do prvního řádku (MS Excel Vás pustí kamkoliv a lidé mají tendence používat více řádků pro popis dat),
- pokud exportujete dále do software na statistické zpracování, tak pro jistotu nepoužívejte diakritiku a pokud chcete mít absolutní jistotu, že program Vaše hlavičková data přečte správně, tak držte staré pravidlo DOSu – maximálně osmipísmenné názvy,
- vysvětlivky těchto názvů si poznamenejte na další list.
Pokud pracujete v R, tak tam je filozofie zadávání dat úplně odlišná.
Poměrová a intervalová data zadáváte jako hodnoty:
- např. pH 3,75 zadáte jako 3,75
Ordinální i nominální data lze zadat jako slova, ale pro MS Excel doporučuji zadávat je pomocí číselných kódů. Nicméně pro některé programy (např. Limdep nebo Canoco) jsou v případě nominálních dat rozhodně vhodnější slova (obvykle jde o zkratky) – software je pak nebere jako poměrové proměnné a automaticky je bere jako nominální:
- Příklad ordinální stupnice: stupnici “určitě ano, spíše ano, nevím, spíše ne, určitě ne” zadám jako čísla 1 až 5 – v tomto případě pak často tyto kódy použiji jako reálné hodnoty, neboť tato data následně místopřísežně prohlásím za poměrová.
- Příklad nominálních dat: data o barvě květu “bílá, modrá, červená” kóduji jako bílá = 1, modrá = 2, červená = 3 – je jasné, že se k těmto číslům se nemohu nikdy chovat jako k hodnotám, jde jen o kódy.
Ke kódům je zapotřebí vždy někam uložit klíč – za týden už obvykle netuším, že 3 je červená, nebo že 1 je “určitě ano” a ne “určitě ne”. Obvykle tendujeme z lenosti k tomu, že si vysvětlivky ke kódům nepíšeme (do týdne ale už nevíme, co které číslo znamená) nebo si je píšeme někam na papír od svačiny (ten ještě toho večera zahodíme). Jako jediné vhodné se jeví striktně dělat všechny vysvětlivky okamžitě do stejného souboru, kde máme data, ale samozřejmě na jiný list, který si pojmenujeme “kódy” nebo “vysvětlivky”.
Z tohoto základního modelu zadávání dat se vymyká tzv. dummy kódování nominálních proměnných. To si vyžadují především mnohorozměrné metody, nicméně i některé základní statistické postupy – např. neparametrické korelace (Spearmanův korelační koeficient nemůžeme použít na nominální data zadaná postupem uvedeným výše). Zásadním rozdílem je, že v tomto kódování není daná nominální proměnná v jednom sloupci, ale v tolika sloupcích, kolik je kategorií dané proměnné (pokud je používáme v mnohorozměrných metodách jako vysvětlující proměnné, tak je to počet proměnných snížených o jedna (např. máme-li třístupňovou proměnnou “rula, žula, svor”, tak stačí informace k prvním dvěma, v nich je již i informace o třetí proměnné – pokud je u ruly a žuly nula, je jasné, že to musí být svor). Každá kategorie se pak kóduje binárně 1 = ano, 0 = ne.
Příklad bílá-modrá-červená: budou dva sloupce – bílá a modrá, pokud je daný případ bílá, pak bude ve sloupci bílá 1 a ve sloupci modrá 0; pokud je daný případ modrá, pak bude ve sloupci bílá 0 a ve sloupci modrá 1; pokud je daný případ červená, pak bude ve sloupci bílá 0 a ve sloupci modrá 0 (má-li kytka jen tři barvy a nemá-li květ bílý ani modrý, je jasné, že květ je červený)
POZNÁMKA: každý software může mít své vlastní požadavky na to, jak mají být data zadána, aby daná statistika šla vypočítat – viz např. dvouvýběrový t-test v MS Excel.
Panelová data
V některých případech je nutné data k jednomu měření (= jednomu objektu) zaznamenat na více řádků – takovýmto datům se říká “panel data”. Pokud je u každého měření stejný počet řádků, pak jsou data “ballanced”, pokud ne, pak jsou “unballanced”. To je důležité nastavit v software určených pro jejich zpracování, aby program provedl správný výpočet.