Typy dat

Typy dat

K pochopení by mělo stačit přečtení Lepš 1996, s. 5-6.

Existují čtyři základní typy dat:

  • poměrová – např. objem, hmotnost, vzdálenost
  • intervalová – např. teplota (stejná jako poměrová, jen nula nemá “smysl”), my dále rozlišovat poměrová a intervalová data nebudeme a budeme je označovat jako data poměrová
  • ordinální – není zaručena konstantní velikost intervalu jednotek, jde o nejrůznější škály, např. málo, mnoho, velmi mnoho
  • nominální – neměřitelné, ale sledovatelné charakteristiky – barva, typ porostu, prostý výskyt typu ANO/NE

Většina statistických metod je určena pro data poměrová, často se však používají i na data ordinální, pokud můžeme alespoň částečně tvrdit, že jejich stupnice jeví známky “poměrovosti” a získaná data mají něco na způsob normálního rozdělení. Na druhou stranu velké množství dat má charakter dat nominálních, často binárních. Ve společenských vědách máme většinu dat ordinálního charakteru (respondenti v dotazníkových šetřeních jsou nuceni odpovídat na škálách), nicméně na ně často aplikujeme metody určené na data poměrová – nejčastěji na ně budete aplikovat jednofaktorovou analýzu rozptylu (ANOVA), což není statisticky vůbec dobře.

Poměrová data pak mohou být spojitá, pokud lze mezi jakýmikoliv dvěma hodnotami nalézt jinou hodnotu, nebo nespojitá (diskrétní), pokud tato podmínka není splněna – nejčastěji jde o počty. Je-li počtů mnoho, pak se obvykle k diskrétním datům chováme, jako by byla spojitá.

 

Zadávání a uchovávání dat

Jako nejvýhodnější pro většinu získaných dat se jeví jejich uchovávání v databázové struktuře. To znamená, že v každém sloupci je jedna proměnná a v každém řádku případ. První řádek obsahuje tzv. hlavičková data – což jsou názvy proměnných (= jednotlivých sloupců). Pokud data připravujete v MS Excel a ne v databázovém programu (což bude asi nejčastější případ), pak dodržujte následující pravidla:

  • názvy proměnných uvádějte výhradně do prvního řádku (MS Excel Vás pustí kamkoliv a lidé mají tendence používat více řádků pro popis dat)
  • pokud exportujete dále do software na statistické zpracování, tak pro jistotu nepoužívejte diakritiku a pokud chcete mít absolutní jistotu, že program Vaše hlavičková data přečte správně, tak držte staré pravidlo DOSu – maximálně osmipísmenné názvy)
  • vysvětlivky těchto názvů si poznamenejte na další list

Poměrová a intervalová data zadáváte jako hodnoty:
např. pH 3,75 zadáte jako 3,75

Ordinální i nominální data lze zadat jako slova, ale pro MS Excel doporučuji zadávat je pomocí kódů (například pro Limdep nebo Canoco jsou ale vhodnější slova – software je pak nebere jako poměrové proměnné):

  • Příklad ordinální stupnice: stupnici určitě ano, spíše ano, nevím, spíše ne, určitě ne zadám jako čísla 1 až 5 – v tomto případě pak často tyto kódy použiji jako reálné hodnoty, neboť tato data následně místopřísežně prohlásím za poměrová
  • Příklad nominálních dat: data o barvě květu bílá, modrá, červená kóduji jako bílá = 1, modrá = 2, červená = 3 – je jasné, že se k těmto číslům nemohu nikdy chovat jako k hodnotám, jde jen o kódy

Ke kódům je zapotřebí vždy někam uložit klíč – za týden už obvykle netuším, že 3 je červená, nebo že 1 je “určitě ano” a ne “určitě ne”. Obvykle tendujeme z lenosti k tomu, že si vysvětlivky ke kódům nepíšeme (do týdne ale už nevíme, co které číslo znamená) nebo si je píšeme někam na papír od svačiny (ten ještě toho večera zahodíme). Jako jediné vhodné se jeví striktně dělat všechny vysvětlivky okamžitě do stejného souboru, kde máme data, ale samozřejmě na jiný list, který si pojmenujeme “kódy” nebo “vysvětlivky”.

Z tohoto základního modelu zadávání dat se vymyká tzv. dummy kódování nominálních proměnných. To si vyžadují především mnohorozměrné metody, nicméně i některé základní statistické postupy – např. neparametrické korelace (Spearmanův korelační koeficient nemůžeme použít na nominální data zadaná postupem uvedeným výše). Zásadním rozdílem je, že v tomto kódování není daná nominální proměnná v jednom sloupci, ale v tolika sloupcích, kolik je kategorií dané proměnné mínus 1. Každá kategorie se pak kóduje binárně 1 = ano, 0 = ne.

Příklad bílá-modrá-červená: budou dva sloupce – bílá a modrá, pokud je daný případ bílá, pak bude ve sloupci bílá 1 a ve sloupci modrá 0; pokud je daný případ modrá, pak bude ve sloupci bílá 0 a ve sloupci modrá 1; pokud je daný případ červená, pak bude ve sloupci bílá 0 a ve sloupci modrá 0 (má-li kytka jen tři barvy a nemá-li květ bílý ani modrý, je jasné, že květ je červený)

POZNÁMKA: každý software může mít své vlastní požadavky na to, jak mají být data zadána, aby daná statistika šla vypočítat – viz např. dvouvýběrový t-test v MS Excel

 

Panelová data

V některých případech je nutné data k jednomu měření (= jednomu objektu) zaznamenat na více řádků – takovýmto datům se říká “panel data”. Pokud je u každého měření stejný počet řádků, pak jsou data “ballanced”, pokud ne, pak “unballanced”.