Category: statistika
Výběrové soubory
Všechny potenciální objekty výzkumu tvoří základní soubor. Nejlepší samozřejmě je provést výzkum na všech objektech. Kromě toho, že je to nejlepší, je to ale v 99,9% případů nemožné. V drtivé většině případů tedy nemůžeme zkoumat všechny potenciální objekty, ale musíme z nich vybrat nějak “reprezentativní” vzorek, který můžeme pozorovat nebo na něm dělat pokusy. Tento soubor pozorování se označuje jako výběrový soubor.
Existuje široké spektrum způsobů, jak tento výběr provést – základním způsobem je náhodný výběr, který je nejlepším řešením. Jeho podstatou je, že každý jedinec základního souboru má stejnou šanci, že bude do výběrového souboru ze základního souboru vybrán. Pak mohu totiž zjištění z výběrového souboru vztahovat k základnímu souboru. Metody použité v základním kurzu počítají s tím, že studuji základní soubor nebo výběr, který je proveden náhodně.
Provedení takového výběru je však v drtivé většině případů nerealizovatelné (oproti tomu, co tvrdí statistici) a musíme téměř vždy volit horší postupy. Problémem je, že nenáhodný výběr je nutno hodnotit komplikovanějšími statistickými postupy. My se v základním kurzu budeme obvykle tvářit, že naše výběry jsou provedeny náhodně. V praxi nezapomínejte na prostorovou a časovou distribuci zkoumaných jevů. Čas a prostor mohou zásadně ovlivnit strukturu výběru, přestože na první pohled budete postupovat náhodně. Proto, pokud pro BP a DP budete dělat výběry buď zjevně nenáhodně nebo budete mít podezření na narušení náhodnosti vlivem prostoru nebo času, tak se podívejte nejprve na příslušné pasáže z navazujícího kurzu.
PAMATUJTE!!!!! – výběr vzorku, stejně jako design experimentu, zásadně ovlivňují možnosti jeho “statistického” zpracování.
Charakteristiky souboru dat
Charakteristiky získaného souboru dat bývají podceňovány, nicméně jejich význam je nenahraditelný a u nich by mělo začít každé další zpracování. Podávají nám sumarizované a reprezentativní informace o obsáhlých a okometricky nepojmutelných závalech obvykle “nic neříkajících” čísel. Drtivou většinu z nich umí vytvořit MS Excel pomocí funkcí, nebo si můžete výpočet jednoduše udělat sami, pokud víte, jak se daná charakteristika vypočítá 🙂
Charakteristiky polohy
- aritmetický průměr (PRŮMĚR), který je definován na intervalové stupnici, se vypočítá jako podíl součtu měřených hodnot (SUMA) a počtu měření (POČET)
Vzhledem k tomu, že většina lidí má tendenci chápat oblast okolo průměru jako hodnoty nejčastěji se vyskytující v souboru dat, je vhodné průměr doplnit o další ukazatele, které nás z tohoto omylu rychle vyvedou:
- medián (MEDIAN), který je definován na ordinální stupnici, je hodnotou, která dělí data do dvou skupin o stejném počtu měření
- kvartily (QUARTIL) jsou odvozeny od mediány a jsou to hodnoty, které oddělují nikoliv poloviny měření (jako je tomu o mediánu; medián = hranice 2. kvartilu), ale čtvrtiny
- percentily (PERCENTIL) jsou taktéž odvozeninou od mediánu, ale dělí soubor na setiny pozorování
- modus (MODE), který je definován na nominální stupnici, je nejčastěji se vyskytující hodnotou; modů může být v souboru více
Nezapomínejme, že svůj význam při hodnocení mají i další základní ukazatelé, kterými jsou minimum (MIN) nebo maximum (MAX). Stejně tak nás často zajímají charakteristiky centrální tendence z výše uvedených ukazatelů, pokud máme větší počet výběrů z jednoho základního souboru. Obvykle se používá k validaci provedeného výběru, kupříkladu s cílem kalibrace. Nejčastěji se v tomto případě používá aritmetického průměru z průměrů vypočítaných z většího počtu měření z více výběrů.
MS Excel umí i některé další funkce, např:
- TRIMMEAN, který počítá průměr po odečtení stanoveného procenta maximálních a minimálních měřených hodnot, využít jej tedy můžete, když předpokládáte, že Vaše měření obsahuje odlehlé hodnoty (tedy takové, které na většinu Vámi změřených dat nesedí a předpokládáte, že vznikly souhrou náhod, chybou přístroje, Vaší nepozorností, atp. – k detailnějšímu zamyšlení o odlehlých hodnotách viz lineární regrese)
Charakteristiky variability
Charakteristiky polohy nás informují o “průměrné” charakteristice souboru dat. Získaná data však obvykle obsahují i pozorování, která jsou od hodnoty “průměru” značně odlišná. Charakteristiky vnitřní odlišnosti dat jsou tak stejně důležité. K základním patří:
- rozsah, což je oblast dat mezi minimální a maximální hodnotou
- rozptyl neboli variance je průměrná hodnota čtverce (POWER) odchylky měření od průměru a počítá se jinak pro základní soubor (VAR.P) a výběrový soubor (VAR.S)
- směrodatná odchylka je druhou odmocninou z rozptylu; jelikož se liší výpočet rozptylu pro základní a výběrový soubor, má MS Excel samostatné funkce pro výpočet směrodatné odchylky pro základní soubor (SMODCH.P) a výběrový soubor (SMODCH.VÝBĚR.S), pokud uvádíte průměr, pak byste k němu měli uvést i hodnotu jeho směrodatné odchylky, neboť ta je v jednotkách průměru
- variační koeficient je podíl směrodatné odchylky a hodnoty průměru a používá se v případě, když chcete porovnat variabilitu dvou proměnných, které mají různé jednotky
Oblíbenou grafickou vizualizací charakteristik polohy a variability je často krabicový graf (box-plot). Podle typu dat zobrazuje různé z výše uvedených hodnot. Ani jednu variantu však MS Excel jednoduše sám “vyrobit” neumí a je nutné si data sama/sám připravit. Nejjednodušší případ box-plotu, který zobrazuje bodem hodnotu mediánu, “krabicí” 1. a 3. kvartil a “vousy” minimální a maximální hodnotu. V tomto případě vycházíme ze sloupcového grafu, kde boxy jsou de facto částí sloupce podle 1. 2. a 3. kvartilu a “vousy” jsou konstruovány jako chybové úsečky. Z tohoto je zřejmé, že pro konstrukci takového box-plotu potřebujeme umět z dat vypočítat charakteristiky polohy a umět pracovat s grafy MS Excel. Výpočet potřebných údajů je na videu, stejně jako tvorba vlastního box-plotu na druhé části videa.
Výpočet potřebných údajů pro sestavení box-plotu (nějak mi tam ujel medián u veg3, ale to pro naše potřeby nevadí).
Vytvoření box-plotu ze sloupcového skládaného grafu.
Doma si můžete instalovat doplněk Real Statistics, kde je na tento základní případ nástroj BoxPlot – schopen je pracovat i se zápornými daty. “Pravé” box-ploty mohou označovat různé hodnoty (tabule) – k tomu ale budete muset využít jiný software než je MS Excel.
Přehled základnách typů box-plotů.
Charakteristiky četností
Četnost znamená počet výskytu daného jevu (např. samců), hodnoty (např. kategorie “velmi mnoho” nebo teploty 0°C) nebo intervalu hodnot (např. pH 3,5-4) v souboru dat. Četnosti mohou být vyjádřeny dvěma způsoby: (1) absolutně = počet hodnot v každé kategorii (výstupem takovéhoto zpracování je obvykle tabulka), (2) relativně = počet hodnot v každé kategorii je vydělen celkovým počtem měření, tedy celkový součet je 1 nebo 100, pokud každý podíl vynásobíte stem – jde o procenta (těchto výstupů se volí pro konstrukci poměrových grafů – koláčové, skládané sloupcové nebo pruhové).
Základním nástrojem pro četnostní zpracování nominálních, ordinálních a dopředu kategorizovaných intervalových či poměrových dat je kontingenční tabulka. Ty mohou být jednorozměrné = pro jednu proměnnou (tabule) nebo dvou a více rozměrných = pro dvě nebo více proměnných (tabule) – v základním kurzu se naučíme hodnotit jen dvourozměrné tabulky.
Princip tvorby dvourozměrné kontingenční tabulky.
Vícerozměrná kontingenční tabulka.
Nejčastěji používáme dvě proměnné a rozdíly v nich pak testujeme pomocí testu dobré shody. Video základní práce s nominálními a ordinálními daty.
Práce s nominálními a ordinálními daty v kontingenční tabulce.
Pokud chceme stejným způsobem zpracovat intervalová a poměrová data, je z nich třeba nejprve vytvořit kategorie – viz tabule.
Kategorizace poměrových proměnných.
Možností jak toho v MS Excel dosáhnout je více. Nejjednodušeji ale zároveň nejpracnější je ruční nahrazování (takto to dělat nebudeme). Nejrychlejší postup je přes funkci ČETNOSTI (stačí si do volného sloupce stanovit hranice intervalů a MS Excel Vám vyhodí počty měření v jednotlivých intervalech). Druhou, komplikovanější možností je použití funkce COUNTIF, což je asi nejgeniálnější funkce MS Excel, která toho umí strašně mnoho a budete-li v budoucny někdy řešit komplikovanější úlohy, pak se bez ní neobejdete, nicméně zde by to znamenalo počítat četnosti postupně pro jednotlivé kategorie (funkce ČETNOSTI je v tomto případě elegantnější). Postup je zdlouhavý a my jej dělat nebudeme, pokud se to chcete naučit tak tady je externí videonávod a to, co potřebujete vědět, je ve stopáži 27:50 až 39:20. Obě výše uvedené funkce Vám však vrátí jednorozměrnou kontingenční tabulku, což bude často problém pro Vaše další výpočty – Vy často budete chtít přiřadit kategorii ke konkrétnímu měření. Toho lze dosáhnout funkcí, kterou už známe z databází, a to SVYHLEDAT, kde jako typ zadáte hodnotu 1 (jinak je postup stejný jako u spojování tabulek, POZOR!!! zadává se spodní hranice intervalu) – video.
Použití funkce SVYHLEDAT pro vytvoření kategorií.
Kontingenční tabulka má pro poměrová data ještě jednu výhodu. Jste pomocí ní schopni získávat velmi rychle charakteristiky polohy i variability pro Vámi zvolené kategorie – model využití je na videu.
Kategorizované charakteristiky polohy a variability v kontingenční tabulce.
Druhým nástrojem pro posouzení četností je histogram. Jedná se o graf četností. Obvykle na ose x jsou kategorie a na osu y jsou vynášeny hodnoty četností. Stejně jako u kontingenčních tabulek, tyto četnosti mohou být vyjádřeny absolutně nebo relativní stupnici. Lze do jednoho histogramu vynést více proměnných (měřených na stejné stupnici a kategorizovaných do stejných intervalů či kategorií). Samozřejmě, že když se jedná o ordinální nebo kategorizovaná poměrová data, tak na ose x jsou kategorie řazeny obvykle vzestupně. Vytvoření histogramu v MS Excel není v základu možné. Lze k jeho vytvoření použít výše zmíněné funkcí četnosti COUNTIF. Ale optimální je využití kategorizace provedené přes SVYHLEDAT. Užití si ukažme na pokračování příkladu ke kategorizaci poměrové proměnné – video.
Vytvoření histogramu v MS Excel.
Další možností je využití vytvoření histogramu přes kartu Vložit – histogram nebo nástroje Histogram na kartě Analýza dat, ale k ní se ale dostaneme až časem.
Dalším způsobem vyjádření četností histogramem je tzv. kumulativní histogram. V něm jsou postupně načítány hodnoty předchozích k následujícím kategoriím. Pokračujme v předchozím příkladu na videu. Kumulativní relativní četnosti budeme potřebovat při výpočtech nutných k posouzení normality dat.
Vytvoření histogramu kumulativních četností.
Histogramů se také často používá, když chceme rychle okometricky posoudit, jaké rozložení naše hodnoty mají. K tomu se dostaneme u náhodných veličin.
Databáze
Přestože MS Excel není určen k tvorbě, uchovávání a zpřístupnění databázových dat, je jako program pro jednoduché databáze zcela běžně používaný. Pro Vaše BP a DP budete MS Excel asi používat nejčastěji. Pokud máte jednu skupinu dat, je obvykle účelné uchovat data na jediném listu = v jediné tabulce.
Často však máme k dispozici různé skupiny dat. Pak je vhodné mít uloženy informace v různých tabulkách (v MS Excel každá tabulka na svém listu) – nejjednodušší variantou jsou tzv. relační databáze. Jejich podstatou je možnost propojení různých tabulek přes tzv. klíče = jednoznačné identifikátory záznamu – přes ně jsme schopni propojovat jednotlivé tabulky databáze a tvořit výstupové tabulky určené ke statistické analýze. Podstatné u těchto klíčů (ale i všech záznamů v jednotlivých sloupcích) je, aby v každém klíči (a sloupci) byly pouze záznamy, které splňují podmínku, že mají pouze požadovaný typ dat a konkrétní hodnoty jsou z nějaké přípustné množiny dat. Tato podmínka je právě problematická v MS Excel, neboť ten Vám umožní napsat cokoliv kamkoliv (u databázových programů si nejprve volíte charakteristiky proměnné a pak je Vám umožněno vložit jen konkrétní hodnoty), proto je třeba dbát na přesnost tvorby záznamů – každá přebytečná mezera má za následek chybná přiřazení (obvykle nepřiřazení) v relacích. Proto jsme v typech dat upozorňovali na problematiku zadávání dat (možností ,jak se chyb vyvarovat, jsou formuláře pro zadávání dat). U relačních databází pak tedy platí, že lze na základě klíčů z různých tabulek přiřazovat do různých tabulek nejrůznější údaje.
My této části věnované práci s databází využijeme především pro poznání práce s textovými funkcemi MS Excel. Nejdůležitější nástroje pro jejich ovládání si ukážeme na řešení konkrétního projektu.
Příklad: Máme dvě databáze – databázi pěstovaných rostlin a databázi informací k rostlinným druhům. Za úkol máme vytvořit ke každému pěstovanému exempláři cedulku, kde bude identifikační kód daného exempláře a základní informace o systematickém zařazení.
- Hlavním úkolem je jistě spojit databáze z obou listů do jedné, nicméně musíme mít klíč, na základě kterého můžeme obě databáze propojit. Tím bude kód, který je už nějak obsažen v obou databázích. Problémem je, že si ho budeme muset vyrobit – kódem je řetězec složený ze čtyř písmen rodového jména a čtyř písmen druhového přívlastku. K tomu budeme potřebovat textové funkce MS Excel. K hlavním patří funkce, které vrátí nějakou nadefinovanou část s existujícího textu – k tomu slouží funkce ZLEVA, vracející část textu z levé strany, analogií je funkce ZPRAVA. Pro výběr obecné části z textu slouží funkce ČÁST. Pro spojení textů do jediného slouží CONTECANATE. Často používaným nástrojem (ne funkcí) je rozdělení textu do sloupců. Návod jak řešit nastolený problém je na videu.
Práce s textovými funkcemi v MS Excel
- Relace se MS Excel tvoří pomocí funkce SVYHLEDAT, typ musíte nastavit “0” a vyhledává se Vám přesně zadaná hodnota. Ukázka propojení tabulek je pro náš příklad na videu.
Použití funkce SVYHLEDAT v MS Excel
- Úkol na vytvoření štítku je vlastně úkolem na komplikovanější příklad vyhledávání a zobrazování dat. K tomu nám slouží nástroje v části Ovládací prvky na kartě Vývojář. Pomocí použitého nástroje nám ovšem pouze vrátí pořadí řádku, na kterém se nachází vybraný prvek. Abychom mohli zobrazit cokoliv, co na daném řádku je, musíme použít funkci INDEX. Ukázka použití pro naše data je na videu.
Použití formulářů pro zobrazení dat v MS Excel
Typy dat
Existují čtyři základní typy dat:
- poměrová – např. objem, hmotnost, vzdálenost
- intervalová – např. teplota (stejná jako poměrová, jen nula nemá “smysl”), my dále rozlišovat poměrová a intervalová data nebudeme a budeme je označovat jako data poměrová
- ordinální – není zaručena konstantní velikost intervalu jednotek, jde o nejrůznější škály, např. málo, mnoho, velmi mnoho (víme, že málo je méně než mnoho a velmi mnoho je více než mnoho, ale nevíme o kolik a také rozdíl mezi mnoho a velmi mnoho je jiný než mezi málo a mnoho)
- nominální – neměřitelné, ale sledovatelné charakteristiky – barva, typ porostu, prostý výskyt typu ANO/NE
Většina statistických metod je určena pro data poměrová, často se však používají i na data ordinální, pokud můžeme alespoň částečně tvrdit, že jejich stupnice jeví známky “poměrovosti” a získaná data mají něco na způsob normálního rozdělení (statisticky to správně není, ale při velkém počtu měření se to běžně dělá). Na druhou stranu velké množství dat, které budete sbírat, má charakter dat nominálních, často binárních (nejčastěji pohlaví, presence/absence data, přežil/nepřežil, vyklíčil/nevyklíčil). Ve společenských vědách máme většinu dat pocházejících z dotazníků typu ordinálního (respondenti v dotazníkových šetřeních jsou nejčastěji nuceni odpovídat na různých škálách), nicméně na ně často aplikujeme metody určené na data poměrová – nejčastěji na ně budete aplikovat jednofaktorovou analýzu rozptylu (ANOVA) nebo t-testy, když budete hledat rozdíly mezi kategoriemi, to není statisticky vůbec dobře, ale také se to běžně dělá.
Pro poměrová data pak platí, že mohou být spojitá, pokud lze mezi jakýmikoliv dvěma hodnotami nalézt jinou hodnotu, nebo nespojitá (diskrétní), pokud tato podmínka není splněna – nejčastěji jde o počty. Je-li počtů mnoho, pak se obvykle k diskrétním datům chováme, jako by byla spojitá.
Zadávání a uchovávání dat
Jako nejvýhodnější pro většinu získaných dat se jeví jejich uchovávání v jednoduché databázové struktuře. To znamená, že v každém sloupci je jedna proměnná a v každém řádku případ (= objekt, plocha, lokalita, respondent, jedinec, . . .). První řádek obsahuje “hlavičková data” – což jsou názvy proměnných (= jednotlivých sloupců). Skvěle se data připravují v tabulkových procesorech (buď ručně nebo přes nějaký zadávací formulář). Výhodou tabulkových procesorů je také přehlednost uložení dat umožňující vynikající platformu pro přemýšlení nad otázkou: “OK, mám data, ale co s nimi udělám?” Pokud data připravujete v MS Excel a ne v databázovém programu (což bude asi nejčastější případ), pak dodržujte následující pravidla:
- názvy proměnných uvádějte výhradně do prvního řádku (MS Excel Vás pustí kamkoliv a lidé mají tendence používat více řádků pro popis dat),
- pokud exportujete dále do software na statistické zpracování, tak pro jistotu nepoužívejte diakritiku a pokud chcete mít absolutní jistotu, že program Vaše hlavičková data přečte správně, tak držte staré pravidlo DOSu – maximálně osmipísmenné názvy,
- vysvětlivky těchto názvů si poznamenejte na další list.
Pokud pracujete v R, tak tam je filozofie zadávání dat úplně odlišná.
Poměrová a intervalová data zadáváte jako hodnoty:
- např. pH 3,75 zadáte jako 3,75
Ordinální i nominální data lze zadat jako slova, ale pro MS Excel doporučuji zadávat je pomocí číselných kódů. Nicméně pro některé programy (např. Limdep nebo Canoco) jsou v případě nominálních dat rozhodně vhodnější slova (obvykle jde o zkratky) – software je pak nebere jako poměrové proměnné a automaticky je bere jako nominální:
- Příklad ordinální stupnice: stupnici “určitě ano, spíše ano, nevím, spíše ne, určitě ne” zadám jako čísla 1 až 5 – v tomto případě pak často tyto kódy použiji jako reálné hodnoty, neboť tato data následně místopřísežně prohlásím za poměrová.
- Příklad nominálních dat: data o barvě květu “bílá, modrá, červená” kóduji jako bílá = 1, modrá = 2, červená = 3 – je jasné, že se k těmto číslům se nemohu nikdy chovat jako k hodnotám, jde jen o kódy.
Ke kódům je zapotřebí vždy někam uložit klíč – za týden už obvykle netuším, že 3 je červená, nebo že 1 je “určitě ano” a ne “určitě ne”. Obvykle tendujeme z lenosti k tomu, že si vysvětlivky ke kódům nepíšeme (do týdne ale už nevíme, co které číslo znamená) nebo si je píšeme někam na papír od svačiny (ten ještě toho večera zahodíme). Jako jediné vhodné se jeví striktně dělat všechny vysvětlivky okamžitě do stejného souboru, kde máme data, ale samozřejmě na jiný list, který si pojmenujeme “kódy” nebo “vysvětlivky”.
Z tohoto základního modelu zadávání dat se vymyká tzv. dummy kódování nominálních proměnných. To si vyžadují především mnohorozměrné metody, nicméně i některé základní statistické postupy – např. neparametrické korelace (Spearmanův korelační koeficient nemůžeme použít na nominální data zadaná postupem uvedeným výše). Zásadním rozdílem je, že v tomto kódování není daná nominální proměnná v jednom sloupci, ale v tolika sloupcích, kolik je kategorií dané proměnné (pokud je používáme v mnohorozměrných metodách jako vysvětlující proměnné, tak je to počet proměnných snížených o jedna (např. máme-li třístupňovou proměnnou “rula, žula, svor”, tak stačí informace k prvním dvěma, v nich je již i informace o třetí proměnné – pokud je u ruly a žuly nula, je jasné, že to musí být svor). Každá kategorie se pak kóduje binárně 1 = ano, 0 = ne.
Příklad bílá-modrá-červená: budou dva sloupce – bílá a modrá, pokud je daný případ bílá, pak bude ve sloupci bílá 1 a ve sloupci modrá 0; pokud je daný případ modrá, pak bude ve sloupci bílá 0 a ve sloupci modrá 1; pokud je daný případ červená, pak bude ve sloupci bílá 0 a ve sloupci modrá 0 (má-li kytka jen tři barvy a nemá-li květ bílý ani modrý, je jasné, že květ je červený)
POZNÁMKA: každý software může mít své vlastní požadavky na to, jak mají být data zadána, aby daná statistika šla vypočítat – viz např. dvouvýběrový t-test v MS Excel.
Panelová data
V některých případech je nutné data k jednomu měření (= jednomu objektu) zaznamenat na více řádků – takovýmto datům se říká “panel data”. Pokud je u každého měření stejný počet řádků, pak jsou data “ballanced”, pokud ne, pak jsou “unballanced”. To je důležité nastavit v software určených pro jejich zpracování, aby program provedl správný výpočet.