Shluková analýza

Podstatou je rozdělení objektů na základě dosažených hodnot u jednotlivých proměnných do skupin (Haruštiaková et al., 2012, kap. 5). Tyto skupiny se označují jako shluky a odtud je odvozen název shluková analýza. Rozdělením objektů do skupin se reálně sníží počet proměnných na jedinou – příslušnost objektu ke skupině. Používáme ji v případech, kdy víme, že pozorované objekty reálně náleží do nějaké třídy, kde platí, že objekty v třídě si jsou vzájemně bližší, než objekty z různých tříd, nicméně je lze použít i pro data připomínající “homogenní chaos”, v něm se obvykle snažíme najít nějaký “systém”.

Přístupy ve shlukové analýze jsou v zásadě dva – hierarchické a nehierarchické. Výsledkem hierarchického shlukování je systém skupin a podskupin – výsledkem jsou grafické stromy = dendrogramy. Aglomerativním postupem se postupně spojují nejpodobnější objekty až jsou všechny spojeny do jediné skupiny zahrnující všechny objekty. Divizivním postupem se naopak celý soubor objektů dělí v postupných krocích na části (nejčastěji dvě), a to podle vzdálenosti. Nehierarchické shlukování pak dělí objekty do badatelem určeného počtu shluků stejného řádu.

Hierarchické aglomerativní shlukování

Její podstatou je výpočet podobnosti/vzdálenosti mezi všemi dvojicemi objektů, tedy posouzení asociační matice. V postupných krocích se pak posuzuje podobnost/vzdálenost objektů, objektu a shluku a dvou shluků. Metoda posouzení vzdálenosti mezi shluky je základem pro požadovaný výsledek. Rozdíly v použití jednotlivých metod jsou nádherně popsány na s. 31-35 (Haruštiaková et al., 2012). Další významu volbou je výběr míry vzdálenosti – nejčastěji se používá euklidovská vzdálenost. Vlastním výstupem analýzy je dedrogram a tabulka postupu skládání stromu. Popis dendrogramu není složitý, na začátek je však ale třeba upozornit, že vedle sebe umístěné objekty si nemusí být vzájemně podobnější než objekty umístěné dále od sebe. Vzdálenost se počítá po větvi dedrogramu k nejbližšímu společnému rozvětvení dvou posuzovaných objektů. Takže např. na obr. 5.9 na s. 36 je třetí z vrchu objekt B1, jemu nejpodobnějším je objekt G1 – sloučeny do jednoho shluku (obsahujícího objekty B1 a G1) na úrovni vzdálenosti cca. 6,5 (to je hodnota průsečíku spojnice větví B1 a G1 a osy x). Ale hodnota vzdálenosti objektů B1 a I1 je ale cca. 15, přestože jsou na “ose y” tyto objekty vedle sebe. Objektu B1 je podobnější D1 než I1 – společný shluk tvoří B1 a D1 (samozřejmě už společně s G1) na vzdálenosti cca. 9,5. Chci-li definovat třídy na základě hierarchické aglomerativní metody musím rozhodnout na jaké vzdálenosti dendrogram “říznu”. Haruštiaková et al. (2012) v obr. 5.9 jej “řízli” na úrovni vzdálenosti cca. 13 – vzniklo tak pět tříd. Rozhodnutí, na jaké úrovni “říznout” je věcí zkušenosti a charakteru dedrogramu (posuzuji kombinace vzdáleností větvení – já bych se asi v tomto případě rozhodoval mezi vzdáleností 11 – t.j. 7 tříd – nebo vzdáleností 14 – t.j. 4 třídy). Při rozhodování je obvykle lépe vlastní metriku vynést na “ose x” jako procentické hodnoty vzdálenosti. Pak se rozhoduji na úrovni procent, které zároveň znamenají procentickou ztrátu detailu informace (informace, kterou nesly objekty v úrovni 0 % je nahrazena přepočty na centrální hodnoty shluku na úrovni x %. Pokud detailně popisuji shluky, pak by asi ztráta neměla být vyšší než 50 %, nicméně v jednom posudku na článek mi recenzent doporučil úroveň 20 %.

Hierarchické aglomerativní shlukování se často používá jako předstupeň před nehierarchickým shlukováním a jeho cílem je v tomto případě určit “optimální” počet shluků – příslušnost objektu ke shluku je pak řešena nehierarchickým shlukováním.

Tuto metodu lze taktéž použít ke klasifikaci proměnných.

  • Příklad z přírodních věd: Na rašeliništích jisté oblasti byl proveden větší počet fytocenologických snímků a nás zajímá, které lokality si jsou v druhovém složení podobnější. Ovládání ve STATISTICA je na videu.
  • Příklad ze sociálních věd: Mezi návštěvníky národních parků a chráněných krajinných oblastí byla zjišťována míra participace na dílčích rekreačních aktivitách, které provozují v době své dovolené návštěvníci těchto území. Autory zajímalo vymezení skupin návštěvníků a vzájemná podobnost v provozování dílčích aktivit. Zde je příkladový článek.

Hierarchické divizivní shlukování

Jak už bylo zmíněno výše, divizivní metoda pracuje “opačně” než aglomerativní. Při tomto dělení “větší rozdíly přetrvávají nad méně důležitými rozdíly: celková struktura shluku determinuje podskupiny” (Haruštiaková et al., 2012, s. 37). Princip je graficky vyjádřen v obr. 5.12 na s. 38 (Haruštiaková et al., 2012). Hierarchické divizivní metody se používají velmi často při klasifikaci společenstev – nejčastější metodou je TWINSPAN – my používáme výhradně ji. Jako základ pro posouzení vzdáleností podél níž dochází k dělení na jednotlivých úrovních je ordinace korespondenční analýzou (vis ordinace). Asi největší výhodou je, že tato metoda je přímo inkorporována do software JUICE, který je určen pro analýzu společenstev a je ZADARMO ke stažení zde. Základní popis uvádí Haruštiaková et al (2012) na s. 39-40, detailnější na konkrétním příkladu uvádí Lepš et Šmilauer (2000) na s. 59-65. Nevýhodou je nutnost ručního nastavení cut level, podobně jako v předchozím případě je toto rozhodnutí čistě na badateli a je dáno zkušeností a charakterem aktuálních dat.

  • Příklad z přírodních věd: Na toku dolní Lužnice byly pořízeny fytocenologické snímky kulturního lesa. Zajímá nás jejich klasifikace na základě druhového složení, o kterém předpokládáme, že je výsledkem kombinace lidského zásahu a úživnosti substrátu. K tomu použijeme Klasifikaci metodou TWINSPAN. Výsledek takovéto klasifikace si můžete prohlédnout zde.
  • Příklad ze sociálních věd: V šetřeném území byl identifikován větší počet atraktivit cestovního ruchu v dílčích územních jednotkách šetřeného území. Na základě kombinací množství zastoupení dílčích atraktivit byly vymezeny typy atraktivnosti území. Výsledek je v příkladovém článku v Table 1.

Další nevýhodou klasického TWINSPANu je dělení už zjevně dostatečně homogenních skupin, dokud není dosaženo stanoveného počtu shluků. Proto byla vyvinuta varianta, kde je možno nastavit i minimální hodnotu heterogenity uvnitř shluku a pokud není dosažena, daný shluk není v následujícím kroku dělen. princip je následující:

  • nastavím cut level, pseoudospecies, počet požadovaných shluků a minimální velikost shluků, tedy stejně jako v klasickém TWINSANu
  • dále nastavím metodu výpočtu heterogenity a hodnotu heterogenity, do které se má dělení provádět
  • spustí se analýza, která rozdělí soubor na dvě části, spočítá heterogenitu obou a tu, která má hodnotu heterogenity větší (a je také větší než heterogenita nastavená v předchozím bodě) tu dělí
  • následně je opět pro nové shluky spočítána heterogenita – pokud nebylo dosaženo cílového počtu shluků a/nebo by nově vzniknuvší skupina byla menší než v bodě 1 nastavená minimální velikost shluku, je dělena ta skupina, která má nejvyšší hodnotu heterogenity – může to být jedna ze skupin vzniknuvších
  • ve druhém kole nebo skupina nedělaná po prvním kole
  • vše je jasné z posteru, pokud to použijete citujte tento článek

Nehierarchické shlukování

Cílem je vytvořit hierarchicky rovnocenné shluky uvnitř nichž budou vzájemně podobnější objekty než mimo ně. Toho lze dosáhnout několika postupy. Základním a nejčastěji používaným přístupem je metoda maximalizace vnitrodruhové podobnosti = metoda K-průměrů. To v praxi odpovídá minimalizaci inverzní funkce – minimalizují se sumy čtverců vzdáleností uvnitř skupiny. Vzhledem k tomu, že počet shluků stanovuje badatel, je obvykle třeba uvažovat nad počáteční (nulovou) příslušností objektů ke skupinám a také zkusit vytvořit větší počet skupin a použít tu variantu, která vykazuje minimální vnitroskupinovou variabilitu.

Kromě metody K-průměrů nabízejí některé software i její dynamickou variantu označovanou jako metoda X-průměrů – u té se nastavují jen meze počtu shluků a na základě informačních kritérií (BIC nebo AIC) se vybírají nejvhodnější varianty přiřazení objektů do shluků a počtu shluků. Další metodou je metoda K-metoidů, kde skupinu nereprezentuje centroid, ale metoid = reprezentativní objekt.

  • Příklad z přírodních věd: Na vybraných rašeliništích byly měřeny vybrané fyzikálně chemické vlastnosti podzemní vody. Zajímá nás, která místa vykazují stejný typ chemismu podzemní vody. Ovládání ve STATISTICA je na videu (data byla před analýzou standardizována).
  • Příklad ze sociálních věd: Autoři měli k dispozici vybraná segmentační kritéria respondentů se vztahem k poptávce po loveckém cestovním ruchu. Jejich cílem bylo rozdělit poptávku do poptávkových segmentů podle těchto kritérií. Počet shluků byl odvozen od předchozí hierarchické aglomerativní analýzy. Výsledek je v článku ve Figure 2.

Všechny tyto metody se potýkají s problémem optimálního určení počtu shluků. Jak už bylo naznačeno výše, počet shluků lze předem odhadnout s využitím hierarchické shlukové analýzy – nejlépe s Wardovou metodou, protože metoda K-průměrů počítá, stejně jako ona, s centroidy. Validace výsledků nehierarchické shlukové analýzy lze provést několika způsoby – asi nejčastěji používaných (z důvodu jednoduchosti) je analýza rozptylu – shluky se použijí jako kategoriální proměnná a testovány jsou průměry dílčích proměnných v těchto shlucích. Dále se používá indexů, jejichž porovnáním se vybere “optimálnější” počet shluků. Zejména v sociálních vědách je oblíbená validační metoda siluety – Statistica ji neumí.

Regresní modely

Vycházejí ze stejných rámců jako různé typy ANOVA a zjednodušeně řečeno je od sebe dělí jen rozdíl v charakteru vysvětlujících proměnných – u ANOVA jsou kategoriální, u regresí mohou mít jakýkoliv typ dat, což platí i pro vysvětlovanou proměnnou. Právě podle jejich charakteru se rozlišují jednotlivé typy regresí. My se jim teoreticky moc věnovat nebudeme a omezíme se na jejich přehled a způsob ovládání ve STATISTICA. S vědomím toho, že pomocí Real Statistics lze většinu z toho, co si ukážeme, udělat i v MS Excel. Nejjednodušší jsou (mimo to, co jsme si ukázali v základním kurzu) regrese, kde na straně vysvětlované i vysvětlující stojí poměrové proměnné, ale jejich kombinace nejsou lineární.

Nelineární regrese (Lepš, 1996, s. 135-138)

Nejčastěji se používá polynomiální regrese – závislost je konstantní, ale ne lineární. Ve výsledku se nám často podaří pěkně proložit křivku našimi daty, ale interpretace, především u polynomů vyšších stupňů, je v podstatě nemožná. Proto se snažíme používat kvadratickou regresi. To co těmito modely dokazujeme je “nelinearita” závislosti.

Nelineární (fukční) regrese umožňují proložit křivku zvolené funkce – nejlepší se nedají vybrat postupem jako u lineární regrese a obvykle jsou výstupem nějakého opakovacího (iteračního procesu) – program začne s nějakou nulovou verzí, vypočte metodou nejmenších čtverců reziduály, následně zvolí jiné nastavení výchozích hodnot a porovná jejich reziduály a reziduály prvního výpočtu, takovýchto výpočtů udělá velké množství a vybere ten “nejlepší” – najde lokální optimum, těch ale může být několik. Statisticky správnější je obvykle data nejprve transformovat a následně podrobit lineární regresi.

  • Příklad z přírodních věd: závislost druhové bohatosti na množství živin v půdě reprezentovaných amoniakálním dusíkem řešená na videu pomocí Graphs ve STATISTICA.

Pokud potřebuji pracovat s větším množstvím polynomiálních nezávislých proměnných, pak musíme volit “Advanced models”, v ní “General linear” a na její kartě “Polynomial regression”.

Hierarchická mnohonásobná lineární regrese

Problém u mnoha regresí je ten, že mám obvykle skupiny vysvětlujících proměnných a nikoliv “jednotlivé” vysvětlující proměnné. Zajímá nás vliv jedné skupiny nezávislých proměnných na závislou proměnou, ale máme i další skupinu nezávislých proměnných, o které víme, že má na vysvětlovanou proměnnou vliv – tento nás ale nezajímá. Naším cílem je zjistit vliv první skupiny při spolupůsobení druhé skupiny. V podstatě nás tedy zajímá, jak se projeví vliv zařazení druhé skupiny proměnných na výslednou hodnotu Adjusted R2.

Příklad ze sociálních věd: Sledujeme zájem o daný typ outdoorové rekreační činnosti. Zajímá nás vliv vztahu k životnímu prostředí respondenta na zájem o tu konkrétní outdoorovou rekreační činnost. Nicméně vím, že existují další proměnné, které mají na zájem vliv – demografická a socioekonomická data o respondentovi.

V podstatě jde o “jednoduchou” variantu komplikovaných strukturálních modelů, kde pomocí série regresních koeficientů posuzujeme vazby mezi větším množstvím proměnných, jež vystupují často zároveň na úrovni vysvětlovaných i vysvětlujících. Nicméně zde mám dvě skupiny, kde mě nezajímá hierarchie jejich vlivu, ale jen chci posoudit jak zásadně se změní Adjusted R2, když do modelu, kromě proměnných o zájmu o životní prostředí vstoupí i data o demografických a socioekonomických ukazatelích o respondentovi.

Ve STATISTICA je zapotřebí v úvodním panelu zaškrtnout všechny varianty výpočtů v modelu, následně zvolit proměnné. Po odeslání se dostanete do panelu volby modelů, v něm musíte nejprve zvolit všechny vysvětlující proměnné a pak samozřejmě specifikaci modelu. Po odeslání lze mezi výsledky vpravo dole najít položku “Stepwise regression summary”, v ní najdete výsledek tohoto prvního kroku. Dáte OK, následně v hlavním výsledkovém okně dáte Cancel a ve volbách modelů vyberete jen část vysvětlujících proměnných, které Vás zajímají. Model nastavíte stejně a odešlete. V položce “Stepwise regression summary” najdete výsledek pro nový model a změny, ke kterým došlo oproti předchozímu modelu. Tímto způsobem můžete zeštíhlovat model po jedné nebo několika proměnných. Vždy ale musí jít o odebrání proměnných z předešlého modelu – nelze už žádné další přidávat (respektive lze, ale program nevypočítá změnu).

Další typy regresí (Lepš et Šmilauer, 2000, kap. 11)

Všechny výše uvedené typy regresí měly společného jmenovatele v tom, že na straně vysvětlované proměnné (Lhs) i straně vysvětlujících proměnných (Rhs) mohly stát výhradně poměrové proměnné. To je ale značné omezení, protože velké množství dat má ordinální (stupnice v dotaznících) či nominální charakter (barva kožichu, pohlaví, geologický substrát). My jsme už skupinu modelů umožňující pracovat s Rhs nominálními proměnnými poznali – skupinu modelů ANOVA. ANOVA a další modely umožňující pracovat jen s poměrovými Lhs a kterýmikoliv Rhs označujeme jako obecné lineární modely (General Liner Models, GLM). Pro regrese obecných lineárních modelů platí odhady nezávislosti jednotlivých prediktorů – aditivita.

  • Příklad z přírodních věd: Závisí velikost snůšky vybraného druhu vodního ptáka na environmentálních charakteristikách polohy hnízda? Snůška je měřena součtem objemu všech vajec (poměrová proměnná), nezávislými proměnnými jsou vzdálenost od nejbližšího dalšího hnízda (poměrová proměnná), vzdálenost hnízda od volné vodní hladiny (poměrová proměnná), typ porostu podle rostlinné dominanty (4 typy, nominální proměnná). Výpočet ve Statistica je na videu.

Jejich zobecněním vznikají komplikovanější modely označované jako zobecněné lineární modely, čili Generalized Linear Models (GLZ). Rozšířeny jsou v tom slova smyslu, že u nich můžeme použít u Lhs proměnnou ordinálního i nominálního charakteru. Podle charakteru vysvětlované proměnné jsou definovány základní link funkce, pomocí kterých jsou převedeny hodnoty prediktorů b (beta) jednotlivých nezávislých proměnných z lineárního modelu (teoreticky zasahujících z mínus nekonečna do plus nekonečna) na ordinální nebo nominální stupnici toho kterého konkrétního prediktoru.

STATISTICA umožňuje komplexní volbu jednotlivých modelů ve svých panelech nástrojů – vysvětlení hlavních případů je asi jednodušší na příkladech:

  • Příklad z přírodních věd: Zadání stejné jako předchozí, ale velikost snůšky je měřena počtem vajec, ten je nízký a má Poissonovo rozdělení – video s výpočtem.

POZOR!!!!!! U následujících příkladů stejně jako u nominal multinomial závislé proměnné (kterou asi v praxi budete taky používat) STATISTICA bere jako úroveň pro níž je počítána pravděpodobnost volby, úroveň s nejnižší hodnotou – proto budou výsledky regresních koeficientů s opačnými znaménky než u předchozích dvou příkladů. Lze počítat pro regresní model, kde na straně Lhs je proměnná s ordinální stupnicí:

  • Příklad z přírodních věd: Zadání stejné jako předchozí, ale velikost snůšky je měřena typem počtu vajec – nadprůměrná snůška, průměrná snůška, podprůměrná snůška – závislá proměnná je na ordinální stupnici – video.

. . . nebo i proměnná s bivariátní stupnicí:

  • Příklad z přírodních věd: Zadání stejné jako předchozí, ale ptám se na rozdíly, které odlišují hnízda s nadprůměrnou a podprůměrnou snůškou – závislá proměnná je tak nominální, bivariátní (podprůměrná versus nadprůměrná nebo jinak nadprůměrná ANO nebo NE) – video.

MKV2 – požadavky

K zápočtu

Vzhledem k tomu, že se jedná o v podstatě čistě praktický předmět (teoretické pozadí téměř žádné po studentech nechceme), studenti se na cvičení bohužel vůbec nepřipravovali a zavádět “chemické” požadavky na absolvování testu před každým cvičením nám přijde zbytečné, zavádíme od ZS2017/2018 povinný “midterm exam”, který je součástí zápočtových bodů.
Získání zápočtu je podmíněno ziskem v součtu alespoň 60 % bodů ze dvou zápočtových testů (platí pro PS; KS píše test jediný) a účastí na cvičení (povoleny jsou dvě absence).

“Midterm exam”

Probíhá v polovině semestru – pokud nedojde k nějakému odpadnutí výuky, tak v 7. týdnu semestru, vždy po ukončení bloku věnovaného regresím. Předmětem tohoto testu je látka probíraná na 1.- 6. přednášce, tedy základní statistika v Dell Statistica:

  • chí-kvadrát testy,
  • t-testy,
  • F-test,
  • Mann-Whitney test,
  • Wilcoxon test,
  • jednofaktorová ANOVA,
  • parametrická a neparametrická korelace,
  • jednoduchá a mnohonásobná lineární regrese,
  • a “advanced” typy ANOVA a regresních modelů
  • ANOVA hlavních efektů,
  • faktorová ANOVA,
  • heirarchická ANOVA,
  • ANOVA pro opakovaná měření,
  • ovládání nastavení pevných a náhodných efektů u výše uvedených typů ANOVA,
  • regrese ze soudku GLM včetně nastavení metody výběru proměnných,
  • regrese ze soudku GLZ včetně nastavení metody výběru proměnných.

Předmětem tohoto testu je ověření schopnosti řešit problémy kvantitativního zpracování dat v prostředí

Dell Statistica (nicméně můžete použít i MS Excel a/nebo R).
Zadáno je vždy 6 úloh. Vybrané výsledky zapisujete do tištěného zápočtového testu. Na vypracování testu je k dispozici 75 minut.

Pravidla pro vypracování:

  1. Pracujete výhradně s daty předanými pedagogem.
  2. Při vypracovávání můžete používat Help STATISTICA.
  3. Během vypracovávání zápočtu je zakázáno prohlížení jiných stránek než odkazů z Help STATISTICA.
  4. Pedagogovi odevzdáváte workbook s koncovkou souboru .stw, který pojmenuje qphee_zapocet_Vaseprijmeni.stw.

 

Několik rad k úspěšnému zvládnutí testu:

  • základní statistiky se ve většině případů v Dell Statistica nejmenují podle svého označení, proto je nutné vědět, kde je hledat
  • výsledky software pro jednotlivé proměnné či kategorie reportuje různě podle nastavení konkrétní instalace a podle Vašeho zadání proměnných, čili se výstup může lišit od předepsaných polí v testu – je třeba si přečíst hlavičky v zadání testu ve výstupu, který vydíte na obrazovce
  • u mnoha “advanced” typů ANOVA a regresí je třeba udělat po výpočtu ještě další operace, aby jste se dostali k výsledku, který je po Vás požadován
2. zápočtový test

Probíhá v zápočtovém týdnu. Předmětem také tohoto testu je ověření schopnosti řešit problémy kvantitativního zpracování dat v prostředí Dell Statistica (nicméně můžete použít i MS Excel a/nebo R, ale pozor, ani pro MS Excel ani pro R si nebudete moct dohrát nástroje pro řešení úloh a my nemůžeme garantovat, že zrovna na počítači, na kterém budete u zápočtu sedět, bude mít příslušné extenze nahrány).
Zadány jsou vždy 4 úlohy. Vybrané výsledky zapisujete do tištěného zápočtového testu. Na vypracování testu je k dispozici 60 minut.
2. zápočtový test je zaměřen na schopnost řešit složitější úkoly pomocí mnohorozměrných metod:

  • hierarchická shluková analýza,
  • nehierarchická shluková analýza metodou K-průměrů,
  • PCA,
  • FA,
  • CA,
  • MDS,
  • CCorA,
  • kanonická diskriminační analýza,
  • klasifikační diskriminační analýza.

Pravidla pro vypracování:

  1. Pracujete výhradně s daty předanými pedagogem.
  2. Při vypracovávání můžete používat Help STATISTICA.
  3. Během vypracovávání zápočtu je zakázáno prohlížení jiných stránek než odkazů z Help STATISTICA.
  4. Pedagogovi odevzdáváte workbook s koncovkou souboru .stw, který pojmenuje qphee_zapocet_Vaseprijmeni.stw.

Pokud jste z důvodu absence neabsolvovali “midterm exam”, pak jej absolvujete společně s 2. zápočtovým testem v zápočtovém týdnu.

Pokud v součtu “midterm exam” a 2. zápočtového testu nezískáte minimálně 60 %, musíte absolvovat oba testy společně v opravném termínu – opravné termíny máte dva.

Jelikož se ukázalo jako nemožné provést “midterm exam” pro kombinované studium, bude kombinované studium psát oba testy společně v jednom termínu, na kterém se dohodneme na první konzultaci!!!!!!!!!

Ke zkoušce

Zkouška je teoretická a probíhá písemnou formou testu. Test se skládá z 10 otázek na teorii ohledně zpracování dat různých přístupů analýzy variance (všechny probrané typy ANOVA), regresních modelů (normal, binomial, multinomial, ordinal), shlukových analýz (K-means, hiararchická) a ordinačních analýz (PCA, RDA, DCA/CA, CCA, CCorA). Typickými otázkami jsou otázky na to, kdy jakou analýzu použít, v čem se podobné analýzy liší, jaké mají předpoklady, co mohu vyčíst z ordinačních diagramů. Za každou správnou odpověď (čtyři možnosti na výběr, právě jedna z nich správná) získáte bod. K absolvování zkoušky je třeba 6 bodů. Čas na vypracování je 25 minut.