Shluková analýza

Podstatou je rozdělení objektů na základě dosažených hodnot u jednotlivých proměnných do skupin (Haruštiaková et al., 2012, kap. 5). Tyto skupiny se označují jako shluky a odtud je odvozen název shluková analýza. Rozdělením objektů do skupin se reálně sníží počet proměnných na jedinou – příslušnost objektu ke skupině. Používáme ji v případech, kdy víme, že pozorované objekty reálně náleží do nějaké třídy, kde platí, že objekty v třídě si jsou vzájemně bližší, než objekty z různých tříd, nicméně je lze použít i pro data připomínající “homogenní chaos”, v něm se obvykle snažíme najít nějaký “systém”.

Přístupy ve shlukové analýze jsou v zásadě dva – hierarchické a nehierarchické. Výsledkem hierarchického shlukování je systém skupin a podskupin – výsledkem jsou grafické stromy = dendrogramy. Aglomerativním postupem se postupně spojují nejpodobnější objekty až jsou všechny spojeny do jediné skupiny zahrnující všechny objekty. Divizivním postupem se naopak celý soubor objektů dělí v postupných krocích na části (nejčastěji dvě), a to podle vzdálenosti. Nehierarchické shlukování pak dělí objekty do badatelem určeného počtu shluků stejného řádu.

Hierarchické aglomerativní shlukování

Její podstatou je výpočet podobnosti/vzdálenosti mezi všemi dvojicemi objektů, tedy posouzení asociační matice. V postupných krocích se pak posuzuje podobnost/vzdálenost objektů, objektu a shluku a dvou shluků. Metoda posouzení vzdálenosti mezi shluky je základem pro požadovaný výsledek. Rozdíly v použití jednotlivých metod jsou nádherně popsány na s. 31-35 (Haruštiaková et al., 2012). Další významu volbou je výběr míry vzdálenosti – nejčastěji se používá euklidovská vzdálenost. Vlastním výstupem analýzy je dedrogram a tabulka postupu skládání stromu. Popis dendrogramu není složitý, na začátek je však ale třeba upozornit, že vedle sebe umístěné objekty si nemusí být vzájemně podobnější než objekty umístěné dále od sebe. Vzdálenost se počítá po větvi dedrogramu k nejbližšímu společnému rozvětvení dvou posuzovaných objektů. Takže např. na obr. 5.9 na s. 36 je třetí z vrchu objekt B1, jemu nejpodobnějším je objekt G1 – sloučeny do jednoho shluku (obsahujícího objekty B1 a G1) na úrovni vzdálenosti cca. 6,5 (to je hodnota průsečíku spojnice větví B1 a G1 a osy x). Ale hodnota vzdálenosti objektů B1 a I1 je ale cca. 15, přestože jsou na “ose y” tyto objekty vedle sebe. Objektu B1 je podobnější D1 než I1 – společný shluk tvoří B1 a D1 (samozřejmě už společně s G1) na vzdálenosti cca. 9,5. Chci-li definovat třídy na základě hierarchické aglomerativní metody musím rozhodnout na jaké vzdálenosti dendrogram “říznu”. Haruštiaková et al. (2012) v obr. 5.9 jej “řízli” na úrovni vzdálenosti cca. 13 – vzniklo tak pět tříd. Rozhodnutí, na jaké úrovni “říznout” je věcí zkušenosti a charakteru dedrogramu (posuzuji kombinace vzdáleností větvení – já bych se asi v tomto případě rozhodoval mezi vzdáleností 11 – t.j. 7 tříd – nebo vzdáleností 14 – t.j. 4 třídy). Při rozhodování je obvykle lépe vlastní metriku vynést na “ose x” jako procentické hodnoty vzdálenosti. Pak se rozhoduji na úrovni procent, které zároveň znamenají procentickou ztrátu detailu informace (informace, kterou nesly objekty v úrovni 0 % je nahrazena přepočty na centrální hodnoty shluku na úrovni x %. Pokud detailně popisuji shluky, pak by asi ztráta neměla být vyšší než 50 %, nicméně v jednom posudku na článek mi recenzent doporučil úroveň 20 %.

Hierarchické aglomerativní shlukování se často používá jako předstupeň před nehierarchickým shlukováním a jeho cílem je v tomto případě určit “optimální” počet shluků – příslušnost objektu ke shluku je pak řešena nehierarchickým shlukováním.

Tuto metodu lze taktéž použít ke klasifikaci proměnných.

  • Příklad z přírodních věd: Na rašeliništích jisté oblasti byl proveden větší počet fytocenologických snímků a nás zajímá, které lokality si jsou v druhovém složení podobnější. Ovládání ve STATISTICA je na videu.
  • Příklad ze sociálních věd: Mezi návštěvníky národních parků a chráněných krajinných oblastí byla zjišťována míra participace na dílčích rekreačních aktivitách, které provozují v době své dovolené návštěvníci těchto území. Autory zajímalo vymezení skupin návštěvníků a vzájemná podobnost v provozování dílčích aktivit. Zde je příkladový článek.

Hierarchické divizivní shlukování

Jak už bylo zmíněno výše, divizivní metoda pracuje “opačně” než aglomerativní. Při tomto dělení “větší rozdíly přetrvávají nad méně důležitými rozdíly: celková struktura shluku determinuje podskupiny” (Haruštiaková et al., 2012, s. 37). Princip je graficky vyjádřen v obr. 5.12 na s. 38 (Haruštiaková et al., 2012). Hierarchické divizivní metody se používají velmi často při klasifikaci společenstev – nejčastější metodou je TWINSPAN – my používáme výhradně ji. Jako základ pro posouzení vzdáleností podél níž dochází k dělení na jednotlivých úrovních je ordinace korespondenční analýzou (vis ordinace). Asi největší výhodou je, že tato metoda je přímo inkorporována do software JUICE, který je určen pro analýzu společenstev a je ZADARMO ke stažení zde. Základní popis uvádí Haruštiaková et al (2012) na s. 39-40, detailnější na konkrétním příkladu uvádí Lepš et Šmilauer (2000) na s. 59-65. Nevýhodou je nutnost ručního nastavení cut level, podobně jako v předchozím případě je toto rozhodnutí čistě na badateli a je dáno zkušeností a charakterem aktuálních dat.

  • Příklad z přírodních věd: Na toku dolní Lužnice byly pořízeny fytocenologické snímky kulturního lesa. Zajímá nás jejich klasifikace na základě druhového složení, o kterém předpokládáme, že je výsledkem kombinace lidského zásahu a úživnosti substrátu. K tomu použijeme Klasifikaci metodou TWINSPAN. Výsledek takovéto klasifikace si můžete prohlédnout zde.
  • Příklad ze sociálních věd: V šetřeném území byl identifikován větší počet atraktivit cestovního ruchu v dílčích územních jednotkách šetřeného území. Na základě kombinací množství zastoupení dílčích atraktivit byly vymezeny typy atraktivnosti území. Výsledek je v příkladovém článku v Table 1.

Další nevýhodou klasického TWINSPANu je dělení už zjevně dostatečně homogenních skupin, dokud není dosaženo stanoveného počtu shluků. Proto byla vyvinuta varianta, kde je možno nastavit i minimální hodnotu heterogenity uvnitř shluku a pokud není dosažena, daný shluk není v následujícím kroku dělen. princip je následující:

  • nastavím cut level, pseoudospecies, počet požadovaných shluků a minimální velikost shluků, tedy stejně jako v klasickém TWINSANu
  • dále nastavím metodu výpočtu heterogenity a hodnotu heterogenity, do které se má dělení provádět
  • spustí se analýza, která rozdělí soubor na dvě části, spočítá heterogenitu obou a tu, která má hodnotu heterogenity větší (a je také větší než heterogenita nastavená v předchozím bodě) tu dělí
  • následně je opět pro nové shluky spočítána heterogenita – pokud nebylo dosaženo cílového počtu shluků a/nebo by nově vzniknuvší skupina byla menší než v bodě 1 nastavená minimální velikost shluku, je dělena ta skupina, která má nejvyšší hodnotu heterogenity – může to být jedna ze skupin vzniknuvších
  • ve druhém kole nebo skupina nedělaná po prvním kole
  • vše je jasné z posteru, pokud to použijete citujte tento článek

Nehierarchické shlukování

Cílem je vytvořit hierarchicky rovnocenné shluky uvnitř nichž budou vzájemně podobnější objekty než mimo ně. Toho lze dosáhnout několika postupy. Základním a nejčastěji používaným přístupem je metoda maximalizace vnitrodruhové podobnosti = metoda K-průměrů. To v praxi odpovídá minimalizaci inverzní funkce – minimalizují se sumy čtverců vzdáleností uvnitř skupiny. Vzhledem k tomu, že počet shluků stanovuje badatel, je obvykle třeba uvažovat nad počáteční (nulovou) příslušností objektů ke skupinám a také zkusit vytvořit větší počet skupin a použít tu variantu, která vykazuje minimální vnitroskupinovou variabilitu.

Kromě metody K-průměrů nabízejí některé software i její dynamickou variantu označovanou jako metoda X-průměrů – u té se nastavují jen meze počtu shluků a na základě informačních kritérií (BIC nebo AIC) se vybírají nejvhodnější varianty přiřazení objektů do shluků a počtu shluků. Další metodou je metoda K-metoidů, kde skupinu nereprezentuje centroid, ale metoid = reprezentativní objekt.

  • Příklad z přírodních věd: Na vybraných rašeliništích byly měřeny vybrané fyzikálně chemické vlastnosti podzemní vody. Zajímá nás, která místa vykazují stejný typ chemismu podzemní vody. Ovládání ve STATISTICA je na videu (data byla před analýzou standardizována).
  • Příklad ze sociálních věd: Autoři měli k dispozici vybraná segmentační kritéria respondentů se vztahem k poptávce po loveckém cestovním ruchu. Jejich cílem bylo rozdělit poptávku do poptávkových segmentů podle těchto kritérií. Počet shluků byl odvozen od předchozí hierarchické aglomerativní analýzy. Výsledek je v článku ve Figure 2.

Všechny tyto metody se potýkají s problémem optimálního určení počtu shluků. Jak už bylo naznačeno výše, počet shluků lze předem odhadnout s využitím hierarchické shlukové analýzy – nejlépe s Wardovou metodou, protože metoda K-průměrů počítá, stejně jako ona, s centroidy. Validace výsledků nehierarchické shlukové analýzy lze provést několika způsoby – asi nejčastěji používaných (z důvodu jednoduchosti) je analýza rozptylu – shluky se použijí jako kategoriální proměnná a testovány jsou průměry dílčích proměnných v těchto shlucích. Dále se používá indexů, jejichž porovnáním se vybere “optimálnější” počet shluků. Zejména v sociálních vědách je oblíbená validační metoda siluety – Statistica ji neumí.