Nepřímá ordinační analýza
Principy ordinační analýzy (Haruštiaková et al., 2012, kap. 6.1 celá)
Ordinační analýzy jsou základní pro posouzení druhového složení společenstev – objektem je společenstvo dané soupisem druhů/taxonů (co druh/taxon, to proměnná) v konkrétním nějak vymezeném prostoru (nejčastěji nějaká pokusná plocha nebo náhodně v terénu vybraná plocha o standardizované výměře). Druhy mohou nabývat binárních hodnot (přítomen/nepřítomen), ordinálních hodnot (např. Braun Blanquetova škála ve fytocenologii) nebo poměrových hodnot (počet jedinců druhu). Druhové složení společenstva je to, co se snažíme vysvětlit = je to vysvětlovaná proměnná (Lhs), která má však mnoho proměnných (pro jistotu znovu – co druh, to jedna proměnná). Obvykle máme k dispozici ještě další proměnné, které se vztahují k ploše objektu = environmentální proměnné, které popisují stanoviště společenstva. Obvykle se označují jako tzv. suplementary variables. Z ekologie víte, že aktuální společenstvo je odpovědí na podmínky stanoviště a jeho historický vývoj. Proto environmentální proměnné považujeme za vysvětlující proměnné (Rhs) druhového složení společenstva.
- Příklad ze sociálních věd: Zájezd, který si turista zakoupí je ovlivněn širokou škálou postojů a přesvědčení zákazníka, šance, že bude vybrán konkrétní zájezd je závislá na proměnných, které charakterizují tento zájezd. Někdo dává přednost poznání, někdo odpočinku, někdo zábavě, někdo sportu, někdo přírodě, a většina různým kombinacím těchto a mnoha jiných prvků.
. . . ano, ordinační analýzy se používají i v mnoha jiných typech úloh, to je ale za hranicí tohoto našeho kurzu.
Studovat vazby mezi objekty podle hodnot velkého množství měřených proměnných (v “normálních” výzkumech na diplomku se asi vždycky přehoupnete přes 100 druhů) je “okometricky” (tedy stylem “mrknu a vidím“) obvykle nemožné. Taktéž obvykle platí, že měřené proměnné jsou jen zprostředkováním skutečnosti a nikoliv realitou samotnou. A taktéž v mnoha případech platí, že charakter prvků se v realitě nemění skokově, ale podél gradientů v “realitě” prostředí. Použití shlukových analýz ve studiu vazby odpovědí objektů na měřené proměnné prostředí je tak často nevhodné.
Skupině ordinačních metod je se shlukovou analýzou společná snaha o redukci proměnných do “minimálního” počtu. Od shlukové analýzy se ale liší v tom, že cílem je identifikace gradientů a nikoliv klasifikace (viz Haruštiaková et al., 2012, obr 6.2 na s. 49). Tyto metody slouží k seřazení objektů podél teoretického gradientu počítaného z měřených proměnných, ježto je v podstatě hypotetickou (= latentní) proměnnou – tento gradient se označuje jako “ordinační osa“. Jednotlivé ordinační osy jsou seřazeny podle významu a jsou navzájem kolmé (= nezávislé, ortogonální). Obvykle se snažíme interpretovat první dvě osy, ale v poslední době existuje snaha spíše hlavní osy odfitrovávat a věnovat se pitvání dalších gradientů, které nejsou obvykle zjevné. Předpokládáme, že dosažené hodnoty objektu u jednotlivých proměnných mají vazbu na prostředí a jsou tak odrazem chování společenstva na podmínky prostředí, a tedy ordinační osa je gradientem, který ovlivňuje intenzitu výskytu jednotlivých druhů ve společenstvu v jednotlivých objektech.
Polohu objektů a proměnných lze na ordinačních osách vyjádřit tabelárně pomocí souřadnic – to se používá např. pro posouzení korelace mezi pozicí na dílčí ordinační ose a hodnotou měřené proměnné. Nicméně nejčastěji se používá vyjádření pomocí grafů, které se označují jako ordinační diagramy – ty jsou obvykle hlavním výstupem analýzy. V nich může být zobrazena poloha objektů nebo proměnných nebo obojí najednou (= biplot). Nebo, pokud máme environmetální proměnné, můžeme zobrazit i je (= triplot).
Výsledky takovýchto analýz jsou u redaktorů časopisů obvykle oblíbené, avšak metody samy o sobě nejsou všespásné. Pro interpretaci platí stejná podmínka jako u shlukových analýz – základem interpretace je zkušenost badatele a jeho obeznámenost s tématem (statistika obvykle končí u toho, že na základě dat vyberete vhodnou metodu, pak následuje rychlý technický krok, který předpokládá obeznámenost se software určeným pro výpočet a následuje dlouhá doba snahy o nahlédnutí výsledku).
Přehled běžně používaných ordinačních metod uvádí Haruštiaková et al. (2012) na s. 51 v oddíle 6.1.3. Vám bude stačit, když budete znát zde a na další stránce uvedené metody, které jsou rozděleny do dvou kategorií. Nepřímé ordinační analýzy jsou takové, kdy provádím analýzu Lhs (nejčastěji druhového složení) nebo méně často analýzu Rhs. Do ordinačního diagramu z analýzy Lhs mohu proložit pasivně Rhs proměnné (ty ale nikdy nejsou součástí výpočtu). Naopak přímé ordinační analýzy (označované jako kanonické) jsou takové, kdy analyzuji Lhs a Rhs se stávají součástí výpočtu ordinace.
NEPŘÍMÁ ORDINAČNÍ ANALÝZA
Analýza hlavních komponent – PCA (Haruštiaková et al., 2012, oddíl 6.2.1 celý)
Základním principem je snaha o vyjádření měřených proměnných pomocí latentních proměnných, tím snížení jejich původního počtu, a vazby mezi nimi, přičemž nemám primární ambici závislost Lhs na Rhs vysvětlovat příčinnými vztahy (viz výše):
- Proměnné by měly mít kvantitativní charakter, ale software pracují i s binárními proměnnými (nominální vícekategoriální mohou být problematicky vyhodnotitelné).
- Počet proměnných by měl být menší než počet objektů (těch by optimálně měla být druhá mocnina počtu proměnných), což obvykle porušujeme – zkuste si zpočítat, kolik pokusných ploch byste museli mít k dispozici, když bude uvažovat minimální počet druhů jako 100.
- Předpokladem PCA je, že závislost druhů na ordinační ose je lineární; to obvykle znamená, že posuzuji jen část “reálného” gradientu (viz Lepš et Šmialuer, 2000, obr. 2-1 na s. 22). Jak poznáme, že jde o lineární gradient, si ukážeme u CA za chvíli.
Metodicky je PCA orientována na konstrukci takových nových proměnných (= hlavní komponenty), které vysvětlují maximum celkového rozptylu původních proměnných.
Identifikace hlavních komponent je postupná. Nejprve je identifikována první hlavní komponenta, a to ve směru největší variability objektů. Další osa vysvětluje část “zbytkové” variability za podmínky nezávislosti na ose předchozí. A tak se postupuje až do vysvětlení veškeré variability.
Existují dva základní typy PCA – centrovaná PCA využívá při výpočtech asociační matici založenou na kovariancích a použijeme ji, když máme proměnné v podobných jednotkách; standardizovaná PCA využívá korelací a volíme ji, když proměnné mají zcela odlišná měřítka.
Geometrický význam vynikajícím způsobem popisuje Haruštiaková et al. (2012) na s. 54-55. Jde ve zjednodušené podstatě o rotaci původních os variability (= měřených proměnných = nejčastěji druhů) do polohy, kdy je vysvětleno maximum variability – původní hodnoty proměnných (obvykle druhů) jsou následně převedeny do nového souřadnicového systému daného latentními gradienty (= hlavními komponentami).
Počet interpretovatelných os je dán logickou úvahou a omezen je maximálně na Kaiserovo kritérium – interpretovat má smysl pouze komponenty s hodnotou vlastního čísla větší než 1 (pak daná komponenta vysvětluje více variability než původní měřená proměnná). Hlavní význam však mají pouze osy s vysokými hodnotami vlastního čísla, tedy ty, co vysvětlují maximum variability – hodnoty vysvětlené variability nalezneme v tabulce hodnot vlastních čísel nebo je můžeme vidět v diagramu, který se jmenuje scree plot (obr. 6.5 v Haruštiaková et al., 2012, s. 56), někdo bere v potaz opravdu vysoké hodnoty vlastního čísla (ty bývají obvykle jen tři, ale záleží na povaze gradientů v datech), někdo bere v potaz komponenty s nadprůměrnými hodnotami vlastního čísla, vy budete asi nejčastěji pracovat s prvními dvěma osami.
Zásady pro interpretaci uvádí přehledně Haruštiaková et al. (2012) na s. 57-60. Jako hlavní vybíráme:
- proměnné jsou v ordinačním prostoru daném ordinačními osami zobrazeny jako vektory, čím je vektor delší, tím větší je jeho význam v ordinačním prostoru, kosinus úhlu, který svírají vektory původních proměnných mezi sebou a s ordinačními osami, je úměrný jejich korelaci,
- objekty jsou v ordinačním prostoru vyjádřeny jako body pomocí komponentních skóre (= souřadnice na dané komponentní ose), zajímá nás vzájemná pozice objektů a vazba pozice objektů na vektory proměnných – používá se obvykle biplotu (= grafu, kde jsou proměnné i objekty),
- tedy pro interpretaci platí, ke kterým bodům vede šipka proměnné, pro ty body je tato proměnná významná, a čím blíže jsou body a šipky k dané komponentní ose a čím jsou dále od souřadnice 0,0, tím jsou významnější pro identifikaci komponentní osy, která pro Vás představuje latentní proměnnou, podél níž dochází ke změně druhového složení společenstva
- grafem lze prokládat i suplementary variables – ty nejsou součástí výpočtu matice PCA, ale lze jim podle hlavních komponent přepočítat původní hodnoty do souřadnicového prostoru daného komponentními osami a ty zobrazit v grafech. Obvykle se jich používá pro interpretaci (= často pojmenování) “latentních” os – můžete se pokusit osy interpretovat, ale nemůžete tvrdit, že tato osa znamená reakci společenstva např. na kyselost substrátu – “kauzalitu” pomocí PCA tímto způsobem “prokázat” nemůžete,
- v PCA existují dva typy biplotů, které se liší interpretací.
PCA má hlavní využití v přírodních vědách (v sociálních se místo ní obvykle používá faktorová analýza, pokud PCA, pak obvykle v souvislosti s RDA – viz dále).
- Příklad z přírodních věd: Naší snahou je identifikace hlavních komponent ovlivňujících výskyt rašeliníků různých druhů. Jednotlivé druhy jsou proměnné vyjádřené pokryvností na jednotlivých lokalitách (to jsou objekty). Kromě nich byly měřeny i některé charakteristiky prostředí – ty budou použity jako suplementary variables. Návod pro výpočet ve STATISTICA je na videu.
Faktorová analýza – FA (Haruštiaková et al., 2012, oddíl 6.2.2 celý)
Faktorová analýza posouvá PCA dále v tom slova smyslu, že kromě redukce počtu proměnným má za cíl i vysvětlení závislosti proměnných. Právě tato snaha po vysvětlení vede k tomu, že v přírodních vědách není příliš oblíbená pro svou “neobjektivnost”.
Název faktorová analýza nesou dva odlišné typy analýz – explorativní faktorová analýza (EFA) a konfirmační faktorová analýza (CFA). Na tomto místě se věnujeme pouze explorativní faktorové analýze (ta je popsána i v učebnici).
S EFA souvisí význam tzv. faktorových vah, což jsou korelační koeficienty proměnných se společnými faktory (extrahovaný menší počet dimenzí, než byl původní počet proměnných = druhů, jako u PCA), a komunality, která udává část rozptylu proměnné, která je vysvětlena působením společných faktorů. Oba tyto prvky jsme poznali ale už i u PCA – u FA jsou ale hlavním výsledkem.
Základem EFA je PCA – komunalita je odhadována a hlavní komponentní osy jsou následně rotovány tak, aby co nejjednodušeji popisovaly vstupující proměnné (viz obr. 6.7 na s. 62 v Haruštiaková et al., 2012). Cílem EFA je dostat hlavní komponentu v novém souřadnicovém systému do polohy, kde se vyskytuje více vzájemně prokorelovaných původních proměnných (= druhů) – ta přestává být hlavní komponentou a stává se společným faktorem. Tento postup je považován za “neobjektivní”, protože předjímá, že proměnné jsou “reálným”, byť přímo neměřeným, faktorem. Důsledkem totiž je, že faktorové osy na rozdíl od hlavních komponent mohou být prokorelovány a nemusí tedy být orthogonální (což obvykle nejsou). Navíc počet společných faktorů, které mají být rotovány je dán badatelem (počet os se nejčastěji drží Kaiserova pravidla a vychází z PCA) – počet rotovaných os ovlivňuje výsledek (tedy výsledek EFA bude jiný, pokud zadám, že chci mít 4 nebo 5 faktorů). Pro daný společný faktor nás pak zajímají jen proměnné s hodnotou faktorové váhy vyšší jež je stanovená hodnota, tou je obvykle 0,6 – používají se i nižší, ty jsou podle našich zkušeností ale stejně v následných analýzách vyřazeny na základě výsledků CFA a testem validity (viz dále v této sekci).
Rozdíl EFA od PCA si nejlépe ukážeme za použití stejných dat jako v PCA, na něm se i naučíme faktorovou analýzu ovládat – video. Především si všimněte, že došlo k jasnějšímu vyčlenění skupin rašeliníků podél jednotlivých os.
Faktorová analýza je původní v psychologii a běžně se používá v sociálních vědách, kde existuje přesvědčení, že nic nelze měřit přímo, ale mnoho nepřímých proměnných má dobrou vypovídací schopnost o latentní proměnné, která nás zajímá, a tedy, že je možno ji poměrně přesně určit měřením známých proměnných. A priori tak předpokládám její existenci = mohu si dovolit ohýbat prostor PCA do podoby, která odpovídá mé představě. Z toho plyne, že toho musím dopředu o měřené proměnné opravdu hodně vědět 🙂
Vzhledem k tomuto základu úvahy, je vždy nutné testovat reliabilitu takového faktoru. Nejběžnější metodou je výpočet Cronbachova alfa. V “přesných” psychologických měřeních se důrazně doporučuje hodnota větší než 0,9, nicméně hodnota nad 0,7 je obecně považována za prokázání reliability. Ve Statistica Conbachovo alfa naleznete na kartě Statistics v záložce Mult/Exploratory v nabídce Reliability/Item. Touto analýzou též identifikujete, které z proměnných nemusí být do faktoru zahrnuty. Rychlý návod na ovládání je na videu.
Po testu reliability by měla ještě následovat CFA a po ní ještě jednou test reliability. Tu si ale tady ukazovat nebudeme. Teprve jí je faktor a především jeho složení potvrzen a lze jej použít v dalších analýzách. Hodnota latentního faktoru se pro další výpočty často aproximuje průměrnou hodnotou, kterou objekt získal na všech proměnných jež byly pomocí EFA, CFA a testem reliability za faktor určeny.
Korespondenční analýza – CA (Haruštiaková et al., 2012, kap. 6.3 celá)
Podobně jako PCA je jejím cílem snížení dimenzionality v datech (tedy identifikace gradientů, podél nichž se mění maximum variability souboru proměnných). Základním postupem řešení je taktéž maticová algebra. Na rozdíl od PCA a FA je ale maticí kontingenční tabulka, konkrétně její relativní vyjádření. Vstupní data tedy mohou být na nominální a ordinální škále a nemusejí mít normální rozdělení (což jsou doporučované, ale nikoliv povinné, předpoklady pro PCA a EFA). Vedle PCA je nejběžněji používanou metodou pro posouzení vazeb druhů a lokalit ve společenstvech. Předpokladem použití CA je unimodální odezva druhu na gradient ordinační osy (viz Lepš et Šmialuer, 2000, obr. 2-3 na s. 23) – použít PCA v tomto případě by bylo chybou (viz Lepš et Šmialuer, 2000, obr. 2-2 na s. 22).
V CA jde o rozklad na faktory (= ordinační osy) – rozkládá se tzv. inerce (celková inerce je rovna podílu celkové hodnoty chí-kvadrát statistiky a počtu pozorování) do částí, aby zůstala zachována maximální hodnota inerce na jednotlivých osách – význam os tak tedy také klesá s jejich pořadím jako v PCA – maximální podíl na inerci má první osa. Počet extrahovaných os je roven minimu z počtu řádků a sloupců sníženém o jedna. Pro interpretaci se používají osy vysvětlující významný podíl inerce (osy s minimálně nadprůměrnou hodnotou vlastního čísla). Matematicky se počítá buď pomocí maticové algebry nebo metodou váženého průměrování (viz Haruštiaková et al., 2012, s. 64-66) – my po Vás vysvětlení chtít nebudeme.
Nejčastěji používaným výsledkem CA je jako u PCA ordinační diagram (obvykle biplot objektů = vzorků a proměnných = druhů) do nějž je možné, analogicky jako v PCA, vložit pasivně environmentální proměnné. V diagramu jsou vzorky i druhy vyjádřeny jako body, jejichž souřadnice na ordinačních osách jsou označovány jako skóry. Jedná se, jednoduše řečeno, o “těžiště” polohy druhu (= proměnné) v novém sníženém počtu dimenzí. Pravděpodobnost výskytu druhu klesá všesměrně od tohoto bodu. Body vzorků pak odpovídají poloze vypočítané na základě zastoupení jednotlivých druhů v konkrétním vzorku (samozřejmě přepočítaném do souřadnic nového prostoru). Pro interpretaci, je tak zásadní všesměrná absolutní blízkost bodů v ordinačním diagramu (kompletní přehled uvádí Haruštiaková et al., 2012, v odrážkách na s. 68-69), my jako nejdůležitější vybíráme:
- body, které si jsou blíže, si jsou svým výskytem více podobné (druhy se vyskytují spolu a druh je významným indikátorem daného vzorku)
- body vzdálené v diagramu (podél osy) jsou si vzájemně nepodobné (druhy se spolu nevyskytují, druh se nevyskytuje ve vzorku)
- čím blíže je bod k souřadnici (0,0), tím je jeho význam pro oddělení druhů a vzorků menší (mají nevýrazný profil – obvykle to znamená, že druh je zastoupen ve většině vzorků a ve vzorku se vyskytují převážně druhy, které se často vyskytují i v jiných vzorcích) – podobně jako u PCA, body vzdálené od průsečíku ordinačních os mají větší indikační význam pro danou osu.
Samozřejmě pro posouzení jsou důležité i další výstupy analýzy – vlastní hodnoty matice, procento vysvětlené inerce a skóry (které jsou ale zobrazeny v diagramu).
V CA se běžně vyskytuje tzv. obloukový efekt – skóre na druhé ose vykazuje kvadratickou závislost na skórech na první ose (Haruštiaková et al., 2012, obr 6.11 na s. 71), což je důsledkem metody výpočtu a faktu, že ve vzorcích máme zastoupeno více druhů, které se vyskytují jen v málo vzorcích, což je normální u dlouhých gradientů (viz Biogeografie). Druhá osa pak není “reálným” gradientem. Nejčastějším postupem, jak se obloukového efektu zbavit, je detrendování druhé (a dalších) osy. Analýza se pak označuje jako detrendovaná korespondenční analýza – DCA. Ta je suverénně nejoblíbenější metodou posuzování druhových dat na základě pořízených vzorků.
Detrendování se prování polynomem – skóry na druhé ose jsou vyjádřeny polynomickou funkcí skórů první osy (jde o polynomickou regresi) a následně jsou skóry druhé osy nahrazeny novými skóry, které jsou rezidui z této regrese. Tedy v podstatě je regresní funkce použita jako kovariáta.
Dalším častým problémem výsledku CA je větší blízkost bodů u konců os než při jejich středu. To se upravuje přeškálováním segmentací. Ve výsledku je pak délka ordinační osy měřena v násobcích směrodatné odchylky. Toho se používá při rozhodování o metodě analýzy – pokud je gradient delší než 3 (obvykle ale i než 2), pak se použije CA nebo DCA, pokud je kratší, pak je vhodnější PCA. Pokud se hodnota délky gradientu blíží 4, pak vzorky na opačných koncích dané osy nemají žádný společný druh. Jak se změní ordinační diagram při detrendování druhé osy se můžete podívat na s. 71 (Haruštiaková et al., 2012).
V CA a DCA tak hodnotíme dlouhé gradienty, na nich pak mají velký vliv tzv. vzácné druhy – tedy proměnné vyskytující se v minimu vzorků a s malou frekvencí. Takových druhů je obvykle mnoho, zvláště když máme málo vzorků, které si nejsou podobné. Obvykle je vhodné transformací vliv těchto druhů omezit = downweighted of rare species.
Statistica není moc vhodným nástrojem pro CA (DCA neumí vůbec) analýzy ekologických dat. Nicméně si ji ukážeme protože sice neumí vše, ale umí toho mnoho a pokud nemáme po ruce jiný software, lze CA provést i v ní, ale POZOR!!!!
- nastavena je na hodnocení opravdu frekvenčních dat, a to např. ze sociologických dotazníkových průzkumů. Chcete-li něco hodnotit, projděte si pečlivě přiložené příklady: základní pro jednu proměnnou s vložením supplementary variables je popsán v dokumentaci zde, složitější s více proměnnými pak zde a zde.
- data druhových seznamů z lokalit vkládáme jako tabulku, kde ve sloupcích jsou druhy a v řádcích vzorky, na jejich průsečíku je frekvence (u vegetace vyjádřena např. hodnotami 1-9 podle Br.-Bl. škály převedené na číslo – tedy pokryvnost odpovídá frekvenci výskytu) to je volba Frequencies w/out grouping vars, pokud budete chtít používat jiných vstupů, což je vhodné u opravdu nominálních socioekonomických dat, tak si nejprve nastudujte tři výše v tomto výčtu uvedené odkazy
- Příklad z přírodních věd: Máme stejná data jako u shlukové analýzy. Naším cílem je posouzení dimenzí podél nichž dochází k diferenciaci druhového složení rašelinišť – výpočty a návod pro STATISTICA je na videu
- Příklad ze sociálních věd 1: DCA bylo použito při posouzení vazby množství úlovků na revírech ČRS podle příslušnosti rybáře k místní organizaci – příkladový článek.
- Příklad ze sociálních věd 2: DCA bylo použito při snaze o posouzení odpovědí na dotazníky sebrané na třech lokalitách – viz Figure 3 v příkladovém článku.
Mnohorozměrné škálování a nemetrické mnohonásobné škálování MDS, NMDS (Haruštiaková et al., 2012, kap 6.4 a 6.5 celé)
Jde o další metodu snížení počtu dimenzí, tentokrát založenou na matici vzdáleností. Má své metrické i nemetrické techniky. Výsledkem je rozmístění objektů v novém souřadnicovém systému o menším počtu dimenzí.
Počet dimenzí se, stejně jako u EFA, nastavuje ručně. Čím je větší počet dimenzí, tím je metoda přesnější. Vzhledem k tomu, že je ale naším cílem minimalizovat počet dimenzí, tak musíme najít optimální variantu, nízkého, ale “věrohodného” počtu dimenzí. K tomu slouží dva základní ukazatelé:
- měřítko reprezentace (stress, D-hat value)
- cizost (alienation, D-star value)
Obě určují míru (na základě pořadí) vazby nové vzdálenosti na vzdálenost původní (viz dokumentace). Nabývají hodnot 0 až 1 a platí, že čím blíže je číslo nule, tím je výsledek lepší. Dalším ukazatelem je Shaperdův diagram, který vyjadřuje nové vzdálenosti (na ose y) versus původní vzdálenosti (na ose x) – linií jsou vyneseny hodnoty D-hat vs. data a body původní vzdálenosti, pokud body “sedí” na linii, lze se domnívat, že naše nastavení počtu dimenzí “odpovídá” původním datům.
Samotný proces výpočtu je iterační. Podle badatelem určeného počtu dimenzí jsou spočítány vlastní vektory a koordináty původních proměnných na nových dimenzích. Vypočítány jsou ukazatelé a objekty jsou posunuty směrem snížení D-hat value, opět se počítají ukazatelé a srovnávají s předchozími, takto postupuje proces až do nastaveného počtu iterací nebo dosažení minima D-hat.
Problémem MDS/NMDS je nutnost nastavení počtu dimenzí a také to, že funkce iteračního procesu identifikují lokální a nikoliv globální minimum, proto se doporučuje proces několikrát opakovat s různými počátečními nastaveními. V praxi lze tohoto postupu mino jiné použít před shlukovou analýzou K-průměrů – lze totiž určit “optimální” počet dimenzí a tím i shluků v datech – MDS/NMDS je typická průzkumná metoda, podávající informaci o struktuře dat.
Výhodou MDS/NMDS je možnost využití matic vzdáleností, které nemají euklidovskou vzdálenost, nevýhodou, podobně jako u EFA, je citlivost na nastavený počet dimenzí, no a samozřejmě také citlivost na použitou míru vzdáleností.
Výsledkem analýzy je ordinační diagram znázorňující body (= objekty) v souřadnicové síti nových dimenzí pomocí skórů. POZOR!!!! – nové dimenze nejsou jako v předchozích analýzách lineárně závislé na původních proměnných.
MDS je původně doma v psychologii, kde slouží jako základní nástroj pro analýzu sémantického diferenciálu. Proto cílem MDS není zkoumání vazeb mezi proměnnými, ale mezi objekty – matice vzdáleností je ale počítána z hodnot dosažených objekty na jednotlivých proměnných.
POZOR!!!! Statistica vyžaduje zadat matici vzdáleností a nikoliv surová databázová data – důvod je zřejmý, jednotky míry vzdáleností jsou na badateli. Nejjednodušeji je lze získat z hierarchické shlukové analýzy. NMDS Statistica neumí.
- Příklad z přírodních věd 1: Mým cílem je identifikace dimenzí vzájemné druhové podobnosti rašelinišť podle druhového složení. Nejprve musíme získat matici vzdáleností lokalit (video) podle zastoupení druhů, následně mohu provést MDS (video).
- Příklad z přírodních věd 2: NMDS bylo použito při klasifikaci vegetace svahů říčních údolí – viz první část Results v příkladovém článku.