Asociační koeficienty

Základy: Podobnosti, nepodobnosti a vzdálenosti

Vstupním souborem pro vícerozměrné statistické metody jsou tabulky charakteru databáze, kdy na řádcích jsou jednotlivé případy (= objekty, jejich počet je značen n) a ve sloupcích jsou jednotlivé parametry (jejich počet je značen p). K dispozici je tedy n x p matice objektů a parametrů. Z ní je počítána asociační matice (= matice vztahů), kde v řádcích i sloupcích jsou jednotlivé parametry a v matici jsou na základě hodnot objektů počítané asociační koeficienty (Haruštiaková et al., 2012 kap. 4).

Asociační koeficienty proměnných

Základní asociační koeficienty proměnných jsme poznali v základní statistice – kovarianci, Pearsonův korelační koeficient, Spearmanův korelační koeficient.

Asociační koeficienty vzdálenosti objektů

Ty patří v mnohorozměrných analýzách k nejvýznamnějším. Jejich podstatou je skutečnost, že koeficient má maximální hodnotu dvou objektů, které jsou nejvíce odlišné a objekty identické mají vzdálenost nulovou. Podmínky uvádí Haruštiaková et al. (2012) na s. 16, zde je i jasný popis nejčastěji používané metriky vzdálenosti – Euklidovská metrika – na příkladu dvou proměnných. Její použití předpokládá standardizovaná vstupní data. Vzhledem k tomu, že je základem shlukových analýz, je jasný požadavek na standardizaci dat před využitím shlukové analýzy. Dále jsou uvedeny další metriky bojující s nedostatky euklidovské vzdálenosti.

Asociační koeficienty podobnosti objektů

Nejsou metrické = neplatí pro ně zásady uvedené na s. 16 (Haruštiaková et al., 2012) a nelze je přímo umístit v metrickém prostoru – nicméně je lze převést na vzdálenosti. Jejich základem je posouzení “shody” v hodnotách dosažených u jednotlivých proměnných (u většiny koeficientů platí, že je míra podobnosti je vlastně vyjádřením relativní shody). Koeficienty mohou být symetrické nebo nesymetrické – nesymetrické jsou založeny na předpokladu, že některé kombinace dosažených hodnot mají jinou váhu než ostatní – typicky duplicitní nulové hodnoty u srovnávaných objektů nejsou informací o podobnosti. Koeficienty byly vyvinuty primárně pro binární proměnné a následně byly určeny i jejich kvantitativní varianty – tabulky v kapitole 4 (Haruštiaková et al., 2012) jsou snad jasné.