Regresní modely

Vycházejí ze stejných rámců jako různé typy ANOVA a zjednodušeně řečeno je od sebe dělí jen rozdíl v charakteru vysvětlujících proměnných – u ANOVA jsou kategoriální, u regresí mohou mít jakýkoliv typ dat, což platí i pro vysvětlovanou proměnnou. Právě podle jejich charakteru se rozlišují jednotlivé typy regresí. My se jim teoreticky moc věnovat nebudeme a omezíme se na jejich přehled a způsob ovládání ve STATISTICA. S vědomím toho, že pomocí Real Statistics lze většinu z toho, co si ukážeme, udělat i v MS Excel. Nejjednodušší jsou (mimo to, co jsme si ukázali v základním kurzu) regrese, kde na straně vysvětlované i vysvětlující stojí poměrové proměnné, ale jejich kombinace nejsou lineární.

Nelineární regrese

Nejčastěji se používá polynomiální regrese – závislost je konstantní, ale ne lineární. Ve výsledku se nám často podaří pěkně proložit křivku našimi daty, ale interpretace, především u polynomů vyšších stupňů, je v podstatě nemožná. Proto se snažíme používat maximálně kvadratickou regresi. To co těmito modely dokazujeme je “nelinearita” závislosti.

Nelineární (fukční) regrese umožňují proložit křivku zvolené funkce – nejlepší se nedají vybrat postupem jako u lineární regrese a obvykle jsou výstupem nějakého opakovacího (iteračního procesu) – program začne s nějakou nulovou verzí, vypočte metodou nejmenších čtverců reziduály, následně zvolí jiné nastavení výchozích hodnot a porovná jejich reziduály a reziduály prvního výpočtu, takovýchto výpočtů udělá velké množství a vybere ten “nejlepší” – najde lokální optimum, těch ale může být několik. Statisticky správnější je obvykle data nejprve transformovat a následně podrobit lineární regresi.

Příklad z přírodních věd: závislost druhové bohatosti na množství živin v půdě reprezentovaných amoniakálním dusíkem řešená na videu pomocí Graphs ve STATISTICA.

Nelineární regerese v Graphs ve STATISTICA.

Pokud potřebuji pracovat s větším množstvím polynomiálních nezávislých proměnných, pak musíme volit “Advanced models”, v ní “General linear” a na její kartě “Polynomial regression”.

Hierarchická mnohonásobná lineární regrese

Problém u mnoha regresí je ten, že máme obvykle skupiny vysvětlujících proměnných a nikoliv “jednotlivé” vysvětlující proměnné. Zajímá nás vliv jedné skupiny nezávislých proměnných na závislou proměnou, ale máme i další skupinu nezávislých proměnných, o které víme, že má na vysvětlovanou proměnnou vliv – tento nás ale nezajímá. Naším cílem je zjistit vliv první skupiny při spolupůsobení druhé skupiny. V podstatě nás tedy zajímá, jak se projeví vliv zařazení druhé skupiny proměnných na výslednou hodnotu Adjusted R2.

Příklad ze sociálních věd: Sledujeme zájem o daný typ outdoorové rekreační činnosti. Zajímá nás vliv vztahu k životnímu prostředí respondenta na zájem o tu konkrétní outdoorovou rekreační činnost. Nicméně vím, že existují další proměnné, které mají na zájem vliv – demografická a socioekonomická data o respondentovi.

V podstatě jde o “jednoduchou” variantu komplikovaných strukturálních modelů, kde pomocí série regresních koeficientů posuzujeme vazby mezi větším množstvím proměnných, jež vystupují často zároveň na úrovni vysvětlovaných i vysvětlujících. Nicméně zde mám dvě skupiny, kde mě nezajímá hierarchie jejich vlivu, ale jen chci posoudit jak zásadně se změní Adjusted R2, když do modelu, kromě proměnných o zájmu o životní prostředí vstoupí i data o demografických a socioekonomických ukazatelích o respondentovi.

Ve STATISTICA je zapotřebí v úvodním panelu zaškrtnout všechny varianty výpočtů v modelu, následně zvolit proměnné. Po odeslání se dostanete do panelu volby modelů, v něm musíte nejprve zvolit všechny vysvětlující proměnné a pak samozřejmě specifikaci modelu. Po odeslání lze mezi výsledky vpravo dole najít položku “Stepwise regression summary”, v ní najdete výsledek tohoto prvního kroku. Dáte OK, následně v hlavním výsledkovém okně dáte Cancel a ve volbách modelů vyberete jen část vysvětlujících proměnných, které Vás zajímají. Model nastavíte stejně a odešlete. V položce “Stepwise regression summary” najdete výsledek pro nový model a změny, ke kterým došlo oproti předchozímu modelu. Tímto způsobem můžete zeštíhlovat model po jedné nebo několika proměnných. Vždy ale musí jít o odebrání proměnných z předešlého modelu – nelze už žádné další přidávat (respektive lze, ale program nevypočítá změnu).

Další typy regresí

Všechny výše uvedené typy regresí měly společného jmenovatele v tom, že na straně vysvětlované proměnné (Lhs) i straně vysvětlujících proměnných (Rhs) mohly stát výhradně poměrové proměnné. To je ale značné omezení, protože velké množství dat má ordinální (stupnice v dotaznících) či nominální charakter (barva kožichu, pohlaví, geologický substrát). My jsme už skupinu modelů umožňující pracovat s Rhs nominálními proměnnými poznali – skupinu modelů ANOVA. ANOVA a další modely umožňující pracovat jen s poměrovými Lhs a kterýmikoliv Rhs označujeme jako obecné lineární modely (General Liner Models, GLM). Pro regrese obecných lineárních modelů platí odhady nezávislosti jednotlivých prediktorů – aditivita.

Příklad z přírodních věd: Závisí velikost snůšky vybraného druhu vodního ptáka na environmentálních charakteristikách polohy hnízda? Snůška je měřena součtem objemu všech vajec (poměrová proměnná), nezávislými proměnnými jsou vzdálenost od nejbližšího dalšího hnízda (poměrová proměnná), vzdálenost hnízda od volné vodní hladiny (poměrová proměnná), typ porostu podle rostlinné dominanty (4 typy, nominální proměnná). Výpočet ve Statistica je na videu.

Řešení regresní úlohy v GLM nástrojích STATISTICA.

Jejich zobecněním vznikají komplikovanější modely označované jako zobecněné lineární modely, čili Generalized Linear Models (GLZ). Rozšířeny jsou v tom slova smyslu, že u nich můžeme použít u Lhs proměnnou ordinálního i nominálního charakteru. Podle charakteru vysvětlované proměnné jsou definovány základní link funkce, pomocí kterých jsou převedeny hodnoty prediktorů b (beta) jednotlivých nezávislých proměnných z lineárního modelu (teoreticky zasahujících z mínus nekonečna do plus nekonečna) na ordinální nebo nominální stupnici toho kterého konkrétního prediktoru.

STATISTICA umožňuje komplexní volbu jednotlivých modelů ve svých panelech nástrojů – vysvětlení hlavních případů je asi jednodušší na konkrétních příkladech:

Příklad z přírodních věd: Zadání stejné jako předchozí, ale velikost snůšky je měřena počtem vajec, ten je nízký a má Poissonovo rozdělení – video s výpočtem.

Regrese závislé proměnné s Poissonovým rozdělením ve STATISTICA.

POZOR!!!!!! U následujících příkladů stejně jako u nominal multinomial závislé proměnné (kterou asi v praxi budete taky používat) STATISTICA bere jako porovnávací úroveň vždy tu úroveň, která je nejvyšší (číselně nebo abecedně) a v “Estimates” potom uvádí postupně od nejnižší úrovně porovnání s touto nejvyšší úrovní. Celkový model naleznete v “Summary of all effects”. Tento výsledek by se měl ještě zkontrolovat s modelem 1 a modelem 3 ANOVA (1 pro vyvážený design a 3 pro nevyvážený design) – Type 1 LR test, resp. Type 3 LR test. Lze počítat pro regresní model, kde na straně Lhs je proměnná s ordinální stupnicí:

Příklad z přírodních věd: Zadání stejné jako předchozí, ale velikost snůšky je měřena typem počtu vajec – nadprůměrná snůška, průměrná snůška, podprůměrná snůška – závislá proměnná je na ordinální stupnici – video.

Regrese závislé proměnné na ordinální stupnici ve STATISTICA.

. . . nebo i proměnná s bivariátní stupnicí:

Příklad z přírodních věd: Zadání stejné jako předchozí, ale ptám se na rozdíly, které odlišují hnízda s nadprůměrnou a podprůměrnou snůškou – závislá proměnná je tak nominální, bivariátní (podprůměrná versus nadprůměrná nebo jinak nadprůměrná ANO nebo NE) – video.

Regrese závislé proměnné na nominální (bivariátní) stupnici ve STATISTICA.

Bryophytes

Lycopods and Ferns

Gymnosperms

Angiosperms

Regresní modely

Nelineární regrese

Hierarchická mnohonásobná lineární regrese

Další typy regresí

Related