Náhodné veličiny

Všechny proměnné, které měříme, jsou náhodnými veličinami, . . . co to znamená? 

Veličinu chápeme jako vyjádření výsledku měření výskytu nějaké charakteristiky (označované jako znak) nějakého jevu vázaného na objekt mého výzkumu. Problémem je, že všechna měření všech znaků charakteristických pro všechny jevy jsou vždy ovlivněny spoustou faktorů, které měřit nejsem schopen, ani při největší snaze. Tyto faktory mají za následek, že veličina pak ze své podstaty nemůže být nikdy změřena absolutně správně. Za různých konstelací neměřitelných a nesledovatelných podmínek pak může mé měření dopadnout různě. To je důvod, proč se měřené veličiny označují jako veličiny náhodné.

Pravděpodobnost

Z výše uvedeného plyne, že to, co konkrétně změřím, je pouze konkrétní realizace (daná v podstatě náhodou) této náhodně měřené veličiny z nekonečně velkého potenciálně možného počtu veličin. My jsme si toho vědomi a tak víme, že to, co jsme aktuálně změřili, je pouhou jednou variantou z obvykle nekonečného množství teoreticky změřitelných hodnot – měření mohu opakovat tolikrát, kolik my zbývá sil, a pokaždé změřím něco (trošku) jiného. Předpokládám ale, že různé konkrétní hodnoty mohu změřit s různou pravděpodobností. Jinak řečeno, určité hodnoty mohou být naměřeny častěji než hodnoty jiné.

Každá náhodná veličina tak má své rozdělení pravděpodobností měření konkrétních hodnot. Každá konkrétní hodnota je tak charakteristická pravděpodobností, že bude její hodnota změřena. Tuto skutečnost je pak teoreticky možné vyjádřit funkcí hustoty pravděpodobnosti, jež se často vyjadřuje grafem, který, vulgárně řečeno, vypadá jako funkční spojité vyjádření histogramu – na ose x jsou jednotlivé konkrétní hodnoty náhodné veličiny a na ose y je pak míra pravděpodobnosti výskytu takového hodnoty (vyjádřená v hodnotě funkce hustoty pravděpodobnosti). Plocha pod touto křivkou se pak rovná 100% pravděpodobnosti změření všech hodnot proměnné.

Distribuční funkce

Dalším typem vyjádření pravděpodobnosti výskytu hodnoty náhodné veličiny je distribuční funkce pro libovolnou měřenou hodnotu, která udává pravděpodobnost, že reálně měřená hodnota bude menší než hodnota libovolně stanovená. Hustota pravděpodobnosti je derivací distribuční funkce.

Přesnost odhadu

Pokud nepředpokládáme existenci světa o sobě (jak jsou něm přesvědčeni např. Platón a Kant), pak průměr základního souboru není náhodnou veličinou – je konečný a Božsky správný. Nicméně stále platí, že průměr z náhodného výběrového souboru náhodnou veličinou je – teoreticky lze ze základního souboru udělat nekonečně mnoho náhodných výběrů a průměry těchto jednotlivých náhodných výběrů se budou lišit – tabule. V logice tohoto uvažování mohu kromě variability průměru jednoho náhodného výběru (dané směrodatnou odchylkou tohoto průměru) identifikovat také variabilitu průměru z průměrů. Tuto variabilitu nemusím ale počítat z nekonečného množství náhodných výběrů z daného základního souboru, ale mohu ji odhadnout na základě rozptylu a počtu měření, ze kterých byl průměr vypočítán. Tato hodnota se vypočítá jako odmocnina z podílu rozptylu a počtu měření – jde o hodnotu přesnosti odhadu průměru výběrového souboru = střední chyba průměru, nejčastěji se značí S.E. (z anglického standard error of mean). Vedle směrodatné odchylky je střední chyba průměru druhou nejdůležitější charakteristikou variability průměru, tentokrát ale nikoliv ve vztahu k vlastním měřeným datům (jak je tomu u směrodatné odchylky) ale k průměru základního souboru – všimněte si ve vzorci, že je závislá na počtu měření – čím je počet měření větší, tím je menší S.E. při stejné hodnotě průměru i směrodatné odchylky. V R je třeba aktivovat package sciplot a v něm je to funkce se(). V MS Excel se při výpočtu S.E. lze naučit používat dříve zmíněnou funkci MS ExcelPOČET – která vrátí počet buněk v poli dat a je v podstatě zjednodušenou variantou dříve poznané funkce ČETNOSTI. Taktéž si ukážeme možnosti použití více funkci a vkládání funkcí do funkcí na příkladu výpočtu střední chyby průměru = SMODCH.VÝBĚR(A2:A22)/ODMOCNINA(POČET(A2:22)), další poznanou funkcí tak bude ODMOCNINA.

Třetí charakteristikou variability průměru jsou pak konfidenční intervaly spolehlivosti průměru. Jde o interval v němž s nějakou mírou pravděpodobnosti průměr leží. Průměr sám je samozřejmě bodovým odhadem, ale už z S.D. je jasné, že data mají jistou variabilitu a všechny měřené hodnoty nemají obvykle hodnotu průměru. S ohledem na počet měření jsem pak schopen identifikovat míru pravděpodobnosti, ve které průměr “opravdu” leží. Obvykle se udává interval 95% – jde o interval, ve kterém s 95% pravděpodobností průměr leží (nejde tedy o bod, ale o interval hodnot). Vypočítá se jako hodnota průměru plus/mínus kritická hodnota testovacího kritéria pro hladinu významnosti alfa = 0,05 (najdeme ji u t-testu a je rozdílná pro rozdílné počty měření, potažmo stupně volnosti – k tomuto najdete vysvětlení u testování hypotéz).