Bonus: Uveďte příklad dvou náhodných veličin, které mají stejnou střední hodnotu i stejný rozptyl, ale mají různá rozdělení.
Pro práci s daty a vykreslování grafů použijte výpočetní prostředí R. Pro vyřešení těchto úkolů postačí drobně upravit přiložený skript, ve kterém je pomocí komentářů v kódu vysvětlena potřebná syntaxe jazyka R.
Michal stanovil zadání úlohy náhodně, snad nebude moc těžká.
Bonus: Zkuste odvodit, že v normálním rozdělení je výběrový rozptyl nestranným odhadem skutečného rozptylu (tj. střední hodnota výběrového rozptylu je rovna skutečnému rozptylu).
Pro řešení tohoto úkolu můžete použít libovolné zdroje (pokud je budete řádně citovat). Pro práci s daty použijte výpočetní prostředí R. Pro vyřešení těchto úkolů postačí drobně upravit přiložený skript, ve kterém je pomocí komentářů v kódu vysvětlena potřebná syntaxe jazyka R.
Michal si dal v zadání pozor na hrubé chyby.
Nápověda: Mohly by se vám hodit následující vztahy: $$\frac{\partial}{\partial x} \( \frac {1}{2} x y^2 \) = \frac {1}{2} y^2\, ,$$ $$\frac{\partial}{\partial y} \( \frac {1}{2} x y^2 \) = x y \, .$$ * Pomocí simulace ve výpočetním prostředí //R// demonstrujte platnost centrální limitní věty. Tj. generujte $n$-tice nezávislých realizací náhodné veličiny, která nemá normální rozdělení (pro tento případ použijte exponenciální, rovnoměrné a Poissonovo rozdělení s libovolně zvolenými parametry) a na histogramu ukažte, že pokud na data provedeme následující transformaci $\sqrt{n}\frac{\overline{x_n - \mu}}{S_n}\, ,$ takto transformovaná data už budou rozdělena přibližně podle normálního rozdělení $N(0,1)$. (Součástí hodnocení bude i hodnocení vzhledu grafů – zejména vhodně zvolené popisky os a legenda.)
Bonus: Předpokládejme, že naším cílem je naměřit fyzikální veličiny $x$ a $y$, které budeme chtít dosadit do vzorce $$v = x^2 \sin{y}\, .$$ Uvažujme nejobecnější model měření (tj. měřená data nemají normální rozdělení a měření různých fyzikálních veličin na sobě mohou být závislá). V datovém souboru mereni3-2.csv máme výsledky měření fyzikálních veličin $x$ a $y$, určete nejistotu určení veličiny $v$ a zkonstruujte pro ni intervalový odhad.
Michal se pokusil vymyslet limitně těžké zadání seriálové úlohy.
Bonus: Předpokládejte, že máte k dispozici měření 2 fyzikálních veličin (tedy 2 sady naměřených hodnot), kde jsou všechna měření na sobě nezávislá. Odvoďte upravený dvouvýběrový $z$-test, který by testoval hypotézu, že skutečná hodnota první měřené fyzikální veličiny je dvojnásobek skutečné hodnoty druhé měřené fyzikální veličiny. Pro udělení bodů je nutné a postačuje odvodit podobu testové statistiky a kritického oboru (Nápověda: Použijte vícerozměrnou verzi CLV, kde vhodně zvolíte funkci $f$, a dále postupujte analogicky jako u odvození klasického dvouvýběrového $z$-testu.).
Pro práci s daty použijte výpočetní prostředí R. Pro vyřešení těchto úkolů postačí drobně upravit přiložený skript, ve kterém je pomocí komentářů v kódu vysvětlena potřebná syntaxe jazyka R.
Michal chtěl otestovat, jak těžké úlohy řešitelé zvládnou.
$$f(x)=ax^2 + bx + c$$ Hlavním cílem experimentu je určit hodnotu koeficientu $a$ (tedy koeficient u $x^2$). Určete hodnotu tohoto koeficientu včetně nejistoty měření. Není potřeba provádět regresní diagnostiku.
$$f(x)=a + b \cdot \log{x} \, .$$ Hlavním cílem zpracování dat je vykreslit graf naměřených dat spolu s proloženou teoretickou závislostí. Vykreslete takovýto graf (včetně intervalového odhadu pro prokládanou funkci) a stručně ho okomentujte (takovýto graf musí mít všechny náležitosti). Není potřeba provádět regresní diagnostiku.
$$f(x)=a + bx \, .$$ Odvoďte přesnou podobu vzorce na výpočet hodnoty odhadů regresních koeficientů. Můžete použít libovolnou ze dvou metod představených v seriálu a také libovolné jiné zdroje, pokud je budete řádně citovat. Vzorec chceme opravdu odvodit (tj. uvést výpočet), nikoliv pouze napsat.
Bonus: V druhé a třetí úloze proveďte regresní diagnostiku a diskutujte, zda jsou splněny všechny potřebné předpoklady (pokud to jde, proveďte také test vhodnosti prokládané funkce a diskutujte jeho výsledky). Pro práci s daty použijte výpočetní prostředí R. Pro vyřešení těchto úkolů postačí drobně upravit přiložený skript, ve kterém je pomocí komentářů v kódu vysvětlena potřebná syntaxe jazyka R.
Michal někde slyšel, že lineární regrese je prý úplně jednoduchá věc.
$$f(x)=a + b \cdot \sin{(cx + d)}\, .$$
Vykreslete graf naměřených hodnot a proložené funkce a stručně ho okomentujte (takovýto graf musí mít všechny náležitosti). Není potřeba dělat regresní diagnostiku.
Nápověda: Dejte si pozor na identifikovatelnost parametrů v tomto modelu a vhodné omezující podmínky na parametr $c$.
$$f(x)=a + \mathrm{e}^{bx + c}\, .$$
Určete hodnoty odhadů všech regresních koeficientů včetně nejistot měření.
Nápověda: Grafickou metodou ověřte předpoklad homoskedasticity a v případě potřeby pro určení nejistot měření regresních koeficientů použijte Whiteův (sendvičový) odhad kovarianční matice.
$$f(x)=a + \frac{1}{bx + c}\, .$$ Vykreslete graf naměřených dat v podobě průměrů a chybových úseček a proložené funkce a stručně ho okomentujte (takovýto graf musí mít všechny náležitosti). Proveďte regresní diagnostiku.
Bonus: V přiloženém datovém souboru regrese4.csv naleznete dvojice hodnot $(x_{i},y_{i})$. Těmito daty chceme proložit teoretickou závislost, která je ovšem příliš složitá na analytické vyjádření. Proložte těmito daty regresní spliny (s vhodně zvolenými uzly a vhodně zvoleným stupněm). Pro práci s daty použijte výpočetní prostředí R. Pro vyřešení těchto úkolů postačí drobně upravit přiložený skript, ve kterém je pomocí komentářů v kódu vysvětlena potřebná syntaxe jazyka R.
Michal chtěl udělat poslední sérii co možná nejtěžší.