Obsah

Seriál 30. ročníku

Text seriálu

Úlohy

(10 bodů)1. Série 30. Ročníku - S. náhodná

 

  • Zkuste vlastními slovy popsat, co je to náhodná veličina a jaké má vlastnosti (postačí vlastními slovy objasnit následující pojmy: náhodná veličina, rozdělení náhodné veličiny, realizace náhodné veličiny, střední hodnota, rozptyl, histogram).
  • Vygenerujte grafy hustot pravděpodobnosti (případně pravděpodobností nabývání jednotlivých hodnot) všech v seriálu popsaných rozdělení náhodných veličin pro různé typy parametrů daného rozdělení a popište, jaký má změna parametru/ů vliv na tvar hustoty pravděpodobnosti (případně pravděpodobností nabývání jednotlivých hodnot).
  • Vygenerujte z přiložených dat histogramy a pokuste se určit, ze kterého rozdělení tato data pocházejí.
  • Definujme si náhodnou veličinu $X$ jako výsledek hodu „férovou“ šestistěnnou kostkou (všechna čísla padají se stejnou pravděpodobností). Určete rozdělení náhodné veličiny $X$ a dále spočítejte $\mathrm{E}X$ a $\mathrm{var}X$.

Bonus: Uveďte příklad dvou náhodných veličin, které mají stejnou střední hodnotu i stejný rozptyl, ale mají různá rozdělení.

Pro práci s daty a vykreslování grafů použijte výpočetní prostředí R. Pro vyřešení těchto úkolů postačí drobně upravit přiložený skript, ve kterém je pomocí komentářů v kódu vysvětlena potřebná syntaxe jazyka R.

Michal stanovil zadání úlohy náhodně, snad nebude moc těžká.

(10 bodů)2. Série 30. Ročníku - S. odhadnutelná

 

  • Zkuste vlastními slovy popsat, k čemu slouží intervalový odhad střední hodnoty v normálním rozdělení a uveďte jeho fyzikální interpretaci (postačí vlastními slovy popsat následující: fyzikální interpretace odhadu střední hodnoty, rozdíl mezi (bodovým) odhadem a intervalovým odhadem, nejdůležitější vlastnost intervalového odhadu, metoda zkráceného zápisu intervalového odhadu, nejistota měření). Není potřeba uvádět přesná matematická odvození, stačí požadované pojmy a vlastnosti stručně popsat.
  • V přiloženém datovém souboru mereni1.csv najdete naměřené hodnoty určité fyzikální veličiny (uvažujte nejistotu typu B $s_\mathrm{B} = 0,\! 1$ ). Zkonstruujte z těchto dat bodový i intervalový odhad měřené fyzikální veličiny a krátce interpretujte jejich význam.
  • Předpokládejme, že měříme určitou fyzikální veličinu a víme, že vlivem použité metody měření budou mít naměřená data rozptyl rovný konstantě $c$ (nejistotu typu B neuvažujte). Kolik musíme přibližně provést měření, abychom dosáhli nejistoty měření menší než $s$?
  • V přiloženém datovém souboru mereni2.csv najdete data měření stejné fyzikální veličiny dvěma různými způsoby (nejistotu typu B neuvažujte). U které metody byla použitá měřící aparatura přesnější? Který způsob měření dal přesnější výsledek měření? U obou otázek své závěry i stručně zdůvodněte.

Bonus: Zkuste odvodit, že v normálním rozdělení je výběrový rozptyl nestranným odhadem skutečného rozptylu (tj. střední hodnota výběrového rozptylu je rovna skutečnému rozptylu).

Pro řešení tohoto úkolu můžete použít libovolné zdroje (pokud je budete řádně citovat). Pro práci s daty použijte výpočetní prostředí R. Pro vyřešení těchto úkolů postačí drobně upravit přiložený skript, ve kterém je pomocí komentářů v kódu vysvětlena potřebná syntaxe jazyka R.

Michal si dal v zadání pozor na hrubé chyby.

(10 bodů)3. Série 30. Ročníku - S. limitní

 

  • Zkuste vlastními slovy popsat postup konstrukce intervalových odhadů střední hodnoty v případě obecného rozdělení měřených dat (postačí vlastními slovy popsat následující: centrální limitní věta a předpoklady jejího použití, kovariance a korelace (a jejich odhady), vícerozměrná centrální limitní věta a předpoklady jejího použití, zákon šíření nejistot a kdy ho lze použít). Není potřeba uvádět přesná matematická odvození, stačí požadované pojmy a vlastnosti stručně popsat.
  • V přiloženém datovém souboru mereni3-1.csv najdete výsledky měření určité fyzikální veličiny $v$. Předpokládejme, že si nemůžeme být jisti, zda mají měřená data normální rozdělení. Vyjádřete nejistotu měření této fyzikální veličiny (nejistotu typu B neuvažujte), zkonstruujte intervalový odhady na základě CLV a stručně interpretujte jeho význam. Jak by se změnily výsledky a interpretace, pokud bychom měli k dispozici jen čtvrtinu měření (řekněme první čtvrtinu dat z datového souboru)?
  • Předpokládejme, že naším cílem je naměřit fyzikální veličiny $x$ a $y$, které budeme chtít využít pro dosazení do vzorce $v = \frac{1}{2} x y^2$. Předpokládejme, že díky znalosti způsobu měření jsme si jisti, že jsou všechna měření na sobě nezávislá a ze zpracování naměřených dat měření máme následující výsledky, které jsou založeny na velkém počtu měření (více než 30 měření každé fyzikální veličiny) $x = (5,\! 2 \pm 0,\! 1)$, $y = (12,\! 84 \pm 0,\! 06)$. Určete odhad fyzikální veličiny $v$ a nejistotu měření fyzikální veličiny $v$.

Nápověda: Mohly by se vám hodit následující vztahy: $$\frac{\partial}{\partial x} \( \frac {1}{2} x y^2 \) = \frac {1}{2} y^2\, ,$$ $$\frac{\partial}{\partial y} \( \frac {1}{2} x y^2 \) = x y \, .$$ * Pomocí simulace ve výpočetním prostředí //R// demonstrujte platnost centrální limitní věty. Tj. generujte $n$-tice nezávislých realizací náhodné veličiny, která nemá normální rozdělení (pro tento případ použijte exponenciální, rovnoměrné a Poissonovo rozdělení s libovolně zvolenými parametry) a na histogramu ukažte, že pokud na data provedeme následující transformaci $\sqrt{n}\frac{\overline{x_n - \mu}}{S_n}\, ,$ takto transformovaná data už budou rozdělena přibližně podle normálního rozdělení $N(0,1)$. (Součástí hodnocení bude i hodnocení vzhledu grafů – zejména vhodně zvolené popisky os a legenda.)

Bonus: Předpokládejme, že naším cílem je naměřit fyzikální veličiny $x$ a $y$, které budeme chtít dosadit do vzorce $$v = x^2 \sin{y}\, .$$ Uvažujme nejobecnější model měření (tj. měřená data nemají normální rozdělení a měření různých fyzikálních veličin na sobě mohou být závislá). V datovém souboru mereni3-2.csv máme výsledky měření fyzikálních veličin $x$ a $y$, určete nejistotu určení veličiny $v$ a zkonstruujte pro ni intervalový odhad.

Michal se pokusil vymyslet limitně těžké zadání seriálové úlohy.

(10 bodů)4. Série 30. Ročníku - S. testovací

 

  • Zkuste vlastními slovy popsat, k čemu a jak se používá testování hypotéz (postačí vlastními slovy popsat následující: hypotéza a alternativa, chyba 1. a 2. druhu, hladina testu, testová statistika, kritický obor testu, $p$-hodnota testu pro konkrétní naměřená data). Není potřeba uvádět přesná matematická odvození, stačí požadované pojmy a vlastnosti stručně popsat.
  • V přiloženém datovém souboru testovani1.csv najdete naměřené hodnoty určité fyzikální veličiny. Pomocí jednovýběrového $t$-testu otestujte, zda je skutečná hodnota měřené fyzikální veličiny rovna $20$. Dále předpokládejme, že je naším cílem ukázat, že hodnota měřené fyzikální veličiny je větší než $20$. Použijte vhodnou jednostrannou modifikaci $t$-testu k tomu, abyste toto tvrzení ověřili (dejte si pozor na správné zvolení hypotézy a alternativy).
  • V přiloženém datovém souboru testovani2.csv najdete naměřené hodnoty 2 různých fyzikálních veličin. Představujme si, že se jedná o měření stejné fyzikální charakteristiky ale za různých vnějších podmínek (teplota, tlak atd.). Pomocí dvouvýběrového $z$-testu otestujte hypotézu, že hodnota této fyzikální charakteristiky je pro obě volby vnějších podmínek stejná.
  • Použijte stejná data jako v seriálové úloze z první série a pomocí Kolmogorovova-Smirnovova testu určete, který ze 4 vzorků dat pochází z normálního rozdělení a který vzorek pochází z exponenciálního rozdělení.

Bonus: Předpokládejte, že máte k dispozici měření 2 fyzikálních veličin (tedy 2 sady naměřených hodnot), kde jsou všechna měření na sobě nezávislá. Odvoďte upravený dvouvýběrový $z$-test, který by testoval hypotézu, že skutečná hodnota první měřené fyzikální veličiny je dvojnásobek skutečné hodnoty druhé měřené fyzikální veličiny. Pro udělení bodů je nutné a postačuje odvodit podobu testové statistiky a kritického oboru (Nápověda: Použijte vícerozměrnou verzi CLV, kde vhodně zvolíte funkci $f$, a dále postupujte analogicky jako u odvození klasického dvouvýběrového $z$-testu.).

Pro práci s daty použijte výpočetní prostředí R. Pro vyřešení těchto úkolů postačí drobně upravit přiložený skript, ve kterém je pomocí komentářů v kódu vysvětlena potřebná syntaxe jazyka R.

Michal chtěl otestovat, jak těžké úlohy řešitelé zvládnou.

(10 bodů)5. Série 30. Ročníku - S. lineární

 

  • Zkuste vlastními slovy popsat, k čemu a jak se používá lineární regrese (postačí vlastními slovy popsat následující: dva hlavní případy aplikace lineární regrese, používaný model, předpoklady modelu, postup volby prokládané funkce, způsob vyjádření nejistot měření, základní grafické metody regresní diagnostiky). Není potřeba uvádět přesná matematická odvození, stačí požadované pojmy a vlastnosti stručně popsat.
  • V přiloženém datovém souboru linreg1.csv naleznete výsledky určitého fyzikálního experimentu, ve kterém jsme měřili dvojice dat $(x_{i},y_{i})$. Naměřenými daty chceme proložit teoretickou funkci, kterou je v tomto případě parabola, tedy funkce tvaru

$$f(x)=ax^2 + bx + c$$ Hlavním cílem experimentu je určit hodnotu koeficientu $a$ (tedy koeficient u $x^2$). Určete hodnotu tohoto koeficientu včetně nejistoty měření. Není potřeba provádět regresní diagnostiku.

  • V přiloženém datovém souboru linreg2.csv naleznete výsledky určitého fyzikálního experimentu, ve kterém jsme měřili dvojice dat $(x_{i},y_{i})$. Naměřenými daty chceme proložit teoretickou funkci, kterou je v tomto případě logaritmická funkce, tedy funkce tvaru

$$f(x)=a + b \cdot \log{x} \, .$$ Hlavním cílem zpracování dat je vykreslit graf naměřených dat spolu s proloženou teoretickou závislostí. Vykreslete takovýto graf (včetně intervalového odhadu pro prokládanou funkci) a stručně ho okomentujte (takovýto graf musí mít všechny náležitosti). Není potřeba provádět regresní diagnostiku.

  • Předpokládejme, že máme naměřeny dvojice dat $(x_{i},y_{i})$ a chceme jimi proložit lineární funkční závislost, tedy funkci tvaru

$$f(x)=a + bx \, .$$ Odvoďte přesnou podobu vzorce na výpočet hodnoty odhadů regresních koeficientů. Můžete použít libovolnou ze dvou metod představených v seriálu a také libovolné jiné zdroje, pokud je budete řádně citovat. Vzorec chceme opravdu odvodit (tj. uvést výpočet), nikoliv pouze napsat.

Bonus: V druhé a třetí úloze proveďte regresní diagnostiku a diskutujte, zda jsou splněny všechny potřebné předpoklady (pokud to jde, proveďte také test vhodnosti prokládané funkce a diskutujte jeho výsledky). Pro práci s daty použijte výpočetní prostředí R. Pro vyřešení těchto úkolů postačí drobně upravit přiložený skript, ve kterém je pomocí komentářů v kódu vysvětlena potřebná syntaxe jazyka R.

Michal někde slyšel, že lineární regrese je prý úplně jednoduchá věc.

(10 bodů)6. Série 30. Ročníku - S. nelineární

 

  • Zkuste vlastními slovy popsat, k čemu a jak se používá nelineární regrese (postačí vlastními slovy popsat následující: model nelineární regrese, způsob odhadu regresních koeficientů, vyjádření nejistot odhadů regresních koeficientů a hodnot prokládané funkce, statistické testy hodnot regresních koeficientů, identifikovatelnost parametrů a způsob volby prokládané funkce). Není potřeba uvádět přesná matematická odvození, stačí požadované pojmy a vlastnosti stručně popsat.
  • V přiloženém datovém souboru regrese1.csv naleznete dvojice hodnot $(x_{i},y_{i})$. Těmito daty chceme proložit teoretickou funkční závislost, kterou je v tomto případě sinusoida, tedy funkce tvaru

$$f(x)=a + b \cdot \sin{(cx + d)}\, .$$ Vykreslete graf naměřených hodnot a proložené funkce a stručně ho okomentujte (takovýto graf musí mít všechny náležitosti). Není potřeba dělat regresní diagnostiku.
Nápověda: Dejte si pozor na identifikovatelnost parametrů v tomto modelu a vhodné omezující podmínky na parametr $c$.

  • V přiloženém datovém souboru regrese2.csv naleznete dvojice hodnot $(x_{i},y_{i})$. Těmito daty chceme proložit teoretickou funkční závislost, kterou je v tomto případě exponenciála, tedy funkce tvaru

$$f(x)=a + \mathrm{e}^{bx + c}\, .$$ Určete hodnoty odhadů všech regresních koeficientů včetně nejistot měření.
Nápověda: Grafickou metodou ověřte předpoklad homoskedasticity a v případě potřeby pro určení nejistot měření regresních koeficientů použijte Whiteův (sendvičový) odhad kovarianční matice.

  • V přiloženém datovém souboru regrese3.csv naleznete dvojice hodnot $(x_{i},y_{i})$. Těmito daty chceme proložit teoretickou funkční závislost, kterou je v tomto případě hyperbola, tedy funkce tvaru

$$f(x)=a + \frac{1}{bx + c}\, .$$ Vykreslete graf naměřených dat v podobě průměrů a chybových úseček a proložené funkce a stručně ho okomentujte (takovýto graf musí mít všechny náležitosti). Proveďte regresní diagnostiku.

Bonus: V přiloženém datovém souboru regrese4.csv naleznete dvojice hodnot $(x_{i},y_{i})$. Těmito daty chceme proložit teoretickou závislost, která je ovšem příliš složitá na analytické vyjádření. Proložte těmito daty regresní spliny (s vhodně zvolenými uzly a vhodně zvoleným stupněm). Pro práci s daty použijte výpočetní prostředí R. Pro vyřešení těchto úkolů postačí drobně upravit přiložený skript, ve kterém je pomocí komentářů v kódu vysvětlena potřebná syntaxe jazyka R.

Michal chtěl udělat poslední sérii co možná nejtěžší.