Saturday 25 November 2017

Przeprowadzka średnio autokowariancja


Funkcja autokorelacji Zauważ, że 0 jest wariancją procesu stochastycznego. Funkcja autokowariancji przy opóźnieniu k. dla k 0 szeregi czasowe są zdefiniowane przez funkcję autokorelacji (ACF) w przypadku opóźnienia k. dla k 0 szeregi czasowe są zdefiniowane przez wariancję szeregów czasowych r 0. Wykres r k przeciwko k jest znany jako korelogram. Obserwacja. Podana powyżej definicja autokowariancji różni się nieco od zwykłej definicji kowariancji między 1. , y n-k i k 1. , y n pod dwoma względami: (1) dzielimy przez n zamiast nk i odejmujemy ogólną średnią zamiast środków 1. , y n-k i k 1. , y n odpowiednio. Dla wartości n, które są duże w odniesieniu do k. różnica będzie niewielka. Przykład 1 . Obliczyć s 2 i r 2 dla danych w zakresie B4: B19 na rysunku 1. Rysunek 1 ACF przy opóźnieniu 2 Wzory do obliczania s 2 i r 2 przy użyciu zwykłych funkcji COVARIANCE. S i CORREL są pokazane w komórkach G4 i G5. Formuły dla s 0. s 2 i r 2 z definicji 2 są pokazane w komórkach G8, G11 i G12 (wraz z alternatywnym wzorem w G13). Zauważ, że wartości dla s 2 w komórkach E4 i E11 nie są zbyt różne, podobnie jak wartości dla r 2 pokazane w komórkach E5 i E12 im większa próba tym bardziej prawdopodobne, że te wartości będą podobne Prawdziwa funkcja statystyczna. Pakiet zasobów statystycznych Real Resources zapewnia następujące funkcje: ACF (R1, k) wartość ACF w opóŸnieniu k dla szeregu czasowego w zakresie R1 ACVF (R1, k) autowariancja w opóŸnieniu k dla szeregu czasowego w zakresie R1 Należy zwrócić uwagę, że ACF (R1, k) jest równoważne SUMPRODUCT (OFFSET (R1,0,0, COUNT (R1) - K) - AVERAGE (R1), OFFSET (R1, k, 0, COUNT (R1) - K) - AVERAGE (R1 )) Obserwacja DEVSQ (R1). Istnieją teoretyczne zalety stosowania podziału przez n zamiast nk w definicji s k. mianowicie, że macierze kowariancji i macierzy korelacji będą zawsze określone jako nieujemne (patrz Matryce o pozytywnej definicji). Obserwacja. Mimo że definicja autokorelacji różni się nieco od korelacji, k (lub r k) nadal przyjmuje wartość od -1 do 1, jak widać w Właściwość 2. Przykład 2. Określić ACF dla opóźnienia 1 do 10 dla średnich wartości Dow Jones za miesiąc październik 2018, jak pokazano w kolumnach A i B na fig. 2 i skonstruować odpowiedni korelogram. Wyniki pokazano na rysunku 2. Wartości w kolumnie E oblicza się, umieszczając wzór ACF (B4: B25, D5) w komórce E5, podświetlając zakres E5: E14 i naciskając Ctrl-D. Rysunek 2 ACF i korelogram Jak widać na podstawie wartości w kolumnie E lub na wykresie, wartości ACF powoli schodzą w kierunku zera. Jest to typowe dla procesu autoregresyjnego. Obserwacja. Zasadą jest przeprowadzenie powyższego procesu dla opóźnień 1 do n 3 lub n 4, które dla powyższych danych wynoszą 224 6 lub 223 7. Naszym celem jest sprawdzenie, czy do tego czasu ACF jest znacząca (tj. Statystycznie różne od zera). Możemy to zrobić, używając następującej właściwości. Właściwość 3 (Bartlett): w dużych próbkach, jeśli szeregi czasowe o rozmiarze n są czysto losowe, to dla wszystkich k Przykład 3. Ustal, czy ACF w opóźnieniu 7 jest znaczący dla danych z Przykładu 2. Jak widzimy na Rysunku 3, krytyczną wartością dla testu w Właściwości 3 jest .417866. Od r 7 .303809 lt. 417866, wnioskujemy, że nie różni się znacząco od zera. Rysunek 3 Test Bartlettów Warto zauważyć, że wartości k do 5 są znaczące, a wartości wyższe niż 5 nie są znaczące. Bardziej statystycznie wydajna wersja Property 4, szczególnie dla mniejszych próbek, jest podana przez następną właściwość. Przykład 4. Użyj statystyk Box-Pierce i Ljung-Box, aby określić, czy wartości ACF w Przykładzie 2 są statystycznie równe zeru dla wszystkich opóźnień mniejszych niż lub równych 5 (hipoteza zerowa). Wyniki pokazano na fig. 4. Figura 4 Testy przebicia w pudełku i testu Ljung-Box Na podstawie tych testów widzimy, że ACF (k) znacząco różni się od zera dla co najmniej jednego k5, co jest zgodne z korelogramem na Figurze 2. Rzeczywiste funkcje statystyczne. Pakiet zasobów Real Statistics Resource Pack oferuje następujące funkcje do wykonywania testów opisanych przez powyższe właściwości. BARTEST (r, n, lag) p-wartość testu Bartletta dla współczynnika korelacji r na podstawie szeregu czasowego o wielkości n dla określonego opóźnienia. BARTEST (R1. Opóźnienie) BARTEST (r, n, opóźnienie), gdzie n liczba elementów w zakresie R1 i r ACF (R1, opóźnienie) PIERCE (R1 ,, opóźnienie) Box-Pierce statystyka Q dla zakresu R1 i określone opóźnienie BPTEST (R1, lag) wartość p dla testu Box-Pierce dla zakresu R1 i określonego opóźnienia LJUNG (R1, opóźnienie) Statystyka Ljung-Box Q dla zakresu R1 i określonego opóźnienia LBTEST (R1, opóźnienie) p - wartość dla testu Ljung-Box dla zakresu R1 i określonego opóźnienia W powyższych funkcjach, w których brakuje drugiego argumentu, test jest wykonywany przy użyciu współczynnika autokorelacji (ACF). Jeśli przypisana wartość to 1 lub pacf, wówczas test jest wykonywany przy użyciu częściowego współczynnika autokorelacji (PACF), jak opisano w następnej sekcji. W rzeczywistości, jeśli drugi argument przyjmuje dowolną wartość z wyjątkiem 1 lub pacf, wówczas używana jest wartość ACF. Na przykład. BARTEST (.303809,22,7) .07708 dla przykładu 3 i LBTEST (B4: B25, acf, 5) 1.81E-06 dla przykładu 4. FELOS 585A, analiza serii czasowej Applied: (520) 621-3457 Fax: (520) 621-8229 Godziny pracy Piątek, 1: 00-6: 00 PM (napisz e-mailem, aby zaplanować spotkanie) Opis kursu Narzędzia do analizy w dziedzinie czasu i częstotliwości są wprowadzane w kontekście przykładowych szeregów czasowych. Używam zbioru danych przykładowych szeregów czasowych do zilustrowania metod i zmieniam zestaw danych w każdym semestrze kursu. W tym roku przykładowy zestaw danych pochodzi z projektu NSF dotyczącego zmienności opadów śniegu w amerykańskim dorzeczu Kalifornii. Ten zbiór danych obejmuje chronologię pierścieni drzewiastych, indeksy klimatyczne, zapisy przepływu strumieniowego i szeregi czasowe równoważników śniegu i wody mierzone na stacjach śnieżnych. Zbierzcie swoje własne szeregi czasowe do wykorzystania w trakcie kursu. Mogą to być z twojego własnego projektu badawczego. Powrót na początek strony Jest to kurs wprowadzający, z naciskiem na praktyczne aspekty analizy szeregów czasowych. Metody są hierarchicznie wprowadzane - zaczynając od terminologii i grafiki eksploracyjnej, przechodząc do statystyki opisowej, a kończąc na podstawowych procedurach modelowania. Tematy obejmują detrending, filtrowanie, autoregresyjne modelowanie, analizę spektralną i regresję. Pierwsze dwa tygodnie spędzasz instalując Matlaba na swoim laptopie, uzyskując podstawowe wprowadzenie do Matlaba i gromadząc zestaw danych z szeregów czasowych kursu. Następnie obejmuje się dwanaście tematów lub lekcji, z których każdy obejmuje tydzień lub dwa okresy lekcyjne. Dwanaście zadań lekcyjnych pasuje do tematów. Przypisania polegają na stosowaniu metod poprzez uruchamianie wstępnie napisanych skryptów Matlab (programów) w szeregach czasowych i interpretowanie wyników. Kurs 3 kredyty dla studentów na kampusie Uniwersytetu Arizona w Tucson i 1 kredyt dla studentów online. Każda seria czasowa ze stałym przyrostem czasu (np. Dzień, miesiąc, rok) jest kandydatem do wykorzystania w kursie. Przykładami są codzienne pomiary opadów, sezonowy ogólny strumień, letnia średnia temperatura powietrza, roczne wskaźniki wzrostu drzew, wskaźniki temperatury powierzchni morza i dzienny wzrost wysokości krzewu. W wyniku podjęcia kursu powinieneś: rozumieć podstawowe pojęcia szeregów czasowych i terminologię być w stanie wybrać metody szeregów czasowych odpowiednie do celów, które są w stanie krytycznie ocenić literaturę naukową stosującą omawiane metody szeregów czasowych, poprawiły zrozumienie właściwości szeregów czasowych twojego własny zestaw danych umożliwia zwięzłe podsumowywanie wyników analizy szeregów czasowych na piśmie Wymagania wstępne Wstępny kurs statystyczny Dostęp do komputera przenośnego z zainstalowanym programem Matlab Zezwolenie instruktora (studenci i studenci online) Inne wymagania Jeśli jesteś na Uniwersytecie Arizona (UA) student na kampusie w Tucson, masz dostęp do Matlaba i wymaganych skrzynek narzędziowych za pośrednictwem licencji na stronie UA, ponieważ nie ma oprogramowania kosztowego. Żadne wcześniejsze doświadczenie z Matlab nie jest wymagane, a programowanie komputera nie jest częścią kursu. Jeśli jesteś online, a nie w kampusie na UA, będziesz mógł wziąć udział w kursie na semestr wiosenny 2017 jako kurs iCourse. Musisz upewnić się, że masz dostęp do Matlaba i wymaganych skrzynek (patrz poniżej) w twojej lokalizacji. Dostęp do Internetu. W trakcie kursu nie ma wymiany papieru. Uwagi i zadania są wymieniane elektronicznie, a zakończone zadania są przesyłane elektronicznie za pośrednictwem systemu University of Arizona Desire2Learn (D2L). Wersja Matlaba. Aktualizuję skrypty i funkcje teraz, a następnie wykorzystuję bieżącą wersję licencji Matlaba dla witryny, a aktualizacje mogą korzystać z funkcji Matlab niedostępnych we wcześniejszych wersjach Matlab. Do 2017 roku używam programu Matlab w wersji 9.1.0.441655 (R2018b). Jeśli używasz wcześniejszej wersji, upewnij się, że jest to wersja Matlab Release 2007b lub nowsza. Oprócz głównego pakietu Matlab używane są cztery skrzynki narzędziowe: statystyki, przetwarzanie sygnałów, identyfikacja systemu i splajn (wersja Matlab 2017a lub wcześniejsza) lub dopasowanie krzywej (wersja Matlab 2017b lub nowsza) Dostępność Kurs jest oferowany w semestrze wiosennym co drugi rok (2018, 2017, itp.). Jest on otwarty dla studentów i może być również przyjęty przez seniorów licencjackich za zgodą instruktora. Liczba studentów, którzy ukończyli studia w UA, jest ograniczona do 18 na semestr letni 2017. Niewielka liczba studentów online została zazwyczaj zakwaterowana, oferując kurs na różne sposoby. Teraz jest miejsce na kurs iCourse opisane powyżej. Powrót do początku strony Zarys kursu (lekcje) Harmonogram zazwyczaj pozwala na około dwa tygodnie na zebranie danych i zapoznanie się z Matlab. Następnie jeden tydzień (dwa okresy lekcyjne) poświęcony jest każdej z 12 lekcji lub tematów. Klasa spotyka się we wtorek i czwartek. Nowy temat zostanie wprowadzony we wtorek i będzie kontynuowany w następny czwartek. Czwartkowa klasa kończy się zadaniem i demonstracją uruchomienia skryptu na moich przykładowych danych. Przydział jest należny (musi zostać przesłany przez ciebie do D2L) przed zajęciami w następny wtorek. Pierwsza 12-godzinna klasa we wtorki jest używana do samooceny kierowanej i oceny przypisania i przesyłania ocenionych (stopniowanych) zadań do D2L. Pozostałe 45 minut służy do wprowadzenia następnego tematu. Musisz weź ze sobą laptopa na zajęcia we wtorki. 12 lekcji lub tematów objętych kursem są wymienione w zarysie zajęć. Studenci online powinni postępować zgodnie z tym samym harmonogramem składania zadań, co studenci będący rezydentami, ale nie mają dostępu do wykładów. Przesłane zadania studentów online nie podlegają samoocenie, ale są oceniane przeze mnie. Studenci online powinni mieć dostęp do D2L w celu przesyłania zadań. Semestr letni 2017. Klasa spotyka się dwa razy w tygodniu w 75-minutowych sesjach, 9: 00-10: 15 AM T, w pokoju 424 (sala konferencyjna) budynku Bryant Bannister Tree-Ring (budynek 45B). Pierwszy dzień zajęć to styczeń 12 (czwartek). Ostatni dzień zajęć to 2 maja (wtorek). W tygodniu przerwy wiosennej nie ma klasy (Mar 11-19). Analizujesz dane według własnego wyboru w zadaniach klasowych. Jak podano w przeglądzie kursu. istnieje duża elastyczność w wyborze szeregów czasowych. Przygotuję katalog odpowiednich szeregów czasowych, ale najlepiej skupić się na swoim zestawie danych. Pierwsze zadanie polega na uruchomieniu skryptu przechowującego dane i metadane zebrane w pliku mat, natywnym formacie Matlab. Kolejne przypisania pobierają dane z pliku mat w celu analizy szeregów czasowych. Zadania 12 tematów omawia się kolejno w trakcie semestru, który obejmuje około 15 tygodni. Przez pierwsze dwa tygodnie (4-5 spotkań grupowych) wykorzystywane są niektóre materiały wprowadzające, decydujące i zbierające serie czasowe oraz przygotowujące Matlab na laptopie. Każdy tydzień po tym jest poświęcony jednemu z 12 tematów kursu. Każde zadanie polega na przeczytaniu rozdziału uwag, uruchomieniu powiązanego skryptu Matlab, który stosuje wybrane metody analizy szeregów czasowych do danych i zapisaniu interpretacji wyników. Zadania wymagają zrozumienia tematów wykładów oraz umiejętności korzystania z komputera i oprogramowania. Przesyłasz zadania, przesyłając je do D2L przed klasą wtorkową, kiedy zostanie wprowadzony następny temat. Pierwsze pół godziny tej wtorkowej klasy jest wykorzystywane do samodzielnej oceny zadania, w tym do samodzielnego oceniania plików PDF w D2L. Sprawdzam co najmniej jedno zadanie z automatyczną gradacją każdego tygodnia (losowo) i mogę zmienić ocenę. Aby dowiedzieć się, jak uzyskać dostęp do przydziałów, kliknij pliki przydziału. Odczyty składają się z notatek z zajęć. Istnieje dwanaście zestawów plików notatek. pdf. po jednym dla każdego z tematów kursu. Dostęp do tych plików. pdf można uzyskać przez Internet. Więcej informacji na temat różnych tematów omawianych na kursie można znaleźć w referencjach wymienionych na końcu każdego rozdziału notatek lekcyjnych. Oceny opierają się wyłącznie na wynikach zadań, z których każdy jest wart 10 punktów. Nie ma egzaminów. Łączna liczba możliwych punktów dla 12 tematów wynosi 12 x 10 120. Ocena A wymagała 90-100 procent możliwych punktów. Ocena B wymaga 80-90 procent. Klasa C wymaga 70-80 procent i tak dalej. Oceny są przypisywane przez samoocenę kierowaną przez rubryki prezentowane w klasie. Liczba zdobytych punktów powinna być zaznaczona u góry każdego stopniowanego zadania. Twój znacznik przypisania powinien zawierać adnotację o wszelkich przecenach poprzez odniesienie do rubryki wskazanej w klasie (np. -0,5, rp3 oznacza odjęcie -0,5 z powodu błędu związanego z rubric point 3) Zadania, podane w klasie w czwartek, będą być należne (przesłane do D2L przez ciebie) przed rozpoczęciem zajęć w następny wtorek. Pierwsze pół godziny we wtorkowych posiedzeniach poświęcone będą prezentacji rubryk ocen, samooceny ukończonych zadań i przesyłaniu samodostatków do D2L. Ten harmonogram daje ci 4 dni na ukończenie zadania i przesłanie go do D2L przed 9:00 we wtorek. D2L śledzi czas przesłania zadania i żadna kara nie jest oceniana, dopóki nie zostanie przesłana przed godziną 9:00 we wtorek terminu. Jeśli masz zaplanowaną potrzebę nieobecności w klasie (np. Uczestnictwo w konferencji), jesteś odpowiedzialny za przesłanie swojego zadania przed godziną 9:00 we wtorek, kiedy to jest należne, oraz za przesłanie wersji własnej przez 10:15 tego samego dnia. Innymi słowy, harmonogram jest taki sam jak dla uczniów, którzy są w klasie. Jeśli pojawi się nagły przypadek (np. Masz grypę) i nie możesz wykonać zadania lub oceny zgodnie z harmonogramem, wyślij mi e-mail, a my osiągniemy pewne zakwaterowanie. W przeciwnym razie oceniona zostanie kara 5 punktów (połowa wszystkich dostępnych punktów za ćwiczenie). Wprowadzenie do organizacji szeregów czasowych danych do analizy Szeregi czasowe są szeroko definiowane jako dowolna seria pomiarów wykonywanych w różnym czasie. Niektóre podstawowe kategorie opisowe szeregów czasowych to: 1) długo vs krótki, 2) nawet krok w czasie w porównaniu z nierównomiernym krokiem w czasie, 3) dyskretny vs ciągły, 4) okresowy vs aperiodyczny, 5) stacjonarny vs niestacjonarny, i 6) jednowymiarowy vs wielowymiarowy . Te właściwości, jak również czasowe nakładanie się wielu serii, muszą być brane pod uwagę przy wyborze zestawu danych do analizy w tym kursie. W trakcie kursu przeanalizujesz własne szeregi czasowe. Pierwszym krokiem jest wybranie tych serii i zapisanie ich w strukturach w pliku mat. Jednorodność w przechowywaniu na początku jest wygodna dla tej klasy, tak więc uwaga może być skupiona na zrozumieniu metod szeregów czasowych, a raczej na debugowaniu kodu komputerowego w celu przygotowania danych do analizy. Struktura jest zmienną Matlaba podobną do bazy danych, ponieważ dostęp do jej treści uzyskuje się za pomocą tekstowych oznaczników pól. Struktura może przechowywać dane o różnych formach. Na przykład jedno pole może być numeryczną macierzą szeregów czasowych, innym może być tekst opisujący źródło danych itp. W pierwszym zadaniu uruchomi się skrypt Matlab, który odczytuje serie czasowe i metadane z plików tekstowych ascii, które przygotowujesz wcześniej i przechowuje dane w strukturach Matlab w jednym pliku mat. W kolejnych zadaniach zastosujesz metody szeregów czasowych do danych, uruchamiając skrypty Matlab i funkcje, które ładują plik mat i operują na tych strukturach. Wybierz przykładowe dane, które mają być użyte do przydziałów podczas kursu Czytaj: (1) Notes1.pdf, (2) Pierwsze kroki, dostępne z menu pomocy MATLAB Odpowiedź: Uruchom skrypt geosa1.m i odpowiedz na pytania podane w pliku w a1.pdf Jak rozróżnić kategorie szeregów czasowych Jak uruchomić i zakończyć program MATLAB Jak wprowadzić polecenia MATLAB w wierszu polecenia Jak tworzyć liczby w oknie rysunku Jak eksportować dane do edytora tekstu Różnice między skryptami i funkcjami MATLAB Jak uruchomić skrypty i funkcje forma zmiennej struktury MATLAB Jak zastosować skrypt geosa1.m, aby uzyskać zestaw szeregów czasowych i metadanych w strukturach MATLAB Rozkład prawdopodobieństwa szeregu czasowego opisuje prawdopodobieństwo, że obserwacja mieści się w określonym zakresie wartości. Empiryczny rozkład prawdopodobieństwa dla szeregu czasowego można uzyskać poprzez sortowanie i klasyfikowanie wartości serii. Kwantyle i percentyle są przydatnymi statystykami, które można pobrać bezpośrednio z empirycznego rozkładu prawdopodobieństwa. Wiele parametrycznych testów statystycznych przyjmuje, że szereg czasowy jest próbką z populacji o określonym rozkładzie prawdopodobieństwa populacji. Często zakłada się, że populacja jest normalna. W niniejszym rozdziale przedstawiono podstawowe definicje, statystyki i wykresy związane z rozkładem prawdopodobieństwa. Ponadto wprowadzono test (test Lillieforsa) do testowania, czy próbka pochodzi z rozkładu normalnego o nieokreślonej średniej i wariancji. Odpowiedź: Uruchom skrypt geosa2.m i odpowiedz na pytania wymienione w pliku w a2.pdf Definicje terminów: szeregi czasowe, stacjonarność, gęstość prawdopodobieństwa, funkcja rozkładu, kwantyl, rozkład, lokalizacja, średnia, odchylenie standardowe i pochylenie Jak interpretować najcenniejsza grafika w analizie szeregów czasowych - wykres szeregów czasowych Jak interpretować wykres pudełkowy, histogram i normalny wykres prawdopodobieństwa Parametry i kształt rozkładu normalnego Test Lilliefors na normalność: opis graficzny, założenia, hipotezy zerowe i alternatywne Zastrzeżenie dotyczące interpretacji poziomy istotności testów statystycznych, gdy szeregi czasowe nie są przypadkowe w czasie. Jak zastosować geosa2.m do sprawdzenia właściwości rozkładu szeregu czasowego i przetestować serię pod kątem normalności. Autokorelacja odnosi się do korelacji szeregu czasowego z jego przeszłymi i przyszłymi wartościami. Autokorelacja jest czasami nazywana opóźnioną korelacją lub korelacją szeregową. co odnosi się do korelacji między członkami szeregu liczb ułożonych w czasie. Pozytywna autokorelacja może być uważana za szczególną formę utrzymywania. tendencja do tego, aby system pozostał w tym samym stanie z jednej obserwacji do następnej. Na przykład prawdopodobieństwo, że jutro będzie deszcz, jest większe, jeśli dzisiaj jest deszczowo, niż dzisiaj, gdy jest sucho. Geofizyczne szeregi czasowe są często autokorelowane z powodu inercji lub procesów przenoszenia w systemie fizycznym. Na przykład wolno ewoluujące i poruszające się systemy niskociśnieniowe w atmosferze mogą nadawać uporowi dzienne opady. Lub powolne odwadnianie zasobów wód podziemnych może powodować korelację z kolejnymi rocznymi przepływami rzeki. Lub przechowywane fotosyntiany mogą wpływać na kolejne roczne wartości indeksów drzewiastych. Autorelacja utrudnia stosowanie testów statystycznych poprzez zmniejszenie liczby niezależnych obserwacji. Autokorelacja może także skomplikować identyfikację znaczącej kowariancji lub korelacji między seriami czasowymi (np. Wytrącanie z szeregiem pierścienia drzewa). Autokorelacja może być wykorzystana do przewidywań: serie związane z autokorelacją są przewidywalne, w sposób probabilistyczny, ponieważ przyszłe wartości zależą od wartości bieżących i przeszłych. Trzy narzędzia do oceny autokorelacji szeregu czasowego to (1) wykres szeregów czasowych, (2) opóźniony wykres rozrzutu i (3) funkcja autokorelacji. Odpowiedź: Uruchom skrypt geosa3.m i odpowiedz na pytania zawarte w pliku w a3.pdf Definicja: autokorelacja, trwałość, korelacja szeregowa, funkcja autokorelacji (acf), funkcja autokowariancji (acvf), efektywna wielkość próbki Jak rozpoznać autokorelację w szeregu czasowym fabuła Jak używać opóźnionych wykresów rozrzutu do oceny autokorelacji Jak interpretować wykreślone acf Jak dostosować rozmiar próbki do autokorelacji Matematyczna definicja funkcji autokorelacji Warunki wpływające na szerokość wyliczonego przedziału ufności acf Różnica między jednostronnym a dwoma - sided test znaczącej autokorelacji lag-1 Jak zastosować geos3.m do badania autokorelacji szeregu czasowego Widmo szeregu czasowego jest rozkładem wariancji szeregu w funkcji częstotliwości. Celem analizy spektralnej jest oszacowanie i badanie widma. Widmo nie zawiera nowych informacji poza tym w funkcji autokowariancji (acvf), a w rzeczywistości spektrum można obliczyć matematycznie poprzez transformację akvf. Ale spektrum i aktywność przedstawiają informacje na temat wariancji szeregów czasowych z uzupełniających punktów widzenia. Acf podsumowuje informacje w dziedzinie czasu i widma w dziedzinie częstotliwości. Odpowiedź: Uruchom skrypt geosa4.m i odpowiedz na pytania zawarte w pliku w a4.pdf. Definicje: częstotliwość, okres, długość fali, widmo, częstotliwość Nyquista, częstotliwości Fouriera, szerokość pasma. Przyczyny analizy widma. Jak interpretować spektrum wykreślone pod względem rozkładu wariancji Różnica między spektrum a znormalizowanym widmem Definicja okna opóźnienia w celu oszacowania widma metodą Blackmana-Tukeya Jak wybór okna opóźnienia wpływa na szerokość pasma i wariancję szacowanego widma Jak zdefiniować widmo białego szumu i spektrum autoregresji Jak naszkicować typowe kształty spektralne: biały szum, autoregresyjny, quasi-okresowy, niskiej częstotliwości, wysokiej częstotliwości Jak zastosować geosa4.m do analizy spektrum szeregów czasowych metodą Blackmana-Tukeya Autoregressive-Moving Modelowanie średnie (ARMA) Modele z automatyczną regresją autoregresji (ARMA) są matematycznymi modelami trwałości lub autokorelacji w szeregu czasowym. Modele ARMA są szeroko stosowane w hydrologii, dendrochronologii, ekonometrii i innych dziedzinach. Istnieje kilka możliwych powodów dopasowania modeli ARMA do danych. Modelowanie może przyczynić się do zrozumienia fizycznego systemu poprzez ujawnienie czegoś o fizycznym procesie, który buduje wytrwałość w serii. Na przykład, prosty fizyczny model bilansu wodnego, składający się z warunków dla wprowadzania opadów, parowania, infiltracji i magazynowania wód gruntowych, może dostarczyć serii przepływu, która następuje po określonej postaci modelu ARMA. Modele ARMA mogą być również używane do przewidywania zachowania szeregów czasowych z samych tylko przeszłych wartości. Taka prognoza może być wykorzystana jako linia podstawowa do oceny potencjalnego znaczenia innych zmiennych w systemie. Modele ARMA są szeroko stosowane do prognozowania ekonomicznych i przemysłowych szeregów czasowych. Modele ARMA można również stosować do usuwania uporczywości. Na przykład w dendrochronologii modelowanie ARMA jest stosowane rutynowo w celu generowania chronologicznych szeregów czasowych o wskaźniku szerokości pierścienia bez zależności od przeszłych wartości. Ta operacja, zwana wstępnym bieleniem, ma na celu usunięcie trwałości związanej z biologią z serii, tak aby reszta mogła być bardziej odpowiednia do badania wpływu klimatu i innych zewnętrznych czynników środowiskowych na wzrost drzew. Odpowiedź: Uruchom skrypt geosa5.m i odpowiedz na pytania wymienione w pliku w a5.pdf Funkcjonalna forma najprostszych modeli AR i ARMA Dlaczego takie modele są określane jako autoregresyjne lub ruchome? Trzy kroki w modelowaniu ARMA Wzorce diagnostyczne funkcje autokorelacji i częściowej autokorelacji dla szeregu czasowego AR (1) Definicja końcowego błędu prognozowania (FPE) oraz sposób użycia FPE do wyboru najlepszego modelu ARMA. Definicja statystyki Portmanteau oraz sposób, w jaki można ją i resztę służy do oceny, czy model ARMA skutecznie modeluje trwałość w szeregu Jak stosuje się zasadę oszczędności w modelowaniu ARMA Definicja przedwitwienia Jak przedwcześnie wpływa na (1) pojawienie się szeregów czasowych i (2) widmo szeregu czasowego Jak zastosować geosa5.m do modelu ARMA w szeregach czasowych Analiza spektralna - wygładzona metoda periodogramowa Istnieje wiele dostępnych metod szacowania widma szeregu czasowego. W lekcji 4 przyjrzeliśmy się metodzie Blackmana-Tukeya, opartej na transformacji Fouriera wygładzonej, skróconej funkcji autokowariancji. Wygładzona metoda periodogramu omija transformację acf poprzez bezpośrednią transformację Fouriera szeregu czasowego i obliczenia surowego periodogramu, funkcji wprowadzonej po raz pierwszy w XIX wieku do badania szeregów czasowych. Surowy periodogram jest wygładzany przez zastosowanie kombinacji lub rozpiętości jednego lub więcej filtrów w celu uzyskania szacowanego widma. Gładkość, rozdzielczość i wariancja estymacji widmowych jest kontrolowana przez wybór filtrów. Bardziej zaakcentowane wygładzenie surowego periodogramu powoduje powstanie płynnie zmieniającego się spektrum lub zerowego kontinuum, wobec którego można badać wartości szczytowe spektralne dla istotności. To podejście jest alternatywą dla specyfikacji funkcjonalnej postaci continuum zerowego (na przykład widma AR). Odpowiedź: Uruchom skrypt geosa6.m i odpowiedz na pytania wymienione w pliku w a6.pdf Definicja: surogram periodyczny, filtr Daniell, zakres filtru, zerowa płynność ciągła, stabilność i rozdzielczość zbieżności widma, wypełnienie, przeciek Cztery główne kroki w oszacowaniu spektrum przez wygładzony periodogram Jak efekt wyboru przęseł filtru na gładkość, stabilność i rozdzielczość widma Jak stosować continuum zerowe w testowaniu znaczenia szczytów spektralnych Jak zastosować geosa6.m do oszacowania spektrum czasu seria przez wygładzoną metodę periodogramu i test okresowości z określoną częstotliwością Trend w szeregu czasowym to powolna, stopniowa zmiana w niektórych właściwościach serii w całym badanym okresie. Trend jest czasami luźno definiowany jako długoterminowa zmiana średniej (rysunek 7.1), ale może również odnosić się do zmian w innych właściwościach statystycznych. Na przykład szeregi pierścienia drzewa o zmierzonej szerokości pierścienia często mają trend w wariancji, jak również średnią (rysunek 7.2). W tradycyjnej analizie szeregów czasowych szereg czasowy został zdekomponowany na tendencje, elementy sezonowe lub okresowe oraz nieregularne fluktuacje, a różne części badano osobno. Nowoczesne techniki analityczne często traktują tę serię bez takiego rutynowego rozkładu, ale często konieczne jest oddzielne rozważenie trendu. Detrending to statystyczna lub matematyczna operacja usuwania trendu z serii. Detrending jest często stosowany w celu usunięcia funkcji, która może zniekształcać lub zaciemniać interesujące relacje. Na przykład w klimatologii trend temperaturowy wywołany miejskim ociepleniem może przesłonić związek między zachmurzeniem a temperaturą powietrza. Detrending jest również czasem wykorzystywany jako etap wstępnego przetwarzania w celu przygotowania szeregów czasowych do analizy metodami, które zakładają stacjonarność. Dostępnych jest wiele alternatywnych metod detrendingu. Prosty trend liniowy w średniej można usunąć, odejmując linię prostą o najmniejszych kwadratach. Bardziej skomplikowane trendy mogą wymagać różnych procedur. Na przykład sześcienny wypust wygładzający jest powszechnie stosowany w dendrochronologii w celu dopasowania i usunięcia trendu szerokości pierścienia, który może nie być liniowy, lub nawet nie monotonicznie zwiększać się lub maleć w czasie. Przy badaniu i usuwaniu trendu ważne jest zrozumienie wpływu znoszenia na właściwości spektralne szeregów czasowych. Efekt ten można podsumować za pomocą odpowiedzi częstotliwościowej funkcji wygaszenia. Odpowiedź: Uruchom skrypt geosa7.m i odpowiedz na pytania wymienione w pliku w a7.pdf Definicje: pasmo przenoszenia, splajn, sześcienny splajn Spline Plusy i minusy stosunku vs różnica detrending Interpretacja terminów w równaniu dla parametru splajnu Jak wybrać splajnuj interaktywnie z pożądaną charakterystyką częstotliwości Jak wpływa na widmo detekcja Jak mierzyć znaczenie komponentu trendów w szeregach czasowych Jak zastosować geosa7.m do interaktywnego wyboru funkcji detekcji splajnu i detrend szeregu czasowego Szacunkowe widmo czasu seria podaje rozkład wariancji jako funkcję częstotliwości. W zależności od celu analizy niektóre częstotliwości mogą być bardziej interesujące niż inne i pomocne może być zmniejszenie amplitudy zmian na innych częstotliwościach poprzez statystyczne filtrowanie ich przed przeglądaniem i analizowaniem serii. Na przykład, zmiany o wysokiej częstotliwości (rok do roku) w ocenianej skali zrzutu wody mogą być stosunkowo nieistotne dla zaopatrzenia w wodę w basenie z dużymi zbiornikami, które mogą przechowywać kilka lat średniego rocznego spływu. Tam, gdzie zmiany o niskiej częstotliwości są w głównym interesie, pożądane jest wygładzenie zapisu absolutorium w celu wyeliminowania lub zmniejszenia krótkotrwałych fluktuacji przed użyciem zapisu absolutorium dla zbadania znaczenia zmian klimatycznych w zaopatrzeniu w wodę. Wygładzanie jest formą filtrowania, która tworzy szereg czasowy, w którym zmniejsza się znaczenie składowych widmowych przy wysokich częstotliwościach. Inżynierowie elektrycy nazywają ten rodzaj filtra filtrem dolnoprzepustowym, ponieważ zmiany o niskiej częstotliwości mogą przechodzić przez filtr. W filtrze dolnoprzepustowym fale o niskiej częstotliwości (długookresowej) są słabo odczuwalne przez wygładzanie. Możliwe jest również filtrowanie szeregu w taki sposób, że zmiany o niskiej częstotliwości są zredukowane, a zmiany o wysokiej częstotliwości niezmienione. Ten rodzaj filtra nazywany jest filtrem górnoprzepustowym. Detrending jest formą filtrowania górnoprzepustowego: dopasowana linia trendu śledzi najniższe częstotliwości, a reszty z linii trendu mają usunięte te niskie częstotliwości. Trzeci rodzaj filtrowania, zwany filtrem pasmowo-przepustowym, zmniejsza lub filtruje zarówno wysokie, jak i niskie częstotliwości, i pozostawia pewne pośrednie pasmo częstotliwości stosunkowo niewrażliwe. W tej lekcji omawiamy kilka metod wygładzania lub filtrowania dolnoprzepustowego. Omówiliśmy już, w jaki sposób sześcienny wypust wygładzający może być przydatny do tego celu. Omówiono cztery inne rodzaje filtrów: 1) prosta średnia ruchoma, 2) dwumianowe, 3) Gaussowskie i 4) okienkowanie (metoda Hamminga). W wyborze filtra dolnoprzepustowego należy uwzględnić pożądaną charakterystykę częstotliwościową i rozpiętość lub szerokość filtru. Odpowiedź: Uruchom skrypt geosa8.m i odpowiedz na pytania wymienione w pliku w a8.pdf Definicje: filtr, waga filtru, zakres filtru, filtr dolnoprzepustowy, filtr górnoprzepustowy, filtr pasmowoprzepustowy Odpowiedź częstotliwościowa filtra Jak działa metoda Gaussa filtr jest związany z rozkładem Gaussa Jak zbudować prosty dwumianowy filtr ręcznie (bez komputera) Jak opisać funkcję odpowiedzi częstotliwościowej w kategoriach systemu z wejściami i wyjściami sinusoidalnymi Jak zastosować geosa8.m do interaktywnego projektowania dwumianu Gaussa lub Filtr dolnoprzepustowy okna Hamminga dla szeregu czasowego Współczynnik korelacji Pearsona z wartością produktu jest prawdopodobnie najczęściej używaną statystyką do podsumowania zależności między dwiema zmiennymi. Istotność statystyczną i zastrzeżenia interpretacji współczynnika korelacji w odniesieniu do szeregów czasowych są tematami tej lekcji. Przy pewnych założeniach statystyczna istotność współczynnika korelacji zależy tylko od wielkości próby, zdefiniowanej jako liczba niezależnych obserwacji. Jeżeli szeregi czasowe są autokorelowane, przy ocenie istotności należy stosować efektywny rozmiar próbki, niższy niż rzeczywisty rozmiar próbki. Relacje przejściowe lub pozorne mogą powodować znaczącą korelację w niektórych okresach, a nie w innych. Zmienność czasową siły korelacji liniowej można badać za pomocą wykresów korelacji obliczanych dla okna przesuwnego. Ale jeśli wiele współczynników korelacji jest ocenianych jednocześnie, przedziały ufności powinny być dostosowane (dostosowanie Bonferroniego), aby zrekompensować zwiększone prawdopodobieństwo zaobserwowania pewnych wysokich korelacji, gdy nie istnieje związek. Interpretacja korelacji ślizgowych może być również komplikowana przez zmiany w czasie średniej i wariancji szeregu, ponieważ korelacja przesuwająca odzwierciedla współzmienność w kategoriach standaryzowanych odstępstw od środków w okienku czasowym zainteresowania, które mogą różnić się od środków długoterminowych. Na koniec należy podkreślić, że współczynnik korelacji Pearsona mierzy siłę zależności liniowej. Wykresy rozrzutu są przydatne do sprawdzenia, czy związek jest liniowy. Odpowiedź: Uruchom skrypt geosa9.m ​​i odpowiedz na pytania zawarte w pliku w a9.pdf Matematyczne określenie współczynnika korelacji Założenia i hipotezy dla testu istotności współczynnika korelacji Jak obliczyć poziom istotności współczynnika korelacji i dostosować poziom istotności dla autokorelacji w Poszczególne szeregi czasowe Zastrzeżenia do interpretacji współczynnika korelacji Zmiana Bonferroni do poziomu znaczeniowej korelacji w wielu porównaniach Inflacja wariancji estymowanego współczynnika korelacji w przypadku autokorelacji szeregów czasowych Możliwe efekty transformacji danych na korelacji Jak interpretować wykresy korelacji ślizgowych Jak zastosować geosę9. m do analizy korelacji i przesuwania korelacji między parami szeregów czasowych Opóźnione relacje są charakterystyczne dla wielu naturalnych systemów fizycznych. Opóźniona korelacja odnosi się do korelacji między dwiema szeregami czasowymi przesuniętymi w czasie względem siebie. Opóźniona korelacja jest ważna w badaniu zależności między szeregami czasowymi z dwóch powodów. Po pierwsze, jedna seria może mieć opóźnioną odpowiedź na inną serię, lub może opóźnioną reakcję na wspólny bodziec, który wpływa na obie serie. Po drugie, odpowiedź jednej serii na inną serię lub zewnętrzny bodziec może być rozmazana w czasie, tak że bodziec ograniczony do jednej obserwacji wywołuje odpowiedź przy wielu obserwacjach. Na przykład ze względu na składowanie w zbiornikach, lodowcach itp., Zrzuty objętościowe rzeki w ciągu jednego roku mogą zależeć od opadów w kilku poprzednich latach. Lub z powodu zmian gęstości korony i przechowywania fotosyntatu, szerokość pierścienia drzewa w ciągu jednego roku może zależeć od klimatu z kilku poprzednich lat. Prosty współczynnik korelacji między dwiema seriami prawidłowo wyrównanymi w czasie jest niewystarczający, aby scharakteryzować związek w takich sytuacjach. Przydatne funkcje, które zbadamy jako alternatywę dla prostego współczynnika korelacji, to funkcja korelacji krzyżowej i funkcja odpowiedzi impulsowej. Funkcja korelacji krzyżowej jest korelacją między seriami przesuniętymi względem siebie w funkcji liczby obserwacji przesunięcia. Jeśli poszczególne serie są autokorelowane, oszacowana funkcja korelacji krzyżowej może być zniekształcona i wprowadzająca w błąd jako miara opóźnionej zależności. Przyjrzymy się dwóm podejściom do wyjaśnienia wzoru korelacji wzajemnych. Jednym z nich jest indywidualne usunięcie trwałości z serii przed korektą korelacji krzyżowej lub przed nią. W tym podejściu obie serie są zasadniczo traktowane na równych prawach. Alternatywą jest podejście systemowe: zobacz serię jako dynamiczny system liniowy - jedną serię wejściową i drugą - i oszacuj funkcję odpowiedzi impulsowej. Funkcja odpowiedzi impulsowej jest odpowiedzią wyjścia w chwili obecnej i w przyszłości na hipotetyczny impuls wejściowy ograniczony do bieżącego czasu. Answer: Run script geosa10.m and answer questions listed in the file in a10.pdf Definitions: cross-covariance function, cross-correlation function, impulse response function, lagged correlation, causal, linear How autocorrelation can distort the pattern of cross-correlations and how prewhitening is used to clarify the pattern The distinction between the equal footing and systems approaches to lagged bivariate relationships Which types of situations the impulse response function (irf) is an appropriate tool How to represent the causal system treated by the irf in a flow diagram How to apply geos10.m to analyze the lagged cross-correlation structure of a a pair of time series Multiple linear regression Multiple linear regression (MLR) is a method used to model the linear relationship between a dependent variable and one or more independent variables. The dependent variable is sometimes also called the predictand, and the independent variables the predictors. MLR is based on least squares: the model is fit such that the sum-of-squares of differences of observed and predicted values is minimized. MLR is probably the most widely used method in dendroclimatology for developing models to reconstruct climate variables from tree-ring series. Typically, a climatic variable is defined as the predictand and tree-ring variables from one or more sites are defined as predictors. The model is fit to a period -- the calibration period -- for which climatic and tree-ring data overlap. In the process of fitting, or estimating, the model, statistics are computed that summarize the accuracy of the regression model for the calibration period. The performance of the model on data not used to fit the model is usually checked in some way by a process called validation. Finally, tree-ring data from before the calibration period are substituted into the prediction equation to get a reconstruction of the predictand. The reconstruction is a prediction in the sense that the regression model is applied to generate estimates of the predictand variable outside the period used to fit the data. The uncertainty in the reconstruction is summarized by confidence intervals, which can be computed by various alternative ways. Answer: Run script geosa11.m (Part 1) and answer questions listed in the file in a11.pdf The equation for the MLR model Assumptions for the MLR model Definitions of MLR statistics: coefficient of determination, sums-of-squares terms, overall-F for the regression equation, standard error of the estimate, adjusted R-squared, pool of potential predictors The steps in an analysis of residuals How to apply geosa11.m (part 1) to fit a MLR regression model to predict one variable from a set of several predictor variables Validating the regression model Regression R-squared, even if adjusted for loss of degrees of freedom due to the number of predictors in the model, can give a misleading, overly optimistic view of accuracy of prediction when the model is applied outside the calibration period. Application outside the calibration period is the rule rather than the exception in dendroclimatology. The calibration-period statistics are typically biased because the model is tuned for maximum agreement in the calibration period. Sometimes too large a pool of potential predictors is used in automated procedures to select final predictors. Another possible problem is that the calibration period itself may be anomalous in terms of the relationships between the variables: modeled relationships may hold up for some periods of time but not for others. It is advisable therefore to validate the regression model by testing the model on data not used to fit the model. Several approaches to validation are available. Among these are cross-validation and split-sample validation. In cross-validation, a series of regression models is fit, each time deleting a different observation from the calibration set and using the model to predict the predictand for the deleted observation. The merged series of predictions for deleted observations is then checked for accuracy against the observed data. In split-sample calibration, the model is fit to some portion of the data (say, the second half), and accuracy is measured on the predictions for the other half of the data. The calibration and validation periods are then exchanged and the process repeated. In any regression problem it is also important to keep in mind that modeled relationships may not be valid for periods when the predictors are outside their ranges for the calibration period: the multivariate distribution of the predictors for some observations outside the calibration period may have no analog in the calibration period. The distinction of predictions as extrapolations versus interpolations is useful in flagging such occurrences. Answer: Run script geosa11.m (Part 2) and answer questions listed in the file in a12.pdf Definitions: validation, cross-validation, split-sample validation, mean square error (MSE), root-mean-square error (RMSE) standard error of prediction, PRESS statistic, hat matrix, extrapolation vs interpolation Advantages of cross-validation over alternative validation methods How to apply geosa11.m (part 2) for cross-validated MLR modeling of the relationship between a predictand and predictors, including generation of a reconstruction and confidence bands Downloading Files -- tsfiles. zip The Matlab class scripts and user-written functions are zipped in a file called tsfiles. zip. To get the files, first create an empty directory on your computer. This is where you will store all functions, scripts and data used in the course. Go to D2L, or click on tsfiles. zip to download the zip file to that directory and unzip it there. When you run matlab, be sure that directory is your current matlab working directory. Powerpoint lecture outlines miscellaneous files. Downloadable file other. zip has miscellaneous files used in lectures. Included are Matlab demo scripts, sample data files, user-written functions used by demo scripts, and powerpoint presentations, as pdfs (lect1a. pdf, lect1b. pdf, etc.) used in on-campus lectures. I update other. zip over the semester, and add the presentation for the current lecture within a couple of days after that lecture is given. To run the Matlab scripts for the assignments, you must have your data, the class scripts, and the user-written Matlab functions called by the scripts in a single directory on your computer. The name of this directory is unimportant. Under Windows, it might be something like C:geos585a. The functions and scripts provided for the course should not require any tailoring, but some changes can be made for convenience. For example, scripts and functions will typically prompt you for the name of your input data file and present Spring17 as the default. That is because Ive stored the sample data in Spring17.mat. If you want to avoid having to type over Spring17 with the name of your own data file each time you run the script, edit the matlab script with the Matlab editordebugger to change one line. In the editor, search for the string Spring17 and replace it with the name of your. mat storage file (e. g. Smith2017), then be sure to re-save the edited script. STA101 Introduction to Probability and Statistics STA102 Exploratory Data Analysis STA103 Principles of Sample Surveys STA121 Programming Methodology STA122 Computational Methods and Data Analysis I SMA101 Basic Mathematics SMA103 Calculus I SMA104 Calculus II SMA106 Calculus III STA 101: Introduction to Probability and Statistics Frequency distributions, relative and cumulative distributions, various frequency curves, mean, mode, median, quartiles and percentiles, standard deviation, symmetrical and skewed distributions. Probability: sample space and events definition of probability, properties of probability random variables probability distributions expected values of random variables. Elements of Markov chains. Co-requisites . SMA101, SMA103 STA 102: Exploratory Data Analysis Data, grouping data, graphs and charts, standard leaf diagrams, Box and Whisker diagrams. Variables and their frequency distributions, summary measures. The comparison problem - an exploratory view. An exploratory look at association. The staircase and the short cut to inference. Distributions and their troubles. Kinds of nonnormality and robustness. The role of vague concepts. Indication, determination or inference. Indication and indicators. Data analysis and computer graphics. Graphs on determination and inference. Methods of assessing real uncertainty, Bayesian ideas, empirical priors, Bayes theorem. Prior information for normal data binomial data and beta priors Poisson data and gamma priors. Binomial probability paper the normal probability paper. STA 103: Principles of Sample Surveys Uses, scope and advantages of sample survey types of survey survey organisation sample survey design. Purposive, probability and quota sampling. Simple random sampling stratified sampling systematic sampling multistage sampling and pps selections. Estimation of means, totals and proportions variance calculations. Sampling error. Sources of error, nonresponse. Management of surveys. STA 121: Programming Methodology Principles of computer organisation. Information storage. Bits, bytes, words, ordinary and floating point representation of numbers. Character codes. Structured programming using high level language e. g. Pascal. FORTRAN, C programme structure. Abstract data types. Mathematical expressions and operations. Logical expressions and operations. Control structures. Functions. Procedures. Report and display design, library procedures. Types of problems computers can solve. General structure of installation mainframe versus stand alone micro computers: networking operating systems, compiler systems and utilities. STA 122: Computational Methods and Data Analysis I Computer graphics. Statistical packages and libraries. Role of computers in data bases. Survey applications. Number systems errors and accuracy interpolation finite differences difference equations successive approximation or iterative techniques. Numerical solution of non-linear equations. Writing programs to implement numerical algorithms. Application of numerical analysis, software packages such as NAG. Pre-requisites: STA121, STA103, SMA103 STA201 Probability and Statistics I STA202 Principles of Statistical Inference STA221 Economic and Social Statistics STA222 Introduction to Time Series Analysis STA223 Operations Research I STA224 Computational Methods and Data Analysis II SMA201 Advanced Calculus SMA203 Linear Algebra I SMA204 Linear Algebra II SMA205 Introduction to Algebra SMA208 Ordinary Differential Equations STA201: Probability and Statistics I Particular distributions: Bernoulli, binomial, Poisson, geometric, hypergeometric, uniform, exponential and normal random variables and their distributions. Bivariate frequency distributions. Joint probability tables and marginal probabilities. Moments and moment generating function. Markov and Chebychev inequalities. Special univariate distributions. Bivariate probability distributions joint marginal and conditional distributions Independence Bivariate expectation Regression and Correlation Calculation of regression and correlation coefficients for bivariate data. STA202: Introduction to Statistical Inference Meaning of statistics, objectives of statistical investigation. Statistical decision problems, basic concepts of inference. Role of normal distribution in statistics. Random samples, use of random number tables. Inference about population means: point and interval estimates, simple one sample and two sample tests. Linear regression and correlation analysis. Analysis of variance. Analysis of frequency data. Simple nonparametric tests. STA221: Economic and Social Statistics Economic Statistics: Gross domestic product, index numbers, retail price index, consumer price index, product index balance of payments and trade statistics. Demography: Scope, uses and sources of demographic and socio-economic data methods of enumeration demographic concepts and measures current and cohort methods of description and analysis rates and ratios standardisation construction of life tables. Measurement of fertility, mortality and nuptiality. Determinants of age structure and the intrinsic growth rate. Survey data interpretation of demographic statistics, tests of consistency and reliability. Social Statistics: Nature of social statistics sources of social statistics conceptual problems validity and reliability concepts definition and classification. Measurement problems in social surveys socio-economic indicators. Studies in the integration of social statistics. History of Statistics development in Kenya. Sources and methods in official statistics in Kenya. STA222 Introduction to Time Series Analysis An introduction to time series in time domain and spectral domain. Estimation of trends and seasonal effects, autoregressive moving average models, forecasting, indicators, harmonic analysis, spectra. STA223: Operations Research I Linear programming: Formulation of LP problems. The simplex algorithms duality theory and economic interpretations. Post optimality (sensitivity) analysis. Introduction to transportation and assignment problems. Survey of continuous optimisation problems. Unconstrained optimisation problems and methods of solution. Introduction to constrained optimisation. Integer programming methods of integer programming. STA224: Computational Methods and Data Analysis II Numerical solution of linear systems numerical evaluation of eigenvalues and eigenvectors. Numerical integration and differentiation. Data structures, arrays and their implementation, strings application and implementation of stacks, queues, linked lists, trees and graphs: Survey application, questionnaire design data processing, data editing and correction editing and imputation principles writing of edit specification, use of an edit specification, use of an edit package. Tabulation, table design, writing of a table specification use of a tabulation package. Writing programs to implement numerical algorithms. Application of numerical analysis software package such as NAG. Simulation: random and pseudo random numbers generation of uniform variates outline of tests, mention of physical devices for uniform generators generation of variates from standard distributions e. g. normal, exponential etc. Pre-requisites: STA122, STA201 STA301 Probability and Statistics II STA302 Linear Modelling I STA303 Theory of Estimation STA304 Testing Hypotheses STA305 Probability Modelling STA306 Applied Time Series Analysis I STA307 Analysis of Experimental Designs I STA308 Sample Survey Theory and Methods I STA321 Operations Research II STA322 Computational Methods and Data Analysis III STA318 Statistical Inference I STA301: Probability and Statistics II Distribution functions of random variables bivariate normal distribution. Derived distributions such as chi-square, t and F. Statistical independence. Random samples. Multinomial distributions. Functions of several random variables. The independence of and S 2 in normal samples. Order statistics. Convergence and limit theorems. STA302: Linear Modelling I Linear models: linear regression analysis, analysis of variance and covariance, diagnostics of residuals, transformations. Non-linear regression: use of transformations, polynomial regression. Large sample theory for non-normal linear models. Collinearity. Outliers. Random effects models estimation of variance components in one-way and two-way models. GLIM package. Pre-requisite . STA303 Co-requisite: STA304 STA303: Theory of Estimation Properties of point estimators. Sufficient statistics, the factorisation criterion complete statistics. Minimum variance unbiased estimators Cramer-Rao inequality Fisher information efficient estimators. Maximum likelihood estimators and their properties. Interval estimation. Least squares estimation in linear models: simple linear model, the general linear model weighted least squares interval estimation in linear models. STA304: Testing Hypotheses Concepts of statistical hypothesis and statistical test optimal tests, Neyman Pearson lemma properties of tests unbiasedness, consistency confidence sets and tests generalised likelihood ratio tests tests for correlation and regression, general linear hypotheses. STA305: Probability Modelling Stochastic processes, definition and examples. Bernoulli process: probability model, waiting times. Markov chains: discrete time Markov chains, holding times, stationary distributions, classification of states. Birth and death processes, stationary distributions. Queuing models: deterministic approximations, examples of queuing systems, application to arrival and departure processes, heavy traffic etc. STA306: Applied Time Series Analysis I Stationary time series, removal of trend and seasonal differences, moments and autocorrelation. Simple autoregressive and moving average models, moments and autocorrelations, the conditions of stationarity invertibility. Mixed (ARMA) models and the AR representation of MA and ARMA models. Fitting and testing time series models. Forecasting, methods of forecasting, scientific forecasting, basic forecasting models, forecasting criteria. Model building and identification. Series used as examples: simulated series, stock market prices etc. STA307: Analysis of Experimental Designs I General principles: randomisation, replication, blocking, covariates, orthogonality, balance, logical control or error, sequential design. Estimation of treatment contrasts and their precision, treatment structure comparison with a control. Some common designs: completely randomised design, randomised complete block design, rationale for blocking latin squares, rationale, randomisation, analysis relative merits of designs. Introduction to factorial experiments: 2 2 and 2 3 designs calculation and interpretation of effects and interactions. Incomplete block design, optimality criteria. Crossed and nested block structures. Pre-requisite: STA202, Co-requisites STA302, STA304 STA308: Sample Survey Theory and Methods I Review of general principles of survey design. Populations and sampling frames. Simple random sampling properties of estimates, determination of sample size. Ratio and regression estimation. Stratification, optimality considerations. One-stage and two-stage cluster sampling. Systematic sampling. Multistage designs. Criteria for choosing sampling designs. Pre-requisites: STA201, STA103. STA318: Statistical Inference I Properties of point estimators: unbiasedness, sufficiency, minimal sufficiency, consistency, relative efficiency, minimum variance unbiased estimators evaluating the goodness of a point estimator. Method of moments, maximum likelihood estimators and their properties. Confidence intervals, large and small sample intervals. Concepts of statistical hypothesis and statistical test optimal tests, calculation of size and power of a test finding the sample size. Neyman Pearson lemma properties of tests - unbiasedness, consistency. Likelihood ratio tests-common large sample tests. Bayesian estimation Bayesian tests and confidence sets. Fundamental aspects of nonparametric inference such as rank, permutation and goodness of fit tests nonparametric estimation of quantiles and density functions robust estimation of location and scale parameters. Pre-requisites: STA202, STA301 Note: STA318 must not be taken together with STA303 andor STA304 STA321: Operations Research II Aims and scope of stochastic modelling. Decisions under risk, decision trees, decisions under uncertainty. Markov decision processes, dynamic programming models linear programming solution of the Markovian decision problem. Queuing models, types of queues roles of Poisson and exponential probability models queues with combined arrivals and departures queues with priorities of service. Traffic flow models. Inventory models, practical stock systems types of inventory scheduling policies storage models. Simulation models, roles of random numbers simulation experiments Monte Carlo calculus and variance reduction techniques, simulation as estimation, control variates, antithetic variates, stratified and importance sampling choice of sampling size. Analogue simulation systems e. g. queues, inventories, traffic networks, storage systems. Pre-requisites: STA223, STA201 STA322: Computational Methods and Data Analysis III Application of statistical packages (e. g. GLIM, SPSS, SPLUS, GENSTAT, etc) in statistical data analysis. Simulation of simple deterministic and stochastic systems simulation of inventory and stock control systems, queuing systems, traffic networks etc. Polynomial interpolation, spline approximation, solution of ordinary differential equations. Stability and efficiency concepts. Monte Carlo methods. Management information systems management of information systems. File systems and database systems database design. Project management and implementation use of computer development tools, Case studies. Report writing, presentations. Data communication and networks, applications case studies. Pre-requisite: STA 224 STA401 Measure, Probability and Integration STA402 Bayesian Inference and Decision Theory STA403 Nonparametric Methods STA404 Applied Multivariate Methods STA420 Project in Statistics Statistical Theory and Methods STA405 Linear Modelling II STA406 Applied Stochastic Processes STA407 Analysis of Experimental Designs II STA408 Robust Methods and Nonparametrics STA409 Applied Time Series Analysis II STA410 Sample Survey Theory and Methods II STA419 Statistical Inference II Applied Statistical Methods STA421 Operations Research III STA422 Stochastic Models for Social Processes STA423 Stochastic Models for Biological Processes STA424 Statistical Methods for Industrial Processes STA425 Statistical Demography STA426 Applied Population Analysis STA428 Applied Demography STA429 Econometric Models I STA430 Econometric Models II STA432 Applied Econometrics STA434 Survey Research Methods STA435 Biometrics Methods I STA436 Biometrics Methods II STA437 Survival Analysis STA 4 01: Measure, Probability and Integration Measure and integration: Measurable functions, measures, measure space integration, monotone convergence theorem, Fatous lemma convergence theorems Radon Nikodym theorem Lebesgue decomposition. Probability Theory: Probability as a measure probability space random variables distribution functions and characteristic functions. Sums of random variables, independence. Modes of convergence of sequences of random variables. Borel-Canteli lemmas and the zero-one laws, laws of large numbers and central limit theorem. Pre-requisites . SMA206, STA301 STA 402: Bayesian Inference and Decision Theory Elements of decision theory: Statistical games the no data problem. Loss and regret, mixed actions, the minimax principle, Bayes actions decision with sample data decision rules, risk function, Bayes decision rules. Bayesian inference: Problems associated with classical approach Bayes approach: prior and posteri distributions specification of prior distribution Bayesian estimation, properties of Bayes estimators Bayesian tests and confidence sets examples of situations where Bayesian and classical approaches give equivalent or nearly equivalent results. One-parameter and multiparameter models, predictive checking and sensitivity analysis. Simulation of probability distributions. Sequential methods: Sequential probability ratio test Stein fixed width confidence intervals. Current methodological issues in Statistics. Pre-requisites: STA301, STA304 STA403: Non parametric Methods Nonparametric inference, simple one-sample tests order statistics, empirical distribution function, ranks and runs general nature of nonparametric tests, allocation of scores, confidence intervals efficiency and robustness considerations dealing with tied observations. Goodness of fit tests. General two-sample and c-sample problems linear rank tests Wilcoxons rank sum test use of rank sum procedures for assessing symmetry and in analysis of variance Friedman test, two-sample tests of dispersion. Measures and tests for association analysis of contingency tables Kendalls t, Spearmans rank correlation coefficient of concordance. Efficiency of nonparametric procedures. STA404: Applied Multivariate Methods Practical Examples of multivariate data summarising multivariate data, mean vectors and covariance matrices, correlation matrix. The multinormal distribution. Sampling from the multinormal, MLEs and tests for the mean vector simultaneous confidence intervals tests of structural relationship. Testing equality of two population means. MLEs of partial and multiple correlations and tests testing for complete independence canonical correlations and variates, test of canonical correlation and reduction in dimensionality. Classification into one of two populations. Calculation and interpretation of principal components. Elements of multivariate analysis of variance, one-way grouping and two-way grouping without interaction. STA405: Linear Modelling II Analysis of the general linear model: model building, model selection and validation, variable selection stepwise and best subset regression. Introduction to response surface methodology. Modelling under prior and additional information, ridge regression. Modelling of nonnormal data. Treatment of outliers in regression models. Robustness, graphical techniques. Generalised linear models, measurement of association in two-way tables log-linear and other models for contingency tables logit, probit, categorical data, score tests, case studies. STA406: Applied Stochastic Processes Review of Random phenomena in time and space, mention of point processes, distributions, stationarity. Theory of recurrent events. Martingales, stopping times. Markov processes. Brownian motion. Renewal theory, the key renewal theorem the renewal equation. Stochastic differential equations. STA407: Analysis of Experimental Designs II Review of experimental and statistical objectives. General 2 n design, confounding of one or more effects, partial confounding: fractional replication block compositions. Factors at 3 levels 3 2 and 3 3 experiments with and without confounding, estimation of effects. Split plot designs. Incomplete block designs: nature and need for incomplete blocks types of designs, balanced designs, balanced incomplete block design, intra and inter block analysis partially balanced incomplete blocks-two associate classes only. Youden squares lattice designs relative merits of designs. Planning of experiments choice of design, economic considerations, treatment design experimental design. Determination of optimum plotblock size and shape. STA408: Robust Methods and Nonparametrics Distribution-free methods permutation theory. Robust estimation influence functions. Semi-empirical inference, Monte-Carlo methods, simulation models Jacknife and bootstrapping. Robust regression. Pre-requisites: STA403, STA405 STA409: Applied Time Series Analysis II Probability models for time series, stationary processes, the autocorrelation function pure random process, MA and AR processes mixed models, integrated models the general linear process, continuous processes. Model identification and estimation, estimating the autocovariance and autocorrelation functions fitting AR and MA processes estimating the parameters of mixed and integrated models the Box-Jenkins seasonal model residual analysis. Forecasting, univariate and multivariate procedure prediction theory. Spectral theory, the spectral density function Fourier analysis and harmonic decompositions periodogram analysis spectral analysis, effects of linear filters estimation of spectra confidence intervals for the spectrum. STA410: Sample Survey Theory and Methods II The history of survey sampling. Techniques of sample design: multiphase designs selection with probability proportional to size (PPS) general aspects of replicated and successive sampling panel design model based sampling. Bias and nonresponse: sources of survey errors, non-coverage, nonresponse. African household survey capability program: scope, types of surveys undertaken, sampling techniques used, issues and problems. Use of appropriate software to calculate standard errors. STA419: Statistical Inference II Elements of Statistical decision theory. Bayesian methods: prior and posterior distribution. Bayesian estimation. properties of Bayes estimators, one-parameter and multiparameter models, hierarchical models, predictive checking and sensitivity analysis. Simulation of probability distributions. Nonparametric inference: Order statistics, empirical distribution functions, ranks and runs confidence intervals. Linear rank tests. Measures and tests of association analysis of contingency tables. Efficiency of nonparametric procedures. Pre-requisite . STA318 Note: STA419 Must not be taken with STA402 andor STA403 STA 420: Project in Statistics The project is undertaken during the second semester in the fourth year of study and is equivalent to one course unit. A satisfactory report must be completed, marked by both the students supervisor(s) and the external examiner, and presented in a final oral examination. The project shall be graded independently out of a maximum of 100 marks distributed as follows: 70 for project report and 30 for oral presentation. STA 421: Operations Research III Dynamic programming and heuristics. Project scheduling probability and cost considerations in project scheduling project control. Critical path analysis. Reliability problems replacement and maintenance costs discounting group replacement, renewal process formulation, application of dynamic programming. Queuing theory in practice: obstacles in modelling queuing systems, data gathering and testing, queuing decision models, case studies. Game theory, matrix games minimax strategies, saddle points, mixed strategies, solution of a game. Behavioural decision theory, descriptive models of human decision making the use of decision analysis in practice. STA422: Stochastic Models For Social Processes The statistical analysis for labour turnover Markov chains and renewal models for manpower forecasting and control career prospects, demand forecasting. Models for size and duration, open and closed Markov models for social and occupational mobility, models for the diffusion of news and rumours and competition for social groups. Criteria for establishing priorities in planning in advanced and developing countries. Methods for forecasting the demand for education and the demand and supply of teachers. Methods of forecasting manpower requirement. Computable models for the education system. STA423: Stochastic Models for Biological Processes Basic laws of genetics mutation, inherited defects in man, their persistence and geographical variation genetic counselling measures of relationship and identity effects of inbreeding genetic linkage Markov models in population genetics. Recovery, relapse, and death due to disease cell survival after irradiation compartmental analysis. Epidemic models, deterministic and stochastic versions models for the control of infectious diseases models for the management of insect pest populations. Leslie matrix models, application in management of natural resources. STA424: Statistical Methods for Industrial Processes Tolerance limits process control. R, p and c charts, their construction and use cusum charts, V-mask and decision interval procedures and their properties. Acceptance sampling for attributes and variables operating characteristic curve and average run length single, double, sequential plans choice in light of producers and consumers risks and by decision theory approach. Models of systems running in time. Stock control models. Reliability problems. STA425: Statistical Demography Simple models of population growth analysis of mortality using life tables model life tables continuous and multiple decrement formulations statistical properties of life table estimators proportional hazards and multistate life tables. Stable and stationary populations and their use for estimation of demographic parameters continuous formulation of population dynamics equation solutions of renewal equation. Discrete formulation of population projections. Parity progression ratios. Mathematical models for fertility and mortality schedules. Quantitative models of nuptiality models of reproductivity and measurement of fecundability. Analytic and simulation approaches to reproductivity and household structure. Sources of demographic data. Pre-requisite . SMA106, SMA208, STA221 STA426: Applied Population Analysis This course is intended to deal with the use of demographic concepts and techniques in social, economic, and medical planning and research. Examples of topics to be dealt with include: The use of population projections at national level studies of provision of places in higher education the momentum of population growth in developing countries the application of regional and local projections in planning housing, schooling etc manpower planning household and family structure and composition impact of contraception and abortion on fertility the use of survey data in assessing family planning programmes womens participation in labour force the impact of breast feeding on fertility and infant mortality inputs to planning of primary health care occupational mortality unemployment and mortality. STA428: Applied Demography Collection of demographic data: Historical development of demographic statistics stages involved in planning a census content of census and survey schedules basic response errors structure of census organisations vital registration, types of demographic sample survey the World Fertility Survey Programme. Demographic sampling and survey design: Applications of principles of statistical sampling to demographic surveys types of demographic sample survey designs questionnaire and schedule design. Evaluation of family planning programmes: Aims of programmes methods of evaluation evaluation of programmes demographic impact, methods of analysis case studies. Report Writing on analysis of demographic data: Evaluation of data analysis and checking for consistency and convergence of parameters interpretations of findings implications for planning and policy formulation conclusions. STA429: Econometric Models I Sources of data, national accounts, price indices. Econometrics methods and applications aggregated and desegregated models models of the national economy, models of sectors. The linear model: multiple regression, t - and F-tests, dummy variables, multicollinearity, general linear restrictions, dynamic models. Time series autoregressive models, seasonal adjustment, generalised least squares, serial correlation, heteroscedasticity, distributed lags, simultaneous equation systems, instrumental variables and two-stage least squares. General linear model, model specification, autocorrelation in linear models. Pre-requisites: STA221, STA302 STA430: Econometric Models II Structural and reduced forms, lagged endogenous variables identifiability, global and local identifiablility, multicollinearity estimation of simultaneous equation systems, subsystems, and single equations types of estimators, their asymptotic properties hypothesis testing, types of tests and their asymptotic properties, testing over-identifying constraints testing for misspecification. STA432: Applied Econometrics Econometric model building and testing probit and tobit analysis use of econometric concepts and techniques in economic and development planning and research models for plan preparation at the enterprise and national levels derivation and use of shadow prices in development planning and project scheduling demand analysis labour market behaviour models of unemployment econometric analysis of inflation monetarist models rational expectations and the natural rate hypotheses models of consumer and investment behaviour use of the standard computer packages in econometrics including practical exercises case studies. STA434: Survey Research Methods This course is intended to deal with the practical issues in the planning, design, execution and management of sample surveys. The course work will consist of several assignments of practical problems. Course Outline: Problems of measurement and scaling attitude measurement study design methods of data collection interviewing techniques questionnaire design response errors structure of interviewer effects problems of and procedures for compensation for non-response. STA435: Biometrics Methods I Biological assay: direct and indirect assays dilution assays dose response relationships parallel line and slope ratio assays multiple assays assays based on quantal responses. Agricultural trials crop weather modelling plot sampling techniques lay out of field experiments combining analyses over sites and seasons planning future experiments. Sampling and estimating biological populations. Longitudinal data analysis: Design considerations exploring longitudinal data generalised linear models for longitudinal data. Pre-requisites: STA302, STA307 STA 436: Biometrics Methods II Clinical trials: protocal design parallel studies cross over designs drop outs and protocal violators repeated measurements multi-centre trials sequential methods. Epidemiological studies: descriptive epidemiology investigative epidemiology causation, case control and cohort studies outbreak investigations community diagnosis sources of bias in epidemiological studies. STA437: Survival Analysis Survival function hazard function cumulative hazard function censoring Kaplan-Meier survival curve parametric and nonparametric representation of the survival and hazard distributions. Two-sample and k-sample tests proportional hazard models accelerated failure time models models for grouped survival data inclusion of covariates - Coxs P. H model applications of model checking competing risks - extensions of Coxs model. Frailty models. Pre-requisites: STA304, STA403.odels II STA432 Applied Econometrics STA434 Survey Research Methods STA435 Biometrics Methods I STA436 Biometrics Methods II STA437 Survival Analysis The complete course requires 8 semesters each of 15 weeks. Flexible registration rules allow students to control their own pace of progress through the programme. The minimum number of units a student may take in one semester is three. The total number of units required in the course is 44. A candidate may be exempted from some course units and credit transferred from approved institutions, subject to the following conditions. (i)Request for exemption should be made in writing, on admission, addressed to the Dean of the Faculty of Science and must be accompanied by officially endorsed supporting documents including the institutions syllabuses for the relevant courses. (ii)Satisfactory performance in applicable examinations in the relevant courses. (iii)Payment of appropriate exemption fees. (iv) No candidate shall be exempted from more than one third of the total number of units required in the course. (v)A candidate may be required to sit and pass applicable University of Nairobi examinations in the relevant course units, provided they have paid the appropriate examinations fees. This is a distinctive feature of the training programme. It consists of a series of practical exercises for each of which students write a report and take part in a class discussion All applicants should hold one of the following minimum qualification or equivalent: (i)Mean grade C at KCSE plus at least grade B in Mathematics. (ii) Diploma in Statistics (iii) Diploma in Computer Studies (iv) Diploma in Education, with mathematics as a major subject. (v) A-level: 2 Principal passes in mathsphysics, mathschem. mathsgeog, mathsecon. (vi) A degree in a mathematical subject from a recognised university. The subject of statistical science is concerned with the application of probability and modern mathematical methods to solve complex and practical problems which involve uncertainty. These uncertainties are usually associated with scientific, technological, economic, biological or environmental problems. The methodology employed draws upon mathematics and probability to establish a theoretical foundation, computing resources for handling data, and an understanding of the scientific method for meaningful application. The B. Sc. course is designed to provide broad education in the basic theory and methods of statistics, that would enable the student to apply the knowledge acquired to a wide range of practical problems in research, industry, economic and social development, agriculture and medical research, etc. The programme provides for four main areas of specialisation: Mathematical Statistics, Economic Statistics, Demography and Social Statistics, and Biometry People trained in Statistical science work in research teams performing such tasks as: Design of survey programmes Econometric modelling of development plans Epidemiological investigations of disease Clinical trials of newly developed drugs Field trials of new crop varieties Surveys of adoption of novel farming methods Modelling in population and quantitative genetics To succeed, statisticians must have a definite competence in mathematics. Mathematical ability is not the sole criterion for success. Statisticians must be able to communicate effectively with investigators untrained in statistical science. The teaching is organised via a combination of lectures, compulsory reading, laboratories and homework. Class attendance is required. Courses are taught in English. Examinations are held at the end of every semester Exploratory Data Analysis Description. Data, grouping data, graphs and charts, standard leaf diagrams, Box and Whisker diagrams. Variables and their frequency distributions, summary measures. The comparison problem - an exploratory view. An exploratory look at association. The staircase and the short cut to inference. Distributions and their troubles. Kinds of nonnormality and robustness. The role of vague concepts. Indication, determination or inference. Indication and indicators. Data analysis and computer graphics. Graphs on determination and inference. Methods of assessing real uncertainty, Bayesian ideas, empirical priors, Bayes theorem. Prior information for normal data binomial data and beta priors Poisson data and gamma priors. Binomial probability paper the normal probability paper. Pre-requisite: STA10 Programming Methodology Description. Principles of computer organisation. Information storage. Bits, bytes, words, ordinary and floating point representation of numbers. Character codes. Structured programming using high level language e. g. Pascal. FORTRAN, C programme structure. Abstract data types. Mathematical expressions and operations. Logical expressions and operations. Control structures. Functions. Procedures. Report and display design, library procedures. Types of problems computers can solve. General structure of installation mainframe versus stand alone micro computers: networking operating systems, compiler systems and utilities. Co-requisite: SMA 101 Probability And Statistics I Description. Particular distributions: Bernoulli, binomial, Poisson, geometric, hypergeometric, uniform, exponential and normal random variables and their distributions. Bivariate frequency distributions. Joint probability tables and marginal probabilities. Moments and moment generating function. Markov and Chebychev inequalities. Special univariate distributions. Bivariate probability distributions joint marginal and conditional distributions Independence Bivariate expectation Regression and Correlation Calculation of regression and correlation coefficients for bivariate data. Pre-requisite: STA101. Economic And Social Science Description. Economic Statistics: Gross domestic product, index numbers, retail price index, consumer price index, product index balance of payments and trade statistics. Demography: Scope, uses and sources of demographic and socio-economic data methods of enumeration demographic concepts and measures current and cohort methods of description and analysis rates and ratios standardisation construction of life tables. Measurement of fertility, mortality and nuptiality. Determinants of age structure and the intrinsic growth rate. Survey data interpretation of demographic statistics, tests of consistency and reliability. Social Statistics: Nature of social statistics sources of social statistics conceptual problems validity and reliability concepts definition and classification. Measurement problems in social surveys socio-economic indicators. Studies in the integration of social statistics. History of Statistics development in Kenya. Sources and methods in official statistics in Kenya. Operations Research I Description. Linear programming: Formulation of LP problems. The simplex algorithms duality theory and economic interpretations. Post optimality (sensitivity) analysis. Introduction to transportation and assignment problems. Survey of continuous optimisation problems. Unconstrained optimisation problems and methods of solution. Introduction to constrained optimisation. Integer programming methods of integer programming. Computational Methods And Data Analysis Ii Description. Numerical solution of linear systems numerical evaluation of eigenvalues and eigenvectors. Numerical integration and differentiation. Data structures, arrays and their implementation, strings application and implementation of stacks, queues, linked lists, trees and graphs: Survey application, questionnaire design data processing, data editing and correction editing and imputation principles writing of edit specification, use of an edit specification, use of an edit package. Tabulation, table design, writing of a table specification use of a tabulation package. Writing programs to implement numerical algorithms. Application of numerical analysis software package such as NAG. Simulation: random and pseudo random numbers generation of uniform variates outline of tests, mention of physical devices for uniform generators generation of variates from standard distributions e. g. normal, exponential etc. Pre-requisites: STA122, STA201 Principles Of Statistical Inference Description. Meaning of statistics, objectives of statistical investigation. Statistical decision problems, basic concepts of inference. Role of normal distribution in statistics. Random samples, use of random number tables. Inference about population means: point and interval estimates, simple one sample and two sample tests. Linear regression and correlation analysis. Analysis of variance. Analysis of frequency data. Simple nonparametric tests. Probability And Statistics Ii Description. Distribution functions of random variables bivariate normal distribution. Derived distributions such as chi-square, t and F. Statistical independence. Random samples. Multinomial distributions. Functions of several random variables. The independence of and S 2 in normal samples. Order statistics. Convergence and limit theorems. Pre-requisite: STA201 Theory Of Estimation Description. Properties of point estimators. Sufficient statistics, the factorisation criterion complete statistics. Minimum variance unbiased estimators Cramer-Rao inequality Fisher information efficient estimators. Maximum likelihood estimators and their properties. Interval estimation. Least squares estimation in linear models: simple linear model, the general linear model weighted least squares interval estimation in linear models. Pre-requisite:STA201 Probability Modelling Description. Stochastic processes, definition and examples. Bernoulli process: probability model, waiting times. Markov chains: discrete time Markov chains, holding times, stationary distributions, classification of states. Birth and death processes, stationary distributions. Queuing models: deterministic approximations, examples of queuing systems, application to arrival and departure processes, heavy traffic etc. Pre-requisite: STA201, Co-requisite: STA301 Analysis Of Experimental Designs I Description. General principles: randomisation, replication, blocking, covariates, orthogonality, balance, logical control or error, sequential design. Estimation of treatment contrasts and their precision, treatment structure comparison with a control. Some common designs: completely randomised design, randomised complete block design, rationale for blocking latin squares, rationale, randomisation, analysis relative merits of designs. Introduction to factorial experiments: 2 2 and 2 3 designs calculation and interpretation of effects and interactions. Incomplete block design, optimality criteria. Crossed and nested block structures. Operations Research Ii Description. Aims and scope of stochastic modelling. Decisions under risk, decision trees, decisions under uncertainty. Markov decision processes, dynamic programming models linear programming solution of the Markovian decision problem. Queuing models, types of queues roles of Poisson and exponential probability models queues with combined arrivals and departures queues with priorities of service. Traffic flow models. Inventory models, practical stock systems types of inventory scheduling policies storage models. Simulation models, roles of random numbers simulation experiments Monte Carlo calculus and variance reduction techniques, simulation as estimation, control variates, antithetic variates, stratified and importance sampling choice of sampling size. Analogue simulation systems e. g. queues, inventories, traffic networks, storage systems. Computational Methods And Data Analysis Iii Description. Application of statistical packages (e. g. GLIM, SPSS, SPLUS, GENSTAT, etc) in statistical data analysis. Simulation of simple deterministic and stochastic systems simulation of inventory and stock control systems, queuing systems, traffic networks etc. Polynomial interpolation, spline approximation, solution of ordinary differential equations. Stability and efficiency concepts. Monte Carlo methods. Management information systems management of information systems. File systems and database systems database design. Project management and implementation use of computer development tools, Case studies. Report writing, presentations. Data communication and networks, applications case studies. Measure, Probabilty And Integration Description. Measure and integration: Measurable functions, measures, measure space integration, monotone convergence theorem, Fatous lemma convergence theorems Radon Nikodym theorem Lebesgue decomposition. Probability Theory: Probability as a measure probability space random variables distribution functions and characteristic functions. Sums of random variables, independence. Modes of convergence of sequences of random variables. Borel-Canteli lemmas and the zero-one laws, laws of large numbers and central limit theorem. Linear Modelling Ii Description. Analysis of the general linear model: model building, model selection and validation, variable selection stepwise and best subset regression. Introduction to response surface methodology. Modelling under prior and additional information, ridge regression. Modelling of nonnormal data. Treatment of outliers in regression models. Robustness, graphical techniques. Generalised linear models, measurement of association in two-way tables log-linear and other models for contingency tables logit, probit, categorical data, score tests, case studies. Analysis Of Experimental Designs Ii Description. Review of experimental and statistical objectives. General 2 n design, confounding of one or more effects, partial confounding: fractional replication block compositions. Factors at 3 levels 3 2 and 3 3 experiments with and without confounding, estimation of effects. Split plot designs. Incomplete block designs: nature and need for incomplete blocks types of designs, balanced designs, balanced incomplete block design, intra and inter block analysis partially balanced incomplete blocks-two associate classes only. Youden squares lattice designs relative merits of designs. Planning of experiments choice of design, economic considerations, treatment design experimental design. Determination of optimum plotblock size and shape. Pre-requisite: STA307 Applied Time Series Analysis Ii Description. Probability models for time series, stationary processes, the autocorrelation function pure random process, MA and AR processes mixed models, integrated models the general linear process, continuous processes. Model identification and estimation, estimating the autocovariance and autocorrelation functions fitting AR and MA processes estimating the parameters of mixed and integrated models the Box-Jenkins seasonal model residual analysis. Forecasting, univariate and multivariate procedure prediction theory. Spectral theory, the spectral density function Fourier analysis and harmonic decompositions periodogram analysis spectral analysis, effects of linear filters estimation of spectra confidence intervals for the spectrum.

No comments:

Post a Comment