Lärandemål
Efter avslutad kurs ska studenten kunna:
- Välja rätt statistiska modeller och metoder för dataanalys av praktiska problem baserat på välgrundade argument, särskilt när den underliggande datagenererande mekanismen är okänd.
- Använda olika statistiska inlärningsalgoritmer (både övervakat och oövervakat lärande) på praktiska problem.
- Utvärdera och optimera inlärningsmodellernas och algoritmernas prestanda samt kommunicera modellens/algoritmens förväntade osäkerhet.
- Kombinera flera modeller för att uppnå högre prediktiv noggrannhet.
Innehåll
Kursen fokuserar främst på de tillämpade aspekterna av statistisk inlärning men algoritmerna för statistisk inlärning studeras också. Kursen omfattar övervakade (supervised) inlärningsalgoritmer, med särskild tonvikt på klassificeringsmetoder som logistisk regression, klassificeringsträd, linjär diskriminantanalys, kvadratisk diskriminantanalys, K-nearest neighbour, support vector machine, och regressionsmetoder inklusive linjär regression, splines, generaliserade additiva modeller och regressionsträd. Kursen täcker också oövervakade (unsupervised) inlärningsmetoder som principalkomponentanalys, k-mean klustring och hierarkisk klustring. Modellvalidering genom korsvalidering, och bootstrap metoder behandlas. Regularisering för modellval, högdimensionell dataanalys, och förbättring av prediktionsprestanda genom model averaging, bagging och boosting ingår också.
Examinationsformer
Inlämningsuppgift och skriftlig tentamen.
Arbetsformer
Föreläsningar, övningar och datorlaboration.
Betyg
Som betygsskala används U–VG.
Förkunskapskrav
- Kandidatexamen eller kurser omfattande 180 hp