Statistisk inlärning med högdimensionella data


Aktuellt kursbeskrivning finns i kursplanen.


Denna kurs ger både vad gäller djup och bredd, omfattande kunskap i "data science" och statistisk inlärning. I kursen diskuteras både traditionella och toppmoderna metoder och algoritmer inom områdena. De relaterade grundläggande teorierna behandlas också. Efter godkänd kurs förväntas studenterna ha stark förmåga att lösa problem med hjälp av data. Dessutom förväntas de ha en stark självstudieförmåga för att förstå och lära sig nyutvecklade metoder och algoritmer.

Modul 1 (3 hp):
Teori. Kursen omfattar tre familjer av tillvägagångssätt för dimensionalitetsreduktion: spektralbaserad inlärning (multidimensionell skalning, isomap, kernel PCA, etc.), mångfaldig inlärning (lokalt linjär inbäddning, Hessian eigen-mapping, t-fördelad stokastisk granninbäddning, etc.), och metoder baserade på djupa neurala nätverk (autoencoders, variational autoencoder, etc.). Som specialfall av dimensionalitetsreduktion diskuteras också olika metoder för val av egenskaper, såsom ridge-regression, LASSO och feature importance. Övervakade inlärningsmetoder inklusive de kärnbaserade metoderna (Kernel ridge regression, support vector machine, etc.), ensemble-metoder (random forest och adaboost), neurala nätverk och olika djupinlärningsmetoder och arkitekturer diskuteras. Dessutom ingår oövervakade inlärningsmetoder inklusive olika klustringsanalysalgoritmer, såsom densitetsbaserade metoder och spektral klusteranalys. Djupinlärningsbaserade oövervakade inlärningsmetoder, såsom generativa kontradiktoriska nätverk och dess variationer innefattas också. Slutligen diskuteras grundläggande matematiska teorier för kärnmetoder, ensemblemetoder, ansatser med straff, grunda nätverk, algoritmer för sluttande gradient, universella estimatorer och fundamentala inlärningssatsen etc.

Modul 2 (4.5 hp)
Datorlaborationer.
I modulen ingår analys av flera datamaterial med hjälp av de i kursen ingående statistiska metoderna. Analyserna utförs i något av programspråken R eller Python. I modulen ingår omfattande skriftliga redogörelser för analyserna och deras resultat.
Info
Institutionen för fysik
Poäng 7,5
Nivå Avancerad
Kod 5MS084

Kategorier
Avancerade kurser 7,5
Profilkurs 7,5

Spår