Teorija statističkog učenja i primjene

Babić, Marija

prikaz prve stranice dokumenta Teorija statističkog učenja i primjene

Preuzmi
PDF 607.64 KB

diplomski rad

Teorija statističkog učenja i primjene

2021. urn:nbn:hr:217:416508

Babić, Marija

Sveučilište u Zagrebu
Prirodoslovno-matematički fakultet
Matematički odsjek

Citirajte ovaj rad

APA 6th Edition

Babić, M. (2021). Teorija statističkog učenja i primjene (Diplomski rad). Zagreb: Sveučilište u Zagrebu, Prirodoslovno-matematički fakultet. Preuzeto s https://urn.nsk.hr/urn:nbn:hr:217:416508

MLA 8th Edition

Babić, Marija. "Teorija statističkog učenja i primjene." Diplomski rad, Sveučilište u Zagrebu, Prirodoslovno-matematički fakultet, 2021. https://urn.nsk.hr/urn:nbn:hr:217:416508

Chicago 17th Edition

Babić, Marija. "Teorija statističkog učenja i primjene." Diplomski rad, Sveučilište u Zagrebu, Prirodoslovno-matematički fakultet, 2021. https://urn.nsk.hr/urn:nbn:hr:217:416508

Harvard

Babić, M. (2021). 'Teorija statističkog učenja i primjene', Diplomski rad, Sveučilište u Zagrebu, Prirodoslovno-matematički fakultet, citirano: 20.02.2025., https://urn.nsk.hr/urn:nbn:hr:217:416508

Vancouver

Babić M. Teorija statističkog učenja i primjene [Diplomski rad]. Zagreb: Sveučilište u Zagrebu, Prirodoslovno-matematički fakultet; 2021 [pristupljeno 20.02.2025.] Dostupno na: https://urn.nsk.hr/urn:nbn:hr:217:416508

IEEE

M. Babić, "Teorija statističkog učenja i primjene", Diplomski rad, Sveučilište u Zagrebu, Prirodoslovno-matematički fakultet, Zagreb, 2021. Dostupno na: https://urn.nsk.hr/urn:nbn:hr:217:416508

Za citiranje koristite ovu mrežnu adresu: https://urn.nsk.hr/urn:nbn:hr:217:416508

Prijavite se u repozitorij kako biste mogli spremiti objekt u svoju listu.

Podaci o radu

Naslov	Teorija statističkog učenja i primjene
Naslov (engleski)	Theory of statistical learning and application
Autor	Marija Babić
Mentor	Bojan Basrak (mentor)
Član povjerenstva	Bojan Basrak (predsjednik povjerenstva)
Član povjerenstva	Hrvoje Planinić (član povjerenstva)
Član povjerenstva	Pavle Pandžić (član povjerenstva)
Član povjerenstva	Matej Mihelčić (član povjerenstva)
Ustanova koja je dodijelila akademski / stručni stupanj	Sveučilište u Zagrebu Prirodoslovno-matematički fakultet (Matematički odsjek) Zagreb
Datum i država obrane	2021-07-21, Hrvatska
Znanstveno / umjetničko područje, polje i grana	PRIRODNE ZNANOSTI Matematika
Sažetak	Na početku rada definiramo najjednostavniju vrstu učenja koja se naziva minimizacija empirijskog rizika (ERM algoritam). Nakon toga definiramo glavni model za učenje, PAC model, koji se bazira na RA pretpostavci, te njegovu agnostičku varijantu koja ne zahtijeva tu istu pretpostavku. Uvođenjem pojma generalizirane funkcije gubitka, generalizirali smo model PAC učenja kako bismo ga mogli koristiti na široj skupini zadataka za učenje, a ne samo za binarnu klasifikaciju. U središnjem dijelu rada dani su glavni teoremi. No Free Lunch teorem nam govori da ako nemamo nikakvih dodatnih pretpostavki na klasu hipoteza, ne postoji algoritam kojim možemo uspješno riješiti sve probleme učenja. To znači da svaki problem zahtijeva posebnu analizu, a pri biranju klase hipoteza veliki naglasak stavljamo na pronalazak ravnoteže izmedu greške aproksimacije i greške procjene, što je u literaturi poznato kao biascomplexity tradeo. Korištenjem Sauer-Shelah-Perles leme i Massartove leme dokazali smo glavni teorem ovog rada, Fundamentalni teorem statističkog učenja, kojim smo povezali pojmove uniformne konvergencije, (agnostičkog) PAC učenja, ERM algoritma i VC dimenzije za probleme binarne klasifikacije. Glavna poruka je da klasu hipoteza možemo naučiti u (agnostičkom) PAC smislu ako i samo ako ima konačnu VC dimenziju. Kvantitativna verzija tog teorema nam daje gornje i donje ograde na složenost učenja koje, između ostalog, ovise o VC dimenziji promatrane klase hipoteza. U posljednjem dijelu rada usredotočili smo se na dva algoritma za probleme binarne klasifikacije. Prvi od njih koristi klasu poluprostora, a spada u jednu od najkorištenijih familija klasa hipoteza - linearne prediktore. Korištenjem Radonovog teorema dokazali smo konačnost VC dimenzije poluprostora, a nakon toga smo se usredotočili na Perceptron algoritam, iterativnu verziju ERM algoritma. Drugi algoritam koji smo opisali je AdaBoost algoritam koji spada u Boosting algoritme, a kao rezultat daje hipotezu koja ovisi o linearnoj kombinaciji nekih jednostavnih hipoteza.
Sažetak (engleski)	In the beginning of this thesis, we define the simplest learning model called the Empirical Risk Minimisation (ERM) model. After that we define a formal learning model, the PAC model, which relies on the RA assumption, and its agnostic variant in which this assumption is omitted. By defining the generalised loss function we improved the PAC model so we can use it, not only in the context of binary classification, but also on a wider range of learning problems. The main theorems are given in the central part of the thesis. The No Free Lunch theorem states that, if we don’t have any additional assumptions on the hypothesis class, no learner can succeed on all learning tasks. This means that every learning task requires individual analysis and when choosing the hypothesis class, we have to pay attention on the balance between the approximation and estimation errors, which is known as the biascomplexity tradeo. Using the Sauer-Shelah-Perles lemma and Massart lemma, we proved the key theorem of this thesis, the Fundamental Theorem of Statistical Learning, which reveals the connection between the notions of uniform convergence, (agnostic) PAC learning, ERM rule and VC dimension for binary classification problems. The theorem states that a hypothesis class is (agnostic) PAC learnable if and only if its VC dimension is finite. The quantitative version of the same theorem gives us the upper and lower bounds on the sample complexity of learning, which, among other things, depend on the VC dimension of the corresponding hypothesis class. In the last part of the thesis, we focus on two algorithms for binary classification problems. First of them uses the hypothesis class of halfspaces which belongs to the family of linear predictors, one of the most often used family of hypothesis classes. Using the Radon theorem we showed that the VC dimension of halfspaces is finite and after that we focused on the Perceptron algorithm, an iterative version of the ERM model. The second algorithm is one of many Boosting algorithms called the AdaBoost algorithm. This algorithm outputs a hypothesis that depends on a linear combination of certain simple hypothesis.
Ključne riječi
Ključne riječi (engleski)
Jezik	hrvatski
URN:NBN	urn:nbn:hr:217:416508
Studijski program	Naziv: Matematička statistika Vrsta studija: sveučilišni Stupanj studija: diplomski Akademski / stručni naziv: magistar/magistra matematike (mag. math.)
Vrsta resursa	Tekst
Način izrade datoteke	Izvorno digitalna
Prava pristupa	Otvoreni pristup
Uvjeti korištenja
Datum i vrijeme pohrane	2021-09-14 08:16:49