Abstract | Cilj ovog rada je istražiti odnos pristranosti i varijance u okvirima van srednjekvadratne greške, u svrhu boljeg razumijevanja uspješnosti pojedinih metoda. Na početku rada se definiraju osnovni pojmovi vezani uz statističko učenje, nakon čega se navode generalizirane definicije optimalne i glavne predikcije, pristranosti, varijance i šuma. Koristeći te definicije oblikuje se generalni oblik dekompozicije testne greške, te se pokazuje da tako definirana dekompozicija vrijedi za srednjekvadratnu grešku. Nakon srednjekvadratne obraduje se 0-1 funkcija gubitka u slučajevima klasifikacije. Pokaže se da dekompozicija vrijedi i tada, s tim da se iznosi šuma i varijance množe skalarima. Vrijednosti tih skalara otkrivaju da porast varijance smanjuje testnu grešku u pristranim pri- mjerima. Sličan rastav s modificiranim vrijednostima skalara postoji i u slučajevima kada postoje više od dvije klase, te kada je funkcija gubitka asimetrična. U slučaju kada je 0-1 greška modificirana na način da se i točni pogodci ocjenjuju s pozitivnom vrijednošću, rastav sadrži dodatan član. Takoder se definira pojam Bregmanove divergencije, te se pokaže da dekompozicija vrijedi ako je funkcija gubitka Bregmanova divergencija. U problemima klasifikacije često se koriste stabla odluke, metode koje skup za učenje iterativno dijele na manje podskupove, te na svakom podskupu prilagodavaju jednostavan mo- del. Budući da takve metode često imaju visoku varijancu, u svrhu smanjivanja iste koristi se bagging, metoda bazirane na agregiranju rezultata brojnih stabala odluke. Uspješnost te metode je u prijašnjoj literaturi objašnjena kroz pojam ispravno poredane metode, te se pokaže da je metoda ispravno poredana u x ako je nepristrana u x. Ako je funkcija gubitka metrika, za nju ne mora nužno postojati dekompozicija, kao što je to slučaj za apsolutnu grešku. Ipak, iznos njene testne greške se može ograničiti odozgo i odozdo koristeći šum, pristranost i varijancu. Svojstva dekompozicije u slučajevima klasifikacije su prikazana na simuliranom skupu podataka, gdje se pokaže odnos pristranosti i varijance na primjeru modela k-najbližih susjeda sa 0-1 funkcijom gubitka. Konačno, radi boljeg razumijevanja rada spomenut je proces kojim metode stabala odluke, te bagging generiraju predikcije. |
Abstract (english) | The goal of this thesis is to explore the relationship between bias and variance outside of the constraints of squared-loss error, with the purpose of a better understanding of success of certain statistical learning methods. At the beginning, basic terms related to statistical learning are defined, after which a gene- ralized definition is given for the main and optimal predictions, noise, bias and variance. Using those definitions, a general form of test error decomposition is formed, and it is shown that a decomposition defined as such holds for squared error. Afterwards the topic shifts to 0-1 error in terms of classification problems. It is shown that the decomposition holds in that case as well, with noise and variance both multiplied by scalars. Those scalar values reveal that higher variance reduces test error in biased examples. A similar decom- position with adjusted scalar values is shown to exist when there are more than two classes, and also with an asymmetrical 0-1 error modification. If the 0-1 error is modified in a way that grades correct guesses with a positive value, the decomposition contains an additional member. Bregman divergences are also defined, and it is shown that a decomposition holds if the loss function is a Bregman divergence. In classification methods, decision trees are often used, which are methods that repeatedly divide the training set into smaller subsets, and then apply a simple method to each subset separately. Since those methods often display high variance, bagging, a method that ag- gregates results of multiple decision trees is used. The success of bagging was explained in the literature using correctly ordered methods, and it is shown that a method is correctly ordered in x if it is unbiased in x. If a loss function is a metric, there does not necessarily need to exist a valid decomposition for it, as is the case with absolute loss. Still, the value of its test error can be limited from above and below using noise, bias and variance. Properties of the decomposition in classification problems are shown on a simulated data set, where the bias-variance trade-off is shown for a k-nearest neighbours model with a 0-1 loss function. Finally, for better understanding of the thesis, an outline is given for the process through which decision tree methods, as well as bagging, generate predictions. |