Sažetak | U ovom radu bavili smo se rijetkim reprezentacijama i njihovom primjenom u dubokom strojnom učenju. Definirali smo rijetku reprezentaciju vektora uz rječnik kao linearnu kombinaciju samo nekoliko atoma iz rječnika. Cilj nam je pronaći rijetku reprezentaciju vektora koja ga dovoljno dobro opisuje uz korištenje što je manje moguće atoma iz rječnika, tj. uz što manje ne-nul komponenti. Formalno smo opisali optimizacijski problem pronalaska rijetke reprezentacije za dani vektor uz pogodnu mjeru rijetkosti i linearne uvjete. Za taj se problem pokazalo da je nekonveksan, stoga nismo mogli koristiti standardne alate konveksne optimizacije niti garantirati jedinstvenost rješenja. Iz tog razloga uveli smo funkcije sparka, međusobne koherencije i kumulativne koherencije koje opisuju matricu rječnika te pomoću njih dokazali jedinstvenost rijetke reprezentacije pod određenim uvjetima na rijetkost rješenja. Nakon teorijske analize, uz garanciju jedinstvenosti rješenja optimizacijskog problema pronalaska rijetke reprezentacije, bavili smo se opisom algoritama potrage koji aproksimiraju rijetku reprezentaciju vektora uz matricu rječnika. Promatrali smo pohlepne algoritme kojima je glavna ideja lokalno optimalno djelovanje u potrazi za globalno optimalnim rješenjem kao što su OMP (engl. Orthogonal-Matching Pursuit) i algoritam s pragom tolerancije. Bavili smo se i metodama relaksacije, kao što je BP algoritam (engl. Basis Pursuit), koje problem pronalaska rijetke reprezentacije svode na konveksan problem, a potom koriste metode konveksne optimizacije za aproksimaciju rješenja. Nakon opisa algoritama potrage dali smo njihovu numeričku usporedbu na primjerima. Posljednji dio rada usmjeren je na rijetku reprezentaciju u dubokom strojnom učenju, točnije u konvolucijskim neuronskim mrežama. Dali smo kratak uvod u konvolucijske neuronske mreže i učenje rječnika, a zatim formalno opisali primjenu rijetke reprezentacije u konvolucijskim neuronskim mrežama za razne probleme nadziranog i nenadziranog učenja. Na kraju smo ilustrirali moć rijetke reprezentacije na nekoliko primjera iz primjene. |
Sažetak (engleski) | This thesis deals with sparse representations and their applications in deep learning. Firstly, we defined the sparse representation of a vector as a linear combination of only a few atoms from a dictionary. Our goal is to find the sparse representation of a vector which has as many zero components as possible and still describes the vector with sufficient accuracy. This task, when described formally, is a non-convex optimization problem. Due to its non-convexity, we could not use standard convex optimization tools and therefore could not guarantee the uniqueness of such solution, i.e., sparse representation. For that reason, we introduced functions which describe the dictionary, such as spark, mutual coherence and cumulative coherence. We managed to state and prove the theorems which guarantee the uniqueness of sparse representation under certain conditions by using these functions. With the uniqueness of the solution guaranteed, we could move on to pursuit algorithms, the practical methods for finding the sparse representation of a vector given a dictionary matrix. We described greedy methods, such as the Orthogonal-Matching Pursuit (OMP) algorithm and the thresholding algorithm, which perform locally-optimal updates in search of the optimal solution. We also described relaxation methods, such as Basis Pursuit (BP), which replace the non-convex sparsity measure with a convex approximation and then find the sparse representation using convex optimization algorithms. After that, we compared these pursuit algorithms on a couple of examples. The last part of this thesis deals with sparse representation in deep learning, precisely in convolutional neural networks (CNNs). We briefly described CNNs and the dictionary learning problem, followed by a description of the Convolutional Sparse Coding model and the Multi-Layer Convolutional Sparse Coding Model, coined CSC and ML-CSC respectfully. Lastly, we gave a couple of examples to illustrate the power and efficiency of sparse representation models. |