Abstract | U ovom radu opisuju se svojstva velikih podataka, s dubljim uvidom u istinitost, vrijednost i promjenjivost. Dan je kratak pregled svih svojstava i neki primjeri izvora velikih podataka. Istinitost podataka promatra se kroz različita svojstva kvalitete podataka, a posebno su izdvojene poteškoće obrade jezika i ljudskog izražavanja. Dane su neke poslovne metode za poboljšanje i očuvanje kvalitete, kao i druge automatizirane metode. Detaljno su opisani razni primjeri izvlačenja vrijednosti iz velikih podataka. Predstavljeni su alati i metode za obradu podataka, uključujući grupiranje podataka, regresijsku i prediktivnu analizu te klasifikaciju, uz naglasak na strojno učenje. Posebno se istražuje obrada prirodnog jezika i njene komponente. Navode se i neke platforme za analizu velikih podataka. Promjenjivost je opisana primjerima promjenjivih podataka i modela. Dublje su istraženi prilagodljivi modeli na temelju pomaka koncepta. Navedeni su problemi povezivanja i integracije podataka iz novih izvora uz primjere algoritama za automatsko rješavanje tih problema. U praktičnom dijelu na primjeru podataka s društvenim mreža pokazuju se neke metode obrade. Detaljno je opisan oblik podataka, kao i prikupljanje i pretprocesiranje. Istinitost, odnosno vjerodostojnost podataka ispituje se naivnim Bayesovim klasifikatorom, uz podjelu na glasine i provjerljive vijesti. Izvlačenje vrijednosti pokazuje se analizom sentimenta javnosti po temama koje pripadaju promatranim događajima, a promjenjivost pronalaženjem uzroka promjena u sentimentu prema odabranim temama, organizacijama i osobama. |
Abstract (english) | In this paper the properties of big data are described, with a deeper insight into veracity, value, and variability. A brief overview of all properties and some examples of big data sources are provided. Data veracity is examined through various data quality attributes, and a particular focus is given to the challenges of analysing language and human expression. Some business methods for improving and preserving data quality are mentioned, as well as other automated methods. Various examples of extracting value from big data are detailed. Tools and methods for data processing, including data clustering, regression and predictive analysis, and classification, are presented, with an emphasis on machine learning. Natural language processing and its components are specifically explored. Some platforms for big data analysis are also mentioned. Variability is described with examples of variable data and models. Adaptive models based on concept drift are further explored. Data linkage and integration issues from new sources are discussed, along with examples of algorithms for automatic problem-solving. In the practical part, some data processing methods are demonstrated using social media data as an example. Data format, collection, and preprocessing are described in detail. Veracity, or rather credibility of data is examined using a naive Bayes classifier, categorizing the data into rumours and verifiable news. Value extraction is demonstrated by analyzing public sentiment on topics related to observed events, while variability is explored by finding the causes of sentiment changes related to selected topics, organizations, and individuals. |