Abstract | Cilj izbora značajki jest utvrđivanje podskupa varijabli \(X_1, X_2,...\) korisnih za predviđanje \(Y\). Iz perspektive kauzalnih veza, smisao relevantnosti varijable može biti poboljšan. Konkretno, uzroci su bolje mete vanjskih utjecaja od posljedica: ako je \(X_i\) uzrok od \(Y\), manipulacija \(X_i\) manifestirat će se na vrijednostima od \(Y\), ali ne i ako je \(X_i\) posljedica od \(Y\). U jeziku Bayesovih mreža, roditelji (uzroci), djeca (posljedice) i supružnici (drugi uzroci direktnih posljedica) su članovi Markovljevog pokrivača iz čega slijedi da su jako relevantni u smislu definicije 2.1.3, u vjerodostojnim distribucijama. Direktni uzroci su jako kauzalno relevantni. Supružnici nisu individualno relevantni u smislu definicije 2.1.2, ali roditelji i djeca jesu, u vjerodostojnim distribucijama. I uzroci i posljedice pridonose predviđanju \(Y\), ali djeca se ponekad mogu objasniti drugim uzrocima posljedica od \(Y\) (supružnicima od \(Y\)), pa se puna prediktivna moć djece ne može iskoristiti bez poznavanja vrijednosti supružnika. Uzroci i posljedice imaju različitu prediktivnu moć u slučaju kada dođe do promjene distribucije u sustavu, ovisno o promjeni. Konkretno, uzroci bi trebali imati veću moć predviđanja od posljedica ako se varijablama \(X_1,X_2,...\) doda nova nepoznata varijabla šuma. U slučaju da se nepoznati šum doda varijabli \(Y\), varijable posljedice su bolji izbor. Nepoznate varijable kao što su greške u mjerenju i zajednički roditelji nekih od varijabli u sustavu mogu dovesti do potpunog neuspjeha kauzalne analize ako se zanemari njihovo potencijalno postojanje. Kauzalna analiza može pomoći u osmišljanju novih eksperimenata kojima bi se dodatno razjasnila relevantnost značajki. |
Abstract (english) | Feature selection focuses on uncovering subsets of variables \(X_1, X_2,...\) predictive of a target \(Y\). In light of causal relationships, the notion of variable relevance can be refined. In particular, causes are better targets of action of external agents than effects: if \(X_i\) is a cause of \(Y\), manipulating it will have an effect on \(Y\), not if \(X_i\) is a consequence (or effect). In the language of Bayesian networks, direct causes (parents), direct effects (children), and other direct causes of the direct effects (spouses) are all members of the Markov blanket. The members of the Markov blanket are strongly relevant in the sense of definition 2.1.3, in faithful distributions. Direct causes are strongly causally relevant. Spouses are not individually relevant in the sense of definition 2.1.2, but both parents and children are, in faithful distributions. Both causes and consequences of \(Y\) are predictive of \(Y\) , but consequences can sometimes be “explained away” by other causes of the consequences of \(Y\) . So the full predictive power of children cannot be harvested without the help of spouses. Causes and consequences have different predictive power when the data distribution changes, depending on the type of change. In particular, causal features should be more predictive than consequential features, if new unknown “noise” is added to the variables \(X_1,X_2,...\). If new unknown noise is added to \(Y\) however, consequential variables are a better choice. Unknown features, including possible artifacts or confounders, may cause the whole scaffold of causal feature discovery to fall apart if their possible existence is ignored. Causal feature selection method can assist the design of new experiments to disambiguate feature relevance. |