(Burger Csaba-Berndt Mihály: Anomália-detekció gradient boosting eljárással: központi banki adatminőség-ellenőrzés gépi tanulással)
Növekvő népszerűségnek örvendenek az olyan felügyelt gépi tanulási módszerek az adathibák azonosításában, amelyekben nem szerepelnek hibacímkék. Az ilyen algoritmusok arra támaszkodnak, hogy az adatok egyfajta alapigazságot tükröznek, azaz azt feltételezik, hogy a megfigyelések többsége helyes. Az így felállított függvényeknek nem megfelelő pontokat – kiugró értékeket – potenciális adathibaként jelölünk meg.
Ebben a cikkben egy anomália-detekcióra épülő hibafeltáró algoritmust mutatunk be extreme gradient boosting módszer (xgboost) felhasználásával, és megvizsgáljuk a kapcsolódó modellezési folyamatot. Ennek során három fő modellezési hipotézist fogalmazunk meg, amelyet empirikus úton igazolunk; ezek (1) a hiányzó érték kezelésére, (2) a veszteségfüggvény kiválasztására és (3) a hiba helyéhez meghatározására vonatkoznak. A hipotézisek igazolásához MNB Hitelregiszter adatbázisának egy keresztmetszeti nézetét választottuk, amelyben a hitelbírálatkori hitelfedezeti arányt (LTV) és kapcsolódó oszlopait elemeztük, valamint szintetikusan előállított hibák megtalálási arányát vizsgáltuk.
A tanulmány azt mutatja, hogy a gradient boosting eljárás hatékonyságát nem befolyásolja érdemben a hiányzó adatok pótlásának módszere, ezért a számításilag leghatékonyabb, konstanssal való helyettesítés javasoljuk. Másodszor, a Huber-veszteségfüggvény, amely négyzetes a Huber-slope paraméterig, és lineáris felette, jobban kezeli az extrém kiugró értékeket a tanulás során, így az adathibákat is hatékonyabban találja meg. Végül, a módszer a célváltozóban található adathibákat tárja fel legnagyobb arányban, amiket a prediktorokban szinte egyáltalán nem azonosít. Az empirikus eredményeink az adatok sajátosságaitól függően általánosíthatóak, és a cikkben leírt lépések segítséget nyújthatnak modellezési döntések megalapozott meghozatalában.
OP 148