Desetletje nabora podatkov CERT: sistematični pregled metodološkega razvoja in pristranskosti zmogljivosti
Namen prispevka:
Namen prispevka je opredeliti metodološke pristranskosti in omejitve pri odkrivanju notranjih groženj na osnovi strojnega učenja z uporabo nabora podatkov CERT, da bi usmerili razvoj bolj realističnih, robustnih in operativno uporabnih pristopov za zaznavanje.
Metode:
Cilji so doseženi s sistematično analizo literature 131 recenziranih študij, objavljenih med letoma 2013 in 2025, ki uporabljajo strojno učenje za odkrivanje notranjih groženj na podlagi nabora podatkov CERT. Uporabljena sta bila postopek izbora po smernicah Prednostne postavke poročanja za sistematične preglede in metaanalize (angl. PRISMA – Preferred Reporting Items for Systematic Reviews and Meta-Analyses) ter strukturiran primerjalni okvir za proučevanje različic nabora podatkov, strategij značilnosti inženiringa, arhitektur modelov in evalvacijskih metrik z metodološkega in empiričnega vidika.
Ugotovitve:
Analiza kaže, da se večina študij zanaša na manj realističen nabor podatkov CERT v4.2, kar vodi do precenjenih rezultatov zmogljivosti, ki se ne posplošujejo na operativna okolja. Poleg tega ugotavlja, da je značilnost inženiringa pomembnejši dejavnik uspešnosti zaznavanja kot kompleksnost modelov, medtem ko nedosledne evalvacijske prakse otežujejo smiselno primerjavo med študijami.
Omejitve/uporabnost raziskave
Študija je omejena zaradi zanašanja na objavljeno literaturo, ki uporablja en sam sintetični nabor podatkov, kar omejuje posploševanje na resnična okolja.
Praktična uporabnost:
Ugotovitve kažejo, da bi morali biti praktiki previdni pri uvajanju modelov, validiranih na poenostavljenih referenčnih okoljih, ter namesto tega dajati prednost rešitvam, preizkušenim v pogojih izrazite neuravnoteženosti razredov. Poudarek bi moral biti na značilnosti robustnega inženiringa, nenadzorovanih ali hibridnih pristopih zaznavanja ter evalvacijskih metrikah.
Izvirnost/pomembnost prispevka:
Prispevek predstavlja prvo obsežno, metodološko usmerjeno analizo raziskav na področju odkrivanja notranjih groženj, ki izrecno razkriva precenjenost rezultatov zmogljivosti zaradi pristranskosti različic naborov podatkov in nedoslednosti evalvacije ter ponuja konkretna, na dokazih temelječa priporočila za izboljšanje realističnosti, primerljivosti in operativne vrednosti prihodnjih raziskav na tem področju.
UDK: 004.056
Ključne besede: odkrivanje notranjih groženj, nabor podatkov, CERT, strojno učenje, zaznavanje anomalij, pristranskost nabora podatkov, evalvacijske metrike