Ez a dolgozat egy új algoritmust mutat be az adathalmazokban lévő kiugró értékek (anomáliák) megtalálására, az IDOD: Incomplete Data based Outlier Detection algoritmust és ennek legújabb változatát az IDOD 3-at. A javasolt megoldás lényege, hogy a hiányzó adatértékek felülírása révén találjuk meg a kiugró értékeket, egy hiányzó adatok kezelésére létrehozott neurális hálózat alapú algoritmus (HIDD) segítségével.
A kiugró értékek megtalálására szolgáló különböző ígéretes és hatékony algoritmusokat megfigyelve túlnyomó többségük a teljes adatvektorokat tekinti outlier jelöltnek. Az IDOD algoritmus azonban ebben a tekintetben jelentősen különbözik a többitől , mivel kifinomultabb megközelítést alkalmaz, és már magukat a komponenseket tekinti kiugró adatnak..
Arra a következtetésre is jutottunk, hogy ez a kiugró észlelési módszer hozzárendelésfüggő.
Ez egy ígéretes új eredmény, amely mélyebb betekintést nyújthat az adatba és az anomália eredeteibe. Az anomália detektálási algoritmusok értékelése azonban már most is állandó kihívás az adatbányászati kutatásokban, és a különbség az anomália definiálásában, jelentősen megnehezíti az új eredmények értékelését és összehasonlítását a klasszikus, legkorszerűbb anomália detektálási technikákkal.
Ezért a szokásos benchmarking módszereket el kellett vetni, és a leggyakrabban használt referencia adathalmazok felhasználása helyett más módszereket kellett alkalmazni az IDOD algoritmus értékelésének megkezdéséhez.
Ez az új módszer új megközelítést vezet be a kiugró értékek észlelésére, és egy új outlier definíciója felé is elmozdul. Ez tekinthető az első ilyen jellegű kísérletnek.
A TDK dolgozat célja, hogy bemutassa ezt az új algoritmust és az arra épülő ötleteket, miközben a szakirodalomban említett klasszikus és legkorszerűbb kiugró érték detektálási módszereket is ismerteti. Végül az algoritmus teszt eredményeit is prezentálja, ami több következtetést és ötletet is eredményez a jövőbeli fejlesztésére vonatkozóan.