Anomali Tespiti

Anomali Tespiti

Makine Öğrenmesiyle Anomali Tespiti

Bu yazıda, makine öğrenmesi yöntemlerinin çeşitli alanlarda Anomali tespiti sürecine nasıl entegre edildiğini, hangi veri setlerinin ve performans metriklerinin kullanıldığını, ayrıca denetimli (supervised), yarı-denetimli (semi-supervised) veya denetimsiz (unsupervised) yaklaşımların nasıl dağıldığını kapsamlı şekilde aktarmaktır.

  • Anomali tespiti uygulama alanlarının analizi
  • Makine öğrenmesi (ML) tekniklerinin belirlenmesi
  • Performans metrikleri ve veri setlerinin incelenmesi
  • Denetimli, yarı-denetimli ve denetimsiz Anomali tespiti sınıflandırmasının dağılımı
The mannequin standing in a people crowd outdoor

Temel Kavramlar ve Anomalilerin Sınıflandırılması

Anomali tespiti, “veri setinde beklenen davranışa uymayan örüntüleri bulma” olarak tanımlanabilir. Bu alanda geleneksel olarak istatistiksel yöntemler (örneğin parametrik ve yarı-parametrik testler) veya bilgi tabanlı yaklaşımlar (uzman sistemler, kural tabanlı sistemler) kullanılmış olsa da, makine öğrenmesi teknikleri giderek daha fazla önem kazanmıştır. Anomaliler, üç ana kategoride değerlendirilebilir:

  • Nokta Anomaliler (Point Anomalies): Veri kümesinde tek bir örneğin, geri kalan örneklerin büyük çoğunluğundan bariz şekilde farklı olması durumudur. Örneğin, bir bankacılık işleminin alışılmadık yüksek tutarda gerçekleşmesi gibi.
  • Bağlamsal Anomaliler (Contextual Anomalies): Bir veri örneğinin sadece belirli bir bağlamda (zaman, mekân vb.) anormal kabul edilmesidir. Örneğin, sıcaklığın mevsime göre olağandışı olması.
  • Kolektif Anomaliler (Collective Anomalies): Verinin tek başına incelendiğinde anormal görünmese de, belirli bir grup ya da alt küme oluşturduğunda genel örüntüden farklılık göstermesidir. Örneğin, ağ trafiğinde bir grup paketlemenin hep aynı kalıpla kötü amaçlı olması.

Bu kategoriler, Anomali tespiti süreçlerinde hangi yöntemlerin veya modellerin uygun olacağı konusunda yol göstericidir.

Denetimli, Yarı-Denetimli ve Denetimsiz Öğrenme

Makale, makine öğrenmesi kategorilerini de Anomali tespiti özelinde üç grupta ele almaktadır:

  • Denetimli Öğrenme (Supervised): Normal ve anormal örneklerin etiketli olduğu veri setleriyle model kurulur. Burada en büyük zorluk, anormal örneklerin sayısının az ve çeşitliliğinin sınırlı olmasıdır. Ayrıca etiketlemenin maliyeti ve zorluğu da göze çarpmaktadır.
  • Yarı-Denetimli Öğrenme (Semi-Supervised): Genelde sadece normal veriler etiketli durumdadır. Model, normal veri dağılımını öğrenir ve bu dağılımdan sapan verileri anormal olarak işaretler. “One-Class SVM” bu alandaki tipik bir örnektir.
  • Denetimsiz Öğrenme (Unsupervised): Etikete gereksinim duymaz. Veri kümesinde düşük yoğunluklu kümeleri veya genel dağılımdan sapan noktaları bulur. K-Means, DBSCAN, Isolation Forest, Autoencoder gibi yöntemler bu kapsama girer.

Gerçek dünyada anormal veri etiketlemesinin zor veya maliyetli olması nedeniyle, pek çok çalışma denetimsiz yaklaşımlara yönelmiş; bununla birlikte, etiketli veri elde edilebildiği durumlarda denetimli veya yarı-denetimli modellerin de yüksek doğruluk sağlayabildiği gözlemlenmiştir.

Anomali Tespiti Uygulama Alanları

  • Intrusion Detection: Ağ trafiğinde veya sistem günlüklerinde olağandışı davranışların tespit edilmesi, siber saldırıların erken tanınması
  • Sahtekârlık/Fraud Tespiti: Özellikle finans sektöründe, kredi kartı işlemlerinde normal dışı hareketlerin belirlenmesi
  • Tıbbi Uygulamalar: Hasta verilerinde anormal değerlerin fark edilmesi, örneğin kalp ritmi ölçümlerinde beklenmeyen sapmalar
  • Endüstriyel Alanlar: Sensör verileri, üretim hattı ölçümleri, bakım-onarım süreçlerinde normalden sapan durumların yakalanması
  • Veri Analitiği ve Büyük Veri Uygulamaları: Sosyal ağ verisi, IoT cihaz kayıtları ve akıllı şehir izleme sistemlerinde Anomali tespiti

Makine Öğrenmesi Teknikleri

  • Sınıflandırma: SVM (özellikle One-Class SVM), Karar Ağaçları, Lojistik Regresyon vb.
  • Topluluk (Ensemble) ve Optimizasyon: Random Forest, AdaBoost, XGBoost veya SVM + GA (Genetic Algorithm) gibi hibrit yaklaşımlar
  • Kümeleme (Clustering): K-Means, DBSCAN, Fuzzy C-Means; etiket olmadan grup temelli Anomali tespiti
  • Derin Öğrenme (Deep Learning): Autoencoder, Deep Belief Network (DBN), LSTM (Long Short-Term Memory), GAN (Generative Adversarial Networks) vb.
  • Regresyon ve Zaman Serisi: Zaman serilerinde anormallik saptamak için LSTM tabanlı veya geleneksel regresyon modelleri
  • Kural Tabanlı ve Diğer Yöntemler: Uzman sistemler, fuzzy mantık temelli çözümler vb.

En çok tercih edilen tekniklerden biri SVM olarak dikkat çekmektedir. Ayrıca derin öğrenme tabanlı yöntemlerin son yıllarda popülerlik kazandığı vurgulanmıştır (Autoencoder, LSTM, DBN vb.). Özellik seçimi ve boyut indirgeme adımları (PCA, CFS vb.) da Anomali tespiti performansını iyileştirmede kritik rol oynar. Ancak birçok makale bu aşamayı detaylı raporlamamıştır. Hibrit modeller (ör. SVM + K-Means) ve optimizasyon tabanlı yöntemler (GA, PSO vb.) de sıkça görülmüştür.

Performans Metrikleri ve Veri Setleri

Anomali tespiti araştırmalarında kullanılan performans metrikleri, model başarısını anlamak açısından belirleyici niteliktedir. En yaygın metriklerin Accuracy (doğruluk), Recall (TPR), Precision (kesinlik), F-Score ve AUC (ROC eğrisi altındaki alan) olduğu tespit edilmiştir. Ek olarak False Positive Rate (yanlış alarm oranı) de birçok makalede yer alır. Bu metrikler farklı açılardan modelin kalitesini ölçer:

  • Accuracy: Doğru tahmin edilen örneklerin toplam içindeki payı
  • Recall (TPR): Gerçekten anormal olanların ne kadarının doğru tespit edildiğini gösterir
  • Precision: Modelin anomali dediği örneklerin ne kadarının gerçekten anomali olduğunun ölçüsüdür
  • F-Score: Precision ile Recall arasında dengeli bir ölçüt
  • AUC: FPR ve TPR arasında oluşan eğrinin altındaki alan, genellikle sınıflandırıcı performansını özetler
  • False Positive Rate (FPR): Normal örneklerin hatalı şekilde anormal işaretlendiği orandır

Denetimli, Yarı-Denetimli ve Denetimsiz Yöntem Dağılımı

Bu araştırma sorusuna göre makalelerde şu yüzdeler elde edilmiştir:

  • Denetimsiz Yöntemler: %27
  • Denetimli Yöntemler: %18
  • Hem Denetimli Hem Denetimsiz: %7
  • Yarı-Denetimli: %5
  • Belirtilmemiş: %42

Sonuçlar ve Öneriler

Anomali tespiti üzerine önemli bulgular ortaya çıkarmıştır. Özellikle şu noktalar dikkat çekicidir:

  • Anomali tespiti uygulamaları çok geniş bir alana yayılmaktadır (siber güvenlik, finans, tıp, endüstri, IoT vb.).
  • SVM (Support Vector Machine) hâlâ en yaygın kullanılan yöntemdir. Derin öğrenme yöntemleri (Autoencoder, LSTM vb.) ise hızlı biçimde yaygınlaşmaktadır.
  • En çok kullanılan veri seti KDD Cup 1999’dur; ancak bunun eski kaldığı ve güncel tehditleri tam yansıtamadığı vurgulanmaktadır. Gerçek veri setlerinin veya yeni, zorlu veri setlerinin kullanımının artması beklenmektedir.
  • Performans değerlendirmesinde Accuracy, AUC, Recall, Precision ve F-Score gibi metrikler sıklıkla görülse de, bazı makalelerin tek metrikle yetindiği görülmektedir. Daha güvenilir sonuçlar için en az birkaç metriğin bir arada kullanılması tavsiye edilir.
  • Etiketli veri eksikliği, denetimsiz Anomali tespiti yöntemlerinin daha popüler olmasını sağlamaktadır. Etiketli veri olduğunda ise denetimli modellerin başarısı artmaktadır.
  • Anomali tespiti konusunda hibrit ve transfer öğrenme yaklaşımları henüz yeterince araştırılmamıştır. Bu alanda daha fazla çalışma yapılması önerilir.
  • Çoğu çalışma, büyük veri ortamlarında gerçek zamanlı Anomali tespiti için işlem maliyetlerini (CPU, bellek vb.) çok ayrıntılı raporlamamıştır. Endüstri uygulamalarında bu tür metrikler de kritik önemdedir.

Tüm bu bulgular ışığında, makine öğrenmesi temelli Anomali tespiti çalışmaları büyük ölçüde gelişim göstermeye devam edecektir. Mevcut eğilimler; daha büyük, daha güncel veri setlerinin paylaşımı, hibrit yöntemlerin geliştirilmesi ve performans metriklerinin standardize edilmesi yönündedir. Özellikle IoT, akıllı şehir ve endüstri 4.0 gibi alanlarda gerçek zamanlı ve düşük yanlış alarm oranına sahip algoritmalara ihtiyaç artmaktadır. Ayrıca yarı-denetimli ve transfer öğrenme gibi yöntemlerle etiketlenmemiş veya az etiketli veriyle de güçlü performanslar elde edilebilir.

Makine öğrenmesine dayalı Anomali tespiti, siber güvenlikten finansal analize, tıptan endüstriyel üretime kadar pek çok kritik alanda uygulanmaya devam edecektir. Bu inceleme (SLR), 290 makaleyi dört ana perspektifle ele alarak uygulama alanları, teknikler, performans değerlendirmesi ve sınıflandırma türlerine dair kapsamlı bir çerçeve sunmuştur. Bulgular, özellikle denetimsiz Anomali tespiti yöntemlerinin yaygınlığını, SVM ile derin öğrenme yaklaşımlarının popülerliğini ve verinin kalitesinin önemini vurgulamaktadır. Tek bir performans metriğiyle yetinmemek, veri setlerinin güncellenmesi, hibrit ve yarı-denetimli yaklaşımların daha fazla incelenmesi gelecekte Anomali tespiti performansını iyileştirecek kritik faktörlerdir. Araştırmacılar, bu alanda yeni ve güncel veri setleri geliştirerek, algoritma karşılaştırmalarını standartlaştırarak ve daha karmaşık/gerçek zamanlı uygulamalara odaklanarak Anomali tespiti literatürüne değerli katkılar sunabilirler. Böylece, giderek daha sofistike ve dinamik hale gelen siber dünya ve veri analitiği süreçlerinde Anomali tespiti başarısı artacak ve yüksek katma değer sağlayacaktır.

© 2024 Tüm Hakları Saklıdır. Aior.com Tarafından yapılmıştır.

Tüm soru, öneri ve görüşleriniz için İletişim linkini kullanabilirsiniz.

10.01.2025
9
Ziyaretçi Yorumları

Henüz yorum yapılmamış. İlk yorumu aşağıdaki form aracılığıyla siz yapabilirsiniz.