Koşullu anomali tespiti

Koşullu anomali tespiti

Koşullu anomali tespiti

Koşullu anomali tespiti, bir veri kümesindeki olağan dışı gözlemlerin saptanmasında ek bir bakış açısı sunar. Temel olarak, veri setindeki bazı özniteliklerin doğrudan anomali işareti olamayacağı, ancak bu özniteliklerin diğer öznitelikleri anlamlandırırken önemli rol oynadığı bir yaklaşım öne sürer. Bu çerçevede, öznitelikler iki gruba ayrılır: çevresel (environmental) öznitelikler ve gösterge (indicator) öznitelikler. Gösterge öznitelikler doğrudan anomaliyi işaret edebilecek değerlerdir; çevresel öznitelikler ise tek başlarına anomaliyi belirtmezler, ancak gösterge özniteliklerinin beklenen dağılımını etkilerler. Koşullu anomali tespiti yaklaşımı, çevresel özniteliklerin koşullu etkisini de hesaba katarak yanlış alarmları azaltmayı, böylece kullanıcının ilgisiz anomalilerle vakit kaybetmesini engellemeyi amaçlar.

Anomali tespiti uzun zamandır araştırılan bir konudur. Gerek tıbbi informatikten bilgisayar güvenliğine, sensör ağlarından veri madenciliğine kadar pek çok alanda anomali tespiti yöntemleri uygulanmaktadır. Ancak, gözetimsiz anomali tespit yöntemlerinde doğruluk konusu uzun süre tam anlamıyla sistematik olarak ele alınmamıştır. Gerçek uygulamalarda, anomali tespiti aracı son kullanıcıya rapor sunarken çok sayıda “önemsiz” anomaliyi işaret ederse, kullanıcı bu aracın çıktısına zamanla güvenini kaybedebilir. Bu nedenle, öncelikli hedef en zor anomaliyi bulmak değil, raporlanan anomalilerin gerçekten ilgi çekici, beklenmedik ve anlamlı olmasını sağlamaktır.

Burada koşullu anomali tespiti yaklaşımı devreye girer. Bu yaklaşımda, bazı özniteliklerin tek başına anomali sinyali vermeyeceği, ancak diğer özniteliklerin tipik dağılımlarını etkileyerek anomalinin belirlenmesinde dolaylı rol oynayabileceği kabul edilir. Örneğin bir hastane başvuru verisinde, mevsimsel sıcaklık değeri (çevresel öznitelik) doğrudan hastalık belirtisi (gösterge öznitelik) olarak sayılmaz. Ancak soğuk hava şartları, grip şikayetleri sayısını (gösterge öznitelik) koşullu olarak etkileyebilir. Koşullu anomali tespiti, yeni bir veri gözlemi geldiğinde, bu gözlemin gösterge öznitelik değerlerinin, o andaki çevresel öznitelik koşulları altında beklenmedik olup olmadığını değerlendirir.

Temel Model

Koşullu anomali tespiti için önerilen model istatistiksel bir çerçeveye oturtulur. Amaç, veri kümesindeki dağılımı parametrik bir yapıda modelleyip, yeni gözlemleri bu model ile kıyaslayarak anomali kararını vermektir. Bu modelde öznitelikler iki kümeye ayrılır:

  • Çevresel Öznitelikler (X): Anomalinin doğrudan göstergesi olarak sayılmayan, ancak göstergelerin beklenen dağılımını etkileyen öznitelikler.
  • Gösterge Öznitelikler (Y): Doğrudan anomalinin habercisi olabilecek, ilgi çekici anomali sinyallerini içeren öznitelikler.

Model, bir veri noktasını (x,y) olarak ele alır. Burada x çevresel, y gösterge öznitelik setini temsil eder. Amaç, fCAD(y|x,θ) şeklinde bir koşullu olasılık yoğunluk fonksiyonu tanımlamaktır. Bu fonksiyon, x çevresel değerleri verildiğinde y gösterge değerlerinin beklenen dağılımını modeller. Bir gözlem (xnew, ynew) geldiğinde, bu noktadaki fCAD(ynew|xnew,θ) değeri, gözlemin anomali olup olmadığını belirlemede kullanılır. Düşük bir yoğunluk değeri, bu çevresel koşullar altında böyle bir gösterge değeri beklenmedik olduğundan anomalidir.

Parametrik Yapı

Bu amaçla, çevresel öznitelikler için bir Gauss karışım modeli (GMM) olan U kullanılır. U içerisinde nU adet çok boyutlu normal dağılım vardır. Benzer şekilde, gösterge öznitelikleri için bir başka Gauss karışım modeli V tanımlanır. Burada nV adet çok boyutlu normal dağılım bulunur. Son olarak, bir eşleme fonksiyonu p(Vj|Ui) tanımlanır; bu fonksiyon, belirli bir çevresel küme (Ui) verildiğinde hangi gösterge kümesinin (Vj) seçileceğinin olasılığını gösterir.

Sonuçta, koşullu anomali tespit modeli (CAD) şu şekilde özetlenir: fCAD(y|x) = ∑ij p(x∈Ui) p(Vj|Ui) fG(y|Vj)

Burada p(x∈Ui) x’in U içindeki i. Gaussian tarafından üretildiğini ifade eder. Bu dağılımlar, çevresel özniteliklerin yapısını, V ise gösterge özniteliklerin yapısını yakalar. p(Vj|Ui) ise çevresel dağılımdan ilgili gösterge dağılımına geçiş olasılığını belirtir. Bu sayede, çevresel değerler dikkate alınarak gösterge değerlerinin beklenen aralığı belirlenebilir.

Anomali Tespiti Prosedürü

Bir yeni nokta (xnew, ynew) geldiğinde, bu noktanın anomali olup olmadığı fCAD(ynew|xnew) değeriyle belirlenir. Bu değerin küçük olması, “bu çevresel koşullar altında bu gösterge değeri pek görülmez” anlamına gelir. Bu eşik değeri, genellikle eğitim verisi üzerinden belirlenir. Eğitim verisindeki noktalar sıralanarak, belirli bir yüzde (E) ‘lik bir kesim noktası seçilir. Yeni bir gözlem bu kesim noktasından daha düşük bir fCAD değerine sahipse anomali ilan edilir.

Parametre Öğrenimi (EM Algoritması)

Modelin öğrenilmesi, veri setindeki yapıların yakalanması için Maksimum Olabilirlik Tahmini (MLE) kullanılarak yapılır. Ancak, gizli parametrelerin (hangi Gauss bileşeninin hangi noktayı ürettiği gibi) varlığı problemi karmaşıklaştırır. Bu noktada Beklenti-Enbüyükleme (Expectation-Maximization, EM) algoritması devreye girer.

EM’in Temel Yapısı

EM iteratif olarak çalışır ve iki temel aşamadan oluşur:

  • E-Aşaması (E-Step): Mevcut parametreler kullanılarak her veri noktası için gizli değişkenlerin olasılıkları hesaplanır.
  • M-Aşaması (M-Step): Bu olasılıklar kullanılarak amaç fonksiyonu maksimize edecek parametre değerleri güncellenir.

Bu süreç, model parametreleri sabitlenene veya iyileşme durana kadar tekrarlanır. EM her zaman yerel bir optimuma yakınsar.

Doğrudan CAD (Direct-CAD) Algoritması

Direct-CAD algoritması, hem U hem de V Gauss karışımlarını hem de p(Vj|Ui) eşleme fonksiyonunu aynı anda öğrenmeye çalışır. Bu karmaşık bir optimizasyon problemidir. EM uygulanarak, her iterasyonda bkij değerleri hesaplanır ve ardından parametreler güncellenir. Ancak, bu yaklaşımın dezavantajı, yerel optimum tuzaklarına düşme olasılığının yüksek olmasıdır.

Koşullu anomali tespiti
Koşullu anomali tespiti

GMM-CAD-Full Algoritması

Bu ikinci yaklaşım, öğrenme problemini ikiye ayırarak daha sağlam bir sonuç elde etmeyi amaçlar. Önce tüm veri üzerinde tek bir Gauss karışım modeli Z öğrenilir. Z içindeki her Gaussian için çevresel ve gösterge öznitelikler ayrıştırılır ve böylece U ve V elde edilir. Ardından, bu sabit U ve V kullanılarak yalnızca eşleme fonksiyonu p(Vj|Ui) öğrenilir. Bu sayede, karmaşıklık azaltılır ve daha istikrarlı çözümler elde edilebilir. Deneyler GMM-CAD-Full’un daha iyi sonuçlar verdiğini göstermiştir.

GMM-CAD-Split Algoritması

Üçüncü yaklaşım ise U ve V’yi tamamen ayrı öğrenmek, yani çevresel Gauss karışımını ayrı, gösterge Gauss karışımını ayrı hesaplamaktır. Sonrasında p(Vj|Ui) fonksiyonu için basitleştirilmiş bir EM uygulanır. Bu yaklaşım, GMM-CAD-Full’a benzer performans gösterebilir, ancak bazı veri kümelerinde daha az tutarlı sonuçlar verebilir.

Model Karmaşıklığı

U ve V içindeki Gauss bileşen sayısı modelin karmaşıklığını belirler. Çoğu zaman daha fazla bileşen, modelin veriyi daha iyi açıklamasını sağlar. Ancak çok sayıda bileşen hem hesaplama yükünü hem de potansiyel olarak aşırı öğrenme riskini artırır. Pratikte, çok büyük modellerin hesaplanması zor olacağından, uygun sayıda bileşen genellikle deneysel olarak veya uzman görüşüyle belirlenir.

Deneysel Sonuçlar

Metodun etkinliğini değerlendirmek için 13 farklı veri seti üzerinde deneyler yapılmıştır. Bu veri setleri arasında sentetik veri, su alg verisi, akarsu debisi, El Nino gözlemleri, fizik alanından kelime-frekans verisi, vücut yağ oranı, konut fiyatları, eğitim başarı testleri, tarımsal veri setleri ve coğrafik tepe yükseklikleri gibi çok çeşitli örnekler bulunur.

Her bir deney senaryosu için belirli bir protokol izlenmiştir:

  1. Veri seti eğitim (training) ve test (testData) olarak ikiye ayrılır.
  2. Test verisinin bir alt kümesi “outliers” olarak tanımlanır, bu noktalar çevresel öznitelikleri açısından uç değerlerdir ancak gösterge açısından normal dağılımdan gelmiştir.
  3. Test verisinin bir kısmı (perturbed) gösterge özniteliklerinin değerleri kendi arasında karıştırılarak bozulur. Böylece bu perturb edilmiş veri daha yüksek anomali potansiyeline sahip olur.
  4. Tüm yöntemler testData üzerinde anomali tespiti yapar ve özellikle perturbed setini anomali olarak işaretleme başarısı (toplamda recall/precision), nonPerturbed-outliers setini ise normal olarak işaretleme becerisi ölçülür.

Karşılaştırılan Yöntemler

  • Basit GMM: Geleneksel Gauss karışım modeli, tüm öznitelikler eşit ağırlıkla değerlendirilir.
  • 5. En Yakın Komşu (5th-NN): Klasik bir mesafeye dayalı anomalilik ölçütü.
  • LOF (Local Outlier Factor): Yerel yoğunluk tabanlı anomali tespit yöntemi.
  • Direct-CAD: Koşullu modeli doğrudan EM ile çözmeyi hedefleyen algoritma.
  • GMM-CAD-Full: Önce tüm öznitelikleri bir arada modelleyen bir GMM öğrenilir, ardından çevresel ve gösterge parçalarına ayrılarak eşleme fonksiyonu ek EM adımıyla öğrenilir.
  • GMM-CAD-Split: Çevresel ve gösterge GMM’leri ayrı ayrı öğrenilir, sonrasında eşleme fonksiyonu hesaplanır.

Sonuçların Değerlendirilmesi

Tabloda, her iki tür doğrulama için (hem perturbed verileri anomaliler olarak belirleme hem de outliers setindeki verileri normal olarak görme) elde edilen sonuçlar özetlenmiştir. Sonuçlar göstermiştir ki GMM-CAD-Full yaklaşımı özellikle hem perturbed setini daha başarılı şekilde anomali olarak etiketlemede, hem de outliers setinde yer alan çevresel açıdan uç ama gösterge açısından normal verileri normal kabul etmede üstün performans sergilemektedir.

Özet Tablo

YöntemAçıklamaTemel FikirAvantajlarDezavantajlar
Basit GMMTüm özniteliklere eşit ağırlık veren Gauss Karışım ModeliVeri dağılımını GMM ile modelleyerek düşük yoğunluklu bölgeleri anomali ilan ederBilinen, iyi anlaşılmış yöntemÇevresel öznitelikleri doğrudan dikkate alarak çok sayıda anlamsız anomali üretebilir
5th-NN5. en yakın komşuya göre anomalilik ölçümüYoğunluk düşük bölgeler anomali sayılırBasit, uygulaması kolayYüksek boyutlu veride performans düşer, koşullu etkiler yok sayılır
LOFYerel yoğunluk faktörüne dayalıKomşu yoğunluk yapısına bakarak yerel uç noktaları saptarYerli ölçeklendirme yapabilirÇevresel etkileri göz ardı eder, gürültüye duyarlı
Direct-CADKoşullu modelin doğrudan EM ile çözümüÇevresel ve gösterge dağılımlarını aynı anda öğrenmeye çalışırTek adımda çözümYerel optimumlara takılma riski yüksek
GMM-CAD-FullTüm öznitelikleri önce bir GMM ile modelleyip sonra çevresel-gösterge ayrıştırmaÖnce global bir model Z öğrenir, sonra bu modeli U ve V diye ayırıp eşleme fonksiyonu ek EM ile öğrenirDaha istikrarlı çözümler, deneylerde en iyi sonuçlarHesaplama maliyeti yüksek olabilir
GMM-CAD-SplitU ve V ayrı GMM olarak ayrı öğrenilir, sonradan eşleme fonksiyonu belirlenirBasit ve modüler yaklaşımEsnek, karmaşıklığı azaltırGMM-CAD-Full kadar istikrarlı değil

Bulgular

Deneyler göstermiştir ki koşullu anomali tespiti yöntemi (özellikle GMM-CAD-Full algoritması), çevresel özniteliklerin etkisini dikkate alarak, ilgi çekici olmayan anomali adaylarını büyük ölçüde eler. Böylece kullanıcıya raporlanan anomalilerin çoğu gerçekten beklenmedik ve incelemeye değer örnekler olur. Ayrıca, bu yaklaşım, çevresel öznitelikler anormal bile olsa, bunların tek başına alarm üretmesini engeller. Diğer taraftan, gösterge öznitelikleri koşullu olarak değerlendirildiğinden, çevresel koşullara uymayan gösterge değerleri hızlıca saptanır.

İlgili Çalışmalar

Koşullu anomali tespiti yaklaşımı, literatürdeki çoğu istatistiksel anomali tespit yöntemlerinden ayrılır. Geleneksel olarak, neredeyse tüm yöntemler tüm öznitelikleri eşit ağırlıkla ele alır. Bazı çalışmalar, boyutsallık lanetini hafifletmek veya özellik seçimleri yapmak için altuzay analizleri yapsa da, bizim yaklaşımımızda doğrudan kullanıcı bilgisinin dahil edilmesi söz konusudur. Wong ve arkadaşlarının hastalık tespitinde Bayes Ağlarını kullanması benzer bir bakış açısı sunarken, Bayes Ağları sürekli değişkenleri veya saklı değişkenleri GMM kadar esnek temsil edemez. Ayrıca, tahmin modelleri (regresyon) göstergeler için sadece tek bir çıktı üzerinde çalışırken, koşullu anomali tespiti birden çok gösterge öznitelikle çalışabilir.

Koşullu anomali tespiti fikrini öne sürerek, çevresel öznitelikler ve gösterge öznitelikleri arasındaki koşullu ilişkileri modellemenin anomali tespitinin doğruluğunu artırabileceğini göstermektedir. Bu sayede, anlamsız sayıda “önemsiz” anomalinin raporlanması engellenirken, gerçekten beklenmedik ve incelemeye değer anomaliler ön plana çıkar. Gelecekte, daha karmaşık alan bilgisinin modele entegrasyonu, daha büyük veri kümelerinde ölçeklenebilir EM benzeri algoritmaların geliştirilmesi ve farklı alanlarda koşullu yaklaşımın test edilmesi önem arz etmektedir. Ayrıca, derin öğrenme tabanlı yaklaşımlarla koşullu modellemenin birleştirilmesi, açıklanabilirlik ve hız optimizasyonu gibi konular da gelecek araştırmalar için potansiyel oluşturur.

© 2024 Tüm Hakları Saklıdır. Aior.com Tarafından yapılmıştır.

Tüm soru, öneri ve görüşleriniz için İletişim linkini kullanabilirsiniz.

Ürün Sipariş Formu

    Ziyaretçi Yorumları

    Henüz yorum yapılmamış. İlk yorumu aşağıdaki form aracılığıyla siz yapabilirsiniz.