A novel generalized mutual information approach and its use in feature selection
- Global styles
- Apa
- Bibtex
- Chicago Fullnote
- Help
Abstract
Değişken seçimi birçok yapay zeka ve örnek tanıma problemlerinin kritik adımlarından biridir. Shannon'ın karşılıklı bilgi (KB) ölçümü iyi bir değişken seçim algoritması olarak yaygın şekilde kullanılmaktadır. Ancak KB ortalama karşılıklı bilgiyi iyi ölçmesine rağmen, örnek sayısı az olan sınıfları (ender olayları) gözden kaçırarak yanlış sınıflandırmalara neden olabilmektedir (önemli ama ender rastlanan bu sınıflar hakkında bilgi içeren alakalı değişkenlerin kaçırılması sonucunda). KB iyi örneklenmiş veri kümelerine ihtiyaç duyar; bu da özellikle biomedikal alanındaki gibi sınırlı sayıda örneği olan veya en azından, bazı sınıfları iyi örneklenmemiş (biomedikal alanında ender rastlanan hastalık, kanser örnekleri gibi) veri kümelerine sahip modern bilim dallarında kullanımını verimsizleştirir. Ayrıca bu tip veri kümelerinde değişkenler, tahmin, analiz ve modelleme yapılacak hedef değişkene ancak küçük katkılar yapar. Bu tez çalışmasında, değişkenlerin kendi aralarındaki koşullu olasılıklarını da dikkate alan yeni bir istatistiksel ilişki metriği, Koşullu Karşılıklı Bilgi (KKB), önerilmiştir. KKB, KB'ye kıyasla, sadece deneysel çalışmalarda değil, bilgisayar ile işaret tanıma modellerinin oluşturulmasında da önemli olan şüpheli derecede ilginç durumları yakalamada daha başarılı değişken seçebilmektedir. Bu metrik, formülasyonu itibariyle KB'nin bir genel halidir. Buna ek olarak, KKB'yi, aralarında ortak bilgi taşıyan değişkenleri mümkün olduğu kadar az seçecek şekilde daha da geliştirerek, mümkün olan en az sayıda ama hedef değişken ile azami karşılıklı bilgi içereek bir değişken seçimi metodu önerilmiştir. KKB'nin kullanışlılığı ve KB'ye olan üstünlükleri yapay ve gerçek veri kümeleri üzerinde gösterilmiştir. Feature selection is a critical step in many artificial intelligence and pattern recognition problems. Shannon?s Mutual Information (MI) is a classical and widely used measure of dependence measure that serves as a good feature selection algorithm. However, as it is a measure of mutual information in average, under-sampled classes (rare events) can be overlooked by this measure, which can cause critical false negatives (missing a relevant feature very predictive of some rare but important classes). Shannon?s mutual information requires a well sampled database, which is not typical of many fields of modern science (such as biomedical), in which there are only a limited number of samples to learn from, or at least, not all the classes of the target function (such as certain phenotypes in biomedical) are well-sampled. Moreover in such settings, each feature, among many, contributes in small amounts to the target function to be predicted, analyzed, or modeled. A new measure of relevance, Predictive Mutual Information (PMI), is proposed in this thesis which also accounts for predictability of signals from each other in its calculation. PMI has more improved feature detection capability than MI, especially in catching suspicious coincidences that are rare but potentially important not only for experimental studies but also for building computational models. This measure, in its formulation, turns out to be a generalization of Shannon?s mutual information. Moreover, PMI is further developed with the aim of selecting the most compact set of most relevant variables (with minimal redundancies among them). The usefulness of PMI and superiority over MI is demonstrated on both toy and real datasets.
Collections