Projects
Proje Özeti Gelişen teknoloji ve dijitalleşmeye geçişin hızı ile elde edilen verilerin karmaşık ve büyük boyutlu olması alternatif yöntemlere olan ilgiyi arttırmış ve klasik yöntemleri daha az kullanışlı hale getirmiştir. Klasik yöntemler belli bir teorik/matematiksel alt yapısı olan belirli varsayımları bünyesinde barındıran ve varsayımların sağlanması halinde en uygun çözüm kümesini veren yöntemlerdir. Günümüzdeki verinin karmaşıklığı göz önünde bulundurulduğunda, yöntemlere ait varsayımların sağlanması daha zor bir hal almıştır. Bu durum alternatif yöntemlere olan ilgiyi arttırmıştır. Temel olarak bulanık mantık, sezgisel öğrenme, makine öğrenmesi ve yapay zekâ gibi esnek hesaplama yöntemleri alternatif yöntemler içeresinde en çok karşılaşılan başlıklardır. Makine öğrenmesinde, özellikle modelin genelleme yeteneğini artırmak ve aşırı uyumu önlemek için çeşitli yöntemler kullanılmaktadır. Karmaşık verinin modellenmesinde en yaygın olarak tercih edilen yöntemlerden biri olarak karşımıza topluluk öğrenme yöntemlerinden en çok bilinenlerinden biri olan torbalama yöntemi çıkmaktadır. Torbalama, verilerin rastgele örneklenmesi ve elde edilen bu örneklem kümelerinde farklı modellerin eğitilip birleştirilmesi prensibine dayanır. Bu yöntemde, temel olarak şu adımlar izlenir:
Veri Örneklemesi: Veri kümesinden, orijinal veri kümesiyle aynı boyutta, ancak verilerde tekrarlar olabilecek şekilde (iadeli örnekleme) yeni örneklem kümeleri oluşturulur.
Model Eğitimi: Her bir örneklem kümesi üzerinde aynı tipte bir temel model (örneğin, karar ağacı, yapay sinir ağı) eğitilir.
Model Birleştirme: Eğitilen tüm modellerin tahminleri, genellikle ortalama alınarak veya oylama yöntemiyle birleştirilerek nihai tahmin elde edilir.
Torbalama yönteminin gözlenen en temel avantajları,
Varyansın Azaltılması: Farklı örneklem kümeleri üzerinde eğitilen modeller, farklı hatalara sahip olacaktır. Bu sayede, modellerin birleştirilmesiyle oluşan nihai modelin varyansı azalır ve daha kararlı hale gelir.
Genelleme Yeteneğinin Artması: Torbalama, modelin aşırı uyumunu önleyerek genelleme yeteneğini artırır. Özellikle yüksek varyanslı modellerde bu etki daha belirgindir.
Eğitim Verisinin Daha Etkin Kullanılması: Her bir model, veri kümesinin farklı bir bölümünü kullanarak eğitilir. Bu sayede, eğitim verisi daha etkin bir şekilde kullanılır ve modelin öğrenme kapasitesi artar.
Torbalama, birçok makine öğrenmesi probleminde (Sınıflandırma ve Regresyon) başarılı bir şekilde kullanılmaktadır. Ancak, torbalama yönteminin başarısı, kullanılan temel modelin türüne ve veri kümesinin seçimine bağlıdır. Bu proje bu iki durumu efektif bir şekilde iyileştirmeye yönelik tasarlanmıştır. İlk olarak veri kümesinin seçimi rastgele olduğundan model birleştirme aşamasında iyi sonuç vermeyen veri kümesi seçimlerinin elemine edilmesi amaçlanarak daha iyi nihai tahminler elde edilmesi ve ikinci olarak, seçilen iyi veri kümeleri için farklı yöntemler denenerek, iyi sonuç verenin elde edilmesi amaçlanmaktadır. Bu projede, bireysel torbalama örneklerinin, meta bulanık fonksiyonlarla birleştirilmesi amaçlanmaktadır. Tak tarafından 2018 yılında önerilen meta bulanık fonksiyonlar (MBF), çeşitli yöntemlerden elde edilen sonuçları birleştirmeyi amaçlar. Bu yöntemler, aynı probleme uygulanan farklı algoritmalar olabilir (örneğin, tahmin, öngörü veya sınıflandırma). MBF’ ler, yöntemleri performanslarına göre gruplandırmak için Bulanık C-Ortalamaları (BCO) kümeleme kullanır. Daha sonra, kümeleme işleminden elde edilen üyelik dereceleri kullanılarak yöntemlerin ağırlıklı ortalamaları hesaplanır. Buradaki fikir, daha iyi ve daha kötü yöntemler arasında zeki bir şekilde seçim yaparak sonuçların birleştirilmesi mantığı vardır. BCO ve meta-analiz ilkelerini kullanarak, MBF’ler genel tahmin kalitesini artırmayı amaçlamaktadır. Tak (2018) tarafından yönetilen veya araştırmacısı olduğu çalışmalar, MBF’nin gücünü farklı alanlarda göstermiştir. Bu anlamda, torbalama yönteminden daha iyi sonuçlar elde etmek için MBF kullanılacaktır.
Project Summary With advances in technology and digitalization, datasets have become increasingly complex and high-dimensional. When modeling such datasets, issues such as computational burden and overfitting may arise. While some models operate efficiently and rapidly under certain assumptions, others work independently of assumptions but require substantial computation. In large datasets, correlated features may lead to violations of classical model assumptions, whereas for advanced/alternative models they may cause overfitting and computational inefficiency. These challenges are commonly addressed through feature selection or dimensionality reduction methods. Feature selection—i.e., eliminating features that do not contribute statistically to the model—has become a key component of modern machine learning. In this study, the aim is to enhance the performance of the Type-1 Fuzzy Functions (T1FF) method through a newly proposed feature selection approach. Since the T1FF method relies on least squares estimation during model fitting and involves extensive computations, it can suffer from the aforementioned limitations when applied to complex datasets. The proposed approach has original value because it is designed both to avoid the assumptions required by the least squares method and to mitigate overfitting and computational burden. The proposed method is based on clustering the variables in the dataset and selecting the features that best represent these clusters. Within the scope of the project, this feature selection strategy will be developed and evaluated using clustering methods available in the literature: (i) k-means, (ii) fuzzy c-means, (iii) intuitionistic fuzzy clustering, and (iv) possibilistic fuzzy clustering. Moreover, since the Type-1 Fuzzy Functions approach is suitable for both time-series and cross-sectional data, it is expected to provide an alternative modeling framework that yields improved results for researchers across different disciplines. Although Type-1 Fuzzy Functions are not yet widely studied either nationally or internationally, existing studies in the literature indicate that this method can produce successful results. Therefore, the proposed project is anticipated to play an important role in increasing both the quality and quantity of research in this area in Türkiye. In addition, the project will facilitate the development of new graduate theses and contribute to increasing the number of qualified academics working in this field, thereby supporting the training of graduate students by the project coordinator. The performance of the proposed methods will be evaluated on both cross-sectional and time-series datasets using real-world data from energy, climate, health, and environmental domains. Results will be compared with existing methods in the literature (e.g., multiple regression models) using appropriate performance criteria such as RMSE and MAPE.
https://github.com/nihattak/ffs
| Project Summary This project focuses on developing, implementing, and evaluating a forecasting model for time-series data that contain uncertainty and noise. The study will be conducted through an interdisciplinary approach that encompasses both theoretical modeling and applied analysis. In this work, a hybrid approach is proposed for time-series forecasting that goes beyond the classical Autoregressive (AR) model structure and is better able to cope with data uncertainty. The proposed model is based on integrating Type-1 Fuzzy Functions (T1FF) with the Random Forest (RF) algorithm. T1FF provides adaptation to noisy and uncertain data through its membership function, while minimizing the estimation error via the classical Least Squares (LS) method. However, the underlying assumptions of LS can limit model accuracy, particularly for non-stationary time series or series containing multiple structural breaks. To address this limitation, Random Forest (RF), a powerful tree-based ensemble learning algorithm, is incorporated into the T1FF framework. In this way, the uncertainty-handling capability of fuzzy logic and the strong generalization performance of RF are utilized jointly. In addition, Particle Swarm Optimization (PSO) is employed to optimize model parameters with the aim of improving forecasting performance. The novelty of the study lies in integrating statistical methods with artificial intelligence–based approaches within the fuzzy-systems framework to develop a robust and flexible forecasting model. This method is expected to offer significant advantages for modeling complex patterns such as seasonality, trends, and sudden fluctuations. Model performance will be evaluated using criteria such as Mean Absolute Error (MAE), Root Mean Squared Error (RMSE), and Mean Absolute Percentage Error (MAPE). |
