Arama Sonuçları

Listeleniyor 1 - 10 / 10
  • Yayın
    Calculating the VC-dimension of decision trees
    (IEEE, 2009) Aslan, Özlem; Yıldız, Olcay Taner; Alpaydın, Ahmet İbrahim Ethem
    We propose an exhaustive search algorithm that calculates the VC-dimension of univariate decision trees with binary features. The VC-dimension of the univariate decision tree with binary features depends on (i) the VC-dimension values of the left and right subtrees, (ii) the number of inputs, and (iii) the number of nodes in the tree. From a training set of example trees whose VC-dimensions are calculated by exhaustive search, we fit a general regressor to estimate the VC-dimension of any binary tree. These VC-dimension estimates are then used to get VC-generalization bounds for complexity control using SRM in decision trees, i.e., pruning. Our simulation results shows that SRM-pruning using the estimated VC-dimensions finds trees that are as accurate as those pruned using cross-validation.
  • Yayın
    İlişkisel veri tabanlarında mükerrer kayıtların makine öğrenmesiyle tespiti
    (Institute of Electrical and Electronics Engineers Inc., 2018-07-05) Bayrak, Ahmet Tuğrul; Yılmaz, Aykut İnan; Yılmaz, Kemal Burak; Düzağaç, Remzi; Yıldız, Olcay Taner
    Veri miktarının artışına paralel olarak, ilişkisel veri tabanlarında mükerrer kayıtlar da artmaktadır. Artan bu kayıtlar kullanıldıkları rapor veya analizlerde tutarsızlığa sebep olabilmektedir. Bu sorunu en aza indirgemek için yaptığımız çalışmada, kayıtların birbirlerine olan benzerlikleri ve alan uzmanlık bilgisiyle belirlenen ağırlıklar, öznitelik olarak kullanılarak makine öğrenmesi algoritmaları ile mükerrer kayıtların bulunması hedeflenmiştir. Yapılan işlem sonucunda 9301467 satır veride 28412 mükerrer çift tespit edilmiştir. Bulunan bu mükerrer kayıtlar veri kaynağından temizlenerek verinin daha tutarlı hale gelmesi sağlanmaktadır.
  • Yayın
    Extension of conventional co-training learning strategies to three-view and committee-based learning strategies for effective automatic sentence segmentation
    (IEEE, 2018) Dalva, Doğan; Güz, Ümit; Gürkan, Hakan
    The objective of this work is to develop effective multi-view semi-supervised machine learning strategies for sentence boundary classification problem when only small sets of sentence boundary labeled data are available. We propose three-view and committee-based learning strategies incorporating with co-training algorithms with agreement, disagreement, and self-combined learning strategies using prosodic, lexical and morphological information. We compare experimental results of proposed three-view and committee-based learning strategies to other semi-supervised learning strategies in the literature namely, self-training and co-training with agreement, disagreement, and self-combined strategies. The experiment results show that sentence segmentation performance can be highly improved using multi-view learning strategies that we propose since data sets can be represented by three redundantly sufficient and disjoint feature sets. We show that the proposed strategies substantially improve the average performance when only a small set of manually labeled data is available for Turkish and English spoken languages, respectively.
  • Yayın
    An incremental model selection algorithm based on cross-validation for finding the architecture of a Hidden Markov model on hand gesture data sets
    (IEEE, 2009-12-13) Ulaş, Aydın; Yıldız, Olcay Taner
    In a multi-parameter learning problem, besides choosing the architecture of the learner, there is the problem of finding the optimal parameters to get maximum performance. When the number of parameters to be tuned increases, it becomes infeasible to try all the parameter sets, hence we need an automatic mechanism to find the optimum parameter setting using computationally feasible algorithms. In this paper, we define the problem of optimizing the architecture of a Hidden Markov Model (HMM) as a state space search and propose the MSUMO (Model Selection Using Multiple Operators) framework that incrementally modifies the structure and checks for improvement using cross-validation. There are five variants that use forward/backward search, single/multiple operators, and depth-first/breadth-first search. On four hand gesture data sets, we compare the performance of MSUMO with the optimal parameter set found by exhaustive search in terms of expected error and computational complexity.
  • Yayın
    Müşterilerin GSP analizi kullanarak kümelenmesi
    (Institute of Electrical and Electronics Engineers Inc., 2018-07-05) Pakyürek, Muhammet; Sezgin, Mehmet Selman; Kestepe, Sedat; Bora, Büşra; Düzağaç, Remzi; Yıldız, Olcay Taner
    Bu çalışma ile mevcut misafir ve rezervasyon verisi kullanılarak doğal öbeklenmeleri tespit ederek misafir davranışları tespit ettik. Ayrıca verilen hizmetleri ve satış stratejilerini bu davranışlara göre özelleştirdik. K-ortalama ile kişileri öbekledikten sonra bu mevcut öbeklenmeleri sağlayan temel karakteristikler karar ağacı yaklaşımı ile çıkartılmıştır. Bu karakteristiklerin kişinin ürün alma kanalı, belirli ürün tercihleri, rezervasyon süresi, sezonsal tercihi vb. olduğu tespit edilmiştir. Bu karakteristiklerin her öbeklenmede ciddi değişiklikler göstermiş olması çözümün genel olarak doğru olduğunun ve bu karakteristiklerin başarılı bir şekilde seçildiğini göstermektedir. Bu çalışma, grup karakteristiklerine uygun kampanyalar ve ürün paketleri oluşturulmasında önemli bir rol oynamaktadır.
  • Yayın
    Aynı oteli temsil eden farklı kayıtlar için akıllı eşleştirme
    (Institute of Electrical and Electronics Engineers Inc., 2019-09) Bayrak, Ahmet Tuğrul; Özbek, Eyüp Erkan; Kestepe, Sedat; Yıldız, Olcay Taner
    Otel sayısının her geçen gün arttığı turizm sektöründe, aracı firmaların tüm oteller ile ayrı ayrı çalışma imkanı bulunmadığından, firmalar dünya üzerinde bir çok otelle anlaşması bulunan servis sağlayıcılarıyla beraber çalışmaktadır. Farklı servis sağlayıcılarından alınan otel kayıtlarında tekrarlayan otel verileri olabilmektedir. Tekrarlayan bu kayıtlar aynı bilgilere sahip olabileceği gibi, farklı bilgilere sahip olmasına rağmen aynı oteli temsil edebilmektedir. Otel verilerini tutarlı hale getirmek için aynı oteli temsil eden kayıtlar eşleştirilmelidir. Bu amaçla, otel kayıtları üzerinde çalışılarak, adres zenginleştirmesi ve ön işleme yapılan aday kayıtlar için kategorik ve görsel verilerin benzerliklerinin kullanıldığı makine öğrenmesi algoritmaları uygulanmıştır. Yapılan işlem sonucunda, 132.287 satırlık otel verisinde 14.985 adet otel %99,12 doğruluk oranı ile eşleştirilmiştir.
  • Yayın
    Doğrudan pazarlama amaçlı hedef kitle analizi
    (Institute of Electrical and Electronics Engineers Inc., 2018-07-05) Kegeci, Sinan; Özbek, Eyüp Erkan; Türkel, Mustafa Sertaç; Düzağaç, Remzi; Yıldız, Olcay Taner
    Doğrudan pazarlama, uygun ürünleri uygun kişilerle en kısa yoldan buluşturma sürecidir. Son yılların en popüler pazarlama yaklaşımlarından birisidir. Bu çalışmada turizm sektörüne ait isimsizleştirilmiş bir veri tabanını kullandık. Bir otel zinciri için yapılan kampanya kapsamında veri madenciliği tekniklerini uygulayarak hedef kitle seçimi yaptık. Çalışmada birçok makine öğrenmesi yöntemini denedik. Sonuç olarak; geçmişte yapılan ve herhangi bir makine öğrenmesi yöntemi kullanılmadan hazırlanan kampanya sonuçlarına göre daha iyi sonuçlar elde ederken benzer analizlerde kullanılabilecek bir altyapı oluşturmuş olduk.
  • Yayın
    Machine learning for adaptive modulation in medical body sensor networks using visible light communication
    (Institute of Electrical and Electronics Engineers Inc., 2024) Rizi, Reza Bayat; Forouzan, Amir Reza; Miramirkhani, Farshad; Sabahi, Mohamad Farzan
    In the context of medical body sensor networks that rely on visible light communication (VLC), adaptive modulation plays a crucial role. Despite VLC's advantages, challenges arise due to fluctuating signal strength caused by patient movement. To address this, we propose an adaptive modulation system that adjusts based on link conditions, specifically the signal-to-noise ratio (SNR). Our approach involves an uplink channel for feedback, allowing the receiver to select the appropriate modulation scheme based on measured SNR after noise mitigation. The analysis focuses on various medical situations and investigates machine learning algorithms. The study compares adaptive modulation based on supervised learning with that based on reinforcement learning. By implementing a bi-directional system with real-time modulation tracking, we demonstrate the effectiveness of adaptive VLC in handling environmental changes (interference and noise). Notably, the use of the Q-learning algorithm enables real-time adaptation without prior knowledge of the environment. Our simulation results show that photodetectors placed on the shoulder and wrist benefit significantly from this approach, experiencing improved performance.
  • Yayın
    Mikro ölçekli hisselerde anormal fiyat hareketlerinin LSTM ile tahmini
    (Institute of Electrical and Electronics Engineers Inc., 2025-08-15) Recal, Füsun; Kayaçetin, Nuri Volkan; Kayahan, İsmail
    Bireysel yatırımcıların karar alma süreçlerinde gözlemlenen aşırı iyimserlik, sürü psikolojisi ve yakın geçmişteki performansa aşırı tepki gibi davranışsal eğilimler dar yatırımcı tabanları ve düşük likiditeleri nedeniyle arbitraj mekanizmasının göreceli olarak zor işlediği mikro ölçekli hisselerin değerlerini makul ekonomik temellerden koparabilir. Bu çalışmada, bu tip davranışsal eğilimlerin hisse fiyatı ve işlem hacmi üzerinde belli örüntüler bırakacağı fikrinden yola çıkılarak, Borsa İstanbul’da işlem gören mikro ölçek hisselerdeki anormal fiyat ayrışmalarını, geçmiş fiyat ve hacim bazlı değişkenler yardımıyla tahmin eden bir LSTM modeli geliştirilmiştir. İncelenen hisselerin yarısından çoğunda modelden elde edilen tahminler gerçekleşen getirilerle pozitif ve istatistiksel olarak anlamlı bir ilişki içindedir. Sonuçlar, mikro ölçekli hisselerdeki fiyat ayrışmalarının geçmiş fiyat ve hacim verisiyle kısmen de olsa açıklanabildiğini göstermektedir.
  • Yayın
    Regional analysis and forecasting of broiler and layer poultry production in Türkiye: a statistical and machine learning approach
    (Liberty Publishing House, 2025-10-20) Aydın, Şahin; Gül, Osman Kubilay
    Introduction and Purpose: As well as cattle farming and sheep & goat farming, poultry farming also has a significant place in Türkiye’s agricultural economy. There are two important branches, such as broiler and egg in this sector. There is not enough systematic research which examines the regional perspectives and provide future projections in poultry farming as in many areas of agriculture and livestock. The main purpose of this study is to analyze broiler and layer production in Türkiye, identify the main producing regions, and generate forecasts using both traditional statistical models and modern machine learning algorithms. Materials and Methods: The regional broiler and layer production datasets have been acquired from the web-based data platform of Turkish Statistical Institute (TÜİK). Top producer regions and long-term changes in broiler and layer chicken production have been identified using descriptive statistics. Two statistical techniques- Autoregressive Integrated Moving Average (ARIMA) and Exponential Smoothing (ES)- have been used to anticipate the total national production of broiler and egg chicken. Two machine learning models such as Random Forest and Gradient Boosting, nevertheless, have been created. Random Forest allows for assessing variable importance and capturing nonlinearities, and Gradient Boosting provides flexible parameterization (e.g., learning rate, tree depth) and can be tuned effectively to the dataset. The model performance has been evaluated by way of Mean Absolute Error (MAE), Root Mean Square Error (RMSE), and R². The projections for ten years have been generated. Results: The broiler chicken production has been largely concentrated on the north-west line. The top three producer regions are TR42 (Kocaeli–Sakarya–Düzce–Bolu–Yalova), TR33 (Manisa–Afyonkarahisar–Kütahya–Uşak), and TR22 (Balıkesir–Çanakkale) respectively. The models ES and ML envisioned moderate growth in broiler chicken production, on the other hand, the suggestion of ARIMA is a flatter trend. The top three producer regions in layer chicken production are TR33 (Manisa, Afyonkarahisar, Kütahya, Uşak), TR52 (Konya–Karaman), and TR83 (Samsun–Tokat–Çorum–Amasya) respectively. A slight decline from the recent peak has been indicated by ES. On the other hand, moderate growth has been referred to by ARIMA. ML models harmonized the differences between statistical models by drawing a more balanced growth path. Discussion and Conclusion: This research shows the importance of using both statistical and machine learning approaches together with the purpose of identifying the trend dynamics and nonlinear relationships in broiler and layer chicken production. The results reveal that north-western regions are leading in the broiler chicken production. On the other hand, western-central regions are dominating the layer chicken production. The results of this study can be utilized to create critical policy deductions and decisions of targeted investments by considering these distinct geographies. The proposed methodological framework can be adapted to other livestock production data as well.