3 sonuçlar
Arama Sonuçları
Listeleniyor 1 - 3 / 3
Yayın Büyük Dil Modelleri için TR-MMLU Benchmark’ı: performans değerlendirmesi, zorluklar ve iyileştirme fırsatları(Cornell Univ, 2025-08-18) Bayram, M. Ali; Fincan, Ali Arda; Gümüş, Ahmet Semih; Diri, Banu; Yıldırım, Savaş; Aytaş, ÖnerDil modelleri, insan dilini anlama ve üretme konularında önemli ilerlemeler kaydetmiş, birçok uygulamada dikkat çekici başarılar elde etmiştir. Ancak, özellikle Türkçe gibi kaynak açısından sınırlı dillere yönelik değerlendirme çalışmaları önemli bir zorluk oluşturmaktadır. Bu sorunu ele almak amacıyla, büyük dil modellerinin (LLM) Türkçe dilindeki dilsel ve kavramsal yeteneklerini değerlendirmek için kapsamlı bir değerlendirme çerçevesi olan Türkçe MMLU (TR-MMLU) benchmark’ını tanıttık. TR-MMLU, Türk eğitim sisteminden 62 bölümdeki 6.200 çoktan seçmeli soruyu içeren, özenle hazırlanmış bir veri setine dayanmaktadır. Bu benchmark, Türkçe doğal dil işleme (NLP) araştırmalarına standart bir çerçeve sunmakta ve büyük dil modellerinin Türkçe metinleri işleme yeteneklerini detaylı bir şekilde analiz etmeyi sağlamaktadır. Çalışmamızda, TR-MMLU üzerinde en güncel büyük dil modellerini değerlendirdik ve model tasarımında iyileştirme gerektiren alanları vurguladık. TRMMLU, Türkçe NLP araştırmalarını ilerletmek ve gelecekteki yeniliklere ilham vermek için yeni bir standart oluşturmaktadır.Yayın Büyük dil modelleri için TR-MMLU benchmark’ı: performans değerlendirmesi, zorluklar ve iyileştirme fırsatları(Institute of Electrical and Electronics Engineers Inc., 2025-08-15) Bayram, M. Ali; Fincan, Ali Arda; Gümüş, Ahmet Semih; Diri, Banu; Yıldırım, Savaş; Aytaş, ÖnerDil modelleri, insan dilini anlama ve üretme konularında önemli ilerlemeler kaydetmiş, birçok uygulamada dikkat çekici başarılar elde etmiştir. Ancak, özellikle Türkçe gibi kaynak açısından sınırlı dillere yönelik değerlendirme çalışmaları önemli ˘bir zorluk oluşturmaktadır. Bu sorunu ele almak amacıyla, büyük dil modellerinin (LLM) Türkçe dilindeki dilsel ve kavramsal yeteneklerini değerlendirmek için kapsamlı bir değerlendirme çerçevesi olan Türkçe MMLU (TR-MMLU) benchmark’ını tanıttık. TR-MMLU, Türk eğitim sisteminden 62 bölümdeki 6.200 çoktan seçmeli soruyu içeren, özenle hazırlanmış bir veri setine dayanmaktadır. Bu benchmark, Türkçe doğal dil işleme (NLP) araştırmalarına standart bir çerçeve sunmakta ve büyük dil modellerinin Türkçe metinleri işleme yeteneklerini detaylı bir şekilde analiz etmeyi sağlamaktadır. Çalışmamızda, TR-MMLU üzerinde en güncel büyük dil modellerini değerlendirdik ve model tasarımında iyileştirme gerektiren alanları vurguladık. TRMMLU, Türkçe NLP araştırmalarını ilerletmek ve gelecekteki yeniliklere ilham vermek için yeni bir standart oluşturmaktadır.Yayın Kamuya açık büyük dil modelleri ile bağlam duyarlı siber risk değerlendirmesi: uzman doğrulamalı bir çerçeve ve insan–yapay zekâ karşılaştırması(Işık Üniversitesi, Lisansüstü Eğitim Enstitüsü, 2026-01-19) Ünal, Nezih Mahmut; Çeliktaş, Barış; Işık Üniversitesi, Lisansüstü Eğitim Enstitüsü, Siber Güvenlik Yüksek Lisans Programı; Işık University, School of Graduate Studies, Master’s Program in CybersecurityGeleneksel siber risk değerlendirme metodolojileri kritik bir ikilemle karşı karşıyadır: Bu yöntemler ya nicel ancak statik ve bağlamdan bağımsızdır (Örn: CVSS) ya da bağlama duyarlı ancak yoğun emek gerektiren ve özneldir (Örn: NIST SP 800-30). Sonuç olarak kuruluşlar, risk değerlendirme süreçlerini gelişen tehditlerin hızına uyum sağlayacak şekilde ölçeklendirmekte zorlanmaktadır. Bu çalışma; uzman bilgisini işlevsel hale getirmek amacıyla kamuya açık Büyük Dil Modellerinin (LLM) akıl yürütme yeteneklerinden yararlanan, otomatik ve bağlama duyarlı bir risk değerlendirme çerçevesi sunmaktadır. Karmaşık "kapalı kutu" (black-box) makine öğrenmesi modellerinin aksine, önerilen yaklaşım yapay zekanın akıl yürütme sürecini şeffaf bir Dinamik Metrik Motoruna dayandırmaktadır. Bu motorun ağırlıkları, 101 siber güvenlik profesyoneli ile gerçekleştirilen bir anket çalışmasından Sıralı Derece Ağırlık Merkezi (Rank Order Centroid - ROC) yöntemi kullanılarak elde edilmiştir. Geliştirilen çerçeve, 15 farklı gerçek dünya zafiyet senaryosu (C1--C15) ve üç ek duyarlılık stres testi (C16--C18) içeren karşılaştırmalı bir çalışma aracılığıyla değerlendirilmiştir. Doğrulama senaryoları, on kıdemli uzmandan oluşan bir grup ve iki modern LLM ajanı (GPT-4o ve Gemini 2.0 Flash) tarafından bağımsız olarak analiz edilmiştir. Elde edilen sonuçlar, LLM tabanlı ajanların oldukça güvenilir bir uzman temel çizgisine (Cronbach's α = 0,996) karşı, insan medyanıyla yakından uyumlu bir puanlama tutarlılığı (Pearson r değeri 0,9390 ile 0,9717 ; Spearman ρ değeri 0,8472 ile 0,9276 aralığında) sergilediğini göstermiştir. Ayrıca sistem, değerlendirme döngü süresini 100 kattan fazla azaltmıştır (vaka başına ortalama 6 dakikalık insan süresine karşı 4 saniyenin altı). Dahası, özel bir bağlam duyarlılık analizi (C13--C15); çerçevenin, özdeş teknik zafiyetler için risk skorlarını kurumsal bağlama (örneğin KOBİ'ye karşı Kritik Altyapı) göre uyarlayabildiğini kanıtlamıştır. Genel olarak bu bulgular, ticari olarak erişilebilen LLM'lerin uzmanlarca doğrulanmış metrik şemalarıyla sınırlandırıldığında; tekrarlanabilir, doğru ve gerçek zamanlı risk değerlendirmelerini destekleyebileceğini ortaya koymaktadır.












