Kamuya açık büyük dil modelleri ile bağlam duyarlı siber risk değerlendirmesi: uzman doğrulamalı bir çerçeve ve insan–yapay zekâ karşılaştırması

Ünal, Nezih Mahmut

Kamuya açık büyük dil modelleri ile bağlam duyarlı siber risk değerlendirmesi: uzman doğrulamalı bir çerçeve ve insan–yapay zekâ karşılaştırması

Dosyalar

Kamuya_acik_buyuk_dil_modelleri_ile_baglam_duyarli_siber_risk_degerlendirmesi_uzman_dogrulamali_bir_cerceve_ve_insan_yapay_zeka_karsilastirmasi.pdf (2.73 MB)

Tarih

2026-01-19

Yazarlar

Ünal, Nezih Mahmut

Yayıncı

Işık Üniversitesi, Lisansüstü Eğitim Enstitüsü

Erişim Hakkı

info:eu-repo/semantics/openAccess

Özet

Geleneksel siber risk değerlendirme metodolojileri kritik bir ikilemle karşı karşıyadır: Bu yöntemler ya nicel ancak statik ve bağlamdan bağımsızdır (Örn: CVSS) ya da bağlama duyarlı ancak yoğun emek gerektiren ve özneldir (Örn: NIST SP 800-30). Sonuç olarak kuruluşlar, risk değerlendirme süreçlerini gelişen tehditlerin hızına uyum sağlayacak şekilde ölçeklendirmekte zorlanmaktadır. Bu çalışma; uzman bilgisini işlevsel hale getirmek amacıyla kamuya açık Büyük Dil Modellerinin (LLM) akıl yürütme yeteneklerinden yararlanan, otomatik ve bağlama duyarlı bir risk değerlendirme çerçevesi sunmaktadır. Karmaşık "kapalı kutu" (black-box) makine öğrenmesi modellerinin aksine, önerilen yaklaşım yapay zekanın akıl yürütme sürecini şeffaf bir Dinamik Metrik Motoruna dayandırmaktadır. Bu motorun ağırlıkları, 101 siber güvenlik profesyoneli ile gerçekleştirilen bir anket çalışmasından Sıralı Derece Ağırlık Merkezi (Rank Order Centroid - ROC) yöntemi kullanılarak elde edilmiştir. Geliştirilen çerçeve, 15 farklı gerçek dünya zafiyet senaryosu (C1--C15) ve üç ek duyarlılık stres testi (C16--C18) içeren karşılaştırmalı bir çalışma aracılığıyla değerlendirilmiştir. Doğrulama senaryoları, on kıdemli uzmandan oluşan bir grup ve iki modern LLM ajanı (GPT-4o ve Gemini 2.0 Flash) tarafından bağımsız olarak analiz edilmiştir. Elde edilen sonuçlar, LLM tabanlı ajanların oldukça güvenilir bir uzman temel çizgisine (Cronbach's α = 0,996) karşı, insan medyanıyla yakından uyumlu bir puanlama tutarlılığı (Pearson r değeri 0,9390 ile 0,9717 ; Spearman ρ değeri 0,8472 ile 0,9276 aralığında) sergilediğini göstermiştir. Ayrıca sistem, değerlendirme döngü süresini 100 kattan fazla azaltmıştır (vaka başına ortalama 6 dakikalık insan süresine karşı 4 saniyenin altı). Dahası, özel bir bağlam duyarlılık analizi (C13--C15); çerçevenin, özdeş teknik zafiyetler için risk skorlarını kurumsal bağlama (örneğin KOBİ'ye karşı Kritik Altyapı) göre uyarlayabildiğini kanıtlamıştır. Genel olarak bu bulgular, ticari olarak erişilebilen LLM'lerin uzmanlarca doğrulanmış metrik şemalarıyla sınırlandırıldığında; tekrarlanabilir, doğru ve gerçek zamanlı risk değerlendirmelerini destekleyebileceğini ortaya koymaktadır.

Traditional cyber risk assessment methodologies face a critical dilemma: they are either quantitative yet static and context-agnostic (e.g., CVSS), or context-aware yet highly labor-intensive and subjective (e.g., NIST SP 800-30). Consequently, organizations struggle to scale risk assessment to match the pace of evolving threats. This paper presents an automated, context-aware risk assessment framework that leverages the reasoning capabilities of publicly available Large Language Models (LLMs) to operationalize expert knowledge. Unlike complex black-box machine learning models, our approach anchors the AI's reasoning to a transparent Dynamic Metric Engine, with weights derived using the Rank Order Centroid (ROC) method from a survey of 101 cybersecurity professionals. We evaluated the framework through a comparative study involving 15 diverse real-world vulnerability scenarios (C1--C15) and three supplementary sensitivity stress tests (C16--C18). The validation scenarios were independently assessed by a cohort of ten senior human experts and two stateof-the-art LLM agents (GPT-4o and Gemini 2.0 Flash). The results show that the LLM-driven agents achieve scoring consistency closely aligned with the human median (Pearson r ranging from 0.9390 to 0.9717, Spearman ρ from 0.8472 to 0.9276) against a highly reliable expert baseline (Cronbach's α=0.996$), while reducing the assessment cycle time by more than 100$\times$ (averaging under 4 seconds per case vs. a human average of 6 minutes). Furthermore, a dedicated context sensitivity analysis (C13--C15) indicates that the framework adapts risk scores based on organizational context (e.g., SME vs. Critical Infrastructure) for identical technical vulnerabilities. Overall, these findings suggest that commercially available LLMs, when constrained by expert-validated metric schemas, can support reproducible, accurate, and realtime risk assessments.

Açıklama

Text in Turkish ; Abstract: Turkish and English
Includes bibliographical references (leaves 58-63)
xiv, 71 leaves

Anahtar Kelimeler

Siber risk değerlendirmesi, Büyük Dil Modelleri (LLM), Sıralı Derece Ağırlık Merkezi (ROC), Otomatik risk puanlama, İnsan-YZ karşılaştırması, Cyber risk assessment, Large Language Models (LLMs), Generative AI, Automated risk scoring, Human-AI comparison

Künye

Ünal, N. M. (2026). Kamuya açık büyük dil modelleri ile bağlam duyarlı siber risk değerlendirmesi: uzman doğrulamalı bir çerçeve ve insan–yapay zekâ karşılaştırması. İstanbul: Işık Üniversitesi Lisansüstü Eğitim Enstitüsü.

Bağlantı

https://hdl.handle.net/11729/7335

Koleksiyon

Lisansüstü Eğitim Enstitüsü Tez Koleksiyonu

Detaylı Öğe Kaydı

Kamuya açık büyük dil modelleri ile bağlam duyarlı siber risk değerlendirmesi: uzman doğrulamalı bir çerçeve ve insan–yapay zekâ karşılaştırması

Dosyalar

Tarih

Yazarlar

Dergi Başlığı

Dergi ISSN

Cilt Başlığı

Yayıncı

Erişim Hakkı

Araştırma projeleri

Organizasyon Birimleri

Dergi sayısı

Özet

Açıklama

Anahtar Kelimeler

Kaynak

WoS Q Değeri

Scopus Q Değeri

Cilt

Sayı

Künye

Bağlantı

Koleksiyon