FBE - Tez Koleksiyonu | Bilgisayar Mühendisliği / Computer Engineering
https://hdl.handle.net/11729/743
Bilgisayar Mühendisliği Doktora programına ait tez koleksiyonunu içerir.2024-03-28T19:59:46ZParallel proposition bank construction for Turkish
https://hdl.handle.net/11729/1546
Parallel proposition bank construction for Turkish
Ak, Koray
PropBank is the bank of propositions which contains hand-annotated corpus for predicate-argument information and semantic roles or arguments. It aims to provide an extensive dataset for enhancing NLP applications such as information retrieval, machine translation, information extraction, and question answering by adding a semantic information layer to the syntactic annotation. Via the added semantic layer, syntactic parser refinements can be achieved which increases the efficiency and improves application performance. The aim of this thesis is to construct proposition bank for Turkish Language. Only preliminary studies were carried out in terms of Turkish PropBank. This study is one of the pioneers for the language. In this study, a hand annotated Turkish PropBank is constructed from the translation of the parallel English PropBank corpus, other PropBank studies for Turkish language examined and compared with the proposition bank constructed, automatic PropBank construction for Turkish from both parallel sentence trees and phrase sentences is analyzed and automatic proposition banks generated for Turkish.; PropBank yüklem-argüman bilgisi ve anlambilimsel rol ve argümanlar için el ile açıklanmış bütünceyi içeren bir tümce bankasıdır. Sözdizimsel açıklamaya anlambilimsel bir bilgi katmanı ekleyerek bilgi bulgetir, makine çevirisi, bilgi ayıklama ve soru cevaplama gibi doğal dil işleme uygulamalarını geliştirmek için kapsamlı bir veri kümesini sunmayı amaçlar. Eklenen bu anlambilimsel katman ile verimliliği arttıran ve uygulama performansını geliştiren sözdizimsel ayrıştırıcı geliştirmeleri elde edilebilir. Bu çalışmada Türkçe tümce bankasının oluşturulması amaçlanmıştır. Bildiğimiz kadarıyla şu ana kadar Türkçe dilinde tümce bankası çalışması kapsamında birkaç çalışma yapılmıştır ve bu çalışma Türkçe dili için öncü niteliği taşıyacak bir çalışma olacaktır. Bu çalışmada el ile işaretlenmiş bir tümce bankası hazırlanmış, diğer çalışmalar incelenip, üretilen tümce bankası ile karşılaştırılmış, Türkçe için hem paralel cümle ağaçları kullanılarak hemde ağaç yapısında olmayan paralel cümleler ile otomatik tümce bankaları oluşturma incelenmiş ve otomatik tümce bankaları oluşturulmuştur.
Text in English ; Abstract: English and Turkish; Includes bibliographical references (leaves 101-111); xv, 117 leaves
2019-04-02T00:00:00ZKeNet: a comprehensive Turkish wordNet and its applications in text clustering
https://hdl.handle.net/11729/1392
KeNet: a comprehensive Turkish wordNet and its applications in text clustering
Ehsani, Razieh
In this thesis, we summarize the methodology and the results of our efforts to construct a comprehensive WordNet for Turkish. Most languages have access to comprehensive language resources. Traditional resources like bilingual dictionaries, monolingual dictionaries, thesauri and lexicons are developed by lexicographers. As computer processing of languages gain popularity, a new set of resources become necessary. One such resource is WordNet which was initially constructed for English language in Princeton University. A WordNet contains much of the information contained in a classic dictionary, but it also contains additional relationship information. These relations go beyond synonym relation and give information about relations such as a word being“is-a” or “is-a-part-of” another. These semantic relations are used in many text analysis tasks. A WordNet also categorizes words under common concepts. These concepts are called as synsets. As a result of all these, WordNet is a comprehensive dictionary which is readable by the computers and a useful language resource for text analysis and other research based on human language. In Turkish language, our WordNet is not the first. The previous WordNet is part of BalkaNet project which is a multilingual WordNet including Turkish and Balkan languages. BalkaNet contains only common words between these languages, as such BalkaNet does not contain all Turkish words and suffers from top-down constructing method disadvantages. BalkaNet project has not been updated or expanded in recent years. In this work we construct a Turkish WordNet from scratch using a bottom-up method. In general there are two methods for constructing WordNets. Bottomup method means that we create the WordNet from scratch while top-down approach uses other WordNets by translating them. We use Turkish Contemporary Dictionary (CDT) which is an online Turkish dictionary provided by Turkish Language Institute. Bottom-up approach has its own difficulties, since constructing a WordNet from scratch requires more resources and a lot of effort. In this work, we extract synonyms from CDT and ask experts to match common meanings for pairs of synonyms. We developed an application which makes annotation step easier and more accurate. We also use two groups of annotators to measure inter-annotator agreement. We used some automatic approaches to extract semantic relations from Turkish Wikipedia (Vikipedi) and Vikisözlük. We processed CDT to extract candidate synonyms and used rule based approaches to find synonym sets. There is no thesaurus for Turkish, so as an application we construct a thesaurus automatically and measured accuracy with our manually constructed synsets. We named our WordNet “KeNet”. Finally, in this thesis we developed a novel approach to represent a text document in a vector space. This approach uses WordNet semantic relations. This part of thesis is an application of KeNet. We used our approach to represent text documents and implemented two different clustering algorithms over these vectors. We tested our method over Turkish Wikipedia articles, domains of which are labeled by Wikipedia.; Bu tez, kapsamlı bir Türkçe WordNet yapımının aşamalarını, zorluklarını ve son olarak da onu bir doğal işleme alanında uygulamasını özetliyor. Her dilin kendine özel dil kaynakları vardır, örneğin tek dilli sözlükler, iki dilli sözlükler, lugatnameler klasik dil kaynaklarıdırlar ve dilbilimciler tarafından geliştirirlirler. Bu kaynaklar genellikle bir dil kurumu tarafından desteklenir ve denetlenir. Günümüz bilgisayarların hayatımızın her alanına girmesi ile birlikte, dil kaynaklarının da bilgisayarlar tarafından okunabilirliği ve bilgisayar uygulamalarında kullanılabilmeleri için geliştirilmeleri bir gereksinim haline gelmiştir. Bu bilgisayar tarafından okunabilir kaynaklardan biri WordNettir, WordNet ilk kez İngilizce için Princeton Üniversitesinde geliştirilmiştir. WordNet klasik sözlüklerin özelliklerini taşımakla birlikte kelimeler arasında bazı anlamsal ilişkileri de içerir. Bu anlamsal ilişkiler eş anlamlılıktan öte, bir kelime diğerinin bir türüdür, veya bir kelime diğer kelimenin bir parçasıdır gibi anlamsal ilişkileri de içerir. Bu anlamsal ilişkiler yazı analizlerinde kullanılmaktadır. WordNet kelimeleri gerçek dünyadaki kavramlarına göre tek bir kümede toplar, bu kümelere synset denir. Sonuç olarak WordNet, kapsamlı ve bilgisayar tarafından okunabilir bir dil kaynağıdır ve yazı analizlerinde oldukça faydalı bir kaynaktır. Türkçe için bizim çalışmamızdan önce kapsamlı olmayan bir WordNet geliştirilmiş. Bu WordNet, BalkaNet projesinin adı altında geliştirilmiştir. BalkaNet çokdilli bir WordNettir ve Balkan dilleri ve Türkçeyi içermektedir. BalkaNet aşamalar sırasında geliştirilmiş ve anlamsal ilişkiler eklenmiştir, fakat son yıllarda herhangi bir güncelleme yapılmamıştır. Bu çalışma, sıfırdan Türkçe için bir WordNet yapımını anlatmaktadır. Genel olarak, WordNet yapımı için iki yöntem vardır, aşağı-yukarı yöntem ve yukarıdana¸sağı yöntem. aşağı-yukarı yöntem herhangi başka bir WordNeti çevirmeden veya kullanmadan sıfırdan ve sözlük kullanarak WordNet yapımıyla uğraşır, yukarıaşağı yöntemde ise, sıfırdan yapmak yerine başka dillerde mevcut olan WordNetleri birebir çevirerek ve dahasında geliştirerek veyahut değiştirmeyerek WordNet yapımıyla uğra¸sır. Bizim C¸alışmamız Türk Dil Kurumunun Güncel Türkçe Sözlüğünü kullanarak aşağı-yukarı yöntem ile WordNet yapımıdır. Bu çalışma sırasında, TDK sözlüğünden eşanlamlı kelimeleri çıkartıp ve bir grup insana bu kelimelerin ortaklaşa paylaştıkları anlamları işaretlemelerini istedik. Bu işaretleme için geliştirdiğimiz bir yazılım kullanarak sürecin kolaylaşmasını ve hata payının düşürülmesini sağladık. Ayrıca Türkçe için herhangi bir eşanlamlılar sözlüğü mevcur olmadığı için, Türkçenin ilk eşanlamlılar sözlüğünü otomatik olarak oluşturduk. İşaretleyiciler arasında anlaşmayı ölçüp ve ayrıca otomatik oluşturduğumuz eşanlamlılar sözlüğünü elle işaretlenmiş eşanlamlılar kümelerile ölçtük. Son olarak, bu çalışmada geliştirdiğimiz WordNeti Vikipedi makalelerini kümelemesi için kullandık. Bunun için öncelikle her yazı dosyasını bir vektöre çevirdik ve bunun için kendi özel yöntemimizi kullandık.
Text in English ; Abstract: English and Turkish; Includes bibliographical references (leaves 72-80); xiv, 80 leaves
2018-06-07T00:00:00ZFacial expression recognition based on facial anatomy
https://hdl.handle.net/11729/1011
Facial expression recognition based on facial anatomy
Benli, Kristin Surpuhi
In this thesis we propose to determine the underlying muscle forces that compose a facial expression under the constraint of facial anatomy. Muscular activities are novel features that are highly representative of facial expressions. We model human face with a 3D generic wireframe model that embeds all major muscles. The input to our expression recognition system is a video with marked set of landmark points on the first frame. We use these points and a semi-automatic fitting algorithm to register the 3D face model to the subject's face. The influence regions of facial muscles are estimated and projected to the image plane to determine feature points. These points are tracked on the image plane using optical flow algorithm. We estimate the rigid body transformation of the head through a greedy search algorithm. This stage enables us to align the 3D face model with the subject's head in consecutive frames of the video. We use ray tracing from the perspective reference point and through the image plane to estimate the new coordinates of model vertices. The estimated vertex coordinates indicate how the subject's face is deformed in the progression of an expression. The relative motion of model vertices provides us an over-determined linear system of equations where unknown parameters are the muscle activation levels. This system of equations is solved using constrained least square optimization. Muscle activity based features are evaluated in a classification problem of seven basic facial expressions. We demonstrate the representative power of muscle force based features on four classifiers; Linear Discriminant Analysis, Naive Bayes, k-Nearest Neighbor and Support Vector Machine. The best performance on the classification problem of seven expressions including neutral was 87.1 %, obtained by use of Support Vector Machine. The results we attained in this study are close to the human recognition ceiling of 87-91.7 % and comparable with the state of the art algorithms in the literature.; Bu tezin amacı yüz ifadelerini oluşturan kas kuvvetlerinin yüz anatomisi kısıtı altında tespit edilmesidir. Kas aktivasyonları yüz ifadelerini büyük ölçüde temsil eden yeni özniteliklerdir. insan yüzü temel yüz kaslarını içeren üç boyutlu genel bir telkafes ile modellenmiştir. İfade tanıma sisteminin girdisi imge dizisinin ilk çerçevesi üzerinde işaretlenmiş olan nirengi noktalarıdır. İşaretlenmiş olan nirengi noktaları ve yarı-otomatik yüz modelleme algoritması kullanılarak üç boyutlu yüz modeli denge uyarlanır. Yüz kaslarının etki alanları tahmin edilir ve kamera düzlemine izdüşümleri öznitelik noktaları olarak belirlenir. Bu noktalar kamera düzleminde optik akış algoritması ile izlenir. Basın katı devinimi fırsatçı algoritma ile tahmin edilir. Bu aşama 3 boyutlu yüz modeli ile deneğin kafasının videonun ardışık çerçevelerinde hizalanmasını sağlar. Kamera referans noktasından kamera düzlemi boyunca ışın izleme yöntemi kullanılarak modelin düğüm noktalarının yeni koordinatları tahmin edilir. Tahmin edilen düğüm koordinatları ifade oluşumu sırasında deneğin yüzünün nasıl şekil değiştirdiğini gösterir. Modelin düğüm noktalarının bağıl hareketleri ile bilinmeyen değişkenleri kas aktivasyon seviyeleri olan artık-belirtilmiş denklemler sistemi elde edilir. Bu denklemler sistemi kısıtlı en küçük kareler yöntemi kullanılarak çözülür. Kas aktivasyonlarına dayalı öznitelikler yedi temel yüz ifadesinin sınıflandırılması probleminde kullanılır. Kas kuvvetlerine dayalı özniteliklerin temsili gücü Doğrusal Ayırtaç Analizi, Naive Bayes, En Yakın K Komsu ve Destek Vektör Makineleri sınıflandırıcıları ile gösterilir. Nötr ifade de dahil olmak üzere yedi ifadenin sınıflandırılmasında en iyi performans 87.1 % ile Destek Vektör Makineleri kullanılarak elde edilir. Bu çalışmada elde edilen sonuçlar insanın yüz ifadesi tanımadaki yetkinlik oranı olan 87-91.7 % aralığına yakın olup literatürde yer alan çalışmaların başarıları ile kıyaslanabilir durumdadır.
Text in English ; Abstract: Turkish and English; Includes bibliographical references (leaves 102-117); xiv, 118 leaves
2013-06-06T00:00:00ZSoftware defect prediction using Bayesian networks and kernel methods
https://hdl.handle.net/11729/891
Software defect prediction using Bayesian networks and kernel methods
Okutan, Ahmet
There are lots of different software metrics discovered and used for defect prediction in the literature. Instead of dealing with so many metrics, it would be practical and easy if we could determine the set of metrics that are most important and focus on them more to predict defectiveness. We use Bayesian modelling to determine the influential relationships among software metrics and defect proneness. In addition to the metrics used in Promise data repository, We define two more metrics, i.e. NOD for the number of developers and LOCQ for the source code quality. We wxtract these metrics by inspecting the source code repositories of the selected Promise data repository data sets. At the end of our modeling, We learn both the marginal defect proneness probability of the whole software system and the set of most effective metrics. Our experiments on nine open source Promise data repository data sets show that respense for class (RFC), lines of code (LOC), and lack of coding quality (LOCQ) are the most efective metrics whereas coupling between objets (CBO), weighted method per class (WMC), and lack of cohesion of methods (LCOM) are less efective metris on defect proneness. Furthermore, number of children (NOC) and depth of inheritance tree (DIT) have very limited effect and are unstustworthy. On tthe other hand, based on the experiments on Poi, Tomcat, and Xalan data sets, We observe that there is a positive correlation between the number of developers (NOD) and the level of defectiveness.However, futher investigation involving a greater number of projects, is need to confirm our findings. Furthermore, we propose a novel technique for defect prediction that uses plagiarism detection tools. Although the defect prediction problem haz been researched for a long time, the results achieved are not so bright. We use kernel programming to model the relationship between source code similarity and defectiveness. Each value in the kernel matrix shows how much parallelism exit between the corresponding files ib the kernel matrix shows how much parallelism exist between the corresponding files in the software system chosen. Our experiments on 10 real world datasets indicate that support vector machines (SVM) with a precalculated kernel matrix performs better than the SVM with the usual linear and RBF kernels and generates comparable results with the famous defect prediction methods like linear logistic regression and J48 in terms of the area under the curve (AUC).Furthermore, we observed that when the amount of similarity among the files of a software system is high, then the AUC found by the SVM with precomputed kernel can be used to predict the number of defects in the files or classes of a software system, because we observe a relationship between source code similarity and the number of defects. Based on the results of our analysis, the developers can focus on more defective modules rather than on less or non defective ones during testing activities. The experiments on 10 Promise datasets indicate that while predicting the number of defects, SVM with a precomputed kernel performs as good as the SVM with the usual linear and RBF kernels, in terms of the root mean square error (RMSE). The method proposed is also comparable with other regression methods like linear regression and IBK. The results of these experiments suggest that source code similarity is a good means of predicting both defectiveness and the number of defects in software modules.; Literatürde kullanılan çok çeşitli yazılım ölçütleri mevcuttur. Çok sat-yıda ölçütle hata tahmini yapmak yerine, en önemli ölçüt kümesini belirleyip bu kümedeki ölçütleri hata tahmininde kullanmak daha pratik ve kolay olacaktır. Bu tezde yazılım ölçütleri ile hataya yarkınlık arasındaki etkileşimi ortaya çıkarmak için Bayesian modelleme yöntemi kullanılmıştır. Promise veri deposundaki yazılım ölçütlerine ek olarak, yazılım geliştiricisi sayısı (NOD) ve kaynak kodu kalitesi (LOCQ) adlı 2 yeni ölçüt tanımlanmıştır. Bu ölçütleri çıkarmak için Promise veri depesundaki veri kümelerinin açık kaynak kodları kullanılmıştır. Yapılan modelleme sonucunda, hem sınanan sistemin hatalı olm aihtimali, hem de en etkili ölçüt künesi bulunmaktadır. 9 Promise veri kümesi üzerindeki deneyler, RFC, LOC ve LOCQ ölçütlerinin en etkili ölçütler olduğunu, CBO, WMC ve LCOM ölçütlerinin ise daha az etkili olduğunu ortaya koymuştur. Ayrıca, NOC ve DIT ölçütlerinin sınırlı bir etkiye sahip olduğu ve güvenilir olmadığı gözlemlenmiştir. Öte yandan, Poi, Tomcat Xalan veri kümeleri üzerinde yapılan deneyler sonucunda, yazılım geliştici sayısı (NOD) ile hata seviyesi arasında doğru orantı olduğu sonucuna varılmıştır. Bununla birlikte, tespitlerimizi doğrulamak için daha fazla veri kümesi üzerinde deney yapmaya ihtiyaç vardır. Ayrıca bu tezde, hata tahmini için intihal tespit araçlarını kullanan yeni bir yöntem önerilmiştir. Hata tahmini için intihal tespit araçlarını kullanan yeni bir yöntem önerilmiştir. Hata tahmin problemi ve uzun zamandan beri araştırılmaktadır, fakat ortaya çıkan sonuçlar çok parlak değildir. Farklı bir bakış açısı getirmek üzere, kaynak kod benzerliği ve hataya yatkınlık arasındaki ilişkiyi modelleyen çekirdek metodu yöntemi kullanılmıştır. Bu yöntemde, üretilen çekirdek matrisindeki her bir değer, matrisin satır ve sütunda bulubab kaynak kodu dosyaları arasındaki parelelliği göstermektedir. 10 veri kümesi üzerindeki deneyler, önceden hesaplanmış çekirdek matrisi kullanan SVM yönteminin, doğrusal veya RBF çekirdek kullanan SVM yöntemlerine göre daha başarılı olduğunu ayrıca mevcut hata tahmin yöntemleri doğrusal lojistik regresyon ve J48 ile benzer sonuçlar ürettiğini göstermiştir. Ayrıca, bir yazılım sistemi içerisinde bulubab dosyalar arasındaki kod benzerliğinin daha fazla olduğunu durumlarda, ROC eğrisi altındaki alan (AUC) ölçütünün de daha yüksek olduğu görülmüştür. Ayrıca, önceden hesaplanmış çekirdek matris kullanan SVM yönteminin, hata sayısı ile kaynak kodu benzerliği arasında gözlemlenen ilişkiden ötürü, bir yazılım sistemindeki hata sayısının tahmin edilmesinde de kullanılabileceği gösterilmiştir. Yapılan analiz sonucunda, yazılım geliştiriciler hatasız veya daha az hatalı modüllere odaklanmak yerine, daha fazla hata içeren modüllere odaklanabilirler. 10 Promise veri kümesi üzerinde yapılan deneyler, hata sayısını tahmin ederken, önceden hesaplanan çekirdek matris kullanan SVM yönetiminin ortalama karesel hata (RMSE) açısından doğrusal ve RBF çekirdek kullanan SVM yöntemi kadar başarılı olduğunu göstermiştir. Uygulana yöntem, doğrusal regreyon ve IBK gibi diğer regresyon yöntemleri ile benzer sonuçlar üreetmiştir. Yapılan deneylerin sonuçları, kaynak kodu benzerliğinin hataya yatkınlık ve hata sayısının tahmin etmede iyi bir araç olduğunu ortaya koymuştur.
Text in English; Abstract: English and Turkish; Includes bibliographical references (leaves 115-127); xix, 128 leaves
2012-07-01T00:00:00Z