7 sonuçlar
Arama Sonuçları
Listeleniyor 1 - 7 / 7
Yayın Shallow parsing in Turkish(IEEE, 2017) Topsakal, Ozan; Açıkgöz, Onur; Gürkan, Ali Tunca; Kanburoğlu, Ali Buğra; Ertopçu, Burak; Özenç, Berke; Çam, İlker; Avar, Begüm; Ercan, Gökhan; Yıldız, Olcay TanerIn this study, shallow parsing is applied on Turkish sentences. These sentences are used to train and test the per-formances of various learning algorithms with various features specified for shallow parsing in Turkish.Yayın KeNet: a comprehensive Turkish wordNet and its applications in text clustering(Işık Üniversitesi, 2018-06-07) Ehsani, Razieh; Yıldız, Olcay Taner; Işık Üniversitesi, Fen Bilimleri Enstitüsü, Bilgisayar Mühendisliği Doktora ProgramıIn this thesis, we summarize the methodology and the results of our e?orts to construct a comprehensive WordNet for Turkish. Most languages have access to comprehensive language resources. Traditional resources like bilingual dictionaries, monolingual dictionaries, thesauri and lexicons are developed by lexicographers. As computer processing of languages gain popularity, a new set of resources become necessary. One such resource is WordNet which was initially constructed for English language in Princeton University. A WordNet contains much of the information contained in a classic dictionary, but it also contains additional relationship information. These relations go beyond synonym relation and give information about relations such as a word being“is-a” or “is-a-part-of” another. These semantic relations are used in many text analysis tasks. A WordNet also categorizes words under common concepts. These concepts are called as synsets. As a result of all these, WordNet is a comprehensive dictionary which is readable by the computers and a useful language resource for text analysis and other research based on human language. In Turkish language, our WordNet is not the ?rst. The previous WordNet is part of BalkaNet project which is a multilingual WordNet including Turkish and Balkan languages. BalkaNet contains only common words between these languages, as such BalkaNet does not contain all Turkish words and su?ers from top-down constructing method disadvantages. BalkaNet project has not been updated or expanded in recent years. In this work we construct a Turkish WordNet from scratch using a bottom-up method. In general there are two methods for constructing WordNets. Bottomup method means that we create the WordNet from scratch while top-down approach uses other WordNets by translating them. We use Turkish Contemporary Dictionary (CDT) which is an online Turkish dictionary provided by Turkish Language Institute. Bottom-up approach has its own di?culties, since constructing a WordNet from scratch requires more resources and a lot of e?ort. In this work, we extract synonyms from CDT and ask experts to match common meanings for pairs of synonyms. We developed an application which makes annotation step easier and more accurate. We also use two groups of annotators to measure inter-annotator agreement. We used some automatic approaches to extract semantic relations from Turkish Wikipedia (Vikipedi) and Vikisözlük. We processed CDT to extract candidate synonyms and used rule based approaches to ?nd synonym sets. There is no thesaurus for Turkish, so as an application we construct a thesaurus automatically and measured accuracy with our manually constructed synsets. We named our WordNet “KeNet”. Finally, in this thesis we developed a novel approach to represent a text document in a vector space. This approach uses WordNet semantic relations. This part of thesis is an application of KeNet. We used our approach to represent text documents and implemented two di?erent clustering algorithms over these vectors. We tested our method over Turkish Wikipedia articles, domains of which are labeled by Wikipedia.Yayın Türk alfabesindeki diyakritik işaretlerin tipografik bağlamda incelenmesi ve deneysel bir başlık fontu tasarımı(Işık Üniversitesi, 2017-06-12) Çil, Murat; Pektaş, Hasip; Işık Üniversitesi, Sosyal Bilimler Enstitüsü, Görsel İletişim Tasarımı Yüksek Lisans ProgramıTipografi görsel iletişimin temel ve en önemli bileşenlerinden biridir. Matbaacıların, tipografların ve yazı tipi tasarımcılarının tipografik arayışları hareketli metal harflerin icadıyla birlikte hız kazanmış ve giderek artmıştır. Bu arayışlara ve dilbilimsel gereksinimlere bağlı olarak harflerin yapıları zaman içerisinde değişmiş ve değişmeye devam etmektedir. Latin kökenli yeni Türk alfabesinin kullanılmaya başlanmasıyla birlikte Türkçe için yeni tipografik gereksinimler ortaya çıkmıştır. Türkçe’deki diyakritik işaretler bunlardan biridir. İncelenen Türkçe gazete ve hurufat kataloglarında Türkçe’deki diyakritik işaretlerin grafik tasarımcılar, dizgiciler ve tipograflar tarafından yeterince araştırılıp uygulanmadığı gözlemlenmiştir. Diyakritik işaretler harflerle tümleşik ya da harflerden ayrı bir şekilde yerleştirilen, kullanıldığı harfin telaffuzunu değiştiren ayırıcı işaretlerdir. 29 harften oluşan Latin kökenli yeni Türk alfabesinde ‘‘Ç/ç’, ‘İ/i’, ‘Ğ/ğ’, ‘Ö/ö’, ‘Ş/ş’ ve ‘Ü/ü’ olmak üzere diyakritik işarete sahip 6 harf bulunmaktadır. Şapka (circumflex) işaretine sahip olan ‘Â/â’, ‘Û/û’ ve ‘Î/î’ harfleri ise Türk alfabesinde bulunmamasına rağmen Arapça ve Farsça’dan Türkçe’ye geçmiş kelimelerde kullanılmaktadır. Bu çalışmanın amacı; Latin kökenli yeni Türk alfabesindeki diyakritik işaretlerin başlık fontlarındaki kullanımının tipografik açıdan incelenmesidir. Bu çalışma; diyakritikler kelimenin anlamını tamamen değiştirdiği için diyakritik işaretlerin ana glifin bir eklentisi değil, temel bir parçası olarak, ana glif ile bir bütün olarak tasarlanması gerektiğini savunmaktadır. Başlıklardaki satır espasının ve başlığın etrafındaki boşluğun uzun metinlere göre daha az olması nedeniyle tasarımcılar veya dizgiciler başlıklardaki diyakritik işaretlerle ilgili çeşitli zorluklarla karşılaşmaktadır. Bu nedenle bu çalışmada uzun metinler ve metin fontları değil, başlıklar ve başlık fontları incelenmiş ve diyakritik işaretlerle ilgili yaklaşımlar başlık metinlerinin ihtiyaçları düşünülerek ele alınmıştır. Çalışmanın bir diğer amacı ise diyakritik işaretlerin geleneksel formlarına dikkat çekmektir.Yayın Morphological analyser for Turkish(Işık Üniversitesi, 2018-01-25) Özenç, Berke; Solak, Ercan; Işık Üniversitesi, Fen Bilimleri Enstitüsü, Bilgisayar Mühendisliği Yüksek Lisans ProgramıNatural Language Processing is one one the fields of work in computer science and specializes in text summarization, machine translation and many various topics. Morphology is one of the Natural Language Processing features which analyses the words with its suxes. A words meaning can change according to the sux that it takes. Turkish is an agglutinative language with rich morphological structure and set of suxes. This features of Turkish result in complex morphology structure. In this study, we present an analyser for Modern Anatolian Turkish which has high coverage on suffixes and morphological rules of Turkish. Two-Level transformation method which is convenient to design morphology of a language, consists our base of approach. We used HFST which is a Finite State Transducer implementation, as our implementation technique. The analyser covers all morphological and phonetic rules that exist in Turkish and contains a lexicon which consist of today's Turkish words. The analyser is publicly available and can be used on http://ddil.isikun.edu.tr/mortur.Yayın An approach to anaylse Turkish syntax at morphosyntactic level(Işık Üniversitesi, Lisansüstü Eğitim Enstitüsü, 2025-01-20) Özenç, Berke; Solak, Ercan; Işık Üniversitesi, Lisansüstü Eğitim Enstitüsü, Bilgisayar Mühendisliği Doktora Programı; Işık University, School of Graduate Studies, Ph.D. in Computer EngineeringSyntactic analysis allows us to analyse the sentence structure in various ways. Constituency parsing is one of the various ways of conducting syntactic analysis. This parsing method defines sentence structure as hierarchical relationships between words or phrases and represents them in tree form. Constituency parsing employs constituency grammar which defines how constituents combine and form other constituents. In this grammar, any syntactic structure from the sentence to the words is represented by the constituents. Although this approach is designed to focus on universal aspects of the languages, English has always been in its focus. This situation makes the constituency approach miss the details that the morphology puts in the syntax of morphologically rich languages. In this study, we implement an extension for the constituency parsing which overcomes the challenges in parsing of MRL (Morphologically Rich Language). We propose ideas tailored to Turkish, yet they can be used for any language like Turkish. Our extension enables the constituency parsing to start at the morpheme level. Thus, we involve morphemic structures in the parsing process and express their syntactic effects on the structure. We have our implementations by extending the CYK (Cocke Younger Kasami) algorithm. During parsing, we utilize extra rules to transfer the ambiguity in morphology to the parsing. In addition, we designed a morpheme-focused constituency set for Turkish. This set involves affixes, stems and phrases headed by a stem. We demonstrate our work with a mini treebank and the grammar generated from it.Yayın Türkçe için biçimbirim temelli bir bileşen grameri yaklaşımı(Beykoz Üniversitesi, 2024-12-26) Özenç, Berke; Solak, ErcanDilin modellenmesi, dil çalışmalarında önemli bir temel olarak yer alır. Farklı modelleme yöntemleri, farklı diller için uyarlanabilir olsa da bu uyarlamalar, hedef dil için her zaman yeterli olmayabilir. Bu durumdan en çok biçimbirimsel açıdan zengin diller etkilenir. Böyle bir dil için hazırlanacak model kurgulanırken dilin evrensel olarak ortak olan özelliklerinin yanı sıra, dilin kendine özgü özelliklerine odaklanılmalıdır. Bu makalede, bağımlı biçimbirim bakımından zengin bir görünüm sunan Türkçe ele alınarak uyarlanan gramer sunulmuştur. Çalışmada açıklanan gramer temelleri geleneksel üretici gramer yönteminden uyarlanmıştır. Bununla birlikte, sunulan gramer, biçimbirimleri söz dizimi elemanı olarak geleneksel söz dizimi elemanlarıyla birlikte, söz dizimine olan etkilerini ele almasıyla ve kullanılan özel bileşen kümesiyle geleneksel üretici gramer yöntemden ayrılır. Geleneksel yöntemden farklı olarak önerilen gramerde, tümce çözümlemesine sözcüklerden değil, biçimbirim elemanları olan sözcük gövdeleri, ekler, biçimbirimler ve bu gibi elemanların oluşturduğu gruplardan başlanır. Buna ek olarak Türkçenin söz dizimsel ve birimbirimsel özelliklerine göre kurgulanan bir bileşen kümesi de sunulmuştur. Sunulan bileşen kümesi, tümce, ad öbeği, eylem öbeği, belirteç öbeği gibi geleneksel sözdizimsel bileşenleri, öbek gövdesi olarak adlandırılan ara bir yapıyı ve çoğul eki, durum eki, zaman çekimi eki gibi, biçimbirimleri veya biçimbirim gruplarını temsil eden bileşenleri içerir.Yayın TURSpider veri kümesinde Temsilcilerin Karışımı Tabanlı Text-to-SQL çalışması(IEEE, 2025) Kanburoğlu, Ali Buğra; Tek, Faik BorayBu çalışma, Türkçe Text-to-SQL için geliştirilen TURSpider veri kümesi üzerindeki deneyleri ele almaktadır. TURSpider, çeşitli zorluk seviyelerine sahip SQL sorgularını içeren geniş kapsamlı bir Türkçe veri kümesidir ve bu alandaki araştırmalar için önemli bir kaynak niteliğindedir. Çalışmada, geri bildirim odaklı temsilcilerin karışımı yaklaşımının (ing. feedback driven Mixture-of-Agents - MoAF) başarımı incelenmiştir. MoAF yapısında, birden fazla büyük dil modeli (BDM) iş birligi içinde çalışarak SQL oluşturma başarımını artırmayı hedeflemektedir. Bu yapıda temsilci (ing. agent) işbirliği, modellerin birbirinden ögrenmesini ve geri bildirim mekanizmaları aracılığıyla hataların düzeltilmesini sağlamaktadır. Deney sonuçlarına göre, MoAF yaklaşımı ile %60.63 yürütme doğruluğuna ulaşılmış ve TURSpider veri kümesi üzerindeki en iyi sonuç elde edilmiştir.












