An approach to anaylse Turkish syntax at morphosyntactic level
Yükleniyor...
Tarih
2025-01-20
Yazarlar
Dergi Başlığı
Dergi ISSN
Cilt Başlığı
Yayıncı
Işık Üniversitesi, Lisansüstü Eğitim Enstitüsü
Erişim Hakkı
info:eu-repo/semantics/openAccess
Özet
Syntactic analysis allows us to analyse the sentence structure in various ways. Constituency parsing is one of the various ways of conducting syntactic analysis. This parsing method defines sentence structure as hierarchical relationships between words or phrases and represents them in tree form. Constituency parsing employs constituency grammar which defines how constituents combine and form other constituents. In this grammar, any syntactic structure from the sentence to the words is represented by the constituents. Although this approach is designed to focus on universal aspects of the languages, English has always been in its focus. This situation makes the constituency approach miss the details that the morphology puts in the syntax of morphologically rich languages. In this study, we implement an extension for the constituency parsing which overcomes the challenges in parsing of MRL (Morphologically Rich Language). We propose ideas tailored to Turkish, yet they can be used for any language like Turkish. Our extension enables the constituency parsing to start at the morpheme level. Thus, we involve morphemic structures in the parsing process and express their syntactic effects on the structure. We have our implementations by extending the CYK (Cocke Younger Kasami) algorithm. During parsing, we utilize extra rules to transfer the ambiguity in morphology to the parsing. In addition, we designed a morpheme-focused constituency set for Turkish. This set involves affixes, stems and phrases headed by a stem. We demonstrate our work with a mini treebank and the grammar generated from it.
Sözdizim analizi Doğal Dil İşleme alanında kullanılan temel yöntemlerden biridir. Sözdizimsel Analiz işlemi tümce yapısının çeşitli şekillerde analiz edilmesine imkan tanır. Bileşen analizi de bu yollardan bir tanesidir. Bu yöntem tümce yapısını sözcükler ve tamlamalar arasındaki hiyerarşik ilişkiler olarak tanımlar ve ilişkilerin oluşturduğu bu yapıyı ağaç formatında gösterir. Bileşen çözümlemesi, bileşenlerin nasıl birleştiğini ve hangi bileşenleri oluşturduğunu açıklayan bileşen gramerini kullanır. Bu gramerde sözcüklerden tümcenin kendisine kadar olan tüm yapılar bileşenlerce temsil edilir. Tasarımı gereği, bu yaklaşım dilin evrensel özelliklerine odaklanıyor olsa da yaklaşımın odağı hep İngilizce üzerine olmuştur. Bu durum bileşen yönteminin biçimbirim yönünden zengin dillerde biçimbirimlerin sözdizime kattığı detayları kaçırmasına neden olur. Bu çalışmada, biçimbirim yönünden zengin dillerin için bileşen yöntemindeki zorlukların üstesinden gelen bir uzantı öneriyoruz. Fikirlerimiz Türkçeye için kurgulanmış olsa da Türkçeye benzer herhangi bir dil için de kullanılabilir. Uzantımız bileşen çözümlemesinin biçimbirim düzeyinden başlamasını sağlar. Böylece, biçimbirimsel yapıların sözdizim analizine katılmasını sağlıyoruz ve sözdizime olan etkilerini gösteriyoruz. Önerilerimizi CYK algoritması üzerinde uyguladık. Sözdizim analizinde, özel kurallarla, biçimbirimlerden kaynaklanan muğlaklıkları analiz sürecine dahil ediyoruz. Ek olarak, Türkçe için, biçimbirim odaklı bir bileşen kümesi tasarladık. Tasarladığımız bu küme ekleri, gövdeleri ve başı gövde olan tamlamaları içerir. Çalışmamızı küçük bir ağaç bankası ve ondan üretilen gramer ile gösteriyoruz.
Sözdizim analizi Doğal Dil İşleme alanında kullanılan temel yöntemlerden biridir. Sözdizimsel Analiz işlemi tümce yapısının çeşitli şekillerde analiz edilmesine imkan tanır. Bileşen analizi de bu yollardan bir tanesidir. Bu yöntem tümce yapısını sözcükler ve tamlamalar arasındaki hiyerarşik ilişkiler olarak tanımlar ve ilişkilerin oluşturduğu bu yapıyı ağaç formatında gösterir. Bileşen çözümlemesi, bileşenlerin nasıl birleştiğini ve hangi bileşenleri oluşturduğunu açıklayan bileşen gramerini kullanır. Bu gramerde sözcüklerden tümcenin kendisine kadar olan tüm yapılar bileşenlerce temsil edilir. Tasarımı gereği, bu yaklaşım dilin evrensel özelliklerine odaklanıyor olsa da yaklaşımın odağı hep İngilizce üzerine olmuştur. Bu durum bileşen yönteminin biçimbirim yönünden zengin dillerde biçimbirimlerin sözdizime kattığı detayları kaçırmasına neden olur. Bu çalışmada, biçimbirim yönünden zengin dillerin için bileşen yöntemindeki zorlukların üstesinden gelen bir uzantı öneriyoruz. Fikirlerimiz Türkçeye için kurgulanmış olsa da Türkçeye benzer herhangi bir dil için de kullanılabilir. Uzantımız bileşen çözümlemesinin biçimbirim düzeyinden başlamasını sağlar. Böylece, biçimbirimsel yapıların sözdizim analizine katılmasını sağlıyoruz ve sözdizime olan etkilerini gösteriyoruz. Önerilerimizi CYK algoritması üzerinde uyguladık. Sözdizim analizinde, özel kurallarla, biçimbirimlerden kaynaklanan muğlaklıkları analiz sürecine dahil ediyoruz. Ek olarak, Türkçe için, biçimbirim odaklı bir bileşen kümesi tasarladık. Tasarladığımız bu küme ekleri, gövdeleri ve başı gövde olan tamlamaları içerir. Çalışmamızı küçük bir ağaç bankası ve ondan üretilen gramer ile gösteriyoruz.
Açıklama
Text in English ; Abstract: English and Turkish
Includes bibliographical references (leaves 83-87)
x, 90 leaves
Includes bibliographical references (leaves 83-87)
x, 90 leaves
Anahtar Kelimeler
Türkçe, Bileşen analizi, Bileşen grameri, Turkish, Constituency parsing, Constituency grammar
Kaynak
WoS Q Değeri
Scopus Q Değeri
Cilt
Sayı
Künye
Özenç, B. (2025). An approach to anaylse Turkish syntax at morphosyntactic level. İstanbul: Işık Üniversitesi Lisansüstü Eğitim Enstitüsü.