An approach to anaylse Turkish syntax at morphosyntactic level

Yükleniyor...
Küçük Resim

Tarih

2025-01-20

Dergi Başlığı

Dergi ISSN

Cilt Başlığı

Yayıncı

Işık Üniversitesi, Lisansüstü Eğitim Enstitüsü

Erişim Hakkı

info:eu-repo/semantics/openAccess

Araştırma projeleri

Organizasyon Birimleri

Dergi sayısı

Özet

Syntactic analysis allows us to analyse the sentence structure in various ways. Constituency parsing is one of the various ways of conducting syntactic analysis. This parsing method defines sentence structure as hierarchical relationships between words or phrases and represents them in tree form. Constituency parsing employs constituency grammar which defines how constituents combine and form other constituents. In this grammar, any syntactic structure from the sentence to the words is represented by the constituents. Although this approach is designed to focus on universal aspects of the languages, English has always been in its focus. This situation makes the constituency approach miss the details that the morphology puts in the syntax of morphologically rich languages. In this study, we implement an extension for the constituency parsing which overcomes the challenges in parsing of MRL (Morphologically Rich Language). We propose ideas tailored to Turkish, yet they can be used for any language like Turkish. Our extension enables the constituency parsing to start at the morpheme level. Thus, we involve morphemic structures in the parsing process and express their syntactic effects on the structure. We have our implementations by extending the CYK (Cocke Younger Kasami) algorithm. During parsing, we utilize extra rules to transfer the ambiguity in morphology to the parsing. In addition, we designed a morpheme-focused constituency set for Turkish. This set involves affixes, stems and phrases headed by a stem. We demonstrate our work with a mini treebank and the grammar generated from it.
Sözdizim analizi Doğal Dil İşleme alanında kullanılan temel yöntemlerden biridir. Sözdizimsel Analiz işlemi tümce yapısının çeşitli şekillerde analiz edilmesine imkan tanır. Bileşen analizi de bu yollardan bir tanesidir. Bu yöntem tümce yapısını sözcükler ve tamlamalar arasındaki hiyerarşik ilişkiler olarak tanımlar ve ilişkilerin oluşturduğu bu yapıyı ağaç formatında gösterir. Bileşen çözümlemesi, bileşenlerin nasıl birleştiğini ve hangi bileşenleri oluşturduğunu açıklayan bileşen gramerini kullanır. Bu gramerde sözcüklerden tümcenin kendisine kadar olan tüm yapılar bileşenlerce temsil edilir. Tasarımı gereği, bu yaklaşım dilin evrensel özelliklerine odaklanıyor olsa da yaklaşımın odağı hep İngilizce üzerine olmuştur. Bu durum bileşen yönteminin biçimbirim yönünden zengin dillerde biçimbirimlerin sözdizime kattığı detayları kaçırmasına neden olur. Bu çalışmada, biçimbirim yönünden zengin dillerin için bileşen yöntemindeki zorlukların üstesinden gelen bir uzantı öneriyoruz. Fikirlerimiz Türkçeye için kurgulanmış olsa da Türkçeye benzer herhangi bir dil için de kullanılabilir. Uzantımız bileşen çözümlemesinin biçimbirim düzeyinden başlamasını sağlar. Böylece, biçimbirimsel yapıların sözdizim analizine katılmasını sağlıyoruz ve sözdizime olan etkilerini gösteriyoruz. Önerilerimizi CYK algoritması üzerinde uyguladık. Sözdizim analizinde, özel kurallarla, biçimbirimlerden kaynaklanan muğlaklıkları analiz sürecine dahil ediyoruz. Ek olarak, Türkçe için, biçimbirim odaklı bir bileşen kümesi tasarladık. Tasarladığımız bu küme ekleri, gövdeleri ve başı gövde olan tamlamaları içerir. Çalışmamızı küçük bir ağaç bankası ve ondan üretilen gramer ile gösteriyoruz.

Açıklama

Text in English ; Abstract: English and Turkish
Includes bibliographical references (leaves 83-87)
x, 90 leaves

Anahtar Kelimeler

Türkçe, Bileşen analizi, Bileşen grameri, Turkish, Constituency parsing, Constituency grammar

Kaynak

WoS Q Değeri

Scopus Q Değeri

Cilt

Sayı

Künye

Özenç, B. (2025). An approach to anaylse Turkish syntax at morphosyntactic level. İstanbul: Işık Üniversitesi Lisansüstü Eğitim Enstitüsü.