Basit öğe kaydını göster

dc.contributor.advisorTüysüz Erman, Ayşegülen_US
dc.contributor.authorGörgün, Onuren_US
dc.contributor.otherIşık Üniversitesi, Lisansüstü Eğitim Enstitüsü, Bilgisayar Mühendisliği Doktora Programıen_US
dc.date.accessioned2022-09-08T13:17:33Z
dc.date.available2022-09-08T13:17:33Z
dc.date.issued2022-06-14
dc.identifier.citationGörgün, O. (2022). English to Turkish machine translation using synchronous grammars. İstanbul: Işık Üniversitesi Lisansüstü Eğitim Enstitüsü.en_US
dc.identifier.urihttps://hdl.handle.net/11729/4829
dc.descriptionText in English ; Abstract: English and Turkishen_US
dc.descriptionIncludes bibliographical references (leaves 60-68)en_US
dc.descriptionxi, 69 leavesen_US
dc.description.abstractMachine translation (MT) has been one of the hot topics in NLP research over recent years. However, most of the related studies have been done for specific languages, and there are a limited number of comprehensive studies for languages with free word order, such as Turkish. English-Turkish is also one of the least frequently studied language pairs in translation due to the morphological and syntactic gaps between the two languages. This also makes it hard to build parallel corpora, which is crucial for the machine translation task. This thesis aims to be the first statistical syntax tree-based machine translation approach to the English-Turkish language pair, as well as a parallel corpus for translation tasks. We construct an English-Turkish parallel treebank of approximately 17K sentences by following a three-phased approach: manual transformation of English trees from Penn Treebank (PTB) by constraining the translated trees to the reordering of the children and gloss replacement; morphological analysis of the translated gloss; and morphological enrichment of the target tree. For translation consistency, we also developed a set of tools. We also apply the transformation schema to the closed-domain and build 8.3K sentences corpus. We employ both corpora on machine translation task. In our experiments, we obtained a 12.8 BLEU score in the open-domain and a 26.8 BLEU score in the closed-domain. We also evaluate both corpora intrinsically through perplexity analysis. The results show that our studies on making a corpus can be repeated, and studies on machine translation using the small corpus look promising.en_US
dc.description.abstractMakine Çevirisi, son yıllarda Doğal Dil İşleme araştırma araştırmalarında en önde gelen araştırma alanlarından biri olmaktadır. Ancak, ilgili çalışmaların büyük bir bölümü belirli diller için yapılmış olup, Türkçe gibi serbest sözcük dizilişine sahip diller için sınırlı sayıda kapsamlı çalışma bulunmaktadır. İngilizce ve Türkçe, iki dil arasındaki biçimbilimsel ve sözdizimsel farklılıklar sebebi ile daha az çalışılan dil çiftlerinden biridir. Bu durum aynı zamanda makine çevirisi alanının en önemli bölümünü oluşturan paralel derlem çalışmalarını da zorlaştırmaktadır. Bu tez, İngilizce-Türkçe dil ikilisine yönelik ilk istatistiksel sözdizimi ağacı tabanlı makine çevirisi yaklaşımı olmayı amaçlamakta ve makine çevirisi uygulamaları için paralel derlem oluşturma çalışmalarını sunmaktadır. Üç aşamalı bir yaklaşım izleyerek 17000 cümle boyutunda bir İngilizce-Türkçe paralel derlem oluşturduk. İzlenen adımlar: çevrilmiş ağaçların alt ağaçlarının yeniden sıralanması ve kelime değişimi ile sınırlandırarak, İngilizce ağaçların Penn Treebank’tan (PTB) el ile dönüştürülmesi; çevrilmiş kelimelerin morfolojik analizi ve hedef ağacın morfolojik olarak zenginleştirilmesi olarak belirtilmiştir. Çeviri tutarlılığı amacı ile bir yazılım araçları seti de geliştirdik. Ağaç dönüşümü yaklaşımımızı teknik alana da uygulayarak kapalı-alan için 8300 cümleden oluşan başka bir derlem daha oluşturduk. Her iki derlemi de makine çevirisi çalışmalarında kullandık. Denemelerimizde, açık-alan için 12.8 BLEU puanı ve kapalı-alan için 26.8 BLEU puanı elde ettik. Ayrıca, karmaşıklık anazili aracılığı ile her iki derlemi de öz değerlendirmeye tabi tuttuk. Sonuçlar göstermektedir ki derlem oluşturma çalışmalarımız tekrarlanabilir olup, oluşturulan kısıtlı derlem ile yapılan makine çevirisi çalışmalarının umut verici olduğunu göstermektedir.en_US
dc.description.tableofcontentsINTRODUCTIONen_US
dc.description.tableofcontentsMotivation of the thesisen_US
dc.description.tableofcontentsContributions of the thesisen_US
dc.description.tableofcontentsThesis Outlineen_US
dc.description.tableofcontentsMACHINE TRANSLATION OVERVIEWen_US
dc.description.tableofcontentsStatistical Machine Translation Approachesen_US
dc.description.tableofcontentsWord-based modelsen_US
dc.description.tableofcontentsPhrase-based modelsen_US
dc.description.tableofcontentsTree-based Modelsen_US
dc.description.tableofcontentsSynchronous Grammarsen_US
dc.description.tableofcontentsLearning and Decodingen_US
dc.description.tableofcontentsParallel Dataen_US
dc.description.tableofcontentsCOMPARATIVE ANALYSIS OF LANGUAGESen_US
dc.description.tableofcontentsTurkish Morphologyen_US
dc.description.tableofcontentsTurkish Syntaxen_US
dc.description.tableofcontentsTurkish vs. Englishen_US
dc.description.tableofcontentsSYNTAX-BASED STATISTICAL MACHINE TRANSLATIONen_US
dc.description.tableofcontentsChallengesen_US
dc.description.tableofcontentsSyntactic Parsing of Turkishen_US
dc.description.tableofcontentsAnnotation Toolsen_US
dc.description.tableofcontentsParallel Corporaen_US
dc.description.tableofcontentsSyntactic Tree Transformationen_US
dc.description.tableofcontentsClosed-domain Treebanken_US
dc.description.tableofcontentsTREEBANK EVALUATIONen_US
dc.description.tableofcontentsPerplexity Analysisen_US
dc.description.tableofcontentsTree-based Statistical Machine Translationen_US
dc.description.tableofcontentsTranslation Approachen_US
dc.description.tableofcontentsTranslation Resultsen_US
dc.language.isoengen_US
dc.publisherIşık Üniversitesien_US
dc.rightsinfo:eu-repo/semantics/openAccessen_US
dc.rightsAttribution-NonCommercial-NoDerivs 3.0 United States*
dc.rights.urihttp://creativecommons.org/licenses/by-nc-nd/3.0/us/*
dc.subjectSyntax treeen_US
dc.subjectTree-based translationen_US
dc.subjectSynchronous grammarsen_US
dc.subjectStatistical machine translationen_US
dc.subjectSözdizim ağacıen_US
dc.subjectAğaç-temelli çevirien_US
dc.subjectEşzamanlı dilbilgisien_US
dc.subjectİstatistiksel makine çevirisien_US
dc.subject.lccP308 .G67 2022
dc.subject.lcshMachine translating.en_US
dc.subject.lcshTranslating and interpreting -- Technological innovations.en_US
dc.titleEnglish to Turkish machine translation using synchronous grammarsen_US
dc.title.alternativeEş zamanlı dilbilgisi ile İngilizce'den Türkçe'ye makine çevirisien_US
dc.typedoctoralThesisen_US
dc.contributor.departmentIşık Üniversitesi, Lisansüstü Eğitim Enstitüsü, Bilgisayar Mühendisliği Doktora Programıen_US
dc.contributor.authorID0000-0001-7764-2033
dc.relation.publicationcategoryTezen_US
dc.contributor.institutionauthorGörgün, Onuren_US


Bu öğenin dosyaları:

Thumbnail

Bu öğe aşağıdaki koleksiyon(lar)da görünmektedir.

Basit öğe kaydını göster

info:eu-repo/semantics/openAccess
Aksi belirtilmediği sürece bu öğenin lisansı: info:eu-repo/semantics/openAccess