Basit öğe kaydını göster

dc.contributor.advisorGüz, Ümiten_US
dc.contributor.authorDalva, Doğanen_US
dc.contributor.otherIşık Üniversitesi, Fen Bilimleri Enstitüsü, Elektronik Mühendisliği Doktora Programıen_US
dc.date.accessioned2018-08-16T13:28:55Z
dc.date.available2018-08-16T13:28:55Z
dc.date.issued2018-01-15
dc.identifier.citationDalva, D. (2018). Co-Training using Prosodic, Lexical and Morphological Information for Automatic Sentence Segmentation of Turkish Spoken Language. İstanbul: Işık Üniversitesi Fen Bilimleri Enstitüsüen_US
dc.identifier.urihttps://hdl.handle.net/11729/1317
dc.descriptionText in English ; Abstract: English and Turkishen_US
dc.descriptionIncludes bibliographical references (leaves 124-132)en_US
dc.descriptionxiv, 132 leavesen_US
dc.description.abstractSentence segmentation of speech aims detecting sentence boundaries in a stream of words output by the speech recognizer. Sentence segmentation is a preliminary step toward speech understanding. It is of particular importance for speech related applications, as most of the further processing steps; such as parsing, machine translation and information extraction, assume the presence of sentence boundaries. Typically, statistical methods require a huge amount of manually labeled data, which is time and labor consuming process to prepare. In this work, novel multiview semi-supervised learning strategies for the solution of sentence segmentation problem are proposed. The aim of this work is to and effective semi-supervised machine learning strategies when only a small set of sentence boundary labeled data is available. This work proposes three-view co-training and committee-based strategies incorporating with agreement, disagreement and self-combined strategies using lexical, morphological and prosodic information, and investigates performance of the proposed learning strategies against baseline, self-training and co-training. The experimental results show that the proposed learning strategies highly improve the sentence segmentation problem, since data sets can be represented by three redundantly suffcient and disjoint feature sets.en_US
dc.description.abstractCümle bölütleme işlevi, standart Otomatik Konuşma Tanıma (OKT) sistemlerinin çıkışından elde edilen işlenmemiş kelime dizisi biçimindeki veriyi cümlelere ayırarak zenginleştirmeyi amaçlayan bir işlemdir. Cümle bölütleme; çözümleme, makine çevrimi, bilgi çıkarımı gibi cümle bölütlemenin yapıldığının varsayıldığı konuşma işlemenin daha ileri uygulamaları için bir ön adım olarak gerçekleştirilmektedir. Cümle bölütlemede kullanılan standart yöntemler, model eğitimi aşamasıında oldukça fazla etiketlenmiş veriye ihtiyaç duyar. El ile yapılan veri etiketleme işlemi; emek, dikkat ve zaman isteyen bir işlemdir. Bu çalışmada çok bakışlı yarı öğreticili yöntemler geliştirerek, daha az el ile etiketlenmiş veri ile standart yöntemlere göre daha yüksek başarımın sağlanması hede flenmektedir. Bu çalışmada çok bakışlı yarı öğreticili yöntemler geliştirerek, daha az el ile etiketlenmiş veri ile standart yöntemlere göre daha yüksek başarımın sağlanması hedeflenmektedir. Bu çalışmada sözcüksel, biçimbilgisel ve prozodik özellikleri kullanan, uzlaşma (agreement), uzlaşamama (disagreement) ve self-combined yöntemleri ile beraber çalısan yeni üç bakışlı eş eğitim (co-training) ve kurul tabanlı (committee-based) yöntemler geliştirildi. Yeni yöntemlerin performansları, iki bakışlı eş eğitim yöntemleri, kendi kendini eğitme (self-training) yöntemi ve standart yöntemler ile kıyaslandı. Deneysel sonuçlar, veri kümeleri yeterli ve ayrık özellik grupları kullanılarak ifade edilebildiği için, önerilen yöntemlerin cümle bölütleme başarımı oldukça arttırdığı göstermektedir.en_US
dc.description.sponsorshipThis material is based upon work supported by the Scientific and Technological Research Council of Turkey (TUBITAK) (Project Number: 107E182 and Project Number: 111E228).en_US
dc.description.sponsorshipIsik University Scientific Research Project Fund (Project Number: 09A301 and Project Number: 14A201).en_US
dc.description.tableofcontentsSentence Segmentationen_US
dc.description.tableofcontentsSemi-Supervised Learningen_US
dc.description.tableofcontentsSelf-Trainingen_US
dc.description.tableofcontentsCo-Trainingen_US
dc.description.tableofcontentsData Collection and Annotationen_US
dc.description.tableofcontentsPre-processing Dataen_US
dc.description.tableofcontentsData Profileen_US
dc.description.tableofcontentsExtraction of Prosodic, Morphological and Lexical Features for Sentence Segmentation Problemen_US
dc.description.tableofcontentsProsodic Featuresen_US
dc.description.tableofcontentsSRI-International Algemy Prosodic Feature Extraction Toolen_US
dc.description.tableofcontentsPurdue Prosodic Feature Extraction Toolen_US
dc.description.tableofcontentsComparison of SRI Algemy and Purdue Prosodic Feature Extraction Toolsen_US
dc.description.tableofcontentsMorphological Featuresen_US
dc.description.tableofcontentsLexical Featuresen_US
dc.description.tableofcontentsProposed Methoden_US
dc.description.tableofcontentsSentence Segmentationen_US
dc.description.tableofcontentsBoostingen_US
dc.description.tableofcontentsCalibrated Confidence Scoresen_US
dc.description.tableofcontentsSemi-Supervised Learningen_US
dc.description.tableofcontentsSelf-Trainingen_US
dc.description.tableofcontentsCo-Trainingen_US
dc.description.tableofcontentsCo-Training Agreement Strategyen_US
dc.description.tableofcontentsCo-Training Disagreement Strategyen_US
dc.description.tableofcontentsSelf-Combined Strategyen_US
dc.description.tableofcontentsProposed Three-view Co-Training and Committee-Based Learning Strategiesen_US
dc.description.tableofcontentsThree-View Co-Training Strategy 1en_US
dc.description.tableofcontentsThree-View Co-Training Strategy 2en_US
dc.description.tableofcontentsThree-View Co-Training Strategy 3en_US
dc.description.tableofcontentsThree-View Co-Training Strategy 4en_US
dc.description.tableofcontentsThree-View Co-Training Strategy 5en_US
dc.description.tableofcontentsThree-View Co-Training Strategy 6en_US
dc.description.tableofcontentsThree-View Co-Training Strategy 7en_US
dc.description.tableofcontentsCommittee-Based Learning Strategy 8en_US
dc.description.tableofcontentsCommittee-Based Learning Strategy 9en_US
dc.description.tableofcontentsExperiments and Resultsen_US
dc.description.tableofcontentsEvaluation Metricsen_US
dc.description.tableofcontentsBaseline Results of Different Feature Setsen_US
dc.description.tableofcontentsExperimental Setup of the Self-Training and Co-Training Methodsen_US
dc.description.tableofcontentsExperimental Results of the Self-Training and Co-Training Methods Based on Different Feature Setsen_US
dc.description.tableofcontentsExperimental Results Based on the Lexical Featuresen_US
dc.description.tableofcontentsExperiment Results Based on the Morphological Featuresen_US
dc.description.tableofcontentsExperimental Results Based on the Prosodic Featuresen_US
dc.description.tableofcontentsExperimental Results Based on the Combination of Lexical and Morphological Featuresen_US
dc.description.tableofcontentsExperimental Results Based on the Combination of Lexical and Prosodic Featuresen_US
dc.description.tableofcontentsExperimental Results Based on the Combination of Prosodic and Morphological Featuresen_US
dc.description.tableofcontentsAverage Results Based on Different Strategiesen_US
dc.description.tableofcontentsStatistical Analysis of the Experimental Resultsen_US
dc.description.tableofcontentsAnalysis and Discussionen_US
dc.description.tableofcontentsScenario of Concatenating Trained Models to Online ASR Systemsen_US
dc.language.isoengen_US
dc.publisherIşık Üniversitesien_US
dc.rightsinfo:eu-repo/semantics/openAccessen_US
dc.subjectBoostingen_US
dc.subjectCo-trainingen_US
dc.subjectForced alignmenten_US
dc.subjectLexical feature extractionen_US
dc.subjectMachine learningen_US
dc.subjectMorphologyen_US
dc.subjectMulti-view semi-supervised learningen_US
dc.subjectProsodyen_US
dc.subjectProsodic feature extractionen_US
dc.subjectSentence segmentationen_US
dc.subjectSelf- trainingen_US
dc.subjectBiçimbilgisel bilgi (Morfoloji)en_US
dc.subjectCümle bölütlemeen_US
dc.subjectÇok bakışlı yarı öğreticili öğrenmeen_US
dc.subjectEş eğitim (Co-Training)en_US
dc.subjectMakine öğrenmesien_US
dc.subjectProzodien_US
dc.subjectProzodik özellik çıkarımıen_US
dc.subjectSözlüksel (Lexical) özellik çıkarımıen_US
dc.subjectZorlanmış hizalamaen_US
dc.subject.lccQ325.5 .D35 2018
dc.subject.lcshMachine learning -- Statistical methodsen_US
dc.subject.lcshSignal processing -- Digital techniquesen_US
dc.subject.lcshProsodic analysis (Linguistics)en_US
dc.subject.lcshMachine learningen_US
dc.subject.lcshBoosting (Algorithms)en_US
dc.subject.lcshAutosegmental theory (Linguistics)en_US
dc.subject.lcshAutomatic speech recognitionen_US
dc.subject.lcshSpeech processing systemsen_US
dc.subject.lcshGrammar, Comparative and general -- Morphologyen_US
dc.titleCo-training using prosodic, lexical and morphological information for automatic sentence segmentation of Turkish spoken languageen_US
dc.title.alternativeBürüsel, sözcüksel ve biçimsel bilgiyi kullanan eş-eğitim ile Türkçe konuşma dilinin otomatik cümle bölütlemesien_US
dc.typedoctoralThesisen_US
dc.contributor.departmentIşık Üniversitesi, Fen Bilimleri Enstitüsü, Elektronik Mühendisliği Doktora Programıen_US
dc.contributor.authorID0000-0002-7035-8724
dc.relation.publicationcategoryTezen_US
dc.contributor.institutionauthorDalva, Doğanen_US


Bu öğenin dosyaları:

Thumbnail

Bu öğe aşağıdaki koleksiyon(lar)da görünmektedir.

Basit öğe kaydını göster