Türkçe dil işleme için bürünsel bilginin çıkarılması ve kullanılması

dc.contributor.authorGüz, Ümiten_US
dc.contributor.authorGürkan, Hakanen_US
dc.contributor.authorYiğit, Sinanen_US
dc.date.accessioned2023-03-13T12:53:45Z
dc.date.available2023-03-13T12:53:45Z
dc.date.issued2010-02-01
dc.departmentIşık Üniversitesi, Mühendislik Fakültesi, Elektrik-Elektronik Mühendisliği Bölümüen_US
dc.departmentIşık University, Faculty of Engineering, Department of Electrical-Electronics Engineeringen_US
dc.description.abstractBu projede genel olarak, konuşulan dili (Türkçe) anlamada, konuşulan dilin bürünsel/ezgisel (prosodic) ve sözcüksel (lexical) özelliklerinin ortaya çıkarılması ve bu özelliklerin konuşulan dilin bilgisayarla otomatik olarak işlenmesinde kullanılması amaçlanmaktadır. Bu daha özel olarak, otomatik konuşma tanıyıcısının (ASR) çıkışına ilişkin cümle bölütleme işlevini içermektedir. Otomatik konuşma tanıma sistemlerinden çıkan yazılı metnin özellikle noktalama (punctuation), büyük küçük harf farklılıkları ve vurgu, tonlama, perde, durak gibi konuşmaya ilişkin temel bazı parametrelerden yoksun olması veya bu özellikleri kaybetmiş olması, özellikle anlamda farklılıklara yol açmaktadır. Bu çıktının zenginleştirilmesi (enrichment) başka bir deyiş ile bu özelliklerin tekrar geriye kazandırılması, bu metinlerin hem insanlar tarafından okunmasını ve doğru algılanmasını hem de makineler tarafından işlenmesini kolaylaştıracaktır. Bu projedeki amaç, bu zenginleştirme ve geri kazandırım işleminin dilin bürünsel özelliklerinden yararlanarak yapılmasıdır.en_US
dc.description.abstractThe text which the output of the Automatic Speech Recognition (ASR) system lacks especially punctuation, differences in the capitalization and the parameters related to the speaking such as stress, tone, pitch, pause cause some differences in the meaning. Enrichment of this output or another words to gain this features back to the output will provide either reading and understanding of the humans or processing of the machines easily. The aim of this project is doing this enrichment and the process of gaining back by using the prosodic features of the spoken language. In this proposal, we would like to examine the extraction and use of prosodic information in addition to lexical features for spoken language processing of Turkish. Specifically, we would like to research the use of prosodic features for sentence segmentation of Turkish speech. Another outcome of the project is to obtain a database of prosodic features at the word and morpheme level, which can be used for other purposes such as morphological disambiguation or word sense disambiguation. Turkish is an agglutinative language. Thus, the text should be analyzed morphologically in order to determine the root forms and the suffixes of the words before further analysis. In the framework of this project, we also would like to examine the interaction of prosodic features with morphological information. The role of sentence segmentation is to detect sentence boundaries in the stream of words provided by the ASR module for further downstream processing. This is helpful for various language processing tasks, such as parsing, machine translation and question answering. We formulate sentence segmentation as a binary classification task. For each position between two consecutive words the system must decide if the position marks a boundary between two sentences or if the two neighboring words belong to the same sentence. The sentence segmentation process is established by combining the Hidden Event Language Models (HELMs) with discriminative classification methods. The HELM takes into account the sequence of words and the output discriminative classification methods such as decision tree that is based on prosodic features such as pause durations. The new approach combines the HELMs for exploiting lexical information, with maximum entropy and boosting classifiers that tightly integrate lexical, as well as prosodic, speaker change and syntactic features. The boostingbased classifier alone performs better than all the other classification schemes. When combined with a hidden event language model the improvement is even more pronounced.en_US
dc.description.versionPublisher's Versionen_US
dc.identifier.citationGüz, Ü., Gürkan, H. & Yiğit, S. (2010). Türkçe dil işleme için bürünsel bilginin çıkarılması ve kullanılması. Tübitak, 1-80.en_US
dc.identifier.endpage80
dc.identifier.startpage1
dc.identifier.urihttps://hdl.handle.net/11729/5439
dc.identifier.urihttps://search.trdizin.gov.tr/tr/yayin/detay/609737
dc.indekslendigikaynakTR-Dizinen_US
dc.institutionauthorGüz, Ümiten_US
dc.institutionauthorGürkan, Hakanen_US
dc.institutionauthorYiğit, Sinanen_US
dc.language.isotren_US
dc.peerreviewedYesen_US
dc.publicationstatusPublisheden_US
dc.publisherTübitaken_US
dc.relation.ispartofTübitaken_US
dc.relation.publicationcategoryDiğeren_US
dc.relation.tubitak"info:eu-repo/grantAgreement/TUBITAK/EEEAG/107E182"
dc.rightsinfo:eu-repo/semantics/openAccessen_US
dc.subjectBürünsel bilgien_US
dc.subjectDil işlemeen_US
dc.subjectCümle bölütlemeen_US
dc.subjectKonu bölütlemeen_US
dc.subjectProsodic informationen_US
dc.subjectSpoken language processingen_US
dc.subjectSentence segmentationen_US
dc.subjectTopic segmentationen_US
dc.titleTürkçe dil işleme için bürünsel bilginin çıkarılması ve kullanılmasıen_US
dc.title.alternativeExtracting and using prosodic information for Turkish spoken language processingen_US
dc.typeProjecten_US
dspace.entity.typeProject

Dosyalar

Orijinal paket
Listeleniyor 1 - 1 / 1
Yükleniyor...
Küçük Resim
İsim:
Turkce_dil_isleme_icin_burunsel_bilginin_cikarilmasi_ve_kullanilmasi.pdf
Boyut:
1.6 MB
Biçim:
Adobe Portable Document Format
Açıklama:
Publisher's Version
Lisans paketi
Listeleniyor 1 - 1 / 1
Küçük Resim Yok
İsim:
license.txt
Boyut:
1.44 KB
Biçim:
Item-specific license agreed upon to submission
Açıklama: