• Türkçe
    • English
  • English 
    • Türkçe
    • English
  • Login
View Item 
  •   DSpace@Işık
  • 1- Fakülteler | Faculties
  • Mühendislik Fakültesi / Faculty of Engineering
  • Elektrik-Elektronik Mühendisliği Bölümü / Department of Electrical-Electronics Engineering
  • MF - Diğer Koleksiyonu | Elektrik-Elektronik Mühendisliği Bölümü / Department of Electrical-Electronics Engineering
  • View Item
  •   DSpace@Işık
  • 1- Fakülteler | Faculties
  • Mühendislik Fakültesi / Faculty of Engineering
  • Elektrik-Elektronik Mühendisliği Bölümü / Department of Electrical-Electronics Engineering
  • MF - Diğer Koleksiyonu | Elektrik-Elektronik Mühendisliği Bölümü / Department of Electrical-Electronics Engineering
  • View Item
JavaScript is disabled for your browser. Some features of this site may not work without it.

Türkçe dil işleme için bürünsel bilginin çıkarılması ve kullanılması

Thumbnail

View/Open

Publisher's Version (1.603Mb)

Date

2010-02-01

Author

Güz, Ümit
Gürkan, Hakan
Yiğit, Sinan

Metadata

Show full item record

Citation

Güz, Ü., Gürkan, H. & Yiğit, S. (2010). Türkçe dil işleme için bürünsel bilginin çıkarılması ve kullanılması. Tübitak, 1-80.

Abstract

Bu projede genel olarak, konuşulan dili (Türkçe) anlamada, konuşulan dilin bürünsel/ezgisel (prosodic) ve sözcüksel (lexical) özelliklerinin ortaya çıkarılması ve bu özelliklerin konuşulan dilin bilgisayarla otomatik olarak işlenmesinde kullanılması amaçlanmaktadır. Bu daha özel olarak, otomatik konuşma tanıyıcısının (ASR) çıkışına ilişkin cümle bölütleme işlevini içermektedir. Otomatik konuşma tanıma sistemlerinden çıkan yazılı metnin özellikle noktalama (punctuation), büyük küçük harf farklılıkları ve vurgu, tonlama, perde, durak gibi konuşmaya ilişkin temel bazı parametrelerden yoksun olması veya bu özellikleri kaybetmiş olması, özellikle anlamda farklılıklara yol açmaktadır. Bu çıktının zenginleştirilmesi (enrichment) başka bir deyiş ile bu özelliklerin tekrar geriye kazandırılması, bu metinlerin hem insanlar tarafından okunmasını ve doğru algılanmasını hem de makineler tarafından işlenmesini kolaylaştıracaktır. Bu projedeki amaç, bu zenginleştirme ve geri kazandırım işleminin dilin bürünsel özelliklerinden yararlanarak yapılmasıdır.
 
The text which the output of the Automatic Speech Recognition (ASR) system lacks especially punctuation, differences in the capitalization and the parameters related to the speaking such as stress, tone, pitch, pause cause some differences in the meaning. Enrichment of this output or another words to gain this features back to the output will provide either reading and understanding of the humans or processing of the machines easily. The aim of this project is doing this enrichment and the process of gaining back by using the prosodic features of the spoken language. In this proposal, we would like to examine the extraction and use of prosodic information in addition to lexical features for spoken language processing of Turkish. Specifically, we would like to research the use of prosodic features for sentence segmentation of Turkish speech. Another outcome of the project is to obtain a database of prosodic features at the word and morpheme level, which can be used for other purposes such as morphological disambiguation or word sense disambiguation. Turkish is an agglutinative language. Thus, the text should be analyzed morphologically in order to determine the root forms and the suffixes of the words before further analysis. In the framework of this project, we also would like to examine the interaction of prosodic features with morphological information. The role of sentence segmentation is to detect sentence boundaries in the stream of words provided by the ASR module for further downstream processing. This is helpful for various language processing tasks, such as parsing, machine translation and question answering. We formulate sentence segmentation as a binary classification task. For each position between two consecutive words the system must decide if the position marks a boundary between two sentences or if the two neighboring words belong to the same sentence. The sentence segmentation process is established by combining the Hidden Event Language Models (HELMs) with discriminative classification methods. The HELM takes into account the sequence of words and the output discriminative classification methods such as decision tree that is based on prosodic features such as pause durations. The new approach combines the HELMs for exploiting lexical information, with maximum entropy and boosting classifiers that tightly integrate lexical, as well as prosodic, speaker change and syntactic features. The boostingbased classifier alone performs better than all the other classification schemes. When combined with a hidden event language model the improvement is even more pronounced.
 

Source

Tübitak

URI

https://hdl.handle.net/11729/5439
https://search.trdizin.gov.tr/tr/yayin/detay/609737

Collections

  • MF - Diğer Koleksiyonu | Elektrik-Elektronik Mühendisliği Bölümü / Department of Electrical-Electronics Engineering [2]
  • TR-Dizin İndeksli Diğer Yayınlar Koleksiyonu [34]



DSpace software copyright © 2002-2015  DuraSpace
Contact Us | Send Feedback
Theme by 
@mire NV
 

 




| Policy | Guide | Contact |

DSpace@Işık

by OpenAIRE
Advanced Search

sherpa/romeo

Browse

All of DSpaceCommunities & CollectionsBy Issue DateAuthorsTitlesSubjectsTypeLanguageDepartmentCategoryPublisherAccess TypeIşık AuthorCitationThis CollectionBy Issue DateAuthorsTitlesSubjectsTypeLanguageDepartmentCategoryPublisherAccess TypeIşık AuthorCitation

My Account

LoginRegister

Statistics

View Google Analytics Statistics

DSpace software copyright © 2002-2015  DuraSpace
Contact Us | Send Feedback
Theme by 
@mire NV
 

 


|| Policy || Guide || Library || Işık University || OAI-PMH ||

Işık University Library, Şile, İstanbul, Turkey
If you find any errors in content please report us

Creative Commons License
Işık University Institutional Repository is licensed under a Creative Commons Attribution-NonCommercial-NoDerivs 4.0 Unported License..

DSpace@Işık:


DSpace 6.2

tarafından İdeal DSpace hizmetleri çerçevesinde özelleştirilerek kurulmuştur.