Basit öğe kaydını göster

dc.contributor.advisorGüz, Ümiten_US
dc.contributor.authorTaylan, Salih Sinanen_US
dc.contributor.otherIşık Üniversitesi, Fen Bilimleri Enstitüsü, Elektronik Mühendisliği Yüksek Lisans Programıen_US
dc.date.accessioned2017-05-15T08:26:22Z
dc.date.available2017-05-15T08:26:22Z
dc.date.issued2017-04-14
dc.identifier.citationTaylan, S. S. (2017). Enhancement of the coded speech using filtering. İstanbul: Işık Üniversitesi, Fen Bilimleri Enstitüsü.en_US
dc.identifier.urihttps://hdl.handle.net/11729/1254
dc.descriptionText in English ; Abstract: English and Turkishen_US
dc.descriptionIncludes bibliographical references (leaves 71-77)en_US
dc.descriptionxi, 77 leavesen_US
dc.description.abstractThe processing and storage of speech signals are widely implemented in modern communication systems. Decreasing the amount of information for modeling the reconstruction of speech signal enhances the transmission and storage capacity of the system. It is important to compress speech without losing its important properties during transmission or reconstruction independently from the speaker and speech signals itself. However, some losses inevitably occur in every compression process. Increasing the compression ratio results in increased losses. Speech enhancement algorithms may be used to enhance strongly compressed speech signals for better intelligibility and quality. The purpose of this study is to enhance speech with healing algorithms that compress speech signals while reducing background noise. The SYMPES [1][2][4] algorithm used in this study compresses data resulting in lesser loss than other known compression algorithms. As a result of the compression, noise occurs in the background. The type of the noise cannot be classified. Attempts have been made to reduce these background noises (distortions) by using di_erent methods of speech enhancement algorithms. More than ten speech enhancement algorithms have been investigated and implemented. Two algorithms with the best-enhanced sound output were determined and compared. One of them, Spectral Subtraction Algorithm, was applied via a geometric approach, which was investigated in 2008 by Yang Lu and Philipos C. Loizou [3].In this algorithm, a noise spectrum is subtracted from the noisy speech signal and then a clean signal spectrum is obtained. Moreover, in the absence of the signal, the noise spectrum can be updated and predicted. This approach expressed that the noise spectrum is not signi_cantly di_erent between update periods and is a noisy cum stationary or slowly changing process. Forward and inverse Fourier transforms are used in the algorithm; hence, the algorithm is quite simple. However, the simple subtraction algorithm is a costly operation. Subtraction must be done with extreme caution to avoid any speech distortion. If too many subtractions are made, some speech information may be removed from the center; if too little is subtracted, it can be observed that a clear majority of the intervening noises are still present. The other speech enhancement method is a statistical model based algorithm. This statistical speech enhancement method involves predicting the statistic of a clean and noisy signal for a sample. In other words, if a speech signal is distorted with a statistically independent noise, the marginal probability distributions of the clean speech and noise signal must be clearly known. In this model-based statistical method, signal and noise statistics are estimated primarily from the speech and noise content. An optimal solution is obtained using statistical models and it is then used in conjunction with distortion measures to solve the existing speech enhancement problem. In this approach, di_erent techniques have been applied to parameterize speech signals such as autoregressive moving average (ARMA), autoregressive (AR), or moving average (MA). Three prediction rules known as the maximum probability (ML), maximum posterior (MAP), and minimum mean square error (MMSE) are used in this approach and have many desirable features to estimate the parameters of the speech signal. ML is used for the maintenance of non-random parameters. The estimation methods MAP and MMSE are used for known parameters of the previously known density function, which can be examined in advance as a random variable. For the speech signal, this model uses the MAP estimation approach, assuming a time-varying AR model for speech enhancement in which both the model and signal are estimated from the noisy signal. However, since the waveform of the speech signal is distorted as a result of the signal improvement, the SNR results are not found very healthy. Therefore, the results are evaluated by the Mean Opinion Score (MOS) test. A subjective test based on MOS is also carried out on some selected utterances. The results of the subjective test are also compared with those of the objective test to determine the most appropriate objective measure for the evaluation of speech enhancement algorithms. The strengths and weaknesses of the various algorithms are analyzed and compared. Quality has been shown in detailed graphs that can be measured and smoothed using the MOS, which de_nes the quality of speech by a listener on a scale of 1 to 5.en_US
dc.description.abstractBu çalışma konuşma işaretini sıkıştırıp, arka plan da yer alan gürültünün indirgenmesini sağlayan iyileştirme algoritmaları sayesinde arka plandaki gürültü temizlenmesi hedeflenmiştir. Kullanılan sıkıştırma algoritması SYMPES’ in temel amacı ifade edilmek istenirse; konuşma işaretlerinin işlenmesi, depolanması modern iletişim sistemlerinde oldukça önem taşımaktadır. Özellikle konuşma işaretlerinin modellenmesi ya da yeniden oluşturulması sonu cunda, gerekli bilgi miktarının azaltılması, sayısal konuşma işaretlerinin depolanmasını ve iletilmesini sağlayan sistemlerin kapasitesi ses verisi sıkıştırması sayesinde belirgin bir şekilde artmaktadır. Ancak bundan dolayı bir takım veri kaybı olmakta ya da arka plan da gürültü oluşmaktadır. Bu sıkıştırma algoritmalarında temel amaç; konuşma iletiminin ya da konuşmanın yeniden oluşturulmasında konuşma işaretinin kendisinden ve konuşmacıdan bağımsız ve bilginin önemli özelliklerini kaybetmeden yüksek sıkıştırma oranları ile oluşturmasıdır. Bu çalışma da kullanılan SYMPES algoritması da diğer bilinen sıkıştırma algoritmalarına oranla daha az veri kaybı ile sıkıştırma yapmaktadır. Yine de sıkıştırma sonucunda, arka planda birtakım gürültüler olmaktadır. Bu gürültü diğer bir adı ile bozulmalar ses iyileştirme algoritmalarının farklı metotları kullanarak minimize edilmeye çalışılmıştır. Araştırılan bu ses iyileştirme algoritmalarından gürültü kaynağının belli olmadığında arka plan gürültüsü için en sağlıklı sonuçları veren iki algoritma önerilmiş: Spektral Çıkarma Algoritması ve İstatistiksel Tabanlı Model metodudur. Bu metotlar arasındaki karşılaştırmalar yapılmıştır. Spektral Çıkarma Algoritması’nı Özetlemek istersek; ses sinyaline karşılık, ek gürültü düşünüldüğünde, gürültülü ses spektrumundan bir gürültü spektrumu çıkartılarak, temiz bir sinyal spektrumun bir tahminin elde edilir. Gürültü spectrumu yokluğunda sinyal güncellenebilir ve tahmin edilebilmektedir. Bu yaklaşım, gürültü spektrumunun güncelleme dönemleri arasında önemli ölçüde farklı olmadığını ve gürültülü durağan veya yavaş yavaş değişen bir süreç olduğunu özetler niteliktedir. İleri ve ters Fourier dönüşümleri algoritmada kullanılır. Bu nedenle algoritma oldukça basittir. Basit çıkarma algoritması maliyetli bir işlem olduğudan dolayı çıkarma işlemi, herhangi bir konuşma bozulmasını önlemek için çok dikkatli yapılmalıdır. Çok fazla çıkarma yapılırsa, bazı konuşma bilgileri ortadan kaldırılabilir. Ancak çok az çıkarılırsa, araya giren gürültünün büyük çoğunluğu kalabildiği gözlemlenmiştir. Buna ek olarak, bazı durumlarda spektral çıkarmadan kaynaklanan konuşma bozukluklarının çoğu kaldırılmıştır. Diğer bir yaklaşım ise istatistiksel model tabanlı algoritmalardır. Bu istatistiksel konuşma geliştirme metodu, temiz ve gürültülü sinyalin ortak istatistiklerini net bir şekilde bilinmesini ve konuşma sinyalleri için algısal bir bozulma önlemi gerektiren belirli bir örnek fonksiyonu için gürültülü bir sinyalin temiz bir sinyalinin tahmin edilmesi yaklaşımıdır. Diğer bir ifadeyle, eğer konuşma sinyalleri istatistiksel olarak bağımsız bir gürültüyle bozulursa, temiz konuşma ve gürültü sinyalinin marjinal olasılık dağılımları açıkça bilinmesi gereklidir. Bu model tabanlı istatiksel metotta, sinyal ve gürültü istatistikleri öncelikle konuşma ve gürültü içeriğinden tahmin edilir. Optimal çözüm, istatistiksel modeller kullanılarak elde edilir ve daha sonra mevcut konuşma geliştirme problemini çözmek için bozulma önlemleri ile birlikte kullanılır. Bu yaklaşımda, otoregresif hareketli ortalama (ARMA), otoregresif (AR) veya hareketli ortalama (MA) gibi konuşma sinyallerini parametreleştirmek için farklı teknikler bu yaklaşımda uygulanmıştır. Ayrıca, maksimum olasılık (ML), maksimum posteriori (MAP) ve minimum ortalama karesel hata (MMSE) olarak bilinen üç tahmin kuralının, konuşma sinyalinin parametrelerini tahmin etmek için birçok istenen özelliklere sahip olduğu için bu yaklaşımda kullanılmıştır. ML rasgele olmayan parametrelerin bakımı için kullanılmıştır. Tahmin yöntemleri olan MAP ve MMSE, önceden rastgele değişken olarak incelenebilen önceden bilinen yoğunluk fonksiyonunun bilinen parametreleri için kullanılmıştır. Konuşma sinyali için, bu model hem gürültülü sinyalden hem modelin hem de sinyalin tahmin edildiği konuşma geliştirme için zamanla değişen bir AR modeli varsayarak, MAP tahmini yaklaşımı kullanılmıştır. Bununla birlikte, sinyal gelişiminin sonucu olarak ses sinyalinin dalga biçimi bozulduğundan, SNR sonuçları çok sağlıklı bulunmadığından, elde edilen sonuçlar Mean Opinion Score (MOS) testi ile değerlendirilir. Bazı seçilmiş konuşmalar üzerinde MOS temelli öznel bir test gerçekleştirilir. Konuşma geliştirme algoritmalarının değerlendirilmesi için en uygun objektif önlemi belirlemek için öznel testin sonuçları da objektif test ile karşılaştırıldı. Çeşitli algoritmaların güçlü ve zayıf yönleri analiz edilir ve karşılaştırılır. Kalite, bir dinleyicinin konuşmanın kalitesini 1’den 5’e çıkardığı ‘Mean Opinion Score’ testi (MOS) kullanılarak ölçülebilir ve gürültünün temizlendiğine dair ayrıntılar grafiklerle gösterilmektedir.en_US
dc.description.tableofcontentsIntroductionen_US
dc.description.tableofcontentsSpeech Enhancementen_US
dc.description.tableofcontentsLiterature Review: Speech Enhancementen_US
dc.description.tableofcontentsAim and Outline of Thesisen_US
dc.description.tableofcontentsAim of Thesisen_US
dc.description.tableofcontentsOutline of Thesisen_US
dc.description.tableofcontentsSpeech Compression Modelingen_US
dc.description.tableofcontentsThe Method of SYMPESen_US
dc.description.tableofcontentsUnderstanding the Enemy: Noiseen_US
dc.description.tableofcontentsNoise Sourcesen_US
dc.description.tableofcontentsNoisy Signal and Speech Levels in Various Environmentsen_US
dc.description.tableofcontentsClassification of Speech Enhancement Algorithmsen_US
dc.description.tableofcontentsSingle Channel Enhancement Systemsen_US
dc.description.tableofcontentsStatistical Model Based Algorithmsen_US
dc.description.tableofcontentsEnhancement Based on Short-Time Spectral Amplitude Estimationen_US
dc.description.tableofcontentsSpeech Enhancement According to Perception Criteriaen_US
dc.description.tableofcontentsSpectral Subtraction Algorithmsen_US
dc.description.tableofcontentsBasic Principles of Spectral Subtractionen_US
dc.description.tableofcontentsGeometric View of Spectral Subtractionen_US
dc.description.tableofcontentsUpper Limits on the Difference Between the Phases of the Noisy and Clean Signalsen_US
dc.description.tableofcontentsAlternate Spectral-Subtractive Rules and Theoretical Limitsen_US
dc.description.tableofcontentsNonlinear Spectral Subtractionen_US
dc.description.tableofcontentsMinimum Mean Square Error Spectral Subtraction Algorithmen_US
dc.description.tableofcontentsSpectral Subtraction Using Adaptive Gain Averagingen_US
dc.description.tableofcontentsStatistical Model Based Methodsen_US
dc.description.tableofcontentsMaximum-Likelihood Estimatorsen_US
dc.description.tableofcontentsBayesian Estimatorsen_US
dc.description.tableofcontentsMMSE Estimatoren_US
dc.description.tableofcontentsMMSE Magnitude Estimatoren_US
dc.description.tableofcontentsEstimating the a Priori SNRen_US
dc.description.tableofcontentsMaximum-Likelihood Methoden_US
dc.description.tableofcontentsImplementation and Evaluation of the MMSE Estimatoren_US
dc.description.tableofcontentsExperimental Worken_US
dc.description.tableofcontentsSubjective Listening Testsen_US
dc.description.tableofcontentsMean Opinion Score Testen_US
dc.description.tableofcontentsComparison of Algorithms using MOSen_US
dc.description.tableofcontentsConclusionen_US
dc.language.isoengen_US
dc.publisherIşık Üniversitesien_US
dc.rightsinfo:eu-repo/semantics/openAccessen_US
dc.rightsAttribution-NonCommercial-NoDerivs 3.0 United States*
dc.rights.urihttp://creativecommons.org/licenses/by-nc-nd/3.0/us/*
dc.subjectİstatiksel modelen_US
dc.subjectSes iyileştirmeen_US
dc.subjectSpektral çıkarmaen_US
dc.subjectSpectral subtractionen_US
dc.subjectSpeech enhancementen_US
dc.subjectStatistical model baseden_US
dc.subject.lccTK7882.S65 T39 2017
dc.subject.lcshSpeech -- Research.en_US
dc.subject.lcshSpeech disorders.en_US
dc.subject.lcshVoice disorders.en_US
dc.subject.lcshSpeech processing systems.en_US
dc.subject.lcshKalman filtering.en_US
dc.subject.lcshStochastic processes.en_US
dc.subject.lcshSignal processing.en_US
dc.subject.lcshSpeech, Intelligibility of.en_US
dc.subject.lcshNoise.en_US
dc.subject.lcshSpeech perception -- Psychological aspect.en_US
dc.titleEnhancement of the coded speech using filteringen_US
dc.title.alternativeFiltreleme kullanarak kodlanmış sesin iyileştirilmesien_US
dc.typemasterThesisen_US
dc.contributor.departmentIşık Üniversitesi, Fen Bilimleri Enstitüsü, Elektronik Mühendisliği Yüksek Lisans Programıen_US
dc.relation.publicationcategoryTezen_US
dc.contributor.institutionauthorTaylan, Salih Sinanen_US


Bu öğenin dosyaları:

Thumbnail

Bu öğe aşağıdaki koleksiyon(lar)da görünmektedir.

Basit öğe kaydını göster

info:eu-repo/semantics/openAccess
Aksi belirtilmediği sürece bu öğenin lisansı: info:eu-repo/semantics/openAccess