Türkçe Haber Bültenlerinin Açık Kaynak Yazılımlar ile
Transkript
Türkçe Haber Bültenlerinin Açık Kaynak Yazılımlar ile
Türkçe Haber Bültenlerinin Açık Kaynak Yazılımlar ile Yazılandırılması Turkish Broadcast News Transcription with Open-Source Software Doğan Can, Murat Saraçlar Elektrik Elektronik Mühendisliği Bölümü Boğaziçi Üniversitesi, 34342, Bebek, İstanbul, Türkiye {dogan.can,murat.saraclar}@boun.edu.tr Özetçe Bu bildiride, 187 saatlik Türkçe haber bültenleri verisi ile Türkçe haber portallarından toplanan 184 milyon kelimelik metin verisi kullanılarak açık kaynak kodlu yazılımlar (HTK, SRILM) vasıtasıyla hazırladığımız Türkçe Geniş Dağarcıklı Sürekli Konuşma Tanıma (GDSKT) sistemi sunulmaktadır. Sistem dahilinde ML, MMI ve MPE kriterlerini eniyilemeye dayalı üç farklı akustik model hazırlanmış, ayırıcı akustik modellemenin Türkçe GDSKT başarımına katkısı incelenmiştir. 50 bin kelime dağarcıklı üçlü (tri-gram) dil modeli ile yapılan tanıma deneylerinde ML modelleri ile %25.8’lik, MMI modelleri ile %24.3’lük, ve son olarak MPE modelleri ile %23.7’lik kelime hata oranlarına ulaşılmıştır. Abstract In this paper, we present our Turkish Large Vocabulary Continuous Speech Recognition (LVCSR) system, which is based on open-source software (HTK, SRILM) and which utilizes 187 hours of Turkish broadcast news data as well as a 184 millionword text corpus collected from various Turkish news portals. Within this system, three different acoustic models optimizing ML, MMI and MPE criteria were developed and the contribution of discriminative acoustic modeling to Turkish LVCSR was investigated. Recognition experiments utilizing a tri-gram language model with 50 K vocabulary give word error rates of 25.8% with ML, 24.3% with MMI and finally 23.7% with MPE. 1. Giriş Otomatik konuşma tanıma sistemleri verilen ses sinyalinden en olası kelime dizilimini bulmak için istatistiksel akustik modeller ve dil modelleri kullanır. Geleneksel akustik model eğitiminde, en iyi olabilirlik kestirimi (Maximum Likelihood Estimation - MLE) vasıtasıyla üretici modeller oluşturulur. Bu yöntem sadece eğitim verisinin olabilirliğini arttırmayı hedeflediğinden, üretici modeller ile belirlenen en olası kelime dizilimi her zaman kelime hata oranını en aza indirgemez. Ayırıcı model eğitimi, yeterli miktarda veri sağlandığında, diğer makine öğrenme uygulamalarında olduğu gibi otomatik konuşma tanıma sistemlerinde de performans artışı sağlar. Ayırıcı modeller, eğitim verisinin iyi temsil edilmesinden çok tanıma performansını doğrudan artırmayı hedefler. Bu modellerin eğitiminde, üretici model eğitiminde kullanılan olumlu örneklerin yanısıra olumsuz örnekler de kullanılarak, modeller arası ayrım arttırılmaya çalışılır. Konuşma tanımada referans metinler olumlu örnekleri oluşturur. Eğitim verisi eldeki modeller vasıtasıyla otomatik olarak tanınır, tanıma örülerindeki hatalı hipotezler de olumsuz örnekler olarak ayırıcı eğitime katılır. Ayırıcı model eğitiminde kullanılan kestirim yöntemleri hem doğru modellerin olasılığını arttırmayı hem de yanlış modellerin olasılığını azaltmayı hedefler. Bu sayede ayırıcı modeller ile daha düşük kelime hata oranlarına ulaşılır. En Yüksek Karşılıklı Bilgi (Maximum Mutual Information - MMI) [1, 2] ve En Düşük Sesbirimi Hatası (Minimum Phone Error - MPE) [3] ayırıcı akustik model eğtiminde en sık kullanılan eniyileme kıstaslarıdır. MMI kıstası referans metinlerin sonsal olasılıklarını mümkün olduğunca arttırmayı, MPE kıstası ise sesbirim seviyesindeki tanıma çıktıları ile referans metinler arasındaki Levenshtein uzaklıklarını en aza indirmeyi hedefler. Genişletilmiş Baum Welch Algoritması [4, 5] akustik modellerin ayırıcı kıstaslar vasıtasıyla eğitiminde en sık kullanılan yöntemdir. Kelime örüleri (lattices) ise ayırıcı istatistiklerin toplanması için oldukça verimli bir yapı sağlar [6]. Son yıllarda, Türkçe Geniş Dağarcıklı Sürekli Konuşma Tanıma (GDSKT) uygulamalarında kullanılmak üzere kelimelere alternatif tanıma birimlerinin geliştirilmesini hedefleyen pek çok çalışma yayınlanmıştır [7, 8, 9, 10, 11]. Türkçe haber bültenlerinin yazılandırılmasını hedefleyen çalışmalar [12, 13] ise, model uyarlama yöntemlerinin ve çeşitli kelime-altı tanıma birimleriyle oluşturulan dil modellerinin başarımını incelemiştir. Bu bildiride açık kaynak kodlu yazılımlar vasıtasıyla hazırladığımız Türkçe GDSKT sistemi sunulmaktadır. Sistem dahilinde ML, MMI ve MPE kriterlerini eniyilemeye dayalı üç farklı akustik model hazırlanmış, ayırıcı akustik modellemenin Türkçe GDSKT’ye katkısı incelenmiştir. Bildirinin bir amacı da Türkçe GDSKT uygulamaları için yol gösterici olmaktır. Bildirinin içeriği şu şekildedir: 2. kısımda akustik modellerin eğitiminde kullanılan yöntemler, 3. kısımda ise kullanılan veritabanının istatistiksel özellikleri anlatılmıştır. Açık kaynak kodlu Türkçe GDSKT sisteminin detayları 4. kısımda verilmiştir. 5. kısım konuşma tanıma deneylerini, 6. kısım ise bildirinin sonuçlarını içermektedir. 2. Konuşma Tanıma Modelleri Akustik model ve dil modeli konuşma tanıma sisteminin en temel iki öğesidir. Simgelemimizde A bir konuşma işareti için akustik öznitelik vektörünü, s kelime dizilimini belirtmektedir. Akustik model M kelime dizilimi verildiğinde öznitelik vektörünün olasılıksal kestirimini (p(A|Ms )), dil modeli (p(s)) ise gerekli dilbilimsel bilgiyi sağlamaktadır. Bu durumda konuşma tanıma problemi Denklem 1 ile özetlenebilir: ŝ = argmax p(A|Ms )p(s) çalışılan ölçütü vermektedir. FM M IE (λ) (1) = R X ≈ R X s log r=1 2.1. Dil Modeli Denklem 2’de matematiksel olarak ifade edilen N ’li dil modeli her kelimenin (wk ) kendinden önceki N − 1 kelimeyi takip k−N+1 etmesi olasılığını (p(wk |wk−1 )) kestirmeye dayanır. p(s) = p(w1 , w2 , ..., wn ) ≈ n Y k−N+1 p(wk |wk−1 ) (2) k=1 Eğer dil modeli eğitiminde kullanılan veritabanı yeterince büyük değilse, olası birçok kelime dizilimine çok küçük olasılıklar atanacaktır. Bu durumu bertaraf etmek için ham modeller yumuşatılarak büyük olasılığa sahip dizilimlerin olasılıkları azaltılır, elde edilen olasılık kütlesi çok küçük olasılıklı dizilimlere dağıtılır. 2.2. Akustik Model Saklı Markov Modelleri (Hidden Markov Models - HMMs) konuşma tanıma için hem basit hem de başarılı akustik modeller oluşturmada kullanılır. Bu modellerin temel varsayımı konuşmanın kaynağının birinci dereceden Markov zincirleri ile modellenebileceğidir. Konuşmanın kaynağı gerçekten HMM’ler tarafından varsayılan yapıda, eğitim verisi de sonsuz miktarda olsaydı, MLE ile eğitilen modeller tarafsız olma ve en küçük sapmaya sahip olma özelliklerini taşıyan en iyi modeller olurdu. Ancak, HMM tabanlı bir akustik modelin parametrelerinin kestirimi esnasında, eğitim verisi ne HMM varsayımına uyan bir kaynaktan gelir ne de sonsuz miktardadır. ML eğitimi esnasında, model parametreleri, akustik veriye karşılık gelebilecek olası kelime dizilerini görmezden gelerek, referans metinlerdeki kelime dizilerinin olabilirliğini arttıracak şekilde ayarlanır. Ayırıcı eğitimde ise, MLE’nin aksine, olası kelime dizileri göz önüne alınarak hatalı hipotezlerin olabilirliği (ya da tanıma hataları) doğrudan azaltılmaya çalışılır [2]. 2.2.1. MLE MLE, R cümleden oluşan referans metinler ({sr }) eldeyken, eğitim verisinin olabilirliğini (pλ (Ar |Msr )) arttırmaya çalışır. Olası diğer kelime dizileri parametre kestirimine katılmaz. Denklem 3, ML eğitimi esnasında arttırılmaya çalışılan ölçütü vermektedir. FM LE (λ) = pλ (Ar |Msr )P (sr ) log P s pλ (Ar |Ms )P (s) r=1 R X log pλ (Ar |Msr ) (3) r=1 2.2.2. MMIE MMIE referans metinlerin sonsal olasılığını doğrudan arttırmaya çalışır. Denklem 4, MMI eğitimi esnasında eniyilenmeye pλ (Ar |Msr )P (sr ) pλ (Ar |ML ) (4) Denklem 4’te verilen ölçütün en iyilenmesi için eş zamanlı olarak paydaki terimin (pλ (Ar |Msr )) arttırılması, paydadaki terimin (pλ (Ar |ML )) ise azaltılması gerekir. Paydaki terimin arttırılması ML eğitiminde yapılmaya çalışılandan farksızdır. Olası kelime dizilimlerini yaklaşık olarak temsil eden tanıma örüsü L ile simgelenmektedir. MMI kıstası referans kelime dizilimleri eldeyken düşük sonsal olasılık veren eğitim sözcelerine daha fazla ağırlık verir. ML eğitiminde ise tüm eğitim sözceleri eşit ağırlıklandırılır. Bu açıdan bakıldığında, Denklem 4’te verilen ölçüt, koşullu en yüksek olabilirlik (Conditional Maximum Likelihood - CML) kriteri olarak da yorumlanabilir. 2.2.3. MPE MPE eğitimi referans metinler (sr ) ile eğitim sözcelerine karşılık gelen olası kelime dizileri arasındaki Levenshtein uzaklıklarını en aza indirmeye çalışır. MPE ölçütü, bir eğitim sözcesine (r) karşılık gelen tüm olası kelime dizilerine (S) ait ham ses doğruluğu oranlarının (D(s, sr )), doğru modelden her kelime dizisine (s) atanan sonsal olasılıkla (pλ (s|Ar )) ağırlıklandırılmış bir ortalamasıdır. Denklem 5, MPE eğitimi esnasında eniyilenmeye çalışılan ölçütü vermektedir. FM P E (λ) = R X log r=1 X pλ (s|Ar )D(s, sr ) (5) s∈S Denklem 5’te: pλ (s|Ar ) = pλ (Ar |Ms )P (s) , pλ (Ar |ML ) D(s, sr ) = sr ’daki sesbirim sayısı−s’deki hatalı sesbirim sayısı. 3. Veritabanları Boğaziçi Üniversitesi’nde, 2006 yılından beri Türkçe haber bültenlerinden (Broadcast News - BN) oluşan bir veritabanı oluşturmaktayız. Her gün dört televizyon, bir de radyo kanalından kaydedilen haber programları veritabanına ekleniyor. Bu kayıtlar içerik ve ses kalitesi kontrolünün ardından, bölütlenip, yazılandırmaya gönderiliyor. Konu, konuşmacı ve arkaplan bilgilerini de içeren yazılandırmaların, Hub4 BN yazılandırma yönergelerinden uyarlanan kurallara uyup uymadığı denetlenip, gerektiğinde hataları düzeltiliyor. Bu çalışmada veritabanımızdan kabaca 187 saatlik akustik veri (184 saat eğitim + 3 saat sınama) kullanıldı. Tablo 1’de kullanılan verinin akustik koşullara göre dağılımı görülüyor. Tablodaki akustik koşullar Hub4 sınıflandırmasına göre verilmiştir: (f0) temiz konuşma, (f1) doğal konuşma, (f2) telefon konuşması, (f3) arkaplan müziği, (f4) kötü akustik koşullar ve (f5) diğerleri. Kullanılan akustik verinin referans metinleri kabaca 1.3 milyon kelime içermektedir. Bunun yanısıra genel bir dil modeli oluşturmak icin haber portallarından toplamda 184 milyon Tablo 1: Çeşitli koşullardaki veri miktarı (saat) Kısım Eğitim Sınama f0 65.7 0.9 f1 15.5 0.1 f2 8.3 0.1 f3 19.4 0.7 f4 71.9 1.3 fx 3.2 0.04 Toplam 184 3.1 kelime içeren bir metin derlemi toplanmıştır [14]. Bu derlem, metin normalizasyonunun yanısıra biçimbilimsel bir çözümleyici [14] ve buluşsal yöntemler kullanılarak süzülmüştür. Tablo 2’de metin derleminin içerdiği kelime, işaret (kelimeler ve noktalama işaretleri) ve çeşit (ayrık işaretler) sayıları görülmektedir. Metin normalizasyonu ve süzmenin ardından, toplamda kelime sayısı 182.3 milyona, çesit sayısı da 1.8 milyona düşmektedir. Tablo 2: Derlemin içerdiği kelime, işaret, çeşit sayıları ile biçimbilimsel çözümleyiciden başarıyla geçen kelime oranları. Kelime 184M İşaret (Çözümlenen %) 212M (96.7%) Çeşit (Çözümlenen %) 2.2M (52.2%) 4. HTK/SRILM Tabanlı Türkçe GDSKT Sistemi Türkçe GDSKT Sistemi açık kaynak kodlu HTK (Hidden Markov Toolkit) [15] yazılımı kullanılarak oluşturuldu. Temel akustik modeller önceki kısımda detayları anlatilan 184 saatlik eğitim verisi kullanılarak MLE ile eğitildi. SRILM [16] yazılımı kullanılarak 50 bin kelime dağarcıklı üçlü (trigram) bir dil modeli hazırlandı. Bahsedilen sistemin sınama verisi üzerindeki başarımı ölçüldü. Bu aşamaların ardından temel sistem tüm eğitim verisinin otomatik olarak tanınması için kullanıldı. Her eğitim sözcesine karşılık bir tanıma örüsü çıkarıldı. Bu örüler zayıf bir dil modeli ile yeniden ağırlıklandırılarak, farklı hipotezler arasındaki karışıklık arttırıldı. Yeniden ağırlıklandırılan örüler vasıtasıyla, MMI ve MPE kıstaslarını eniyileyen ayırıcı akustik modeller oluşturuldu. Bu modellerin sınama verisi üzerindeki başarımı ölçülerek, en iyi model parametreleri belirlendi. 4.1. Temel Akustik Model Eğitimi 1. İlk olarak 10 milisaniye ile ötelenen 25 milisaniyelik her ses çerçevesi için 12 MFCC ve 1 enerji özniteliği, daha sonra bunların birinci ve ikinci zaman türevleri hesaplandı. Bu öznitelik vektörleri kullanılarak, 30 sesbirime (29 harf ve 1 sessizlik) ait her durumda tek Gauss bileşeni içeren akustik modeller MLE ile eğitildi. 2. Bağlama dayalı model eğitimi için ses üçlüleri (triphones) Türkçe’nin ses yapısına uyarlanmış karar ağaçları yardımıyla kümelendi. Öncelikle her ses üçlüsü ortadaki sesin modeliyle temsil edildi. Daha sonra üçlü modeller MLE ile tekrar eğitildi. Karar ağaçları ve eğitim esnasında toplanan istatistikler kullanılarak yapılan kümeleme sonucunda toplamda 13243 HMM durumu içeren 27871 üçlü sesbirim modeli elde edildi. 3. Bu aşamada her durumdaki Gauss bileşenlerinin sayısı 1 → 2 → 3 → 4 → 6 → 8 → 11 (sessizlik durum- larında 1 → 2 → 4 → 7 → 10 → 15 → 21) bileşen şeklinde arttırıldı. Her arttırımın ardından akustik modeller MLE ile tekrar eğitildi. 4.2. Dil Modelinin Oluşturulması 1. Öncelikle 184 milyon kelime içeren Türkçe Genel Veri Tabanı (GVT) ile 1.3 milyon kelime içeren Türkçe Haber Veri Tabanı (HVT) birleştirildi ve bu metinde en sık geçen 50 bin kelime tanıma dağarcığı olarak seçildi. 2. Tanıma dağarcığındaki kelimeler kullanılarak, GVT’den veri budama eşiği 5 × 10−8 olan üçlü bir dil modeli çıkarıldı. Yine tanıma dağarcığındaki kelimeler kullanılarak, HVT’den budanmamış üçlü bir dil modeli çıkarıldı. Iki model de SRILM araçları ile Kneser-Ney yumuşatıcı model yöntemiyle oluşturuldu. 3. Dil modeli GVT’den ve HVT’den çıkarılan dil modellerinin SRILM araçları ile eşit ağırlıklı doğrusal aradeğerlenmesiyle oluşturuldu. HTK sisteminin tüm sınamalarında ve ayırıcı akustik modellerin eğitiminde 1343711 üçlü, 3515826 ikili, 50002 tekli içeren bu dil modeli kullanıldı. 4.3. Ayırıcı Akustik Modellerin Eğitimi 1. Temel akustik modeller ve önceki bölümde anlatılan dil modeli vasıtasıyla tüm eğitim verisi otomatik olarak tanındı ve her sözce için en olası tanıma hipotezlerini içeren kelime örüleri oluşturuldu. 2. Daha önceden belirlenen kelime dağarcığına HVT’de geçip de dağarcıkta bulunmayan kelimeler eklenerek yeni bir dağarcık oluşturuldu. Bu dağarcık kullanılarak önceki bölümde anlatilan yöntemle 105088 unigram içeren oldukça zayıf bir dil modeli oluşturuldu. Kelime örüleri bu zayıf model ile yeniden ağırlıklandırılarak farklı hipotezler arasındaki karmaşıklık arttırıldı. Böylece ayırıcı eğitim öncesinde farklı hipotezler arasındaki olabilirlik farkı azaltılmış oldu. 3. Yeniden ağırlıklandırılmış kelime örüleri kullanılarak temel akustik modeller iki farklı ayrım kıstasını (MMI ve MPE) eniyileyecek şekilde güncellendi. 5. Konuşma Tanıma Deneyleri Oluşturulan üçlü dil modeli kullanılarak, temel ve ayırıcı akustik modellerin sınama verisi üzerindeki başarımı ölçüldü. Sınama verisi üzerindeki sistem başarımının (kelime hata oranı - KHO) tanıma hızına (gerçek zaman çarpanı - GZÇ) karşılık değişimi Şekil 1’de görülmektedir. 6. Sonuçlar Bu bildiride Türkçe için geniş dağarcıklı bir konuşma tanıma sistemi tasarlanmıştır. 50 bin kelimelik bir sözlük ve üçlü dil modeli ile farklı akustik modeller kullanılarak yapılan konuşma tanıma deneyleri sonucunda, kelime hata oranları ML eğitiminde %25.8 (9.4xGZ), MMI eğitiminde %24.3 (9.9xGZ), MPE eğitiminde %23.7 (8.0xGZ) değerine kadar düşmüştür. Şekil 1: Farklı akustik modeller ile yapılan tanıma deneylerinde sistem başarımının tanıma hızına göre değişimi 55 ML MMI MPE 50 45 KHO 40 35 30 25 20 0 1 2 3 4 5 6 7 8 9 10 GZÇ 7. Teşekkür Bu araştırma kısmen 105E102 numaralı TÜBİTAK Projesi ve 05HA202 numaralı Boğaziçi Üniversitesi Bilimsel Araştırma Projesi tarafından desteklenmiştir. Doğan Can TÜBİTAK BİDEB tarafından desteklenmiştir. 8. Kaynakça [1] L. R. Bahl, P. F. Brown, P. V. deSouza, and R. L. Mercer, “Maximum mutual information estimation of hidden markov model parameters for speech recognition,” in Proc. ICASSP, 1986, pp. 49–52. [2] D. Povey and P. C. Woodland, “Large-scale MMIE training for conversational telephone speech recognition,” in Proc. NIST Speech Transcription Workshop, College Park, MD, 2000. [3] D. Povey and P. C. Woodland, “Minimum phone error and i-smoothing for improved discriminative training,” in Proc. ICASSP, Orlando, FL, 2002. [4] P. S. Gopalakrishnan, D. Kanevsky, A. Nadas, and D. Nahamoo, “An inequality for rational functions with applications to some statistical estimation problems,” IEEE Transactions on Information Theory, vol. 37, no. 1, pp. 107–113, 1991. [5] Y. Normandin, Hidden Markov models, maximum mutual information estimation, and the speech recognition problem, Ph.D. thesis, Department of Electrical Engineering, McGill University, Montreal, 1991. [6] V. Valtchev, J. J. Odell, P. C. Woodland, and S. J. Young, “MMIE training of large vocabulary recognition systems,” Speech Communication, vol. 22, no. 4, pp. 303–314, 1997. [7] K. Çarkı, P. Geutner, and T. Schultz, “Turkish LVCSR: Towards better speech recognition for agglutinative languages,” in Proc. IEEE ICASSP, 2000. [8] E. Mengüşoğlu and O. Deroo, “Turkish LVCSR: Database preparation and language modeling for an agglutinative language,” in Proc. IEEE ICASSP, 2001. [9] K. Hacıoğlu, B. Pellom, T. Çiloğlu, O. Öztürk, M. Kurimo, and M. Creutz, “Word splitting for Turkish,” in Proc. IEEE SIU, 2003. [10] T. Çiloğlu, M. Çömez, and S. Şahin, “Language modelling for Turkish as an agglutinative language,” in Proc. IEEE SIU, Kuşadası, Turkey, 2004, pp. 461–462. [11] H. Erdoğan, O. Büyük, and K. Oflazer, “Incorporating language constraints in sub-word based speech recognition,” in Proc. ASRU, San Juan, Puerto Rico, 2005. [12] E. Arısoy and M. Saraçlar, “Speech recognition for Turkish broadcast news,” in Proc. IEEE SIU, 2007. [13] T. Aksungurlu, S. Parlak, H. Sak, and M. Saraçlar, “Comparison of language modeling approaches for Turkish broadcast news,” in Proc. IEEE SIU, 2008. [14] H. Sak, T. Güngör, and M. Saraçlar, “Turkish language resources: Morphological parser, morphological disambiguator and web corpus,” in Proc. 6th International Conference on Natural Language Processing, GoTAL, 2008. [15] S. Young, G. Evermann, M. Gales, T. Hain, D. Kershaw, X. Liu, G. Moore, J. Odell, D. Ollason, D. Povey, V. Valtchev, and P. Woodland, “The HTK book (for HTK version 3.4), Cambridge University Engineering Department,” 2006. [16] A. Stolcke, “SRILM – An extensible language modeling toolkit,” in Proc. ICSLP, Denver, 2002, vol. 2, pp. 901– 904.