Türkçe Haber Bültenlerinin Açık Kaynak Yazılımlar ile

Transkript

Türkçe Haber Bültenlerinin Açık Kaynak Yazılımlar ile Yazılandırılması
Turkish Broadcast News Transcription with Open-Source Software
Doğan Can, Murat Saraçlar
Elektrik Elektronik Mühendisliği Bölümü
Boğaziçi Üniversitesi, 34342, Bebek, İstanbul, Türkiye
{dogan.can,murat.saraclar}@boun.edu.tr
Özetçe
Bu bildiride, 187 saatlik Türkçe haber bültenleri verisi ile
Türkçe haber portallarından toplanan 184 milyon kelimelik
metin verisi kullanılarak açık kaynak kodlu yazılımlar (HTK,
SRILM) vasıtasıyla hazırladığımız Türkçe Geniş Dağarcıklı
Sürekli Konuşma Tanıma (GDSKT) sistemi sunulmaktadır. Sistem dahilinde ML, MMI ve MPE kriterlerini eniyilemeye dayalı
üç farklı akustik model hazırlanmış, ayırıcı akustik modellemenin Türkçe GDSKT başarımına katkısı incelenmiştir. 50 bin
kelime dağarcıklı üçlü (tri-gram) dil modeli ile yapılan tanıma
deneylerinde ML modelleri ile %25.8’lik, MMI modelleri ile
%24.3’lük, ve son olarak MPE modelleri ile %23.7’lik kelime
hata oranlarına ulaşılmıştır.
Abstract
In this paper, we present our Turkish Large Vocabulary Continuous Speech Recognition (LVCSR) system, which is based
on open-source software (HTK, SRILM) and which utilizes 187
hours of Turkish broadcast news data as well as a 184 millionword text corpus collected from various Turkish news portals.
Within this system, three different acoustic models optimizing
ML, MMI and MPE criteria were developed and the contribution of discriminative acoustic modeling to Turkish LVCSR
was investigated. Recognition experiments utilizing a tri-gram
language model with 50 K vocabulary give word error rates of
25.8% with ML, 24.3% with MMI and finally 23.7% with MPE.
1. Giriş
Otomatik konuşma tanıma sistemleri verilen ses sinyalinden en
olası kelime dizilimini bulmak için istatistiksel akustik modeller ve dil modelleri kullanır. Geleneksel akustik model eğitiminde, en iyi olabilirlik kestirimi (Maximum Likelihood Estimation - MLE) vasıtasıyla üretici modeller oluşturulur. Bu
yöntem sadece eğitim verisinin olabilirliğini arttırmayı hedeflediğinden, üretici modeller ile belirlenen en olası kelime dizilimi
her zaman kelime hata oranını en aza indirgemez.
Ayırıcı model eğitimi, yeterli miktarda veri sağlandığında,
diğer makine öğrenme uygulamalarında olduğu gibi otomatik
konuşma tanıma sistemlerinde de performans artışı sağlar.
Ayırıcı modeller, eğitim verisinin iyi temsil edilmesinden çok
tanıma performansını doğrudan artırmayı hedefler. Bu modellerin eğitiminde, üretici model eğitiminde kullanılan olumlu
örneklerin yanısıra olumsuz örnekler de kullanılarak, modeller
arası ayrım arttırılmaya çalışılır. Konuşma tanımada referans
metinler olumlu örnekleri oluşturur. Eğitim verisi eldeki modeller vasıtasıyla otomatik olarak tanınır, tanıma örülerindeki
hatalı hipotezler de olumsuz örnekler olarak ayırıcı eğitime
katılır. Ayırıcı model eğitiminde kullanılan kestirim yöntemleri hem doğru modellerin olasılığını arttırmayı hem de yanlış
modellerin olasılığını azaltmayı hedefler. Bu sayede ayırıcı modeller ile daha düşük kelime hata oranlarına ulaşılır.
En Yüksek Karşılıklı Bilgi (Maximum Mutual Information
- MMI) [1, 2] ve En Düşük Sesbirimi Hatası (Minimum Phone
Error - MPE) [3] ayırıcı akustik model eğtiminde en sık kullanılan eniyileme kıstaslarıdır. MMI kıstası referans metinlerin
sonsal olasılıklarını mümkün olduğunca arttırmayı, MPE kıstası
ise sesbirim seviyesindeki tanıma çıktıları ile referans metinler
arasındaki Levenshtein uzaklıklarını en aza indirmeyi hedefler.
Genişletilmiş Baum Welch Algoritması [4, 5] akustik modellerin ayırıcı kıstaslar vasıtasıyla eğitiminde en sık kullanılan yöntemdir. Kelime örüleri (lattices) ise ayırıcı istatistiklerin toplanması için oldukça verimli bir yapı sağlar [6].
Son yıllarda, Türkçe Geniş Dağarcıklı Sürekli Konuşma
Tanıma (GDSKT) uygulamalarında kullanılmak üzere kelimelere alternatif tanıma birimlerinin geliştirilmesini hedefleyen pek çok çalışma yayınlanmıştır [7, 8, 9, 10, 11].
Türkçe haber bültenlerinin yazılandırılmasını hedefleyen çalışmalar [12, 13] ise, model uyarlama yöntemlerinin ve çeşitli
kelime-altı tanıma birimleriyle oluşturulan dil modellerinin
başarımını incelemiştir.
Bu bildiride açık kaynak kodlu yazılımlar vasıtasıyla hazırladığımız Türkçe GDSKT sistemi sunulmaktadır. Sistem
dahilinde ML, MMI ve MPE kriterlerini eniyilemeye dayalı
üç farklı akustik model hazırlanmış, ayırıcı akustik modellemenin Türkçe GDSKT’ye katkısı incelenmiştir. Bildirinin bir
amacı da Türkçe GDSKT uygulamaları için yol gösterici olmaktır. Bildirinin içeriği şu şekildedir: 2. kısımda akustik modellerin eğitiminde kullanılan yöntemler, 3. kısımda ise kullanılan veritabanının istatistiksel özellikleri anlatılmıştır. Açık
kaynak kodlu Türkçe GDSKT sisteminin detayları 4. kısımda
verilmiştir. 5. kısım konuşma tanıma deneylerini, 6. kısım ise
bildirinin sonuçlarını içermektedir.
2. Konuşma Tanıma Modelleri
Akustik model ve dil modeli konuşma tanıma sisteminin en
temel iki öğesidir. Simgelemimizde A bir konuşma işareti için
akustik öznitelik vektörünü, s kelime dizilimini belirtmektedir.
Akustik model M kelime dizilimi verildiğinde öznitelik vektörünün olasılıksal kestirimini (p(A|Ms )), dil modeli (p(s)) ise
gerekli dilbilimsel bilgiyi sağlamaktadır. Bu durumda konuşma
tanıma problemi Denklem 1 ile özetlenebilir:
ŝ = argmax p(A|Ms )p(s)
çalışılan ölçütü vermektedir.
FM M IE (λ)
(1)
=
R
X
≈
R
X
s
log
r=1
2.1. Dil Modeli
Denklem 2’de matematiksel olarak ifade edilen N ’li dil modeli her kelimenin (wk ) kendinden önceki N − 1 kelimeyi takip
k−N+1
etmesi olasılığını (p(wk |wk−1
)) kestirmeye dayanır.
p(s) = p(w1 , w2 , ..., wn ) ≈
n
Y
k−N+1
p(wk |wk−1
)
(2)
k=1
Eğer dil modeli eğitiminde kullanılan veritabanı yeterince
büyük değilse, olası birçok kelime dizilimine çok küçük
olasılıklar atanacaktır. Bu durumu bertaraf etmek için ham modeller yumuşatılarak büyük olasılığa sahip dizilimlerin olasılıkları azaltılır, elde edilen olasılık kütlesi çok küçük olasılıklı
dizilimlere dağıtılır.
2.2. Akustik Model
Saklı Markov Modelleri (Hidden Markov Models - HMMs)
konuşma tanıma için hem basit hem de başarılı akustik modeller
oluşturmada kullanılır. Bu modellerin temel varsayımı konuşmanın kaynağının birinci dereceden Markov zincirleri ile modellenebileceğidir. Konuşmanın kaynağı gerçekten HMM’ler
tarafından varsayılan yapıda, eğitim verisi de sonsuz miktarda
olsaydı, MLE ile eğitilen modeller tarafsız olma ve en küçük
sapmaya sahip olma özelliklerini taşıyan en iyi modeller olurdu.
Ancak, HMM tabanlı bir akustik modelin parametrelerinin kestirimi esnasında, eğitim verisi ne HMM varsayımına uyan bir
kaynaktan gelir ne de sonsuz miktardadır.
ML eğitimi esnasında, model parametreleri, akustik veriye
karşılık gelebilecek olası kelime dizilerini görmezden gelerek,
referans metinlerdeki kelime dizilerinin olabilirliğini arttıracak
şekilde ayarlanır. Ayırıcı eğitimde ise, MLE’nin aksine, olası
kelime dizileri göz önüne alınarak hatalı hipotezlerin olabilirliği
(ya da tanıma hataları) doğrudan azaltılmaya çalışılır [2].
2.2.1. MLE
MLE, R cümleden oluşan referans metinler ({sr }) eldeyken,
eğitim verisinin olabilirliğini (pλ (Ar |Msr )) arttırmaya çalışır.
Olası diğer kelime dizileri parametre kestirimine katılmaz.
Denklem 3, ML eğitimi esnasında arttırılmaya çalışılan ölçütü
vermektedir.
FM LE (λ) =
pλ (Ar |Msr )P (sr )
log P
s pλ (Ar |Ms )P (s)
r=1
R
X
log pλ (Ar |Msr )
(3)
r=1
2.2.2. MMIE
MMIE referans metinlerin sonsal olasılığını doğrudan arttırmaya çalışır. Denklem 4, MMI eğitimi esnasında eniyilenmeye
pλ (Ar |Msr )P (sr )
pλ (Ar |ML )
(4)
Denklem 4’te verilen ölçütün en iyilenmesi için eş zamanlı
olarak paydaki terimin (pλ (Ar |Msr )) arttırılması, paydadaki
terimin (pλ (Ar |ML )) ise azaltılması gerekir. Paydaki terimin
arttırılması ML eğitiminde yapılmaya çalışılandan farksızdır.
Olası kelime dizilimlerini yaklaşık olarak temsil eden tanıma
örüsü L ile simgelenmektedir.
MMI kıstası referans kelime dizilimleri eldeyken düşük
sonsal olasılık veren eğitim sözcelerine daha fazla ağırlık verir.
ML eğitiminde ise tüm eğitim sözceleri eşit ağırlıklandırılır.
Bu açıdan bakıldığında, Denklem 4’te verilen ölçüt, koşullu en
yüksek olabilirlik (Conditional Maximum Likelihood - CML)
kriteri olarak da yorumlanabilir.
2.2.3. MPE
MPE eğitimi referans metinler (sr ) ile eğitim sözcelerine
karşılık gelen olası kelime dizileri arasındaki Levenshtein uzaklıklarını en aza indirmeye çalışır. MPE ölçütü, bir eğitim sözcesine (r) karşılık gelen tüm olası kelime dizilerine (S) ait ham
ses doğruluğu oranlarının (D(s, sr )), doğru modelden her kelime dizisine (s) atanan sonsal olasılıkla (pλ (s|Ar )) ağırlıklandırılmış bir ortalamasıdır. Denklem 5, MPE eğitimi esnasında eniyilenmeye çalışılan ölçütü vermektedir.
FM P E (λ) =
R
X
log
r=1
X
pλ (s|Ar )D(s, sr )
(5)
s∈S
Denklem 5’te:
pλ (s|Ar ) =
pλ (Ar |Ms )P (s)
,
pλ (Ar |ML )
D(s, sr ) = sr ’daki sesbirim sayısı−s’deki hatalı sesbirim sayısı.
3. Veritabanları
Boğaziçi Üniversitesi’nde, 2006 yılından beri Türkçe haber bültenlerinden (Broadcast News - BN) oluşan bir veritabanı oluşturmaktayız. Her gün dört televizyon, bir de radyo kanalından kaydedilen haber programları veritabanına ekleniyor. Bu
kayıtlar içerik ve ses kalitesi kontrolünün ardından, bölütlenip,
yazılandırmaya gönderiliyor. Konu, konuşmacı ve arkaplan
bilgilerini de içeren yazılandırmaların, Hub4 BN yazılandırma
yönergelerinden uyarlanan kurallara uyup uymadığı denetlenip,
gerektiğinde hataları düzeltiliyor. Bu çalışmada veritabanımızdan kabaca 187 saatlik akustik veri (184 saat eğitim + 3
saat sınama) kullanıldı. Tablo 1’de kullanılan verinin akustik
koşullara göre dağılımı görülüyor. Tablodaki akustik koşullar
Hub4 sınıflandırmasına göre verilmiştir: (f0) temiz konuşma,
(f1) doğal konuşma, (f2) telefon konuşması, (f3) arkaplan müziği, (f4) kötü akustik koşullar ve (f5) diğerleri.
Kullanılan akustik verinin referans metinleri kabaca 1.3
milyon kelime içermektedir. Bunun yanısıra genel bir dil modeli oluşturmak icin haber portallarından toplamda 184 milyon
Tablo 1: Çeşitli koşullardaki veri miktarı (saat)
Kısım
Eğitim
Sınama
f0
65.7
0.9
f1
15.5
0.1
f2
8.3
0.1
f3
19.4
0.7
f4
71.9
1.3
fx
3.2
0.04
Toplam
184
3.1
kelime içeren bir metin derlemi toplanmıştır [14]. Bu derlem,
metin normalizasyonunun yanısıra biçimbilimsel bir çözümleyici [14] ve buluşsal yöntemler kullanılarak süzülmüştür.
Tablo 2’de metin derleminin içerdiği kelime, işaret (kelimeler
ve noktalama işaretleri) ve çeşit (ayrık işaretler) sayıları
görülmektedir. Metin normalizasyonu ve süzmenin ardından,
toplamda kelime sayısı 182.3 milyona, çesit sayısı da 1.8 milyona düşmektedir.
Tablo 2: Derlemin içerdiği kelime, işaret, çeşit sayıları ile
biçimbilimsel çözümleyiciden başarıyla geçen kelime oranları.
Kelime
184M
İşaret (Çözümlenen %)
212M (96.7%)
Çeşit (Çözümlenen %)
2.2M (52.2%)
4. HTK/SRILM Tabanlı Türkçe GDSKT
Sistemi
Türkçe GDSKT Sistemi açık kaynak kodlu HTK (Hidden
Markov Toolkit) [15] yazılımı kullanılarak oluşturuldu. Temel
akustik modeller önceki kısımda detayları anlatilan 184 saatlik eğitim verisi kullanılarak MLE ile eğitildi. SRILM [16]
yazılımı kullanılarak 50 bin kelime dağarcıklı üçlü (trigram)
bir dil modeli hazırlandı. Bahsedilen sistemin sınama verisi
üzerindeki başarımı ölçüldü. Bu aşamaların ardından temel
sistem tüm eğitim verisinin otomatik olarak tanınması için
kullanıldı. Her eğitim sözcesine karşılık bir tanıma örüsü
çıkarıldı. Bu örüler zayıf bir dil modeli ile yeniden ağırlıklandırılarak, farklı hipotezler arasındaki karışıklık arttırıldı.
Yeniden ağırlıklandırılan örüler vasıtasıyla, MMI ve MPE kıstaslarını eniyileyen ayırıcı akustik modeller oluşturuldu. Bu
modellerin sınama verisi üzerindeki başarımı ölçülerek, en iyi
model parametreleri belirlendi.
4.1. Temel Akustik Model Eğitimi
1. İlk olarak 10 milisaniye ile ötelenen 25 milisaniyelik
her ses çerçevesi için 12 MFCC ve 1 enerji özniteliği,
daha sonra bunların birinci ve ikinci zaman türevleri hesaplandı. Bu öznitelik vektörleri kullanılarak, 30 sesbirime (29 harf ve 1 sessizlik) ait her durumda tek Gauss
bileşeni içeren akustik modeller MLE ile eğitildi.
2. Bağlama dayalı model eğitimi için ses üçlüleri (triphones) Türkçe’nin ses yapısına uyarlanmış karar
ağaçları yardımıyla kümelendi. Öncelikle her ses üçlüsü
ortadaki sesin modeliyle temsil edildi. Daha sonra
üçlü modeller MLE ile tekrar eğitildi. Karar ağaçları
ve eğitim esnasında toplanan istatistikler kullanılarak
yapılan kümeleme sonucunda toplamda 13243 HMM
durumu içeren 27871 üçlü sesbirim modeli elde edildi.
3. Bu aşamada her durumdaki Gauss bileşenlerinin sayısı
1 → 2 → 3 → 4 → 6 → 8 → 11 (sessizlik durum-
larında 1 → 2 → 4 → 7 → 10 → 15 → 21) bileşen
şeklinde arttırıldı. Her arttırımın ardından akustik modeller MLE ile tekrar eğitildi.
4.2. Dil Modelinin Oluşturulması
1. Öncelikle 184 milyon kelime içeren Türkçe Genel Veri
Tabanı (GVT) ile 1.3 milyon kelime içeren Türkçe Haber
Veri Tabanı (HVT) birleştirildi ve bu metinde en sık
geçen 50 bin kelime tanıma dağarcığı olarak seçildi.
2. Tanıma dağarcığındaki kelimeler kullanılarak, GVT’den
veri budama eşiği 5 × 10−8 olan üçlü bir dil modeli
çıkarıldı. Yine tanıma dağarcığındaki kelimeler kullanılarak, HVT’den budanmamış üçlü bir dil modeli
çıkarıldı. Iki model de SRILM araçları ile Kneser-Ney
yumuşatıcı model yöntemiyle oluşturuldu.
3. Dil modeli GVT’den ve HVT’den çıkarılan dil modellerinin SRILM araçları ile eşit ağırlıklı doğrusal
aradeğerlenmesiyle oluşturuldu. HTK sisteminin tüm
sınamalarında ve ayırıcı akustik modellerin eğitiminde
1343711 üçlü, 3515826 ikili, 50002 tekli içeren bu dil
modeli kullanıldı.
4.3. Ayırıcı Akustik Modellerin Eğitimi
1. Temel akustik modeller ve önceki bölümde anlatılan
dil modeli vasıtasıyla tüm eğitim verisi otomatik olarak
tanındı ve her sözce için en olası tanıma hipotezlerini
içeren kelime örüleri oluşturuldu.
2. Daha önceden belirlenen kelime dağarcığına HVT’de
geçip de dağarcıkta bulunmayan kelimeler eklenerek
yeni bir dağarcık oluşturuldu.
Bu dağarcık kullanılarak önceki bölümde anlatilan yöntemle 105088
unigram içeren oldukça zayıf bir dil modeli oluşturuldu. Kelime örüleri bu zayıf model ile yeniden ağırlıklandırılarak farklı hipotezler arasındaki karmaşıklık arttırıldı. Böylece ayırıcı eğitim öncesinde farklı hipotezler
arasındaki olabilirlik farkı azaltılmış oldu.
3. Yeniden ağırlıklandırılmış kelime örüleri kullanılarak
temel akustik modeller iki farklı ayrım kıstasını (MMI
ve MPE) eniyileyecek şekilde güncellendi.
5. Konuşma Tanıma Deneyleri
Oluşturulan üçlü dil modeli kullanılarak, temel ve ayırıcı
akustik modellerin sınama verisi üzerindeki başarımı ölçüldü.
Sınama verisi üzerindeki sistem başarımının (kelime hata oranı
- KHO) tanıma hızına (gerçek zaman çarpanı - GZÇ) karşılık
değişimi Şekil 1’de görülmektedir.
6. Sonuçlar
Bu bildiride Türkçe için geniş dağarcıklı bir konuşma tanıma
sistemi tasarlanmıştır. 50 bin kelimelik bir sözlük ve üçlü dil
modeli ile farklı akustik modeller kullanılarak yapılan konuşma
tanıma deneyleri sonucunda, kelime hata oranları ML eğitiminde %25.8 (9.4xGZ), MMI eğitiminde %24.3 (9.9xGZ),
MPE eğitiminde %23.7 (8.0xGZ) değerine kadar düşmüştür.
Şekil 1: Farklı akustik modeller ile yapılan tanıma deneylerinde sistem başarımının tanıma hızına göre değişimi
55
ML
MMI
MPE
50
45
KHO
40
35
30
25
20
0
1
2
3
4
5
6
7
8
9
10
GZÇ
7. Teşekkür
Bu araştırma kısmen 105E102 numaralı TÜBİTAK Projesi ve
05HA202 numaralı Boğaziçi Üniversitesi Bilimsel Araştırma
Projesi tarafından desteklenmiştir. Doğan Can TÜBİTAK
BİDEB tarafından desteklenmiştir.
8. Kaynakça
[1] L. R. Bahl, P. F. Brown, P. V. deSouza, and R. L. Mercer, “Maximum mutual information estimation of hidden markov model parameters for speech recognition,” in
Proc. ICASSP, 1986, pp. 49–52.
[2] D. Povey and P. C. Woodland, “Large-scale MMIE training for conversational telephone speech recognition,” in
Proc. NIST Speech Transcription Workshop, College Park,
MD, 2000.
[3] D. Povey and P. C. Woodland, “Minimum phone error
and i-smoothing for improved discriminative training,” in
Proc. ICASSP, Orlando, FL, 2002.
[4] P. S. Gopalakrishnan, D. Kanevsky, A. Nadas, and D. Nahamoo, “An inequality for rational functions with applications to some statistical estimation problems,” IEEE
Transactions on Information Theory, vol. 37, no. 1, pp.
107–113, 1991.
[5] Y. Normandin, Hidden Markov models, maximum mutual
information estimation, and the speech recognition problem, Ph.D. thesis, Department of Electrical Engineering,
McGill University, Montreal, 1991.
[6] V. Valtchev, J. J. Odell, P. C. Woodland, and S. J. Young,
“MMIE training of large vocabulary recognition systems,”
Speech Communication, vol. 22, no. 4, pp. 303–314, 1997.
[7] K. Çarkı, P. Geutner, and T. Schultz, “Turkish LVCSR:
Towards better speech recognition for agglutinative languages,” in Proc. IEEE ICASSP, 2000.
[8] E. Mengüşoğlu and O. Deroo, “Turkish LVCSR: Database
preparation and language modeling for an agglutinative
language,” in Proc. IEEE ICASSP, 2001.
[9] K. Hacıoğlu, B. Pellom, T. Çiloğlu, O. Öztürk, M. Kurimo, and M. Creutz, “Word splitting for Turkish,” in
Proc. IEEE SIU, 2003.
[10] T. Çiloğlu, M. Çömez, and S. Şahin, “Language modelling for Turkish as an agglutinative language,” in Proc.
IEEE SIU, Kuşadası, Turkey, 2004, pp. 461–462.
[11] H. Erdoğan, O. Büyük, and K. Oflazer, “Incorporating
language constraints in sub-word based speech recognition,” in Proc. ASRU, San Juan, Puerto Rico, 2005.
[12] E. Arısoy and M. Saraçlar, “Speech recognition for Turkish broadcast news,” in Proc. IEEE SIU, 2007.
[13] T. Aksungurlu, S. Parlak, H. Sak, and M. Saraçlar, “Comparison of language modeling approaches for Turkish
broadcast news,” in Proc. IEEE SIU, 2008.
[14] H. Sak, T. Güngör, and M. Saraçlar, “Turkish language
resources: Morphological parser, morphological disambiguator and web corpus,” in Proc. 6th International Conference on Natural Language Processing, GoTAL, 2008.
[15] S. Young, G. Evermann, M. Gales, T. Hain, D. Kershaw, X. Liu, G. Moore, J. Odell, D. Ollason, D. Povey,
V. Valtchev, and P. Woodland, “The HTK book (for HTK
version 3.4), Cambridge University Engineering Department,” 2006.
[16] A. Stolcke, “SRILM – An extensible language modeling
toolkit,” in Proc. ICSLP, Denver, 2002, vol. 2, pp. 901–
904.

Türkçe Haber Bültenlerinin Açık Kaynak Yazılımlar ile

Transkript

Benzer belgeler

arama motorlarını etkin kullanma

Parmephon Ürün Kataloğu

Wavebar® Outdoor

Örnek oyun

akustik serin tavan

Broşür indir - Çağlayan Eğitim Çözümleri

T-KIT 3 DOC*

Sualtı Akustik Sistemleri Programı

Anne Babalar I˙çin Bro r (0 ve 5 ya ara ara çocuklar n