Türkçe için Kelime Temsillerinin Ö˘grenimi Learning Word

Transkript

Türkçe için Kelime Temsillerinin Öğrenimi
Learning Word Representations for Turkish
Mehmet Umut Sen, Hakan Erdogan
Elektronik Mühendisliği Bölümü
Sabancı Üniversitesi
{umutsen,haerdogan}@sabanciuniv.edu
Özetçe —Son yıllarda yüksek kaliteli kelime temsillerinin, bir
çok doğal dil işleme problemlerinin çözümünde performansı artırmada başarılı oldukları görülmüştür. Kelime temsilleri, sözcük
haznesindeki her bir kelimenin Öklit uzayında gerçel bir vektöre
eşlemlenmesidir. Öğrenilen kelime temsillerinin özgül problem
için faydalı olmasının yanında kelimeler arası doğrusal ilişki
kurdukları da gözlemlenmiştir. Yeni tanıtılan atla-gram modeli,
zengin anlamsal ve sözdizimsel kelime temsillerinin güdümsüz
öğrenimini daha hızlı ve başarılı kılmıştır. İngilizce dili için
sıklıkla kullanılmaya başlanan kelime temsillerinin henüz Türkçe
için bir uygulaması bulunmamaktadır. Bu bildiride, atla-gram
modelini büyük miktardaki bir Türkçe veritabanına uyguladık
ve oluşturduğumuz soru bankalarıyla bu temsillerin kelime
anlamları arasında ilişki kurma başarısını nicel olarak ölçtük.
Oluşturduğumuz kelime temsilleri ve soru bankaları web sitemiz
üzerinden akademik kullanıma açılmıştır.
Anahtar Kelimeler—Kelime temsilleri, Doğal Dil İşleme, Derin
Öğrenme
Abstract—High-quality word representations have been very
successful in recent years at improving performance across a variety of NLP tasks. These word representations are the mappings
of each word in the vocabulary to a real vector in the Euclidean
space. Besides high performance on specific tasks, learned word
representations have been shown to perform well on establishing
linear relationships among words. The recently introduced skipgram model improved performance on unsupervised learning of
word embeddings that contains rich syntactic and semantic word
relations both in terms of accuracy and speed. Word embeddings
that have been used frequently on English language, is not applied
to Turkish yet. In this paper, we apply the skip-gram model to
a large Turkish text corpus and measured the performance of
them quantitatively with the "question" sets that we generated.
The learned word embeddings and the question sets are publicly
available at our website.
Keywords—Word embeddings, Natural Language Processing,
Deep Learning
I.
G İR İ Ş
Son yıllarda, derin sinir ağları (DSA) kullanılarak geliştirilen doğal dil işleme (DDİ) yöntemlerinin farklı DDİ problemleri üzerindeki başarısı literatürdeki çeşitli bildiriler ile
gösterilmiştir. Adlandırılmış varlık tanıma, konuşma parçası
etiketleme, metin gövdeleme, anlambilimsel rol etiketlendirme
gibi problemlere uygulanan DSA yöntemleri, çoğunlukla
İngilizce veritabanları üzerine uygulanmıştır. Bu yöntemlerin önemli bir ayağı, büyük metin veritabanlarından kec
978-1-4799-4874-114$31.00 2014
IEEE
limeleri yüksek boyutlu sürekli vektörlere eşlemleyen güdümsüz öğrenme aşamasıdır. Bu şekilde oluşturulan sistemlerde,
her kelime (w) için yoğun, düşük boyutlu (d) ve gerçek bir
vektör (v w ∈ Rd ) öğrenilir ve bu vektör o kelimenin dağıtımlı
temsilini oluşturur. Bu şekilde dağıtımlı kelime temsillerinin
oluşturulmasının faydası bu vektörlerin kelimenin anlambilimsel ve sözdizimsel bilgisini yoğun bir şekilde düşük boyutta
kodlamasıdır. Her bir boyutunun bir öznitelik gibi görülebileceği bu vektörler yüksek sayılardaki kelime gruplarını içlerinde
barındırırlar.
Kelime temsilleri genellikle belirli DDİ problemleri için
ileri beslemeli sinir ağları [1] hiyerarşik modeller [2], [3] ve
özyineli sinir ağları [4], [5] gibi derin öğrenme yöntemleri
içinde kullanıldığı gibi çeşitli alışılagelmiş öznitelik tabanlı
yöntemlerde de [6], [7] kullanılmışlardır. Bir çalışmada [8]
kelime temsilleri aynı anda birden fazla DDİ problemine girdi
olarak verilip temsillerin problemler arasında ortaklaşa öğrenimi sağlanmış ve doğruluk oranlarının arttığı görülmüştür.
Başka bir çalışmada [9] öğrenilen temsillerin anlambilimsel
olarak doğrusal ilişki içinde oldukları görülmüştür. Örneğin
Kral ile Kraliçe vektörlerinin arasındaki fark vektörü Erkek
ile Bayan vektörleri arasındaki fark vektörüne yakındır. Bu
çıkarım ile kelime temsillerinin belirli bir DDİ problemi için
değil ama genel olarak anlambilimsel ve sözdizimsel kalitesini
nicel olarak ölçmek için kelime dörtlülerinden oluşan sorular
hazırlanmıştır. Yeni bir çalışmada, kelime temsillerinin sinir
ağları kullanılarak öğrenilmesinin çok uzun zaman alması
problemine bir çözüm olarak atla-gram modeli geliştirilmiş
[10], [11] ve kelime temsillerinin büyük veritabanlarından çok
hızlı öğrenilmesi sağlanmıştır.
İngilizce dili için sıklıkla kullanılan ve yüksek başarısı
çokça kanıtlanmış kelime temsilleri -bildiğimiz kadarıylaTürkçe için henüz uygulanmamıştır. Çalışmamızda bu eksiği
azaltmak ve DDİ üzerine çalışanların bu konuya ilgisini artırmak amacıyla büyük bir Türkçe veritabanında kelime temsilleri
öğrenilmiştir. Yeni geliştirilen atla-gram modeli kullanılarak
öğrenilen kelime temsillerinin kalitesi, oluşturulan Türkçe soru
kümeleriyle nicel olarak ölçülmüştür. Elde edilen kelime temsil
vektörleri ve oluşturulan soru kümeleri web sitesi üzerinden
paylaşıma açılmıştır 1 .
II.
ATLA-GRAM MODEL İ
Atla-gram modeli [10], [11], cümle içindeki bir kelimeyi
logaritmik-doğrusal sınıflandırıcıya girdi olarak alır ve o kelimenin etrafındaki kelimeleri öngörmeye çalışır. Girdi olarak
1 http://myweb.sabanciuniv.edu/umutsen/research/
verilen kelime bir izdüşüm katmanı ile sürekli bir vektör haline
getirilir ve sınıflandırıcıya verilir. Bu izdüşüm katmanının
parametreleri, kelime temsillerini oluşturur. Matematiksel
olarak göstermek gerekirse, eğer elimizde w1 , w2 , . . . wT şeklinde bir kelime disizi var ise, atla-gram modeli aşağıdaki hedef
fonksiyonunu en-çoklamaktadır:
Φ=
T
1X
T t=1
X
log p(wt+j |wt )
(1)
−c≤j≤c,j6=0
III. bölümde gösterildiği üzere eksi-örnekleme yöntemi
hiyerarşik yumuşak-maksimum yönteminden doğruluk oranı
ve hız olarak daha iyi çalışmaktadır ve sonraki deneyler bu
yöntemle yapılmıştır.
C. Sık Kelimelerin Seyreltilmesi
Burada c verilen bir kelime için öngörülmeye çalışılan
komşu kelime sayısının iki katıdır ve eğitim bağlamının büyüklüğünü temsil etmektedir. c sayısını artırdığımızda doğruluk
oranları daha yüksek vektörler elde edilmesi beklenmektedir,
ancak eğitim süresi uzamaktadır.
Denklem (1)’deki p(wt+j |wt ), yumuşak-maksimum formülasyonunu kullanmaktadır:
exp(y TwO v wI )
p(wO |wI ) = PW
T
w=1 exp(y w v wI )
yöntem, verilen bir girdi ve çıktı kelime ikilisi için sözcük
haznesinden rastgele k adet kelimeyi yanlış çıktı kelimesi
olarak örnekler ve koşullu olasılık formülasyonuna eksili bir
ifadeyle yerleştirir.
(2)
Burada v w ve y w , w kelimesinin girdi ve çıktı temsil
vektörlerini ve W kelime haznesindeki toplam kelime sayısını
göstermektedir. Eğitimden sonra v w vektörü w kelimesinin
temsil vektörü olarak kullanılır. Paydadaki değerin hesaplanması çok uzun zaman aldığı için bu formülasyon ile yapılan
öğrenme elverişsizdir. Bu problemi çözmek için iki farklı
yöntem önerilmiştir:
A. Hiyerarşik Yumuşak-Maksimum
Bu yöntem [3], yumuşak-maksimumun hesapsal olarak etkili bir yaklaşıklamasıdır ve ikili bir ağaçtan oluşmaktadır. Bu
ağaçta, yapraklar kelime haznesindeki kelimelerdir ve yaprak
olmayan düğümlerin de ayrı vektörel temsilleri bulunmaktadır.
Herhangi bir kelimenin (1)’de tanımlanan koşullu olasılığı,
ağacın kökünden çıktı-kelimenin bulunduğu yaprağa kadar her
bir düğüm için vektörel iç çarpım yapılarak ve çarpımsal olarak
birleştirilerek bulunur. Böylece sözcük haznesindeki her bir kelime için W tane ayrı değer bulmak yerine toplamda log2 (W )
tane değer bulunmaktadır, bu da eğitim süresini önemli ölçüde
azaltmaktadır. Bu yöntemin iyi yanlarından bir tanesi her bir
kelimenin sadece bir tane temsil vektörünün bulunmasıdır.
Ağacın yapısı performansı önemli ölçüde etkilemektedir. Bu
bildiride, daha önceki çalışmalarda önerildiği üzere [2], [4],
[11] ikili Huffman ağacı kullanılmıştır. Ayrıntılar referanslarda
bulunabilir.
Oluşturduğumuz veritabanında bazı kelimeler çok sık bulunmaktadır ("ve":10 milyon, "bir":9 milyon). Böyle kelimeler, yüksek bulunma sıklıklarına oranla daha nadir geçen
kelimelerden fazla bilgi vermemektedirler. Başka bir bakış
açısıyla, öğrenme algoritması bir kelimeyi yeterince görmüşse
daha fazla görmesi o kelimenin temsil vektörlerini çok fazla değiştirmeyecektir. Çok sık geçen ve daha nadir geçen
kelimelerin arasındaki dengesizliği gidermek amacıyla daha
önceden önerilen [11] buluşsal şu yöntem kullanılmıştır: her
kelime wi aşağıdaki ihtimal değeriyle orantılı olarak eğitimde
girdi olarak kullanılmamıştır:
s
t
p(wi ) = 1 −
(4)
f (wi )
Burada f (wi ) kelimenin bulunma frekansı ve t, 0.001 olarak
seçtiğimiz bir eşik değerdir. Bu eşik değerin altındaki frekansa
sahip kelimeler seyreltilme kuralına tabi değildir.
III.
D ENEYLER
Kelime temsil vektörlerinin eğitilmesi için 2 farklı metin
veritabanı kullanılmıştır. Bunlardan ilki vikipedi verileri [14],
ikincisi Boğaziçi Üniversitesi’nden paylaşılan haber ve başka
örün sitelerinden toplanılmış arşivlerdir [15]. Vikipedi veritabanı -tablolar ve benzeri "temiz" metin olmayan öğeler
çıkarıldığında- yaklaşık 52 milyon kelime, Boğaziçi-haber
veritabanı 208 milyon ve diğer Boğaziçi veritabanı 270 milyon
kelimeden oluşmaktadırlar.
A. Ön-İşleme
(3)
Öncelikle
veritabanları
noktalama
işaretlerinden
ve metin olarak kabul edilemeyecek kısımlardan
temizlenmiştir. Türkçe’nin zengin morfolojik yapısından
ötürü kelimeleri köklerine ayırmak temsil vektörlerinin
kalitesini etkilemektedir. Bu nedenle veritabanında 1000’den
az sayıda görülmüş kelimeler Zemberek [16] araç takımıyla
kök ve eklerine ayrılmıştır, gerisi olduğu gibi bırakılmıştır.
Ayrıştırılamayan kelimeler yine Zemberek araç takımının
ASCII karakter dönüştürücüsüne verilerek Türkçe olmayan
klavyeden yazılmış kelimelerin dönüştürülmesi sağlanmıştır.
Dönüştürücüden çıkan kelimeler tekrar ayrıştırıcıya verilmiş ve
ayrıştırılamayanlar veritabanında olduğu haliyle bırakılmıştır.
Ayrıştırıcı birden fazla seçenek verdiği durumda en uzun olan
kök tercih edilmiştir ve kelimenin kökten sonraki parçası
tek bir ek olarak alınmıştır (geldiklerinde ⇒ gelmek +
_diklerinde).
Burada wi sözcük haznesinden rastgele seçilmiş bir kelimedir
ve σ(x) = 1/(1 + exp(−x)) sigmoid fonksiyonudur. Bu
Kelimeler bu şekilde dönüştürüldükten ve hepsi küçük
harfe çevrildikten sonra veritabanında 6’dan az sayıda görülen
kelimeler çıkarılmıştır. En son elde ettiğimiz eğitim verisinde
B. Eksi Örnekleme
Eksi-örnekleme [11], gürültü karşıtsal kestirim yönteminin
[12], [13] basitleştirilmiş halidir ve yumuşak maksimumdaki
koşullu olasılık değerini (log p(wo |wI )) aşağıdaki formülle
değiştirmektedir:
log σ(y Two v wI )
+
k
X
log σ(−y Twi v wI )
i=1
Tablo I: Anlambilimsel analoji soru kümeleri
Küme İsmi
Soru Sayısı
Örnek
Akrabalık
Başkentler
Eş-anlamlı
İlçeler
Para birimleri
Zıt anlamlı
132
2970
3422
6466
156
2756
(kız → oğul) ⇔ (gelin → damat)
(Tokyo → Japonya) ⇔ (Brüksel → Belçika)
(sözcük → kelime) ⇔ (ırmak → nehir)
(Konak → İzmir) ⇔ (Beyoğlu → İstanbul)
(ABD → dolar) ⇔ (Hindistan → rupi)
(barış → savaş) ⇔ (büyük → küçük)
Tablo III: Grup soru kümeleri
Ülkeler
Tablo II: Sözdizimsel analoji soru kümeleri
Küme İsmi
Soru Sayısı
Örnek
Çoğullar
Olumsuzlar
Geçmiş Zaman
Geniş Zaman
4830
756
3540
1560
(olay → olaylar) ⇔ (işlem → işlemler)
(sever → sevmez) ⇔ (döner → dönmez)
(bulmak → buldu) ⇔ (istemek → istedi)
(etkilemek → etkiler) ⇔ (yaşamak → yaşar)
yaklaşık 530 milyon kelime vardır ve kelime haznesindeki
kelime sayısı -25 bini ek olmak üzere- yaklaşık 380 bindir.
B. Nicel Doğruluk Oranları
Birimler
v D̂ vektörü bulunduktan sonra kelime haznesindeki, bu vektöre
-kosinüs uzaklığı dikkate alındığında- en yakın temsil vektörüne sahip sözcük (A, B ve C hariç) cevap olarak alınır:
v Tw v D̂
D̂ = arg max
w kv w k v D̂
(6)
Analojik çerçevede anlambilimsel ve sözdizimsel doğruluk
oranlarını ölçmek için çeşitli soru kümeleri hazırladık. Bu soru
kümelerinin tanımları ve çeşitli örnekler Tablo-I ve II’de verilmiştir. Bu şekilde toplamda 26588 farklı soru elde edilmiştir.
İkinci test kategorisi, verilen 6 elemanlı bir kelime
kümesinden kümeye ait olmayan kelimeyi bulmak üzerinedir.
Kümeye ait olmayan kelime bulunurken, tüm kelimelerin temsil vektörlerinin ortalaması alınır ve öklit uzayında ortalama
vektöre -kosinüs uzaklığı dikkate alındığında- en uzak olan
vektöre sahip kelime seçilir. Soruları zorlaştırmak için anlambilimsel olarak birbirine yakın kelimelerden kümeler oluşturulmuştur. Örneğin ülke isimleri kıtalara göre gruplanmıştır
ve verilen bir ülke setinde diğerleriyle aynı kıtada bulunmayan ülkenin bulunması istenmiştir (ör. İngiltere, Fransa,
Hollanda, İrlanda, İsviçre, Cezayir) Bu soru kümelerinin türleri Tablo-III’te verilmiştir. Bu şekilde toplamda 2172 soru elde
edilmiştir.
C. Sonuçlar
1) Yöntem Karşılaştırması: Öncelikle, oluşturulan soru
bankaları ile eksi-örnekleme ve hiyerarşik maksimum yöntemleri karşılaştırılmıştır. Eksi-örneklemede, her bir kelime için
Hayvanlar
İller
1029
476
31
198
438
Asya
Afrika
Doğu Avrupa
Kuzey Avrupa
Güney Avrupa
Batı Avrupa
Güney Amerika
Kuzey Amerika
ağırlık
uzunluk
sıcaklık
alan
basınç
hacim
zaman
bilg. hafızası
para
meyve ağ.
diğer ağ.
kuşlar
balıklar
sürüngenler
memeliler
Marmara
Ege
Akdeniz
Karadeniz
Doğu Anadolu
Güney Doğu Anadolu
İç Anadolu
Tablo IV: Doğruluk oranları - hiyerarşik maksimum ve eksiörnekleme
Grup
Anlambil.
Sözdiz.
Genel
58.83
Süre
Çıkarılan kelime temsillerinin kalitesini nicel olarak
ölçmek için farklı iki kategoride doğrusal test yapılmıştır.
Bunlardan ilki analojik ilişki kurmak üzerinedir ve atla-gram
modelinin tanıtıldığı çalışmada ingilizce dili için yapılmıştır
[10], [11]. Bu kategoride her bir test sorusu 4 kelimeden
oluşmaktadır ve "A ile B arasındaki ilişki C ile ne arasında
vardır?" şeklindedir. Bu şekildeki soruları cevaplandırmak için
temsil vektörleri arasındaki doğrusal ilişkiye bakılmıştır:
(5)
v D̂ = v B − v A + v C
Ağaçlar
Hiyerarşik-maks.
İlk-1
İlk-3
23.02
28.67
25.29
35.77
43.58
38.91
İlk-10
Grup
Eksi-örnekleme
İlk-1
İlk-3
İlk-10
49.33
58.75
53.11
57.50
29.69
42.25
34.74
56.48
72.78
63.03
642 dakika
43.18
58.97
49.52
459 dakika
Tablo V: Doğruluk oranları - ekli ve eksiz veritabanları
Anlambil.
Sözdiz.
Genel
Süre
Grup
Eksiz
İlk-1
İlk-3
İlk-10
Grup
İlk-1
İlk-3
İlk-10
61.00
35.40
43.17
38.52
60.80
74.68
66.38
57.50
29.69
42.25
34.74
43.18
58.97
49.52
56.48
72.78
63.03
48.42
60.21
53.16
453 dakika
Ekli
459 dakika
veritabanından 5 yanlış kelime rastgele seçilmiştir (Denklem(3)’te k = 5). Her iki yöntem için de eğitim bağlamının
büyüklüğü 5 seçilmiştir (Denklem-(1)’de c = 5). Vektör boyutları 200 alınmıştır. Bu şekilde yapılan deneylerin sonuçları
Tablo-IV’te verilmiştir. Eğer algoritmaya verilen herhangi bir
sorunun cevabı ilk n tercih içinde varsa (n ∈ {1, 3, 10}) "İlkn" kategorisinde doğru cevap olarak sayılmıştır.
Sonuçlara baktığımızda, eksi-örnekleme yönteminin
hiyerarşik-maksimum yöntemini hem hız olarak hem de
doğruluk oranı olarak geçtiğini görmekteyiz. Çıkarılacak
başka bir sonuç da anlambilimsel doğruluk oranlarının
sözdizimsel doğruluk oranlarından daha düşük olduğudur.
Bunun olası bir sebebi, sözdizimsel sorularda çoğunlukla
yüklem bulunması ve yüklem sayılarının veritabanında
genellikle fazla olmasıdır. Ancak "eş-anlamlı" ve "zıt-anlamlı"
gibi kelime sorularının -temsili vektörlerin doğrusal ilişkileri
açısından- zorluğu da yadsınmamalıdır. Sonraki deneylerin
hepsi eksi-örnekleme yöntemiyle yapılmıştır.
2) Eklerin Çıkarılması: Kelime temsillerinin kalitelerini
ölçerken kullanılan sorularda ek olan kelimeler bulunmadığı
için veritabanından eklerin çıkarılması daha temiz veritabanı oluşturacağından doğruluk oranını artırması beklenmektedir. Bu amaçla ekler veritabanından çıkarılarak karşılaştırma
yapılmıştır ve sonuçlar Tablo-V’te verilmiştir. Aşağıda gösterilen deneyler eklerin çıkarıldığı veritabanından yapılmıştır.
Sozdizimsel Dogruluk Oranlari
Anlambilimsel Dogruluk Oranlari
Toplam Dogruluk Oranlari
70
65
80
65
60
75
60
55
55
50
70
50
45
Dogruluk Orani
Dogruluk Orani
Dogruluk Orani
65
45
40
40
35
35
30
60
55
50
45
30
25
100
ilk−1
ilk−3
ilk−5
ilk−10
grup
25
200
300
400
500
600
40
ilk−1
ilk−3
ilk−5
ilk−10
20
100
700
35
200
300
400
500
600
700
30
100
(a) Toplam
200
300
400
500
600
700
Vektor Boyutu
Vektor Boyutu
Vektor Boyutu
ilk−1
ilk−3
ilk−5
ilk−10
(b) Anlambilimsel
(c) Sözdizimsel
Şekil 1: Doğruluk oranlarının vektör boyutuna göre değişimi.
Tablo VI: Vektörlerinin boyutlarının eğitim sürelerine etkisi
Boyut
100
200
300
400
500
600
700
Süre (dakika)
299
453
539
735
899
994
1171
[5]
[6]
[7]
3) Vektör Boyutlarının Etkisi: Bu bölümde temsil vektörlerinin boyutunun anlambilimsel ve sözdizimsel doğruluk
oranlarına etkisi incelenmiştir. Bu amaçla eksi-örnekleme yöntemiyle farklı vektör boyutlarında temsiller öğrenilmiştir. Diğer
parametreler önceki deneylerle aynı alınmıştır. Vektör boyutunun doğruluk oranlarına etkisi Şekil-1’de gösterilmiştir.
Bu sonuçlara bakıldığında, vektör boyutlarındaki değişimin
genel olarak doğruluk oranlarını etkilediği görülmüştür. Bu
etki anlambilimsel sorularla yapılan testte daha fazladır. Vektör
boyutlarının eğitim sürelerine etkisi Tablo-VI’da verilmiştir.
IV.
S ONUÇ VE G ELECEK Ç ALI ŞMALAR
Bu bildiride, büyük bir Türkçe veritabanı üzerinde kelime
temsil vektörleri öğrenilmiştir. Oluşturulan anlambilimsel ve
sözdizimsel kelime ilişkilerinden oluşan soru kümeleri ile
vektörlerin doğrusal başarısı ölçülmüştür. İngilizcede başarılı
bir şekilde kullanılan kelime temsilleri ve derin öğrenmenin
Türkçe üzerine çalışmaları teşvik etmek amacıyla bu bildiriyi
yayınladık. Herhangi bir DDİ problemini kelime temsillerini
kullanarak çözen bir sistemin temsillerinin ilklendirilmesi için
bu bildirideki yöntem kullanılabilir. Ayrıca Türkçe’nin zengin
morfolojik yapısını dikkate alan bir model [17] geliştirilmesi,
kelime temsillerinin başarımını önemli ölçüde artıracaktır.
[8]
[9]
[10]
[11]
[12]
[13]
[14]
[15]
K AYNAKÇA
[1]
Yoshua Bengio, Réjean Ducharme, Pascal Vincent, and Christian Janvin,
“A neural probabilistic language model,” J. Mach. Learn. Res., vol. 3,
pp. 1137–1155, Mar. 2003.
[2] Andriy Mnih and Geoffrey Hinton, “A Scalable Hierarchical Distributed
Language Model,” in Advances in Neural Information Processing
Systems, 2008, vol. 21.
[3] Frederic Morin and Yoshua Bengio, “Hierarchical probabilistic neural
network language model,” in AISTATS’05, 2005, pp. 246–252.
[4] Tomas Mikolov, Stefan Kombrink, Lukas Burget, Jan Cernocký, and
Sanjeev Khudanpur, “Extensions of recurrent neural network language
model.,” in ICASSP. 2011, pp. 5528–5531, IEEE.
[16]
[17]
Tomas Mikolov, Martin Karafiát, Lukas Burget, Jan Cernocký, and
Sanjeev Khudanpur, “Recurrent neural network based language model.,”
in INTERSPEECH, Takao Kobayashi, Keikichi Hirose, and Satoshi
Nakamura, Eds. 2010, pp. 1045–1048, ISCA.
Terry Koo, Xavier Carreras, and Michael Collins, “Simple semisupervised dependency parsing,” in In Proc. ACL/HLT, 2008.
Lev Ratinov and Dan Roth, “Design challenges and misconceptions
in named entity recognition,” in Proceedings of the Thirteenth Conference on Computational Natural Language Learning, Stroudsburg, PA,
USA, 2009, CoNLL ’09, pp. 147–155, Association for Computational
Linguistics.
Ronan Collobert and Jason Weston, “A unified architecture for natural
language processing: Deep neural networks with multitask learning,” in
Proceedings of the 25th International Conference on Machine Learning,
New York, NY, USA, 2008, ICML ’08, pp. 160–167, ACM.
Tomas Mikolov, Wen tau Yih, and Geoffrey Zweig, “Linguistic
regularities in continuous space word representations.,” in HLT-NAACL.
2013, pp. 746–751, The Association for Computational Linguistics.
Tomas Mikolov, Kai Chen, Greg Corrado, and Jeffrey Dean, “Efficient
estimation of word representations in vector space,” CoRR, vol.
abs/1301.3781, 2013.
Tomas Mikolov, Ilya Sutskever, Kai Chen, Gregory S. Corrado, and
Jeffrey Dean, “Distributed representations of words and phrases and
their compositionality.,” in NIPS, Christopher J. C. Burges, Léon
Bottou, Zoubin Ghahramani, and Kilian Q. Weinberger, Eds., 2013,
pp. 3111–3119.
Michael Gutmann and Aapo Hyvärinen, “Noise-contrastive estimation
of unnormalized statistical models, with applications to natural image
statistics,” Journal of Machine Learning Research, vol. 13, pp. 307–361,
2012.
A. Mnih and Y. W. Teh, “A fast and simple algorithm for training neural
probabilistic language models,” in Proceedings of the International
Conference on Machine Learning, 2012.
“trwikimedia
dump
progress
on
20131221,”
http://dumps.wikimedia.org/trwikimedia/20131221/,
Accessed:
2013-12-25.
Haşim Sak, Tunga Güngör, and Murat Saraçlar, “Turkish language
resources: Morphological parser, morphological disambiguator and web
corpus,” in GoTAL 2008. 2008, vol. 5221 of LNCS, pp. 417–427,
Springer.
Ahmet Afsin Akin and Mehmet Dundar Akin , “Zemberek, an
open source nlp framework for turkic languages,” Yeni versiyon:
https://github.com/ahmetaa/zemberek-nlp, 2007.
Minh-Thang Luong, Richard Socher, and Christopher D. Manning,
“Better word representations with recursive neural networks for morphology,” in CoNLL, Sofia, Bulgaria, 2013.

Türkçe için Kelime Temsillerinin Ö˘grenimi Learning Word

Transkript

Benzer belgeler

İngilizce Eğitimi ve Kelime Öğrenme - British English

1470-2864 arası İngilizce Kelime Yazılışı, Okunuşu ve Anlamı

MKARP-1000 Kullanma Kılavuzu