Türkçe için Kelime Temsillerinin Ö˘grenimi Learning Word
Transkript
Türkçe için Kelime Temsillerinin Ö˘grenimi Learning Word
Türkçe için Kelime Temsillerinin Öğrenimi Learning Word Representations for Turkish Mehmet Umut Sen, Hakan Erdogan Elektronik Mühendisliği Bölümü Sabancı Üniversitesi {umutsen,haerdogan}@sabanciuniv.edu Özetçe —Son yıllarda yüksek kaliteli kelime temsillerinin, bir çok doğal dil işleme problemlerinin çözümünde performansı artırmada başarılı oldukları görülmüştür. Kelime temsilleri, sözcük haznesindeki her bir kelimenin Öklit uzayında gerçel bir vektöre eşlemlenmesidir. Öğrenilen kelime temsillerinin özgül problem için faydalı olmasının yanında kelimeler arası doğrusal ilişki kurdukları da gözlemlenmiştir. Yeni tanıtılan atla-gram modeli, zengin anlamsal ve sözdizimsel kelime temsillerinin güdümsüz öğrenimini daha hızlı ve başarılı kılmıştır. İngilizce dili için sıklıkla kullanılmaya başlanan kelime temsillerinin henüz Türkçe için bir uygulaması bulunmamaktadır. Bu bildiride, atla-gram modelini büyük miktardaki bir Türkçe veritabanına uyguladık ve oluşturduğumuz soru bankalarıyla bu temsillerin kelime anlamları arasında ilişki kurma başarısını nicel olarak ölçtük. Oluşturduğumuz kelime temsilleri ve soru bankaları web sitemiz üzerinden akademik kullanıma açılmıştır. Anahtar Kelimeler—Kelime temsilleri, Doğal Dil İşleme, Derin Öğrenme Abstract—High-quality word representations have been very successful in recent years at improving performance across a variety of NLP tasks. These word representations are the mappings of each word in the vocabulary to a real vector in the Euclidean space. Besides high performance on specific tasks, learned word representations have been shown to perform well on establishing linear relationships among words. The recently introduced skipgram model improved performance on unsupervised learning of word embeddings that contains rich syntactic and semantic word relations both in terms of accuracy and speed. Word embeddings that have been used frequently on English language, is not applied to Turkish yet. In this paper, we apply the skip-gram model to a large Turkish text corpus and measured the performance of them quantitatively with the "question" sets that we generated. The learned word embeddings and the question sets are publicly available at our website. Keywords—Word embeddings, Natural Language Processing, Deep Learning I. G İR İ Ş Son yıllarda, derin sinir ağları (DSA) kullanılarak geliştirilen doğal dil işleme (DDİ) yöntemlerinin farklı DDİ problemleri üzerindeki başarısı literatürdeki çeşitli bildiriler ile gösterilmiştir. Adlandırılmış varlık tanıma, konuşma parçası etiketleme, metin gövdeleme, anlambilimsel rol etiketlendirme gibi problemlere uygulanan DSA yöntemleri, çoğunlukla İngilizce veritabanları üzerine uygulanmıştır. Bu yöntemlerin önemli bir ayağı, büyük metin veritabanlarından kec 978-1-4799-4874-114$31.00 2014 IEEE limeleri yüksek boyutlu sürekli vektörlere eşlemleyen güdümsüz öğrenme aşamasıdır. Bu şekilde oluşturulan sistemlerde, her kelime (w) için yoğun, düşük boyutlu (d) ve gerçek bir vektör (v w ∈ Rd ) öğrenilir ve bu vektör o kelimenin dağıtımlı temsilini oluşturur. Bu şekilde dağıtımlı kelime temsillerinin oluşturulmasının faydası bu vektörlerin kelimenin anlambilimsel ve sözdizimsel bilgisini yoğun bir şekilde düşük boyutta kodlamasıdır. Her bir boyutunun bir öznitelik gibi görülebileceği bu vektörler yüksek sayılardaki kelime gruplarını içlerinde barındırırlar. Kelime temsilleri genellikle belirli DDİ problemleri için ileri beslemeli sinir ağları [1] hiyerarşik modeller [2], [3] ve özyineli sinir ağları [4], [5] gibi derin öğrenme yöntemleri içinde kullanıldığı gibi çeşitli alışılagelmiş öznitelik tabanlı yöntemlerde de [6], [7] kullanılmışlardır. Bir çalışmada [8] kelime temsilleri aynı anda birden fazla DDİ problemine girdi olarak verilip temsillerin problemler arasında ortaklaşa öğrenimi sağlanmış ve doğruluk oranlarının arttığı görülmüştür. Başka bir çalışmada [9] öğrenilen temsillerin anlambilimsel olarak doğrusal ilişki içinde oldukları görülmüştür. Örneğin Kral ile Kraliçe vektörlerinin arasındaki fark vektörü Erkek ile Bayan vektörleri arasındaki fark vektörüne yakındır. Bu çıkarım ile kelime temsillerinin belirli bir DDİ problemi için değil ama genel olarak anlambilimsel ve sözdizimsel kalitesini nicel olarak ölçmek için kelime dörtlülerinden oluşan sorular hazırlanmıştır. Yeni bir çalışmada, kelime temsillerinin sinir ağları kullanılarak öğrenilmesinin çok uzun zaman alması problemine bir çözüm olarak atla-gram modeli geliştirilmiş [10], [11] ve kelime temsillerinin büyük veritabanlarından çok hızlı öğrenilmesi sağlanmıştır. İngilizce dili için sıklıkla kullanılan ve yüksek başarısı çokça kanıtlanmış kelime temsilleri -bildiğimiz kadarıylaTürkçe için henüz uygulanmamıştır. Çalışmamızda bu eksiği azaltmak ve DDİ üzerine çalışanların bu konuya ilgisini artırmak amacıyla büyük bir Türkçe veritabanında kelime temsilleri öğrenilmiştir. Yeni geliştirilen atla-gram modeli kullanılarak öğrenilen kelime temsillerinin kalitesi, oluşturulan Türkçe soru kümeleriyle nicel olarak ölçülmüştür. Elde edilen kelime temsil vektörleri ve oluşturulan soru kümeleri web sitesi üzerinden paylaşıma açılmıştır 1 . II. ATLA-GRAM MODEL İ Atla-gram modeli [10], [11], cümle içindeki bir kelimeyi logaritmik-doğrusal sınıflandırıcıya girdi olarak alır ve o kelimenin etrafındaki kelimeleri öngörmeye çalışır. Girdi olarak 1 http://myweb.sabanciuniv.edu/umutsen/research/ verilen kelime bir izdüşüm katmanı ile sürekli bir vektör haline getirilir ve sınıflandırıcıya verilir. Bu izdüşüm katmanının parametreleri, kelime temsillerini oluşturur. Matematiksel olarak göstermek gerekirse, eğer elimizde w1 , w2 , . . . wT şeklinde bir kelime disizi var ise, atla-gram modeli aşağıdaki hedef fonksiyonunu en-çoklamaktadır: Φ= T 1X T t=1 X log p(wt+j |wt ) (1) −c≤j≤c,j6=0 III. bölümde gösterildiği üzere eksi-örnekleme yöntemi hiyerarşik yumuşak-maksimum yönteminden doğruluk oranı ve hız olarak daha iyi çalışmaktadır ve sonraki deneyler bu yöntemle yapılmıştır. C. Sık Kelimelerin Seyreltilmesi Burada c verilen bir kelime için öngörülmeye çalışılan komşu kelime sayısının iki katıdır ve eğitim bağlamının büyüklüğünü temsil etmektedir. c sayısını artırdığımızda doğruluk oranları daha yüksek vektörler elde edilmesi beklenmektedir, ancak eğitim süresi uzamaktadır. Denklem (1)’deki p(wt+j |wt ), yumuşak-maksimum formülasyonunu kullanmaktadır: exp(y TwO v wI ) p(wO |wI ) = PW T w=1 exp(y w v wI ) yöntem, verilen bir girdi ve çıktı kelime ikilisi için sözcük haznesinden rastgele k adet kelimeyi yanlış çıktı kelimesi olarak örnekler ve koşullu olasılık formülasyonuna eksili bir ifadeyle yerleştirir. (2) Burada v w ve y w , w kelimesinin girdi ve çıktı temsil vektörlerini ve W kelime haznesindeki toplam kelime sayısını göstermektedir. Eğitimden sonra v w vektörü w kelimesinin temsil vektörü olarak kullanılır. Paydadaki değerin hesaplanması çok uzun zaman aldığı için bu formülasyon ile yapılan öğrenme elverişsizdir. Bu problemi çözmek için iki farklı yöntem önerilmiştir: A. Hiyerarşik Yumuşak-Maksimum Bu yöntem [3], yumuşak-maksimumun hesapsal olarak etkili bir yaklaşıklamasıdır ve ikili bir ağaçtan oluşmaktadır. Bu ağaçta, yapraklar kelime haznesindeki kelimelerdir ve yaprak olmayan düğümlerin de ayrı vektörel temsilleri bulunmaktadır. Herhangi bir kelimenin (1)’de tanımlanan koşullu olasılığı, ağacın kökünden çıktı-kelimenin bulunduğu yaprağa kadar her bir düğüm için vektörel iç çarpım yapılarak ve çarpımsal olarak birleştirilerek bulunur. Böylece sözcük haznesindeki her bir kelime için W tane ayrı değer bulmak yerine toplamda log2 (W ) tane değer bulunmaktadır, bu da eğitim süresini önemli ölçüde azaltmaktadır. Bu yöntemin iyi yanlarından bir tanesi her bir kelimenin sadece bir tane temsil vektörünün bulunmasıdır. Ağacın yapısı performansı önemli ölçüde etkilemektedir. Bu bildiride, daha önceki çalışmalarda önerildiği üzere [2], [4], [11] ikili Huffman ağacı kullanılmıştır. Ayrıntılar referanslarda bulunabilir. Oluşturduğumuz veritabanında bazı kelimeler çok sık bulunmaktadır ("ve":10 milyon, "bir":9 milyon). Böyle kelimeler, yüksek bulunma sıklıklarına oranla daha nadir geçen kelimelerden fazla bilgi vermemektedirler. Başka bir bakış açısıyla, öğrenme algoritması bir kelimeyi yeterince görmüşse daha fazla görmesi o kelimenin temsil vektörlerini çok fazla değiştirmeyecektir. Çok sık geçen ve daha nadir geçen kelimelerin arasındaki dengesizliği gidermek amacıyla daha önceden önerilen [11] buluşsal şu yöntem kullanılmıştır: her kelime wi aşağıdaki ihtimal değeriyle orantılı olarak eğitimde girdi olarak kullanılmamıştır: s t p(wi ) = 1 − (4) f (wi ) Burada f (wi ) kelimenin bulunma frekansı ve t, 0.001 olarak seçtiğimiz bir eşik değerdir. Bu eşik değerin altındaki frekansa sahip kelimeler seyreltilme kuralına tabi değildir. III. D ENEYLER Kelime temsil vektörlerinin eğitilmesi için 2 farklı metin veritabanı kullanılmıştır. Bunlardan ilki vikipedi verileri [14], ikincisi Boğaziçi Üniversitesi’nden paylaşılan haber ve başka örün sitelerinden toplanılmış arşivlerdir [15]. Vikipedi veritabanı -tablolar ve benzeri "temiz" metin olmayan öğeler çıkarıldığında- yaklaşık 52 milyon kelime, Boğaziçi-haber veritabanı 208 milyon ve diğer Boğaziçi veritabanı 270 milyon kelimeden oluşmaktadırlar. A. Ön-İşleme (3) Öncelikle veritabanları noktalama işaretlerinden ve metin olarak kabul edilemeyecek kısımlardan temizlenmiştir. Türkçe’nin zengin morfolojik yapısından ötürü kelimeleri köklerine ayırmak temsil vektörlerinin kalitesini etkilemektedir. Bu nedenle veritabanında 1000’den az sayıda görülmüş kelimeler Zemberek [16] araç takımıyla kök ve eklerine ayrılmıştır, gerisi olduğu gibi bırakılmıştır. Ayrıştırılamayan kelimeler yine Zemberek araç takımının ASCII karakter dönüştürücüsüne verilerek Türkçe olmayan klavyeden yazılmış kelimelerin dönüştürülmesi sağlanmıştır. Dönüştürücüden çıkan kelimeler tekrar ayrıştırıcıya verilmiş ve ayrıştırılamayanlar veritabanında olduğu haliyle bırakılmıştır. Ayrıştırıcı birden fazla seçenek verdiği durumda en uzun olan kök tercih edilmiştir ve kelimenin kökten sonraki parçası tek bir ek olarak alınmıştır (geldiklerinde ⇒ gelmek + _diklerinde). Burada wi sözcük haznesinden rastgele seçilmiş bir kelimedir ve σ(x) = 1/(1 + exp(−x)) sigmoid fonksiyonudur. Bu Kelimeler bu şekilde dönüştürüldükten ve hepsi küçük harfe çevrildikten sonra veritabanında 6’dan az sayıda görülen kelimeler çıkarılmıştır. En son elde ettiğimiz eğitim verisinde B. Eksi Örnekleme Eksi-örnekleme [11], gürültü karşıtsal kestirim yönteminin [12], [13] basitleştirilmiş halidir ve yumuşak maksimumdaki koşullu olasılık değerini (log p(wo |wI )) aşağıdaki formülle değiştirmektedir: log σ(y Two v wI ) + k X log σ(−y Twi v wI ) i=1 Tablo I: Anlambilimsel analoji soru kümeleri Küme İsmi Soru Sayısı Örnek Akrabalık Başkentler Eş-anlamlı İlçeler Para birimleri Zıt anlamlı 132 2970 3422 6466 156 2756 (kız → oğul) ⇔ (gelin → damat) (Tokyo → Japonya) ⇔ (Brüksel → Belçika) (sözcük → kelime) ⇔ (ırmak → nehir) (Konak → İzmir) ⇔ (Beyoğlu → İstanbul) (ABD → dolar) ⇔ (Hindistan → rupi) (barış → savaş) ⇔ (büyük → küçük) Tablo III: Grup soru kümeleri Ülkeler Tablo II: Sözdizimsel analoji soru kümeleri Küme İsmi Soru Sayısı Örnek Çoğullar Olumsuzlar Geçmiş Zaman Geniş Zaman 4830 756 3540 1560 (olay → olaylar) ⇔ (işlem → işlemler) (sever → sevmez) ⇔ (döner → dönmez) (bulmak → buldu) ⇔ (istemek → istedi) (etkilemek → etkiler) ⇔ (yaşamak → yaşar) yaklaşık 530 milyon kelime vardır ve kelime haznesindeki kelime sayısı -25 bini ek olmak üzere- yaklaşık 380 bindir. B. Nicel Doğruluk Oranları Birimler v D̂ vektörü bulunduktan sonra kelime haznesindeki, bu vektöre -kosinüs uzaklığı dikkate alındığında- en yakın temsil vektörüne sahip sözcük (A, B ve C hariç) cevap olarak alınır: v Tw v D̂ D̂ = arg max w kv w k v D̂ (6) Analojik çerçevede anlambilimsel ve sözdizimsel doğruluk oranlarını ölçmek için çeşitli soru kümeleri hazırladık. Bu soru kümelerinin tanımları ve çeşitli örnekler Tablo-I ve II’de verilmiştir. Bu şekilde toplamda 26588 farklı soru elde edilmiştir. İkinci test kategorisi, verilen 6 elemanlı bir kelime kümesinden kümeye ait olmayan kelimeyi bulmak üzerinedir. Kümeye ait olmayan kelime bulunurken, tüm kelimelerin temsil vektörlerinin ortalaması alınır ve öklit uzayında ortalama vektöre -kosinüs uzaklığı dikkate alındığında- en uzak olan vektöre sahip kelime seçilir. Soruları zorlaştırmak için anlambilimsel olarak birbirine yakın kelimelerden kümeler oluşturulmuştur. Örneğin ülke isimleri kıtalara göre gruplanmıştır ve verilen bir ülke setinde diğerleriyle aynı kıtada bulunmayan ülkenin bulunması istenmiştir (ör. İngiltere, Fransa, Hollanda, İrlanda, İsviçre, Cezayir) Bu soru kümelerinin türleri Tablo-III’te verilmiştir. Bu şekilde toplamda 2172 soru elde edilmiştir. C. Sonuçlar 1) Yöntem Karşılaştırması: Öncelikle, oluşturulan soru bankaları ile eksi-örnekleme ve hiyerarşik maksimum yöntemleri karşılaştırılmıştır. Eksi-örneklemede, her bir kelime için Hayvanlar İller 1029 476 31 198 438 Asya Afrika Doğu Avrupa Kuzey Avrupa Güney Avrupa Batı Avrupa Güney Amerika Kuzey Amerika ağırlık uzunluk sıcaklık alan basınç hacim zaman bilg. hafızası para meyve ağ. diğer ağ. kuşlar balıklar sürüngenler memeliler Marmara Ege Akdeniz Karadeniz Doğu Anadolu Güney Doğu Anadolu İç Anadolu Tablo IV: Doğruluk oranları - hiyerarşik maksimum ve eksiörnekleme Grup Anlambil. Sözdiz. Genel 58.83 Süre Çıkarılan kelime temsillerinin kalitesini nicel olarak ölçmek için farklı iki kategoride doğrusal test yapılmıştır. Bunlardan ilki analojik ilişki kurmak üzerinedir ve atla-gram modelinin tanıtıldığı çalışmada ingilizce dili için yapılmıştır [10], [11]. Bu kategoride her bir test sorusu 4 kelimeden oluşmaktadır ve "A ile B arasındaki ilişki C ile ne arasında vardır?" şeklindedir. Bu şekildeki soruları cevaplandırmak için temsil vektörleri arasındaki doğrusal ilişkiye bakılmıştır: (5) v D̂ = v B − v A + v C Ağaçlar Hiyerarşik-maks. İlk-1 İlk-3 23.02 28.67 25.29 35.77 43.58 38.91 İlk-10 Grup Eksi-örnekleme İlk-1 İlk-3 İlk-10 49.33 58.75 53.11 57.50 29.69 42.25 34.74 56.48 72.78 63.03 642 dakika 43.18 58.97 49.52 459 dakika Tablo V: Doğruluk oranları - ekli ve eksiz veritabanları Anlambil. Sözdiz. Genel Süre Grup Eksiz İlk-1 İlk-3 İlk-10 Grup İlk-1 İlk-3 İlk-10 61.00 35.40 43.17 38.52 60.80 74.68 66.38 57.50 29.69 42.25 34.74 43.18 58.97 49.52 56.48 72.78 63.03 48.42 60.21 53.16 453 dakika Ekli 459 dakika veritabanından 5 yanlış kelime rastgele seçilmiştir (Denklem(3)’te k = 5). Her iki yöntem için de eğitim bağlamının büyüklüğü 5 seçilmiştir (Denklem-(1)’de c = 5). Vektör boyutları 200 alınmıştır. Bu şekilde yapılan deneylerin sonuçları Tablo-IV’te verilmiştir. Eğer algoritmaya verilen herhangi bir sorunun cevabı ilk n tercih içinde varsa (n ∈ {1, 3, 10}) "İlkn" kategorisinde doğru cevap olarak sayılmıştır. Sonuçlara baktığımızda, eksi-örnekleme yönteminin hiyerarşik-maksimum yöntemini hem hız olarak hem de doğruluk oranı olarak geçtiğini görmekteyiz. Çıkarılacak başka bir sonuç da anlambilimsel doğruluk oranlarının sözdizimsel doğruluk oranlarından daha düşük olduğudur. Bunun olası bir sebebi, sözdizimsel sorularda çoğunlukla yüklem bulunması ve yüklem sayılarının veritabanında genellikle fazla olmasıdır. Ancak "eş-anlamlı" ve "zıt-anlamlı" gibi kelime sorularının -temsili vektörlerin doğrusal ilişkileri açısından- zorluğu da yadsınmamalıdır. Sonraki deneylerin hepsi eksi-örnekleme yöntemiyle yapılmıştır. 2) Eklerin Çıkarılması: Kelime temsillerinin kalitelerini ölçerken kullanılan sorularda ek olan kelimeler bulunmadığı için veritabanından eklerin çıkarılması daha temiz veritabanı oluşturacağından doğruluk oranını artırması beklenmektedir. Bu amaçla ekler veritabanından çıkarılarak karşılaştırma yapılmıştır ve sonuçlar Tablo-V’te verilmiştir. Aşağıda gösterilen deneyler eklerin çıkarıldığı veritabanından yapılmıştır. Sozdizimsel Dogruluk Oranlari Anlambilimsel Dogruluk Oranlari Toplam Dogruluk Oranlari 70 65 80 65 60 75 60 55 55 50 70 50 45 Dogruluk Orani Dogruluk Orani Dogruluk Orani 65 45 40 40 35 35 30 60 55 50 45 30 25 100 ilk−1 ilk−3 ilk−5 ilk−10 grup 25 200 300 400 500 600 40 ilk−1 ilk−3 ilk−5 ilk−10 20 100 700 35 200 300 400 500 600 700 30 100 (a) Toplam 200 300 400 500 600 700 Vektor Boyutu Vektor Boyutu Vektor Boyutu ilk−1 ilk−3 ilk−5 ilk−10 (b) Anlambilimsel (c) Sözdizimsel Şekil 1: Doğruluk oranlarının vektör boyutuna göre değişimi. Tablo VI: Vektörlerinin boyutlarının eğitim sürelerine etkisi Boyut 100 200 300 400 500 600 700 Süre (dakika) 299 453 539 735 899 994 1171 [5] [6] [7] 3) Vektör Boyutlarının Etkisi: Bu bölümde temsil vektörlerinin boyutunun anlambilimsel ve sözdizimsel doğruluk oranlarına etkisi incelenmiştir. Bu amaçla eksi-örnekleme yöntemiyle farklı vektör boyutlarında temsiller öğrenilmiştir. Diğer parametreler önceki deneylerle aynı alınmıştır. Vektör boyutunun doğruluk oranlarına etkisi Şekil-1’de gösterilmiştir. Bu sonuçlara bakıldığında, vektör boyutlarındaki değişimin genel olarak doğruluk oranlarını etkilediği görülmüştür. Bu etki anlambilimsel sorularla yapılan testte daha fazladır. Vektör boyutlarının eğitim sürelerine etkisi Tablo-VI’da verilmiştir. IV. S ONUÇ VE G ELECEK Ç ALI ŞMALAR Bu bildiride, büyük bir Türkçe veritabanı üzerinde kelime temsil vektörleri öğrenilmiştir. Oluşturulan anlambilimsel ve sözdizimsel kelime ilişkilerinden oluşan soru kümeleri ile vektörlerin doğrusal başarısı ölçülmüştür. İngilizcede başarılı bir şekilde kullanılan kelime temsilleri ve derin öğrenmenin Türkçe üzerine çalışmaları teşvik etmek amacıyla bu bildiriyi yayınladık. Herhangi bir DDİ problemini kelime temsillerini kullanarak çözen bir sistemin temsillerinin ilklendirilmesi için bu bildirideki yöntem kullanılabilir. Ayrıca Türkçe’nin zengin morfolojik yapısını dikkate alan bir model [17] geliştirilmesi, kelime temsillerinin başarımını önemli ölçüde artıracaktır. [8] [9] [10] [11] [12] [13] [14] [15] K AYNAKÇA [1] Yoshua Bengio, Réjean Ducharme, Pascal Vincent, and Christian Janvin, “A neural probabilistic language model,” J. Mach. Learn. Res., vol. 3, pp. 1137–1155, Mar. 2003. [2] Andriy Mnih and Geoffrey Hinton, “A Scalable Hierarchical Distributed Language Model,” in Advances in Neural Information Processing Systems, 2008, vol. 21. [3] Frederic Morin and Yoshua Bengio, “Hierarchical probabilistic neural network language model,” in AISTATS’05, 2005, pp. 246–252. [4] Tomas Mikolov, Stefan Kombrink, Lukas Burget, Jan Cernocký, and Sanjeev Khudanpur, “Extensions of recurrent neural network language model.,” in ICASSP. 2011, pp. 5528–5531, IEEE. [16] [17] Tomas Mikolov, Martin Karafiát, Lukas Burget, Jan Cernocký, and Sanjeev Khudanpur, “Recurrent neural network based language model.,” in INTERSPEECH, Takao Kobayashi, Keikichi Hirose, and Satoshi Nakamura, Eds. 2010, pp. 1045–1048, ISCA. Terry Koo, Xavier Carreras, and Michael Collins, “Simple semisupervised dependency parsing,” in In Proc. ACL/HLT, 2008. Lev Ratinov and Dan Roth, “Design challenges and misconceptions in named entity recognition,” in Proceedings of the Thirteenth Conference on Computational Natural Language Learning, Stroudsburg, PA, USA, 2009, CoNLL ’09, pp. 147–155, Association for Computational Linguistics. Ronan Collobert and Jason Weston, “A unified architecture for natural language processing: Deep neural networks with multitask learning,” in Proceedings of the 25th International Conference on Machine Learning, New York, NY, USA, 2008, ICML ’08, pp. 160–167, ACM. Tomas Mikolov, Wen tau Yih, and Geoffrey Zweig, “Linguistic regularities in continuous space word representations.,” in HLT-NAACL. 2013, pp. 746–751, The Association for Computational Linguistics. Tomas Mikolov, Kai Chen, Greg Corrado, and Jeffrey Dean, “Efficient estimation of word representations in vector space,” CoRR, vol. abs/1301.3781, 2013. Tomas Mikolov, Ilya Sutskever, Kai Chen, Gregory S. Corrado, and Jeffrey Dean, “Distributed representations of words and phrases and their compositionality.,” in NIPS, Christopher J. C. Burges, Léon Bottou, Zoubin Ghahramani, and Kilian Q. Weinberger, Eds., 2013, pp. 3111–3119. Michael Gutmann and Aapo Hyvärinen, “Noise-contrastive estimation of unnormalized statistical models, with applications to natural image statistics,” Journal of Machine Learning Research, vol. 13, pp. 307–361, 2012. A. Mnih and Y. W. Teh, “A fast and simple algorithm for training neural probabilistic language models,” in Proceedings of the International Conference on Machine Learning, 2012. “trwikimedia dump progress on 20131221,” http://dumps.wikimedia.org/trwikimedia/20131221/, Accessed: 2013-12-25. Haşim Sak, Tunga Güngör, and Murat Saraçlar, “Turkish language resources: Morphological parser, morphological disambiguator and web corpus,” in GoTAL 2008. 2008, vol. 5221 of LNCS, pp. 417–427, Springer. Ahmet Afsin Akin and Mehmet Dundar Akin , “Zemberek, an open source nlp framework for turkic languages,” Yeni versiyon: https://github.com/ahmetaa/zemberek-nlp, 2007. Minh-Thang Luong, Richard Socher, and Christopher D. Manning, “Better word representations with recursive neural networks for morphology,” in CoNLL, Sofia, Bulgaria, 2013.