Bildiri Tam Metinleri - Department Of Statistics
Transkript
Bildiri Tam Metinleri - Department Of Statistics
VII. İSTATİSTİK GÜNLERİ SEMPOZYUMU 28 – 30 Haziran 2010 Orta Doğu Teknik Üniversitesi Ġstatistik Bölümü BİLDİRİ TAM METİNLERİ e–KİTABI Editörler H. Öztaş AYHAN Ceylan TALU YOZGATLIGİL Yayın: Ankara, Mart 2011 VII. ĠSTATĠSTĠK GÜNLERĠ SEMPOZYUMU BĠLDĠRĠLER KĠTABI 2010 ÖNSÖZ 7. Ġstatistik Günleri Sempozyumu, 28 – 30 Haziran 2010 tarihleri arasında Orta Doğu Teknik Üniversitesi, Fen ve Edebiyat Fakültesi, Ġstatistik Bölümü tarafından, Ankara‟da ODTÜ Kültür ve Kongre Merkezi salonlarında gerçekleĢtirilmiĢtir. Sempozyumda, 4 adet davetli bildiri ve 68 adet katkılı bildiri baĢarı ile sunulmuĢtur. Sempozyumda sunulan bildirilerin bir bölümü bilimsel hakemlik süreci sonunda bu elektronik Sempozyum Bildirileri Kitabı‟nda yayınlanmıĢtır. Sunulan bildirilerin diğer bir bölümü ise, Ġstatistik AraĢtırma Dergisi‟nin bu sempozyum için planlanan özel sayısında yayınlanmak amacı ile bilimsel hakemlik sürecine tabi tutulmuĢlardır. Bizlere bu olanağı sağlayan TÜĠK BaĢkan Vekili sayın Ömer TOPRAK‟a ve dergi editorü Profesör Fetih YILDIRIM ve editor yardımcısı Yardımcı Doçent Özlem ĠLK‟e teĢekkür ederim. Sempozyum Bildiriler Kitabı‟nda yayınlanmak üzere sunulan bildiri tam metinleri konunun uzmanı olan hakemler tarafından değerlendirilmiĢ ve gerekli düzeltmeler elektronik ortamda gerçekleĢtirilmiĢtir. Hakemlik sürecinde yardımlarını esirgemeyen değerli bilim insanlarına teĢekkür ederiz. Sempozyum bilimsel programının çok renkli olmasını çok özel olan davetli konuĢmacılarımıza borçluyuz. Kendi özel bilimsel çalıĢma alanlarında dünyada ve ülkemizde önemli söz sahibi olan Profesör Orhan GÜVENEN, Profesör Ġ. Burhan TÜRKġEN, Profesör Ġsmihan BAYRAMOĞLU ve Profesör Fikri AKDENĠZ‟e sempozyuma yaptıkları katkılar nedeniyle Ģükranlarımı sunarım. Sempozyumda oturum baĢkanı olarak, sempozyum bildirilerine katkıda bulunan tüm meslektaĢlarıma da teĢekkürlerimi sunarım. Bu sempozyumun gerçekleĢmesinde değerli desteklerini esirgemeyen Rektörümüz Profesör Ahmet ACAR‟a Ģükranlarımızı sunarız. Ayrıca, bu sempozyumun gerçekleĢmesinde değerli görüĢleriyle katkıda bulunan Sempozyum Onur Kurulu ve Sempozyum Bilimsel DanıĢma Kurulu üyelerine teĢekkür ederim. Sempozyum hazırlık ve uygulamasının tüm aĢamalarında yer alan değerli çalıĢma arkadaĢlarıma ve özverili çalıĢmalarından dolayı Sempozyum Düzenleme Kurulu ve Bölümümüzün tüm idari personeline teĢekkür ederim. Sempozyumun baĢarılı bir Ģekilde sonuçlanmasına katkıda bulunan ODTÜ‟nin tüm çalıĢanlarına ayrıca teĢekkür ederim. Sempozyumun gerçekleĢmesinde önemli mali desteklerini esirgemeyen Türkiye Halk Bankası Genel Müdür Yardımcısı Osman ARSLAN ve Tanıtım ve Halkla ĠliĢkiler Dairesi BaĢkanı Yalçın KAYA‟ya Ģükranlarımı sunuyorum. Sempozyum düzenlemenin tüm aĢamalarındaki desteklerinden dolayı ETĠX Organizasyon ġirketi yönetici ve çalıĢanlarına teĢekkür ederim. Sempozyumun, kapanıĢ yemeğinin düzenlenmesinde yaptıkları özverili çalıĢmaları nedeniyle, Hacettepe Üniversitesi Genel Sekreteri Profesör Turhan MENTEġ ve Beytepe Akademik Kafeteryası yöneticilerine teĢekkür ederim. Ġstatistik bilim insanlarının bir araya geldiği bu tür sempozyumlar, tecrübeli istatistikçiler ile genç akademisyen ve araĢtırmacılarımızın birlikteliğini sağlamakta ve gençlerin motivasyonunu artıran önemli bir toplantı olmaktadır. Gelecek yıllarda, bu sempozyumun sürekliliğinin, istatistikçiler için önemli bir bilimsel buluĢma ortamı olmaya devam etmesini diliyorum. Profesör H. ÖztaĢ AYHAN ODTÜ Ġstatistik Bölümü BaĢkanı 7. ĠGS 2010 Düzenleme Kurulu adına ORTA DOĞU TEKNĠK ÜNĠVERSĠTESĠ, FEN-EDEBĠYAT FAKÜLTESĠ, ĠSTATĠSTĠK BÖLÜMÜ | i VII. ĠSTATĠSTĠK GÜNLERĠ SEMPOZYUMU BĠLDĠRĠLER KĠTABI 2010 SEMPOZYUM ONUR KURULU Prof. Dr. Ahmet Acar, Orta Doğu Teknik Üniversitesi Rektörü Prof. Dr. Cüneyt Can, ODTÜ Fen ve Edebiyat Fakültesi Dekanı Prof. Dr. Canan Özgen, ODTÜ Fen Bilimleri Enstitüsü Müdürü SEMPOZYUM DANIġMA KURULU Prof. Dr. Fikri Akdeniz, Çukurova Üniversitesi Prof. Dr. Soner Gönen, Gazi Üniversitesi Prof. Dr. Hüseyin Tatlıdil, Hacettepe Üniversitesi Prof. Dr. Serdar Kurt, Dokuz Eylül Üniversitesi Prof. Dr. Ömer L. Gebizlioğlu, Ankara Üniversitesi Doç. Dr. Mehmet Ali Cengiz, Ondokuz Mayıs Üniversitesi SEMPOZYUM DÜZENLEME KURULU Prof. Dr. H. ÖztaĢ Ayhan Prof. Dr. AyĢen Dener Akkaya Doç. Dr. Ġnci Batmaz Doç. Dr. BarıĢ Sürücü Yard.Doç. Dr. Zeynep Kalaylıoğlu Yar.Doç. Dr. Özlem Ġlk Yar.Doç. Dr. B. Burçak BaĢbuğ Erkan Yar.Doç.Dr. Ceylan Talu Yozgatlıgil Yar.Doç.Dr. Vilda Purutçuoğlu Dr. Ayça Dönmez ArĢ.Gör. Sipan Aslan ArĢ.Gör. Sibel Balcı ArĢ.Gör. Könül Bayramoğlu ArĢ.Gör. Elçin Kartal ArĢ.Gör. Gül Ġnan ArĢ.Gör. Tuğba Erdem ArĢ.Gör. Özgür Asar ArĢ.Gör. Ceyda Yazıcı ArĢ.Gör. Olcay Öztürk ORTA DOĞU TEKNĠK ÜNĠVERSĠTESĠ, FEN-EDEBĠYAT FAKÜLTESĠ, ĠSTATĠSTĠK BÖLÜMÜ | ii VII. ĠSTATĠSTĠK GÜNLERĠ SEMPOZYUMU BĠLDĠRĠLER KĠTABI 2010 ĠÇĠNDEKĠLER NO 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 MAKALE ADI AĞIRLIKLI HEDEF PROGRAMLAMA VERĠ ZARFLAMA ANALĠZĠ YÖNTEMĠ ĠLE TÜRKĠYE‟DEKĠ ĠLLERĠN BAġARIM DEĞERLENDĠRMESĠ H.Hasan ÖRKÇÜ, Hasan BAL ANKARA HAVA KĠRLĠLĠĞĠ ZAMAN SERĠSĠNĠN ÇÖZÜMLENMESĠNDE KLASĠK VE BULANIK ZAMAN SERĠLERĠ YAKLAġIMLARININ KARġILAġTIRILMASI Erol EĞRĠOĞLU, Ufuk YOLCU, Ç.Hakan ALADAĞ, V.Rezan USLU BURR XII DAĞILIMININ PARAMETRELERININ ĠLERLEYEN TÜR ĠLK BOZULMA SANSÜRLEMEYE DAYALI GÜVEN ARALIKLARI VE GÜVEN BÖLGELERI CoĢkun KUġ, Yunus AKDOĞAN DOGRUSAL OLMAYAN REGRESYONDA BAZI PARAMETRE ARALIK TAHMiNLEME YONTEMLERiNiN KIYASLANMASI Atıf EVREN ESENBOĞA, ATATÜRK VE LONDON CITY HAVAALANLARINDAKĠ MEVSĠMSEL HAREKETLĠLĠĞĠN GÖSTERMELĠK DEĞĠġKEN YÖNTEMĠYLE TESPĠT EDĠLMESĠ Deniz KONAK, Vilda PURUTÇUOĞLU GAUSS RASTGELE YÜRÜYÜġ SÜRECĠNĠN MAKSĠMUNUN MOMENTLERĠ ĠÇĠN YAKLAġIK FORMÜLLER Fikri GÖKPINAR, Tahir KHANĠYEV ĠLERĠ BESLEMELĠ YAPAY SĠNĠR AĞLARI ĠLE ÖNGÖRÜ ĠÇĠN GĠZLĠ TABAKA SAYISI ÜZERĠNE BĠR ARAġTIRMA Faruk ALPASLAN, Ebrucan TĠRĠNG, Erol EĞRĠOĞLU ĠSTATĠSTĠK'TE ENTROPĠYE DAYALI UYUM ÖLÇÜLERĠNĠN DĠĞER UYUM ÖLÇÜLERĠ ĠLE KIYASLANMASI Atıf EVREN L-SIRALI KÜME ÖRNEKLEMESĠ KULLANILARAK YIĞIN ORTALAMASININ TAHMĠN EDĠLMESĠ Nilay AKINCI, Yaprak Arzu ÖZDEMĠR ÖLÇÜM YETERLĠLĠK PARAMETRELERĠNĠN TAHMĠN EDĠCĠLERĠ VE GÜVEN ARALIKLARI Ümit YAMAN, Yunus AKDOĞAN, Ahmet PEKGÖR, CoĢkun KUġ ONDOKUZ MAYIS ÜNĠVERSĠTESĠ TIP FAKÜLTESĠ BEYĠN CERRAHĠSĠ POLĠKLĠNĠĞĠNDE SĠMÜLASYON YARDIMIYLA HASTA BEKLEME SÜRESĠNĠN AZALTILMASI Faruk ALPASLAN, Özge CAĞCAĞ, Erol EĞRĠOĞLU PARETO MÜDAHALELĠ YARI-MARKOV RASTGELE YÜRÜYÜġ SÜREÇĠ ĠÇĠN ASĠMPTOTĠK SONUÇLAR Rovshan ALIYEV, Tülay KESEMEN, Ġhsan ÜNVER RCMARS-SAĞLAMCMARSYÖNTEMĠVESAYISAL BĠRUYGULAMA AyĢe ÖZMEN, Gerhard-Wilhelm WEBER, Ġnci BATMAZ SARIMA MODELĠ VE ELMAN YAPAY SĠNĠR AĞININ MELEZ YAKLAġIMI ĠLE ANKARAHAVA KALĠTESĠ VERĠLERĠNĠN ÇÖZÜMLENMESĠ ÇağdaĢ Hakan ALADAĞ, Ufuk YOLCU, Erol EĞRĠOĞLU SIRALI KÜME ÖRNEKLEMESĠ TASARIMINDA YIĞIN ORTALAMASINA ĠLĠġKĠN HĠPOTEZTESTĠ Yaprak Arzu ÖZDEMĠR, Fikri GÖKPINAR TLDOLAR DÖVĠZ KURU VERĠLERĠNĠN BULANIK ZAMAN SERĠSĠ YAKLAġIMLARI ĠLE ÖNGÖRÜSÜ Cem KOÇAK, Erol EĞRĠOĞLU, Ufuk YOLCU, ÇağdaĢ Hakan ALADAĞ HETEROJEN VARYANS DURUMUNDA ORTALAMALARIN EġĠTLĠĞĠ ĠÇĠN YENĠDEN ÖRNEKLEME TEKNĠKLERĠNE DAYALI BĠR ÇALIġMA Esra YĠĞĠT, Hamza GAMGAM UYARLANMIġ DURBĠN TESTĠ ĠÇĠN PERMÜTASYON TESTĠ VE BĠR SĠMÜLASYON ÇALIġMASI Fikri GÖKPINAR, Hülya BAYRAK SAYFA 1-8 9-15 16-24 25-34 35-43 44-52 53-58 59-68 69-79 80-88 89-94 95-100 101-108 109-114 115-122 123-129 130-140 141-147 ORTA DOĞU TEKNĠK ÜNĠVERSĠTESĠ, FEN-EDEBĠYAT FAKÜLTESĠ, ĠSTATĠSTĠK BÖLÜMÜ | iii VII. ĠSTATĠSTĠK GÜNLERĠ SEMPOZYUMU BĠLDĠRĠLER KĠTABI 2010 AĞIRLIKLI HEDEF PROGRAMLAMA VERĠ ZARFLAMA ANALĠZĠ YÖNTEMĠ ĠLE TÜRKĠYE‟DEKĠ ĠLLERĠN BAġARIM DEĞERLENDĠRMESĠ H.Hasan ÖRKCÜ* Hasan BAL** ÖZET Bu çalıĢmada, Türkiye‟deki 81 ilin baĢarım değerlendirmesi klasik veri zarflama analizi (CCR modeli) ve ağırlıklı hedef programlama veri zarflama analizi yöntemleri ile incelenmiĢtir.Elde edilen sonuçlar ağırlıklı hedef programlama veri zarflama analizi yönteminin klasik veri zarflama analizi yöntemine göre daha iyi bir alternatif olduğunu göstermiĢtir. Anahtar Kelimeler: Veri zarflama analizi, hedef programlama, illerin etkinliği. EVALUATION FOR PERFORMANCES OF COUNTRIES IN TURKEY BY WEIGHTED GOAL PROGRAMMING DATA ENVELOPMENT ANALYSIS ABSTRACT In this study, the efficiency evaluation of 81 countries in Turkey was examined by classical data envelopment analysis (CCR model) and weighted goal programming data envelopment analysis methods. The obtained results show that weighted goal programming data envelopment analysis method is a better alternative according to classical data envelopment analysis method. Keywords: Data Envelopment Analysis, goal programming, efficiency of countries. GĠRĠġ Karar verme birimlerinin (KVB) göreli etkinliklerinin ölçülmesi amacı ile geliĢtirilmiĢ olan Veri Zarflama Analizinin (VZA) uygulamaları geliĢtikçe yeni problemler de ortaya çıkmıĢtır (Adler vd., 2002). Birbirine bağlı olan bu problemler zayıf ayırt edilebilme gücü problemi, gerçekçi olmayan ağırlık dağılımı problemi ve etkin KVB‟ler için ağırlıkların çoklu optimal çözümlere sahip olması problemidir. Zayıf ayırt edilebilme gücü problemi, çok fazla sayıda birimin etkin olarak değerlendirilmesidir. * AraĢ.Gör.Dr., Gazi Üniversitesi, Fen Edebiyat Fakültesi, Ġstatistik Bölümü, 0650 Ankara, hhorkcu@gazi.edu.tr ** Prof.Dr., Gazi Üniversitesi, Fen Edebiyat Fakültesi, Ġstatistik Bölümü, 0650 Ankara, hasanbal@gazi.edu.tr ORTA DOĞU TEKNĠK ÜNĠVERSĠTESĠ, FEN-EDEBĠYAT FAKÜLTESĠ, ĠSTATĠSTĠK BÖLÜMÜ | 1 VII. ĠSTATĠSTĠK GÜNLERĠ SEMPOZYUMU BĠLDĠRĠLER KĠTABI 2010 Türkiye farklı topoğrafya ve iklim özelliklerinin meydana getirdiği en geneli ile yedi coğrafi bölgeden oluĢmakta ve bu bölgeler arasında ekonomik, sosyal ve kültürel açıdan göreli geliĢmiĢlik farklar bulunmaktadır. Göreli olarak az geliĢmiĢ yörelerin geliĢmiĢlik düzeylerinin yükseltilerek, bölgelerarası geliĢmiĢlik farkların azaltılması, ülke genelinde ekonomik büyüme ile birlikte sağlıklı bir sosyal ve kültürel geliĢmenin ve refah dağılımının sağlanması, temel bir hedef olarak ele alınmıĢtır. Bu hedefe yönelik olarak izlenen ekonomik ve sosyal politikalar ile uygulanan teĢvik tedbirlerine ve gösterilen çabalara karĢın geliĢmedeki bölgelerarası dengesizlikler önemini korumaktadır.Bu amaçlarla Devlet Planlama TeĢkilatı (DPT) iller ve bölgeler seviyesinde performans araĢtırmaları yapmaktadır. Bu araĢtırmalar bir çok değiĢkenli istatistiksel analiz yöntemi olan temel bileĢenler analizi ile yapılmaktadır. Bu çalıĢmada, klasik VZA yöntemindeki zayıf ayırt edilebilme problemine seçenek olarak önerilen ağırlıklı hedef programlama modeli ile ülkemizdeki 81 ilin sosyo-ekonomik baĢarım değerlendirmesi ele alınmıĢtır. Önerilen ağırlıklı hedef programlama modeli ile illerin gerçek baĢarımları ortaya çıkartılması hedeflenmektedir. VERĠ ZARFLAMA ANALĠZĠ YÖNTEMĠ VZA ilk olarak Charnes vd. (1978) tarafından, ürettikleri mal veya hizmet açısından birbirlerine benzer KVB‟lerin göreli etkinliklerinin ölçülmesi amacı ile geliĢtirilmiĢ parametrik olmayan bir tekniktir.Bu yöntemin sahip olduğu özellikleri kısaca özetlersek; her KVB‟deki etkinsizlik miktarını ve kaynaklarını tanımlayabilmesi, her bir KVB‟nin etkinlik değeri diğerlerine göre hesaplandığından hesaplanan etkinliklerin göreli etkinlikler olması ve değiĢkenler üzerinde herhangi bir fonksiyonel varsayım öne sürmemesidir. VZA‟ da herhangi bir birimin etkinliği CCR modeli olarak bilinen temel etkinlik modeli ile ölçülür (Cooper vd., 2000). Girdi yönlü CCR modeli (1) ile verilmektedir. s z p max ur yrp r 1 Kısıtlar: m v x i 1 s m u y v x r 1 r rj i 1 i ij i ip 1 0 , j 1, . . . , n (1) ur 0 , r 1, . . . , s vi 0 , i 1, . . . , m ORTA DOĞU TEKNĠK ÜNĠVERSĠTESĠ, FEN-EDEBĠYAT FAKÜLTESĠ, ĠSTATĠSTĠK BÖLÜMÜ | 2 VII. ĠSTATĠSTĠK GÜNLERĠ SEMPOZYUMU BĠLDĠRĠLER KĠTABI 2010 Burada, p indisi etkinliği hesaplanacak KVB‟ni, x girdileri, y çıktıları, z ilgili birimin etkinlik değerini, n KVB sayısını, m girdi sayısını, s çıktı sayısını simgelemektedir. (1) modelinde z *p 1 ise KVBp etkin olarak değerlendirilir. Etkinlik puanı 1‟in altında olan her birim de etkin olmayan olarak değerlendirilecektir. Klasik VZA modeli olarak da adlandırılan CCR modeli çok sayıda birimi etkin olarak değerlendirir.Bu durum birimlerin birbirleri ile karĢılaĢtırılmalarını, etkin olmayan birimler için etkinliklerini geliĢtirici politikalar üretmelerini sağlayacak ve bu birimlerin referans olarak alabilecekleri birimleri seçmelerini zorlaĢtırmaktadır. Önerilen hedef programlamaya dayalı VZA yaklaĢımı Li ve Reeves (1999) tarafından önerilen çok ölçütlü VZA yaklaĢımına dayanmaktadır ve bu model ile Türkiye‟deki 81 ilin sosyo-ekonomik baĢarımları incelenmektedir. AĞIRLIKLI HEDEF PROGRAMLAMA VERĠ ZARFLAMA ANALĠZĠ YÖNTEMĠ Li ve Reeves (1999) üç farklı etkinlik ölçütlerine göre yeni bir etkinlik modeli önermiĢtir. Bu etkinlik ölçütleri ilgili birime ait etkinlikten sapmanın minimum yapılması (etkinliğin maksimum yapılması), etkinlikten sapmalar toplamının minimum yapılması ve en büyük etkinlik sapmasının minimum yapılmasıdır.Ağırlıklı hedef programlama etkinlik modelinde bütün etkinlik ölçütlerinin aynı öneme sahip olduğu ağırlıklı hedef programlama yöntemi ele alınmaktadır.Ağırlıklı hedef programlama modeli ile daha birimlerin klasik CCR modeline göre daha makul bir sıralamaları yapılabilmektedir. Ağırlıklı hedef programlama VZA yöntemi (AGHPVZA) model (2) ile verilmektedir. min a d1 d1 d2 d3j + d j Kısıtlar: m v x i ip i 1 d1 d1 1 s u y r r 1 rp (2) 2 2 d d 1 s m r 1 i 1 ur yrj vi xij d j 0 , j 1, 2, . . . , n M d j d3j d3j 0 , j 1, 2, . . . , n ur 0, r 1, 2, . . . ,s vi 0, i 1, 2, . . . ,m d j 0, j 1, 2, . . . , n ORTA DOĞU TEKNĠK ÜNĠVERSĠTESĠ, FEN-EDEBĠYAT FAKÜLTESĠ, ĠSTATĠSTĠK BÖLÜMÜ | 3 VII. ĠSTATĠSTĠK GÜNLERĠ SEMPOZYUMU BĠLDĠRĠLER KĠTABI d1 , d1 , d2 , d2 , d3j , d3j 0 2010 , j 1, 2, . . . , n Bu modelde, ele alınan KVB için, d1 ve d1 değiĢkenleri girdilerin toplamının bir olması hedefinden sırasıyla istenmeyen ve istenen sapmaları, d 2 değiĢkeni ağırlıklı çıktı toplamı hedefinin bir etkinlik değerinden istenen sapmasını, d 2+ değiĢkeni ağırlıklı çıktı toplamı hedefinin bir etkinlik değerinden istenmeyen sapmasını, d3 j değiĢkenleri M en büyük sapmayı simgelemek üzere M d j 0 , j 1, 2, . . . , n hedefinden istenmeyen sapmaları d3j ve değiĢkenleri M d j 0 , j 1, 2, . . . , n hedefinden istenen sapmaları simgelemektedir. d 1 d1 d2 d3j + d j baĢarı fonksiyonunda istenmeyen sapmalara eĢit ağırlık verilmektedir. Bu modelde amaçlanan bütün istenmeyen sapma değiĢkenlerine aynı ağırlığı vererek d1 , d 2 , ve d 3j sapmalarını minimum yapmaktır (Bal ve Örkcü, 2007; Bal vd. 2010). ĠLLERĠN ETKĠNLĠK DEĞERLENDĠRMESĠ Bu bölümde ülkemizdeki 81 ilin sosyo-ekonomik performansı klasik CCR modeli ve önerilen ağırlıklı hedef programlama VZA yöntemleri ile incelenmiĢtir. Modellerin çözümünde WINQSB programından yararlanılmıĢtır. VZA‟ da değiĢkenlerin girdi ve çıktı olarak ayrılması gerekir. DeğiĢkenlerin, girdi ve çıktı olarak ayrılması birim üzerindeki etkilerine bağlıdır.Retzlaff-Roberts (1997), girdi ve çıktı değiĢkenleri yerine birimler üzerinde pozitif ve negatif etkili değiĢkenler kavramını kullanmayı uygun bulmuĢtur. ArtıĢı birimin daha iyi olarak değerlendirilmesini sağlayan değiĢkenlerin pozitif etkili, tersine düĢüĢü birimin daha iyi olarak değerlendirilmesini sağlayan değiĢkenlerin ise negatif etkili olarak alınmasını önermiĢtir. Çıktı (pozitif etkili) değiĢkenler ve girdi (negatif etkili) değiĢkenler, aĢağıda listelenmiĢtir. Veriler DPT veri tabanından alınmıĢtır (DPT, 2008). Çıktılar: y1 : ġehirleĢme oranı, y2 : Tarım sektöründe çalıĢan nüfusun toplam nüfusa oranı, y3 : Okur-yazar nüfus oranı, y4 : KiĢi baĢına düĢen milli gelir. Girdiler x1 : Bebek ölüm oranı, x2 : KiĢi baĢına belediye harcamaları, x3 : KiĢi baĢına yatırım harcamaları. ORTA DOĞU TEKNĠK ÜNĠVERSĠTESĠ, FEN-EDEBĠYAT FAKÜLTESĠ, ĠSTATĠSTĠK BÖLÜMÜ | 4 VII. ĠSTATĠSTĠK GÜNLERĠ SEMPOZYUMU BĠLDĠRĠLER KĠTABI 2010 Klasik CCR modeli ile 50 il etkin bulunmuĢtur (Adana, Adıyaman, Ağrı, Ankara, Antalya, . . . , Tekirdağ, Tokat, Kırıkkale, Kilis, Osmaniye). Buradan illerin %61‟inin CCR modeli ile etkin olarak değerlendirildiği söylenebilir. Ağırlıklı hedef programlama yaklaĢımı ile sadece 4 il etkin bulunmuĢ ve illerin daha makul sıralamaları ve ayrımları sağlanmıĢtır. Her iki model ile de elde edilen etkinlik sonuçları ġekil 1‟de özetlenmiĢtir. SONUÇ Elde edilen sonuçlardan, illerin sosyo-ekonomik baĢarımlarının değerlendirilmesinde ağırlıklı hedef programlama yaklaĢımının klasik CCR modeline göre çok daha iyi bir seçenek olduğu söylenebilir. CCR modeli 81 ilin yarısından fazlasını etkin olarak değerlendirmiĢ ve iller sosyo-ekonomik baĢarımları bakımından birbirinden sağlıklı bir biçimde ayrılamamıĢlardır. Ağırlıklı hedef programlamaya yaklaĢımı ise sadece dört ili etkin olarak değerlendirmiĢ ve diğer illere de makul etkinlik değerleri atamıĢtır. Ağırlıklı hedef programlamanın etkin olarak değerlendirdiği illerin Ankara, Bursa, Ġstanbul, Ġzmir olması dikkat çekicidir. ORTA DOĞU TEKNĠK ÜNĠVERSĠTESĠ, FEN-EDEBĠYAT FAKÜLTESĠ, ĠSTATĠSTĠK BÖLÜMÜ | 5 Kocaeli Kırşehir Kırklareli Kayseri Kastamonu Kars İzmir İstanbul Mersin Isparta Hatay Hakkari Gümüşhane Giresun Gaziantep Eskişehir Erzurum Erzincan Elazığ Edirne Diyarbakır Denizli Çorum Çankırı Çanakkale Bursa Burdur Bolu Bitlis Bingöl Bilecik Balıkesir Aydın Artvin Antalya Ankara Amasya Ağrı Afyon Adıyaman Adana İller (Adana-Kocaeli) | 6 ORTA DOĞU TEKNĠK ÜNĠVERSĠTESĠ, FEN-EDEBĠYAT FAKÜLTESĠ, ĠSTATĠSTĠK BÖLÜMÜ 0,60 CCR AGHPVZA 0,50 0,40 Etkinlik Değeri 2010 VII. ĠSTATĠSTĠK GÜNLERĠ SEMPOZYUMU BĠLDĠRĠLER KĠTABI CCR ve AGHPVZA Modellerinin Etkinlik Değerleri 1,00 0,90 0,80 0,70 0,30 0,20 0,10 0,00 VII. ĠSTATĠSTĠK GÜNLERĠ SEMPOZYUMU BĠLDĠRĠLER KĠTABI 2010 CCR ve AGHPVZA Modellerinin Etkinlik Değerleri 1,00 0,90 0,80 Etkinlik Değeri 0,70 0,60 CCR AGHPVZA 0,50 0,40 0,30 0,20 0,10 0,00 Düzce Osmaniye Kilis Karabük Yalova Iğdır Ardahan Bartın Şırnak Batman Kırıkkale Karaman Bayburt Aksaray Zonguldak Yozgat Van Uşak Şanlıurfa Tunceli Trabzon Tokat Tekirdağ Sivas Sinop Siirt Samsun Sakarya Rize Ordu Niğde Nevşehir Muş Muğla Mardin K.Maraş Manisa Malatya Kütahya Konya İller (Konya-Düzce) ġekil 1.CCR ve AGHPVZA Modellerinin Etkinlik Değerleri ORTA DOĞU TEKNĠK ÜNĠVERSĠTESĠ, FEN-EDEBĠYAT FAKÜLTESĠ, ĠSTATĠSTĠK BÖLÜMÜ | 7 VII. ĠSTATĠSTĠK GÜNLERĠ SEMPOZYUMU BĠLDĠRĠLER KĠTABI 2010 TEġEKKÜR Bu çalıĢma TÜBĠTAK Bilimsel ve Teknolojik AraĢtırma Projelerini Destekleme Programı kapsamında (proje no: 109T337) ve Gazi Üniversitesi Bilimsel AraĢtırma Projeleri Birimi tarafından (proje no: 05/2009–36) ve kısmen desteklenmiĢtir. KAYNAKLAR ADLER, N., FRIEDMAN L. ve SINUANY-S.Z. (2002), Review of ranking methods in the data envelopment analysis context, European Journal of Operational Research, 140, 249–265. BAL, H. ve ÖRKCÜ, H.H. (2007), A goal programming approach to weight dispersion in Data Envelopment Analysis, G.U. Journal of Science, 20(4), 117–125. BAL, H., ÖRKCÜ, H.H. ve ÇELEBĠOĞLU, S. (2010), Improving the discrimination power and weight dispersion in the Data Envelopment Analysis, Computers and Operations Research, 37(1), 99–107. CHARNES, A., COOPER ve W.W., RHODES, E. (1978), The efficiency of decision making units, European Journal of Operational Research, 2, 429-444. COOPER, W.W., SEIFORD, L.M. ve TONE, K. (2000), Data Envelopment Analysis, Boston USA, Kluwer Academic Publishers. DPT, Uluslar arası Ekonomik Göstergeler, 2008. EriĢim: http://www.dpt.gov.tr, 20 Mart 2010. LI, X.B. ve REEVES, G.R. (1999), A multiple criteria approach to data envelopment analysis, European Journal of Operational Research, 115, 507-517. RETZLAFF-ROBERTS, D.L. (1997), A Data Envelopment Analysis approach to Discriminant Analysis ,Annals of Operations Research,73, 299-321. ORTA DOĞU TEKNĠK ÜNĠVERSĠTESĠ, FEN-EDEBĠYAT FAKÜLTESĠ, ĠSTATĠSTĠK BÖLÜMÜ | 8 VII. ĠSTATĠSTĠK GÜNLERĠ SEMPOZYUMU BĠLDĠRĠLER KĠTABI 2010 ANKARA HAVA KĠRLĠLĠĞĠ ZAMAN SERĠSĠNĠN ÇÖZÜMLENMESĠNDE KLASĠK VE BULANIK ZAMAN SERĠLERĠ YAKLAġIMLARININ KARġILAġTIRILMASI Erol Eğrioğlu* Ufuk Yolcu** Ç. Hakan Aladağ*** V. Rezan Uslu**** ÖZET Bulanık zaman serileri yaklaĢımları, son yıllarda oldukça yoğun çalıĢılmaktadır. Gerçek hayatta karĢılaĢılan bazı zaman serilerinin, gözlemlerindeki belirsizlik nedeniyle bulanık zaman serisi olarak ele alınması daha doğrudur. Örneğin hava kirliliği verileri gün içindeki çeĢitli zamanlardaki ölçümlerde farklı değerlere sahip olmasına rağmen, bir zaman serisi olarak ele alındığında sadece günlük ortalama değerler dikkate alınmaktadır. Oysa böyle bir zaman serisinin gözlemleri birçok değeri içerebilen bir bulanık küme olarak alınabilir. Bu durumda gözlemleri bulanık küme olan zaman serilerinin öngörülmesi problemi ortaya çıkmaktadır. Literatürde bulanık zaman serilerinin öngörülmesi için birçok yöntem önerilmiĢtir. Bu çalıĢmada mevsimsel bulanık zaman serilerinin öngörülmesinde kullanılan bazı bulanık zaman serisi yaklaĢımları, klasik mevsimsel zaman serisi yaklaĢımlarından elde edilen sonuçlarla karĢılaĢtırılmıĢtır. KarĢılaĢtırma Ankara hava kirliliği verileri üzerinden yapılmıĢtır. Anahtar kelimeler: Öngörü, Bulanık Zaman Serileri, Mevsimsellik A COMPARISON OF TRADITIONAL AND FUZZY TIME SERIES APPROACHES IN ANALYSING THE TIME SERIES OF SULPHUR DIOKSITE VALUES IN ANKARA ABSTRACT Many researchers have recently been working fuzzy time series approaches with an increasingly interest. It is possible to concern some time series data as fuzzy time series since they include some type of uncertainty. Often the data of air pollution is generated as daily averages; however the measurements are changing during the day. Then we consider the air pollution data as fuzzy time series data by allocating as if each observation is actually a fuzzy set. In this study we introduce a seasonal fuzzy time series approach. Since the data of air pollution in Ankara also contains seasonal behavior it is analyzed by using this approach and the results are discussed comparatively. Keywords: Forecasting, Fuzzy time series, Seasonality. * Doç. Dr., Ondokuz Mayıs Üniversitesi, Fen Edebiyat Fakültesi, Ġstatistik Bölümü, 55139 Samsun, erole@omu.edu.tr(HaberleĢme Adresi) ** AraĢtırma Görevlisi, Ondokuz Mayıs Üniversitesi, Fen Edebiyat Fakültesi, Ġstatistik Bölümü, 55139 Samsun, uyolcu@omu.edu.tr ***Öğretim Görevlisi Doktor, Hacettepe Üniversitesi, Fen Edebiyat Fakültesi, Ġstatistik Bölümü, 06800 Ankara, chaladag@gmail.com ****Doç. Dr., Ondokuz Mayıs Üniversitesi, Fen Edebiyat Fakültesi, Ġstatistik Bölümü, 55139 Samsun, vruslu@omu.edu.tr ORTA DOĞU TEKNĠK ÜNĠVERSĠTESĠ, FEN-EDEBĠYAT FAKÜLTESĠ, ĠSTATĠSTĠK BÖLÜMÜ | 9 VII. ĠSTATĠSTĠK GÜNLERĠ SEMPOZYUMU BĠLDĠRĠLER KĠTABI 2010 GĠRĠġ Bu çalıĢma uygulamalı bir çalıĢma olup, geleneksel yöntemlerden SARIMA (mevsimsel otoregresif bütünleĢik hareketli ortalama) ve Winter Çarpımsal Üstel Düzeltme tekniği ile mevsimsel bulanık zaman serisi yaklaĢımlarından Song (1999)„un ve Eğrioğlu vd (2009)‟nin önerdiği yaklaĢımlardan elde edilen öngörü performansları karĢılaĢtırılmak istenmiĢtir. Ayrıca mevsimsel bulanık zaman serisi yaklaĢımları içerisinde Eğrioğlu vd (2009) önerdiği yöntemin öngörü performansını arttırdığını vurgulamayı amaçlamaktadır. Bulanık küme teorisinin Zadeh (1965)‟de ortaya atılması birçok bilim alanında yeni ve etkin yöntemlerin önerilmesine sebep olmuĢtur.Genel olarak istatistik analiz yöntemlerinde de bulanık küme teorisinin bulanık regresyon, bulanık kümeleme, bulanık zaman serisi gibi uygulamaları son yıllarda literatürde yoğun olarak çalıĢılmaktadır. Geleneksel zaman serileri analizindeki doğrusallık, en az 50 gözlem, model varsayımı gibi kısıtlamalar araĢtırmacıları alternatif zaman serileri yaklaĢımlarına yöneltmektedir. Son 10 yıl içinde yapay sinir ağları ve bulanık zaman serisi yaklaĢımları getirdikleri birçok avantaj ve klasik zaman serisi kısıtlamalarına sahip olmamaları bu yöntemleri daha da cazip hale getirmektedir. Özellikle gözlemleri belirsizlik içeren veya bir zaman birimi içinde birden fazla değere sahip olan borsa, sıcaklık, okullara kayıtlı öğrenci sayısı, hava kirliliği gibi verilerin çözümlenmesinde bulanık zaman serileri yöntemleri tercih edilebilir. Ġlk olarak Song ve Chissom (1993a, 1993b) bulanık zaman serisi yöntemini önermiĢlerdir. Chen (1996), daha kolay hesaplamalar içeren bulanık mantık iliĢki tablolarına dayalı bir yöntem önermiĢtir. Huarng ve Yu (2006) bulanık iliĢkilerin yapay sinir ağları ile belirlendiği bir yöntem önermiĢleridir.Literatürde önerilen bir çok yöntem birinci dereceden bulanık zaman serisi öngörü modellerini içermektedir. Ancak birçok zaman serisini, içerdikleri yüksek dereceli iliĢkiler nedeniyle, birinci dereceden modellerle çözümlemek yetersiz kalabilir.Bu nedenle, Chen (2002), yüksek dereceli bulanık zaman serisi öngörü modelini çözümleyen yeni bir yöntem önermiĢtir. Chen (2002) tarafından önerilen bu yöntemde tüm gecikmeli değiĢkenler mevcuttur. Mevsimsel zaman serileri için, bu yöntemde, model derecesinin periyot kadar olması gerektiği açıktır. Ancak bu durum katkısız gecikmeli değiĢkenleri modele dâhil ederek, modeldeki girdi sayısını gereksiz Ģekilde arttıracaktır. Bununla birlikte, Song (1999), periyodu m olan bir mevsimsel zaman serisini çözümlemede, F(t-m) gecikmeli değiĢkeninin girdi ve F(t)‟ nin ise çıktı olarak alındığı yeni bir yöntem önermiĢtir. Bu yöntem de, daha karmaĢık iliĢkiler içeren mevsimsel zaman serilerini çözümlemede yetersiz kalacaktır. Eğrioğlu vd. (2009) tarafından önerilen yöntem ise, yukarıda belirtilen yetersizlikleri ortadan kaldırmayı hedeflemektedir.Model derecesi Box-Jenkins SARIMA yöntemi ile belirlenir. Böylelikle kısmi yüksek dereceli, iki değiĢkenli bulanık zaman serisi modeli oluĢturulur. Bu yöntemde bulanık iliĢkilerin belirlenmesi ise yapay sinir ağları ile gerçekleĢtirilir. Bu modelin avantajları Ģöyle sıralanabilir; ORTA DOĞU TEKNĠK ÜNĠVERSĠTESĠ, FEN-EDEBĠYAT FAKÜLTESĠ, ĠSTATĠSTĠK BÖLÜMÜ | 10 VII. ĠSTATĠSTĠK GÜNLERĠ SEMPOZYUMU BĠLDĠRĠLER KĠTABI 2010 Yüksek dereceli mevsimsel bulanık zaman serisi modeli ortaya koyar. Model derecesi sistematik olarak belirlenir Literatürde MA terimi içeren ilk bulanık zaman serisi yöntemidir. Öngörü performansını arttırır. YÖNTEM Bu bölümde uygulamada kullanılan ve Eğrioğlu vd. (2009) tarafından önerilen yöntemin temelini oluĢturan SARIMA modelleri ve yapay sinir ağları ile birlikte temel bulanık zaman serisi tanımları verilecektir. SARIMA Modelleri Z t , ortalamalı bir zaman serisi olsun. Bu durumda model; ( B)( B s )(1 B) d (1 B s ) D (Z t ) ( B)( B s )at (1) Ģeklindedir. SARIMA(p,d, q)(P, D, Q)s ile ifade edilen, mevsimsel otoregresif bütünleĢik hareketli ortalama modeli (SARIMA) için ilk olarak Box-Jenkins (1976) bir yöntem önermiĢtir. SARIMA modelleri ve Box-Jenkins yöntemi için ayrıntılı bilgi, Box-Jenkins (1976)‟dan elde edilebilir. Yapay Sinir Ağları Yapay sinir ağları,biyolojik sinir ağlarını taklit eden sentetik ağlardır. Yapay sinir ağları ve biyolojik sinir ağları arasında hem mimarileri hem de yetenekleri yönünden büyük farklılıklar vardır (Zurada,1992). Yapay sinir ağları matematiksel bir model oluĢturur ve genel bir fonksiyon yaklaĢtırıcı olarak bilinir (Zhang,1998).Yapay sinir ağlarının iĢleyiĢini yönlendiren 3 bileĢen mevcuttur, ki bunlar, Mimari yapı, öğrenme algoritması ve aktivasyon fonksiyonudur. Bulanık Zaman Serileri Ġlk olarak Song ve Chissom (1993a, 1993b) tarafından önerilen bulanık zaman serisi yaklaĢımı ile ilgili temel kavramlar Ģöyle verilebilir; Tanım 1. Y (t ) , t ...,0,1,2,... reel değerli zaman serisi olsun. Zaman serisine uygun evrensel küme tanımı ve parçalanması yapıldıktan sonra her bir reel gözlemin A j bulanık kümlerine dönüĢtürülmesi sonucu elde edilen yeni zaman serisi F (t ) ‟ye bulanık zaman serisi adı verilir. Tanım 2.Bulanık zaman serisi F (t ) mevsimsellik içerdiğinde, birinci dereceden bulanık zaman serisi öngörü modeli, F (t m) F (t ) (2) Ģeklindedir. Burada, m periyodu ifade eder. ORTA DOĞU TEKNĠK ÜNĠVERSĠTESĠ, FEN-EDEBĠYAT FAKÜLTESĠ, ĠSTATĠSTĠK BÖLÜMÜ | 11 VII. ĠSTATĠSTĠK GÜNLERĠ SEMPOZYUMU BĠLDĠRĠLER KĠTABI 2010 Tanım 3.Bulanık zaman serisi F (t ) , F(t-1), F(t-2), … ,F(t-n) gecikmeli zaman serilerinden etkilenmekte ise bulanık mantık iliĢki; F (t n),, F (t 2), F (t 1) F (t ) (3) Ģeklinde ifade edilir ve n. dereceden bulanık zaman serisi öngörü modeli olarak adlandırılır. EĞRĠOĞLU vd. (2009) Tarafından Önerilen YaklaĢım Eğrioğlu vd (2009) da önerdiği model yapısı ile ilgili olarak aĢağıdaki tanım verilebilir. Tanım 4.Ġki bulanık zaman serisi F (t ) ve G(t ) , olsun. Eğer F (t ) , bulanık zaman serisi F (t m1 ) ,..., F (t mk 1 ), F (t mk ), G(t n1 ) ,..., G(t nl 1 ), G(t nl ) gecikmeli bulanık zaman serilerinden etkileniyor ise, bulanık mantık iliĢki; F (t m1 ),..., F (t mk 1 ), F (t mk ), G(t n1 ),..., G(t nl 1 ), G(t nl ) F (t ) (4) ile ifade edilir ve girdileri SARIMA modeli tarafından belirlenen, (k,l)‟ıncı dereceden kısmi iki değiĢkenli bulanık zaman serisi öngörü modeli olarak adlandırılır. Burada, mi (i 1,2,.., k ) ve n j ( j 1,2,.., l ) tamsayılar olup 1 m1 ... mk , , 1 n1 ... nl Ģeklindedir. Eğrioğlu vd. (2009) tarafından önerilen bu melez yaklaĢımın algoritması Ģu Ģekilde özetlenebilir. Adım 1.Zaman serisi için Box-Jenkins (1976) prosedürüne göre uygun SARIMA modeli belirlenir.SARIMA modelinden elde edilen artıklar (at ) hesaplanır. Adım 2.Zaman serisi ve SARIMA‟dan elde edilen artıklar için evrensel kümeler ve alt aralıklar tanımlanır. Dmin ve Dmax sırasıyla, elimizdeki orijinal verinin en küçük ve en büyük gözlemleri olmak üzere Evrensel küme; U Dmin D1 , Dmax D2 , Ģeklinde tanımlanabilir. Burada D1 ve D2 pozitif iki sayıdır. Adım 3.Evrensel küme ve alt aralıklara bağlı olarak bulanık kümeler belirlenir. U ve V evrensel kümeleri ve parçalanmalarına dayalı olarak A1, A2 ,..., Ak1 ve B1, B2 ,..., Bk2 dilsel değiĢkenleri zaman serisi ve artıklar için aĢağıdaki gibi tanımlanır. A1 a11 / u1 a12 / u 2 ... a1n1 / u n1 B1 b11 / v1 b12 / v2 ... b1n2 / vn2 A2 a11 / u1 a12 / u 2 ... a1n1 / u n1 B2 b11 / v1 b12 / v2 ... b1n2 / vn2 Ak1 a11 / u1 a12 / u 2 ... a1n1 / u n1 Bk2 b11 / v1 b12 / v2 ... b1n2 / vn2 ORTA DOĞU TEKNĠK ÜNĠVERSĠTESĠ, FEN-EDEBĠYAT FAKÜLTESĠ, ĠSTATĠSTĠK BÖLÜMÜ (5) | 12 VII. ĠSTATĠSTĠK GÜNLERĠ SEMPOZYUMU BĠLDĠRĠLER KĠTABI Burada a ij , u i parçalanmalarının üyelik değerleridir, 2010 aij 0,1 , 1 i k1 , ve 1 j n1 Ģeklinde tanımlanır. Benzer Ģekilde bij , v i parçalanmalarının üyelik değerleridir, bij 0,1 , 1 i k 2 , ve 1 j n2 Ģeklinde tanımlanır. Adım 4.Zaman serileri bulanıklaĢtırılır. Bulanık zaman serisi F(t), SARIMA dan elde edilen bulanık artıklar serisi ise G(t) ile temsil edilir. Adım 5.SARIMA modelinin girdilerine göre modelin derecesi (k , l ) ve m1 ,..., mk ve n1 ,..., nl ‟nin değerleri belirlenir. Örneğin, modelin derecesi k 5 ve l 2 olsun. O halde model, F (t 1), F (t 2), F (t 12), F (t 13), F (t 14), G(t 1), G(t 12) F (t ) (6) Ģeklindedir. Burada m1 1, m2 2, m3 12, m4 13, m5 14, n1 1, n2 12 olmaktadır ve F (t ) , bulanık X t ve G(t ) , bulanık a t dir. Adım 6.Bulanık iliĢkiler belirlenir. Bulanık zaman serisine ait F (t m1 ),..., F (t mk 1 ), F (t mk ) ve bulanık hatalara ait G(t n1 ),..., G(t nl 1 ), G(t nl ) , gecikmeli değiĢkenler girdi, hedef değeri ise F (t ) , olarak kullanılarak bulanık iliĢkiler oluĢturulur. Bu aĢamada, ileri beslemeli yapay sinir ağı, verilen girdi ve hedef değerlerine göre eğitilir. Adım 7.Öngörüler elde edilir. ağın eğitilmesi sonucunda, ağın girdileri, F (t k m1 ),..., F (t k mk 1 ), F (t k mk ) , G(t k n1 ),..., G(t k nl 1 ), G(t k nl ) ve hedef F (t ) Verilen modelde yapay sinir olduğunda ağın çıktısı olarak elde edilen Fˆ (t k ) bulanık öngörü olacaktır. Adım 8.DurulaĢtırma iĢlemi merkezileĢtirme yöntemi ile uygulanır UYGULAMA Yukarıda adım adım verdiğimiz yöntem, Ankara il merkezine göre yapılan ölçümlerde Mart 1994 ile Nisan 2006 yılları için elde edilen havadaki kükürtdioksit (SO2) miktarları zaman serisi (ANSO) üzerine uygulanmıĢtır. Uygulamada Eğrioğlu vd (2009) da önerilen yöntemde, gizli tabaka birim sayısı 1 ile 12 arasında değiĢtirilmiĢtir. Evrensel küme parçalanmasındaki aralık uzunlukları ise zaman serisi için 5, 10, 5, 20 ve artık zaman serisi için 0.10, 0.15, 0.20, 0.25 olarak alınıp 192 farklı durumda çözümleme yapılmıĢtır.Çözümlemede öngörü performansı hata ORTA DOĞU TEKNĠK ÜNĠVERSĠTESĠ, FEN-EDEBĠYAT FAKÜLTESĠ, ĠSTATĠSTĠK BÖLÜMÜ | 13 VII. ĠSTATĠSTĠK GÜNLERĠ SEMPOZYUMU BĠLDĠRĠLER KĠTABI Tablo 1.Klasik ve bulanık zaman serisi yaklaĢımları ile elde edilen öngörüler. Tarih Test Verisi SARIMA WMES Song (1999) Temmuz 2005 Ağustos 2005 Eylül 2005 Ekim 2005 Kasım 2005 Aralık 2005 Ocak 2006 ġubat2006 Mart 2006 Nisan 2006 21 27 25 28 38 45 38 36 24 22 HKOK OMYH DA 22,93 22,35 23,61 28,81 46,97 54,62 58,13 46,99 37,85 24,76 9,6248 0,0226 0,5555 15,40 16,11 17,77 25,12 41,11 46,12 49,80 44,24 31,96 18,39 7,1061 0,0035 0,6666 41,6666 27,5000 41,6666 41,6666 41,6666 46,7857 45,0000 46,7857 46,7857 27,5000 12,7409 0,02831 0,44444 2010 Egrioglu vd. (2009) 20 30 20 30 30 50 40 30 30 20 4,5607 0,0013 1 WMES:Winters Multicaptive Exponential Smooting kareler ortalamasının karakökü (HKOK) açısından en iyi sonuç, gizli tabaka birim sayısı 8, aralık uzunluğunun zaman serisi için 10 artık zaman serisi için 0.20 olduğu durumda elde edilmiĢtir. ANSO zaman serisinin (son 10 gözlemi) test kümesi için klasik ve bulanık zaman serileri yaklaĢımlarından elde edilen öngörüler aĢağıdaki Tablo 1‟de özetlenmiĢtir. En iyi sonucun Eğrioğlu vd. (2009)‟da önerilen bulanık zaman serisi yaklaĢımı ile elde edildiği görülmektedir. TARTIġMA Eğrioğlu vd. (2009) tarafından önerilen yöntemde,iki değiĢkenli bulanık zaman serisi model derecesi ve girdileri Box-Jenkins yöntemi yardımı ile belirlenmektedir.Böylelikle bazı bulanık zaman serisi yaklaĢımlarındakinin aksine bu belirleme iĢlemi sistematik bir Ģekilde yapılmaktadır.Ayrıca mevsimsel içerik taĢıyan zaman serileri için daha doğru öngörüler verebileceği söylenebilir. KAYNAKLAR BOX, G. E. P., & JENKĠNS, G. M. (1976). Time series analysis: Forecasting and control. San Francisco, CA: Holdan-Day. CHEN, S. M. (1996), Forecasting enrollments based on fuzzy time-series, Fuzzy Sets and Systems, 81, 311-319. CHEN, S.M., Forecasting Enrollments based on high-order fuzzy time series, Cybernetics and Systems An International Journal 33 (2002) 1-16. EĞRĠOĞLU, E., ALADAĞ, Ç.H., YOLCU, U., BAġARAN, M.A., USLU, V.R. (2009), A new hybrid approach based on SARIMA and partial high order bivariate fuzzy time series forecasting model, Expert Systems with Applications, 36, 7424-7434. ORTA DOĞU TEKNĠK ÜNĠVERSĠTESĠ, FEN-EDEBĠYAT FAKÜLTESĠ, ĠSTATĠSTĠK BÖLÜMÜ | 14 VII. ĠSTATĠSTĠK GÜNLERĠ SEMPOZYUMU BĠLDĠRĠLER KĠTABI 2010 HUARNG, K. and YU, H. K. (2006), The application of neural networks to forecast fuzzy time series, Physica A, 363, 481-491. SONG, Q. (1999). Seasonal forecasting in fuzzy time series. Fuzzy Sets and Systems,107, 235– 236. SONG, Q. and CHISSOM, B.S. (1993a), Fuzzy time series and its models, Fuzzy Sets and Systems, 54, 269-277. SONG, Q. and CHISSOM, B.S. (1993b), Forecasting enrollments with fuzzy time series- Part I, Fuzzy Sets and Systems, 54, 1-10. ZADEH, L. A. (1965). Fuzzy Sets. Inform and Control, 8, 338–353. ZHANG, G. P., PATUWO, B. E., & HU, Y. M. (1998).Forecasting with artificial neural networks: The state of the art. International Journal of Forecasting, 14, 35–62. ZURADA, J. M. (1992). Introduction of artificial neural systems. St. Paul: West Publishing. ORTA DOĞU TEKNĠK ÜNĠVERSĠTESĠ, FEN-EDEBĠYAT FAKÜLTESĠ, ĠSTATĠSTĠK BÖLÜMÜ | 15 VII. ĠSTATĠSTĠK GÜNLERĠ SEMPOZYUMU BĠLDĠRĠLER KĠTABI 2010 BURR XII DAĞILIMININ PARAMETRELERĠNĠN ĠLERLEYEN TÜR ĠLK BOZULMA SANSÜRLEMEYE DAYALI GÜVEN ARALIKLARI VE GÜVEN BÖLGELERĠ CoĢkun KUġ Yunus AKDOĞAN** ÖZET Bu çalıĢmada, Burr XII dağılımının parametrelerinin ilerleyen tür ilk bozulma sansürlü örnekleme dayalı güven aralıkları ve güven bölgeleri elde edilmiĢtir.Sonuçları değerlendirmek üzere bir uygulama yapılmıĢtır. Anahtar kelimeler: Burr XII dağılımı, güven aralığı, ortak güven bölgesi, en çok olabilirlik tahmin edicisi, ilerleyen tür ilk bozulma sansürleme. CONFIDENCE INTERVAL AND CONFIDENCE REGION FOR THE PARAMETERS OF BURR XII DISTRIBUTION BASED ON PROGRESSIVE FIRST FAILURE CENSORED SAMPLE ABSTRACT In this study, confidence interval and confidence region for the parameters of Burr XII distribution based on progressive first failure censored sample are obtained. Illustrative example is also given. Keywords: Burr XII distribution, confidence interval, confidence region, maximum likelihood estimator, progressive first failure censoring GĠRĠġ Ġlk kez Burr (1942) tarafından önerilen ve BurrXII , ile gösterilen iki parametreli Burr XII dağılımı, stokastik olayları modellemede çok kullanıĢlı olması bakımından son 20 yıl içerisinde özel bir ilgi görmüĢtür.Zimmer ve ark.(1998) Burr XII dağılımının güvenilirlik analizinde kullanılması hakkında geniĢ bilgi vermiĢ ve stokastik olayları modellemede çok kullanıĢlı olduğuna dikkat çekmiĢlerdir.Burr XII dağılımının uygulama alanları ile ilgili yayımlanmıĢ bazı makaleler; klinik denemeler Wingo (1983), aktüerya bilimi Klugman (1986) ve elektronik bileĢenler Zimmer ve ark.(1998) olarak sıralanabilir. BurrXII , dağılımına sahip bir X rasgele değiĢkeninin, sırasıyla, olasılık yoğunluk ve dağılım fonksiyonu * Doç.Dr., Selçuk Üniversitesi, Fen Fakültesi, Ġstatistik Bölümü, 42031 Konya, coskun@selcuk.edu.tr ** ArĢ.Gör., Selçuk Üniversitesi, Fen Fakültesi, Ġstatistik Bölümü, , 42031 Konya, yakdogan@selcuk.edu.tr ORTA DOĞU TEKNĠK ÜNĠVERSĠTESĠ, FEN-EDEBĠYAT FAKÜLTESĠ, ĠSTATĠSTĠK BÖLÜMÜ | 16 VII. ĠSTATĠSTĠK GÜNLERĠ SEMPOZYUMU BĠLDĠRĠLER KĠTABI f x; c, k x 1 1 x F x; c, k 1 1 x 1 , x 0, 0, 0 2010 (1) (2) Ģeklindedir. Bu çalıĢmada, ilerleyen tür ilk bozulma sansürlü örneklemler ve bu örneklemlere dayalı Burr XII dağılımının parametrelerinin en çok olabilirlik tahmin edicileri, parametrelerin güven aralıkları ve güven bölgeleri elde edildi. Son olarak elde edilen sonuçlarla ilgili uygulama yapıldı. ĠLERLEYEN TÜR ĠLK BOZULMA SANSÜRLÜ ÖRNEKLEM Ġlerleyen tür ilk bozulma sansürlenmiĢ model (Progressive first failure censoring model) Ģu Ģekilde tanımlanmaktadır: k özdeĢ bileĢenli birbirinden bağımsız n grubun yaĢam testine tabi tutulduğu düĢünülsün. Testte i. i 1, 2, , m, m n bozulma meydana geldiğinde, X iR:m:n:k , bozulmanın meydana geldiği gruptaki bileĢenler ile bozulma meydana gelmeyen Ri sayıda grup testten rasgele çekilsin. Bu Ģekilde elde edilen m hacimli örnekleme ilerleyen tür ilk bozulma sansürlü örneklem denir.Burada n m i 1 Ri biçimindedir ve R R1 , R2 , , Rm sansür m Ģeması olarak adlandırılır. X1:Rm:n:k X 2:Rm:n:k X mR:m:n:k , olasılık yoğunluk fonksiyonu(oyf) f ve dağılım fonksiyonu (df) F olan dağılımdan alınan ilerleyen tür ilk bozulma sansürlü örneklem olmak üzere X1:Rm:n:k X 2:Rm:n:k X mR:m:n:k nin ortak oyf‟unu fXR R 1:m:n:k , X 2:m:n:k m , , X mR:m:n:k x1 , x2 ,..., xm ck m f xi 1 F xi i 1 k Ri 1 1 , x1 x2 xm , (3) burada c nn R1 1n R1 R2 Rm1 m 1 Ģeklindedir. (3)‟de R 0,,0 alnırsa ilk bozulma sansürlü örneklemin oyf‟si fonksiyonu, k = 1 alınırsa, ilerleyen tür sansürlü sıra istatistiklerinin oyf‟si, k = 1 ve R 0,, n m alınırsa sağdan sansürlü sıra istatistiklerinin oyf‟si elde edilir (Wu ve KuĢ 2009). X1:Rm:n:k , X 2:Rm:n:k , , X mR:m:n:k aynı zamanda 1 1 F x dağılımından alınmıĢ ilerleyen tür sağdan k sansürlü örneklem olarak düĢünülebileceğinden, ilerleyen tür sağdan sansürleme için elde edilen sonuçlar kolaylıkla ilerleyen tür ilk bozulma sansürleme için geniĢletilebilir. Ġlerleyen ilk bozulma sansürlü örnekleme, yaĢam zamanı analizlerinde veri elde etmede önemli bir yöntemdir. ÇalıĢan parça diğer bir test için sistemden çekilip, deneyin maliyeti ve deney süresi azaltılabilir. Ayrıntılı bilgi için Balakrishnan ve Aggarwala‟ya (2000) bakılabilir. ORTA DOĞU TEKNĠK ÜNĠVERSĠTESĠ, FEN-EDEBĠYAT FAKÜLTESĠ, ĠSTATĠSTĠK BÖLÜMÜ | 17 VII. ĠSTATĠSTĠK GÜNLERĠ SEMPOZYUMU BĠLDĠRĠLER KĠTABI 2010 EN ÇOK OLABĠLĠRLĠK TAHMĠN EDĠCĠSĠ X1:Rm:n:k X 2:Rm:n:k X mR:m:n:k , BurrXII , dağılımına sahip bir kitleden alınmıĢ ilerleyen tür ilk bozulma sansürlü örneklem olmak üzere (1),(2) ve (3) kullanılarak sırasıyla olabilirlik ve logolabilirlik fonksiyonu aĢağıdaki gibi elde edilir ( Ali Mousa ve Jaheen 2002): L , ck m m m xi 1 exp k Ri 1 log 1 xi i 1 i 1 1 xi m xi 1 kT , i 1 1 xi m , log c m log k log burada xi xiR:m:n:k , T Ri 1 log 1 xi Ģeklindedir ve c , (3)‟de tanımlandığı gibidir. ve m i 1 parametreleri için olabilirlik denklemleri m / kT (4) k Ri 1 1 xi log xi log xi 0 i 1 1 xi i 1 m m m (5) Ģeklindedir. (5) denkleminde parametresi yerine (4) denklemindeki eĢiti yazılırsa, parametresine göre lineer olmayan bir denklem elde edilir. Elde edilen lineer olmayan denklem Newton-Raphson yöntemiyle çözülebilir.Daha sonra parametresinin en çok olabilirlik tahmini (4) denkleminde yerine konularak parametresinin en çok olabilirlik tahmini hesaplanabilir. PARAMETRELERĠN ARALIK TAHMĠNĠ Bu bölümde parametresi için güven aralığı, ve parametresi için de güven bölgesi elde edilmiĢtir. X1:Rm:n:k X 2:Rm:n:k X mR:m:n:k , BurrXII , dağılımına sahip bir kitleden alınmıĢ ilerleyen tür ilk bozulma sansürlü örneklem olsun.AĢağıdaki dönüĢüm tanımlansın. Yi:Rm:n:k k log 1 X iR:m:n:k Görülebilir ki Y1:Rm:n:k Y2:Rm:n:k tür sansürlü örneklem olur. , i 1, 2, ,m YmR:m:n:k , Üstel 1 dağılımına sahip bir kitleden alınmıĢ ilerleyen AĢağıdaki dönüĢümü ele alınsın: ORTA DOĞU TEKNĠK ÜNĠVERSĠTESĠ, FEN-EDEBĠYAT FAKÜLTESĠ, ĠSTATĠSTĠK BÖLÜMÜ | 18 VII. ĠSTATĠSTĠK GÜNLERĠ SEMPOZYUMU BĠLDĠRĠLER KĠTABI 2010 1 nY1:Rm:n:k 2 n R1 1 Y2:Rm:n:k Y1:Rm:n:k (6) Rm 1 m 1 YmR:m:n:k YmR1:m:n:k m n R1 R2 Thomas ve Wilson (1972), (6)‟da tanımlanan genelleĢtirilmiĢ aralıkların (generalized spacing) bağımsız ve Üstel 1 dağılımına sahip olduğunu göstermiĢtir. Buradan 21 2nY1:Rm:n:k 22 dağılımına, 2 i 2 Ri 1 Yi:Rm:n:k Y1:Rm:n:k m m i 2 i 1 2 2 m 2 dağılımına sahiptir. Aynı zamanda açıktır ki ve bağımsız rasgele değiĢkenlerdir. ve rasgele değiĢkenleri R 1 Y m m 1 i 1 R i:m:n:k i Y1:Rm:n:k n m 1 Y1:Rm:n:k m 2 Ri 1 Yi:Rm:n:k i 1 Ģeklinde tanımlansın. AĢağıdaki iki lemma, ve parametrelerinin güven aralığı ve güven bölgesi oluĢturmada yardımcı olacaktır. 2 Lemma 1. , F2 m2, 2 dağılımına, , 2m dağılımına sahiptir. Aynı zamanda ve bağımsızdır.(Johnson ve ark. 1994). Lemma 2.Varsayalım ki 0 a1 am v e Ri 0, i 1, 2, , m olsun ve R 1 log 1 a m i 1 i i log 1 a1 fonksiyonu tanımlansın. 0 olmak üzere , nın ciddi artan fonksiyonudur (Wu ve ark. 2007). ORTA DOĞU TEKNĠK ÜNĠVERSĠTESĠ, FEN-EDEBĠYAT FAKÜLTESĠ, ĠSTATĠSTĠK BÖLÜMÜ | 19 VII. ĠSTATĠSTĠK GÜNLERĠ SEMPOZYUMU BĠLDĠRĠLER KĠTABI 2010 F 1 , 2 , sağ-kuyruk(right-tail) olasılıklı ve 1 ve 2 serbestlik dereceli F dağılımının yüzdeliği ve XR X1:Rm:n:k , X 2:Rm:n:k , , X mR:m:n:k olsun. Teorem 1. X1:Rm:n:k X 2:Rm:n:k X mR:m:n:k , BurrXII , dağılımına sahip bir kitleden alınmıĢ R sansür Ģemalı ilerleyen tür ilk bozulma sansürlü örneklem olsun. O zaman verilen 0 1 için parametresinin 1001 % lık güven aralığı aĢağıdaki gibidir: R R X , F , X , F , 1 2 m 2 , 2 2 m 2, 2 2 2 burada X R , t , m R R Ri 1 log 1 xi:m:n:k n log 1 x1:m:n:k i 1 t n m 1 log 1 x1:Rm:n:k lineer olmayan denklemde ’nın çözümüdür. Ġspat. Lemma 1‟den biliyoruz ki pivot m m R R R R R 1 Y nY Ri 1 log 1 X i:m:n:k n log 1 X 1:m:n:k i:m:n:k 1:m:n:k i i 1 i 1 R n m 1 Y1:m:n:k n m 1 log 1 X R 1:m:n:k F2 m2, 2 dağılımına sahiptir. 0 1 için m R R Ri 1 log 1 X i:m:n:k n log 1 X 1:m:n:k i 1 F F 1 2 m 2,2 2 m 2,2 2 n m 1 log 1 X 1:Rm:n:k 2 olayı R R X , F1 2 m2, 2 X , F 2 m2, 2 2 2 olayına denktir. Bu da ispatı tamamlar. ORTA DOĞU TEKNĠK ÜNĠVERSĠTESĠ, FEN-EDEBĠYAT FAKÜLTESĠ, ĠSTATĠSTĠK BÖLÜMÜ | 20 VII. ĠSTATĠSTĠK GÜNLERĠ SEMPOZYUMU BĠLDĠRĠLER KĠTABI 2010 2 , sağ-kuyruk(right-tail) olasılıklı ve serbestlik dereceli Ki-kare dağılımının yüzdeliği olsun. ve parametrelerinin 1001 % lık güven bölgesi aĢağıdaki teoremle verilmiĢtir. Teorem 2. X1:Rm:n:k X 2:Rm:n:k X mR:m:n:k , BurrXII , dağılımına sahip bir kitleden alınmıĢ R sansür Ģemalı ilerleyen tür ilk bozulma sansürlü örneklem olsun. O zaman verilen 0 1 için ve parametrelerinin 1001 % lık ortak güven bölgesi aĢağıdaki eĢitsizliklerden belirlenir. R X R , F1 1 X , F1 1 2 m 2,2 2 m 2,2 2 2 2 1 1 12 1 2m 2m 2 2 m m R 2k Ri 1 log 1 X iR:m:n:k 2k Ri 1 log 1 X i:m:n:k i 1 i 1 Burada X R , t , Teorem .’deki gibi tanımlıdır. Ġspat. Lemma 1‟den pivot 2 Ri 1 Yi:Rm:n:k 2 k Ri 1 log 1 X iR:m:n:k m m i 1 i 1 22m dağılımına sahiptir ve den bağımsızdır. 0 1 için P F1 P 1 1 2 m 2, 2 2 1 2 m 2 F1 1 1 1 2 m 2, 2 2 1 1 2 m 2 Ģeklindedir. Buradan ORTA DOĞU TEKNĠK ÜNĠVERSĠTESĠ, FEN-EDEBĠYAT FAKÜLTESĠ, ĠSTATĠSTĠK BÖLÜMÜ | 21 VII. ĠSTATĠSTĠK GÜNLERĠ SEMPOZYUMU BĠLDĠRĠLER KĠTABI 2010 m Ri 1 log 1 X iR:m:n:k n log 1 X 1:Rm:n:k P F i 1 F 1 2 m 2,2 2 m 2,2 R 2 2 n m 1 log 1 X 1:m:n:k m R , 1 1 2 k Ri 1 log 1 X i:m:n:k 1 1 1 2m 2m i 1 2 2 Bu ise aĢağıdaki ifadeye denktir. R X R , F1 1 X , F1 1 2 m 2,2 2 m 2,2 2 2 2 1 1 12 1 2m 2m 2 2 m m R 2k Ri 1 log 1 X iR:m:n:k 2k Ri 1 log 1 X i:m:n:k i 1 i 1 Bu da ispatı tamamlar. UYGULAMA Teorem 1 ve Teorem 2‟deki sonuçları örneklendirmek için BurrXII 1, 2 dağılımından k 3 için R 0,1,1,0,2,0,1,0,1,0,1,0,0,0,1,0,2,0,0,0 sansür Ģemalı ilerleyen tür ilk bozulma sansürlü örneklem Balakrishnan ve Sandhu‟nun (1995) algoritması kullanılarak üretildi. Üretilen örneklem aĢağıdaki tablodadır. Tablo 1. Üretilen ilerleyen tür tip-II sağdan sansürlü örneklem 0.1600 0.3352 0.4362 0.4621 0.4767 0.5683 0.6081 0.6240 0.6370 0.7013 0.7028 0.7264 0.7783 0.7985 0.8926 0.9208 1.0166 1.0219 1.2911 1.3675 (4) ve (5) denklemleri çözülerek ve parametrelerinin en çok olabilirlik tahminleri sırasıyla ˆ 3.3865 ve ˆ 0.64 olarak bulunmuĢtur. parametresinin 95% ‟lik güven aralığını elde etmek için gerekli olan yüzdelikler Minitab 13.1 paket programı kullanılarak aĢağıdaki gibi elde edilmiĢtir. F0.02538, 2 39.4716 , F0.97538, 2 0.2456 ve F0.0538, 2 19.4694 ORTA DOĞU TEKNĠK ÜNĠVERSĠTESĠ, FEN-EDEBĠYAT FAKÜLTESĠ, ĠSTATĠSTĠK BÖLÜMÜ | 22 VII. ĠSTATĠSTĠK GÜNLERĠ SEMPOZYUMU BĠLDĠRĠLER KĠTABI 2010 Teorem 1 kullanılarak parametresinin 95% ‟lik güven aralığı 1.3223,4.2243 Ģeklinde bulunur. ve parametrelerinin 95% ‟lik ortak güven bölgesini elde etmek için gerekli olan yüzdelikler Minitab 13.1 paket programı kullanılarak aĢağıdaki gibi elde edilmiĢtir. F0.012738, 2 78.2128 , F0.987338, 2 0.2037 ve F0.025338, 2 38.9972 02.012740 62.5911 ve 02.987340 22.7139 Teorem 2 kullanılarak ve parametrelerinin 95% ‟lik ortak güven bölgesi aĢağıdaki gibi elde edilir. 1.2222 4.6075 22.7139 62.5911 20 20 1 X R 2 3 R 1 log 1 X R 2 3 R 1 log i i :20:30:3 i i :20:30:3 i 1 i 1 KAYNAKLAR BALAKRISHNAN, N., AGGARWALA, R., (2000). Progressive Censoring:Theory, Methods and Applications. Birkhauser, Boston BALAKRISHNAN, N., SANDHU, R.A., (1995). A simple simulation algorithm for generating progressively Type-II censored sample, American Statistician 49 (2) 229-230. BURR, I. W., 1942. Cumulative frequency function, Annals Math. Stat., 13, 215-232. JOHNSON, N.L., KOTZ, S., BALAKRISHNAN, Distributions, Volume 1, 2nd edition.Wiley, New York. N., (1994).Continuous Univariate KLUGMAN, S.A., (1986). Loss distributions, Proceedings of Symposia in Applied Mathematics: Actuarial Mathematics, vol. 35, pp. 31-55. KUġ, C., WU, S.-J. (2008). Statistical inference based on progressive first failure-censored samples from Gompertz distribution, 2008 International Workshop on Applied Probability, Université de Technologie de Compiègne, Compiègne, France, July 7-10, 2008. ORTA DOĞU TEKNĠK ÜNĠVERSĠTESĠ, FEN-EDEBĠYAT FAKÜLTESĠ, ĠSTATĠSTĠK BÖLÜMÜ | 23 VII. ĠSTATĠSTĠK GÜNLERĠ SEMPOZYUMU BĠLDĠRĠLER KĠTABI 2010 THOMAS, D.R., WILSON W.M., (1972). Linear order statistics estimation for the two parameter Weibull and Extreme Value distributions from Type-II progressively censored samples. Technometrics 14, 679-691. WANG. F. K., KEATS, J. B., ZIMMER, W. J., (1996). Maximum likelihood estimation of the burr XII parameters with censored and uncensored data.Microelectron.Reliab., 36, 359-362. WINGO, D. R., (1983). Maximum likelihood methods for fitting the Burr Type XII distribution to life test data. Biometrical J., 25, 77-84. WU,S.-J.,CHEN,Y.-J., Chang,C.-T. (2007). Statistical inference based on progressively censored samples with random removals from the Burr type XII distribution. Journal of Statistical Computation and Simulation,77(1),19-27. WU, S.-J., KUġ, C. (2009).On the Estimation Based on Progressive First Failure-Censored Sample, Computational Statistics and Data Analysis, 53 (10), 3659-3670. ZIMMER, W.J., KEATS, J.B., WANG, F.K. (1998). The Burr XII distribution in reliability analysis. J. Qual. Tech. 30, 386-394. ORTA DOĞU TEKNĠK ÜNĠVERSĠTESĠ, FEN-EDEBĠYAT FAKÜLTESĠ, ĠSTATĠSTĠK BÖLÜMÜ | 24 VII. ĠSTATĠSTĠK GÜNLERĠ SEMPOZYUMU BĠLDĠRĠLER KĠTABI 2010 DOĞRUSAL OLMAYAN REGRESYONDA BAZI PARAMETRE ARALIK TAHMĠNLEME YÖNTEMLERĠNĠN KIYASLANMASI Atıf Evren* ÖZET Doğrusal olmayan regresyon modellerinde parametrelerin aralık tahminleri asimptotik normallik varsayımına dayandırılmaktadır. Ancak bu varsayım çoğu durumda gerçekçi olmamaktadır.Bu durumda örneklem hacminin dikkate değer bir biçimde büyük olması gerekmektedir. Bununla birlikte doğrusal olmayan verinin elde edilmesi yorucu, zaman alıcı ve maliyetlidir. Çünkü bu tür veriler genellikle laboratuvar ortamında elde edilmektedirler. Bu yüzden bootstrap, jackknife gibi yöntemlerle aralık tahminlerine gidilmektedir. Bu yöntemlere ek olarak ÇebiĢev eĢitsizliği ya da benzer eĢitsizlikler ile de aralık tahminlerine gidilebilir. Anahtar Kelimeler: Doğrusal olmayan regresyon, parametrik olmayan aralık tahminleri, ÇebiĢev eĢitsizliği,Bootstrap yöntemi, Jackknife yöntemi A COMPARISON OF SOME INTERVAL ESTIMATION PROCEDURES IN NONLINEAR REGRESSION ABSTRACT Confidence interval estimates for the parameters of nonlinear regression models are based on the assumption of asymptotic normality. However this assumptions may not be not realistic all the time because asymptotic normality requires larger sample sizes considerably. Large sample sizes mean burdensome experiences for the scientists. Because most nonlinear data are generated through expensive and time consuming experiments carried out generally in laboratory conditions. For this reason other interval estimation procedures like bootstrapping and jackknife are used quite often. Besides some probability inequalities including Chebyshev's Inequality can also be used. Keywords: Nonlinear regression, interval estimation, Chebyshev's Inequality, Bootstrap method, Jackknife method *Öğretim Üyesi, Yard. Doç. Dr., Yıldız Teknik Üniversitesi, Fen Edebiyat Fakültesi, Ġstatistik Bölümü, DavutpaĢa Esenler, 34210, Ġstanbul, aevren@yildiz.edu.tr ORTA DOĞU TEKNĠK ÜNĠVERSĠTESĠ, FEN-EDEBĠYAT FAKÜLTESĠ, ĠSTATĠSTĠK BÖLÜMÜ | 25 VII. ĠSTATĠSTĠK GÜNLERĠ SEMPOZYUMU BĠLDĠRĠLER KĠTABI 2010 GĠRĠġ Doğrusal olmayan regresyon modellerinde parametrelerin aralık tahminleri için benimsenen asimptotik normallik yaklaĢımı çoğu zaman örnek büyüklüklerinin yetersiz olması nedeniyle gerçekçi olmamaktadır. Bu çalıĢmada doğrusal olmayan modeller için Bootstrap yöntemi, Jackknife yöntemi gibi parametrik olmayan aralık bulma yöntemlerini benimsemenin yanısıra ÇebiĢev türü eĢitsizliklerden de yararlanılarak parametre aralıkların uzunluklarının düĢürülmesine çalıĢılacaktır. DOĞRUSAL OLMAYAN REGRESYON MODELLERĠ Doğrusal olmayan bir regresyon modeli Y i f ( X i , ) i (1) Ģeklindedir. Burada i. açıklayıcı ya da bağımsız değiĢkenin gözlem değerleri vektörü X i1 X i 2 X ixq .... X iq p tane parametre vektörü (2) 0 1 ... p 1 (3) ve parametrelerin ilk tahmini değerleri vektörü g 0 g px1 g...1 g p 1 olsun. Yine ( 0) k g k (4) ( 0) (5) k ORTA DOĞU TEKNĠK ÜNĠVERSĠTESĠ, FEN-EDEBĠYAT FAKÜLTESĠ, ĠSTATĠSTĠK BÖLÜMÜ | 26 VII. ĠSTATĠSTĠK GÜNLERĠ SEMPOZYUMU BĠLDĠRĠLER KĠTABI D (0) ik f ( X i, ) k Yi Y ( 0) i 2010 f ( 0) i p 1 Dik ( 0) k 0 Yi f ( 0) k (6) g (0) i (7) ( 0) (8) i denecek olursa Ģu doğrusallaĢtırılmıĢ regresyon modeli elde edilir. Y Y ( 0) i ( 0) p 1 Dik ( 0) k 0 D ( 0) ( 0) ( 0) k i (9) (10) Bu kalıp doğrusal modeller için kullanılan kalıbın aynısıdır. D türev matrisi doğrusal hallerde X matrisinin oynadığı rolü oynamaktadır. Dolayısıyla parametre tahminleri doğrusal hallerle analoji kurularak aĢağıdaki gibi gerçekleĢtirilmektedir (Neter vd.,1985): b D (0) D (0) D Y 1 (0) ( 0) (0) (11) Doğrusal olmayan modellerde parametre tahmini iteratif yöntemlerle gerçekleĢtirilmektedir. Her iterasyon sonucunda parametre tahminleri vektörü i=1,2,… için g (i ) k g ( i 1) k ( i 1) bk (12) ile revize edilmekte ve ardıĢık parametre tahminleri arasındaki farklar ihmal edilebilir bir düzeye 2 gelince iterasyonlar sona erdirilmektedir. Hata terimleri ortalaması sıfıra, varyansı ‟ye eĢit bağımsız normal değiĢkenler olarak kabul edildiğinde g „nin asimptotik örnekleme dağılımı da yaklaĢık olarak normal dağılıĢtır. E (g ) (13) s g MSE DD 2 1 (14) ve (14) ile bulunan asimptotik varyans-kovaryans matrisi, aralık tahminleri ve hipotez testleri için kullanılmaktadır (Huet vd., 1996) . Doğrusal olmayan regresyonda doğrusal regresyondan farklı olarak dikkate alınması gereken bazı noktalar bulunmaktadır. KarĢılaĢılan bazı sorunlar ve pratik çözüm önerileri için Motulsky ve Christopoulos (2004)'e bakılabilir. Bu zorlukların bir kısmı Ģu Ģekilde sıralanabilir: ORTA DOĞU TEKNĠK ÜNĠVERSĠTESĠ, FEN-EDEBĠYAT FAKÜLTESĠ, ĠSTATĠSTĠK BÖLÜMÜ | 27 VII. ĠSTATĠSTĠK GÜNLERĠ SEMPOZYUMU BĠLDĠRĠLER KĠTABI 2010 i) Doğrusal olmayan modeller için en küçük kareler (ya da en çok olabilirlik) fonksiyonu genellikle birden fazla minimum (en çok olabilirlik için maksimum) noktasına sahiptir. ii) Doğrusal modellerde kullanılan R-kare gibi uyum iyiliği ile ilgili istatistikler doğrusal olmayan modeller için yanıltıcı olabilir. Sözgelimi doğrusal olan bir model için yeterli sayılan bir R-kare değeri, doğrusal olmayan modeller için yetersiz kalmaktadır iii)Doğrusal olmayan regresyonda parametrelerin baĢlangıç tahminlerini modele dıĢsal olarak tanıtmak gerekmektedir. Farklı baĢlangıç değerleri, farklı (nihai) parametre tahmin değerleri verebilir. Bu durumu nihai parametre tahminlerinin baĢlangıç değerlerine olan “aĢırı bağımlılığı” Ģeklinde de ifade etmek mümkündür. iv) Doğrusal olmayan regresyon modellerinde parametre tahminleyicileri gözlem değerlerinin doğrusal bir fonksiyonu değildir. Dolayısıyla bağımlı değiĢkenin kitle dağılımının normal olması, otomatik olarak parametre tahminleyicilerinin de normal dağılıma uyacağının garantisi değildir. Öte yandan asimptotik normallik örnek büyüklüğünün fazla olmasını gerektirmektedir (Seber ve Wild, 1989; Bates ve Watts,1988). Bu gibi durumlarda Bootstrap, Jackknife gibi nonparametrik sayılabilecek yöntemlerin benimsenmesi daha “rasyonel” olacaktır (Davidson,R., Mackinnon, J.G.,1993). Yine parametrik olmayan aralık tahminlerinin gerçekleĢtirilmesinde ÇebiĢev ve benzeri eĢitsizlikler de yararlı olabilecektir. ÇebiĢev ( Biénayme) EĢitsizliği X bir rastlantı değiĢkeni olmak üzere E (X ) , Var ( X ) olsun. k bir pozitif sabit olmak 2 üzere P X k 1 1 (15)BaĢka Bazı Varyantlar k2 Bazı durumlarda ÇebiĢev eĢitsizliği ile elde edilen aralık çok geniĢ ve dolayısıyla her zaman iĢlevsel olmamaktadır. Yine de bazen olasılık dağılımına yönelik bazı varsayımlarda bulunularak aralığın uzunluğu daraltılabilir.Örneğin, X rastlantı değiĢkeni tek modlu ve sürekli olsun. E (X ) ve Var (X ) ise P( X 3 ) 77 / 81 0.95 (DasGupta, 2008) .(16) ÇebiĢev EĢitsizliği‟nin Çok DeğiĢkenli Biçimi X ,X 1 2 ,..., X m değiĢkenleri, ortalamaları sırası ile varyansları da Yine k ;k 1 2 E ( X ), E ( X 2),..., E ( X m) 1 Var ( X 1),Var ( X 2)...,Var ( X m) olan rastlantı değiĢkenleri olsunlar. ;...; k m pozitif sabitler ve A , A ,..., A 1 2 m olayları da örnek uzay S içerisinde ORTA DOĞU TEKNĠK ÜNĠVERSĠTESĠ, FEN-EDEBĠYAT FAKÜLTESĠ, ĠSTATĠSTĠK BÖLÜMÜ | 28 ; ve VII. ĠSTATĠSTĠK GÜNLERĠ SEMPOZYUMU BĠLDĠRĠLER KĠTABI A X j j X j 2010 E ( X j ) k j Var ( X j ) j=1,2,…,m Ģeklinde tanımlansınlar. Bu durumda Boole EĢitsizliği”nden yararlanarak ÇebiĢev EĢitsizliğinin çok değiĢkenli versiyonu m m 2 P A j 1 k j (Kotz vd. 2000). j 1 j 1 (17) BaĢka Versiyonlar X ,X 1 2 , ,..., olan ve tane rastlantı değiĢkeni olsun. „de ,..., X k rastlantı değiĢkenleri, ortalamaları sırası ile varyans-kovaryans matrisleri de ij olan k 1 2 k ij sözkonusu varyans-kovaryans matrisinin tersi olsun. bir sabit olmak üzere k ij 2 olur (Wilks, 1962). P X i X j 1 2 i j i , j 1 k (18) Bootstrap ve Jackknife Bootstrap yöntemi aralık tahminlerinde de kullanılan parametrik olmayan bir tekniktir. Doğrusal olan ya da olmayan regresyon modellerinde normallik varsayımının gerçekçi olmadığı durumlarda kullanılmaktadır. Birden fazla bootstrap yöntemi olmakla birlikte en çok kullanılan bootstrap yöntemini özetlemek gerekirse, regresyon modelinden elde edilen artıklardan iadeli örnekleme yöntemine göre belirli sayıda artık elde edilmekte ve bu değerler bağımlı değiĢkene eklenmektedir. Daha sonra bağımlı değiĢkenin elde edilen yeni değerlerinden yararlanılarak aynı matematiksel kalıba sahip regresyon modeli oluĢturulmakta ve yeni parametre tahmin değerleri elde edilmektedir. Bu iĢlem çok sayıda tekrar edildiğinde, her denemede elde edilen parametre tahminlerinin bir sıklık dağılımı oluĢmakta ve bu sıklık dağılımlarından hareketle, parametrelerin aralık tahminleri yapılmaktadır (Money ve Duval, 1993). Jackknife yöntemi ise daha çok regresyon denkleminin belirlenmesinde etkili gözlem noktalarının ortaya çıkarılmasında kullanılmaktadır. Bu yönteme göre gözlem setinden her bir denemede belirli sayıda gözlem noktası çıkarılmakta ve geri kalanlarla regresyon denkleminin katsayıları tahmin edilmeye çalıĢılmaktadır. Bu iĢlem büyük sayılarda yinelendiğinde, parametre tahmini değerlerinin bir sıklık dağılımı oluĢmakta ve bu sıklık dağılımından aralık tahminlerinin oluĢturulmasında yararlanılmaktadır (Money ve Duval, 1993) . UYGULAMA Uygulama aĢamasında “http://itl.nist.gov/div898/strd/nls/nls_main.shtml” adresinden Rat43 adlı dosyadan alınan ve parametre tahmini zorluk derecesinin yüksek olduğu aĢağıdaki veri kümesi kullanılmıĢtır. ORTA DOĞU TEKNĠK ÜNĠVERSĠTESĠ, FEN-EDEBĠYAT FAKÜLTESĠ, ĠSTATĠSTĠK BÖLÜMÜ | 29 VII. ĠSTATĠSTĠK GÜNLERĠ SEMPOZYUMU BĠLDĠRĠLER KĠTABI 2010 Tablo 1: (X,Y) Değerleri X Y X Y 1 16.08 9 590.03 2 33.83 10 651.92 3 65.80 11 724.93 4 97.20 12 699.56 5 191.55 13 689.96 6 326.20 14 637.56 7 386.87 15 717.41 8 520.53 Buradaki bağımlı değiĢken Y, kuru soğan tanesinin ağırlığı, bağımsız ya da açıklayıcı değiĢken X de soğanın büyümesi için geçen süredir. Aynı dosyada veri için denenen modelin Y=A/[{1+exp(B-CX)}^(1/D)] olduğu belirtilmektedir. Burada A,B,C ve D modelin parametreleri olup, baĢlangıç değerleri olarak sırasıyla 700, 5, 0.75 ve 1.3 verilmiĢtir. Ayrıca yukarıdaki denklemin incelenmesinden X büyük değerler aldıkça Y'nin A parametresine yakınsayacağı öngörülebilir. Bu noktadan yola çıkılarak en büyük X değerine karĢılık gelen Y değerinin (717), A'nın baĢlangıç tahmin değeri olarak verilmesi diğer B,C ve D parametrelerinin baĢlangıç değerlerinin bir olarak alınması ve parametre tahminlerinin gerçekleĢtirildiği aralığın -1E 9 ile 1E 9 olarak seçilmesi halinde de web sitesindeki sonuçlara oldukça benzer sonuçlar NCSS (Number Cruncher Statistical Systems) programı yardımı ile elde edilmiĢtir. Bu sonuçları kısaca Ģu Ģekilde özetlemek olasıdır: Tablo 2:Asimptotik normallik varsayımı altında parametrelerin nokta ve aralık tahminleri Yöntem Asimptotik Normallik Parametre Tahmini Standart Hata. %95'lik Alt Sınır % 95'lik Üst Sınır A 699 16.3 663.74 735.46 B 5.28 2.08 0.42 10.19 C 0.76 0.2 0.29 1.22 D 1.28 0.68 -0.28 2.86 NCSS çıktısı kalıntıların normal dağıldığını belirtse de örnek büyüklüğünün 15 olması nedeniyle bu sonuç ihtiyatla karĢılanmalıdır.Ġkinci olarak Microsoft Excel Veri Analizi modülü ve NCSS yardımıyla bootstrap yöntemi denenmiĢtir ( N= 100 ).Sonuçlar aĢağıdadır: ORTA DOĞU TEKNĠK ÜNĠVERSĠTESĠ, FEN-EDEBĠYAT FAKÜLTESĠ, ĠSTATĠSTĠK BÖLÜMÜ | 30 VII. ĠSTATĠSTĠK GÜNLERĠ SEMPOZYUMU BĠLDĠRĠLER KĠTABI 2010 Tablo 3:Bootstrap yöntemi ile parametrelerin nokta ve aralık tahminleri Yöntem Bootstap Parametre Tahmini Standart Sapma. %95'lik Alt Sınır % 95'lik Üst Sınır A 700.18 12.51 679.88 726.89 B 5.68 2.25 1.26 10.12 C 0.81 0.19 0.49 1.26 D 1.44 0.77 0.21 3.13 Üçüncü olarak veri kümesinden her bir denemede bir gözlem değeri atılarak Jackknife yöntemi ile parametre tahminleri yeniden gerçekleĢtirilmiĢtir. Sonuçlar aĢağıdaki gibidir: Tablo 4: Jackknife yöntemi ile parametrelerin nokta ve aralık tahminleri Yöntem Jackknife Parametre Tahmini Standart Sapma. %95'lik Alt Sınır % 95'lik Üst Sınır A 699.74 6.64 693.21 712.62 B 5.35 0.67 4.39 6.6 C 0.76 0.06 0.67 0.88 D 1.3 0.21 0.99 1.68 Daha sonra ÇebiĢev yöntemi ile %95'lik aralık tahminleri gerçekleĢtirilmiĢtir(k=4.47) . Tablo 5: ÇebiĢev eĢitsizliği ile parametrelerin %95 güvenle aralık tahminleri Yöntem ÇebiĢev Parametre Tahmini Standart Hata %95'lik Alt Sınır % 95'lik Üst Sınır A 699 16.3 626.74 772.46 B 5.28 2.08 -4.01 14.57 C 0.76 0.2 -0.13 1.65 D 1.28 0.68 -1.76 4.32 Son olarak ÇebiĢev EĢitsizliği'nin her dört parametre için elde edilen aralık tahminlerinin sınır noktaları, ilgili parametrelerin ilk tahmini değeri olarak NCSS'e tanıtılmıĢ ve bu noktalarda model yeniden denenerek regresyon denkleminin katsayılarının bu yeni değiĢiklikler karĢısında istikrarlı olup olmadığına bakılmıĢtır. ORTA DOĞU TEKNĠK ÜNĠVERSĠTESĠ, FEN-EDEBĠYAT FAKÜLTESĠ, ĠSTATĠSTĠK BÖLÜMÜ | 31 VII. ĠSTATĠSTĠK GÜNLERĠ SEMPOZYUMU BĠLDĠRĠLER KĠTABI 2010 Tablo 6: ÇebiĢev eĢitsizliği ile oluĢturulan aralıkların kısıt olarak kullanılması ile elde edilen parametre tahminleri (ve bu tahminlerin istikrarlı olup olmadığının sınanması) Katsayılar Denenen Değerler ÇebiĢev ile elde edilen alt sınır ÇebiĢev ile elde edilen alt sınır Sonuçlar A 626 772 Benzer noktalara yakınsama B -4 15 Daha iyi çözüm elde edilemedi. C -0.13 1.65 Daha iyi çözüm elde edilemedi. D -1.76 4.32 Daha iyi çözüm elde edilemedi. Yukarıdaki tablodan hareketle B,C ve D parametrelerinin baĢlangıç tahmin değerleri ile fazla oynanmaması gerektiği düĢünülmüĢ ve sözkonusu parametrelerin NCSS ile elde edilen tahmini değerleri bu kez de modele birer sabit olarak sokulmuĢ ve aĢağıdaki çıktı elde edilmiĢtir. Buna göre Y=A/[{1+exp(5.28-0.76X)}^(1/1.28)] modeli denenerek A parametresi için daha düĢük standart hatalı bir model elde edilmiĢtir. Özet istatistikler Ģöyledir: Tablo 8: Bazı parametrelere kısıtlamalar getirerek (ya da tahmini değerler vererek) parametre uzayının boyutunun azaltılarak daha küçük standart hatalı tahmin edicilerin aranması Parametre A Parametre Tahmini Asimptotik Standart Hata 699.73 9.01 %95'lik Alt Sınır %95'lik Üst Sınır 680.41 719.05 Bu durumda oluĢturulan model “Y= (699.7327)/((1+EXP(5.28-0.76*(X)))^(1/1.28))” Ģeklindedir ve ilgili R-Kare değeri de 0.99 olarak bulunmuĢtur. SONUÇLAR 1. Doğrusal olmayan regresyonda parametreler için aralık tahminleri asimptotik normalliğe dayalıdır. Bu bakımdan aralık tahminine gidilmesinde asimptotik normallik varsayımı yerine Bootstrap, Jackknife ,ÇebiĢev eĢitsizliği ve benzeri yaklaĢımları benimsemek özellikle küçük örneklem hacmi için daha doğru olacaktır. 2. Bootstrap, Jackknife gibi yöntemler bilgisayarların yoğun olarak kullanıldığı ve zaman alıcı yöntemlerdir. ÇebiĢev ve benzeri eĢitsizlikleri kullanmak aralık tahminlerine giderken kolaylık sağlamaktadır. Yine de bütün bu yöntemler birbirlerini destekler bir Ģekilde kullanılmalıdır. ORTA DOĞU TEKNĠK ÜNĠVERSĠTESĠ, FEN-EDEBĠYAT FAKÜLTESĠ, ĠSTATĠSTĠK BÖLÜMÜ | 32 VII. ĠSTATĠSTĠK GÜNLERĠ SEMPOZYUMU BĠLDĠRĠLER KĠTABI 2010 3. ÇebiĢev türü eĢitsizliklere dayalı aralık tahminlerinin geniĢ çıkmasında k değerlerinin büyüklüğünün yanısıra standart hataların da büyüklüğü bir etken olabilir. Ancak yine de bu gibi yöntemler hiç Ģüphesiz , Bootstrap, Jackknife gibi yöntemlere göre daha geniĢ aralık tahminleri vermektedir. 4. Yine de ÇebiĢev ve benzeri eĢitsizliklerden yararlanılarak elde edilen aralıkların uç noktalarında modelin istikrarlı olup olmadığı (aynı parametre tahmini değerlerine yakınsayıp yakınsamadığı) test edilebilir. Eğer bazı parametre değerleri bu tür bir istikrarsızlığa neden oluyorsa, bu parametrelerin tahmini değerleri modele birer sabit olarak dahil edilerek (alacakları değerlere kısıtlar konularak), daha düĢük standart hataya sahip baĢka (ve daha yalın) modeller elde edilebilir. 5. Bunlara ek olarak ÇebiĢev eĢitsizliğinde, dağılıma iliĢkin ek varsayımlarda bulunarak aralıkları daraltmak mümkündür. 6. Ayrıca literatürde ÇebiĢev eĢitsizliğinin çok değiĢkenli bazı versiyonları da mevcuttur. Parametre tahmin edicilerinin aralarındaki korelasyonlar dikkate alınarak bazı aralıkların uzunluklarını daraltmak da sözkonusu olabilir. 7. Son olarak e Jackknife yönteminin özellikle artık analizinde (etkili değerlerin bulunmasında), Bootstrap yönteminin de parametre tahmincilerinin asimptotik varyanskovaryans matrisinin elde edilmesinde iĢlevsel olduğu, ÇebiĢev vb. eĢitsizliklerin ise her zaman iĢlevsel olmadığı ama bununla birlikte bulunan parametre tahminlerinin ne kadar istikrarlı olduğunun incelenmesinde ve almaĢık yöntemlerin denenmesinde yararlı olabileceği de vurgulanmalıdır. KAYNAKLAR BATES D.M., WATTS D.G.(1988), Nonlinear Regression Analysis and Its Applications, New York, John Wiley&Sons. DASGUPTA, A.(2008), Asymptotic Theory of Statistics and Probability, Springer Texts in Statistics, New York, Springer DAVIDSON, R., MACKINNON, J.G.(1993), Estimation and Inference in Econometrics, New York, Oxford University Press. HUET,S., BOUVIER,A., GRUET,M., JOLIVET,E., (1996), Statistical Tools for Nonlinear Regression: A Practical Guide with S-Plus Examples, Springer-Verlag, New York, Springer Series in Statistics. KOTZ,S., BALAKRISHNAN, N., JOHNSON,N.L.(2000), Continuous Multivariate Distributions, Volume 1: Models and Applications, Second Edition, USA, Wiley series in Probability and Statistics. ORTA DOĞU TEKNĠK ÜNĠVERSĠTESĠ, FEN-EDEBĠYAT FAKÜLTESĠ, ĠSTATĠSTĠK BÖLÜMÜ | 33 VII. ĠSTATĠSTĠK GÜNLERĠ SEMPOZYUMU BĠLDĠRĠLER KĠTABI 2010 MOONEY,Z.M.,DUVAL,R.D.(1993),Bootstrapping A Nonparametric Approach to Statistical Inference, Series: Quantitative Applications in the Social Sciences,a Sage University Paper, No 95. MOTULSKY, H., CHRISTOPOULOS, A. (2004), Fitting Models to Biological Data Using Linear and Nonlinear Regression: A Practical Guide to Curve Fitting, USA, Oxford University Press NETER J., WASSERMAN W., KUTNER M. H. (1985), Applied Linear Statistical Models, second edition,Illinois, Richard D. Irwin. SEBER G.A.F., WILD C.J.(1989), Nonlinear Regression, USA, John Wiley&Sons. WILKS,S.S.(1962), Mathematical Statistics, Japan,John Wiley&Sons Inc. http://itl.nist.gov/div898/strd/nls/nls_main.shtml (Doğrusal olmayan regresyon modelleri ile ilgili veriler içeren bir site. Siteye eriĢim tarihi Mayıs-Haziran 2010) ORTA DOĞU TEKNĠK ÜNĠVERSĠTESĠ, FEN-EDEBĠYAT FAKÜLTESĠ, ĠSTATĠSTĠK BÖLÜMÜ | 34 VII. ĠSTATĠSTĠK GÜNLERĠ SEMPOZYUMU BĠLDĠRĠLER KĠTABI 2010 ESENBOĞA, ATATÜRK VE LONDON CITY HAVAALANLARINDAKĠ MEVSĠMSEL HAREKETLĠLĠĞĠN GÖSTERMELĠK DEĞĠġKEN YÖNTEMĠYLE TESPĠT EDĠLMESĠ Deniz KONAK* Vilda PURUTÇUOĞLU** ÖZET Göstermelik değiĢken yöntemi özellikle ekonomik verilerin analizinde kullanılan oldukça yaygın bir yöntemdir.Bu yöntem, yapay değiĢkenler ekleyerek, gruplandırılmıĢ nitel verilerin regresyon modelleriyle analizlerine olanak sağlar.Biz bu çalıĢmada göstermelik değiĢken yöntemini Atatürk, Esenboğa ve London City Havaalanları için 2007-2009 yılları arasındaki aylık verileri kullanarak olası mevsimsel etkileri bulmada ve anlamlı farkların gözlendiği aylar için sebeplerine yönelik yorumları yapmada kullandık.Analizlerde Atatürk Havaalanında anlamlı aylık farkların gözlenmediği, buna karĢın, Esenboğa ve London City Havaalanlarında, sırasıyla, eylül ve ekim aylarında anlamlı farkın olduğunu bulduk.Bu sonuçların özellikle seçilen havaalanlarındaki hava trafiğini planlamada faydalı olabileceğini düĢünmekteyiz. Anahtar kelimeler: Mevsimsel etkiler, Göstermelik değiĢken yöntemi, Havaalanı hareketliliği DETECTION OF SEASONAL EFFECTS IN ESENBOĞA, ATATÜRK, AND LONDON CITY AIRPORTS BY THE DUMMY VARIABLE METHOD ABSTRACT The dummy variable method is one of the common techniques applied, in particular, in the analysis of the economical data. This method enables the grouped qualitative data to be analyzed in regression models by adding artificial variables. In this study we have implemented the dummy variable technique to detect the possible seasonal effects in 2007-2009 monthly data of the Atatürk, Esenboğa, and London City Airports, and to discuss the possible reasons of such effects for the significantly different months. From the analysis we have found that there is not any statistically significant month effect for the Atatürk Airport, whereas, there exists statistically significant monthly effects in september and october for the Esenboğa and London City Airports, respectively. We consider that our findings can be useful for the organization of the air control in the selected airports. Keywords: Seasonal effects, The dummy variable method, Aircraft movements * Yüksek Lisans Öğrenci, Bilkent Üniversitesi, Ġktisadi ve Ġdari Bilimler Fakültesi, Ekonomi Bölümü, 06800, Ankara, denizkonak@hotmail.com ** Yardımcı Doçent Doktor, Orta Doğu Teknik Üniversitesi, Fen Edebiyat Fakültesi, Ġstatistik Bölümü, 06531 Ankara, vpurutcu@metu.edu.tr(HaberleĢme Adresi) ORTA DOĞU TEKNĠK ÜNĠVERSĠTESĠ, FEN-EDEBĠYAT FAKÜLTESĠ, ĠSTATĠSTĠK BÖLÜMÜ | 35 VII. ĠSTATĠSTĠK GÜNLERĠ SEMPOZYUMU BĠLDĠRĠLER KĠTABI 2010 GĠRĠġ Göstermelik değiĢken yöntemi nitel değiĢkenlerin regresyon modeline eklenmesi için kullanılan ve çok bilinen bir yöntemdir (Gujarati, 2003).Sık kullanımı, ekonomik verilerde görülmektedir.Örneğin Gültekin ve Gültekin (1983) ve Chien ve ark.(2002) Menkul Kıymetler Borsası için mevsimsel etkileri, Asteriou ve Kavetsos (2006) geliĢmekte olan ekonomiler için ocak ayı etkisi konusunu incelemiĢlerdir.Koçak (2008), Ladiray (2006) ve Atabek ve ark.(2009) ulusal hesaplar serileri gibi farklı ekonomik veriler için mevsimsel etkileri ve takvim etkilerini ele almıĢlardır.Bahsedilen alanların dıĢında, bu yöntem aslında anlamlı mevsimsel etkilerin görülebileceği bir çok farklı veri kümesinde de kullanılabilir (Green ve Doll, 1974). Biz bu çalıĢmada göstermelik değiĢken yöntemini, 2007-2009 yılları arasındaki Esenboğa, Atatürk ve London City Uluslararası Havaalanlarındaki uçakların hareketliliğini gösteren veri setleri üzerinde olası mevsimsel etkileri saptamak ve etkilerin nedenlerini yorumlayabilmek için kullanmaktayız. Bu amaçla öncelikle çalıĢmanın 2. Bölümünde, kullandığımız veri tanıtılmakta ve analizde kullanılan yöntem anlatılmaktadır. 3. Bölümde uygulamada elde ettiğimiz sonuçlar sunulmakta, son olarak 4. Bölümde elde edilen bulgular özetlenerek sonuçlar yorumlanmaktadır. VERĠ TANITIMI VE YÖNTEM Zaman serisi verileri içinde yaygın olan bileĢenlerden birisi mevsimsel etkilerdir (Grenger, 1964; Thaler, 1987).ÇalıĢmamızda bu etkilere sahip olduğunu düĢündüğümüz Esenboğa, Atatürk ve London City Havaalanlarına ait 2007-2009 yılları arasındaki aylık uçak hareketliliklerini gösteren zaman serisi verileri regresyon analizi yardımıyla modellenmektedir.ÇalıĢmada kullanılan Esenboğa ve Atatürk Havaalanlarına ait verikümesi http://www.dhmi.gov.tr/istatistik.aspx, London City Havaalanına ait veriler ise http://www.lcacc.org/statistics/index.html internet sitesinden elde edilmiĢtir. Veri analizinde, hem verideki anlamlı mevsimsel etkinin olup olmadığını sınamada hem de anlamlı bulunan etkinin nereden kaynaklandığını bulmada “göstermelik değiĢken yöntemi” kullanılmıĢtır. Genel anlamda bu yöntemde, bağımlı değiĢken üzerinde etkisi bulunan her bir nitel veri grubu için, regresyon modeline, ait olduğu grup için 1, ait olmadığı diğer gruplar için 0 değeri alan bir yapay değiĢken ekleme mantığı yer almaktadır (Suits, 1957; Asteriou, 2006, 195). Nitekim bu çalıĢmada aylık etkilerin analizinde her bir ay için regresyon modelimize birer adet göstermelik değiĢken eklenmiĢtir. Mevsimsel etkilerin analizi için bu yönteminin dıĢında, “Chow Test” adlı alternatif bir yöntem de kullanılabilir. Bu yöntemde ise kısaca,göstermelik değiĢken metodunda olduğu gibi tek bir regresyon modeli kullanmak yerine, hafta, ay veya 3 ay gibi her bir mevsimsel süreç için ayrı regresyon denklemleri kurularak sonuçlar yorumlanır. Fakat burada her model için farklı bağımlı değiĢkenlerin olması sebebiyle model parametrelerinin tahmini, ORTA DOĞU TEKNĠK ÜNĠVERSĠTESĠ, FEN-EDEBĠYAT FAKÜLTESĠ, ĠSTATĠSTĠK BÖLÜMÜ | 36 VII. ĠSTATĠSTĠK GÜNLERĠ SEMPOZYUMU BĠLDĠRĠLER KĠTABI 2010 hem daha karmaĢık hem de hesaplama süresi bakımından daha uzundur (Pursell, 1970; Salkever, 1976).Göstermelik değiĢken yöntemi, Chow Test yöntemine göre daha kolay ve hesaplama aĢamasında daha etkili olması sebebiyle mevsimsel etkilerin analizinde daha çok tercih edilmektedir (Salkever, 1976; Pursell, 1970; Suits, 1957; Karafiath, 1988). Modelin KuruluĢu Göstermelik değiĢken yönteminde, göstermelik değiĢkenler herhangi bir regresyon modeline iki farklı yolla eklenebilir. Gültekin ve Gültekin (1983), Jaffe (1989) ve Asteriou ve Kavetsos (2006) tarafından desteklenen ilk yaklaĢımda, incelenen mevsimsel etkiler için kesiĢim terimi olmayan ve Denklem (1) ile belirtilen regresyon modeli kurulur. Yrt = α1D1t + α2D2t + α3D3t +…+α12D12t+ Ut (1) Denklem (1) ile tanımlanan modelde, Ut rassal hata terimini, Yrt ise r. ay için aylık hareketliliği ifade etmektedir. Diğer yandan αr(r = 1, . . . , 12), r. ay için aylık toplam yolcu sayısını ve Drt , r. ay için 1, diğer aylar için 0 değerini alan göstermelik değiĢkeni göstermektedir.ÇalıĢmamızda uçuĢ hareketliliğindeki mevsimsel etkinin anlamlılığını Denklem (1) ile değerlendirirken, her bir havaalanı için ayrı ayrı olmak üzere, “H0: α1= α2=...= α12 =0” formunda kurduğumuz sıfır hipotezine karĢılık “H1 : En azından bir αrdeğerinin farklı olması” alternatif hipotezini test etmekteyiz. Bu durumda modelimizdeki her bir αrdeğeri aylık toplam hareketliliği ifade ederken kurduğumuz alternatif hipotezin reddedilmesi, seçilen havaalanlarındaki uçakların hareketliliğinde dikkate değer bir mevsimsel etkinin olduğu Ģeklinde yorumlanabilir. Ayrıca alternatif hipotezin reddedilmesi herhangi bir ay için özel aylık etkinin varolduğunu da gösterir. Eğer böyle bir etkinin olduğu sonucuna varılırsa, bu etkinin hangi ayda olduğu Denklem (2) olarak adlandırılan aĢağıdaki regresyon modeli yardımıyla bulunabilir. Yrt C + r 1 D i 1 i. it + Ut (2) Denklem (2) ile tanımladığımız modelde Ut, diğer modelde olduğu gibi 0 ortalama ve σ2varyansa sahip hata terimini göstermektedir. C herhangi bir aya ait özel aylık etkiyi, Yrt ise r. ay için aylık hareketliliği ifade etmektedir. Son olarak αr(r=1, . . . , 12) belirlenen ay ile r. ay arasındaki farkı ve Drt , r. ay için 1 değerini alan göstermelik değiĢkeni anlatmaktadır. Bu çalıĢmada Denklem (2)‟yi, aylık etkilerin bulunması durumunda bunun hangi aylarda olduğuna bakarak uçuĢ hareketliliğindeki yoğunluğun aslında yaz tatilinde mi, üniversitelerin dönem tatilleri, bayram tatilleri, yılbaĢı ya da kıĢ dönemde mi olduğunu yorumlamada kullanmaktayız. ORTA DOĞU TEKNĠK ÜNĠVERSĠTESĠ, FEN-EDEBĠYAT FAKÜLTESĠ, ĠSTATĠSTĠK BÖLÜMÜ | 37 VII. ĠSTATĠSTĠK GÜNLERĠ SEMPOZYUMU BĠLDĠRĠLER KĠTABI 2010 UYGULAMA ÇalıĢmada Esenboğa, Atatürk ve London City Havaalanlarına ait, ġekil 1‟de de gösterilen zaman serisi verileri, Denklem (1) ve (2)‟de verilen regresyon modelleri kullanılarak tahmin edilmektedir. Model parametrelerinin tahmini genel en az kareler (generalized least square) metoduyla ve analizleri Eviews 5.0 paket programı ile yapılmıĢtır. Bu programın analizler için seçilme nedeni ise özelikle ekonomik verileri değerlendirmede kullanım kolaylığından dolayı yaygın olarak tercih edilmesidir. Ancak bu programın, parametre tahminlerinde ilgilenilen varyans-kovaryans matrisinin tersi gerektiği durumlarda kullandığı algoritmalarla zaman zaman singülerlik problemiyle karĢılaĢtığı da bilinmektedir. Uçakların hareketliliğini gösteren verilerde, öncelikle, aylık anlamlı farklar olup olmadığını test etmek için Denklem (1)‟deki model kullanılmıĢtır. Bu analiz için de klasik lineer regresyon modeli varsayımları olan hata terimlerinin otokorelasyona ve ayrı varyanslılığa (heteroscedasticity) sahip olmamaları durumunun bizim veri kümelerimizde uygun olup olmadığı test edilmiĢtir. Bu testler temelde, hataların normal dağıldığı varsayımına dayanması sebebiyle her üç havalanı için Jarque-Bera testi uygulanmıĢ, buna alternatif olarak da hataların çarpıklık (skewness) ve basıklık (kurtosis) değerlerinin sırasıyla 0 ve 3‟e eĢit olup olmadıklarına bakılmıĢtır. Test sonuçlarından normal dağılım varsayımının Esenboğa ve London City Havaalanları için uygun olduğu gözlenmiĢtir. Atatürk Havaalanı için ise Temmuz 2008 verisinin aykırı veri olduğu ve normallik Ģartını bozduğu bulunmuĢtur. Bu sebeple öncelikle gözlenen aykırı verinin bulunduğu zamanda havalanındaki yoğunluğu etkileyecek özel bir olayın olup olmadığı araĢtırılmıĢ, böylece aracılık (intervention) analizinin uygulanabilirliği değerlendirilmiĢtir. Aracılık analizi, zaman serilerinde, sebebi belli olan tek gözleme veya bulunan sebeple seride oluĢan yapısal kırılmanın (structural break) olduğu gözlemlerde kullanılan ve bu noktaya/noktalara göre adım (step) veya pulse fonksiyon kullanarak yanıtı (response) modellemeye çalıĢan bir yöntemdir (Wei, 2006). ÇalıĢmamızda, verimizin aracılık analizine uygunluğunu belirlemek için öncelikle Atatürk Havaalanında belirlenen tarihte özel bir olayın varlığı araĢtırılmıĢ ve yapılan araĢtırmada uçuĢ yoğunluğunu etkileyeck özel bir sebebe rastlanmamıĢtır. Bu nedenle aykırı veriyi analizden çıkarmak yerine, bu tek gözlemin “kayıp veri” olduğu varsayılmıĢ ve bu nokta için EM algoritmasıyla (SPSS 16.0 programı yardımıyla) değer tahmini yapılmıĢtır. Bulunan değer daha sonra Atatürk Havalanı için yapılan tüm analizlerde aykırı gözlem yerine kullanılmıĢtır. Nitekim kullanılan bu gözlem değeriyle veri setinde normallik varsayımının da sağlandığı görülmüĢtür. Daha sonra her üç seri için de serilerin otokorelasyon ve ayrı varyanslılık durumları değerlendirilmiĢtir. Seri korelasyonları için Breusch Godfrey ve Durbin-Watson testleri (Asteriou, 2006) uygulanmıĢ, sağlam bir test tekniği olan Breusch Godfrey ve Durbin- Watson‟nın farklı cevaplar verdiği durumlarda yaygın kullanımı olan ve hata dağılımını göz önünde bulunduran Durbin-Watson test sonuçları dikkate alınmıĢtır. Test sonuçları Tablo 1‟de gösterilmektedir. Ayrı varyanslılığı kontrol etmek için ise ARCH LM(1) prosedürü (Asteriou, 2006) kullanılmıĢtır. Tablo 1‟de sunulan test istatistikleri, hataların ORTA DOĞU TEKNĠK ÜNĠVERSĠTESĠ, FEN-EDEBĠYAT FAKÜLTESĠ, ĠSTATĠSTĠK BÖLÜMÜ | 38 VII. ĠSTATĠSTĠK GÜNLERĠ SEMPOZYUMU BĠLDĠRĠLER KĠTABI 2010 ġekil 1. Veri seti grafikleri 40000 35000 30000 25000 20000 15000 07:01 07:07 08:01 08:07 09:01 09:07 A (a) Esenboğa Havaalanı (b) Atatürk Havaalanı 9000 8000 7000 6000 5000 07M01 07M07 08M01 08M07 09M01 09M07 M2 (c) London City Havaalanı Esenboğa ve London City Havaalanları için bu varsayımı da karĢılamadığını göstermektedir. Hataların bu iki varsayımı sağlamaması serilerde beyaz gürültü (white noise) özelliğinin bulunmadığı anlamına geldiği için serideki olası birim kare (unit root) durumu Phillips-Perron testi ile kontrol edilmiĢtir. Sonuçlar üç serinin de durağan hatalara sahip olduğunu göstermektedir. Bu sebeple Denklem (1)‟i kullanarak yaptığımız parametre tahminlerinde tistatistikleri, sadece otokorelasyon ve ayrı varyanslık özelliklerini göz önünde bulunduran ORTA DOĞU TEKNĠK ÜNĠVERSĠTESĠ, FEN-EDEBĠYAT FAKÜLTESĠ, ĠSTATĠSTĠK BÖLÜMÜ | 39 VII. ĠSTATĠSTĠK GÜNLERĠ SEMPOZYUMU BĠLDĠRĠLER KĠTABI 2010 “Newey-West ayarlanmıĢ standard hatalar” (Asteriou, 2006; Asteriou ve Kavetsos, 2006) kullanılarak yapılmıĢtır. Her ay için bulunan tahmin ediciler yine Tablo 1‟de sunulmaktadır. Tabloda verilen katsayıların p-değerlerine bakıldığında ise Esenboğa ve London City Havaalanlarında anlamlı aylık etkilerin olduğunu gözlenmiĢtir. Son olarak bulunan modellerin sahte (spurious) regresyon olabileceğini kontrol etmek amacıyla her havaalanı için bulunan R2‟ler Durbin-Watson test istatistikleriyle karĢılaĢtırılmıĢtır. Tablo 1‟de verilen R2 değerleri ile Durbin-Watson test istatistikleri serilerimizde bu problemin gözlenmediğini, modelimizin bu durumda seri için uygun bir model olarak görülebileceğini göstermektedir. Analizin ikinci aĢaması ise bulunan anlamlı farkların, hangi aylarda gözlendiğini bulmaya yöneliktir. Bu amaçla Esenboğa ve London City Havaalanları için Denklem (2) ile ayrı ayrı modelleme yapılmıĢtır. Test istatistiklerinden Esenboğa ve London City Havaalanları için uçuĢ hareketliliğindeki değiĢimin, eylül ve ekim aylarında olduğu gözlenmiĢtir. Tablo 2‟de verilen parametre tahminlerinde C değeri her havaalanı için sadece istatistiksel olarak anlamlı değiĢikliklerin gözlendiği aylar baz alınarak hesaplanmıĢ parametre tahminlerini vermektedir. Bu sebeple Esenboğa ve London City Havaalanları için, C değeri, sırasıyla, eylül ve ekim aylarına ait özel aylık etkileri göstermektedir. Ayrıca sonuçlardan, Ġstanbul‟un stratejik özelliğinden dolayı Atatürk Havaalanının diğer havaalanlarına kıyasla her zaman çok daha yoğun bir uçuĢ trafiğine sahip olduğu görülmüĢtür (ġekil 1). Bu havaalanındaki uçuĢ hareketliliğinin ise istatistiksel olarak aylık fark göstermemesi tüm aylar için havaalanının uluslararası hava trafiğindeki önemli bağlanti noktalarından biri olmasıyla açıklanabilir. Esenboğa ve London City Havaalanları ise uluslararası uçuĢlara açık olsa da çoğunlukla yurtiçi seyahatlerinde kullanılması sebebiyle, diğer aylara göre anlamlı yoğunluğun her iki ülkedeki yaz tatillerinin bittiği, çoğunlukla okulların (üniversite/lise/ilköğretim) açıldığı dönemlerde olduğu bulunmuĢtur.Analizlerde Denklem (1)‟de olduğu gibi t-istatistikleri Newey-West ayarlanmıĢ standart hatalar kullanılarak hesaplanmıĢtır. SONUÇ Bu çalıĢmada Esenboğa, Atatürk ve London City Havaalanlarındaki uçakların hareketliliğinde anlamlı bir mevsimsel etkinin var olup olmadığını göstermelik değiĢken yöntemi ile test ettik. Seçilen yöntemin uygulaması literatürde oldukça yaygın olmasına rağmen uçuĢların hareketliliğindeki mevsimsel etkinin saptanması için kullanılması yeni bir uygulama alanıdır.Analizlerimiz sonucunda her havaalanı için de farklı dönemlerde aylık etkilerin bulunduğunu gösterdik. ÇalıĢmamızın özellikle Türkiye‟nin en büyük iki havaalanındaki uçuĢ trafiğine yönelik uzun dönem planlamalarda bir ön fikir verebileceğini düĢünmekteyiz. TEġEKKÜR Yazarlar, çalıĢmadaki yardımcı yönlendirmelerinden dolayı Yrd.Doç.Dr.Ceylan Yozgatlıgil‟e teĢekkür etmektedir. ORTA DOĞU TEKNĠK ÜNĠVERSĠTESĠ, FEN-EDEBĠYAT FAKÜLTESĠ, ĠSTATĠSTĠK BÖLÜMÜ | 40 VII. ĠSTATĠSTĠK GÜNLERĠ SEMPOZYUMU BĠLDĠRĠLER KĠTABI 2010 Tablo 1. Mevsimsel etkiler için test sonuçları Atatürk Havaalanı Değişken Katsayı Esenboğa Havaalanı London City Havaalanı D1 20128.67 tistatistiği 67.42 Katsayı tistatistiği Katsayı t-istatistiği 4353.67 81.93 6878.67 22.65 D2 18527.33 31.73 4064.67 50.76 6748.33 25.18 D3 21382.67 33.20 4827.00 30.96 7609.00 44.95 D4 22776.67 51.97 5060.67 18.58 7516.00 13.00 D5 23989.00 50.02 5435.00 47.44 7858.33 12.82 D6 24516.33 55.04 5442.33 10.56 7844.00 14.12 D7 22739.00 7.47 6693.67 39.12 7509.00 11.68 D8 24661.67 20.53 6811.67 9.95 6500.67 9.05 D9 23411.67 37.82 4647.67 6.82 7597.33 13.20 D10 23829.33 32.96 5582.67 26.94 7847.00 11.00 D11 21882.67 36.96 5256.67 43.71 7321.67 11.72 D12 22111.00 29.49 4953.67 15.42 6080.00 14.94 Jarque-Bera (p-value) ARCH LM(1) (p-value) DurbinWatson Philippe-Peron (p-value) 0.50 0.66 0.55 0.78 0.06 0.00 1.08 2.31 0.32 0.82 0.63 0.43 R2 0.57 0.72 0.35 ORTA DOĞU TEKNĠK ÜNĠVERSĠTESĠ, FEN-EDEBĠYAT FAKÜLTESĠ, ĠSTATĠSTĠK BÖLÜMÜ | 41 VII. ĠSTATĠSTĠK GÜNLERĠ SEMPOZYUMU BĠLDĠRĠLER KĠTABI 2010 Tablo 2. Anlamlı aylık etkiler için test sonuçları Esenboğa Havaalanı (Eylül) London City Havaalanı (Ekim) Değişken Katsayı tistatistiği Değişken Katsayı tistatistiği C 0.12 1.85 C 7597.33 13.20 D1 4176.60 19.08 D1 -718.67 -1.10 D2 3899.36 32.73 D2 -849.00 -1.34 D3 4630.68 16.87 D3 11.67 0.02 D4 4854.85 34.54 D4 -81.33 -0.10 D5 5213.96 33.28 D5 261.00 0.31 D6 5220.99 11.59 D6 246.67 0.36 D7 6421.43 17.19 D7 -88.33 -0.14 D8 6534.63 18.88 D8 -1096.67 -2.19 D10 5355.62 10.80 D10 249.67 0.50 D11 5042.88 14.34 D11 -275.67 -0.42 D12 4752.20 10.81 D12 -1517.33 -2.46 KAYNAKLAR ASTERIOU, D. (2006), Applied Econometrics, New York: Palgrave Macmillan. ASTERIOU, D. ve KAVETSOS, G. (2006), Testing for the existence of „January effect‟ in transition economies, Applied Financial Economics Letters, 2, 375-381. ATABEK, A., ATUK, O., ERDOĞAN, E. veSARIKAYA, C. (2009), Mevsimsel modellerde çalıĢma günü değiskeni, TCMB Ekonomi Notları, 3. ORTA DOĞU TEKNĠK ÜNĠVERSĠTESĠ, FEN-EDEBĠYAT FAKÜLTESĠ, ĠSTATĠSTĠK BÖLÜMÜ | 42 VII. ĠSTATĠSTĠK GÜNLERĠ SEMPOZYUMU BĠLDĠRĠLER KĠTABI 2010 CHIEN, C.-C., LEE, C.-F.ve WANG, A.M.L. (2002). A note on stock market seasonality: The impact of stock price volatility on the application of dummy variable regression model, The Quarterly Review of Economics and Finance, 42, 155-162. GREEN, R.D. ve DOLL, J.P. (1974), Dummy variables and seasonality-A curio, The American Statistician, 28, 60-62. GUJARATI, D.N. (2003), Basic Econometrics, 4th Edition, New York: Mc Graw Hill. GÜLTEKĠN, M.N. ve GÜLTEKĠN, N.B. (1983), Stock market seasonality: International evidence, Journal of Financial Economics, 12, 469–81. JAFFE, J.F. ve WESTERFIELD, R. (1989), Is there a monthly effect in stock market return?,Journal of Banking and Finance, 13, 237–44. KARAFIATH, I. (1988), Using dummy variables in the event methodology, The Financial Review, 23, 351-357. KOÇAK, N.A. (2008), Takvim etkileri: Ulusal hesaplar uygulaması, 17. Ġstatistik AraĢtırma Sempozyumu Bildiri Kitabı, TÜĠK, 154-168. LADIRAY, D. (2006), Calender effects and seasonal adjustments, Proceeding of the Eurostat Workshop. SALKEVER, D.S. (1976), The use of dummy variables to compute predictions, prediction errors and confidence intervals, Journal of the Econometrics, 4, 393-397. SUITS, D.B. (1957), Use of dummy variables in regression equations, Journal of American Statistical Association, 52, 548-551. THALER, R.H. (1987), Anomalies: the January effect, Journal of Economic Perspectives, 1, 197–201. WEI, W.W.S. (2006), Time Series Analysis: Univariate and Multivariate Methods, 2th Edition, Pearson Education, Inc. USA. ORTA DOĞU TEKNĠK ÜNĠVERSĠTESĠ, FEN-EDEBĠYAT FAKÜLTESĠ, ĠSTATĠSTĠK BÖLÜMÜ | 43 VII. ĠSTATĠSTĠK GÜNLERĠ SEMPOZYUMU BĠLDĠRĠLER KĠTABI 2010 GAUSS RASTGELE YÜRÜYÜġ SÜRECĠNĠN MAKSĠMUMUNUN MOMENTLERĠ ĠÇĠN YAKLAġIK FORMÜLLER Fikri Gökpınar1 Tahir Khaniyev2 1. GĠRĠġ X1, X2,….rasgele değiĢkenleri β>0 olmak üzere –β beklenen değerli ve 1 varyanslı normal dağılıma sahip olsun. Sn= X1+ ··· + Xn, (n=1,2,…) ve S0= 0 olmak üzere Gauss rasgele yürüyüĢ (GRYS) sürecinin maksimumu M(β)= maks{Sn: n ≥ 0} olsun. Amacımız M(β)‟nın momentleri için yaklaĢık formüller elde etmektir. Bu konuda yazılmıĢ birçok ilginç çalıĢmalar mevcuttur (örneğin, Lotov (1996), Korshunov (1997), Khaniyev ve Mammadova (2006), Jannsen ve Leewarden (2007a), Jannsen ve Leewarden (2007b) vb.). Mβ‟ın dağılımı kuyruk teorisi, risk teorisi,stokastik finans, güvenirlik, matematiksel biyoloji, çevre gibi alanlarda oldukça sık kullanılmaktadır. β=0 durumunda, Lotov (1996), GRY sürecinin 1. basamak yüksekliğinin ilk üç momenti için 3 terimli asimptotik açılım ortaya koymuĢlardır. Korshunov (1996) Rassal yürüyüĢ sürecinin maksimumunun dağılımının kuyruk davranıĢları üzerine çalıĢmıĢlardır. Janssen ve Leeuwarden (2007a) β↓0 için maksimum değerinin beklenen değeri ve varyansı için zeta fonksiyonlar teorisini kullanarak açılımlar elde etmiĢlerdir.Ayrıca Janssen ve Leeuwarden (2007b) çalıĢmasında sürecin maksimumun kümülantları için kesin ve asimptotik sonuçlarını genellemiĢlerdir. Bununla beraber bu asimptotik formüller β‟nın çok dar bir aralığında geçerlidir. Özellikle β>0.5 olduğunda asimptotik sonuçlar kesin değerlerden oldukça uzaklaĢmaktadır. Bu nedenle bu çalıĢmada iki amaç gözetilmiĢtir. Birinci amaç, meta modelleme yöntemi ile GRY sürecinin maksimumun ilk 4 momenti için yaklaĢık ifadeler elde etmektir. Ġkinci amaç ise β0 iken Y(β)=2βMβ rasgele değiĢkeninin dağlımı için zayıf yakınsama teoremini ispatlamaktır. ÇalıĢmada, limit dağılımın üstel bir dağılım olduğu gösterilmiĢtir. 2. GAUSS RASGELE YÜRÜYÜġ SÜRECĠNĠN MAKSĠMUMUNUN DAĞILIMI Jannsen ve Leewarden (2007b) GRW sürecinin maksimum değerinin tüm kümülantları için kesin bir formül vermiĢtir. Bu formül aĢağıdaki teorem 1‟ de verilmiĢtir. Yardımcı Teorem 1 (Jannsen ve Leewarden, 2007b): X1, X2,…. rasgele değiĢkenleri β>0 olmak üzere –β beklenen değerli ve 1 varyanslı normal dağılıma sahip olsun. Gauss rasgele yürüyüĢ sürecinin maksimumu(M(β)) k.acı kümülantı (Jk(β)) için k=1,2,... iken aĢağıdaki kesin ifadeler yazılabilir. J k ( ) Ak ( ) Dk ( ) Fk ( ) . ________________ Ġstatistik Bölümü, Gazi Üniversitesi, Ankara EndüstriMühendisliği bölümü TOBB-ETÜ, Ankara 1 2 ORTA DOĞU TEKNĠK ÜNĠVERSĠTESĠ, FEN-EDEBĠYAT FAKÜLTESĠ, ĠSTATĠSTĠK BÖLÜMÜ | 44 VII. ĠSTATĠSTĠK GÜNLERĠ SEMPOZYUMU BĠLDĠRĠLER KĠTABI 2010 Burada; Ak ( ) (k 1)! 2 1 Fk k 1 2 k! k k Dk ( ) , j 0 j k 1 j k j 1 2 2 k j 1 1 1 2 k j 1 2 j 2 2 , 2 r k 1 k k r 1 / 2 1/ 2 r !(2r 1)...(2r k 1) r 0 j , r 0 2 ve(x), Reimann zeta fonksiyonunun x noktasındaki değerini ifade etmektedir. Not: Yardımcı Teorem 1‟de verilen kümülantlardan faydalanarak GRW sürecinin maksimumunun Momentleri de bulunabilir. J ( ) deki formüldeki son terimi kaldırdığımızda β0 iken asimptotik olarak k J k ( ) Ak ( ) Dk ( ) o k Ģeklinde elde edilebilir. Bell polinomlarından yararlanarak GRY sürecinin maksimumunun Mβ n. baĢlangıç momentleri için asimptotik sonuçlar elde etmek mümkündür. Bu Sonuçlar aĢağıdaki Teorem 1 de verilmiĢtir. Teorem 1:X1, X2,….rasgele değiĢkenleri β>0 olmak üzere –β beklenen değerli ve 1 varyanslı normal dağılıma sahip olsun. Gauss rasgele yürüyüĢ sürecinin(GRYS) maksimumu M(β)'in n n.ncı momenti E M ( ) için aĢağıdaki asimptotik açılım yazılabilir. E M n ( ) n! (2 )n n (2 )i Bi D1 ( ), D2 ( ),...Di ( ) n 1 o 2 i! i1 Burada Bi D1 ( ), D2 ( ),...Di ( ) göstermektedir. {D1(β), D2(β),… Di(β)} kümesinin n=1,2,3,.... Bell polinomunu Ġspat: Ak ( ) (k 1)! 2 k ikenJk(β)= Ak(β)+Dk(β)+o(βk) olarak ifade edilebilir. Bell Polinomlarından faydalanarak, β‟ya bağlı olarak, kümülantlardan Momentlere geçilebilmektedir(Comtet, 1974,s.160). Tam Bell polinomu Bn(x1,x2,…xn) olmak üzere Bn ( x1 , x2 ,...xn ) j1 2 j2 ...njn n j j j n 1 2 n! x1 x2 xn ... j1 ! j2 !... jn ! 1! 2! n! n=1,2,... Ģeklinde ifade edilir(B0=1). ORTA DOĞU TEKNĠK ÜNĠVERSĠTESĠ, FEN-EDEBĠYAT FAKÜLTESĠ, ĠSTATĠSTĠK BÖLÜMÜ | 45 VII. ĠSTATĠSTĠK GÜNLERĠ SEMPOZYUMU BĠLDĠRĠLER KĠTABI 2010 Burada Bell Polinomunun değerini; n 1 x1 x2 1 1 x1 1 0 Bn x1 , x2 ,..., xn det 0 0 0 0 0 0 0 0 n 1 x3 2 n 2 x2 1 n 1 x4 3 n 2 x3 2 n 1 x5 4 n 2 x4 3 x1 n 3 x2 1 1 x1 n 3 x3 2 n 4 x2 1 0 0 1 0 x1 1 0 0 0 0 xn xn1 xn2 xn3 xn4 xn5 1 x1 ifadesi kullanarak bulunabilir. n.nci moment E(Mn(β)), 1‟den n‟e kadar tüm kümülantları Bell polinomunda kullanarak; E(Mn(β))=Bn(J1(β), J2(β),… Jn(β)) Ģeklinde bulunur (Comtet,1974). Burada Jk(β)= Ak(β)+Dk(β)+o(βk) ifadesi kullanarak; E(Mn(β)) =Bn(A1(β)+ D1(β), A2(β)+D2(β),…, An(β)+Dn(β))+o(1) olarak elde edilir. Comtet(1974)‟de Bell Polinomlarının herhangi iki {a1, a2,… an} ve {b1, b2,… bn} serisi için; n n Bn (a1 b1 , a2 b2 ,..., an bn ) B a1 , a2 ,..., an i B b1 , b2 ,..., bi i 0 i Ģeklinde ifade edilebilir olduğunu göstermiĢtir (Bell polinomumun binom özelliği). Burada ai=Ai(β) ve bi= Di(β) alındığında E M n ( ) Bn A1 D1 , A2 D2 , An Dn o 1 n n Bn i A1 , A2 ,..., An i Bi D1 ( ), D2 ,..., Di o 1 i 0 i elde edilir. Burada Bn i A1 , A2 ,..., An i j1 2 j2 ...( n i ) jni n i (n i)! A1 ( ) 1 A2 ( ) 2 An i ( ) ... j1 ! j2 !... jn i ! 1! 2! (n i)! j j ORTA DOĞU TEKNĠK ÜNĠVERSĠTESĠ, FEN-EDEBĠYAT FAKÜLTESĠ, ĠSTATĠSTĠK BÖLÜMÜ | 46 jni VII. ĠSTATĠSTĠK GÜNLERĠ SEMPOZYUMU BĠLDĠRĠLER KĠTABI (n i)! 2 n i j1 2 j2 ...( n i ) jni n i 1 2 1 1 1 1 ... j1 ! j2 !... jn i ! 1 2 (n i ) j j 2010 jni Collins(2001)‟de j1 2 j2 ...njn n j j j 1 2 n 1 1 1 1 ... 1 j1 ! j2 !... jn ! 1 2 n olarak verilmiĢtir. Buradan Bn i A1 , A2 ,..., An i (n i)! 2 n i olur. Bu ifade yerine konduğunda; n n (n i )! E M n ( ) B D ( ), D2 ,..., Di o 1 n i i 1 i 0 i 2 n n (n i )! B D ( ), D2 ,..., Di o 1 n i i 1 i 0 i 2 açılımı elde edilir. Bu açılım aĢağıdaki Ģekilde yazabiliriz. n (2 )i B D , D ,...D n! i 1 2 i E M ( ) 1 (2 )n i1 i! n olarak bulunur. Bu da ispatı tamamlar. Sonuç:Y(β)= 2βM(β) olmak üzere n (2 )i B D , D ,...D i 1 2 i E Y ( ) n ! 1 i! i1 dir. Teorem 2: X1, X2,…. rasgele değiĢkenleri β>0 olmak üzere –β beklenen değerli ve 1 varyanslı normal dağılıma sahip olsun. Bu taktirde, Y(β)= 2βM(β) rasgele değiĢkeninin dağılımı =1 parametreli üstel dağılıma zayıf yakınsar. Yani x>0 için P Y x 1 e x olur. 0 ORTA DOĞU TEKNĠK ÜNĠVERSĠTESĠ, FEN-EDEBĠYAT FAKÜLTESĠ, ĠSTATĠSTĠK BÖLÜMÜ | 47 VII. ĠSTATĠSTĠK GÜNLERĠ SEMPOZYUMU BĠLDĠRĠLER KĠTABI 2010 Ġspat: Y(β)‟nin karakteristik fonsiyonu; Y ( ) (t ) E eitY . Ģeklindedir. Bu ifadeyi Taylor açılımını kullanarak açarsak (Feller,1971); it 1 1 it 1 1 1! 1! E 2 M ( ) 1 it 1! 2 2! it 2! it 2! ... n! 2 E 2 M ( ) 2 it ... n! n E 2 M ( ) ...o(1) n n n ! o(1) |t|<1 iken bu geometrik seri; Y ( ) (t ) 1 1 it olur. o (t ) 1 (1 it ) fonksiyonunun=1 parametreli üstel dağılımın karakteristik fonksiyonu olduğu bilinmektedir. Dolayısıyla Y(β)= 2βM(β) rasgele değiĢkeninin dağılımı =1 parametreli üstel dağılıma zayıf yakınsar. Yani x>0 için P Y x 1 e x olur. 0 3. GAUSS RASGELE YÜRÜYÜġ SÜRECĠNĠN ĠLK 4 MOMENTĠ ĠÇĠN YAKLAġIK FORMÜLLER Bu bölümde GRY sürecinin maksimum değerinin ilk 4 momenti için yaklaĢık bir formül verilecektir. Jannsen ve Leeuwarden(2007b) maksimumun kümülantları için elde ettiği genel bir formül sonsuz bir seriye dayalı olduğu için hesaplanmasının oldukça zor olduğu görülmektedir. Ayrıca Jannsen&Leeuwarden(2007b) elde ettikleri asimptotik formüllerde β'ın çok küçük değerleri (0<β<0.5) için geçerliliklerini korumaktadır. Fakat uygulamada çoğu zaman 0<β<3.3 aralığında değiĢebilmektedir. Bu da β>0.5 olduğunda yeni bir yaklaĢık formül elde etmeyi gerektirmektedir. Bu amaçla çeĢitli Beta değerleri için MATLAB R2009a programını kullanarak β‟nın hangi değer aralığı için kesin formülle asimptotik formülün aynı değeri alıp hangi değerden sonra uzaklaĢtığını tespit ettik. Elde edilen sonuçlar tablo 1-4 de verildiği gibidir. Burada E M ( ) ve E M ( ) ile sırasıyla M(β)'ın sırasıyla beklenen değerinin kesin ve asimptotik formülle hesaplanmasında elde edile edilen sonuçları göstermektedir. Ayrıca E ( M ( )) E ( M ( )) mutlak hata; E (M ( )) nispi hatayı göstermektedir. ORTA DOĞU TEKNĠK ÜNĠVERSĠTESĠ, FEN-EDEBĠYAT FAKÜLTESĠ, ĠSTATĠSTĠK BÖLÜMÜ | 48 VII. ĠSTATĠSTĠK GÜNLERĠ SEMPOZYUMU BĠLDĠRĠLER KĠTABI 2010 Tablo 1. Jannsen ve Leewarden(2007b) verilen E M ( ) için asimptotik ve kesin formüller ile verilen sonuçlar, nispi ve oransal farkları β 0,010 0,020 0,030 0,040 0,050 0,060 0,070 0,080 0,090 E M ( ) 49,4199 24,4224 16,0915 11,9273 9,4298 7,7656 6,5776 5,6871 4,9951 6,5777 5,6874 4,9955 E M ( ) 49,4199 24,4224 16,0915 11,9274 9,42990 7,7657 0,0000 0,0000 0,0000 0,0001 0,0001 0,0001 0,0002 0,0003 0,0003 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,01 β 0,100 0,200 0,300 0,400 0,500 0,600 0,700 0,800 0,900 E M ( ) 4,4420 1,9657 1,1553 0,7608 0,5321 0,3859 0,2865 0,2160 0,1647 1,9674 1,1591 0,7674 0,5424 0,4007 0,3067 0,2424 0,1980 E M ( ) 4,4424 0,0004 0,0017 0,0037 0,0066 0,0103 0,0149 0,0202 0,0264 0,0333 0,01 0,08 0,32 0,87 1,94 3,85 7,06 12,20 20,23 β 1,000 1,250 1,500 1,750 2,000 2,250 2,500 2,750 3,000 E M ( ) 0,1264 0,0662 0,0347 0,0179 0,0090 0,0044 0,0020 0,0009 0,0004 0,1674 0,1299 0,1257 0,1406 0,167403 0,2021 0,2424 0,2867 0,3344 E M ( ) 0,0410 0,0637 0,0910 0,1227 0,1584 0,1977 0,2404 0,2858 0,3337 32,47 96,25 262,12 683,92 1755,37 4513,19 11776,94 31493,33 86932,96 Tablo 2. Jannsen ve Leewarden(2007b) verilen kümülantlardan elde edilen E M 2 ( ) için asimptotik ve kesin formüller ile verilen sonuçlar, nispi ve oransal farkları β E M 2 ( ) E M 2 ( ) β E M 2 ( ) E M 2 ( ) β E M 2 ( ) E M 2 ( ) 0,010 0,020 0,030 4942,0780 1221,2063 536,4701 4942,0785 1221,2071 536,4713 0,0004 0,0008 0,0012 0,00 0,00 0,00 0,100 0,200 0,300 44,4974 9,8957 3,9087 44,5011 9,9022 3,9172 0,0037 0,0065 0,0085 0,01 0,07 0,22 1,000 1,250 1,500 0,1436 0,0634 0,0292 0,1522 0,0691 0,0320 0,0086 0,0057 0,0028 6,00 9,01 9,50 0,040 298,2679 298,2695 0,0016 0,00 0,400 1,9512 1,9611 0,0099 0,51 1,750 0,0136 0,0141 0,0005 3,51 0,050 188,6793 188,6813 0,0020 0,00 0,500 1,1060 1,1167 0,0107 0,97 2,000 0,0063 0,0056 -0,0007 -10,74 0,060 0,070 0,080 0,090 129,5086 94,0461 71,1690 55,5800 129,5109 94,0487 71,1721 55,5834 0,0023 0,0027 0,0030 0,0034 0,00 0,00 0,00 0,01 0,600 0,700 0,800 0,900 0,6786 0,4391 0,2951 0,2038 0,6896 0,4500 0,3054 0,2134 0,0110 0,0108 0,0103 0,0096 1,62 2,46 3,50 4,70 2,250 2,500 2,750 3,000 0,0028 0,0012 0,0005 0,0002 0,0025 0,0030 0,0063 0,0120 -0,0003 0,0018 0,0058 0,0118 -11,23 145,52 1128,76 5760,05 Tablo 1-4‟teki verilen GRY sürecinin ilk dört momentinin maksimumu için asimptotik ve kesin formüller ile verilen sonuçlar arası, mutlak ve Nisçi farklarına bakıldığında β=0.5-0.6 değerinden sonra asimptotik ve kesin formüller arasındaki oransal fark %2‟yi geçmektedir. Özellikle, β>1 olduğunda nisbi hata %32'yi aĢmaktadır. Bu fark kabul edilebilir bir durum değildir. Kesin formülde Kümülantların son terimi zeta ve gamma fonksiyonların sonsuz bir serisi oluĢturduğu düĢünülürse bu ifadeyi momentlerde kullanmak oldukça zordur bunun yerine bu kesin değerlerle asimptotik değerlerin fark değerleri üzerine eğri uydurarak daha rahat kullanılabilecek bir formül oluĢturmak gerekir. Burada 4 fonksiyon farklı yapı gösterdiğinden her biri için farklı fonksiyon uydurmak gerekecektir. 1. Moment için üstel 2. Moment için polinom, 3 ve 4.Moment için kesirli polinom fonksiyon olarak uydurulmuĢtur. ORTA DOĞU TEKNĠK ÜNĠVERSĠTESĠ, FEN-EDEBĠYAT FAKÜLTESĠ, ĠSTATĠSTĠK BÖLÜMÜ | 49 VII. ĠSTATĠSTĠK GÜNLERĠ SEMPOZYUMU BĠLDĠRĠLER KĠTABI 2010 Tablo 3. Jannsen ve Leewarden(2007b) verilen kümülantlardan elde edilen E M 3 ( ) için asimptotik ve kesin formüller ile verilen sonuçlar, nispi ve oransal farkları β 0,010 0,020 0,030 0,040 0,050 0,060 0,070 0,080 0,090 3 741311,7786 91590,5402 26823,5767 11185,1167 5660,4476 3237,7823 2015,3396 1334,4852 926,3989 E M ( ) E M 3 ( ) 741311,8401 91590,6010 26823,6367 11185,1760 5660,5063 3237,8403 2015,3969 1334,5419 926,4549 0,0615 0,0608 0,0601 0,0594 0,0587 0,0580 0,0573 0,0566 0,0560 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,01 β 0,100 0,200 0,300 0,400 0,500 0,600 0,700 0,800 0,900 667,5255 74,2732 19,5914 7,3581 3,3533 1,7263 0,9661 0,5743 0,3571 E M 3 ( ) 667,5808 74,3223 19,6349 7,3965 3,3870 1,7558 0,9918 0,5965 0,3761 E M 3 ( ) 0,0553 0,0491 0,0434 0,0384 0,0337 0,0295 0,0257 0,0222 0,0189 0,01 0,07 0,22 0,52 1,01 1,71 2,66 3,86 5,29 β 1,000 1,250 1,500 1,750 2,000 2,250 2,500 2,750 3,000 0,2299 0,0847 0,0342 0,0143 0,0061 0,0025 0,0010 0,0004 0,0002 E M 3 ( ) 0,2457 0,0933 0,0352 0,0065 -0,0132 -0,0321 -0,0543 -0,0825 -0,1187 E M 3 ( ) 0,0158 0,0085 0,0010 -0,0078 -0,0193 -0,0346 -0,0553 -0,0829 -0,1188 6,88 10,06 2,95 -54,72 -317,06 -1358,61 -5314,24 -20195,40 -76627,40 Tablo 4. Jannsen ve Leewarden(2007b) verilen kümülantlardan elde edilen E M 4 ( ) için asimptotik ve kesin formüller ile verilen sonuçlar, nispi ve oransal farkları 0,010 0,020 0,030 β E M 4 ( ) E M 4 ( ) β 135764839,1000 0,040 0,050 0,060 0,070 0,080 0,090 8378420,7040 1634189,6810 510579,7870 206514,5648 98347,6735 52423,5983 30347,3428 18710,4473 135764851,4000 8378426,7800 1634193,6850 510582,7552 206516,9117 98349,6065 52425,2358 30348,7589 18711,6914 12,2960 0,00 6,0767 0,00 4,0041 0,00 2,9681 0,00 2,3469 0,00 1,9330 0,00 1,6375 0,00 1,4161 0,00 1,2441 0,01 0,100 12123,8336 0,200 670,0187 0,300 117,4003 0,400 33,0594 0,500 12,0898 0,600 5,2202 0,700 2,5286 0,800 1,3321 0,900 0,7479 12124,9402 670,5105 117,6916 33,2534 12,2276 5,3222 2,6061 1,3922 0,7951 1,1066 0,01 0,4918 0,07 0,2913 0,25 0,1940 0,59 0,1378 1,14 0,1020 1,95 0,0775 3,07 0,0601 4,51 0,0473 6,32 1,000 0,4410 1,250 0,1371 1,500 0,0488 1,750 0,0187 2,000 0,0073 2,250 0,0029 2,500 0,0011 2,750 0,0004 3,000 0,0001 E M 4 ( ) 0,4786 0,1589 0,0620 0,0268 0,0121 0,0045 -0,0019 -0,0108 -0,0251 0,0376 8,52 0,0218 15,93 0,0131 26,87 0,0081 43,31 0,0048 65,34 0,0017 57,53 -0,0030 -270,95 -0,0112 -2695,10 -0,0253 -16916,19 E M ( ) 4 E M 4 ( ) β E M ( ) 4 a) Birinci Moment için yaklaĢık formül X1, X2,….rasgele değiĢkenleri β>0.5 olmak üzere –β beklenen değerli ve 1 varyanslı normal dağılıma sahip olsun. Gauss rasgele yürüyüĢ sürecinin maksimumu M(β)'in 1.ncı momenti için yaklaĢık formül E M ( ) 1 B1 D1 R1 ( ) 2 şeklindedir. Burada R1 ( ) 'in tahmini; b1 / c1 a e b2 /c2 Rˆ1 ( ) a1e 2 ve a1 =-0.03453, b1=0.6342, c1=1.512, a2=0.7545, b2=5.863, c2 =3.188 Ģeklindedir. 2 2 ORTA DOĞU TEKNĠK ÜNĠVERSĠTESĠ, FEN-EDEBĠYAT FAKÜLTESĠ, ĠSTATĠSTĠK BÖLÜMÜ | 50 VII. ĠSTATĠSTĠK GÜNLERĠ SEMPOZYUMU BĠLDĠRĠLER KĠTABI 2010 b) Ġkinci Moment için yaklaĢık formül X1, X2,…. rasgele değiĢkenleri β>0.5 olmak üzere –β beklenen değerli ve 1 varyanslı normal dağılıma sahip olsun. Gauss rasgele yürüyüĢ sürecinin maksimumu M(β)'in 2.ncı momenti için yaklaĢık formül 2! E M ( ) (2 )2 2 (2 ) B1 D1 (2 )2 B2 D1 , D2 1 R2 ( ) 1 2 Ģeklindedir. Burada R2 ( ) 'in tahmini; Rˆ2 ( ) p1 x5 p2 x 4 p3 x3 p4 x 2 p5 x p6 , ve p1 =0.0002451, p2=-0.003714,p3=0.02304,p4=-0.05657, p5=0.04726,p6=-0.001659 Ģeklindedir. c) Üçüncü Moment için yaklaĢık formül X1, X2,….rasgele değiĢkenleri β>0.5 olmak üzere –β beklenen değerli ve 1 varyanslı normal dağılıma sahip olsun. Gauss rasgele yürüyüĢ sürecinin maksimumu M(β) 'in 3.ncı momenti için yaklaĢık formül (2 ) B1 D1 (2 )2 B2 D1 , D2 (2 )3 B3 D1 , D2 , D3 1 R3 ( ) 1 2 6 Ģeklindedir. Burada R3 ( ) 'in tahmini; E M 3 Rˆ3 ( ) 3! (2 )3 p1 x 4 p 2 x3 p3 x 2 p 4 x p 5 x q1 ve p1=-0.01988, p2=0.0335, p3=0.02348, p4=-0.2144, p5=0.26225, q1=4.371 Ģeklindedir. d) Dördüncü Moment için yaklaĢık formül X1, X2,….rasgele değiĢkenleri β>0.5 olmak üzere –β beklenen değerli ve 1 varyanslı normal dağılıma sahip olsun. Gauss rasgele yürüyüĢ sürecinin maksimumu M(β)'in 4.ncı momenti için yaklaĢık formül E M 4 4! (2 )4 (2 ) B1 D1 (2 ) 2 B2 D1 , D2 (2 )3 B3 D1, D2 , D3 (2 ) 4 B4 D1, D2 , D3 , D4 1 R1 ( ) 1 2 6 24 Ģeklindedir. Burada R4 ( ) 'in tahmini; p x5 p2 x 4 p3 x3 p4 x 2 p5 x p6 Rˆ4 ( ) 1 x 2 q1 x q2 ve p1=-0.4135, p2=2.729, p3=-7.601, p4=12.54, p5=-14.52, p6=9.938, q1=67.88, q2=2.263 Ģeklindedir. ORTA DOĞU TEKNĠK ÜNĠVERSĠTESĠ, FEN-EDEBĠYAT FAKÜLTESĠ, ĠSTATĠSTĠK BÖLÜMÜ | 51 VII. ĠSTATĠSTĠK GÜNLERĠ SEMPOZYUMU BĠLDĠRĠLER KĠTABI 2010 Rˆk ların değerleri ile Rk nın kalan terimlerin değerleri arası nispi farkın %0.8‟in altında olduğu görülmektedir. Dolayısıyla oluĢturulan fonksiyonlar bu artık değerleri için uygun olduğu söylenebilir.Ayrıca yapılarının kolaylığı nedeniyle oldukça kolay bir biçimde kullanılabilmektedir. KAYNAKLAR Comtet L., 1974, Advanced Combinatorics: Expansions, Reidel, Dordrecht, Holland. The Art of Finite and Infinite Collins B., 2001,The role of Bell polynomials in integration, Journal of Computational and Applied Mathematics, Volume 131, Number 1, 1 June 2001 , pp. 195-222(28) Janssen, A. J. E. M.; van Leeuwaarden, J. S. H. On Lerch's transcendent and the Gaussian random walk. Ann. Appl. Probab. 17 (2007), no. 2, 421- 439. Janssen, A. J. E. M.; van Leeuwaarden, J. S. H. Cumulants of the maximum of the Gaussian random walk. Stochastic Process.Appl. 117 (2007), no. 12, 1928 - 1959. Lotov, V.I., 1996. On some boundary crossing problems for Gaussian random walks. Ann. Probab. 24 4, pp. 2154–2171. Khaniyev T.A., Mammadova Z.I., (2006), On the stationary characteristics of the extended model of type (s,S) with Gaussian distribution of summands, Journal of Statistical Computation and Simulation, Vol.76, No.10, p.861-874. Khorsunov,1997, On distribution tail of the maximum of a random walk, Stochastic Processes and their Applications 72 :97-103. ORTA DOĞU TEKNĠK ÜNĠVERSĠTESĠ, FEN-EDEBĠYAT FAKÜLTESĠ, ĠSTATĠSTĠK BÖLÜMÜ | 52 VII. ĠSTATĠSTĠK GÜNLERĠ SEMPOZYUMU BĠLDĠRĠLER KĠTABI 2010 ĠLERĠ BESLEMELĠ YAPAY SĠNĠR AĞLARI ĠLE ÖNGÖRÜ ĠÇĠN GĠZLĠ TABAKA SAYISI ÜZERĠNE BĠR ARAġTIRMA Prof.Dr.Faruk ALPASLAN1, ArĢ.Gör.Ebrucan TĠRĠNG1, Doç.Dr.Erol EĞRĠOĞLU 1 Ondokuz Mayıs Üniversitesi, Ġstatistik Bölümü, Samsun ÖZET Son yıllarda, zaman serisi öngörü problemi için ileri beslemeli yapay sinir ağları baĢarılı bir Ģekilde uygulanmaktadır. Doğrusal olmayan yapı içeren zaman serilerinin modellenmesinde, ARIMA, üstel düzleĢtirme gibi klasik doğrusal zaman serisi modelleri yetersiz kalmaktadır. Zaman serisi analizi için birçok doğrusal olmayan zaman serisi modelleri bulunmasına rağmen hepsinin belli bir model varsayımı gerektirmesi önemli bir engel oluĢturmaktadır. Ġleri beslemeli yapay sinir ağlarının hem doğrusallık hem de model varsayımı gibi kısıtları yoktur. Literatürdeki birçok çalıĢmada ileri beslemeli yapay sinir ağlarında, klasik zaman serisi yöntemlerinden daha doğru öngörüler elde edilmiĢtir. Birçok avantaja rağmen yapay sinir ağları ile öngörü için yapay sinir ağlarının bileĢenlerinin belirlenmesi problemi halen tam olarak sistematik değildir. Bu çalıĢmada öngörü problemi için ileri beslemeli yapay sinir ağı kullanımında, gizli tabaka sayısının belirlenmesi ve test kümesi uzunluğunun etkisi üzerine, ĠMKB, Dolar ve Euro zaman serisi kullanılarak bir araĢtırma yapılmıĢtır. Anahtar kelimeler:Öngörü, Yapay sinir ağları, Gizli tabaka sayısı. 1. GiriĢ Ġleri beslemeli yapay sinir ağları (ĠBYSA) birçok avantajı nedeniyle zaman serisi çözümlemesinde sık kullanılmaya baĢlanmıĢtır.Ġleri beslemeli yapay sinir ağları ile zaman serisi çözümlemesinde en önemli problem sistematik bir yaklaĢımın eksikliğidir. Ġleri beslemeli yapay sinir ağları ile zaman serisi çözümlemesi için belirlenmesi gereken bileĢenler Gizli tabaka sayısı, Çıktı tabakası birim sayısı, Gizli tabaka birim sayısı, Gizli tabaka aktivasyon fonksiyonu, Çıktı tabakası aktivasyon fonksiyonu, Girdi birimlerinin seçimi, Test kümesi uzunluğunun belirlenmesidir. BileĢenlerin belirlenmesi konusunda literatürde farklı uygulamalar vardır. 1998 yılına kadar mevcut literatürdeki farklı uygulamalar Zhang vd. (1998) çalıĢmasında özetlenmiĢtir. Bu çalıĢmada gizli tabaka sayısının ve test kümesi uzunluğunun belirlenmesi üzerine 3 gerçek zaman serisi üzerinden inceleme yapılmıĢtır. Bu problem üzerine literatür ORTA DOĞU TEKNĠK ÜNĠVERSĠTESĠ, FEN-EDEBĠYAT FAKÜLTESĠ, ĠSTATĠSTĠK BÖLÜMÜ | 53 VII. ĠSTATĠSTĠK GÜNLERĠ SEMPOZYUMU BĠLDĠRĠLER KĠTABI 2010 aĢağıdaki gibi özetlenebilir. Cybenko (1989), Hornik vd. (1989) çalıĢmalarında tek gizli tabaka kullanmıĢ ve tek gizli tabakanın yeterli olacağını savunmuĢtur.Baron (1994), Zhang (1994) iki gizli tabakanın daha doğru öngörü sonuçları vereceğini savunmuĢtur. Lippmann (1987) ve Cybenko (1988) ise ikiden fazla gizli tabakanın yararlı olmayacağını savunmuĢtur. Test kümesi uzunluğunun belirlenmesi için literatürdeki çalıĢmalarda farklı oranlar alınsa da Zhang vd. (1998) de literatürde genel olarak %10, %15 ve %20 olarak alınmaktadır. Öngörü problemi için ileri beslemeli yapay sinir ağı kullanımında, gizli tabaka sayısının belirlenmesi ve test kümesi uzunluğunun etkisi, ĠMKB, Dolar ve Euro zaman serisi kullanılarak araĢtırılmıĢtır. 2. Ġleri Beslemeli Yapay Sinir Ağları Ġleri beslemeli yapay sinir ağları birçok gerçek hayat probleminin çözümünde baĢarıyla kullanılmaktadır.Ġleri beslemeli yapay sinir ağlarının önemli bir uygulama alanı da zaman serilerinin öngörüsüdür.Ġleri beslemeli bir yapay sinir ağı genel olarak 3 kısımdan oluĢmaktadır.Ġlk kısım girdi tabakası, ikinci kısım gizli tabaka veya tabakalar ve üçüncü kısım ise çıktı tabakasıdır.Her tabaka nöron adı verilen elemanlara sahiptir. Tabaka içi nöronlar arası bağlantı yoktur, ancak ardı ardına gelen tabakaların nöronları arasında tam bağlantı vardır. Nöronlar arası bağlantıların gücü bu bağlantıların her biri ile eĢleĢen ağırlıklarla temsil edilmektedir. Zaman serisi öngörü problemi için literatürde çıktı tabakasında 1 nöron kullanılması ile yeterli sonuçlara ulaĢılmaktadır. Bir gizli tabakanın olduğu ĠBYSA mimarisi ġekil 1a‟da, Ġki gizli tabakanın olduğu ĠBYSA mimarisi ġekil 1b‟de verilmiĢtir. ġekil 1. Ġleri Beslemeli Yapay Sinir Ağları Mimarileri ORTA DOĞU TEKNĠK ÜNĠVERSĠTESĠ, FEN-EDEBĠYAT FAKÜLTESĠ, ĠSTATĠSTĠK BÖLÜMÜ | 54 VII. ĠSTATĠSTĠK GÜNLERĠ SEMPOZYUMU BĠLDĠRĠLER KĠTABI 2010 ĠBYSA ile zaman serisi çözümlemesinde ġekil 1 de verilen mimari kullanılırsa girdi tabakasındaki nöron sayısı gecikmeli değiĢken sayısı kadar olmaktadır. Literatürde girdi tabakasında kaç gecikmeli değiĢken kullanılacağı veya gizli tabakalarda kaç nöron olacağı sorusuna deneme yanılma yolu ile karar verilmektedir. Yine kaç gizli tabaka kullanılacağı konusunda da genel bir sonuç olamamasına rağmen iki gizli tabakadan fazlasını kullanmanın gerekli olmadığı Zhang vd. (1998) çalıĢmasında savunulmaktadır. ĠBYSA ile zaman serilerinin çözümlenmesi konusunda detaylı bilgi Günay vd. (2007) çalıĢmasından elde edilebilir. 3. ĠMKB, Dolar ve Euro Zaman Serilerinin ĠBYSA ile Çözümlenmesi ĠMKB indeksi, TL/Dolar ve TL/Euro döviz kuru gibi ekonomik zaman serileri eğrisel ve doğrusal yapıları içeren verilerdir.Bu verilerin çözümlenmesinde klasik eğrisel ve doğrusal zaman serisi yaklaĢımları yetersiz kalmaktadır. Bu tür ekonomik zaman serilerinin çözümlenmesinde ĠBYSA kullanımı son yıllarda sık uygulanmaktadır. Ancak ĠBYSA ile zaman serisi çözümünde bileĢenlerin belirlenmesi için hala sistematik bir yöntem önerilememiĢtir.Bu çalıĢmada ĠMKB indeksi, TL/Dolar ve TL/Euro döviz kuru zaman serileri ĠBYSA ile çözülerek gizli tabaka sayısı ve test kümesi uzunluğunun etkisi araĢtırılmıĢtır. Her üç verinin çözümlenmesinde tek gizli tabaka ve iki gizli tabakalı mimariler kullanılmıĢtır. Tek gizli tabaka olduğu durumda gizli tabaka birim sayısı 1 ile 12 arasında değiĢtirilmiĢ, girdi tabakasında kullanılan gecikmeli değiĢkenlerin sayısı yine 1 ile 12 arasında değiĢtirilmiĢtir. Böylece tek gizli tabaka olması durumunda 144 farklı mimari incelenmiĢtir. Tek gizli tabaka olması durumunda, uygulamada gizli tabaka nöronlarında lojistik, çıktı tabakası nöronlarında doğrusal aktivasyon fonksiyonunun kullanıldığı model ( Model 1) ve gizli tabaka ve çıktı tabakası nöronlarında lojistik aktivasyon fonksiyonunun kullanıldığı model ( Model 2) uygulanmıĢtır. Böylece tek gizli tabaka durumunda 288 farklı ĠBYSA modeli her bir seri için denemiĢtir. Ġki gizli tabakalı mimari kullanıldığında girdi tabakası nöron sayısı 1 ile 12 arasında, her iki gizli tabakadaki nöron sayısı 1 ile 3 arasında değiĢtirilerek toplam 108 farklı mimari incelenmiĢtir. Model 1 ve Model 2‟nin ayrı ayrı uygulanmasıyla incelenen mimari sayısı 216 olmuĢtur. Her bir zaman serisi için toplamda 504 farklı ĠBYSA mimarisi denemiĢtir. ĠMKB indeksi, TL/Dolar ve TL/Euro zaman serilerinin çözümlenmesinden elde edilen sonuçlar sırasıyla Tablo 1,2 ve 3 de verilmiĢtir. ORTA DOĞU TEKNĠK ÜNĠVERSĠTESĠ, FEN-EDEBĠYAT FAKÜLTESĠ, ĠSTATĠSTĠK BÖLÜMÜ | 55 VII. ĠSTATĠSTĠK GÜNLERĠ SEMPOZYUMU BĠLDĠRĠLER KĠTABI 2010 Tablo 1.ĠMKB Zaman Serisi Ġçin En iyi Mimarileri Ġçin Sonuçlar Test Kümesi Uzunluğu Gizli Tabaka Sayısı 1 Modeller 10% 15% 20% Model1 1188,546 [2-6-1] 1250,504 [1-2-1] 1018,396 [4-2-1] Model2 1226,22 [6-1-1] 1300,48 [1-4-1] 1164,988 [1-6-1] Model1 1182,279 [11-3-2-1] 1268,062 [5-2-2-1] 1184,535 [2-1-2-1] 2 Model2 1091,694 [4-2-2-1] 1309,879 [3-1-3-1] 1175,666 [12-2-2-1] Tablo 2.TL/Dolar Zaman Serisi Ġçin En iyi Mimarileri Ġçin Sonuçlar Test Kümesi Uzunluğu Gizli Tabaka Sayısı Modeller 10% 15% 20% Model1 0,010989[1-8-1] 0,012329[1-8-1] 0,013721[1-8-1] Model2 0,009616[1-11-1] 0,011297[1-7-1] 0,014058[3-1-1] Model1 0,011409[8-3-2-1] 0,012517[1-1-2-1] 0,013596[10-1-3-1] Model2 0,010957[1-3-1-1] 0,013538[1-3-1-1] 0,013538[1-3-1-1] 1 2 Tablo 3.TL/Euro Zaman Serisi Ġçin En iyi Mimarileri Ġçin Sonuçlar Test Kümesi Uzunluğu Gizli Tabaka Sayısı Modeller 10% 15% 20% Model1 0,026624[1-8-1] 0,023397[1-5-1] 0,021927[2-12-1] Model2 0,027971[1-7-1] 0,023617[1-5-1] 0,0218113[1-7-1] Model1 0,02985[1-3-3-1] 0,023849[1-3-3-1] 0,023506[1-2-3-1] Model2 0,028418[1-3-2-1] 0,024005[1-3-2-1] 0,0221[1-3-2-1] 1 2 ORTA DOĞU TEKNĠK ÜNĠVERSĠTESĠ, FEN-EDEBĠYAT FAKÜLTESĠ, ĠSTATĠSTĠK BÖLÜMÜ | 56 VII. ĠSTATĠSTĠK GÜNLERĠ SEMPOZYUMU BĠLDĠRĠLER KĠTABI 2010 Tablo 1‟den görüleceği gibi % 10 test kümesi uzunluğunda, 2 gizli tabaka kullanılması daha doğru öngörüler vermektedir. %15 test kümesi ve %20 test kümesi için tek gizli tabakanın daha doğru öngörüler verdiği görülmektedir. ĠMKB zaman serisi için uzun dönem öngörü elde etmede tek gizli tabakalı mimarilerin, kısa dönem öngörü için ise 2 gizli tabakalı mimariler seçilebilir. Tek gizli tabaka kullanıldığında model 1‟in model 2‟den daha doğru öngörü sonuçları verdiği görülmektedir. Ġki gizli tabaka durumunda ise Model 2‟nin %10 ve %20 test kümesi uzunluğunda daha iyi sonuçlar verdiği görülmektedir. TL/Dolar zaman serisi için ise Tablo 2 incelenirse %10 ve %15 test kümesi uzunluğunda tek gizli tabakalı mimarinin daha iyi sonuç verdiği %20 test kümesi uzunluğunda ise 2 gizli tabaka uzunluğunun daha iyi sonuçlar verdiği söylenebilir. Ayrıca TL/Dolar serisi için Model 2‟nin Model 1‟e göre daha doğru öngörü sonuçları verdiği söylenebilir. Tablo 3 incelenirse tek gizli tabaka ile daha doğru öngörü sonuçlarına ulaĢıldığı açıkça görülmektedir.Tek gizli tabakada ise Model 1‟in model 2‟ye göre daha doru öngörüler verdiği söylenebilir. 4. Sonuç ve TartıĢma Bu çalıĢmada öngörü problemi için ileri beslemeli yapay sinir ağı kullanımında, gizli tabaka sayısının belirlenmesi ve test kümesi uzunluğunun etkisi üzerine, ĠMKB, TL/Dolar ve TL/Euro zaman serisi kullanılarak bir araĢtırma yapılmıĢtır. Elde edilen bulgular aĢağıdaki iki maddede özetlenebilir. Tek gizli tabakanın genel olarak 2 gizli tabakadan daha iyi sonuçlar ürettiği yönündedir. Test kümesi uzunluğunun değiĢmesinin öngörü sonuçları üzerinde ciddi bir etkisinin olduğu görülmektedir. Her üç seride de test kümesi değiĢimi ile farklı mimari yapılardan iyi sonuçlar elde edilmiĢtir. TL/Dolar ve TL/Euro zaman serilerinde girdi birim sayısı en iyi mimariler için daima 1 olduğu da dikkati çekmektedir. Yine bazı mimari yapılar için en iyi sinir ağının aynı sayıda girdi ve gizli tabaka birimi içermektedir. TL/Dolar ve TL/Euro zaman serisi iki gizli tabakanın ve model 2‟nin kullanıldığı durumlarda aynı sayıda girdi ve gizli tabaka birimine sahip sinir ağları en iyi sonuçları üretmiĢtir. ORTA DOĞU TEKNĠK ÜNĠVERSĠTESĠ, FEN-EDEBĠYAT FAKÜLTESĠ, ĠSTATĠSTĠK BÖLÜMÜ | 57 VII. ĠSTATĠSTĠK GÜNLERĠ SEMPOZYUMU BĠLDĠRĠLER KĠTABI 2010 5. Kaynaklar Barron, A.R., (1994). A comment on „„Neural networks: A review from a statistical perspective‟‟. Statistical Science 9 (1), 33–35. Cybenko, G., (1988). Continuous Valued Neural Networks with Two Hidden Layers are Sufficient,Technical Report, Tuft University. Cybenko, G., (1989). Approximation by superpositions of a sigmoi-dal function, Mathematical Control Signals Systems 2, 303–314. Hornik, K., Stinchcombe, M., White, H., (1989). Multilayer feedforward networks are universal approximators,Neural Networks, 2, 359–366. Lippmann, R.P., (1987). An introduction to computing with neural nets, IEEE ASSP Magazine, April, 4–22. Zhang, X., (1994).Time series analysis and prediction by neural Networks,Optimization Methods and Software, 4, 151–170. Zhang, G., Patuwo, B.E. and Hu, Y.M., (1998). Forecasting with artificial neural networks: The state of the art,International Journal of Forecasting, 14, 35-62. ORTA DOĞU TEKNĠK ÜNĠVERSĠTESĠ, FEN-EDEBĠYAT FAKÜLTESĠ, ĠSTATĠSTĠK BÖLÜMÜ | 58 VII. ĠSTATĠSTĠK GÜNLERĠ SEMPOZYUMU BĠLDĠRĠLER KĠTABI 2010 ĠSTATĠSTĠK'TE ENTROPĠYE DAYALI UYUM ÖLÇÜLERĠNĠN DĠĞER UYUM ÖLÇÜLERĠ ĠLE KIYASLANMASI Atıf Evren† ÖZET Ġstatistik'te bir olasılık ya da göreli sıklık dağılımının bir diğer dağılıma uygunluğunun test edilmesinde kullanılan bazı ölçüler Kolmogorov-Smirnov istatistiği, olabilirlik oranı istatistiği, ki-kare uyum iyiliği testi, entropiye dayalı ölçüler (Kullback-Leibler sapması, Jeffrey sapması), Hellinger sapması, Bhattacharya sapması olarak sıralanabilir. Bu çalıĢmada ele alınan bazı dağılımların birbirlerinden sapması bu ölçüler yardımı ile ele alınacak ve bu ölçüler arasında bir kıyaslama yapılacaktır. Anahtar Sözcükler: Uyum iyiliği ölçüleri, göreli entropi, Jeffrey sapması,Hellinger sapması A COMPARISON BETWEEN GOODNESS OF FIT MEASURES THAT ARE BASED AND THAT ARE NOT BASED ON ENTROPY MEASURES ABSTRACT Some widely used goodness of fit measures used in statistics especially for making comparisons with a theoretical and an empirical distribution are Kolmogorov-Smirnov statistic, likelihood ratio statistic, chi-square goodness-of-fit statistic, measures based on entropy (Kullback-Leibler divergence, Jeffrey's divergence) , Hellinger divergence and Bhattacharya divergence. In this study the convergence of some probability distributions to some others will be investigated through these measures. Hence, a comparison between all these measures could be possible. Keywords: Measures for goodness of fit, relative entropy, Jeffrey's divergence, Hellinger divergence GĠRĠġ Uyum iyiliği ölçüleri , geçerli olduğu düĢünülen teorik bir olasılık dağılımı ile gözlenen verilerin oluĢturacağı görgül (ampirik) bir dağılımın uyumunun saptanmasında da kullanılmaktadır. Bu konuda önerilen ölçülerin bazıları ki-kare istatistiği, olabilirlik oranı istatistiği, Kolmogorov- † Öğretim Üyesi, Yıldız Teknik Üniversitesi, Fen Edebiyat Fakültesi, Ġstatistik Bölümü, DavutpaĢa Esenler, 34210 Ġstanbul, aevren@yildiz.edu.tr ORTA DOĞU TEKNĠK ÜNĠVERSĠTESĠ, FEN-EDEBĠYAT FAKÜLTESĠ, ĠSTATĠSTĠK BÖLÜMÜ | 59 VII. ĠSTATĠSTĠK GÜNLERĠ SEMPOZYUMU BĠLDĠRĠLER KĠTABI 2010 Smirnov D istatistiği, Cramer-Von Mises istatistiği, olabilirlik oranı , Kullback-Leibler sapması, Jeffrey sapması, Bhattacharya Hellinger sapmalarıdır (Everitt, 2006). 1.1 Metrik Fonksiyonlar ( x, y) fonksiyonu bütün (x,y) değerleri için aĢağıdaki koĢulları yerine getiriyorsa metrik olarak adlandırılır: 1) ( x, y) 0 , 2) ( x, y) ( y, x) , 3) ( x, y) 0 Sadece x=y için 4) ( x, y) ( y, z) ( x, z) (Üçgen eĢitsizliği) (Cover & Thomas, 2006) Uyum iyiliği için önerilen bazı istatistikler metrik olma özelliğini taĢımazlar. Bu bakımdan bu özelliği tanımayan ölçülerin sapma (divergence) olarak nitelendirilmesi daha doğru olacaktır. Bazı çok kullanılan metrikler ve kullanım alanları için DasGupta(2008)'e baĢvurulabilir. 1.2. Uyumun Ġyiliğinin Ki-Kare ve Olabilirlik Oranı Ġstatistikleri ile Test Edilmesi H :F 0 x ( x) F 0 ( x) bütün x değerleri için, H :F 1 x ( x) F 0 ( x) verilmiĢ ve eldeki örneğin birbirini kategorik olarak dıĢlayan k tane kategoriye ait olduğu düĢünülsün. H 0 hipotezinin kabulü altında beklenen sıklıklar e i , gözlenen sıklıklar da f i (i=1,2,...,n) olsun. Pearson tarafından önerilen test istatistiği f i ei 2 2 k i 1 e (1) i Ģeklindedir. Büyük n değerleri için bu istatistiğin k-1 serbestlik dereceli bir ki-kare dağılımına uyduğu bilinmektedir (Cramér, 1999).Burada testin sağlıklı sonuç verebilmesi için koĢulunun yerine gelmesi gerektiğini vurgulamak yerinde olur (Kanji, 1993). ORTA DOĞU TEKNĠK ÜNĠVERSĠTESĠ, FEN-EDEBĠYAT FAKÜLTESĠ, ĠSTATĠSTĠK BÖLÜMÜ | 60 e 5 i VII. ĠSTATĠSTĠK GÜNLERĠ SEMPOZYUMU BĠLDĠRĠLER KĠTABI Multinomial dağılan bir anakütlenin k kategorisinin , 1 2 ,..., k , gözlenen frekansları ise L( , 1 k ,..., k ) i 2 1 2 0 i f k hipotezi altında beklenen olasılıkları olsun. Olabilirlik fonksiyonu fi (2) e i=1,2,..,k ve ˆ f i i i n n i0 L , ,..., T ˆ Lˆ ,ˆ ,...,ˆ i 0 0 0 1 2 k 1 ,..., 0 i 1 H : 0 f ,f H 2010 2 olmak üzere olabilirlik oranı fi k (3) i 1 k Ģeklindedir. -2lnT rastlantı değiĢkeninin olasılık dağılımı yaklaĢık olarak k-1 serbestlik dereceli bir ki-kare dağılımıdır. Bazı istatistikçiler uyum iyiliğini belirlemek için olabilirlik oranı istatistiği G 2 k 2 ln T 2 i 1 f ln 0 ln f i i i n (4) tercih etmektedir. (4) ile (1)'in asimptotik olarak özdeĢ olduğunun ispatı için Gibbons& Chakraborti (2003,s105-107) 'ye göz atılabilir. Agresti(2002) , 2 ile G 2 H 0 'ın yanlıĢ olması halinde ise nin n'deki artıĢa paralel olarak büyüdükleri ve büyük n değerleri için bile birbirine benzer değerlere sahip olmayabileceklerini belirtmektedir. Agresti, k sabitken ve n artarken 'nin dağılımının ve n/k<5 için G 2 G 2 'nin dağılımına oranla daha hızlı bir Ģekilde ki-kare dağılımına yakınsadığını 2 'nin bir ki-kare dağılımı ile temsil edilmesinin uygun olmadığını vurgulamaktadır. Örnek büyüklüğünün bu istatistiklere etkisi için Agresti(2002, s395-396)'ya baĢvurulabilir. ORTA DOĞU TEKNĠK ÜNĠVERSĠTESĠ, FEN-EDEBĠYAT FAKÜLTESĠ, ĠSTATĠSTĠK BÖLÜMÜ | 61 VII. ĠSTATĠSTĠK GÜNLERĠ SEMPOZYUMU BĠLDĠRĠLER KĠTABI 2010 1.3. Kolmogorov-Smirnov Ġki Örneklem Testi H :F 0 n D Maks X ( x) Gn ( x) , F n H :F A n ( x) Gn ( x) ve test istatistiği de ( x) G n ( x) (5) Sürekli dağılımların birbirine uygunluğu için kullanılan bu testin kritik değerleri özel tablolar yardımı ile elde edilmektedir (Freund & Williams, 1966). Örnek büyüklüğünün küçük olması halinde Kolmogorov-Smirnov testi , ki-kare testine tercih edilmektedir (Conover, 1999). 1.4. Bhattacharya Sapması Olasılık fonksiyonları f ve g olan iki dağılım arasındaki Bhattacharya sapması 1 B.D. cos f ( x) g ( x)dx (6) olarak tanımlanmıĢtır (Everitt, 2006). Ġki dağılım özdeĢ olduğunda bu ölçü 0'a eĢit olmaktadır. 1.5 Hellinger Sapması . (7) f ( x) g ( x)dx 2(1 ) Ģeklinde hesaplanmaktadır. olsun. f ve g arasındaki Hellinger sapması 1.6. Cramér-Von Mises Ölçüsü F n( x) F 0( x) dF U 2 Örnek değerleri 0 x , x ,..., x küçükten büyüğe sıralandığında ( F 1 2 n (8) ( x) 0 ( x) sürekli ise) ORTA DOĞU TEKNĠK ÜNĠVERSĠTESĠ, FEN-EDEBĠYAT FAKÜLTESĠ, ĠSTATĠSTĠK BÖLÜMÜ | 62 VII. ĠSTATĠSTĠK GÜNLERĠ SEMPOZYUMU BĠLDĠRĠLER KĠTABI 2 1 n F n 2 12 n n 1 1 2010 x 2 1 2n 2 (9) istatistiği elde edilebilir. Burada , x değerinden küçük ya da ona eĢit olan örnekteki birim sayısı ve F n ( x) olur. n E ( ) 2 Yine gösterilebilir. Örnekleme dağılımı F 0 1 6n ve ( x) 'dan bağımsız olan Var ( ) 2 2 4n 3 oldukları 3 180 n 'nin dağılım yasası Smirnov tarafından incelenmiĢtir.Smirnov n için n 'nın n'den bağımsız olarak belirli bir limit 2 dağılıma sahip olduğunu göstermiĢtir (Cramér (1999), s451). 1.7 Freeman-Tukey Ġstatistiği (T) k T i 1 o i oi 1 4ei 1 2 Ģeklindedir. Burada k, kategori sayısı, s modeldeki parametre sayısı, gözlem sayısı, e ,H i 0 (12) o i i .kategoriden gelen hipotezinde varsayılan modelden hareketle i. kategori için beklenen gözlem sayısıdır. Bu durumda T istatistiği, asimptotik olarak k-s-1 serbestlik dereceli bir ki-kare dağılımına uymaktadır (Everitt, 2006). Upton&Cook( 2005), (12 ) no'lu denklemin sol tarafını T 2 H ile ifade ediyorlar. Denklemin sağ tarafı ise (12)'de ifade edildiği gibidir. 0 T 2 istatistiğinin doğru olduğunda yaklaĢık olarak k-s serbestlik dereceli bir ki-kare dağılımına uyduğunu belirtiyorlar. Tanımlardaki bu farklılıkları belirtmek gerekiyor. 2. Entropi Boltzman'a göre bir fiziksel sistemin entropisi , sistemdeki düzensizliğin (disorder) bir ölçüsüdür ( Rényi, 2007a). Bir istatistiksel deneyin entropisi , deneyin sonucu ile ilgili belirsizlik miktarının bir ölçüsü olarak da kabul edilebilir (Renyi, 2007b). Entropi kavramının diğer bazı uygulama alanları için Evren(2010) incelenebilir. ORTA DOĞU TEKNĠK ÜNĠVERSĠTESĠ, FEN-EDEBĠYAT FAKÜLTESĠ, ĠSTATĠSTĠK BÖLÜMÜ | 63 VII. ĠSTATĠSTĠK GÜNLERĠ SEMPOZYUMU BĠLDĠRĠLER KĠTABI 2010 2.1 Kesikli Hallerde Entropi Kesikli bir örnek uzayı S içinde X rastlantı değiĢkeninin sırası ile p , p ,..., p 1 n 2 H p log i 1 i n x , x ,..., x değerlerini alma olasılıkları 1 2 n olsun. p (13) i Ģeklinde tanımlanan Shannon entropisi bir istatistiksel deneyin belirsizliğinin bir ölçüsüdür. X‟in entropisi , X sonucunu ortaya koyabilmek için gerekli olan minimum ortalama bit sayısı olarak da görülebilir (Garcia, 1994). Örnek uzayı S içerisinde en büyük entropi, bütün elemanter X x i=1,2,…,n i UlaĢılabilecek maksimum entropi olaylarının Ģanslarının eĢit olması halinde karĢımıza çıkar. H maks log( n) olur. Öte yandan X x (k=1,2,...,n) k için ) kesin olaysa H=0 olur. Dolayısıyla kesikli bir olasılık dağılımı için entropi 0 ile log(n) arasında değer alır. 2.2. Sürekli Dağılımlar için Entropi Sürekli değiĢken X‟in entropisi (diferansiyel entropi) H(X ) log( f ( x)) f ( x)dx (14) Ģeklinde olur (Reza, 1994). 2.3. Kullback-Leibler enformasyonu ve göreli entropi D( p q) iki olasılık dağılımı arasındaki sapmanın bir ölçüsüdür. Kesikli Göreli entropi dağılımlar için Kullback-Leibler sapması (ya da göreli entropi) D KL ( p q) x p( x) log p ( x) q ( x) ORTA DOĞU TEKNĠK ÜNĠVERSĠTESĠ, FEN-EDEBĠYAT FAKÜLTESĠ, ĠSTATĠSTĠK BÖLÜMÜ (15) | 64 VII. ĠSTATĠSTĠK GÜNLERĠ SEMPOZYUMU BĠLDĠRĠLER KĠTABI 2010 olarak tanımlanmıĢtır. Bu konunun daha ayrıntılı ele alınıĢı için Pardo ( 2006)'ya bakılabilir. Sürekli haller için de bu sapma benzer Ģekilde tanımlanabilir. (15) ile (4) arasındaki paralellik incelendiğinde Kullback-Leibler sapmasının dağılımının ki-kare dağılımı ile incelenebileceği düĢünülebilir. Kullback-Leibler sapması metrik olmanın tüm koĢullarını sağlamamaktadır: D KL ( p q) D KL (16) (q p) 2.4. Kullback-Leibler Sapmasının Simetrik Bir Versiyonu: Jeffrey Sapması D J ( p q)D KL ( p q) DKL (q p) (17) biçimindedir (Everitt, 2006). Jeffrey sapması da metrik değildir ( Kullback, 1997). 3. Uyum Ġyiliği için “Power Divergence” Ġstatistiği n , i. gruba düĢen gözlem sayısı , ̂ de bu gruba düĢmesi öngörülen gözlem sayısı olsun. Bu i i durumda Cressie&Read tarafından önerilen sapma istatistiği( power divergence statistic) ni 2 1 P.D.S . n i ( 1) ̂ i biçimindedir. Burada sözgelimi 1 için istatistiği, 2 , için G (18) 2 1 , için Freeman-Tukey 2 1 için Kullback'ın minimum ayırıcı bilgi istatistiği türetilmektedir (Agresti(2002),s112). ORTA DOĞU TEKNĠK ÜNĠVERSĠTESĠ, FEN-EDEBĠYAT FAKÜLTESĠ, ĠSTATĠSTĠK BÖLÜMÜ | 65 VII. ĠSTATĠSTĠK GÜNLERĠ SEMPOZYUMU BĠLDĠRĠLER KĠTABI 2010 Uygulama Tablo1: Uygulamadaki Kuramsal ve Görgül Dağılımlar (Snedecor&Cochran(1969) 'dan alınmıĢtır.) Gruplar Gözlenen sıklık (oi) Beklenen sıklık (ei) Gruplar Gözlenen sıklık (oi) Beklenen sıklık (ei) A 1 0.2 G 36 41 B 1 2 H 25 23.4 C 8 8.8 Ġ 16 8.8 D 25 23.4 J 4 2 E 39 41 K 0 0.2 F 45 49.2 Toplam 200 200 Tablo 2:Tablo 1‟deki veri içinUyum Ġyiliği Ġstatistikleri Ki-Kare G-Kare KolmogorovSmirnov Bhattacharya Hellinger Cramer-Von Mises FreemanTukey KullbackLeibler Jeffrey's 10.3 18.96 0.05 0.11 0.11 0 8.88 1.71 3.95 Tablo 3: Ġkinci Sıklık Dağılımı (Gözlenen ve Beklenen Sıklıklar) Gruplar Gözlenen sıklık (oi) Beklenen sıklık (ei) Gruplar Gözlenen sıklık (oi) Beklenen sıklık (ei) A 40 0.2 G 36 41 B 32 2 H 25 23.4 C 18 8.8 Ġ 4 8.8 D 22 23.4 J 4 2 E 16 41 K 0 0.2 F 3 49.2 Toplam 200 200 Tablo 4: Tablo 3‟deki veri için Uyum Ġyiliği Ġstatistikleri Ki-Kare G-Kare KolmogorovSmirnov Bhattacharya Hellinger Cramer-Von Mises FreemanTukey KullbackLeibler Jeffrey's 570.64 39830.67 0.4 0.68 0.67 0.04 341.55 75.6 199.52 ORTA DOĞU TEKNĠK ÜNĠVERSĠTESĠ, FEN-EDEBĠYAT FAKÜLTESĠ, ĠSTATĠSTĠK BÖLÜMÜ | 66 VII. ĠSTATĠSTĠK GÜNLERĠ SEMPOZYUMU BĠLDĠRĠLER KĠTABI 2010 Tablo 5: Uyumun Çok Ġyi Olduğu Üçüncü Veri Setinin Gözlenen ve Beklenen Sıklıkları Gruplar Gözlenen sıklık (oi) Beklenen sıklık (ei) Gruplar Gözlenen sıklık (oi) Beklenen sıklık (ei) A 0 0.2 G 42 41 B 2 2 H 22 23.4 C 9 8.8 Ġ 9 8.8 D 24 23.4 J 1 2 E 41 41 K 0 0.2 F 50 49.2 Toplam 200 200 Tablo 6: Tablo 5 ile Ġlgili Uyum Ġyiliği Ġstatistikleri Ki-Kare G-Kare KolmogorovSmirnov Bhattacharya Hellinger Cramer-Von Mises FreemanTukey KullbackLeibler Jeffrey's 1.56 2.26 0.01 0.05 0.05 4.9002E-05 0.78 0.02 0.36 SONUÇ Genel olarak bütün istatistikler uyum iyiliği arttığında küçük sapma , uyum iyiliği azaldığında büyük sapma değerleri vermektedir. Bununla birlikte sapmaların büyüklüklerinin birbirlerinden bariz bir biçimde farklı olabildikleri gözlenmektedir. Bunun sebebinin kullanılan ölçeklerin (logaritmik değerlerin, kareli değerlerin kullanılması gibi) farklı olmasından kaynaklandığı düĢünülebilir. Göreli entropi, Jeffrey sapması, Freeman-Tukey, kikare, olabilirlik oranı gibi istatistiklerin dağılım özellikleri literatürde incelenmiĢ bulunduğundan , Hellinger sapması, Bhattacharya sapması gibi ölçülere oranla avantajlıdırlar. Bütün bunlarla birlikte sürekli bir dağılımın kesikli hale getirilmesi halinde farklı gruplandırma yöntemlerinin bu ölçüleri nasıl etkileyeceği de incelenmelidir. KAYNAKLAR AGRESTI, A.(2002), Categorical Data Analysis, Wiley Interscience (Second Edition), Hoboken, New Jersey, s 24 CRAMER ,H.(1999), Mathematical Methods of Statistics, Princeton University Press, Nineteenth Printing and First Paper Printing 1999, s416-419 CONOVER, W.J.(1999), Practical Nonparametric Statistics, Wiley Series in Probability and Statistics, Third Edition, s 430 COVER, T.M.; THOMAS, J.A.(2006) Elements of Information Theory, Wiley Interscience (Second Edition), Hoboken, New Jersey, s45 ORTA DOĞU TEKNĠK ÜNĠVERSĠTESĠ, FEN-EDEBĠYAT FAKÜLTESĠ, ĠSTATĠSTĠK BÖLÜMÜ | 67 VII. ĠSTATĠSTĠK GÜNLERĠ SEMPOZYUMU BĠLDĠRĠLER KĠTABI 2010 DASGUPTA, A.(2008), Asymptotic Theory of Statistics and Probability, Springer Texts in Statistics, s20-21 EVERITT,B.S.( 2006); The Cambridge Dictionary of Statistics , Cambridge University Press (Third Edition), Cambridge EVREN, A.(2010), Entropinin Ġstatistik’teki Bazı Uygulamaları, II. Konya Ereğli Kemal Akman Meslek Yüksek Okulu Tebliğ Günleri, 13-14 Mayıs 2010 Ulusal FREUND, J.E., WILLIAMS, F.J.(1966), Dictionary/Outline of Basic Statistics, Dover Publications, NY GARCIA, A.L.(1994), Probability and Random Processes for Electrical Engineering, AddisonWesley Longman (Second Edition), s169 GIBBONS, J.D., CHAKRABORTI, S. (2003), Nonparametric Statistical Inference, Statistics: A Dekker Series of Textbooks and Monographs (Fourth Edition, Revised and Expanded),Marcel Dekker Inc. ,s105-107 KANJI, G.(1993), 100 Statistical Tests, Sage Publications, reprinted 1995, s12 KULLBACK, S.(1996) , Information Theory and Statistics, Dover Publications, NY ,s6 PARDO, L.(2006), Statistical Chapman&HALL/CRC, s1-34 Inference Based on Divergence Measures, RENYI, A(2007a), Probability Theory, Dover Publications, NY, s 554 RENYI, A.(2007b), Foundations of Probability, Dover Publications,NY, s23 REZA,F.M.(1994) ; An Introduction to Information Theory, Dover Publications, NY, s268 SNEDECOR, G.W., COCHRAN, W.G.(1969), Statistical Methods, The Iowa State University Press, Sixth Edition (Third Printing), s16 UPTON, G.; COOK, I. (2006); Oxford Dictionary of Statistics, Oxford University Press (Second edition), NY ORTA DOĞU TEKNĠK ÜNĠVERSĠTESĠ, FEN-EDEBĠYAT FAKÜLTESĠ, ĠSTATĠSTĠK BÖLÜMÜ | 68 VII. ĠSTATĠSTĠK GÜNLERĠ SEMPOZYUMU BĠLDĠRĠLER KĠTABI 2010 L-SIRALI KÜME ÖRNEKLEMESĠ KULLANILARAK YIĞIN ORTALAMASININ TAHMĠN EDĠLMESĠ Nilay AKINCI* Yaprak Arzu ÖZDEMĠR** ÖZET L-sıralı küme örneklemesi (LSKÖ), yığın ortalamasını tahmin etmek için önerilen sıralı küme örneklemesi (SKÖ) tasarımlarından biridir. 2007‟de Al-Saleh tarafından önerilen LSKÖ ile, özellikle veride bulunan uç değerlerden etkilenmeyen ve simetrik dağılımlar altında yansız bir tahmin edicinin elde edilmesi mümkündür. Bu çalıĢmada, LSKÖ tasarımı ile elde edilen yığın ortalamasına iliĢkin tahmin edicinin, çeĢitli dağılımlar ve farklı örnek çapları altında, bilinen SKÖ tasarımından elde edilen tahmin ediciye göre etkinliği simülasyon çalıĢması ile incelenmiĢtir.Ayrıca önerilen diğer SKÖ tasarımlarından elde edilen tahmin edicilerin de, SKÖ‟ ye göre etkinlikleri elde edilerek, LSKÖ tasarımının hangi dağılımlar altında daha etkin olduğu saptanmaya çalıĢılmıĢtır. Anahtar kelimeler: L-tahmin edici, Sıralı Küme Örneklemesi, Medyan Sıralı Küme Örneklemesi, Uç Sıralı Küme Örneklemesi, Yüzde Sıralı Küme Örneklemesi, Göreli Etkinlik ESTIMATION OF POPULATION MEAN BY USING L RANKED SET SAMPLING ABSTRACT L-ranked set sampling (LRSS) is one of the ranked set sampling designs to estimate the population mean. LRSS was proposed by Al-Saleh in 2007. It is seen that, especially when the data contains outliers, it is possible to obtain an estimator using LRSS which is not affected by outliers and unbiased in symmetric distributions. In this study, the efficiency of the population mean estimators obtained by LRSS according to the ranked set sampling (RSS) is investigated using simulation studies at various distributions and different sample sizes. Also, the relative efficiencies of estimators obtained by other proposed RSS designs are calculated according to classical RSS design and determined the distributions where LRSS design is more effective. Keywords:L-estimator, Ranked set sampling, Percentile ranked set sampling, Extreme ranked set sampling, Median ranked set sampling, Relative efficiency *Öğrenci, Gazi Üniversitesi, Fen Edebiyat Fakültesi, Ġstatistik Bölümü, 06 Ankara, akincinilay@gmail.com ** Yrd. Doç. Dr, Gazi Üniversitesi, Fen Edebiyat Fakültesi, Ġstatistik Bölümü, 06500 Ankara, yaprak@gazi.edu.tr(HaberleĢme Adresi) ORTA DOĞU TEKNĠK ÜNĠVERSĠTESĠ, FEN-EDEBĠYAT FAKÜLTESĠ, ĠSTATĠSTĠK BÖLÜMÜ | 69 VII. ĠSTATĠSTĠK GÜNLERĠ SEMPOZYUMU BĠLDĠRĠLER KĠTABI 2010 1.GĠRĠġ Sıralı Küme Örneklemesi (SKÖ), Basit Tesadüfi Örneklemeye (BTÖ) alternatif olarak 1952 yılında McIntyre tarafından önerilmiĢtir. SKÖ, özellikle ilgilenilen değiĢken kolay ölçülebilir olmadığı zaman, fakat birimleri ilgilenilen değiĢken bakımından sıralamak daha kolay olduğunda kullanılır. Bu sıralama görsel yolla veya bazı ucuz ölçüm metotları kullanılarak yapılabilir. SKÖ ile örnek seçiminde öncelikle ilgili yığından seçilen n 2 çaplı tesadüfî bir örnek, her biri n çaplı n kümeye tamamen tesadüfî olarak paylaĢtırılır. Böylece birbirinden bağımsız n çaplı n tane küme elde edilmiĢ olur. Her bir kümedeki elemanlar kendi içinde sıralanarak, kümelerin birincisinden ilk sıradaki birim, ikincisinden ikinci sıradaki birim ve bu Ģekilde devam edilerek n. kümeden n. sıradaki birim seçilir. SKÖ altında yığın ortalaması ‟nün yansız tahmin edicisi X SKÖ 1 n X n i 1 ii ,n (1) Ģeklinde tanımlanır. Burada, X ii:n n büyüklüğündeki i. kümenin i. sıra istatistiğini ifade etmektedir. Sıra istatistikleri bu örnekleme tasarımı altında birbirinden bağımsızdır. X SKÖ , örnek çapı n aynı kalmak üzere, yığın dağılımı ne olursa olsun BTÖ‟den elde edilen tahmin ediciden daha etkin bir tahmin edicidir. Ancak yığının dağılımı biliniyorken, tahmin edicinin etkinliğini artırmak amacıyla bilinen SKÖ ile örnek seçimi yerine farklı örnek seçimleri önerilmiĢtir. Samawi ve diğerleri özellikle tekdüze dağılımın yığın ortalamasını tahmin etmek üzere uç (extreme) SKÖ (USKÖ)‟ni önermiĢlerdir (Samawi ve diğ., 1996). USKÖ‟ de örnek seçimi n‟ in çift ya da tek olmasına göre değiĢir.n çift ise; kendi içinde sıralanan n birimlik ilk (n/2) kümeden 1. sıradaki birim, kalan (n/2) kümeden ise n. sıradaki birim seçilir. n tek ise; kendi içinde sıralanan n birimlik ilk (n 1) / 2 kümeden 1. sıradaki birim, ( n 1/ 2 ). kümeden medyan değeri, son (n 1) / 2 kümeden ise n. sıradaki birim seçilir. Örneğe çıkan birimler istenilen hassalıktaki bir ölçümle ilgilenilen değiĢken bakımından ölçülür ve n çaplı uç sıralı küme örneği elde edilir. Bu tasarım özellikle tekdüze ve tek modlu olmayan simetrik dağılımlar altında SKÖ‟den daha etkin sonuçlar vermektedir. Muttlak, normal ve üstel dağılımlar için yığın ortalamasını tahmin etmek üzere medyan SKÖ (MSKÖ)‟ni önermiĢtir (Muttlak,1998). MSKÖ tasarımında örnek seçimi n‟ in çift ya da tek olmasına göre değiĢir.n çift ise; kendi içinde sıralanan n birimlik ilk (n/2) kümeden (n/2). sıradaki birimler ve kalan (n/2) kümeden ((n/2)+1). sıradaki birimler seçilir. n tek ise; kendi içinde sıralanan birimlerden medyan değerleri örneğe seçilir. Örneğe çıkan birimler istenilen hassalıktaki bir ölçümle ilgilenilen değiĢken bakımından ölçülür ve n çaplı medyan sıralı küme örneği elde edilir.MSKÖ ile özellikle tek modlu simetrik dağılımlar altında SKÖ‟den daha etkin ORTA DOĞU TEKNĠK ÜNĠVERSĠTESĠ, FEN-EDEBĠYAT FAKÜLTESĠ, ĠSTATĠSTĠK BÖLÜMÜ | 70 VII. ĠSTATĠSTĠK GÜNLERĠ SEMPOZYUMU BĠLDĠRĠLER KĠTABI 2010 sonuçlar elde edilmektedir. Muttlak ayrıca yüzde (percentile) SKÖ (YSKÖ)‟ni önermiĢtir (Muttlak, 2003). Bu tasarımda öncelikle 0 p 1 ve q=1-p olmak üzere bir p değeri belirlenir ve örnek seçim iĢleminde n çift ise ilk n/2 örneğin (p(n+1))‟inci sıradaki birimleri ve ikinci n/2 örneğin (q(n+1))‟inci sıradaki birimleri örneğe seçilir. n tek ise ilk (n–1)/2 örneğin (p(n+1))‟inci sıradaki birimleri, son (n–1)/2 örneğin (q(n+1))‟inci sıradaki birimleri ve kalan örneğin medyanı örneğe seçilir. YSKÖ yığın dağılımı simetrik olduğunda yığın ortalaması için yansız bir tahmin edici vermektedir.Ayrıca belirlenen yığın dağılımı altında p değerine bağlı olarak SKÖ‟ ye göre etkinliği değiĢmektedir.Bunun dıĢında yeni SKÖ, tesadüfî seçime dayalı yeni SKÖ, ağırlıklı SKÖ ve L-SKÖ gibi tasarımlar da önerilmiĢtir (Bhoj, 2000; Li ve ark., 1999; Muttlak ve Abu-Dayyeh, 2004; Al-Nasser, 2007).Ayrıca son yıllarda, örnek seçim iĢleminin çok aĢamalı olarak gerçekleĢtiği SKÖ tasarımları da önerilmiĢtir. Çift SKÖ, çok aĢamalı SKÖ, çok aĢamalı çeyrek SKÖ bu tasarımlara örnek olarak verilebilir (Al-Saleh ve Al-Kadiri, 1999; Al-Saleh ve Al-Omari, 2002; Jemain ve Al-Omari,2007). Bu çalıĢmada, Al-Nasser tarafından önerilen LSKÖ tasarımı tanıtılacaktır.Bu tasarım ile yığın ortalaması için özellikle verideki uç değerlerden etkilenmeyen ve simetrik dağılımlar altında yansız bir tahmin edicinin elde edilmesi mümkündür. LSKÖ nün SKÖ‟ ye göre etkinliğini detaylı olarak incelemek amacıyla, çeĢitli dağılımlar ve örnek çapları altında yığın ortalamasına iliĢkin tahmin edicinin ortalama hata kare(OHK) ve göreli etkinlik(GE) değeri simülasyon yoluyla elde edilmiĢtir. Ayrıca diğer SKÖ tasarımlarından MSKÖ, USKÖ ve YSKÖ ile etkinlik bakımından karĢılaĢtırma yapılarak LSKÖ nün hangi dağılımlar altında daha etkin olduğu belirlenmeye çalıĢılmıĢtır. 2. L SIRALI KÜME ÖRNEKLEMESĠ ĠLE ÖRNEK SEÇĠMĠ VE YIĞIN ORTALAMASININ TAHMĠNĠ LSKÖ tasarımında örnek seçim iĢlemi aĢağıdaki adımlar izlenerek yapılır. 1) Her biri n büyüklüğünde, tesadüfî n örnek seçilir. 2) Görsel yolla veya ucuz metotlarla, ilgilenilen değiĢken göz önüne alınarak birimler sıralanır. Bu sıralamanın hassas ölçümlü sıralama kadar iyi olduğu varsayılmaktadır. 3) 0 0.5 olmak koĢuluyla k n. LSKÖ katsayısı seçilir. Burada k, n. ‟ya eĢit veya n. ‟dan küçük olan tamsayı değerlerinin en büyüğünü ifade etmektedir. 4) Ġlk (k+1) küme için (k+1). sıradaki birimler, son (k+1) küme için (n-k). sıradaki birimler ve j=k+2,...,n-k-1. küme için ise j. sıradaki birim seçilir. ORTA DOĞU TEKNĠK ÜNĠVERSĠTESĠ, FEN-EDEBĠYAT FAKÜLTESĠ, ĠSTATĠSTĠK BÖLÜMÜ | 71 VII. ĠSTATĠSTĠK GÜNLERĠ SEMPOZYUMU BĠLDĠRĠLER KĠTABI 2010 5) Örneğe çıkan birimler SKÖ tasarımında olduğu gibi istenilen hassalıktaki bir ölçümle ilgilenilen değiĢken bakımından ölçülür ve n çaplı L-sıralı küme örneği elde edilir. Tablo 1 ve 2‟ de sırasıyla n=5 ve n=6 iken k=1 için seçilen LSKÖ örnekleri gösterilmektedir. Tablo 1. n=5 ve k=1 için LSKÖ tasarımı ile örneğe seçilen birimler X1[1,5] X1[2,5] X1[3,5] X1[4,5] X1[5,5] X2[1,5] X2[2,5] X2[3,5] X2[4,5] X2[5,5] X3[1,5] X3[2,5] X3[3,5] X3[4,5] X3[5,5] X4[1,5] X4[2,5] X4[3,5] X4[4,5] X4[5,5] X5[1,5] X5[2,5] X5[3,5] X5[4,5] X5[5,5] Tablo 2. n=6 ve k=1 için LSKÖ tasarımı ile örneğe seçilen birimler X1[1,6] X1[2,6] X1[3,6] X1[4,6] X1[5,6] X1[6,6] X2[1,6] X2[2,6] X2[3,6] X2[4,6] X2[5,6] X2[6,6] X3[1,6] X3[2,6] X3[3,6] X3[4,6] X3[5,6] X3[6,6] X4[1,6] X4[2,6] X4[3,6] X4[4,6] X4[5,6] X4[6,6] X5[1,6] X5[2,6] X5[3,6] X5[4,6] X5[5,6] X5[6,6] X6[1,6] X6[2,6] X6[3,6] X6[4,6] X6[5,6] X6[6,6] LSKÖ ile seçilen örnekten, yığın ortalamasının tahmin edicisi aĢağıdaki gibi tanımlanır. nk n 1 k X LSKÖ X ik 1:n X ii:n X in k:n n i 1 i l 1 i n k 1 ORTA DOĞU TEKNĠK ÜNĠVERSĠTESĠ, FEN-EDEBĠYAT FAKÜLTESĠ, ĠSTATĠSTĠK BÖLÜMÜ | 72 VII. ĠSTATĠSTĠK GÜNLERĠ SEMPOZYUMU BĠLDĠRĠLER KĠTABI 2010 X LSKÖ , simetrik dağılımlar altında yığın ortalamasının yansız bir tahmin edicisidir. Ancak simetrik olmayan dağılımlar altında yanlı bir tahmin edici olduğundan X LSKÖ ‟nün OHK‟si OHK X LSKÖ Var ( X LSKÖ ) E X LSKÖ 2 Ģeklinde tanımlanır. 3. SĠMÜLASYON ÇALIġMASI Bu bölümde, USKÖ, MSKÖ, YSKÖ ve LSKÖ tasarımlarının SKÖ‟ye göre GE değerleri simülasyon yoluyla incelenecektir. YSKÖ için p‟nin 0.20 ve 0.40 değerleri incelenmiĢtir. Ayrıca, simetrik dağılımlardan Normal(0,1), Laplace(0,0.5) ve Tekdüze(0,1) dağılım ile simetrik olmayan dağılımlardan Beta(2,9), Beta(9,2), Üstel(1) ve Log-normal(0,1) dağılımları ele alınmıĢtır. Dağılımlar belirlenirken basıklık ve çarpıklık katsayıları dikkate alınmıĢtır. Matlab paket programı kullanılarak, her bir tasarım için n=3,4,5,6,10 ve 11 çaplı örnekler seçilerek, tahmin edicinin beklenen değeri, OHK‟ si ve SKÖ‟ ye göre GE değerleri 100000 tekrarlı simülasyon çalıĢması ile hesaplanmıĢtır. GE değeri, GE Var ( X SKÖ ) OHK ( X *SKÖ ) Ģeklinde tanımlanmaktadır. Burada OHK ( X *SKÖ ) , diğer SKÖ tasarımlarından (USKÖ, MSKÖ, YSKÖ, LSKÖ) elde edilen tahmin edicinin OHK değerini ifade etmektedir. Elde edilen sonuçlar Tablo 3-9 arasında verilmektedir. Ayrıca, LSKÖ‟ de n=3,4 için k=2, n=3,4,5,6 için k=3 değerini alması mümkün olmadığından tablolarda ilgili kısımlar boĢ bırakılmıĢtır. ORTA DOĞU TEKNĠK ÜNĠVERSĠTESĠ, FEN-EDEBĠYAT FAKÜLTESĠ, ĠSTATĠSTĠK BÖLÜMÜ | 73 VII. ĠSTATĠSTĠK GÜNLERĠ SEMPOZYUMU BĠLDĠRĠLER KĠTABI 2010 Tablo 3. Normal(0,1) dağılımı altında SKÖ tasarımlarından elde edilen tahmin edicinin sapma ve GE değeri n=3 Örnek çapı Tasarımlar n=4 n=5 n=6 n=10 n=11 SAPMA GE SAPMA GE SAPMA GE SAPMA GE SAPMA GE SAPMA GE USKÖ 0,00 1,00 0,00 0,86 0,00 0,87 0,00 0,76 0,00 0,60 0,00 0,61 MSKÖ 0,00 1,16 0,00 1,18 0,00 1,27 0,00 1,28 0,00 1,37 0,00 1,42 LSKÖ(k=1) 0,00 1,16 0,00 1,17 0,00 1,18 0,00 1,17 0,00 1,14 0,00 1,15 LSKÖ(k=2) - - - - 0,00 1,28 0,00 1,26 0,00 1,24 0,00 1,24 LSKÖ(k=3) - - - - - - - - 0,00 1,32 0,00 1,33 YSKÖ(p=0,20) 0,00 1,00 0,00 0,86 0,00 0,87 0,00 0,75 0,00 0,97 0,00 0,97 YSKÖ(p=0,40) 0,00 1,16 0,00 1,18 0,00 1,19 0,00 1,28 0,00 1,31 0,00 1,38 Tablo 4. Tekdüze(0,1) dağılımı altında SKÖ tasarımlarından elde edilen tahmin edicinin sapma ve GE değeri n=3 Örnek çapı Tasarımlar n=4 SAPMA GE n=5 SAPMA GE n=6 SAPMA GE n=10 SAPMA GE n=11 SAPMA GE SAPMA GE USKÖ 0,00 1,00 0,00 1,24 0,00 1,21 0,00 1,56 0,00 2,18 0,00 1,97 MSKÖ 0,00 0,83 0,00 0,82 0,00 0,78 0,00 0,78 0,00 0,72 0,00 0,72 LSKÖ(k=1) 0,00 0,84 0,00 0,83 0,00 0,87 0,00 0,89 0,00 0,93 0,00 0,94 LSKÖ(k=2) - - - - 0,00 0,78 0,00 0,78 0,00 0,84 0,00 0,87 LSKÖ(k=3) - - - - - - - - 0,00 0,77 0,00 0,79 YSKÖ(p=0,20) 0,00 1,00 0,00 1,24 0,00 1,21 0,00 1,56 0,00 1,21 0,00 1,22 YSKÖ(p=0,40) 0,00 0,84 0,00 0,82 0,00 0,86 0,00 0,78 0,00 0,78 0,00 0,74 ORTA DOĞU TEKNĠK ÜNĠVERSĠTESĠ, FEN-EDEBĠYAT FAKÜLTESĠ, ĠSTATĠSTĠK BÖLÜMÜ | 74 VII. ĠSTATĠSTĠK GÜNLERĠ SEMPOZYUMU BĠLDĠRĠLER KĠTABI 2010 Tablo 5. Laplace (0,0.5) dağılımı altında SKÖ tasarımlarından elde edilen tahmin edicinin sapma ve GE değeri Örnek çapı n=3 n=4 n=5 n=6 n=10 n=11 SAPMA GE SAPMA GE SAPMA GE SAPMA GE Tasarımlar SAPMA GE SAPMA GE USKÖ 0,00 1,01 0,00 0,69 0,00 0,69 0,00 0,52 0,00 0,36 0,00 0,36 MSKÖ 0,00 1,83 0,00 1,91 0,00 2,45 0,00 2,55 0,00 3,44 0,00 3,74 LSKÖ(k=1) 0,00 1,82 0,00 1,90 0,00 1,82 0,00 1,76 0,00 1,57 0,00 1,53 LSKÖ(k=2) - - - - 0,00 2,41 0,00 2,55 0,00 2,16 0,00 2,10 LSKÖ(k=3) - - - - - - - 0,00 2,86 0,00 2,75 - YSKÖ(p=0,20) 0,00 1,00 0,00 0,68 0,00 0,69 0,00 0,52 0,00 1,02 0,00 0,99 YSKÖ(p=0,40) 0,00 1,82 0,00 1,90 0,00 1,83 0,00 2,54 0,00 2,74 0,00 3,40 Tablo 6.Üstel(1) dağılımı altında SKÖ tasarımlarından elde edilen tahmin edicinin sapma ve GE değeri Örnek çapı n=3 Tasarımlar n=4 SAPMA GE SAPMA GE n=5 n=6 n=10 n=11 SAPMA GE SAPMA GE SAPMA GE SAPMA GE USKÖ 0,00 1,00 0,16 0,63 0,15 0,61 0,31 0,31 0,51 0,09 0,48 0,08 MSKÖ 0,17 1,35 0,17 1,29 0,21 1,03 0,22 0,88 0,25 0,39 0,26 0,32 LSKÖ(k=1) 0,17 1,35 0,17 1,29 0,15 1,20 0,13 1,15 0,09 1,07 0,08 1,07 LSKÖ(k=2) - - - - 0,22 1,02 0,22 0,88 0,16 0,71 0,15 0,69 LSKÖ(k=3) - - - - - - - - 0,22 0,48 0,21 0,46 YSKÖ(p=0,20) 0,00 1,00 0,17 0,62 0,15 0,61 0,31 0,31 0,07 0,87 0,07 0,83 YSKÖ(p=0,40) 0,17 1,35 0,17 1,29 0,15 1,19 0,22 0,88 0,21 0,51 0,25 0,35 ORTA DOĞU TEKNĠK ÜNĠVERSĠTESĠ, FEN-EDEBĠYAT FAKÜLTESĠ, ĠSTATĠSTĠK BÖLÜMÜ | 75 VII. ĠSTATĠSTĠK GÜNLERĠ SEMPOZYUMU BĠLDĠRĠLER KĠTABI 2010 Tablo 7. Beta(2,9) dağılımı altında SKÖ tasarımlarından elde edilen tahmin edicinin sapma ve GE değeri Örnek çapı n=3 Tasarımlar n=4 SAPMA GE SAPMA GE n=5 n=6 n=10 n=11 SAPMA GE SAPMA GE SAPMA GE SAPMA GE USKÖ 0,00 1,00 0,01 0,81 0,01 0,80 0,02 0,53 0,03 0,19 0,03 0,18 MSKÖ 0,01 1,11 0,01 1,10 0,01 1,03 0,01 0,96 0,02 0,60 0,02 0,52 LSKÖ(k=1) 0,01 1,12 0,01 1,11 0,01 1,07 0,01 1,05 0,01 1,02 0,00 1,01 LSKÖ(k=2) - - - - 0,01 1,02 0,01 0,96 0,01 0,86 0,01 0,85 LSKÖ(k=3) - - - - - - - - 0,01 0,69 0,01 0,67 YSKÖ(p=0,20) 0,00 1,00 0,01 0,81 0,01 0,80 0,02 0,53 0,00 0,88 0,00 0,87 YSKÖ(p=0,40) 0,01 1,11 0,01 1,09 0,01 1,07 0,01 0,96 0,01 0,72 0,02 0,56 Tablo 8.Beta(9,2) dağılımı altında SKÖ tasarımlarından elde edilen tahmin edicinin sapma ve GE değeri Örnek çapı n=3 Tasarımlar n=4 SAPMA GE SAPMA GE n=5 n=6 n=10 n=11 SAPMA GE SAPMA GE SAPMA GE SAPMA GE USKÖ 0,00 1,00 0,01 0,80 0,01 0,80 0,02 0,53 0,03 0,19 0,03 0,18 MSKÖ 0,01 1,12 0,01 1,10 0,01 1,03 0,01 0,96 0,02 0,61 0,02 0,52 LSKÖ(k=1) 0,01 1,12 0,01 1,09 0,01 1,07 0,01 1,06 0,01 1,03 0,00 1,01 LSKÖ(k=2) - - - - 0,01 1,03 0,01 0,96 0,01 0,86 0,01 0,84 LSKÖ(k=3) - - - - - - - - 0,01 0,70 0,01 0,67 YSKÖ(p=0,20) 0,00 1,01 0,01 0,80 0,01 0,80 0,02 0,53 0,00 0,89 0,00 0,86 YSKÖ(p=0,40) 0,01 1,11 0,01 1,10 0,01 1,07 0,01 0,96 0,01 0,72 0,02 0,56 ORTA DOĞU TEKNĠK ÜNĠVERSĠTESĠ, FEN-EDEBĠYAT FAKÜLTESĠ, ĠSTATĠSTĠK BÖLÜMÜ | 76 VII. ĠSTATĠSTĠK GÜNLERĠ SEMPOZYUMU BĠLDĠRĠLER KĠTABI 2010 Tablo 9. Log-normal(0,1) dağılımı altında SKÖ tasarımlarından elde edilen tahmin edicinin sapma ve GE değeri Örnek çapı n=3 Tasarımlar n=4 SAPMA GE SAPMA GE n=5 n=6 n=10 n=11 SAPMA GE SAPMA GE SAPMA GE SAPMA GE USKÖ 0,00 1,01 0,39 0,52 0,36 0,49 0,74 0,27 1,29 0,09 1,22 0,09 MSKÖ 0,40 2,57 0,40 2,33 0,49 1,71 0,50 1,48 0,56 0,67 0,58 0,56 LSKÖ(k=1) 0,39 2,59 0,40 2,35 0,36 2,03 0,33 1,99 0,24 1,75 0,23 1,72 LSKÖ(k=2) - - - - 0,50 1,71 0,49 1,49 0,40 1,15 0,38 1,12 LSKÖ(k=3) - - - - - - - - 0,50 0,81 0,48 0,77 YSKÖ(p=0,20) 0,00 0,99 0,40 0,51 0,37 0,49 0,74 0,27 0,07 1,72 0,08 1,63 YSKÖ(p=0,40) 0,40 2,59 0,40 2,34 0,37 2,01 0,49 1,49 0,49 0,85 0,55 0,61 Tablo 3-9 incelendiğinde, sapma değerleri bakımından USKÖ, MSKÖ, YSKÖ ve LSKÖ tasarımlarından elde edilen X tahmin edicisinin simetrik dağılımlar altında sapmasız iken, simetrik olmayan dağılımlar altında sapmalı olduğu görülmektedir. Tablo 3-9 dan görüldüğü gibi, incelenen simetrik tek modlu dağılımlarda GE değeri en yüksek olan tasarım MSKÖ tasarımıdır. YSKÖ (p=0.40) ve LSKÖ (k=1) tasarımları da en az MSKÖ tasarımı kadar etkindir. Simetrik tek modlu dağılımlar altında LSKÖ tasarımında k arttıkça etkinlik artmaktadır. Bu çalıĢmada incelenen simetrik tek modlu dağılımlar altında MSKÖ tasarımının en yüksek GE değerine sahip olduğu dağılım Laplace (0,0.5) dağılımdır. Laplace (0,0.5) dağılımı incelenen simetrik tek modlu dağılımlar içinde basıklık katsayısı en yüksek olan dağılımdır. Simetrik tek modlu olmayan Tekdüze(0,1) dağılımında ise en etkili tasarım USKÖ‟ dür. Simetrik olmayan dağılımlar altında ise, en etkili tasarımın LSKÖ(k=1) tasarımı olduğu görülmektedir. Simetrik olmayan dağılımlar altında LSKÖ tasarımında k arttıkça etkinlik azalmaktadır. Ayrıca n=3,4 ve 5 değerleri için YSKÖ (p=0.40) ve MSKÖ tasarımlarının da etkin olduğu söylenebilir. Bu çalıĢmada incelenen simetrik olmayan dağılımlar altında LSKÖ(k=1) ORTA DOĞU TEKNĠK ÜNĠVERSĠTESĠ, FEN-EDEBĠYAT FAKÜLTESĠ, ĠSTATĠSTĠK BÖLÜMÜ | 77 VII. ĠSTATĠSTĠK GÜNLERĠ SEMPOZYUMU BĠLDĠRĠLER KĠTABI 2010 tasarımının en yüksek GE değerine sahip olduğu dağılım Log-normal(0,1) dağılımdır. Lognormal(0,1) dağılımı incelenen simetrik olmayan dağılımlar içinde basıklık katsayısı en yüksek olan dağılımlardır. Dolayısıyla basıklık katsayısının GE değerini etkilediği ve basıklık katsayısı yüksek olan dağılımlarda etkinliğin arttığı söylenebilir. Simetrik olmayan dağılımlardan Beta(9,2) ve Beta(2,9) dağılımları sırasıyla sağa ve sola çarpık dağılımlar olduğundan basıklık katsayıları aynı, çarpıklık katsayıları ise mutlak değerce birbirinin aynısıdır. GE değerlerine bakıldığında ise sonuçların birbirine çok yakın olduğu görülmektedir. Buradan da dağılımın çarpıklığının GE değeri üzerinde etkili olmadığı söylenebilir. Sonuç olarak, LSKÖ tasarımı özellikle simetrik olmayan dağılımlar altında, sapmalı bir tahmin edici vermesine rağmen örnek çapı arttıkça SKÖ‟ ye göre daha etkin bir tahmin edici elde edilmesine imkan vermektedir. Ayrıca simetrik tek modlu dağılımlar altında k arttıkça, simetrik olmayan dağılımlarda ise k azaldıkça GE artmaktadır. KAYNAKLAR Al-Nasser, A. D. (2007). “L-Ranked Set Sampling: A generalization procedure for robust visual sampling” . Communications in Statistics-Simulation and computation 36, 33–43. Al-Saleh, M. F., and Al Kadiri, M. A:(2000). “Double ranked set sampling”, Statistics & Probability Letters, 48: 205-212. Al-Saleh M. F. and Al-Omari, A.I. (2002) “Multistage ranked set sampling”, Journal of Statistical Planning And Inference, 102: 273-286. Bhoj, D.S. (2000) “New ranked set sampling for one-parameter family of distributions”, Biometrical Journal, 42:647-658. Jemain, A. A. and Al-Omari A. I. (2007) “Multisatge quartile ranked set samples”, Pak. J.Statist., 23(1): 11-22 . Li, D., Sinha, B.K. and Perron,F. (1999). “Random selection in ranked set sampling and its applications”, Journal of Statistical Planning and Inference,76:185-201. Mclntyre, G.A. (1952). “A metod of unbiased selective sampling using ranked sets”. Australian Journal of Agricultural Research,3. 385–390. ORTA DOĞU TEKNĠK ÜNĠVERSĠTESĠ, FEN-EDEBĠYAT FAKÜLTESĠ, ĠSTATĠSTĠK BÖLÜMÜ | 78 VII. ĠSTATĠSTĠK GÜNLERĠ SEMPOZYUMU BĠLDĠRĠLER KĠTABI 2010 Muttlak,H.A. (1997). “Median ranked set sampling.”. Applied Statistical Science, 6(4), 245–255. Muttlak, H.A. (2003). “Modified ranked set sampling”. Pakistan Journal of Statistics 19.3(4):315–323. Muttlak,H. A., and Abu-Dayyeh,W. (2004). “Weighted modified ranked set sampling methods”, Applied Mathematics and Computation, 151: 645-657. Samawi, H. , Abu-Dayyeh, W.,Ahmed,M. S. (1996). “Estimating the population mean using extreme ranked set sampling”. Biometrical Journal 38: 577–586. ORTA DOĞU TEKNĠK ÜNĠVERSĠTESĠ, FEN-EDEBĠYAT FAKÜLTESĠ, ĠSTATĠSTĠK BÖLÜMÜ | 79 VII. ĠSTATĠSTĠK GÜNLERĠ SEMPOZYUMU BĠLDĠRĠLER KĠTABI 2010 ÖLÇÜM YETERLĠLĠK PARAMETRELERĠNĠN TAHMĠN EDĠCĠLERĠ VE GÜVEN ARALIKLARI Ümit YAMAN Yunus AKDOĞAN** Ahmet PEKGÖR*** CoĢkun KUġ**** ÖZET Bu çalıĢmada, rasgele ve karma etkili modellerde ölçüm yeterlilik parametrelerinin tahmin edicileri ve güven aralıkları Selçuk Stat programına monte edilmiĢtir. Ayrıca Selçuk Stat yazılımının çıktıları, Dolezal, Burdick ve Birch (1998) in sonuçları ile karĢılaĢtırılmıĢtır. Anahtar kelimeler: Güven aralıkları, ölçüm yeterlilik parametreleri, tekraredilebilirlik, tekrarüretilebilirlik, varyans analizi modelleri. ESTIMATORS AND CONFIDENCE INTERVALS FOR MEASUREMENT CAPABILITY PARAMETERS ABSTRACT In this study, the estimators and confidence intervals of measurement capability parameters are assembled to Selçuk Stat software under random and mixed effects models. Also outputs of Selçuk Stat are compared with results of Dolezal, Burdick and Birch (1998). Keywords: Analysis of variance models, confidence interval, measurement capability parameters, repeatability, reproducibility. GĠRĠġ Ölçüm değiĢkenliğinin tespit edilmesi ürün ve süreç değiĢkenliğini doğru bir biçimde gözlemlemek için gereklidir. Tekraredilebilirlik, operatörlerin ürünleri tekrar tekrar ölçtüğünde hemen hemen aynı değerde ölçebilme kabiliyetini, Terkrarüretilebilirlik, operatörlerin birbiriyle uyum kabiliyetini göstermek üzere Tekraredilebilirlik ve Terkrarüretilebilirlik (Repeatability&Reproducibility, R&R) diğer bir deyiĢle ölçüm (Gauge, gage) analizi, ölçüm prosedürünün yeterli olup olmadığını belirlemek için kullanılır. Ölçüm prosedürü ile ilgili değiĢim kaynakları, varyans analizi (Analysis of Variance, ANOVA) kullanılarak tespit edilebilir. R&R analizinde genel olarak kullanılan ANOVA modeli, operatör ve parça olmak üzere iki faktörden(etken) oluĢur. R&R analizinden önce operatörler ürünleri tekrar tekrar ölçerler. Genellikle operatörler, operatörler kitlesinden rasgele seçildiği varsayıldığından ANOVA modelindeki faktörler rasgele faktör (random effect) olarak ele alınır. Ne var ki süreç * Öğrenci, Selçuk Üniversitesi, Fen Fakültesi, Ġstatistik Bölümü, 42031 Konya, yamanad@mynet.com ** ArĢ.Gör., Selçuk Üniversitesi, Fen Fakültesi, Ġstatistik Bölümü, , 42031 Konya, yakdogan@selcuk.edu.tr ***Öğr.Gör.Dr, Selçuk Üniversitesi, Fen Fakültesi, Ġstatistik Bölümü, 42031 Konya, pekgor@selcuk.edu.tr ****Doç.Dr., Selçuk Üniversitesi, Fen Fakültesi, Ġstatistik Bölümü, 42031 Konya, coskun@selcuk.edu.tr ORTA DOĞU TEKNĠK ÜNĠVERSĠTESĠ, FEN-EDEBĠYAT FAKÜLTESĠ, ĠSTATĠSTĠK BÖLÜMÜ | 80 VII. ĠSTATĠSTĠK GÜNLERĠ SEMPOZYUMU BĠLDĠRĠLER KĠTABI 2010 çıktısı ürünleri ölçen operatörler özel seçimli (fix) faktör de olabilir. Örneğin bir fabrikadaki üretilen parçaları ölçmek için önceden istihdam edilmiĢ üç operatöründe ölçüm yapması durumunda operatör faktörü özel seçimli olarak ele alınmalıdır. Ölçüm prosesinin yeterli olup olmadığını tespit etmek için Tekraredilebilirlik ve Terkrarüretilebilirlik dıĢında kullanılan parametrelerden bazıları PTR(Precision-to-Tolerance Ratio), (Burdick, Borror ve Montgomery, 2003), SNR(Signal-to-Noise Ratio), (AIAG, 1995, Sayfa 32) ve DR(Discriminant Ratio), (Mader ve ark, 1999 ve Wheeler, 1992) olarak sıralanabilir. Minitab 15 ve NCSS 2007 yazılımları, R&R analizini uygulayabilmektedirler. Minitab 15, R&R analizi için operatörlerin ve parçaların rasgele faktör olarak ele alındığı ANOVA modelini kullanılmasına karĢın operatörlerin sabit olarak ele alınması durumunda karma model kullanılması için bir seçenek bulunmamaktadır. Minitab 15 yazılımı, ölçüm değiĢkenlik parametrelerinin tahmin değerlerini verirken, güven aralıklarını vermemektedir. Ayrıca yukarıda bahsedilen PTR, SNR ve DR parametrelerinin güven aralıkları Minitab 15 yazılımında hesaplanmamaktadır. NCSS 2007 yazılımında yukarıda bahsedilen güven aralıkları verilmektedir. Bu çalıĢmada, ölçüm sistemleri analizinde kullanılan ölçüm yeterlilik parametreleri ve bu parametrelerin tahmin edicileri ve güven aralıkları tanıtılmıĢtır. Ayrıca Selçuk Stat paket programına bu tahmin ediciler ve güven aralıkları eklenmiĢ olup Minitab 15 ve NCSS 2007 Yazılımlarına karĢı üstünlükleri tartıĢılmıĢtır. ÖLÇÜM SĠSTEMLERĠ ANALĠZĠ Tekraredilebilirlik ve Tekrarüretilebilirlik (Repeatability &Reproducibility, R&R) diğer bir deyiĢle ölçüm (Gauge, gage) analizi ölçüm prosedürünün yeterliliğini belirlemek için kullanılır. Tekraredilebilirlik, ölçüm aletinden kaynaklanan değiĢimi, tekrarüretilebilirlik, operatörlerin ölçme yönteminden kaynaklanan değiĢimi temsil eder. Ölçüm prosedürü ile ilgili değiĢim kaynaklarını elde etmek için iki yöntem kullanılır: Bunlardan ilki, uygun varyans bileĢenlerinin tahmin değerinin kullanılmasıyla ANOVA yaklaĢımı, diğeri de ölçüm değiĢkenliğinin bileĢenlerinin standart sapmalarının tahmin için geniĢlik metoduna dayalı çizelge algoritmadır. Bu çalıĢmada, ANOVA yöntemi ele alınacaktır. R&R analizinde genel olarak kullanılan ANOVA modeli, operatör ve parça olmak üzere iki faktörden oluĢur. Genellikle operatörler, operatörler kitlesinden rasgele seçildiği varsayıldığından ANOVA modelinde rasgele faktör (random effect) olarak ele alınır. Operatörler özel seçimli faktör olabilir. Örneğin bir fabrikadaki üretilen parçaları ölçmek için önceden istihdam edilmiĢ üç operatöründe ölçüm yapması durumunda operatör faktörü özel seçimli olarak düĢünülmelidir. Bu durumda ölçüm sistemleri çalıĢmasında karma (mixed effect) model ele alınmalıdır. P , parça faktörü, O , operatör faktörü, PO , etkileĢim faktörü ve hata terimi olmak üzere R&R analizi için ANOVA modeli Yijk Pi O j PO ij ijk , i = 1,2,..., p, j = 1,2,...,o k = 1,2,...,r ORTA DOĞU TEKNĠK ÜNĠVERSĠTESĠ, FEN-EDEBĠYAT FAKÜLTESĠ, ĠSTATĠSTĠK BÖLÜMÜ (1) | 81 VII. ĠSTATĠSTĠK GÜNLERĠ SEMPOZYUMU BĠLDĠRĠLER KĠTABI 2010 Ģeklinde verilir. Burada p , parça sayısı, o , operatör sayısı ve r , tekrar sayısıdır. Operatör faktörünün rasgele veya özel seçimli olduğu durumlara göre (1) modeli rasgele etkili model veya karma etkili model adını almaktadır. Tablo 1 ve Tablo 2 de Rasgele ve Karma model için ANOVA tabloları verilmiĢtir. Tablo 1. Rasgele etkili ANOVA modeli için ANOVA Tablosu DeğiĢim Kaynağı Serbestlik D. Parça P Operatör O Parça Op. Tekraredilebilirlik P O p 1 o 1 p 1 o 1 po r 1 H.K.0. S P2 S 2 O 2 S PO S E2 F Ġstatist. Beklenen Kareler Ort. 2 P 2 r PO or P2 2 O 2 r PO pr O2 2 PO 2 r PO E 2 FP = KTP / KTPO FO = KTO / KTPO FPO = KTPO / KTE Tablo 2. Karma Etkili ANOVA modeli için ANOVA Tablosu DeğiĢim Kaynağı Parça P Operatör O Parça Op. P O Tekraredilebilirlik Serbestlik D. p 1 o 1 p 1 o 1 po r 1 H.K.0. F Ġstatist. Beklenen Kareler Ort. 2 S PO P = or +r + 1 o 2 2 O =pr O j + r PO + 2 o - 1 j=1 2 PO =r PO + 2 S E2 E 2 S 2 P SO2 2 P 2 PO 2 E FP = KTP / KTPO FO = KTO / KTPO FPO = KTPO / KTE Ölçüm sistemleri analizi ile ilgili ayrıntılı bilgi için (AIAG, 1995, 2002), Horrell (1991) ve Croarkin (2002) kaynaklarına bakılabilir. BAZI ÖLÇÜM YETERLĠLĠK PARAMETRELERĠ VE TAHMĠN EDĠCĠLERĠ Ölçüm R&R analizinin (Gauge R&R) amacı, ölçüm sisteminin değiĢkenliğinin ölçülen parçanın değiĢkenliğine göre daha az olup olamadığını belirlemektir. Literatürde ölçüm sistemleri çalıĢmasında adı geçen birçok parametre ve bu parametrelerin fonksiyonlarından elde edilmiĢ parametreler vardır. Bu parametreler süreç ve ölçüm sistemi değiĢkenliği hakkında bilgi vermektedir. Rasgele etkili ANOVA modeli kullanılarak yapılan R&R analizinde tekrarüretilebilirlik, sırasıyla, 1 2 ve tekraredilebilirlik ve 2 2 O2 PO Ģeklinde tanımlanır. Bu durumda toplam ölçüm 2 M 1 2 O2 PO 2 ORTA DOĞU TEKNĠK ÜNĠVERSĠTESĠ, FEN-EDEBĠYAT FAKÜLTESĠ, ĠSTATĠSTĠK BÖLÜMÜ | 82 VII. ĠSTATĠSTĠK GÜNLERĠ SEMPOZYUMU BĠLDĠRĠLER KĠTABI 2010 2 ve toplam süreç varyansı T P M P2 O2 PO 2 biçiminde tanımlanır. Karma ANOVA modeli ele alındığında yukarıdaki verilen tanımlarda O2 yerine 1 o 2 Oj o 1 j=1 alınmalıdır.PTR(Precision-to-Tolerance Ratio) parametresi, PTR k M %100 USL LSL Ģeklinde tanımlanır. Burada USL , üst spefikasyon limiti, LSL , alt spefikasyon limitidir. Ayrıca k 5.15 veya k 6 olarak alınır. Selçuk Stat k 5.15 değerini ele almaktadır. Bu değerler normal dağılım için sırasıyla kitlenin en az %99 unu barındıran %95 lik tolerans aralığı sınırları arasındaki mesafe ve doğal tolerans aralığı arasındaki mesafedir. PTR parametresinin yorumlanmasında faklı görüĢler vardır. Montgomery ve Runger (1993a) ölçüm sisteminin yeterli olduğunu söyleyebilmek için PTR parametresinin %10 dan az olması gerektiğini vurgulamıĢlardır. Bu öneri, AIAG Ölçüm Sistemleri Analizi El Kitabı (1995, sayfa 60) nın önerisi ile tutarlıdır. Mader, Prins ve Lambe (1999), Wheeler ve Lyday (1989) ı referans vererek PTR parametresi %20 den fazla olduğu durumda ölçüm sisteminin yetersiz olduğunu ileri sürmüĢlerdir. Son olarak Barrentine (1991, sayfa 10) PTR parametresi %30 dan fazla olduğu durumda ölçüm sisteminin yetersiz olduğunu söylemiĢtir. Bazı özel durumlarda Montgomery and Runger (1993a) ve Mader (1999) PTR parametresinin ölçüm yeterliliği konusunda iyi bir katsayı olamayacağını vurgulamıĢlardır. Örneğin yüksek yeterliliğe sahip teknoloji, ölçüm sisteminden kaynaklanan değiĢkenliği tolere edebilir. Parça hatasının, toplam ölçüm varyansına oranı P2 / M Ģeklinde tanımlanır. Ölçüm prosedürünün yeterliliği hakkında bilgi vermesi bakımından R&R analizinde parametresinin önemli bir yeri vardır. Parça hatasının, toplam süreç hatasına oranı P P / T Ģeklinde tanımlanır. Toplam ölçüm hatasının, toplam süreç hatasına oranı M M / T 1 P Ģeklinde tanımlanır. Toplam ölçüm hatasının toplam süreç hatasına göre oranı %10 dan küçükse ölçüm sistemi yeterli %10 ile %30 arasında ise Ģartlı yeterli %30 dan büyükse ölçüm sistemi tekrar gözden geçirilmelidir (Kavi ve Elevli, 2008). (AIAG, 1995, sayfa:32) SNR (Signal-to-Noise Ratio) parametresini veya P parametresine dayalı olarak SNR 2 P / 1 P 2 Ģeklinde tanımlamıĢtır. AIAG (1995) ölçüm sisteminin yeterli olduğunu söyleyebilmek için SNR parametresinin 5 den çok olması gerektiğini söylemiĢtir. Bu parametre kategorilerin farklı seviyelerinin sayısı(the number of distinct levels of categories) olarak da adlandırılır. Not etmek gerekir ki AIAG (1990) ölçüm sisteminin yeterli olduğunu söyleyebilmek için SNR parametresinin 3 den çok olması gerektiğini söylemiĢtir (Dolezal, Burdick, Birch, 1998). Ayrıca burada not etmelidir ki SNR = olarak tanımlanmıĢtır.Minitab SNR yi 2 ve NCSS 2007 SNR yi olarak ele almaktadır. ORTA DOĞU TEKNĠK ÜNĠVERSĠTESĠ, FEN-EDEBĠYAT FAKÜLTESĠ, ĠSTATĠSTĠK BÖLÜMÜ | 83 VII. ĠSTATĠSTĠK GÜNLERĠ SEMPOZYUMU BĠLDĠRĠLER KĠTABI 2010 Bir baĢka parametre Mader, Prins ve Lampe (1999) ve Wheeler (1992) tarafından önerilen ayırma oranıdır (Discriminant Ratio) ve DR 1 P / 1 P Ģeklinde tanımlanır. Mader, Prins ve Lampe (1999), bu oranın dörtten büyük olmasının, ölçüm sisteminin yeterli olduğunu iĢaret ettiğini ileri sürmüĢlerdir. Burada bahsedilen parametrelerin dıĢındaki parametreler için Vardeman ve VanValkenburg (1999), van den Heuvel ve Trip (2002) ve Larsen (2002) e bakılabilir. ÖLÇÜM YETERLĠLĠK PARAMETRELERĠNĠN GÜVEN ARALIKLARI Montgomery ve Runger (1993b), Conors, Merrill ve O‟Donnell (1995), Burdick ve Larsen (1997), Vardeman ve VanValkenburg (1999), Hamada ve Weerahandi (2000) ve Chiang (2001), ölçüm R&R analizinde güven aralıklarının önemini vurgulamıĢlarıdır. SNR parametresinin tahmin değerinin 7 olması, parametrenin gerçek değerinin 7 olması anlamına gelmez. Bu durumda, SNR parametresinin 5 den büyük olması ölçüm sisteminin yeterli olduğunu göstermesi göz önüne alındığında SNR parametresinin tahmin değerinin(7) 5 den büyük olduğundan güvenle ölçüm sistemi yeterlidir denilebilir mi? ĠĢte tam bu noktada güven aralığı kavramı önemi ortaya çıkmaktadır. SNR parametresinin %95 lik güven aralığının alt sınırı 5 den büyük olduğunda %95 güven seviyesinde ölçüm sistemi yeterli denilebilir. Selçuk Stat‟da P M ve SNR2 katsayıları ve güven aralıklarının kodları Leiva ve Graybill (1986) nın metoduna dayalı Chiang (2002) nin sonuçlarına göre yazılmıĢtır. Ġlgili güven aralıkları için Burdick, Borror ve Montgomery (2003) sayfa 346-346‟ye bakılabilir. Selçuk Stat yazılımı rasgele model durumunda P , O , 1 , 2 , M , T , , SNR1, PTR parametrelerinin güven aralıkları için Burdick ve Larsen (1997) in sonuçlarını kullanmaktadır. Yine rasgele modelde M , P ve SNR2 parametrelerinin güven aralıkları için Chiang (2002) in sonuçlarını kullanmaktadır. Karma model durumunda ise P , O , 1 , 2 , M , T , , SNR1 parametrelerinin güven aralıkları için Dolezal, Burdick, Birch (1998) in sonuçlarını kullanmaktadır. AĢağıda Dolezal, Burdick ve Birch (1998) in kullandığı verilere dayalı kareler ortalamalarının girilmesiyle elde edilen ölçüm yeterlilik analizi verilmiĢtir. Burada veri bölgesi kısmına gerçek ölçümler girilmemiĢtir. ġekil 1 de Dolezal, Burdick ve Birch (1998) sayfa 166 daki kareler ortalamaları girilmiĢtir ve operatör ve parça rasgele faktör olarak ele alınmıĢtır. Verilerin orijinal haline ulaĢılamadığından analiz kareler ortalamaları girilerek yapılmıĢtır. ġekil 1. Selçuk Stat Ölçüm Yeterlilik Analizi Ara Yüzeyi Selçuk Stat Program çıktısı ġekil 2 de verilmiĢtir. Varyans Analiz Tablosunda, Kareler Toplamı (K.T.) sütunu ham verilerin yerine “1” yazılmasından dolayı “0” yazılmıĢtır. Varyans BileĢenleri Tablosunda, tekraredilebilirlik, tekrarüretilebilirlik ve toplam ölçüm varyansı, operatör varyansı, ORTA DOĞU TEKNĠK ÜNĠVERSĠTESĠ, FEN-EDEBĠYAT FAKÜLTESĠ, ĠSTATĠSTĠK BÖLÜMÜ | 84 VII. ĠSTATĠSTĠK GÜNLERĠ SEMPOZYUMU BĠLDĠRĠLER KĠTABI 2010 parça varyansı ve toplam süreç varyansı parametrelerinin tahmini ve %95 lik güven aralıkları verilmiĢtir. Ölçüm yeterlilik parametreleri kısmında ise SNR, PTR ve DR parametrelerinin tahmini ve %95 lik güven aralıkları verilmiĢtir. Burada M ve P nin tahmin ve güven aralıkların verilmesinin sebebi SNR1, SNR2 ve DR tahmin ve güven aralıklarının bu değerlere bağlı olmasıdır. SNR1 tahmin değeri 1.861 iken %95 lik güven aralığı 0.475 ile 2.940 arasıdır. SNR1 değerinin 5‟den az olması, ölçüm sisteminin yetersiz olduğunu gösterdiği göz önüne alındığında SNR1 in tahminin 1.861 olması ilk bakıĢta ölçüm sisteminin yeterli olmadığını göstermektedir. Diğer taraftan % 95 lik güven aralığının tüm değerleri 5‟den küçük olduğundan ölçüm sisteminin yeterli olmadığı %95 güven ile söylenebilir. PTR alt ve üst tolerans değerleri girilmediğinden ġekil 2‟ de verilen çıktıda yer almamıĢtır. ġekil 2. Dolezal, Burdick ve Birch (1998) Sayfa 166 da Verilen Kareler Ortalamaları için Selçuk Stat Çıktısı Tablo 3. Dolezal, Burdick ve Birch (1998) in Verdiği Parametre ve Ġlgili Güven Aralıkları Ölçüm varyansları Rasgele model güven aralığı O2 1 2 (0.011, 1.831) (0.012, 1.837) (0.089, 1.912) (0.113, 4.323) Tablo 3, Dolezal, Burdick ve Birch (1998)‟nin sayfa 167‟de verdiği parametre ve güven aralıklarını göstermektedir. Tablo 3‟teki sonuçlar ile ġekil 2‟de verilen Selçuk Stat çıktısı ile tutarlı olduğu gözükmektedir. ORTA DOĞU TEKNĠK ÜNĠVERSĠTESĠ, FEN-EDEBĠYAT FAKÜLTESĠ, ĠSTATĠSTĠK BÖLÜMÜ | 85 VII. ĠSTATĠSTĠK GÜNLERĠ SEMPOZYUMU BĠLDĠRĠLER KĠTABI 2010 Karma Model Durumu AĢağıda Dolezal, Burdick ve Birch (1998)‟in kullandığı verilere dayalı kareler ortalamalarının girilmesiyle elde edilen ölçüm yeterlilik analizi verilmiĢtir. Burada veri bölgesi kısmına gerçek ölçümler girilmemiĢtir. ġekil 3 de Dolezal, Burdick ve Birch (1998) sayfa 166 daki kareler ortalamaları (Bkz. Makalede Tablo 3‟teki kareler ortalamaları) girilmiĢtir ve operatör özel seçimli ve parça rasgele seçimli faktör olarak ele alınmıĢtır. Tablo 4. Dolezal, Burdick ve Birch (1998) in verdiği parametre ve ilgili güven aralıkları Ölçüm varyansları Karma model güven aralığı 1 2 (0.027, 0.086) 2 O (0.027, 0.097) (0.103, 0.175) (0.861, 4.058) Tablo 4, Dolezal, Burdick ve Birch (1998)‟nin sayfa 167‟de verdiği parametre ve güven aralıklarını göstermektedir. Tablo 4‟teki değerler ile ġekil 3‟teki Selçuk Stat çıktısı ile tutarlı olduğu gözükmektedir. ġekil 3. Selçuk Stat Ölçüm Yeterlilik Analizi Ara Yüzeyi ġekil 4. Dolezal, Burdick ve Birch (1998) sayfa 166 da verilen kareler ortalamaları için Selçuk Stat Çıktısı ORTA DOĞU TEKNĠK ÜNĠVERSĠTESĠ, FEN-EDEBĠYAT FAKÜLTESĠ, ĠSTATĠSTĠK BÖLÜMÜ | 86 VII. ĠSTATĠSTĠK GÜNLERĠ SEMPOZYUMU BĠLDĠRĠLER KĠTABI 2010 Yukarıda yapılan yorumlar burada da aynı Ģekilde yapılacağından yorum yapılmamıĢtır. Burada vurgulanması gereken husus, Selçuk Stat‟da operatör faktörünün özel seçimli olması durumuyla ilgili analiz yapılabilmesine karĢın, Minitab 15 ve NCSS 2007 de operatör faktörünün özel seçimli olması durumuyla ilgili analiz yapılamamasıdır. SONUÇ Bu çalıĢmada, Minitab 15 ve NCSS 2007 yazılımlarında analizi yapılan Ölçüm R&R analizi, literatürde son çıkan makalelere göre geliĢtirilerek Selçuk Stat yazılımına monte edilmiĢtir. Selçuk Stat Analiz sonuçları Minitab 15, NCSS 2007 ve ilgili makalelerdeki sonuçlar karĢılaĢtırılmıĢ ve Selçuk Stat analiz sonuçlarının doğruluğu kontrol edilmiĢtir. Minitab 15 sadece parametrelerin tahmin değerlerini verirken, Selçuk Stat, NCSS 2007 gibi ölçüm yeterlilik parametrelerinin güven aralıklarını da vermektedir. Ayrıca, Minitab 15 yazılımı, operatör faktörünün rasgele olması durumunu ele alırken, Selçuk Stat Operatör faktörünün özel seçimli olması durumunu da ele almaktadır. Bu vesile ile Selçuk Stat yazılımı, ölçüm sistemleri analizinde Minitab 15 ve NCSS 2007 ile yarıĢacak düzeye getirilmiĢtir. KAYNAKLAR Automotive Industry Action Group, (1995), Measurement Systems Analysis, 2nd cd. Detrait, MI. Automotive Industry Action Group, (2002), Measurement Systems Analysis, 3rd cd. Detrait, MI. BARRENTINE, L.B., (1991), Concepts for R&R Studies. ASQC Quality Prcss, Milwaukee, WI. BURDICK, R.K., BORROR, C.M., MONTGOMERY, D.C., (2003), A Review of Methods for Measurement Systems Capability Analysis, Journal of Quality Technology, 35, 342-354. BURDICK, R.K., LARSEN, G.A., (1997), Confidence Intervals on Measures of Variability in R&R Studies,Journal of Quality Technology, 29, 261-273. CHIANG, A.K.L., (2001), A simple General Method for Constructing Confidence Intervals for Functions of Variance Components, Technometrics 43, 356-367. CHIANG, A.K.L., (2002), Improved Confidence Intervals for a Ratio in an R&R Study, Communications in Statistics Simulation ve Computation, 31, 329-344. CROARKIN, C., Editor (2002), Gauge R&R Studies, Section 2.4 of the Beta Version of the Nist /Sematech Engineering Statistics Internet Handbook, Located at http://www.itl.nist.gov/div898/handbook/ CONORS, M., MERRILL, K., O‟DONNELL, B., (1995), A Comprehensive Approach to Measurement System Evaluation, ASA Proceedings of the Section on Physical and Engineering Sciences, 136-138. DOLEZAL, K.K., BURDICK, R.K., BIRCH, N.J. (1998), Analysis of a Two-Factor R&R Study With Fixed Operators,Journal of Quality Technology, 30, 163-170. ORTA DOĞU TEKNĠK ÜNĠVERSĠTESĠ, FEN-EDEBĠYAT FAKÜLTESĠ, ĠSTATĠSTĠK BÖLÜMÜ | 87 VII. ĠSTATĠSTĠK GÜNLERĠ SEMPOZYUMU BĠLDĠRĠLER KĠTABI 2010 HAMADA, M., WEERAHANDI, S., (2000), Measurement System Assessment Via Generalized Inference, Journal of Quality Technology 32, 241-253. HORRELL, K., (1991), Introduction to Measurement Capability Analysis, SEMATECH Report 91090709A-ENG. KAVI U., ELEVLI S., (2008), Art-Craft Sofra Camı Üretim ĠĢletmesinde Ölçüm Sistem Analizi Uygulaması, VII. Ulusal Ölçümbilim Kongresi LARSEN, G., (2002), Measurement System Analysis, The Usual Metrics can be Noninformative, Quality Engineering 15, 293 298. LEIVA, R.A., GRAYBILL., F.A., (1986), Confidence Intervals for Variance Components in the Balanced Two-Way Model with Interaction, Communications in Statistics Simulation and Compulation 15, 301-322. MADER, D.P., PRINS, J., LAMPE, R.E., (1999), The Economic Inpact of Measurement Error, Quality Engineering 11, 563-574. MONTGOMERY, D.C., VE RENGER, G.C., (1993a), Gauge Capability and Designed Experiments Part f: Basic Methods, Quality Engineering 6, 115-135. MONTGOMERY, D.C., RUNGER, G.C., (1993b), Gauge Capability Analysis and Designed Experiment, Part II. Experimental Desing Models and Variance Component Estimation, Quality Engincering 6, 289-305. VAN DEN HEUVEL , E.R., Trip., A., (2002), Evaluation of Measurement Systems with a Small Number of Observers, Quality Engincering 15, 323-331. VANDERMAN, S.B., VAN VALKENBURG, E.S., (1999), Two Way Random-Effects Analysis via Gauge R&R Studies, Technometrics 41, 202-211. WHEELER, D.J., (1992), Problems with Gauge R&R Studies, ASQC Quality Congress Transactions, 179-185. WHEELER, D.J., LYDAY, R.W., (1989), Evaluating the Measurement Process. SPC Press, Knoxville, TN. ONDOKUZ MAYIS ÜNĠVERSĠTESĠ TIP FAKÜLTESĠ BEYĠN CERRAHĠSĠ POLĠKLĠNĠĞĠNDE SĠMÜLASYON YARDIMIYLA HASTA BEKLEME SÜRESĠNĠN AZALTILMASI ORTA DOĞU TEKNĠK ÜNĠVERSĠTESĠ, FEN-EDEBĠYAT FAKÜLTESĠ, ĠSTATĠSTĠK BÖLÜMÜ | 88 VII. ĠSTATĠSTĠK GÜNLERĠ SEMPOZYUMU BĠLDĠRĠLER KĠTABI Faruk ALPASLAN* Özge CAĞCAĞ** 2010 Erol EĞRĠOĞLU*** ÖZET Son yıllarda sağlık sektöründe simülasyon uygulamaları ile ilgili çalıĢmalarda artıĢ görülmektedir. Simülasyon yardımıyla, hastane yatak kapasitesi araĢtırmaları, hasta bekleme sürelerinin azaltılması, hastane personel sayısı belirlenmesi, cerrahi malzeme dağıtım süreçleri optimizasyonu gibi problemler çözümlenmektedir. Bu çalıĢmada Ondokuz Mayıs Üniversitesi Tıp Fakültesi Beyin Cerrahisi Bölümünün simülasyonu gerçekleĢtirilerek, resmi muayene doktor sayısının artırılması ve poliklinik çalıĢma saatinin artırılması ile hasta bekleme sürelerinin azaltılması hedeflenmiĢtir. Doktor sayısı ve çalıĢma saatleri üzerine çeĢitli senaryolar üretilerek simülasyon sonuçları elde edilmiĢ ve sonuçlar çeĢitli istatistiksel analizler ile değerlendirilmiĢtir. Anahtar Kelimeler: Benzetim, Kuyruk modeli, Varyans Analizi OPTIMIZATION OF PATIENT WAITING TIME IN ONDOKUZ MAYIS UNIVERSITY DEPARTMENT OF BRAIN SURGERY BY SIMULATION ABSTRACT In recent years, there has been an extensive amount of simulation applied to the healthcare sector. The many problems such as planning and management of bed capacities, decreasing of patient waiting time, determine of personal number, distribution of surgical instruments processing can be solvable by simulation. In this study, Ondokuz Mayis University department of brain surgery is simulated for optimize patient waiting time. In the simulation processing, we increase number of assistant doctorsand working time. We create various scenarios for number of doctors and working time then we obtain results of simulation. Finally, the results of simulation have been evaluated with some statistical analysis methods. Keywords: Simulation, queuing model, analysis of variance. _____________________ * Prof.Dr., Ġstatistik Bölümü, Ondokuz Mayıs Üniversitesi, 55139, Samsun, falpas@omu.edu.tr ** ArĢ.Gör., Ġstatistik Bölümü, Ondokuz Mayıs Üniversitesi, 55139, Samsun, ozgecagcag@yahoo.com *** Doç.Dr., Ġstatistik Bölümü, Ondokuz Mayıs Üniversitesi, 55139, Samsun, erole@omu.edu.tr GĠRĠġ Hizmet sektörü değiĢen dünya Ģartlarına ayak uydurmak için günden güne geliĢme göstermektedir. Bu geliĢim beraberinde planlama ve yönetim alanlarında çeĢitli problemleri ORTA DOĞU TEKNĠK ÜNĠVERSĠTESĠ, FEN-EDEBĠYAT FAKÜLTESĠ, ĠSTATĠSTĠK BÖLÜMÜ | 89 VII. ĠSTATĠSTĠK GÜNLERĠ SEMPOZYUMU BĠLDĠRĠLER KĠTABI 2010 ortaya çıkarmaktadır. Oteller de, market, restoran,fabrika ve hastanelerde verilen hizmetler için geliĢtirilen yöntemler artık literatürde üzerinde çalıĢılan konular arasında yer almaktadır.Bu sektörler arsından üzerinde en fazla çalıĢma yapılan sağlık sektörüdür. Sağlık sektörü üzerinde hızlı değiĢmelerin yaĢandığı bir sektördür. Sağlık sektöründe üzerine birçok çalıĢma yapılmıĢ ve yayınlanmıĢtır. Bu çalıĢmalarda çeĢitli yöntemler kullanılmıĢtır. Ġlk benzetim uygulamaları hastane sistemlerinde modeller oluĢturarak kullanılmıĢtır. Peter ve Thompson (1965) çalıĢmasında Grace-New Haven Community hastanesinin simülayonunu yaparak, hastane yatak ve diğer kaynakların kullanım oranlarını belirlemiĢ ve alternatifler üretmek suretiyle hastanenin yönetim politikalarını oluĢturmaya çalıĢmıĢlardır. Smith ve Solomon (1966) hastane kullanım oranını artırmak için Lexington U.S. Public Health Service hastanesinde hasta geliĢ oranlarının inceleyerek hastaların aylık geliĢ oranlarından elde ettiği istatistiksel dağılıĢlardan yararlanarak yönetim politikaları geliĢtirmeye çalıĢmıĢlardır. Dean (1974) insan kaynakları yönetimiyle ilgilenerek benzetim metodunu kullanarak çalıĢanların, meslek grupları ve becerilerine göre planlamasını ve hasta bekleme süresini kısaltmayı amaçlamıĢtır. Baesler ve Sepulveda (2001) yaptıkları benzetim çalıĢmasında kanser tedavi merkezinde sistemle ilgili dört farklı hedef belirlemiĢ ve kontrol değiĢkenlerinin en uygununu bulan modeli geliĢtirmiĢlerdir. Bu dört hedef için oluĢturulan çözüm seçenekleri karĢılaĢtırılmıĢ ve %18 - %25 düzeyinde bir iyileĢme sağlandığını ortaya koymuĢlardır. Çetinkaya vd. (2004) çalıĢmasında ise bir hastanenin polikliniğinde, iĢ süreçleri yeniden tasarlanarak veznenin kullanımını arttırmak için vezne ile randevu süreçleri birleĢtirilmiĢtir. Ve bu sayede hastanın sistemde kalma süresi azaltılmıĢ ve doktorların hastaları beklerken kaybettikleri boĢa zamanda minimize edilmiĢtir. Kumari (2005) benzetimin hastanede insan kaynaklarının kullanımının optimizasyonu ve cerrahi malzemelerin hastane içinde dağıtım sürecinin daha verimli hale getirilmesine yardımcı olacağını ve diğer benzer süreçler içinde kullanılabileceğini uyguladığı benzetim modeli ile belirtmiĢtir. Çin‟de nüfusun fazla olması bazı hastanelerde uzun süreli bekleme kuyruklarını oluĢmasına neden olduğu sorunu ortaya konmuĢtur. Bunun için Su ve Yao (2006) da var olan bu kuyrukları azaltmak için benzetim modelini kullanarak bir hastanın hastaneye giriĢiyle baĢlayan iĢ akıĢını ve iĢlem sürelerini analiz ederek, bu süreçleri yeniden tasarlayıp farklı yaklaĢımlarla karĢılaĢtırmıĢlardır. Ve elde edilen sonuçlarda ortalama kayıt süresi 17.24 dakikadan 3.15 dakikaya indirilerek optimum kayıt süresi elde edilmiĢtir. Ontario da Ciprıono vd. (2007) çalıĢmasında diz kalça ve protez ameliyatları için hastaların bekleme sürelerinin 6 aydan fazla olduğu ve bu bekleme sürenin hastaları ameliyat sonrası iyileĢmelerini olumsuz etkilediği ortaya konmuĢtur. ÇalıĢmada değiĢken olarak bölgeden gelen hasta oranları ve cerrah sayıları belirlenmiĢtir. Cerrah sayıları %12 arttırıldığında 10 yıl içerisinde bekleme süresini azalacağı, bu azalıĢla beraber her bir bölgedeki cerrahların daha etkin dağıtımı ile bekleme süresinin daha da azalacağı saptanmıĢtır. VanBerkel ve Blake (2007) Kanada Nova Scota‟da Halifax Hastanesi Cerrahi Kliniğinde benzetim modeli kullanılarak ve hasta bekleme sürelerinin analizi yapılarak bölüm performansının yanı sıra yeni kapasite planları geliĢtirilmiĢtir. Oddoye vd. (2007) çalıĢmasında simülasyon modelleri ile bir tıbbi değerlendirme ünitesinin sağlık planını belirlemek için çalıĢma yapılmıĢtır. Bu tıbbi değerlendirme ünitesi gereksiz hasta giriĢlerini ORTA DOĞU TEKNĠK ÜNĠVERSĠTESĠ, FEN-EDEBĠYAT FAKÜLTESĠ, ĠSTATĠSTĠK BÖLÜMÜ | 90 VII. ĠSTATĠSTĠK GÜNLERĠ SEMPOZYUMU BĠLDĠRĠLER KĠTABI 2010 engellemek, hızlı değerlendirme ve hastalara verilen tedavinin kalitesini artırmak için kurulmuĢtur. ONDOKUZ MAYIS ÜNĠVERSĠTESĠ TIP FAKÜLTESĠ BEYĠN CERRAHĠSĠ BÖLÜMÜNÜN SĠMÜLASYONU Doktorların tedavi sırasında harcadığı zaman ile hastaların sisteme geldikleri ve tedavi için bekledikleri zamanın elde edilmesi için Beyin cerrahisi bölümü 30 gün gözlenip bilgi toplanmıĢtır. Toplanan bilgilere görehastaların geliĢleri aĢağıda Tablo 1‟de verildiği gibi görgül dağılımlıdır. Tablo 1. GeliĢler arası sürenin dağılımı Alt Üst Birikimli sınır sınır frekans 2,00 6,42 0,61 6,42 10,85 0,77 10,85 15,28 0,87 15,28 19,71 0,90 19,71 24,14 0,96 24,14 28,57 0,97 28,57 33,00 1 Sisteme gelen hastalar sekreterliğe giriĢini yaptırdıktan sonra sistemde muayene olmak için beklemeye baĢlamaktadırlar. Sistemde 6 tane özel doktor ve 1 tane asistan doktor görev yapmaktadır. Hastalar duruma göre özel yada resmi muayeneyi tercih etmektedirler. Sisteme gelen hastaların %30-u özel muayeneyi %70 ise resmi muayeneyi tercih etmektedirler. Ve bu hastalardan özel muayeneyi tercih edenler %30 oranında 1. Özel doktora ,%30 oranında 2. Özel doktora ve %10 oranında ise diğer 4 doktora muayene olmaktadırlar. Sistemin 30 günlük incelenmesi sonucunda özel doktorlarının tümü için muayene süresinin 15.02 ortalama ve 5.81 standart sapma ile normal dağıldığı, asistan doktorun muayene süresinin ise 10.8 ortalama ve 4.45 standart sapma ile normal dağılım gösterdiği sonucuna ulaĢılmıĢtır. Beyin Cerrahisi Bölümünde özel veya resmi muayeneyi bekleyen hastalar ayrı olarak kuyruk oluĢturmaktadır. Eğer hasta özel muayeneyi tercih etmiĢse, muayene olmak istediği doktorun sırasında kuyruğagirmektedir. Eğer hasta resmi muayeneyi seçtiyse, asistan doktorun sırasında kuyruğa girmektedir. Beyin Cerrahisi Bölümündeki görevli doktorların bir gün içindeki toplam çalıĢma süreleri 6 saat ile sınırlıdır. Beyin cerrahisi bölümünün genel iĢleyiĢi ġekil 1 de verilmiĢtir. ORTA DOĞU TEKNĠK ÜNĠVERSĠTESĠ, FEN-EDEBĠYAT FAKÜLTESĠ, ĠSTATĠSTĠK BÖLÜMÜ | 91 VII. ĠSTATĠSTĠK GÜNLERĠ SEMPOZYUMU BĠLDĠRĠLER KĠTABI 2010 ġekil 1. Beyin Cerrahisi Servisi AkıĢ Diyagramı SĠMÜLASYON SONUÇLARININ ĠSTATĠSTĠKSEL ANALĠZĠ Beyin cerrahisi bölümündeki asistan sayısını artırdığımızda, hastaların sistemde ortalama bekleme sürerli arasında fark olup olmadığı tek yönlü varyans analizi ile test edilmiĢtir. F-testi sonucunda p<0.001 olmaktadır. Beyin cerrahisi bölümündeki asistan doktor sayısının artırılmasının sistemde ortalama bekleme süresinin düĢürdüğü sonucuna varılmaktadır. Çoklu karĢılaĢtırma için Tamhane testi kullanıldığında sistemde 1 asistan, 2 asistan ve 3 asistan doktor olması durumunda hastaların bekleme süresinin anlamlı bir Ģekilde farklılaĢtığı görülmektedir. Beyin cerrahisi bölümünde 1 asistan doktor varken hastaların ortalama bekleme süresi 40 dakika civarında iken, bu süre 2 asistan olduğunda 13 dakikaya ve 3 asistan olması durumunda ise 12 dakikaya düĢmektedir. Beyin cerrahisi bölümündeki asistan sayısını artırdığımızda, hastaların kuyrukta ortalama bekleme sürerli arasında fark olup olmadığı tek yönlü varyans analizi ile test edilmiĢtir. F-testi sonucunda p<0,001 olmaktadır. Beyin cerrahisi bölümündeki asistan doktor sayısının artırılmasının kuyrukta ortalama bekleme süresinin düĢürdüğü sonucuna varılmaktadır. Çoklu karĢılaĢtırma için Tamhane testi kullanıldığında sistemde 1 asistan, 2 asistan ve 3 asistan doktor olması durumunda hastaların bekleme süresinin anlamlı bir Ģekilde farklılaĢtığı görülmektedir. 1 asistan doktor varken hastaların kuyrukta ortalama bekleme süresi 28 dakika civarında iken, bu süre 2 asistan olduğunda 1,5 dakikaya ve 3 asistan olması durumunda ise 0,4 dakikaya düĢmektedir. Beyin cerrahisi bölümündeki asistan sayısını artırdığımızda, birinci asistanın ortalama boĢ kalma süreleri arasında fark olup olmadığı tek yönlü varyans analizi ile test edilmiĢtir. P<0.001 olduğundan sistemdeki asistan sayısını artırmanın ilk asistanın boĢ kalma süresi üzerinde olumlu etki yaptığı söylenebilir. Sistemde 1 asistan doktor var iken ortalama boĢ kalma süresi 54,62 ORTA DOĞU TEKNĠK ÜNĠVERSĠTESĠ, FEN-EDEBĠYAT FAKÜLTESĠ, ĠSTATĠSTĠK BÖLÜMÜ | 92 VII. ĠSTATĠSTĠK GÜNLERĠ SEMPOZYUMU BĠLDĠRĠLER KĠTABI 2010 dakika iken, sistemde 2 asistan doktor bulunduğunda bu süre 164,93 dakikaya çıkmıĢtır. 3 asistan doktorlu sistemde ise birinci asistanın ortalama boĢ kalma süresi 173,65 dakikadır. Tamhane çoklu karĢılaĢtırma testine göre 1. senaryonun farklı durumlarında ortalama boĢ kalma süreleri arasında önemli fark bulunmuĢtur. Sistemin çalıĢma süresinin 360 dakikadan, 420, 480, 540 dakikaya artırılması ile beyin cerrahisi bölümüne gelen hasta sayılarında fark olup olmadığı bir yönlü varyans analizi ile test edilmiĢtir. F testi sonucunda p<0.001 olduğundan çalıĢma sürelerinin değiĢmesi hasta sayısında anlamlı bir artıĢa neden olduğu söylenebilir. Levene Testi sonucunda grup varyansları farklı olduğundan Tamhane testine göre çoklu karĢılaĢtırmalar yapılmıĢtır. Sonuç olarak tüm gruplardaki hasta sayısının farklı olduğu görülmüĢtür. ÇalıĢma süresi 360 dakika olduğunda ortalama 46 hastaya hizmet verilirken, bu süre 420‟ye çıktığında 53 hastaya, 480 dakika olduğunda 60 hastaya ve son olarak süre 540 dakikaya çıkarıldığında 68 hastaya hizmet verilmektedir. Sistemin çalıĢma süresinin 360 dakikadan, 420, 480, 540 dakikaya artırılması ile beyin cerrahisi bölümündeki 1. Asistan doktorun boĢ kalma süreleri arasında fark olup olmadığı bir yönlü varyans analizi ile test edilmiĢtir. P<0.001 olduğundan birinci asistanın boĢ kalma süresinin sistemin çalıĢma süresinin artıĢı ile birlikte anlamlı bir Ģekilde arttığı söylenebilir. SONUÇLAR Ondokuz Mayıs Üniversitesi Tıp Fakültesi Beyin Cerrahisi polikliniğinde hastaların sistemde ortalama bekleme süresi 35,92 dakika, kuyrukta ortalama bekleme süresi ise 23,92 dakikadır. Bu sürelerin azaltılması hem hastalara verilen hizmetin kalitesini artıracak hem de hastanenin daha fazla kar elde etmesini sağlayacaktır. Bu çalıĢmada mevut sistemdeki asistan doktor sayısı artırıldığında sistemde ve kuyrukta bekleme sürelerinde anlamlı farklılıklar olduğu istatistiksel analizler sonucunda bulunmuĢtur. Ayrıca asistan doktorların sayısı artırıldığında birinci asistanın boĢ kalma süresinde de anlamlı bir farklılık meydana gelmiĢtir. Polikliniğin çalıĢma süresi artırıldığında poliklinikte hizmet verilen hasta sayısında anlamlı bir artıĢ olacağı da görülmüĢtür. Beyin Cerrahisi bölümünden alınan bilgilere göre bir hastanın ortalama maliyeti 122 TL olmaktadır. Ayrıca bir asistan doktorun günlük ücreti ise 70 TL dir. Buna göre sistemde bir asistan fazla çalıĢtırmanın maliyeti günlük 70 TL olacaktır. Bir asistan fazla çalıĢtırıldığında sistemdeki ortalama bekleme süresi % 63 oranında azalacağından hizmet verilecek hasta sayısının da en az %50 oranında artacağı düĢünülebilir. Sisteme ortalama 46 hastaya hizmet verilir iken 69 hastaya hizmet verilebilecektir. Bu durumda günlük 2806-70=2736 TL kar edilecektir. Benzer hesaplara göre sistemde 3 asistan olduğunda ise günlük 2666 TL kar edilecektir. Bu durumda hem kar hem de bekleme süreleri bakımından 2 asistanlı sistem tercih edilebilir. Sistemin çalıĢma süresi 420 dakikaya çıkarıldığında asistan doktorun ücreti 60 dakika için 11.7 TL artacaktır. Poliklinik 420 dakika çalıĢırsa gelen hasta sayısı %15 (7 kiĢi) artacaktır. Bu durumda yeni sistemin günlük karı 7*122-11.7=842 TL olacaktır. Benzer Ģekilde 480 dakika çalıĢtığında kar 1684 TL, 540 dakika çalıĢtığında kar 2648 TL olacaktır. ORTA DOĞU TEKNĠK ÜNĠVERSĠTESĠ, FEN-EDEBĠYAT FAKÜLTESĠ, ĠSTATĠSTĠK BÖLÜMÜ | 93 VII. ĠSTATĠSTĠK GÜNLERĠ SEMPOZYUMU BĠLDĠRĠLER KĠTABI 2010 KAYNAKLAR KIDAK L.B. VE AKSARAYLI M., (2009), Bir genel cerrahi servisinde yatak kullanım etkinliğinin Benzetim ile Optimizasyonu, 10. Ekonometri ve Ġstatistik Sempozyumu, Erzurum. KUMARĠ A., SHĠM SJ, Optimal utilization of human resources in surgical instruments distribution in hospitals, 18th International on Production Research, Italia, 2005. ODDOYE J.P., JONES D.F., TAMĠZ M. AND SCHĠMĠDT P., Combining simulation and goal programming for healthcare planning in a medical assesment unit, European Journal of Operation Research, 193, 250-261, 2009. PETER RB, TOMPHSON JD, The simulation of hospital admisson policy, Communications of the ACM 1966, 9:5 362-365. VANBERKEL PT, BLAKE JT, A Comprehensive simulation for wait time reduction and capacity planing applied in general surgery, Healt Care Managment Science, 2007, 10 (4), 373385. WHITE KP, A survey of data reseorcues for simulating patient flows in healtcare delivery systems, Proceedings of the Winter Simulation Conference 200, 926-93 ORTA DOĞU TEKNĠK ÜNĠVERSĠTESĠ, FEN-EDEBĠYAT FAKÜLTESĠ, ĠSTATĠSTĠK BÖLÜMÜ | 94 VII. ĠSTATĠSTĠK GÜNLERĠ SEMPOZYUMU BĠLDĠRĠLER KĠTABI 2010 PARETO MÜDAHALELĠ YARI-MARKOV RASTGELE YÜRÜYÜġ SÜREÇĠ ĠÇĠN ASĠMPTOTĠK SONUÇLAR Rovshan ALIYEV‡ Tülay KESEMEN§ Ġhsan ÜNVER** ÖZET Bu çalıĢmada, kesikli Ģans karıĢımlı bir yarı-Markov rastgele yürüyüĢ süreci (X(t)) ele alınmıĢtır. Bu sürecin ergodik dağılımının ilk dört momenti için kesin formüller elde edilmiĢtir. Bundan yararlanarak, müdahaleyi ifade eden n , n 0 rastgele değiĢkenler dizisinin durağan dağılım fonksiyonu (, ) parametreli Pareto dağılımına sahip olan bir Markov zinciri olduğu durumda, E n iken, sürecin ergodik dağılımının ilk dört momenti için asimptotik açılımlar elde edilmiĢtir. Anahtar Kelimeler: Yarı-Markov rastgele yürüyüĢ süreci, Pareto dağılımı, ergodik dağılım, asimptotik açılım, basamak yüksekliği. ASYMPTOTIC RESULTS FOR THE SEMI-MARKOVIAN RANDOM WALK WITH PARETO DISTRIBUTED INTERFERENCE OF CHANCE ABSTRACT In this paper,a semi-Markovian random walk with a discrete interference of chance X(t) is considered. Some exact formulas for the first moments of the ergodic distribution of this process X(t) are obtained, It is assumed that the random variables n , n 0 which describe the discrete interference of chanceform an ergodic Markov chain with Pareto stationary distribution with parameters (, ) . Under this assumption,the asymptotic expansions for the first four moments of the ergodic distribution of the process X(t) are derived, as E n . Keywords: Semi-Markovian random walk; Pareto distribution; ergodic distribution; asymptotic expansion; ladder variables. ‡ Karadeniz Teknik Üniversitesi, Ġstatistik ve Bilgisayar Bilimleri Böl., 61080, Trabzon, aliyevrovshan@yahoo.com Karadeniz Teknik Üniversitesi, Matematik Böl., 61080, Trabzon, tkesemen@gmail.com ** Karadeniz Teknik Üniversitesi, Matematik Böl., 61080, Trabzon, ihsanunver@ktu.edu.tr § ORTA DOĞU TEKNĠK ÜNĠVERSĠTESĠ, FEN-EDEBĠYAT FAKÜLTESĠ, ĠSTATĠSTĠK BÖLÜMÜ | 95 VII. ĠSTATĠSTĠK GÜNLERĠ SEMPOZYUMU BĠLDĠRĠLER KĠTABI 2010 GĠRĠġ Bir çok teorik ve uygulama problemlerinde, örneğin banka sistemlerinin veya sigorta Ģirketlerinin çalıĢmasını ifade eden stokastik süreçlerin incelenmesinde bir bariyere sahip olan rasgele yürüyüĢ süreçleri ile karĢılaĢılmaktadır. Bu çeĢit problemlerde, sistemi ifade eden stokastik süreçler genellikle kesikli Ģans karıĢımlı rasgele yürüyüĢ süreçlerinden oluĢmaktadır. Örnek için grafiği aĢağıda verilen bir stokastik modele göz atılsın: X(t) s t Varsayalım ki, yukarda grafiği verilen sistem, baĢlangıç anında z s 0 durumundadır. Tn i1 i , n 1 rasgele anlarında sistem uygun olarak z S n , S n i 1 i durumlarında n n olabilsin. BaĢka bir deyiĢle sistemin değiĢimi bir yarı-Markov rasgele yürüyüĢ süreci yardımıyla ifade edilsin. Süreç, s kontrol seviyesine ilk kez ulaĢana kadar bu doğal değiĢimini devam ettirsin. Süreç, bu seviyeye ilk kez ulaĢtığında, dıĢarıdan müdahale edilsin. Müdahalenin sonucunda, sistem 1 durumuna getirilmiĢ olsun. 1 bilinen bir dağılıma sahip pozitif değerli rasgele bir değiĢkendir. Bu müdahaleden sonra süreç, 1 baĢlangıç durumundan baĢlayarak birinci devreye benzer doğal değiĢimini devam ettirsin. Bu çalıĢmada, müdahaleyi ifade eden 1 rasgele değiĢkeninin (, ) parametreli Pareto dağılımına sahip olduğu varsayılacaktır. Bu varsayım altında yukarıda tanımlanan sürecin ergodik dağılımının ilk dört momentleri için, E n iken, asimptotik açılımlar elde edilecektir. Bunun için önce süreç matematiksel olarak kurulsun. ORTA DOĞU TEKNĠK ÜNĠVERSĠTESĠ, FEN-EDEBĠYAT FAKÜLTESĠ, ĠSTATĠSTĠK BÖLÜMÜ | 96 VII. ĠSTATĠSTĠK GÜNLERĠ SEMPOZYUMU BĠLDĠRĠLER KĠTABI 2010 SÜRECĠN MATEMATĠKSEL KURULUġU n , n 1ve n , n 1 bağımsız ve aynı dağılıma sahip rastgele değiĢkenlerden oluĢan aynı bir , , P olasılık uzayında tanımlanmıĢ iki bağımsız dizi olsun. Ayrıca, n ‟ler pozitif değerler, n ‟ler hem negatif hem de pozitif değerler alabilen rasgele değiĢkenler olsunlar. Müdahaleyi ifade eden n , n 0 rastgele değiĢkenler dizisi durağan dağılım fonksiyonu (z) 1 , z [, ) olan bir Markov zinciridir. {Tn } yenileme sürecini ve {S n } rastgele z yürüyüĢ süreci n Tn i , i 1 n S n i , T0 S0 0 , n 1,2,... i 1 Ģeklinde ve tam değerli rastgele değiĢken dizisi {N n } aĢağıdaki gibi tanımlansın: N 0 0; N N1 1 inf k 1 : S N1 N2 ... Nn k S N1 N2 ... Nn n , n 0 , inf{} . Ayrıca 0 0 , n TN1...Nn , n 1 ve t maxn 0 : Tn t olsun. Bu çalıĢmada incelenen stokastik sürecin analitik ifadesi matematiksel olarak aĢağıdaki gibidir: ν t X t =ζ n i n (S t SN0 N1 ... Nn ) , eğer n t n 1 , n 0 . i N1 +N2 +...+Nn 1 X t „ye Pareto müdahaleye sahip yarı Markov rastgele yürüyüĢ süreci denir. Bu çalıĢmanın temel sonuçları aĢağıdaki gibi verilsin. TEMEL SONUÇLAR Teorem 1. n ve n rastgele değiĢkenler dizisi ek olarak aĢağıdaki koĢulları da sağlasın: 1) 0 E(1 ) , 2) 0 E(1 ) , 3) 1 aritmetik olmayan rastgele değiĢken, ORTA DOĞU TEKNĠK ÜNĠVERSĠTESĠ, FEN-EDEBĠYAT FAKÜLTESĠ, ĠSTATĠSTĠK BÖLÜMÜ | 97 VII. ĠSTATĠSTĠK GÜNLERĠ SEMPOZYUMU BĠLDĠRĠLER KĠTABI 2010 4) E 1 , 5) 1 rasgele değiĢkeni (s, ) aralığında (, ) parametreli Pareto dağılımına 5 sahip olsun. Bu durumda, 5 olduğunda, X(t) süreci ergodiktir ve sürecin ergodik dağılımının ilk dört momentleri için kesin formüller, 1 rasgele değiĢkeni ve S N X sınır fonksiyonelinin karakteristikleri yardımıyla aĢağıdaki gibi hesaplanabilir: E( X ) E( X 2 ) 1 1 1 E( 1M1 ( 1 )) E(M 2 ( 1 )) m 21 ; E(M1 ( 1 )) 2 2 1 1 2 m 21E( 1M1 ( 1 )) m 21E(M 2 ( 1 )) E( 1 M1 ( 1 )) E(M1 ( 1 )) 2 2 1 3m 21 2m 31 E( 1M 2 ( 1 )) E(M 3 ( 1 )) , 3 6 E(X 3 ) 1 3 1 3 2 E(1 M1 (1 )) E(1 M 2 (1 )) E(1M 3 (1 )) E(M 4 (1 )) E(M1 (1 )) 2 4 m 21 3E(12 M1 (1 )) 3E(1M 2 (1 )) E(M 3 (1 )) 2 1 3A1 E( 1M1 ( 1 )) E(M 2 ( 1 )) 3A 2 , 2 E(X 4 ) 1 E(14 M1 (1 )) 2E(13M 2 (1 )) 2E(12M 3 (1 )) E(1M 4 (1 )) E(M1 (1 )) 1 1 E(M 5 ( 1 )) m 21 2E( 13 M1 ( 1 )) 3E( 12 M 2 ( 1 )) 2E(1M 3 ( 1 )) E(M 4 ( 1 ) 5 2 1 6A1 E( 12 M1 ( 1 )) E( 1 M 2 ( 1 )) E(M 3 ( 1 )) 6A 2 2E(1M1 (1 )) E(M 2 (1 )). 3 Burada, A1 3m 221 2m 31 m m m m3 , A 2 41 31 21 21 ve X(t ) X(t ) s ‟dır. 6 12 3 4 ġimdi de, bu çalıĢmanın diğer önemli sonucu verilsin. ORTA DOĞU TEKNĠK ÜNĠVERSĠTESĠ, FEN-EDEBĠYAT FAKÜLTESĠ, ĠSTATĠSTĠK BÖLÜMÜ | 98 VII. ĠSTATĠSTĠK GÜNLERĠ SEMPOZYUMU BĠLDĠRĠLER KĠTABI 2010 Teorem 2. BaĢlangıç rasgele değiĢkenler 1 , 1 , 1 , Teorem 1‟ deki koĢulları sağlamıĢ Bu takdirde, X( t ) sürecinin ilk dört momenti için E n iken üç terimli olsunlar. asimptotik açılımlar aĢağıdaki gibi yazılabilir: E( X ) = ( 1) 3 1 m ( 1) ( 1) 2 ( 1) 1 21 21 2 221 31 o( ), 2( 2) 4( 2) 2 6 8 ( 2) E( X 2 ) ( 1) 2 ( 1) ( 1) 2 m 21 21 3( 3) 6( 3) 2( 2) ( 1) 3 ( 1) 2 2 21m 21 A1 +o(1), 21 2 4( 2) 12 ( 3) ( 1) 3 ( 1) ( 1) 2 E( X ) m 21 21 2 4( 4) 8( 4) 2( 3) 3 ( 1) 3 ( 1) 2 3( 1) 2 21m 21 A1 o(), 21 2 4( 3) 2( 2) 16 ( 4) ( 1) 4 3( 4) ( 1) 2 E( X ) (m 21 21 ) 21 3 5( 5) 10 ( 5) 2( 1) 4 ( 1) 3 ( 1) 3( 1) 221 (2 21m 21 31 2A1 ) (m 21 21 ) 21 2 o(2 ) 2 ( 3) 4( 4) 20 ( 5) burada E( X k ) lim E(( X( t )) k ) , k 1,4, X( t ) X( t ) s, A1 t 3m 21 2m 31 , 6 m k E(1k ); mk1 mk m1 , k E(1 )k , k1 k / 1 , k 2,3 . ORTA DOĞU TEKNĠK ÜNĠVERSĠTESĠ, FEN-EDEBĠYAT FAKÜLTESĠ, ĠSTATĠSTĠK BÖLÜMÜ | 99 VII. ĠSTATĠSTĠK GÜNLERĠ SEMPOZYUMU BĠLDĠRĠLER KĠTABI 2010 KAYNAKLAR 1. Aliyev, R.T, Kesemen, T., Khaniyev, T.A., (2010). Asymptotic expansions for the moments of a semi-Markovian random walk with gamma distributed interference of chance, Communications in Statistics- Theory and Methods, 1532-415X, 39, 1, 130-143. 2. Feller, W. (1971). Introduction to Probability Theory and Its Appl. II, J. Wiley, N.Y. 3. Khaniyev T.A., Kesemen T., Aliyev R.T., Kokangul A. (2008). Asymptotic expansions for the moments of a semi-Markovian random walk with exponential distributed interference of chance, Statistics and Probability Letters, 78, 6, 785-793. 4. Khaniyev T.A., Kesemen T., Kesemen O., Aliyev R.T., (2006). Some asymptotic results for the stationary characteristics of the semi-Markovian random walk with barrier. Automatic Control and Computer Sciences, No:1.- pp.31-43. ORTA DOĞU TEKNĠK ÜNĠVERSĠTESĠ, FEN-EDEBĠYAT FAKÜLTESĠ, ĠSTATĠSTĠK BÖLÜMÜ | 100 VII. ĠSTATĠSTĠK GÜNLERĠ SEMPOZYUMU BĠLDĠRĠLER KĠTABI 2010 RCMARS-SAĞLAM CMARS YÖNTEMĠ VE SAYISAL BĠR UYGULAMA AyĢe ÖZMEN* Gerhard-Wilhelm WEBER** Ġnci BATMAZ*** ÖZET Çok değiĢkenli uyarlanabilir regresyon eğrileri (MARS) algoritmasına seçenek olarak geliĢtirilmiĢ yeni bir yaklaĢım olan konik (konveks, sürekli) çok değiĢkenli uyarlanabilir regresyon eğrileri (CMARS) algoritması, karmaĢık ve türdeĢ olmayan veri kümelerini baĢarı ile modelleyen bir yöntemdir (Weber vd., 2009). Ancak bu iki yöntem de modellerinde kullandıkları bağımsız değiĢkenlerin sabit olduğunu varsaymaktadır. Aslında yaĢam verilerinin tümünde, yani hem girdi hem de çıktı değiĢkenlerinde, gürültü vardır ve optimizasyon probleminin çözümleri değiĢkenlerindeki belirsizliklere karĢı kayda değer bir duyarlılık gösterebilmektedir. Bu nedenle önceki çalıĢmalarımızdan birinden bağımsız değiĢkenlerin rastgele olduğu varsayılarak CMARS modeline belirsizlik kavramı eklenmiĢ ve verilerdeki belirsizlikleri iĢleyebilen sağlam optimizasyon tekniği ile CMARS model ve algoritması sağlamlaĢtırılmıĢtır (Özmen vd., 2010a). Diğer bir çalıĢmamızda ise çok düzlemli belirsizlik kümeleri kullanılarak, değiĢik belirsizlik senaryoları altında Sağlam CMARS (RCMARS) modelinin duyarlılığı sınanmıĢtır (Özmen vd., 2010b). Bu çalıĢmada ise RMARS modelinin belirsizlik kümelerinin sınırlarına olan duyarlılığı göz önünde bulundurularak RCMARS algoritması bir veri kümesiüzerinde uygulanmaktadır. Anahtar kelimeler: Regresyon, CMARS, Sağlam optimizasyon, Sağlamlılık, Konik karasel programlama, Ġç nokta yöntemi, Tikhonov düzenlemesi, Veri belirsizliği, Veri madenciliği. THE RCMARS METHOD AND A NUMERICAL EXAMPLE ABSTRACT CMARS, recently develped as an alternative method to MARS, is a powerful method for handling complex and heterogeneous data (Weber et al., 2009). Both methods, however, assumethat independent variables are of type fixed. In fact, real life data contain noise in both output and input variables. Consequently, optimization problem‟s solutions may have a remarkable sensitivity to perturbations in the parameters of the problem. By considering this fact, in one of our previous studies, we include the existence of uncertainty in the future scenarios into CMARS, and robustify it with the robust optimization technique (RMARS) that dealts with data uncertainty (Özmen et al., 2010a). In other study, we present the results of the sensitivity analysis on the parameter estimates and model performances of RCMARS under polyhedral uncertainty setswith different uncertainty scenarios (Özmen et al., 2010b). In this study, we implement this new *Yüksek Lisans Öğrencisi, Orta Doğu Teknik Üniversitesi, Uygulamalı Matematik Enstitüsü, Bilimsel Hesaplama Bölümü, 06531 Ankara, ayseozmen19@gmail.com (HaberleĢme Adresi) **Öğretim Üyesi, Profesör Doktor, Orta Doğu Teknik Üniversitesi, Uygulamalı Matematik Enstitüsü, 06531 Ankara, gweber@metu.edu.tr ***Öğretim Üyesi, Doçent Doktor, Orta Doğu Teknik Üniversitesi, Fen Edebiyat Fakültesi, Ġstatistik Bölümü, 06531 Ankara, ibatmaz@metu.edu.tr ORTA DOĞU TEKNĠK ÜNĠVERSĠTESĠ, FEN-EDEBĠYAT FAKÜLTESĠ, ĠSTATĠSTĠK BÖLÜMÜ | 101 VII. ĠSTATĠSTĠK GÜNLERĠ SEMPOZYUMU BĠLDĠRĠLER KĠTABI 2010 method on a new data set by considering the sensitivity of RCMARS model to the boundaries of the uncertainty sets. Keywords: Regression, CMARS, Robust Optimization, Robustness, Conic quadratic programming, Interior point method, Tikhonov regularization, Data uncertainty, Data mining. GĠRĠġ Veri madenciliği ve tahmin teorisinde yaygın olarak kullanılan çok değiĢkenli uyarlanabilir regresyon eğrileri (MARS) algoritması yüksek boyutlu doğrusal olmayan veri kümeleri için esnek regresyon modelleri oluĢturmaktadır (Friedman, 1991). Bu nedenle MARS yöntemi özellikle çok sayıda değiĢkenin karmaĢık iliĢkilerinin modellendiği ekonomi, teknoloji ve bilim alanlarında baĢarı ile uygulanmaktadır. Bu uygulamalara örnek olarak elektrik üreten Ģirketler için talepin tahminlenmesi, ürünlerin mühendislik spesifikasyonlarının müĢteri tatmini ile iliĢkilendirilmesi, Cografi Bilgi Sisteminde (GIS) kullanılan varlık-yokluk modelleri verilebilir (MARS,2009). MARS yöntemi regresyon modelini oluĢtururken ileriye ve geriye doğru adım algoritması diye adlandırılan iki aĢamalı bir algoritma kullanmaktadır. MARS yöntemine seçenek olarak geliĢtirilen CMARS yöntemi ise MARS algoritmasının geri doğru adım aĢamasını kullanmak yerine, cezalı hata kareler toplamını (PRSS) esas alarak, MARS modelini bir Tikhonov düzenlemesi (TR) (Aster vd., 2004) problemine dönüĢmekte ve bu problemi iç nokta yönteminin kullanımına imkan veren konik karesel programlama (CQP) ile çözmektedir (Weber vd., 2009). Gerçek yaĢam verilerinin tümümde, yani hem girdi hem de çıktı değiĢkenlerinde, gürültü bulunmasına rağmen MARS ve CMARS yöntemleri bağımsız değiĢkenlerin sabit olduğunu varsaymaktadır. Buna ek olarak veriler optimal deney tasarımının içindeki çeĢitliliklerden kaynaklanan küçük değiĢimlere de maruz kalabilirler. Tüm bunlar amaç fonksiyonu ve olası kısıtlarda da belirsizliklere neden olabilmektedir. Bu nedenler sonucunda optimizasyon probleminin çözümleri problem değiĢkenlerindeki belirsizliklere karĢı kayda değer bir duyarlılık gösterebilmektedir. Bu zorluğu aĢabilmek için CMARS modeli ve algoritması verilerdeki belirsizlikleri ele alacak Ģekilde yeniden yapılandırılmıĢ; çok düzlemli ve elipsoidalbelirsizlik kümeleri esas alınarak Aharon Ben-Tal ve Nemivoski (1998, 2002) ile Laurent El Ghaoui ve Lebret (1997) tarafından geliĢtirilmiĢ sağlam optimizasyon yöntemi kullanılarak sağlamlaĢtırılmıĢtır (Özmen vd., 2010a). Sağlam optimizasyon, verileri belirsiz (rasgele) olan ve aykırı gözlemler dıĢındakilerin sadece bazı belirsizlik kümeleri içerisinde tanımlı olduğu optimizasyon problemlerini ele alan bir yöntemidir (Bertsimas vd., 2008). Bu yöntemle verilerin belirsizlik içermesi durumunda tahmin varyansı küçültülmeye çalıĢılmaktadır. Bilgisayar hesaplamalarında sağlamlaĢtırılan CMARS modelimizin daha basit bir Ģekline gerek duyulduğundan “zayıf bir sağlamlaĢtırma” kavramı da oluĢturulmuĢtur. Böylece hem Sağlam CMARS (RCMARS) hem de bunun değiĢtirilmiĢ hali olan Zayıf Sağlam CMARS (WRCMARS)‟ın teorik olarak geliĢtirilmesi açıklanıp, yöntem tanıtılmıĢ ve yöntemin duyarlılığı araĢtırılmıĢtır (Özmen vd., 2010b). ORTA DOĞU TEKNĠK ÜNĠVERSĠTESĠ, FEN-EDEBĠYAT FAKÜLTESĠ, ĠSTATĠSTĠK BÖLÜMÜ | 102 VII. ĠSTATĠSTĠK GÜNLERĠ SEMPOZYUMU BĠLDĠRĠLER KĠTABI 2010 RCMARS MODELĠ Yukarıda da ifade edildiği gibi RCMARS yöntemi CMARS üzerinde yapılandırılmıĢtır. Bu amaçla MARS‟ın ileri doğru algoritmasından edinilen temel fonksiyonlar üzerinde belirli belirsizlik kümeleri içerisinde yeraldığı varsayılan verilerdeki belirsizlik, sağlam optimizasyon tekniği uygulanarak CMARS model ve algoritması sağlamlaĢtırılmıĢtır. CMARS yöntemi Salford MARS (2009) tarafından oluĢturulmuĢ en çok temel fonksiyon sayısı T M max ‟a sahip en büyük modeli kullanmaktadır. Y bağımlı değiĢkeni ile X ( X1 , X 2 ,..., X p ) bağımsız değiĢkenleri arasındaki iliĢkiyi gösteren bu genel model aĢağıda ifade edildiği gibidir: Y f ( X ) . (1) Burada ε rasgele hata terimi olup, belirli bir sapma ile ortalaması sıfır olan normal dağılıĢtan geldiği varsayılmaktadır. CMARS‟ın aksine RCMARS modelinde bağımsız değiĢkenler de normal dağılan rasgele değiĢkenler olarak kabul edilmektedir. Girdi ve çıktı değiĢkenlerinin tümünün rasgele değiĢkenler olması, oluĢturulacak belirsizlik kümelerinin güven aralığına sahip olduklarını kabul etmemize de olanak sağlamaktadır (Özmen vd., 2010a). Bu bağlamda belirsizlik içeren veri kümesi ( xi , yi ) (i 1, 2,..., N ) ‟ne göre oluĢan MARS modelinin parçalı doğrusal temel fonksiyonları aĢağıdaki Ģekilde yazılabilir (Friedman, 1991): c ( x , ) ( x ) , c ( x , ) ( x ) . Burada q := max 0, q , q := max 0, q olup, N toplam gözlem sayısını, x‟ler gözlenen değerleri ve τ temel fonksiyonların düğüm noktalarını göstermektedir.Böylece ileriki bölümlerde tanımlanacak olan U1 N M max ve U 2 N belirsizlik kümeleri, ( xi , yi ) (i 1, 2,..., N ) veri kümesine dahil edilerekm. temel fonksiyonunçarpımsal Ģekli Km m (xi ) := ( xi ) for i 1, 2,..., N j 1 m j (2) m j olarak ifade edilmektedir. Burada K m m. temel fonksiyonda çarpılan kesik (truncated) doğrusal fonksiyonların sayısını, mj ise m. temel fonksiyonun j. değiĢkenini göstermektedir. Bunun yanısıra belirsizlik içeren CMARS modeli için PRSS yeniden düzenlenerek aĢağıdaki Ģekli almıĢtır: N PRSS : ( yi f ( xi )) 2 i 1 M max m m 1 2 1 r s 2 m [ Dr,s m (t m )]2 dt m . (3) T (1 ,2 ) r , sV ( m ) Burada V(m) : { j |j= 1,2,..., K m }m. temel fonksiyonla iliĢkili bağımsız değiĢkenleri göstermektedir. (3)‟te yeralan yüksek boyutlu integralin bazı fonksiyonlar için hesaplanması güç m ORTA DOĞU TEKNĠK ÜNĠVERSĠTESĠ, FEN-EDEBĠYAT FAKÜLTESĠ, ĠSTATĠSTĠK BÖLÜMÜ | 103 VII. ĠSTATĠSTĠK GÜNLERĠ SEMPOZYUMU BĠLDĠRĠLER KĠTABI 2010 olduğundan, eĢitlikte yer alan integral kesikli hale getirilerek PRSS yaklaĢık olarak elde edilmekte ve bazı düzenlemeler sonucunda aĢağıdaki Ģekle dönüĢmektedir (Weber vd., 2009): 2 PRSS y (b ) L 2 . 2 (4) 2 Bazı değerleri için 2 kullanılarak 0 ceza parametresi ile PRSS Tikhonov düzenlemesi(TR) problemine dönüĢür ve bu problem sürekli optimizasyon yöntemi olan ikinci dereceden konik karesel programlama (CQP) (Ben-Tal, 2001) kullanılarak çözülür. Girdi ve çıktı değiĢkenlerinin her ikisinede belirsizlik dahil ettiğimiz zaman (2)‟deki temel fonksiyon ( xi m m ) ‟lar aĢağıdaki gibi yazılabilir: j j ( xi m m ) ( xi m m ) (i m (i m )) . j j j j j (5) j Burada i m herbir temel fonksiyondaki herbir girdi değiĢkenine güven aralığı içinde dahil j edilen belirsizliği (Bkz. ġekil 1.); i m ise kontrol değiĢkenini göstermektedir. Kontrol j değiĢkeninin değeri U1 belirsizlik kümesinin büyüklüğünü doğrudan etkilediği ve belirsizlik kümelerimizin ne olduğu bilinmese bile sınırlı olması gerektiği için i m kontrol değiĢkeni i m j j değeri ile sınırlandırılmıĢtır (Özmen vd., 2010a). Ayrıca m ( xi ) ve m ( xi ) temel fonksiyon değerlerini elde edebilmek amacı ile (5)‟deki eĢitsizlik aĢağıdaki Ģekle dönüĢtürülür (Özmen vd., 2010a): Km (x j 1 i Km m j m ) ( xi m m ) : m ( xi ) j j 1 j : m ( xi ) j (x A{1,... K m } aA ia a ) b{1,... K m }/ A ((ib ) ib ) (i 1, 2,..., N ). Burada simetri özelliği ile m ( xi ) ve m ( xi ) temel fonksiyon değerleri için sınır formları oluĢturulduğunda aĢağıdaki eĢitsizlik elde edilir: m ( xi ) m ( xi ) uˆim ˆ m ( xi ) m ( xi ) max{uˆim , uˆim }. ˆ m ( xi ) m ( xi ) uˆim Böylece her bir temel fonksiyon için uim belirsizlik değerleriaĢağıdaki eĢitsizlikten bulunur (Özmen vd., 2010a): ORTA DOĞU TEKNĠK ÜNĠVERSĠTESĠ, FEN-EDEBĠYAT FAKÜLTESĠ, ĠSTATĠSTĠK BÖLÜMÜ | 104 VII. ĠSTATĠSTĠK GÜNLERĠ SEMPOZYUMU BĠLDĠRĠLER KĠTABI uim A{1,..., K m } A 1 i aA ia b{1,..., K m }/ A 2010 ( ib ib ). (6) Burada değeri x ‟in güven aralığının yarı uzunluğu; A A kümesinin eleman sayısı; i ise kontrol değiĢkenidir. i değeri aykırı gözlemlerin olmadığı durumlarda iki olarak kabul edilebilir. Ancak aykırı gözlemler için bu kontrol değiĢkeni ikiden daha büyük bir değer olacaktır (Özmen vd., 2010b). belirsizliği ve x için oluĢturulan güven aralığı ġekil 1‟de gösterilmektedir. ġekil 1. belirsizliğinin ve x ‟ın güven aralığı. Sağlam optimizasyon problemimizin daha etkin bir Ģekilde çözülebilmesi için belirsizlik kümelerinin ellipsoidal veya çokdüzlemligibi özel bir Ģekle sahip olması gerekmektedir. (Fabozzi vd., 2007). Önceki çalıĢmalarda U1 ve U 2 belirsizlik kümeleri hem ellipsoidal hem de çok düzlemli birbiçimde oluĢturuldu (Özmen vd., 2010a). Ancak ellipsoidal belirsizlik kümeleri optimizasyon probleminin çözümünü zorlaĢtırdığı için, girdi ve çıktı değerleri için oluĢturulan U1 ve U 2 belirsizlik kümeleri çok düzlemli olarak seçilerek çalıĢma sürdürülmüĢtür (Özmen vd., 2010b). Böylece çok düzlemli belirsizlik kümeleri temelinde sağlam optimizasyon modeli aĢağıdaki gibi tanımlanmaktadır: min max z W 2 L 2 . 2 2 W U1 zU 2 Yukarıdaki sağlam optimizasyon modelimiz aĢığıda gösterildiği gibi bir sağlam CQP problemine dönüĢtürülebilir (Özmen vd., 2010a, 2010b): ORTA DOĞU TEKNĠK ÜNĠVERSĠTESĠ, FEN-EDEBĠYAT FAKÜLTESĠ, ĠSTATĠSTĠK BÖLÜMÜ | 105 VII. ĠSTATĠSTĠK GÜNLERĠ SEMPOZYUMU BĠLDĠRĠLER KĠTABI 2010 min t , t , subject to z W 2 t U1 , W 2 N M max jW j j 1 L 2 z U 2 , 2N i z i i 1 M. Çok düzlemli belirsizlik kümesi kullanıldığındanyukarıda ifade edilen sağlamCQP problemi standard bir CQP (Ben-Tal vd., 2001)problemi gibi sunularak, çözülebilir: min t , t , subject to z i -W j L 2 2 t (i 1, 2,..., 2 N , j 1, 2,..., 2 N M max ), M. SAYISAL BĠR UYGULAMA Daha önceki çalıĢmalarımızda MINITAB paket programının örnek veri kümelerinden üç bağımsız değiĢkenli ve 20 gözlemli bir tanesi üzerinde RCMARS algoritması uygulanarak, model parametreleri tahminlenmiĢ ve baĢarım ölçümleri elde edilmiĢtir. Bu amaçla Salford MARS (2009) yazılımı kullanarak elde edilen en geniĢ modele, MATLAB ve MOSEK (2008) programları yardımı ile çok amaçlı optimizasyon yaklaĢımı uygulanmıĢtır. RCMARS algoritmasında bağımsız değiĢkenlerin normal dağılıĢtan geldiğini varsayılmaktadır. Bu nedenle bu çalıĢmada, benzetim yöntemi kullanılarak herbiri normal dağılıĢtan gelen üç değiĢken ve 20 gözlemden oluĢan bir veri kümesi türetilmiĢ ve RCMARS modelinin belirsizlik kümelerinin sınırlarına olan duyarlılığı da göz önünde bulundurularakRCMARS algoritması bu veri kümesineuygulanmıĢtır. Sonuçta MARS yazılımıtarafından oluĢturulan aĢağıdaki en geniĢ model ( M max 5 ) elde edilmiĢtir: M y 0 m m ( x ) + = 0 1maks{0, x1 0.09608)} 2 maks{0,0.09608 x1} m 1 3maks{0, x3 1.92906}+ 4 maks{0, x1 0.09608} maks{0, x3 +1.92906} 5 maks{0,0.09608 x1} maks{0, x3 1.92906} . Daha sonra, güven aralıkları göz önünde bulundurularak tüm girdi ve çıktı değiĢkenleri için belirsizlikler hesaplanmıĢ; çok düzlemli belirsizlik kümeleri altında belirsizlik matrisleri ve vektörleri elde edilmiĢtir. Girdi değerleri için oluĢturulan belirsizlik matrisi çok büyük boyutludur. Bu matrisle çözüm yapabilecek bilgisayar kapasitesi yeterli olmadığından dolayı zayıf sağlamlaĢtırma diye isimlendirilen kombinatoriyal yaklaĢım kullanarakher bir gözlem için PRSS modeli, CQP problemi olarak yeniden düzenlenmiĢtir. Problemimizi çözmek için model MOSEK formatına çevrildikten sonra herbir gözlem için 20 farklı zayıf RCMARS (WRCMARS) altmodeli oluĢturulup, ayrı ayrı çözülmüĢtür. Bunlar içinden maksimum tdeğerine sahip MOSEK modeli seçilerek 0 , 1 , 2 , 3 , 4 , 5 parametre tahminleri kaydedilmiĢtir (Bkz. Tablo 1). Sonuç ORTA DOĞU TEKNĠK ÜNĠVERSĠTESĠ, FEN-EDEBĠYAT FAKÜLTESĠ, ĠSTATĠSTĠK BÖLÜMÜ | 106 VII. ĠSTATĠSTĠK GÜNLERĠ SEMPOZYUMU BĠLDĠRĠLER KĠTABI 2010 olarak seçilen MOSEK modeline iliĢkin bazı baĢarım ölçütlerinin (AAE: Ortalama mutlak hata, RMSE: Hata kareler ortalamasının karekökü, r: korelasyon katsayısı) değerleri de Tablo 1‟de yer almaktadır. Tablo1. RCMARS modeli için parametre tahninleri ve baĢarım ölçütlerinin değerleri α0 α1 α2 α3 α4 α5 1.1076 -0.4316 -0.3866 -0.4262 0.0033 0.0000 AAE 0.4388 RMSE r 0.7221 0.8601 SONUÇ Bu çalıĢmada, verilerde varolan belirsizliklerin üstesinden gelebilmek amacı ile sağlam ve zayıf sağlam olarak isimlendirilen kombinatoriyel yaklaĢım kullanılarak CMARS sağlamlaĢtırılmıĢtır. Bu yaklaĢımla parametrelerin tahmin varyanslarının indirgenmesi amaçlanmaktadır. Bu amaçla öncelikle teori ve yöntem geliĢtirilmiĢ, sayısal uygulamalarda kullanabilmek amacı ile MATLAB programı oluĢturulmuĢtur. Bundan sonraki çalıĢmalarda CMARS modelinin kararlılığının ölçümü ile ilgili çalıĢmalar yapılacaktır. Sağlam tahminleyiciler kullanılarak girdi ve çıktı değerleri için yeni güven aralıkları oluĢturulacaktır.Veriler için normal dağılım dıĢında baĢka dağılımlar kullanılarak RCMARS modeli yeniden düzenlenecektir. Bunların dıĢında zayıf RCMARS modelini sağlamlaĢtırmak için diğer farklı yöntemler araĢtırılıp kullanılacaktır. KAYNAKLAR ASTER, R.C., BORCHERS B. ve THURBER, C. (2004), Parameter Estimation and Inverse Problems, Elsevier Academic Press, USA. BEN-TAL, A. ve NEMIROVSKI, A. (1998), Robust convex optimization, Math. Oper. Res., 23, 769–805. BEN-TAL, A. ve NEMIROVSKI, A. (2001), Lectures on modern convex optimization: analysis, algorithms, and engineering applications, MPR-SIAM Series on Optimization, SIAM, Philadelphia. BERTSIMAS, D., BROWN, D.B. ve CARAMANIS, C. (2008), Theory and Applications of Robust Optimization, Working paper,Sloan School of Management and Operations Research Center, MIT. EL-GHAOUI, L. ve LEBRET, H. (1997), Robust solutions to least-square problems to uncertain data matrices,SIAM J. Matrix Anal. Appl., 18, 1035–1064. FRIEDMAN, J. H. (1991). Multivariate adaptive regression splines,The Annals of Statistics, 19 (1), 1-141. ORTA DOĞU TEKNĠK ÜNĠVERSĠTESĠ, FEN-EDEBĠYAT FAKÜLTESĠ, ĠSTATĠSTĠK BÖLÜMÜ | 107 VII. ĠSTATĠSTĠK GÜNLERĠ SEMPOZYUMU BĠLDĠRĠLER KĠTABI 2010 MARS, Salford Systems, 2009.EriĢim: http://www.salfordsystems.com/mars/phb, 25 Ağustos 2010. MOSEK, Software for CQP, 2008. EriĢim: http://www.mosek.com, 5 Eylül 2008. ÖZMEN, A., WEBER, G-W. ve BATMAZ, Ġ. (2010a), The new robust CMARS (RCMARS) method, Preprint at IAM, METU, ISI Proceedings of 24th MEC - EurOPT 2010 - Continuous Optimization and Information-Based Technologies In the Financial Sector, Ġzmir, June 23-26, 2010, 362-368; ISBN 978-9955-28-598-4. ÖZMEN, A., WEBER, G-W., BATMAZ, Ġ. ve KROPAT E. (2010b), RCMARS:Robustification of CMARS with Different Scenarios under Polyhedral Uncertainty Set, Preprint at IAM, METU, to appear in the Proceedings 3rd Conference on Nonlinear Science and Complexity (NSC 3rd), Ankara, Temmuz 28-31, 2010. WEBER, G. -W., BATMAZ, Ġ., KÖKSAL G., TAYLAN P. ve YERLĠKAYA F. (2009), CMARS: A New Contribution to Nonparametric Regression with Multivariate Adaptive Regression Splines Supported by Continuous Optimization, Preprint at IAM, METU, submitted for publication. ORTA DOĞU TEKNĠK ÜNĠVERSĠTESĠ, FEN-EDEBĠYAT FAKÜLTESĠ, ĠSTATĠSTĠK BÖLÜMÜ | 108 VII. ĠSTATĠSTĠK GÜNLERĠ SEMPOZYUMU BĠLDĠRĠLER KĠTABI 2010 SARIMA MODELĠ VE ELMAN YAPAY SĠNĠR AĞININ MELEZ YAKLAġIMI ĠLE ANKARA HAVA KALĠTESĠ VERĠLERĠNĠN ÇÖZÜMLENMESĠ ÇağdaĢ Hakan Aladağ*, Ufuk Yolcu**, Erol Eğrioğlu*** ÖZET Zaman serisi öngörüsünde, klasik yöntemlerin doğrusallık, en az 50 gözlem varsayımı ve belli bir model kalıbına bağlı çalıĢmaları önemli kısıtlamalarıdır. Gerçek hayat zaman serilerinin birçoğu eğrisel ve doğrusal yapıları birlikte içermektedir. Bu nedenle doğrusallık varsayımı oldukça önemli bir sınırlama olmaktadır. Literatürde eğrisel zaman serilerinin çözümlenmesi için yapay sinir ağları çok sık kullanılmaktadır. Zaman serisinin eğrisel bileĢenini yapay sinir ağları ile modellemek mümkün olmasına rağmen hem eğrisel hem de doğrusal bileĢen içeren zaman serilerinin modellenmesinde klasik zaman serisi yöntemleri ve yapay sinir ağlarının melez yaklaĢımları daha doğru öngörü sonuçları verebilmektedir. Bu çalıĢmada klasik zaman serisi olarak mevsimsel otoregresif bütünleĢik hareketli ortalama (SARIMA) modelinin, yapay sinir ağı modeli olarak Elman geri beslemeli yapay sinir ağının kullanıldığı yeni bir melez yaklaĢım önerilmiĢtir. Önerilen yöntem Ankara hava kalitesi verileri üzerinden literatürdeki diğer klasik zaman serisi ve melez yaklaĢımlar ile karĢılaĢtırılmıĢtır. Anahtar Kelimeler: Öngörü, SARIMA, Elman yapay sinir ağı. ANALYZING AIR POLLUTION RECORDS IN ANKARA WITH A HYBRID METHOD COMBINING SARIMA AND ELMAN ARTIFICIAL NEURAL NETWORKS ABSTRACT In time series forecasting, there are some constraints such as linearity, 50 observations and normal distribution when conventional methods are used. It is a well known fact that real life time series generally includes both linear and nonlinear structures. Therefore, constraint of linearity is a vital limitation for conventional methods. To solve real time series some methods such as artificial neural networks have been used to obtain accurate forecasts in the literature. Although it is possible to model both linear and non linear part of time series by using artificial neural networks, the hybrid methods combining linear conventional methods and artificial neural networks can produce better forecasts. In this study, a novel hybrid approach in which seasonal autoregressive integrated moving average (SARIMA) model and Elman recurrent * Öğretim Gör. Dr., Ġstatistik Bölümü, Hacettepe Üniversitesi, Ankara, aladag@hacettepe.edu.tr (HaberleĢme Adresi) ** ArĢ.Gör.., Ġstatistik Bölümü, Ondokuz Mayıs Üniversitesi, Samsun, uyolcu@omu.edu.tr *** Doç. Dr., Ġstatistik Bölümü, Ondokuz Mayıs Üniversitesi, Samsun, erole@omu.edu.tr ORTA DOĞU TEKNĠK ÜNĠVERSĠTESĠ, FEN-EDEBĠYAT FAKÜLTESĠ, ĠSTATĠSTĠK BÖLÜMÜ | 109 VII. ĠSTATĠSTĠK GÜNLERĠ SEMPOZYUMU BĠLDĠRĠLER KĠTABI 2010 neural networks are combined is proposed. The method proposed is applied to Air pollution records in Ankara time series. The time series is also forecasted by using other methods available in the literature and obtained results are compared. Keywords: Forecasting, SARIMA, Elman Neural Networks. GĠRĠġ Hem eğrisel hem de doğrusal bileĢen içeren zaman serilerinin çözümlenmesinde klasik zaman serisi yöntemleri ile yapay sinir ağlarının melez yaklaĢımı uygulanmaktadır. Bu tür melez yaklaĢım ilk kez Zhang (2003)‟de önerilmiĢtir. Zhang (2003)‟de ARIMA modeli ve ileri beslemeli yapay sinir ağı modelinin kullanıldığı bir melez yaklaĢım önermiĢtir. Aladağ vd. (2009)‟da Zhang (2003)‟deki yaklaĢımı değiĢtirerek ileri beslemeli yapay sinir ağı modeli yerine geri beslemeli modelin kullanıldığı bir yöntem önerilmiĢtir. Erilli vd. (2010)‟da Elman ile ileri beslemeli yapay sinir ağlarının bir melez yaklaĢımı önerilmiĢtir. Bu çalıĢmada ise SARIMA modeli ve Elman yapay sinir ağının melezlendiği bir yaklaĢım önerilmiĢtir. ÇalıĢmanın ikinci bölümünde Elman yapay sinir ağları ile ilgili özet bilgi verilmiĢtir. Üçüncü bölümde yeni önerilen melez yaklaĢım verilmiĢtir. 4. bölümde önerilen yöntemin Ankara il merkezlerine göre yapılan ölçümlerde Mart 1994 ile Nisan 2006 yılları için elde edilen havadaki kükürtdioksit (SO2) miktarları zaman serisine uygulanmasından elde edilen sonuçlar verilmiĢtir. Son bölümde ise elde edilen bulgular tartıĢılmıĢtır. ELMAN GERĠ BESLEMELĠ YAPAY SĠNĠR AĞLARI Ġnsan sinir sisteminin bir taklidi olan yapay sinir ağları ileri ve geri beslemeli ağlar olarak ikiye ayrılabilir. Geri beslemeli yapay sinir ağlarının önemli bir türü Elman (1990)‟da önerilen Elman geri beslemeli yapay sinir ağıdır. Elman yapay sinir ağında girdi tabakası, gizli tabaka, geri besleme tabakası ve çıktı tabakası bulunmaktadır. Ağın gizli tabaka çıktıları bir adım gecikmeli olarak geri besleme mekanizması sayesinde tekrar ağa girdi olarak verilmektedir. Geri besleme tabakası ikinci bir girdi tabakası olarak da düĢünülebilir (Mandic ve Chambers, 2001). Geri besleme tabakasının ağılıkları, diğer tabakalardan farklı olarak eğitim esnasında değiĢtirilmemekte ve daima 1 değerini almaktadır. Literatürde zaman serisi öngörü probleminde, Elman sinir ağının ileri beslemeli sinir ağlarından daha doğru öngörü sonuçları verdiği birçok çalıĢma vardır. Elman geri beslemeli sinir ağının mimarisi Ģekil 1 „de görüldüğü gibidir. ORTA DOĞU TEKNĠK ÜNĠVERSĠTESĠ, FEN-EDEBĠYAT FAKÜLTESĠ, ĠSTATĠSTĠK BÖLÜMÜ | 110 VII. ĠSTATĠSTĠK GÜNLERĠ SEMPOZYUMU BĠLDĠRĠLER KĠTABI 2010 ġekil 1. Elman Geri Beslemeli Yapay Sinir Ağı SARIMA VE ELMAN GERĠ BESLEMELĠ YAPAY SĠNĠR AĞINA DAYALI MELEZ YAKLAġIM Mevsimsel zaman serileri öngörü problemi için literatürde en sık kullanılan modellerden biri SARIMA modelleridir. Parametrelerin eğrisel bir fonksiyonu olarak yazılabilmesine rağmen, gecikmeli değiĢkenlerin doğrusal bir bileĢimi olan SARIMA modeli doğrusal zaman serisi modelidir. Birçok zaman serisinin çözümü için SARIMA modeli yeterli olabilmektedir. Ancak gecikmeli değiĢkenler arası doğrusal dıĢı iliĢkiler içeren modeller ile çözümlenmesi gereken bazı zaman serileri için SARIMA modelleri yetersiz kalabilmektedir. Bu tür zaman serilerinin çözümlenmesinde yapay sinir ağları gibi eğrisel zaman sersi yöntemleri kullanılmaktadır. Gerçek hayat zaman serileri genellikle eğrisel ve doğrusal yapıları birlikte içerebilirler. Bu nedenle gerçek hayat zaman serilerinin çözümlenmesi için tek baĢına doğrusal zaman serisi modeli veya tek baĢına eğrisel zaman serisi yönteminin kullanılması yerine her iki model veya yöntem türünün birleĢtirildiği melez yaklaĢımlar kullanılabilir. Bir gerçek hayat zaman serisinde eğrisel ve doğrusal yapının toplamsal olarak bulunduğunu varsayalım. Bu durumda zaman serisi aĢağıdaki gibi yazılabilir. Burada zaman serisindeki doğrusal bileĢeni, ise zaman serisindeki eğrisel bileĢeni göstermektedir. Melez yaklaĢımlarda amaç eğrisel ve doğrusal bileĢenin ayrı modellenmesi ve farklı modellerden elde edilen öngörülerin birleĢtirilmesidir. Bu çalıĢmada önerilen yöntem SARIMA modeli ve Elman geri beslemeli yapay sinir ağının bir melezi olup aĢağıdaki adımlardaki gibi uygulanır. Adım 1. zaman serisine SARIMA modeli uygulanarak tahminler ̂ ve artıklar ̂ hesaplanır. SARIMA modelinin uygulanmasında en uygun modelin belirlenmesinde otokorelasyon fonksiyonundan aday modeller belirlenerek, en uygun model çeĢitli model seçim ölçütlerine göre karar verilebilir. Bu adımda elde edilen artık serisinin eğrisel bileĢen ve rastgele bileĢenin toplamı olarak düĢünülmektedir. ORTA DOĞU TEKNĠK ÜNĠVERSĠTESĠ, FEN-EDEBĠYAT FAKÜLTESĠ, ĠSTATĠSTĠK BÖLÜMÜ | 111 VII. ĠSTATĠSTĠK GÜNLERĠ SEMPOZYUMU BĠLDĠRĠLER KĠTABI 2010 Adım 2. Ġkinci adımda SARIMA modelinde elde edilen artık serisi ̂ Elman geri beslemeli yapay sinir ağı ile çözümlenerek tahminler ̂ elde edilir. En uygun Elman sinir ağı modelinin belirlenmesinde model seçim ölçütlerinden yaralanılır. Adım 3. Ġlk adımda zaman serisinin doğrusal kısmı SARIMA modeli ile tahmin edilerek oluĢturulan doğrusal bileĢeni için tahmin serisi ̂ ve ikinci adımda zaman serisinin eğrisel kısmı modellenerek oluĢturulan eğrisel bileĢen için tahmin serisi ̂ toplanarak melez yaklaĢımın tahminleri elde edilir. ̂ ̂ ̂ ÖNERĠLEN MELEZ YAKLAġIMIN UYGULAMASI Önerilen yaklaĢım, Ankara il merkezlerine göre yapılan ölçümlerde Mart 1994 ile Nisan 2006 yılları için elde edilen havadaki kükürtdioksit (SO2) miktarları zaman serisine uygulanmıĢtır. Zaman serisinin son 10 gözlemi test kümesi olarak ayrılmıĢ ve bu küme için elde edilen tahminler üzerinden önerilen yaklaĢım literatürdeki diğer yaklaĢımlar ile karĢılaĢtırılmıĢtır. Önerilen yöntemin uygulanması adımlar halinde verilmiĢtir. Adım1. Zaman serisine en uygun SARIMA modeli SARIMA(1,0,0)(0,1,1)12 olarak belirlenmiĢtir. SARIMA modelinin tahminleri ̂ ve artıklar ̂ „lar elde edilir. Adım 2. SARIMA‟dan elde edilen artık serisine Elman geri beslemeli yapay sinir ağı yöntemi uygulanmıĢtır. Elman yapay sinir ağının uygulanmasında aĢağıdaki bileĢenler kullanılmıĢtır. Gizli tabaka birimlerinde lojistik aktivasyon fonksiyonu kullanılmıĢtır, çıktı tabakasında ise doğrusal aktivasyon fonksiyonu kullanılmıĢtır. Aktivasyon fonksiyonları ile ilgili detaylı bilgi Gunay vd. (2007)‟den elde edilebilir. Elman geri beslemeli yapay sinir ağın eğitilmesinde Levenberg-Marquardt (LM) yöntemi kullanılmıĢtır. Çözümlemeler Matlab Neural Network Toolbox yardımı ile yapılmıĢtır. Girdi tabaka birim sayısı yani gecikmeli değiĢkenlerin sayısı 1 ile 12 arasında ve aynı zamanda gizli tabaka birim sayısı 1 ile 12 arasında değiĢtirilmiĢtir. Böylece, toplamda ortaya çıkan 144 farklı Elman yapay sinir ağı mimarisi ele alınarak en uygun yapay sinir ağı mimarisi, hata kareler ortalaması karekök (HKOK) değerine göre girdi sayısının 8, gizli tabaka birim sayısının 3 olduğu mimari olarak bulunmuĢtur. ORTA DOĞU TEKNĠK ÜNĠVERSĠTESĠ, FEN-EDEBĠYAT FAKÜLTESĠ, ĠSTATĠSTĠK BÖLÜMÜ | 112 VII. ĠSTATĠSTĠK GÜNLERĠ SEMPOZYUMU BĠLDĠRĠLER KĠTABI 2010 Adım 3. Bu adımda SARIMA modeli ve Elman geri beslemeli yapay sinir ağından elde edilen tahminler toplanarak melez yaklaĢımın tahminleri elde edilmiĢ ve Tablo 1‟in son sütununda test kümesi için elde edilen tahminler verilmiĢtir. Zaman serisine ayrıca Winters çarpımsal üstel düzleĢtirme yöntemi, SARIMA modeli ve Zhang (2003)‟de önerilen melez yaklaĢım da uygulanmıĢ ve test kümesine ait elde edilen sonuçlar Tablo 1‟de özetlenmiĢtir. Tablo 1‟de her bir yöntem için hatanın mutlak yüzdelik ortalaması (HMYO) ve yön doğruluğu (YD) ölçütleri de hesaplanmıĢtır. Bu ölçütlerle ilgili detaylı bilgi Gunay vd. (2007)‟den elde edilebilir. Tablo 1. Tüm Yöntemlerden Test Kümesi için Elde Edilen Öngörü Sonuçları Dönem TEM 2005 AĞU 2005 EYL 2005 EKĠ 2005 KAS 2005 ARA 2005 OCA 2006 ġUB 2006 MAR 2006 NĠS 2006 Winters Test SARIMA Çarpımsal Verisi (1,0,0)(0,1,1) Üstel DüzleĢtirme 21 22,9300 15,4000 27 22,3500 16,1100 25 23,6100 17,7700 28 28,8100 25,1200 38 46,9700 41,1100 45 54,6200 46,1200 38 58,1300 49,8000 36 46,9900 44,2400 24 37,8500 31,9600 22 24,7600 18,3900 HKOK 9,6249 7,1062 HMYO 0,0226 0,0036 YD 0,5556 0,6667 Zhang (2003) (6-6-1) Önerilen Yöntem (8-3-1) 23,0785 22,2947 22,8370 28,6960 46,9328 43,7966 38,0002 26,8608 17,7210 4,6312 7,3314 0,0071 1,0000 22,9237 22,3245 23,4565 28,8349 34,9308 38,5152 41,9141 41,8714 37,6352 24,6493 5,6819 0,0024 0,6667 BULGULAR VE TARTIġMA Birçok gerçek hayat zaman serisi hem doğrusal hem de eğrisel bileĢenleri içermektedir. Bu nedenle, bu tip zaman serilerini çözümlemede, yalnızca doğrusal modelleme yapabilen SARIMA ya da eğrisel modelleme yapabilen YSA gibi yöntemlerin tek baĢına kullanımı yeterli olmayacaktır. Dolayısıyla bu tip zaman serilerini çözümlemede doğrusal ve eğrisel yöntemlerin melezlendiği yaklaĢımların kullanılması daha doğru öngörü sonuçları verecektir. Bu çalıĢmada SARIMA modeli ve Elman yapay sinir ağının melezlendiği bir yaklaĢım önerilmiĢ ve Tablo 1 incelendiğinde, önerilen yeni melez yaklaĢımın, hem HKOK değeri (5,6819) hem de HMYO (0,0024) bakımından en iyi sonucu verdiği gözlemlenmektedir. Önerilen yaklaĢımın yalnızca yön doğruluğu açısından Zhang (2003)‟de önerilen melez yaklaĢımdan kötü sonuç vermektedir. Elde edilen tüm öngörü sonuçları Ģekil 1‟de verilmiĢtir. ORTA DOĞU TEKNĠK ÜNĠVERSĠTESĠ, FEN-EDEBĠYAT FAKÜLTESĠ, ĠSTATĠSTĠK BÖLÜMÜ | 113 VII. ĠSTATĠSTĠK GÜNLERĠ SEMPOZYUMU BĠLDĠRĠLER KĠTABI 70 60 50 40 2010 Test Verisi ARIMA (1,0,0)(0,1,1) Winters Çarpımsal Üstel Düzleştirme Zhang (2003) (6-6-1) Önerilen Yöntem (8-3-1) 30 20 10 0 ġekil 1. Tüm Yöntemlerden Elde Edilen Öngörülerin Gerçek Verileri Ġle Grafiği KAYNAKLAR ALADAĞ Ç.H., EĞRĠOĞLU E. AND KADĠLAR C., (2009). Forecasting nonlinear time series with a hybrid methodology, Applied Mathematic Letters, 22, 1467-1470. ERĠLLĠ N.A., EĞRĠOĞLU E., YOLCU U., ALADAĞ Ç.H., USLU V.R., (2010). Türkiye Enflasyonunun Ġleri ve Geri Beslemeli Yapay Sinir Ağlarınıın Melez YaklaĢımı ile Öngörüsü, DoğuĢ Üniversitesi Dergisi, 11 (1), 42-55. GÜNAY S., EĞRĠOĞLU E. VE ALADAĞ Ç.H., 2007, Tek DeğiĢkenli Zaman Serileri analizi, Hacettepe Üni. Yayınları, Ankara. MANDĠC D.P. AND CHAMBERS J.A., (2001). Recurrent neural networks for prediction, John Wiley& Sons, Ltd. ZHANG, G., (2003). Time series forecasting using a hybrid ARIMA and neural network model, Neurocomputing, 50, 159-175. ORTA DOĞU TEKNĠK ÜNĠVERSĠTESĠ, FEN-EDEBĠYAT FAKÜLTESĠ, ĠSTATĠSTĠK BÖLÜMÜ | 114 VII. ĠSTATĠSTĠK GÜNLERĠ SEMPOZYUMU BĠLDĠRĠLER KĠTABI 2010 SIRALI KÜME ÖRNEKLEMESĠ TASARIMINDA YIĞIN ORTALAMASINA ĠLĠġKĠN HĠPOTEZ TESTĠ Yaprak Arzu ÖZDEMĠR Fikri GÖKPINAR** ÖZET Sıralı küme örneklemesinde, örnek ortalaması istatistiğinin dağılımı teorik olarak elde edilemediğinden, yığın ortalamasına iliĢkin hipotez testi için gerekli kritik değerler belirlenememektedir. Bu çalıĢmada Monte Carlo yöntemi kullanılarak ortalamaya iliĢkin hipotez testi için kritik değerler elde edilmiĢtir. Elde edilen bu kritik değerlerden yararlanılarak örnek çapına bağlı bir kritik değer fonksiyonu önerilmiĢtir. Ayrıca sıralı küme örneklemesinin basit tesadüfi örneklemeye göre I. tip hata ve testin gücü bakımından hangi durumlarda daha iyi sonuç verdiği belirlenmeye çalıĢılmıĢtır. Anahtar kelimeler: Kritik Değer, Sıralı Küme Örneklemesi, Monte Carlo Simülasyonu. ABSTRACT In ranked set sampling, since the distribution of sample mean cannot be obtained theoretically, the critical values for hypothesis tests about population mean cannot be also calculated. In this study, the critical values for hypothesis tests about population mean is obtained by using Monte Carlo methods. A critical value function based on sample size is formed using these critical values. Also the ranked set sampling is compared to simple random sampling according to their type I errors and powers of tests. Keywords: Critical Value, Ranked Set Sampling, Monte Carlo Simulation. 1. GĠRĠġ Sıralı küme örneklemesi (SKÖ), örnekleme birimlerini ölçmek zor, ancak bunları sıralamak daha kolay olduğu durumda maliyet etkili bir örnekleme tekniğidir. SKÖ son yıllarda, çevre, ekoloji ve tarım gibi alanlarda sıkça kullanılmaktadır. Bu tür alanlarda, birimlerin ilgilenilen değiĢken bakımından ölçümlerinin yapılmasının maliyet, zaman veya diğer faktörler bakımından oldukça zor olduğu durumlarla karĢılaĢılabilir. Bu gibi durumlarda, SKÖ kullanılarak örnek seçim iĢlemi, basit tesadüfi örneklemeye(BTÖ) göre daha düĢük maliyetle ve daha kısa zamanda gerçekleĢtirilir. Yardımcı Doçent Doktor, Gazi Üniversitesi, Fen Edebiyat Fakültesi, Ġstatistik Bölümü, 06500 Ankara yaprak@gazi.edu.tr ** Yardımcı Doçent Doktor, Gazi Üniversitesi, Fen Edebiyat Fakültesi, Ġstatistik Bölümü, 06500 Ankara fikri@gazi.edu.tr ORTA DOĞU TEKNĠK ÜNĠVERSĠTESĠ, FEN-EDEBĠYAT FAKÜLTESĠ, ĠSTATĠSTĠK BÖLÜMÜ | 115 VII. ĠSTATĠSTĠK GÜNLERĠ SEMPOZYUMU BĠLDĠRĠLER KĠTABI 2010 Sıralı küme örneğini elde etmek için yığından seçilen n2 çaplı tesadüfi örnek, her biri n çaplı n kümeye ayrılır. Her bir küme birer basit tesadüfi örnek olup, i-nci kümenin elemanları Xi1, Xi2,…, Xin (i=1,2,…,n) olmak üzere, aynı F(x) dağılım fonksiyonuna ve f(x) yoğunluk fonksiyonuna sahiptir. i.nci küme için sıra istatistikleri Y(i,1)Y(i,2)…Y(i,n) Ģeklinde tanımlanır. i.nci kümeden i.nci sıra istatistiğinin görsel olarak veya maliyet gerektirmeyen yöntemler yardımıyla belirlendiği varsayılırsa, n tane küme için i.nci kümeden i.nci sıra istatistiğinin ölçülmesi ile Y(1:1), Y(2:2),…,Y(n:n) sıra istatistikleri sıralı küme örneğini oluĢtur. Burada Y(i:i); n çaplı örnekte i. kümedeki i.sıra istatistiğine iliĢkin gözlemi ifade eder (McIntyre,1952). Sıralı küme örneğinden elde edilecek yığın ortalamasına iliĢkin tahmin edici yığının dağılımı ne olursa olsun sapmasızdır. Ancak, yığın dağılımı biliniyorken, bu tahmin edici, yığın ortalamasına iliĢkin en küçük varyanslı tahmin edici olmayabilir. Bu durumda farklı SKÖ tasarımları kullanılarak yığına iliĢkin ortalamanın yansız ve en küçük varyanslı tahmin edicisi bulunabilir. Bu konuda, Sinha B.K ve diğ. (1996), normal ve üstel dağılım için yığın parametrelerini tahmin etmek üzere en iyi SKÖ tasarımını belirlemeye çalıĢmıĢlardır. Al- Saleh(2003) SKÖ tasarımlarını yığın ortalaması ve varyansı için sapmalı ve sapmasız tahmin edici ayrımı yapmaksızın hata kare ortalamalarına göre simülasyon yoluyla karĢılaĢtırmıĢtır. Muttlak (1997) sıralamadaki hata miktarını azaltmak ve tek modlu simetrik dağılımlar için etkinliği arttırmak üzere Medyan SKÖ tasarımını (MSKÖ) önermiĢtir. Samawi ve diğ.(1996) tekdüze dağılım için yığın ortalamasını tahmin etmek üzere uç SKÖ‟yü önermiĢlerdir. Ayrıca uç değerlere karĢı sağlam bir tahmin edici elde edilmesine imkan veren L-SKÖ Al-Nasser (2007) tarafından önerilmiĢtir. Yığın parametrelerinin tahmin edilmesinin yanı sıra, parametrelere iliĢkin hipotez testlerinde BTÖ yerine birimlerin SKÖ ile elde edilmesi durumunda kullanılan test istatistiğine bağlı olarak, daha yüksek güç değerlerine ulaĢıldığı Mutlak ve Abu Dayyeh (1998), Pan and Sien(2002) ve Shen(1994)‟in yaptıkları çalıĢmalardan görülmektedir. Ayrıca Tseng ve Wu (2007) normal ve üstel dağılımın yığın ortalamasına iliĢkin hipotez testi için MSKÖ ve SKÖ altında kritik değerleri elde etmek üzere, göreli etkinlik değerlerine bağlı bir formül geliĢtirmiĢlerdir. Bu çalıĢmada, SKÖ altında yığın ortalamasına iliĢkin hipotez testi incelenmiĢtir. SKÖ altında örnek ortalaması istatistiğinin dağılımı teorik olarak bulunamadığından hipotez testi için gerekli kritik değerlerin elde edilmesi mümkün olamamaktadır. Bu nedenle Monte Carlo yöntemi kullanılarak ortalamaya iliĢkin hipotez testlerinde farklı örnek çapları için kritik değerler elde edilmiĢtir. Ayrıca elde edilen kritik değerler için, örnek çapına bağlı bir fonksiyon önerilmiĢtir. Bu fonksiyon kullanılarak, herhangi bir örnek çapı için kritik değer belirlenebilmektedir. Kritik değerler kullanılarak, SKÖ nün BTÖ ye göre I. tip hata ve testin gücü bakımından karĢılaĢtırmaları yapılmıĢ ve hangi durumlarda SKÖ nün daha iyi sonuç verdiği belirlenmeye çalıĢılmıĢtır. 2. YIĞIN ORTALAMASINA ĠLĠġKĠN HĠPOTEZ TESTĠNDE KRĠTĠK DEĞER FONKSĠYONU Bu bölümde normal dağılımdan elde edilen n çaplı sıralı küme örneği kullanılarak yığın ortalamasına iliĢkin yığın varyansı biliniyorken ve bilinmiyorken hipotez testi ele alınacaktır. Burada incelenecek alternatif hipotez çift yönlüdür. Yığın ortalamasına iliĢkin dikkate alınacak ORTA DOĞU TEKNĠK ÜNĠVERSĠTESĠ, FEN-EDEBĠYAT FAKÜLTESĠ, ĠSTATĠSTĠK BÖLÜMÜ | 116 VII. ĠSTATĠSTĠK GÜNLERĠ SEMPOZYUMU BĠLDĠRĠLER KĠTABI 2010 hipotezler; H 0 : 0 , H1 : 0 olmak üzere, test istatistiği elde edilirken yığın dağılımının normal olduğu varsayımı altında, SKÖ ile elde edilen n çaplı sıralı küme örneğinden yararlanılacaktır. 1) Yığın Varyansı Biliniyorken: n çaplı sıralı küme örneğinden elde edilen örnek ortalaması n istatistiği YSKÖ Y(i:i ) / n olmak üzere, yığın varyansı 2 biliniyorken kullanılacak test i 1 istatistiği; ZSKÖ = YSKÖ -0 / n olarak tanımlanır. Bu test istatistiğinin kritik değerlerini elde etmek amacıyla H0‟ın doğruluğu altında, 106 adet n çaplı sıralı küme örneği üretilmiĢtir. Bu değerler için ZSKÖ hesaplanarak sıralanmıĢ ve alt ve üst %2.5luk kısma karĢılık gelen değer kritik değer olarak belirlenmiĢtir. Bu aĢamada farklı örnek çapları için elde edilen kritik değerlerden yararlanarak bu değerler için örnek çapına bağlı bir fonksiyon oluĢturulmaya çalıĢılmıĢtır. En uygun fonksiyonu elde etmek üzere, Matlab 2009a programından yararlanılarak, farklı modeller için verinin çeĢitli ölçülerle uygunluğu test edilmiĢ ve en uygun model elde edilmeye çalıĢılmıĢtır. Yığın varyansı biliniyorken elde edilen fonksiyon aĢağıda verilmiĢtir. ( p1n2 p2 n 1) C ( q1n3 q2 n 2 q3n q4 ) Bu modelde, p1=0.0027, p2=0.1955, q1=0.00002, q2=0.0099, q3=0.2198, q4=0.3862 ve belirleme katsayısı R2=0.99996‟dir. Modelin uygunluğunu test etmek üzere, Monte Carlo ile elde edilen kritik değerler ile modelden elde edilen kritik değerler arasındaki mutlak fark ( ), oransal fark ( ) ve uygunluk katsayısı (AP) kullanılmıĢtır. Ĉ C , Cˆ C / Cˆ , AP=1- olmak üzere, örnek çapı n in farklı değerleri için Ĉ , C , , , ve AP değerleri Tablo1 de verilmiĢtir. Tablo1 e bakıldığında incelenen tüm örnek çapları için, Monte Carlo kritik değer tahmin değerleri ile modelden elde edilen yaklaĢık kritik değerler arasındaki uygunluk katsayısı %99.75‟in üzerindedir. Ayrıca aralarındaki mutlak farkın 0.004‟ün altında olduğu görülmektedir. Dolayısıyla bu modelden elde edilen kritik değerler oldukça yüksek güvenirliğe sahiptir. ORTA DOĞU TEKNĠK ÜNĠVERSĠTESĠ, FEN-EDEBĠYAT FAKÜLTESĠ, ĠSTATĠSTĠK BÖLÜMÜ | 117 VII. ĠSTATĠSTĠK GÜNLERĠ SEMPOZYUMU BĠLDĠRĠLER KĠTABI 2010 Tablo 1.Yığın varyansı biliniyorken Monte Carlo( Ĉ ) ve model yardımıyla ( C ) elde edilen kritik değerler n Ĉ C 3 5 7 9 12 15 18 21 24 28 32 36 40 45 50 1.4183 1.1802 1.0304 0.9356 0.8318 0.7575 0.7010 0.6542 0.6182 0.5780 0.5444 0.5160 0.4928 0.4667 0.4462 1.4188 1.1782 1.0342 0.9353 0.8313 0.7572 0.7007 0.6556 0.6186 0.5780 0.5447 0.5167 0.4928 0.4673 0.4455 0.0004 0.0020 0.0038 0.0003 0.0005 0.0003 0.0003 0.0014 0.0004 0.0001 0.0003 0.0008 0.0000 0.0006 0.0007 0.0313 0.1678 0.3648 0.0283 0.0551 0.0374 0.0387 0.2107 0.0614 0.0112 0.0624 0.1522 0.0056 0.1262 0.1558 (%) AP(%) 99.9687 99.8322 99.6352 99.9717 99.9449 99.9626 99.9613 99.7893 99.9386 99.9888 99.9376 99.8478 99.9944 99.8738 99.8442 2) Yığın Varyansı Bilinmiyorken: X rastgele değiĢkeni, beklenen değeri ve varyansı 2 olan normal dağılıma sahip olmak üzere, H 0 : 0 H1 : 0 hipotezinin test edilmesi için bu dağılımdan n birimlik sıralı küme örneği elde edilsin. Yığın varyansının bilinmediği varsayımı altında test iĢlemi için kullanılacak test istatistiği TSKÖ = YSKÖ -0 SSKÖ / n olmak üzere, yığın varyansı için SKÖ ile elde edilen yansız tahmin edici, 2 SSKÖ n n 1 i2:n 1 i:n 1 n 1 Y ( i:i ) ˆblue 2 i2:n Ģeklindedir. Burada n ˆ blue Y ( i:i ) / i2:n 1 n 1/ 2 i:n 1 ORTA DOĞU TEKNĠK ÜNĠVERSĠTESĠ, FEN-EDEBĠYAT FAKÜLTESĠ, ĠSTATĠSTĠK BÖLÜMÜ | 118 VII. ĠSTATĠSTĠK GÜNLERĠ SEMPOZYUMU BĠLDĠRĠLER KĠTABI 2010 olarak tanımlanmaktadır. Ayrıca i:n ve i2:n sırasıyla standart normal dağılımdan elde edilen n çaplı örnekteki i. sıra istatistiğinin beklenen değerini ve varyansını ifade etmektedir (Yu ve diğ.,1996). Önerilen test istatistiğinin kritik değerleri, C (n2 p1 n p2 ) ( q1n3 q2 n 2 q3n q4 ) yaklaĢık formülü ile elde edilebilir. Bu modelde, p1= 0.0319, p2=-0.2172, q1=0.00015, q2=0.0520, q3= 0.3502, q4= -0.8213 olarak elde edilmiĢtir. Modelin belirleme katsayısı R2=0.99997 dir. Önerilen modelin uygunluğunu test etmek üzere, Monte Carlo ile elde edilen kritik değerler ile modelden elde edilen kritik değerler arasındaki mutlak fark ( ), oransal fark ( ) ve uygunluk katsayısı (AP) kullanılmıĢtır. Bu değerler örnek çapı n in farklı değerleri için Tablo 2‟de hesaplanmıĢtır. Tablo 2. Yığın varyansı bilinmiyorken örnek çaplarına göre =0.05 iken Monte Carlo ( Ĉ ) ve model yardımıyla ( C ) elde edilen kritik değerler n Ĉ C 3 5 7 9 12 15 18 21 24 28 32 36 40 45 50 4.3773 2.4818 1.9731 1.7076 1.4727 1.3196 1.2095 1.1292 1.0642 0.9952 0.9385 0.8934 0.8569 0.8141 0.7825 4.3758 2.4812 1.9727 1.7083 1.4711 1.3194 1.2113 1.1291 1.0638 0.9947 0.9397 0.8944 0.8563 0.8162 0.7823 0.0015 0.0005 0.0004 0.0007 0.0016 0.0002 0.0017 0.0002 0.0003 0.0004 0.0012 0.0010 0.0006 0.0021 0.0001 (%) AP(%) 0.0335 0.0218 0.0205 0.0404 0.1070 0.0129 0.1426 0.0164 0.0302 0.0451 0.1250 0.1166 0.0650 0.2615 0.0161 99.9665 99.9782 99.9795 99.9596 99.8930 99.9871 99.8574 99.9836 99.9698 99.9549 99.8750 99.8834 99.9350 99.7385 99.9839 ORTA DOĞU TEKNĠK ÜNĠVERSĠTESĠ, FEN-EDEBĠYAT FAKÜLTESĠ, ĠSTATĠSTĠK BÖLÜMÜ | 119 VII. ĠSTATĠSTĠK GÜNLERĠ SEMPOZYUMU BĠLDĠRĠLER KĠTABI 2010 4. SIRALI KÜME ÖRNEKLEMESĠ ĠLE BASĠT TESADÜFÎ ÖRNEKLEMENĠN 1.NCĠ TĠP HATA VE TESTĠN GÜCÜ BAKIMINDAN KARġILAġTIRILMASI Bu bölümde, yığın ortalamasının hipotez testi için H1 : 0 alternatif hipotezi dikkate alınarak BTÖ ve SKÖ tasarımları I. tip hata ve testin gücü bakımından karĢılaĢtırılmıĢtır. Öncelikle yığın varyansının bilindiği durumda belirlenen n örnek çapı için, ortalaması 1 (0.0(0.1)1.5) ve varyansı 2=1 olan normal dağılımdan 106 veri üretilerek, SKÖ ve BTÖ tasarımlarına uygun olarak test istatistikleri elde edilmiĢtir. Buradan red oranları dikkate alınarak I. tip hata ve testin gücü değerleri tahmin edilmiĢtir. Elde edilen değerler Tablo 3‟te verilmiĢtir. Tablo 3.Varyans biliniyorken yığın ortalamasının çift yönlü testi için 1.nci tip hata ve testin gücü değerleri n 0.0 0.1 0.2 0.3 0.4 0.5 |1-0| 0.6 0.7 0.8 0.9 1.0 1.1 1.2 1.3 1.4 1.5 SKÖ BTÖ SKÖ BTÖ SKÖ BTÖ SKÖ BTÖ SKÖ BTÖ SKÖ BTÖ SKÖ BTÖ SKÖ BTÖ SKÖ BTÖ SKÖ BTÖ SKÖ BTÖ SKÖ BTÖ SKÖ BTÖ SKÖ BTÖ SKÖ BTÖ SKÖ BTÖ 3 0.0509 0.0509 0.0564 0.0528 0.0768 0.0636 0.1111 0.0820 0.1600 0.1058 0.2224 0.1411 0.2980 0.1789 0.3892 0.2288 0.4807 0.2839 0.5805 0.3462 0.6718 0.4096 0.7502 0.4771 0.8198 0.5476 0.8763 0.6157 0.9179 0.6807 0.9483 0.7374 5 0.0515 0.0495 0.0664 0.0566 0.1159 0.0741 0.1995 0.1029 0.3169 0.1445 0.4598 0.2014 0.6046 0.2658 0.7386 0.3433 0.8464 0.4332 0.9177 0.5195 0.9605 0.6096 0.9836 0.6921 0.9937 0.7675 0.9978 0.8264 0.9994 0.8810 0.9999 0.9181 7 0.0487 0.0497 0.0786 0.0567 0.1695 0.0823 0.3253 0.1270 0.5188 0.1855 0.7076 0.2640 0.8531 0.3576 0.9391 0.4608 0.9808 0.5637 0.9945 0.6625 0.9989 0.7549 0.9998 0.8285 1.0000 0.8877 1.0000 0.9310 1.0000 0.9600 1.0000 0.9766 9 0.0508 0.0500 0.0973 0.0592 0.2374 0.0920 0.4706 0.1450 0.7098 0.2248 0.8819 0.3197 0.9654 0.4367 0.9922 0.5547 0.9988 0.6724 0.9999 0.7702 1.0000 0.8519 1.0000 0.9104 1.0000 0.9491 1.0000 0.9741 1.0000 0.9876 1.0000 0.9944 12 0.0502 0.0493 0.1283 0.0647 0.3737 0.1066 0.6869 0.1807 0.9031 0.2834 0.9833 0.4117 0.9986 0.5460 1.0000 0.6786 1.0000 0.7929 1.0000 0.8755 1.0000 0.9339 1.0000 0.9678 1.0000 0.9859 1.0000 0.9944 1.0000 0.9979 1.0000 0.9995 15 0.0507 0.0516 0.1668 0.0664 0.5165 0.1223 0.8539 0.2120 0.9805 0.3410 0.9988 0.4916 1.0000 0.6423 1.0000 0.7744 1.0000 0.8723 1.0000 0.9353 1.0000 0.9731 1.0000 0.9892 1.0000 0.9963 1.0000 0.9989 1.0000 0.9997 1.0000 0.9999 18 0.0508 0.0503 0.2188 0.0717 0.6626 0.1363 0.9462 0.2466 0.9970 0.3989 1.0000 0.5633 1.0000 0.7204 1.0000 0.8417 1.0000 0.9239 1.0000 0.9689 1.0000 0.9890 1.0000 0.9964 1.0000 0.9990 1.0000 0.9998 1.0000 1.0000 1.0000 1.0000 21 0.0488 0.0509 0.2777 0.0750 0.7833 0.1520 0.9843 0.2808 0.9998 0.4485 1.0000 0.6297 1.0000 0.7859 1.0000 0.8942 1.0000 0.9572 1.0000 0.9849 1.0000 0.9958 1.0000 0.9990 1.0000 0.9998 1.0000 1.0000 1.0000 1.0000 1.0000 1.0000 Tablo 3‟te |1-0| =0 iken elde edilen değerler I. tip hata değerlerini vermektedir. Tablodan görüldüğü gibi her iki tasarımında da I. tip hata değerleri nominal (0.05) değerlerine oldukça ORTA DOĞU TEKNĠK ÜNĠVERSĠTESĠ, FEN-EDEBĠYAT FAKÜLTESĠ, ĠSTATĠSTĠK BÖLÜMÜ | 120 VII. ĠSTATĠSTĠK GÜNLERĠ SEMPOZYUMU BĠLDĠRĠLER KĠTABI 2010 yakın sonuçlar verdiği görülmektedir. 1-0 farkı arttıkça her iki tasarımda da testin güç değerleri artmakla birlikte, SKÖ tasarımından elde edilen güç değerleri BTÖ den elde edilen güç değerlerinden daha yüksektir. Özellikle 1-0 farkının 0.3 ile 0.8 arasında olması durumunda örnek çapı arttıkça testin güçleri arasındaki farklılık artmaktadır. Örneğin; örnek çapı 18 iken 10=0.3 olduğunda SKÖ ile elde edilen testin gücü 0,9462 iken, BTÖ ile elde edilen testin gücü 0,2466 olarak elde edilmiĢtir. Benzer Ģekilde, SKÖ nün en yaygın kullanıldığı küçük örnek çaplarında bile testlerin güçleri arasındaki bu farklılık oldukça yüksektir. Tablo 4. Varyans bilinmiyorken yığın ortalamasının çift yönlü testi için 1.nci tip hata ve testin gücü değerleri n 0,0 0,1 0,2 0,3 0,4 0,5 |1-0| 0,6 0,7 0,8 0,9 1,0 1,1 1,2 1,3 1,4 1,5 SKÖ BTÖ SKÖ BTÖ SKÖ BTÖ SKÖ BTÖ SKÖ BTÖ SKÖ BTÖ SKÖ BTÖ SKÖ BTÖ SKÖ BTÖ SKÖ BTÖ SKÖ BTÖ SKÖ BTÖ SKÖ BTÖ SKÖ BTÖ SKÖ BTÖ SKÖ BTÖ 3 0.0496 0.0503 0.0534 0.0511 0.0619 0.0550 0.0760 0.0623 0.0954 0.0700 0.1203 0.0837 0.1496 0.0974 0.1834 0.1163 0.2209 0.1353 0.2572 0.1543 0.3017 0.1798 0.3437 0.2040 0.3908 0.2287 0.4348 0.2602 0.4778 0.2840 0.5241 0.3166 5 0.0483 0.0502 0.0605 0.0534 0.0925 0.0642 0.1458 0.0823 0.2222 0.1075 0.3116 0.1397 0.4183 0.1783 0.5290 0.2290 0.6316 0.2812 0.7266 0.3395 0.8038 0.3990 0.8666 0.4641 0.9112 0.5309 0.9427 0.5935 0.9657 0.6560 0.9805 0.7107 7 0.0510 0.0502 0.0711 0.0555 0.1417 0.0741 0.2542 0.1048 0.4046 0.1449 0.5690 0.2016 0.7182 0.2677 0.8351 0.3458 0.9137 0.4300 0.9585 0.5159 0.9827 0.5990 0.9927 0.6840 0.9972 0.7544 0.9992 0.8171 0.9998 0.8669 1.0000 0.9059 9 0.0496 0.0506 0.0859 0.0577 0.2037 0.0834 0.3894 0.1238 0.6051 0.1865 0.7861 0.2623 0.9062 0.3547 0.9662 0.4549 0.9897 0.5616 0.9974 0.6578 0.9995 0.7460 1.0000 0.8207 1.0000 0.8839 1.0000 0.9267 1.0000 0.9565 1.0000 0.9754 12 0.0507 0.0515 0.1172 0.0616 0.3239 0.0974 0.6095 0.1590 0.8412 0.2445 0.9571 0.3538 0.9920 0.4721 0.9990 0.5990 0.9998 0.7141 1.0000 0.8085 1.0000 0.8840 1.0000 0.9330 1.0000 0.9660 1.0000 0.9839 1.0000 0.9927 1.0000 0.9972 15 0.0517 0.0502 0.1544 0.0648 0.4630 0.1122 0.7963 0.1915 0.9584 0.3045 0.9952 0.4373 0.9997 0.5791 1.0000 0.7114 1.0000 0.8220 1.0000 0.9005 1.0000 0.9486 1.0000 0.9776 1.0000 0.9907 1.0000 0.9966 1.0000 0.9988 1.0000 0.9997 18 0.0502 0.0487 0.2038 0.0701 0.6072 0.1250 0.9180 0.2250 0.9924 0.3604 0.9998 0.5174 1.0000 0.6673 1.0000 0.8006 1.0000 0.8932 1.0000 0.9494 1.0000 0.9789 1.0000 0.9925 1.0000 0.9978 1.0000 0.9991 1.0000 0.9999 1.0000 1.0000 21 0.0520 0.0510 0.2558 0.0734 0.7377 0.1414 0.9721 0.2587 0.9992 0.4172 1.0000 0.5898 1.0000 0.7447 1.0000 0.8615 1.0000 0.9365 1.0000 0.9742 1.0000 0.9914 1.0000 0.9976 1.0000 0.9994 1.0000 0.9998 1.0000 1.0000 1.0000 1.0000 Tablo 4‟ten görüldüğü gibi, her iki tasarımında I. tip hataları nominal (0.05) değerlerine oldukça yakın sonuçlar verdiği görülmektedir. Ayrıca yığın varyansının bilinmediği durumda beklendiği gibi testin gücü değerleri yığın varyansının bilindiği Tablo 3‟teki değerlerden daha düĢüktür. Ancak SKÖ tasarımından elde edilen güç değerleri BTÖ den elde edilen değerlerden daha yüksektir. ORTA DOĞU TEKNĠK ÜNĠVERSĠTESĠ, FEN-EDEBĠYAT FAKÜLTESĠ, ĠSTATĠSTĠK BÖLÜMÜ | 121 VII. ĠSTATĠSTĠK GÜNLERĠ SEMPOZYUMU BĠLDĠRĠLER KĠTABI 2010 KAYNAKLAR Al-Saleh, M.F., (2004). On the totality of ranked set sampling. Applied Mathematics and Computation. 47, 527-539. McIntyre, G. A., (1952). A method of unbiased selective sampling, using ranked sets. Australian Journal of Agricultural Research. 3: 385-390. Mutlak, H. A.,Abu-Dayyeh, W.,(1998). Testing some hypothesis about the normal distribution using ranked set sample: A more powerful test. Journal of Information and Optimization Sciences. 19: 1-11. Al-Nasser,A.D., (2007), L ranked set sampling: A generalization procedure for robust visual sampling,Communication in Statistics:Simulation and Computation(36):33-43. Pan, Y.J., Sien, W.H.,(2002). Tests for normal parameters based on a ranked set sample. Tunghai Management review. 4:1-16. Samawi H.,Abu-Dayyeh W.,Ahmed,M.S, (1996), Estimating the population mean using extreme ranked set sampling. Biometrical Journal(38)577-586. Shen, W.H.,(1994), Use of ranked set sampling for test of a normal mean. Calcutta Statistical Association Bulletin. 44: 183-193. Sinha, B.K., Sinha, B.K., S. Purkayasta,(1996). On some aspects of ranked set sampling for estimation of normal and exponential parameters. Statistical Decisions 14: 223-240. Muttlak, H.A.,(1997). Median ranked set sampling, Applied Statistical Science 6 (4) 245- 255. Tseng, Y., Wu, S., (2007). Ranked- Set- Sample- based Tests for Normal and Exponential Means. Communication in Statistics:Simulation and Computation.36: 761-782. Yu, P.L.H., Lam, K., Sinha, B. K. (1996) Estimation of Variance Based on Balanced and Unbalanced Ranked Set Samples, Research Report, Serial No. 112, Department of Statistics, The University of Hong Kong, Hong Kong. ORTA DOĞU TEKNĠK ÜNĠVERSĠTESĠ, FEN-EDEBĠYAT FAKÜLTESĠ, ĠSTATĠSTĠK BÖLÜMÜ | 122 VII. ĠSTATĠSTĠK GÜNLERĠ SEMPOZYUMU BĠLDĠRĠLER KĠTABI 2010 TL/DOLAR DÖVĠZ KURU VERĠLERĠNĠN BULANIK ZAMAN SERĠSĠ YAKLAġIMLARI ĠLE ÖNGÖRÜSÜ Cem Koçak1, Erol Eğrioğlu2, Ufuk Yolcu2 ve ÇağdaĢ Hakan Aladağ3 1 Rektörlük Birimi, Hitit Üniversitesi, Çorum 2 Ġstatistik Bölümü, Ondokuz Mayıs Üniversitesi, Samsun 3 Ġstatistik Bölümü, Hacettepe Üniversitesi, Ankara ÖZET Son yıllarda bulanık zaman serisi öngörü yöntemlerine olan ilgi oldukça fazladır. Özellikle döviz kuru gibi gün içinde değeri sürekli değiĢen zaman serileri bulanık zaman serileri olarak ifade edilebilmektedir. Gözlemlerinde belirsizlik olan bu tür zaman serilerinin bulanık zaman serisi olarak ele alınması kuĢkusuz daha doğru olacaktır. Bu çalıĢmada 20.05.2008 - 29.09.2008 tarihleri arasındaki Amerikan Doları kuru (TL/Dolar) zaman serisi çeĢitli klasik ve bulanık zaman serisi yöntemleri ile çözülerek elde edilen sonuçlar yorumlanmıĢtır. TL/Dolar zaman serisi için en uygun zaman serisi çözümleme yöntemi belirlenmiĢtir. Anahtar kelimeler: Öngörü, bulanık zaman serileri, döviz kuru. 1. GiriĢ Bulanık zaman serisi ilk olarak Song ve Chissom (1993) tarafından, Zadeh (1965)‟in bulanık küme teorisine dayalı olarak ortaya atılmıĢtır. Gözlemleri belirsizlik içeren zaman serilerinin, bulanık zaman serileri olarak tanımlanması ve bulanık zaman serisi yaklaĢımları ile çözümlenmesi gerektiği Song ve Chissom (1993)‟de belirtilmektedir. Bunun yanında, bulanık zaman serisi yaklaĢımlarının klasik yaklaĢımlardaki doğrusallık ve gözlem sayısı gibi kısıtları içermemesi, bu yaklaĢımlara olan ilgiyi giderek arttırmaktadır. Song ve Chissom (1993)‟de Alabama Üniversitesi kayıt verileri için önerdikleri bulanık zaman serisi yaklaĢımının literatürdeki klasik yaklaĢımlardan daha doğru öngörü sonuçları verdiğini göstermiĢtir. Song ve Chissom (1993)‟de önerilen yöntem karmaĢık matris iĢlemleri içermektedir. Bu nedenle Chen (1996) çalıĢmasın da Song ve Chissom (1993) çalıĢmasındaki karmaĢık bileĢke iĢlemlerine gerek duymayan, bulanık mantık grup iliĢki tablolarının kullanıldığı bir yaklaĢım önerilmiĢtir. Song ve Chissom (1993) ve Chen (1996) çalıĢmasın da önerilen yöntemler birinci dereceden bulanık zaman serisi modelini kullanmaktadır. Chen (2002)‟de ise yine bulanık mantık grup iliĢki tablolarını kullanan yüksek dereceli bir bulanık zaman serisi yaklaĢımı önerilmiĢtir. Chen (2002) çalıĢmasında önerilen yöntem, bir çok bulanık mantık grup iliĢki tablosu elde edilmesini gerektirdiğinden oldukça fazla iĢleme gerek duyan bir yöntemdir. Aladağ vd. (2009)‟da ise bulanık iliĢkilerin ileri beslemeli yapay sinir ağları ile belirlendiği ve Chen (2002)‟ye göre daha kolay hesaplamalar içeren yüksek dereceli bir bulanık zaman serisi yaklaĢımı önerilmiĢtir. Literatürde döviz kuru verilerinin doğrusal dıĢı yapılar içerdiği ve klasik zaman serisi yaklaĢımları ile çözümlenemediği belirtilmektedir (Kadılar, 2009). Döviz kuru verileri Giddy ve Duffey (1975), Hakkio ve Rush (1986) çalıĢmalarında rastgele yürüyüĢ modeli ile, Baharumshah ORTA DOĞU TEKNĠK ÜNĠVERSĠTESĠ, FEN-EDEBĠYAT FAKÜLTESĠ, ĠSTATĠSTĠK BÖLÜMÜ | 123 VII. ĠSTATĠSTĠK GÜNLERĠ SEMPOZYUMU BĠLDĠRĠLER KĠTABI 2010 ve Liew (2001), Brooks (1997) ve Palma ve Chan (1997) doğrusal olmayan zaman serisi yaklaĢımları ile çözümlemiĢtir. Gradojevic ve Yang (2000), Kadilar vd. (2009)‟da ise yapay sinir ağları ile döviz kuru verilerini çözümlemiĢtir. Bu çalıĢmada 20.05.2008 - 29.09.2008 dönemine ait TL/USD döviz kuru (USD) zaman serisi literatürde ile olarak bulanık zaman serisi yöntemleri ile çözümlenerek klasik yaklaĢımlar ile bulanık zaman serisi yaklaĢımlarından elde edilen sonuçlar karĢılaĢtırılmıĢtır. Veriye klasik yaklaĢımlardan ARIMA ve Basit Üstel DüzleĢtirme yöntemleri ve bulanık zaman serisi yaklaĢımlarından Chen (1996), Chen (2002) ve Aladağ vd. (2009) yöntemleri uygulanmıĢtır. ÇalıĢmanın 2 bölümünde uygulamada kıllanılan yöntemler hakkında kısa bilgi verilmiĢtir. Üçüncü bölümde tanıtılan yöntemlerin TL/Dolar zaman serisine uygulanmasının detayları ve elde edilen sonuçlar verilmiĢtir. Son bölümde ise elde edilen sonuçlar tartıĢılmıĢtır. 2. Uygulamada Kullanılan Yöntemler 2.1. ARIMA Modelleri ARIMA modelleri literatür de en iyi bilinen doğrusal zaman serisi yöntemleridir. ARIMA modelleri verideki doğrusal yapıyı modellemeyi amaçlamaktadır. Yöntemin uygulanması için Box ve Jenkins (1976)‟da bir algoritma verilmektedir. Box-Jenkins yöntemi olarak da bilinen bu algoritma model belirleme, parametre tahmini, artık analizi ve öngörü aĢamalarından oluĢmaktadır. (p,d,q). dereceden bir model sembolik olarak ARIMA(p,d,q) ile gösterilmekte ve aĢağıdaki eĢitlikteki gibi yazılmaktadır. ( B)(1 B) d X t ( B)at (1) Burada, ( B) 1 1 B 2 B 2 p B p , ( B) 1 1 B q B q , B p X t X t p olmaktadır. ARIMA(0,1,0) modeli rastgele yürüyüĢ modeli olarak da bilinmektedir. 2.2. Basit Üstel DüzleĢtirme Bu yöntem literatür de birçok çalıĢmada kullanılmıĢ klasik zaman serisi yaklaĢımlarındandır. Yöntemde her bir tahmin bir önceki dönemin gerçek değeri ile tahmininin ağırlıklı toplamıdır. Yöntem döviz kuru gibi bir ortalama etrafında salınan zaman serileri için baĢarılı öngörü sonuçları vermektedir. Basit üstel düzleĢtirme modelinde tahminler, α düzleĢtirme katsayısı olmak üzere aĢağıdaki formül ile hesaplanır. Xˆ t 1 X t (1 ) Xˆ t (2) Basit üstel düzleĢtirme yöntemi ile ilgili detaylar Kadılar (2003)‟den elde edilebilir. ORTA DOĞU TEKNĠK ÜNĠVERSĠTESĠ, FEN-EDEBĠYAT FAKÜLTESĠ, ĠSTATĠSTĠK BÖLÜMÜ | 124 VII. ĠSTATĠSTĠK GÜNLERĠ SEMPOZYUMU BĠLDĠRĠLER KĠTABI 2010 2.3. Chen „in Birinci dereceden Bulanık Zaman Serisi YaklaĢımı Bulanık zaman serisi ilk olarak Song ve Chissom (1993) tarafından, Zadeh (1965)‟in bulanık küme teorisine dayalı olarak ortaya atılmıĢtır. Chen (1996) çalıĢmasın da Song ve Chissom (1993) çalıĢmasındaki karmaĢık bileĢke iĢlemlerine gerek duymayan, bulanık mantık grup iliĢki tablolarının kullanıldığı bir yaklaĢım önerilmiĢtir. Chen (1996)‟da önerilen yöntem aĢağıda algoritma olarak verilmiĢtir. Adım 1. Evrensel küme (U ) ve alt aralıkları (ui , i 1,2,..., b) tanımlanır. Evrensel kümenin baĢlangıç ve bitiĢ noktaları belirlenir. Bu noktalar zaman serisinin aldığı ve alabileceği mümkün değerleri kapsayacak Ģekilde seçilir. Daha sonra uygun aralık uzunluğuna göre evrensel küme alt aralıklara parçalanır. Bu yöntemde aralık uzunluğunun belirlenmesi araĢtırmacıya bağlıdır. Belirlenecek aralık uzunluğunun alt aralık sayısı üzerinde etkili olduğu unutulmamalıdır. Adım 2. Evrensel küme ve parçalanmalara bağlı olarak bulanık kümeler tanımlanır. Ai f Ai (u1 ) / u1 f Ai (ub ) / ub i 1,2,..., b Adım 3. Gözlemler bulanıklaĢtırılır. Her bir gözlemin bulunduğu alt aralık belirlenir. Belirlenen alt aralığın en yüksek üyelik değerine sahip olduğu bulanık küme belirlenir. Gözlemin bulanık değeri belirlenen bu bulanık kümedir. Adım 4. Bulanık mantık iliĢki ve grup iliĢki tablosu oluĢturulur. Örneğin, bulanık mantık iliĢkiler A1 A2 , A1 A1 , A1 A3 Ģeklinde iken, bulanık mantık grup iliĢki A1 A2 , A3 , A1 Ģeklinde olmaktadır. Adım 5. Öngörüler elde edilir. Öngörü elde etmede birkaç durum söz konusudur. F (t 1) A j olsun. Durum 1. Bulanık grup iliĢki tablosundan sadece Ai A j iliĢkisi var ise öngörü A j . Durum 2. Bulanık grup iliĢki tablosunda Ai Ai , A j ,..., Ak ise öngörü Ai , A j ,..., Ak . Durum 3.Bulanık grup iliĢki tablosunda Ai Boş ise öngörü Ai ‟dir. Adım 6. DurulaĢtırma iĢlemi uygulanır. DurulaĢtırmada merkezileĢtirme yöntemi kullanılır. Adım 5 de belirtilen durum 1 ve 3 için bulanık öngörü A j olduğunda durulaĢtırılmıĢ öngörü, A j bulanık kümesinde en yüksek üyelik değerine sahip olan u j aralığının orta noktası olmaktadır. Durum 2 için ise bulanık öngörü Ai , A j ,..., Ak olduğunda durulaĢtırılmıĢ öngörü, her bir Ai , A j ,..., Ak bulanık kümelerinin en yüksek üyelik değerine sahip olan ui , u j ,..., u k aralıklarının orta noktalarının aritmetik ortalaması olarak elde edilir. ORTA DOĞU TEKNĠK ÜNĠVERSĠTESĠ, FEN-EDEBĠYAT FAKÜLTESĠ, ĠSTATĠSTĠK BÖLÜMÜ | 125 VII. ĠSTATĠSTĠK GÜNLERĠ SEMPOZYUMU BĠLDĠRĠLER KĠTABI 2.4. 2010 Chen‟nin Yüksek Dereceli Bulanık Zaman Serisi Yöntemi Chen, 2002 yılında yaptığı çalıĢmada öngörü elde etmede yüksek dereceli bulanık zaman serisi yaklaĢımını önermiĢtir. Chen (2002) tarafından verilen bu yöntemde yüksek dereceli modellerde tüm gecikmeli bulanık değiĢkenler bulunmaktadır. Chen (2002) çalıĢmasında önerilen yüksek dereceli bulanık zaman serisi yönteminin algoritması aĢağıdaki adımlardan oluĢur. Adım 1. Evrensel küme ve alt aralıklar tanımlanır. Adım 2.Evrensel küme ve belirlenen alt aralıklara bağlı olarak A j bulanık kümeleri tanımlanır. Adım 3. Gözlemler bulanıklaĢtırılır. Her bir veri bulunduğu aralığın en büyük üyelik değerine sahip olduğu bulanık küme ile eĢleĢtirilerek zaman serisi bulanıklaĢtırılır. Adım 4. Bulanık mantık iliĢki ve grup iliĢki tablosu oluĢturulur. n‟nci dereceden bulanık mantık iliĢkiler, Ain , Ai ( n 1) ,, Ai1 A j1 Ain , Ai ( n 1) ,, Ai1 A j 2 Ain , Ai ( n 1) ,, Ai1 A jp Ģeklinde verilmiĢken, bulanık mantık grup iliĢkisi, Ain , Ai ( n1) ,, Ai1 A j1 , A j 2 ,, A jp olarak elde edilir. Bulanık mantık iliĢki ve grup iliĢki tabloları, elde edilen bu bulanık mantık iliĢki ve grup iliĢkilerden oluĢur. Adım 5. Bulanık öngörüler elde edilir. n‟nci dereceden bulanık zaman serisi öngörü modeli için bulanık öngörüler elde edilirken üç durum söz konusudur. Durum 1. n‟nci dereceden bulanık mantık grup iliĢki tablosunda, Ain , Ai ( n1) ,, Ai1 A j iliĢkisi mevcut ise bulanık öngörü, A j olacaktır. Durum 2. n‟nci dereceden bulanık mantık grup iliĢki tablosunda, Ain , Ai ( n1) ,, Ai1 A j1 , A j 2 ,, A jp iliĢkisi mevcut ise bulanık öngörüde belirsizlik söz konusudur ve bulanık öngörünün elde edilebilmesi için belirsizlik giderilene kadar incelenen derecenin bir üst derecesine bakılarak m>n olmak üzere, Aim , Ai ( m1) ,, Ai1 A j iliĢkisini veren m aranır ve bu durumda bulanık öngörü, yine A j olacaktır. Durum 3. n‟nci dereceden bulanık mantık grup iliĢki tablosunda, Ain , Ai ( n1) ,, Ai1 Boş ORTA DOĞU TEKNĠK ÜNĠVERSĠTESĠ, FEN-EDEBĠYAT FAKÜLTESĠ, ĠSTATĠSTĠK BÖLÜMÜ | 126 VII. ĠSTATĠSTĠK GÜNLERĠ SEMPOZYUMU BĠLDĠRĠLER KĠTABI iliĢkisi mevcut ise reel öngörü, Ain , Ai ( n1) ,, Ai1 bulanık 2010 kümelerine bağlı olarak, uin , ui ( n1) ,, ui1 aralıklarının orta noktaları, min , mi ( n1) ,, mi1 olmak üzere, 1 min 2 mi ( n1) n mi1 1 2 n ifadesi ile elde edilir. Adım 6. DurulaĢtırma iĢlemi uygulanır. DurulaĢtırmada merkezileĢtirme yöntemi kullanılır. Öngörülerin elde edilmesinde karĢılaĢılan Durum 1. ve Durum 2. için bulanık öngörü A j olarak elde edilmiĢken, durulaĢtırılmıĢ öngörü, A j bulanık kümesinde en yüksek üyelik değerine sahip olan u j aralığının orta noktası olacaktır. Durum 3. için ise reel öngörünün, Ain , Ai ( n1) ,, Ai1 bulanık kümelerine bağlı olarak nasıl elde edildiği daha önce belirtilmiĢti. 2.5. Yapay Sinir Ağlarına Dayalı Bulanık Zaman Serisi YaklaĢımı Aladağ vd. (2009) çalıĢmasında bulanık iliĢkilerin ileri beslemeli yapay sinir ağları ile belirlendiği yüksek dereceli bulanık zaman serisi öngörü modeline dayalı bir yöntem önerilmiĢtir. Önerilen yöntem Chen (2002) yöntemindeki karmaĢık bulanık grup iliĢki tablolarına gerek duymamaktadır. Aladağ vd. (2009) yöntemi aĢağıda algoritma halinde verilmiĢtir. Adım 1. Evrensel küme ve alt aralıklar tanımlanır. Adım 2. Evrensel küme ve belirlenen alt aralıklara bağlı olarak A j bulanık kümeleri tanımlanır. Adım 3. Gözlemler bulanıklaĢtırılır. Her bir veri bulunduğu aralığın en büyük üyelik değerine sahip olduğu bulanık küme ile eĢleĢtirilerek zaman serisi bulanıklaĢtırılır. Adım 4. Ġleri beslemeli yapay sinir ağı kullanılarak bulanık mantık iliĢkiler belirlenir. Yapay sinir ağının girdileri: gecikmeli değiĢkenlerden, çıktıları: öngörülerden ve hedef değerleri ise gerçek verinin bulanık değerlerinden oluĢur. Yapay sinir ağı verilen girdi ve çıktılara göre eğitilir. Girdi nöronlarının sayısı modelin derecesi olmaktadır. Gizli tabaka birim sayısına deneme yanılma yöntemi ile karar verilmektedir. Çıktı birimindeki nöron sayısının ise bir olacağı açıktır. Adım 5. Bulanık öngörüler elde edilir. Önceki adımda elde edilen yapay sinir ağı modeli kullanılarak, yapay sinir ağının çıktıları hesaplanır. Hesaplanan çıktılar, öngörülerin ait olduğu bulanık kümelerin numaralarıdır. Adım 6. Bulanık öngörülere durulaĢtırma iĢlemi uygulanır. ORTA DOĞU TEKNĠK ÜNĠVERSĠTESĠ, FEN-EDEBĠYAT FAKÜLTESĠ, ĠSTATĠSTĠK BÖLÜMÜ | 127 VII. ĠSTATĠSTĠK GÜNLERĠ SEMPOZYUMU BĠLDĠRĠLER KĠTABI 3. 2010 TL/Dolar Zaman Serisinin Bulanık Zaman Serisi YaklaĢımları ile Çözümlenmesi 20.05.2008 - 29.09.2008 tarihleri arasındaki Amerikan Doları kuru (TL/Dolar) zaman serisi çeĢitli klasik ve bulanık zaman serisi yöntemleri ile çözümlenmiĢtir. Klasik yöntemlerden veriye uygun olan ARIMA(0,1,0) (rastgele yürüyüĢ modeli) ve basit üstel düzleĢtirme yöntemleri uygulanmıĢtır. Bulanık zaman serisi yaklaĢımlarından Chen (1996) yönteminin uygulanmasında aralık uzunluğu 0.01 olarak alınmıĢtır. Chen (2002) yönteminin uygulanmasında model derecesi 1 ile 5 arasında değiĢtirilerek ve aralık uzunluğu 0.01 alınarak incelenen beĢ modelden en uygun model 3. Dereceden model olarak elde edilmiĢtir. Aladağ vd. (2009) yönteminin uygulanmasından model derecesi 1 ile 5 ve gizli tabaka birim sayısı 1 ile 5 arasında değiĢtirildiği 25 modelden en uygun model 3. Dereceden ve 1 gizli tabaka biriminin bulunduğu aralık uzunluğunun 0.01 olduğu model olarak bulunmuĢtur. Tüm yöntemlerden elde edilen öngörü sonuçları Tablo 1‟de özetlenmiĢtir. 4. Sonuçlar ve TartıĢma (TL/Dolar) zaman serisi için uygulanan yöntemlerin sonuçları incelenirse, bulanık zaman serisi yaklaĢımlarının klasik yaklaĢımlardan daha iyi sonuç verdiği görülmektedir. En uygun bulanık zaman serisi çözüm yöntemi ise Aladağ vd. (2009) çalıĢmasında önerilen yöntemdir. Bu yöntemin öngörülerinin bir birimdeki ortalama hatası % 1 (HKOK=0.011), yüzdelik ortalama hatası % 0,2 (HMYO=0,002) ve yön doğruluğu % 57 olmaktadır. ARIMA (0,1,0) Basit Üstel DüzleĢtirme Chen (1996) Chen (2002) Aladağ vd. (2009) 09.09.2008 10.09.2008 11.09.2008 12.09.2009 15.09.2008 16.09.2008 17.09.2008 18.09.2008 19.09.2008 22.09.2008 23.09.2008 24.09.2008 25.09.2008 26.09.2008 29.09.2008 USD Kuru Dönem Tablo 1. Tüm Yöntemler Ġçin Öngörü Sonuçları 1,220 1,220 1,230 1,250 1,240 1,260 1,270 1,260 1,270 1,250 1,240 1,230 1,230 1,230 1,230 HKOK HMYO YD 1,240 1,240 1,240 1,240 1,240 1,240 1,240 1,240 1,240 1,240 1,240 1,240 1,240 1,240 1,240 0,017 0,012 0,429 1,240 1,240 1,240 1,240 1,240 1,240 1,240 1,240 1,240 1,240 1,240 1,240 1,240 1,240 1,240 0,017 0,012 0,429 1,240 1,225 1,225 1,240 1,245 1,240 1,265 1,275 1,265 1,275 1,245 1,240 1,240 1,240 1,240 0,012 0,025 0,429 1,228 1,230 1,225 1,231 1,243 1,247 1,257 1,267 1,268 1,272 1,263 1,253 1,242 1,237 1,235 0,013 0,024 0,429 1,245 1,225 1,225 1,235 1,245 1,245 1,255 1,255 1,255 1,255 1,245 1,235 1,235 1,235 1,235 0,011 0,002 0,571 ORTA DOĞU TEKNĠK ÜNĠVERSĠTESĠ, FEN-EDEBĠYAT FAKÜLTESĠ, ĠSTATĠSTĠK BÖLÜMÜ | 128 VII. ĠSTATĠSTĠK GÜNLERĠ SEMPOZYUMU BĠLDĠRĠLER KĠTABI 2010 5. Kaynaklar 1- Aladag, C.H., Basaran, M.A., Egrioglu, E., Yolcu, U., Uslu, V.R., (2009). Forecasting in HighOrder Fuzzy Times Series by Using Neural Networks to Define Fuzzy Relations, Expert Systems with Applications, 36, 4228-4231. 2- Chen, S.M. (1996). Forecasting enrollments based on fuzzy time-series. Fuzzy Sets and Systems, 81, 311-319. 3- Chen, S.M., (2002). Forecasting enrollments based on high order fuzzy time series, Cybernetics and Systems, 33:1-16. 4- Song, Q. and Chissom, B.S., (1993). Fuzzy time series and its models, Fuzzy Sets and Systems, 54, 269-277. 5- Zadeh L.A., (1965). Fuzzy Sets, Inform and Control, 8 (1965) 338-353. ORTA DOĞU TEKNĠK ÜNĠVERSĠTESĠ, FEN-EDEBĠYAT FAKÜLTESĠ, ĠSTATĠSTĠK BÖLÜMÜ | 129 VII. ĠSTATĠSTĠK GÜNLERĠ SEMPOZYUMU BĠLDĠRĠLER KĠTABI 2010 HETEROJEN VARYANS DURUMUNDA ORTALAMALARIN EġĠTLĠĞĠ ĠÇĠN YENĠDEN ÖRNEKLEME TEKNĠKLERĠNE DAYALI BĠR ÇALIġMA Esra YĠĞĠT* Hamza GAMGAM** *Gazi Üniversitesi Fen-Edebiyat Fakültesi Ġstatistik Bölümü Teknikokullar Ankara, eyigit@gazi.edu.tr **Gazi Üniversitesi Fen-Edebiyat Fakültesi Ġstatistik Bölümü Teknikokullar Ankara, gamgam@gazi.edu.tr ÖZET Klasik varyans analizinde, varyansların eĢitlik varsayımının sağlanmaması en çok karĢılaĢılan problemlerden biridir. Literatürde bu konuyla ilgili bir çok test istatistiği geliĢtirilmiĢtir. Bu çalıĢmada GenelleĢtirilmiĢ F, Parametrik Bootstrap ve Permütasyon testleri tanıtılmıĢtır ve farklı yığın parametreleri ve örnek hacimleri altında deneysel I.tip hata oranı ve testin gücü bakımından karĢılaĢtırılması yapılmıĢtır. Anahtar kelimeler: GenelleĢtirilmiĢ F test, Parametrik Bootstrap test, Permütasyon test A COMPARĠSON OF SEVERAL TESTS FOR ONE-WAY ANOVA UNDER UNEQUAL VARIANCES ABSTRACT Heteroscedasticity is one of the major practical problems encountered in ANOVA problems. For this problem a large number of tests are available in the literature. In this study we compare some of tests which are Generalized F-test, Parametric Bootstrap test, Randomization test and XuWang test. The sizes and powers of the tests are calculated using a Monte Carlo simulation for various combinations of variance, means, population number and sample size. Key Words : Generalized F test, Parametric Bootstrap test, Randomization tests 1. GĠRĠġ Klasik varyans analizi herbiri normal dağılıma sahip olan ikiden fazla yığının ortalamalarının eĢitliği hipotezinin testi amacıyla kullanılır. Bunun için kullanılan klasik F testi bazı varsayımları gerektirir. Bu varsayımlardan yığınların varyanslarının eĢitliği varsayımı sağlanmıyor ancak heterojenlik çok az ise klasik F testi bundan çok az etkilenmektedir [Box, 1954]. Buna karĢın yığınların varyansları arasındaki fark arttıkça ve özellikle örnek hacimleri eĢit değilse çok ciddi problemler ortaya çıkmaktadır [Bishop, 1976; Reed ve Stark, 1995]. Bu yüzden ORTA DOĞU TEKNĠK ÜNĠVERSĠTESĠ, FEN-EDEBĠYAT FAKÜLTESĠ, ĠSTATĠSTĠK BÖLÜMÜ | 130 VII. ĠSTATĠSTĠK GÜNLERĠ SEMPOZYUMU BĠLDĠRĠLER KĠTABI 2010 bu varsayım en kritik varsayımdır. Böyle bir durumda klasik F testi sağlam (robust) bir test değildir. Özellikle örnek hacmi ve yığın varyansı ters orantılı olduğunda klasik F testi için . tip hata oranı nominal . tip hatadan oldukça büyük, doğru orantılı olduğu zaman ise oldukça küçüktür [Krutchkoff ,1988; Lee ve Ahn, 2003]. Homojen varyans varsayımı sağlanmadığında yokluk hipotezinin reddini destekler nitelikte önemli kanıtlar olsa bile bazen klasik F testi ile büyük hacimli örnekler durumunda bile yokluk hipotezi reddedilemiyebilir. Birçok alanda, büyük hacimli örneklerin elde edilemeyeceği düĢünülürse bu durum önemli bir sıkıntı doğurabilir. Büyük hacimli örnekleri elde etmenin zor olduğu alanlardan biri biomedikal çalıĢmalardır. Böyle uygulamalarda her bir veri hayati öneme sahip olabilir veya bu veriyi elde etmek çok pahalı olup zaman alabilir. Bu durumda yeterli örnek hacmine sahip olunamamaktadır. Böylece küçük hacimli örneklerle çalıĢma zorunluluğu ortaya çıkar. Böyle durumlarda klasik F testi oldukça kötü sonuçlar vermesinden dolayı alternatif testler geliĢtirilmiĢtir. Bu test istatistiklerinin bazılarının dağılımı tam olarak bilinirken bazılarının da dağılımı simülasyon yoluyla yaklaĢık olarak bulunmaktadır [Weerahandi, 1995; Weerahandi, 2004]. Bu çalıĢmada test istatistiklerinin dağılımları simülasyon yoluyla bulunan testlerden Weerahandi (1995) tarafından önerilen GenelleĢtirilmiĢ F testi, Krishnamoorthy ve ark. (2006)‟nın önerdiği Parametrik Bootstrap testi ve Manly (1995) tarafından geliĢtirilen permütasyon testleri tanıtılmıĢtır. Ayrıca simülasyon yoluyla bu test istatistiklerinin, farklı örnek hacmi ve yığınların farklı varyansları altında deneysel I. tip hata oranları ve testin gücü bakımından karĢılaĢtırmaları yapılmıĢtır. 2. HOMOJEN OLMAYAN VARYANS VARSAYIMI ALTINDA ORTALAMALARIN EġĠTLĠĞĠ ĠÇĠN TEST ĠSTATĠSTĠKLERĠ Yığınların varyansları homojen olmadığı zaman, StandartlaĢtırılmıĢ Gruplar Arası Kareler Toplamı ve StandartlaĢtırılmıĢ Hata Kareler Toplamı sırasıyla, ORTA DOĞU TEKNĠK ÜNĠVERSĠTESĠ, FEN-EDEBĠYAT FAKÜLTESĠ, ĠSTATĠSTĠK BÖLÜMÜ | 131 VII. ĠSTATĠSTĠK GÜNLERĠ SEMPOZYUMU BĠLDĠRĠLER KĠTABI 2010 2 Sb Sb 12 , k ni X i 2 k ni X i2 i 1 i 2 , k 2 , k ni i 1 i i 1 k Se i 1 ni Si2 (2.1) i2 2 i olarak ifade edilir [Weerahandi, 1995]. Homojen varyans varsayımı sağlanmadığı zaman klasik F test istatistiğinin dağılımı teorik olarak elde edilememektedir. Bu yüzden ortalamaların eĢitliği hipotezini test etmek için F testine alternatif baĢka test istatistikleri kullanılmaktadır. 2.1. Weerahandi‟nin GenelleĢtirilmiĢ F Testi Klasik yaklaĢımda test istatistiğinin dağılımının uç bölgesi kullanılırken genelleĢtirilmiĢ yaklaĢımda ise test değiĢkeni için oluĢturulan örnek uzayının uç bölgesi kullanılır. GenelleĢtirilmiĢ F testinin p değerinin hesaplanması için uç bölgedeki gözlenen örnek noktalarının sayısı dikkate alınır. Yokluk hipotezinin doğruluğu altında bu bölgenin olasılığı bize genelleĢtirilmiĢ p değerini vermektedir [Gamage ve Weerahandi, 1998]. Weerahandi, bu yöntemde i2 parametresinin ençok olabilirlik tahmin edicisi olan Si2 istatistiğinin kullanımını önermiĢtir. Bj değiĢkeni, 1 ni ni X i 1 ij Xi ni Si2 istatistiğinin bir fonksiyonu olarak i2 aĢağıdaki gibi tanımlansın. j ni Si2 2 i 1 B j j 1 i 2 , ni Si 2 i 1 i j 1, , k 1 (2.2) Buna göre Bj istatistiğinin dağılımı Bj 2 j (n 1) (n j 1 1) beta i , 2 i 1 2 ORTA DOĞU TEKNĠK ÜNĠVERSĠTESĠ, FEN-EDEBĠYAT FAKÜLTESĠ, ĠSTATĠSTĠK BÖLÜMÜ | 132 VII. ĠSTATĠSTĠK GÜNLERĠ SEMPOZYUMU BĠLDĠRĠLER KĠTABI olur [Weerahandi, 1995]. EĢ. 2.1 ve EĢ. 2.2 ile i. örnek için 2010 ni Si2 i2 rastgele değiĢkeni Bj değiĢkenine bağlı olarak aĢağıdaki gibi elde edilir. n1S12 12 Se B1B2 Bk 1 , ni Si2 i2 Se 1 Bi 1 Bi Bk 1 , i 2, nk Sk2 , k 1, k2 Se 1 Bk 1 ni Si2 istatistiği için yapılan ayrıĢtırma bilinmeyen bir parametreye bağlı değildir. Bu yüzden H 0 i2 hipotezinin kabul edilip edilmemesi bu ifadeyi etkilememektedir. Böylece genelleĢtirilmiĢ p değerinin hasaplanması sağlanmaktadır Bu durumda genelleĢtirilmiĢ p değeri aĢağıdaki gibi hesaplanır. n k n3 s32 n1s12 n2 s22 p 1 E H k 1,n k sb , , , k 1 B B B (1 B ) B B (1 B ) B B 1 2 k 1 1 2 k 1 2 3 k 1 Burada H k 1,n k , , nk sk2 (1 Bk 1 ) k-1 ve n-k serbestlik derecesine sahip F dağılımının kümülatif dağılım fonksiyonudur. Buna göre p olduğunda yokluk hipotezi red edilir. 2.2. Parametrik Bootstrap YaklaĢımı En az bir varsayım sağlandığında Krishnamoorthy ve ark. (2006) Parametrik Bootstrap yöntemini, bu tek yönlü model yapısı için kullanmayı önermiĢlerdir. Parametrik Bootstrap yönteminde, verilen örneklerden elde edilen istatistik değerleri parametre değerleri yerine kullanılarak yeniden örnekler oluĢturulur ve bu da Parametrik Bootstrap örneği olarak isimlendirilir. Buna göre Bootstrap örneğinin X Bi ve S Bi2 istatistiklerinin dağılımları sırasıyla X Bi Si2 N 0, , ni SBi2 Si2 n2i 1 ni 1 ORTA DOĞU TEKNĠK ÜNĠVERSĠTESĠ, FEN-EDEBĠYAT FAKÜLTESĠ, ĠSTATĠSTĠK BÖLÜMÜ | 133 VII. ĠSTATĠSTĠK GÜNLERĠ SEMPOZYUMU BĠLDĠRĠLER KĠTABI 2010 Ģeklindedir. EĢ. 2.1‟deki Sb fonksiyonunda X ve Si2 yerine Bootstrap örneğinden elde edilen X Bi ve S Bi2 değiĢkenlerinin dağılımları yazılırsa yeni SbB fonksiyonu SbB Z i , n2i1 ; Si2 k ni Z i ni 1 k Si n2i1 Z i2 ni 1 i 1 2 k ni ni 1 ni 1 i 1 2 2 i 1 Si ni1 2 (2.4) elde edilir. Buna göre, P SbB Zi , n2 ; si2 sb olduğunda yokluk hipotezi red edilir. i 1 2.3. Permütasyon yöntemi Manly (1995), homojen varyans varsayımı sağlanmadığında ikiden fazla yığının ortalamalarının eĢitliği hipotezinin testi için veri dönüĢümü uygulayarak permütasyon yöntemini önermiĢtir. Böylece oluĢturulan permütasyon dağılımına göre örnek ortalamalarının beklenen değeri değiĢmemekte fakat örnek varyansları değiĢmektedir. Yapılan bu veri dönüĢümü permütasyon yöntemini uygulamamızı sağlar. Buna göre elde edilen permütasyon testi (test 1) için algoritma aĢağıdaki gibi verilebilir. n x k k ni 2 ˆ 1) B xij ˆ ni ve ˆ i 1 j 1 2 i i 1 k i 1 i i Bˆi ni Bˆi denklemleri kullanılarak Bi ve µ değerleri tahmin edilir. 2) Tahmin edilen Bi ve µ değerlerine bağlı olarak uˆij ˆ x ij ˆ değerleri bulunur. Bˆ i 3) Tahmin edilen U değerleri için klasik F testi uygulanarak F1 test istatistiğinin değeri hesaplanır. 4) Tahmin edilen U değerleri rastgele olarak yerleĢtirilerek yeni örneklemler oluĢturulur ve bu değerler için klasik F testi uygulanarak F2 test istatistiğinin değeri hesaplanır. 5) F2>F1 ise W=1 aksi halde W=0 olarak atanır. ORTA DOĞU TEKNĠK ÜNĠVERSĠTESĠ, FEN-EDEBĠYAT FAKÜLTESĠ, ĠSTATĠSTĠK BÖLÜMÜ | 134 VII. ĠSTATĠSTĠK GÜNLERĠ SEMPOZYUMU BĠLDĠRĠLER KĠTABI 6) 4 ve 5 adımlarında ifade edilenler R-1 kez tekrar edilerek p değeri p 2010 1 R 1 Wi Ģeklinde R 1 i 1 hesaplanır. Test 1 olarak tanımlanan bu testte alternatif diğer bir test ise Test 2‟dir ve algoritması aĢağıdaki gibi verilebilir. 1‟) 4. adıma kadar iĢlemler aynı Ģekilde yapılır. 2‟) U değerleri rastgele yerleĢtirildikten sonra X değerlerine dönüĢtürülür. Bu X değerleri için Bi ve µ değerleri tekrar tahmin edilir ve yeni U değerleri bulunur. Yeni hesaplanan bu U değerleri için klasik F testi uygulanarak F2 test istatistiğinin değeri hesaplanır. 3‟) F2>F1 ise W=1 aksi halde W=0 olarak atanır. 4‟) 2‟ ve 3‟ adımlarında ifade edilenler R-1 kez tekrar edilerek p değeri p 1 R 1 Wi Ģeklinde R 1 i 1 hesaplanır. 3. SĠMÜLASYON ÇALIġMASI Simülasyon çalıĢmasında, Bölüm 2‟de tanıtılan Klasik F (KF), Weerahandi‟nin GenelleĢtirilmiĢ F (GF), Parametrik Bootstrap (PB) ve Permütasyon testlerinin (PT1, PT2) deneysel I.tip hata oranları ve güçleri bakımından karĢılaĢtırılması yapılmıĢtır. Bunun için k=3 ve k=5 sayıdaki yığınlar için, örnek hacimleri ve yığın varyanslarının çeĢitli kombinasyonları kullanılmıĢtır. Örnek hacimleri eĢit ve yığın varyansları heterojen olduğu durum altında testleri incelediğimizde, örnek hacimleri küçük olduğunda yığın varyanslarının heterojenliğinin artmasından KF ve PT1 testleri oldukça etkilenmiĢtir. GF, PT2 ve PB testlerinin ise deneysel I.tip hata oranlarının nominal =0.05 değerine daha yakın sonuçlar verdiği görülmektedir. Örnek hacimlerinin artıĢıyla birlikte heterojenliğinin artmasından olumsuz etkilenen PT1 ve PT2 testleri için bu oranın, nominal =0.05 değerinden oldukça farklılaĢtığı gözlenmiĢtir. Yığın sayısı arttığında, örnek hacmi küçükken GF testi bu durumdan olumsuz etkilenirken örnek hacminin artmasıyla durumun düzeldiği görülmektedir. ORTA DOĞU TEKNĠK ÜNĠVERSĠTESĠ, FEN-EDEBĠYAT FAKÜLTESĠ, ĠSTATĠSTĠK BÖLÜMÜ | 135 VII. ĠSTATĠSTĠK GÜNLERĠ SEMPOZYUMU BĠLDĠRĠLER KĠTABI 2010 Çizelge 3.1. Nominal =0.05, k=3, farklı örnek hacimleri ve farklı yığın varyansları için test istatistiklerinin deneysel I.tip hata oranları (20,25,30) 7,10,13 (3,5,7) (30,30,30) (10,10,10) (4,4,4) ni i (1,1,1) (1,1.25,1.5) (1,2,4) (1,4,9) (1,1,1) (1,1.25,1.5) (1,2,4) (1,4,9) (1,1,1) (1,1.25,1.5) (1,2,4) (1,4,9) (1,1,1) (1,1.25,1.5) (1,2,4) (1,4,9) (1.5,1.25,1) (4,2,1) (9,4,1) (1,1,1) (1,1.25,1.5) (1,2,4) (1,4,9) (1.5,1.25,1) (4,2,1) (9,4,1) (1,1,1) (1,1.25,1.5) (1,2,4) (1,4,9) (1.5,1.25,1) (4,2,1) (9,4,1) KF 0.0494 0.0565 0.0798 0.0932 0.0498 0.0548 0.0730 0.0760 0.0474 0.0490 0.0694 0.0724 0.0496 0.0336 0.0292 0.0332 0.0792 0.1852 0.2332 0.0486 0.0388 0.0300 0.0314 0.0816 0.1462 0.1688 0.0494 0.0418 0.0386 0.0394 0.0694 0.1110 0.1248 GF 0.0324 0.0363 0.0431 0.0652 0.0460 0.0482 0.0494 0.0478 0.0466 0.0464 0.0493 0.0510 0.0390 0.0322 0.0406 0.0486 0.0448 0.0568 0.0734 0.0448 0.0426 0.0446 0.0524 0.0388 0.0526 0.0580 0.0506 0.0502 0.0458 0.0492 0.0509 0.0486 0.0484 PT1 0.0127 0.0133 0.0220 0.0360 0.0473 0.0547 0.0693 0.1080 0.0527 0.0460 0.0747 0.1093 0.0213 0.0273 0.0427 0.0513 0.0297 0.0280 0.0700 0.0453 0.0467 0.0687 0.1080 0.0413 0.0593 0.0827 0.0507 0.0493 0.0713 0.1280 0.0587 0.0673 0.0893 PT2 0.0367 0.0313 0.0533 0.0693 0.0473 0.0587 0.0733 0.1080 0.0560 0.0487 0.0713 0.1047 0.0453 0.0480 0.0653 0.0733 0.0520 0.0527 0.0967 0.0500 0.0540 0.0753 0.1073 0.0467 0.0667 0.0840 0.0500 0.0487 0.0673 0.1267 0.0533 0.0653 0.0880 PB 0.0412 0.0432 0.0498 0.0620 0.0492 0.0532 0.0504 0.0442 0.0484 0.0482 0.0505 0.0500 0.0524 0.0486 0.0494 0.0542 0.0592 0.0676 0.0646 0.0498 0.0460 0.0488 0.0502 0.0524 0.0588 0.0510 0.0522 0.0514 0.0456 0.0482 0.0502 0.0468 0.0454 Örnek hacimleri ile yığın varyanslarının doğru orantılı olduğu durum altında testleri incelediğimizde, örnek hacimleri küçükken KF ve PT2 testlerinin deneysel I.tip hata oranlarının nominal =0.05 değerinden uzaklaĢtığı, PT1, PB ve GF testlerinin ise yaklaĢtığı görülmektedir. Örnek hacimleri artıĢından ise PT1 ve PT2 testlerinin olumsuz etkilendiği görülmektedir. Yığın sayısı arttığında, örnek hacmi küçükken GF testi bu durumdan olumsuz etkilenirken örnek hacminin artmasıyla durumun düzeldiği görülmektedir. Diğer testler ise yığın artıĢından fazla etkilenmeyip aynı sonuçları verdiği gözlenmiĢtir. ORTA DOĞU TEKNĠK ÜNĠVERSĠTESĠ, FEN-EDEBĠYAT FAKÜLTESĠ, ĠSTATĠSTĠK BÖLÜMÜ | 136 VII. ĠSTATĠSTĠK GÜNLERĠ SEMPOZYUMU BĠLDĠRĠLER KĠTABI 2010 Çizelge 3.2. Nominal =0.05, k=5, farklı örnek hacimleri ve farklı yığın varyansları için test istatistiklerinin deneysel I.tip hata oranları 30,30,30,30,30 10,10,10,10,10 4,4,4,4,4 ni i (1,1,1,1,1) KF 0.0486 GF 0.0618 PT1 0.0200 PT2 0.0373 PB 0.0322 (1,1.25,1.5,1.75,2) (1,2,4,6,8) (1,4,9,13,18) 0.0638 0.0920 0.0978 0.0740 0.0936 0.1092 0.0227 0.0360 0.0527 0.0453 0.0667 0.0873 0.0470 0.0528 0.0580 (1,1,1,1,1) 0.0486 0.0586 0.0480 0.0593 0.0496 (1,1.25,1.5,1.75,2) (1,2,4,6,8) (1,4,9,13,18) 0.0626 0.0852 0.0880 0.0610 0.0644 0.0684 0.0493 0.0847 0.1227 0.0540 0.0940 0.1313 0.0488 0.0488 0.0490 (1,1,1,1,1) (1,1.25,1.5,1.75,2) (1,2,4,6,8) (1,4,9,13,18) 0.0494 0.0582 0.0830 0.0854 0.0510 0.0516 0.0542 0.050 0.0587 0.0547 0.0853 0.142 0.0580 0.0560 0.0867 0.1420 0.0484 0.0488 0.0470 0.048 Çizelge 3.2. (devamı) Nominal =0.05, k=5, farklı örnek hacimleri ve farklı yığın varyansları için test istatistiklerinin deneysel I.tip hata oranları (20,23,26,29,32) (7,9,11,13,15) (3,4,5,6,7) ni i (1,1,1,1,1) (1,1.25,1.5,1.75,2) (1,2,4,6,8) (1,4,9,13,18) (2,1.75,1.5,1.25,1) (8,6,4,2,1) (18,13,9,4,1) (1,1,1,1,1) (1,1.25,1.5,1.75,2) (1,2,4,6,8) (1,4,9,13,18) (2,1.75,1.5,1.25,1) (8,6,4,2,1) (18,13,9,4,1) (1,1,1,1,1) (1,1.25,1.5,1.75,2) (1,2,4,6,8) (1,4,9,13,18) (2,1.75,1.5,1.25,1) (8,6,4,2,1) (18,13,9,4,1) KF 0.0466 0.0356 0.0380 0.0326 0.1088 0.2114 0.2236 0.0506 0.0378 0.0426 0.0448 0.0926 0.1744 0.1832 0.0486 0.0438 0.0466 0.0496 0.0778 0.1360 0.1310 GF 0.0656 0.0650 0.0688 0.0790 0.0884 0.1000 0.1124 0.0608 0.0584 0.0602 0.0702 0.0638 0.0724 0.0732 0.0590 0.0524 0.0472 0.0556 0.0582 0.0518 0.0638 PT1 0.0280 0.0333 0.0347 0.0520 0.0260 0.0487 0.0753 0.0427 0.0453 0.0747 0.1053 0.0380 0.0633 0.1053 0.0333 0.0433 0.0827 0.1380 0.0473 0.0720 0.1413 PT2 0.0493 0.0547 0.0573 0.0833 0.0480 0.0700 0.1007 0.0473 0.0500 0.0820 0.1153 0.0467 0.0673 0.1140 0.0393 0.0473 0.0827 0.1427 0.0507 0.0747 0.1327 PB 0.0462 0.0402 0.0480 0.0504 0.0600 0.0590 0.0582 0.0510 0.0496 0.0514 0.0540 0.0484 0.0472 0.0486 0.0564 0.0492 0.0448 0.0494 0.0476 0.0560 0.0558 Örnek hacimleri ile yığın varyanslarının ters orantılı olduğu durum altında testleri incelediğimizde, örnek hacimleri küçükken KF testinin bundan oldukça olumsuz etkilendiği görülmektedir. GF, PB ve PT2 testlerinin deneysel I.tip hata oranlarının nominal 0.05 değerine daha yakın sonuç vermektedir. Heterojenlik arttıkça bu oranların 0.05 değerinden ORTA DOĞU TEKNĠK ÜNĠVERSĠTESĠ, FEN-EDEBĠYAT FAKÜLTESĠ, ĠSTATĠSTĠK BÖLÜMÜ | 137 VII. ĠSTATĠSTĠK GÜNLERĠ SEMPOZYUMU BĠLDĠRĠLER KĠTABI 2010 uzaklaĢtığı görülmektedir. Örnek hacimleri arttığında ise GF ve PB testlerinin daha iyi sonuç verdiği gözlenmiĢtir. Yığın sayısı arttığında, örnek hacmi küçükken GF ve PT2 testleri bu durumdan olumsuz etkilenmiĢtir. Örnek hacminin artmasıyla GF testinin deneysel I.tip hata oranın nominal =0.05 değerine daha yakın sonuç verdiği PT1 ve PT2 testleri için bu oranın değerinden oldukça uzaklaĢtığı görülmektedir. Nominal =0.05 olmak üzere testleri deneysel I.tip hata oranları bakımından genel olarak karĢılaĢtırdığımızda PB testinin, örnek hacimleri arttığında bu teste ek olarak GF testinin oldukça iyi sonuç verdiği görülmektedir. Testlerin güç değerleri k=3 için Çizelge 4.16 ve k=5 için Çizelge 4.17‟de verilmiĢtir. Bu sonuçlarla ilgili yorumlar aĢağıda verilmiĢtir. Çizelge 4.16. Nominal =0.05, k=3 iken test istatistikleri için güç değerleri ni i2 (1, 2, 3) KF PT1 PT2 4,4,4 1,2,4 (-1.5,0,1.5) (-3,0,3) (-1.5,0,1.5) (-3,0,3) (-1.5,0,1.5) (-3,0,3) (-1.5,0,1.5) (-3,0,3) (-1.5,0,1.5) (-3,0,3) (-1.5,0,1.5) (-3,0,3) 0.250 0.065 0.947 1.000 0.105 0.607 0.424 0.877 0.895 1.000 0.958 1.000 0.127 0.471 0.999 1.000 0.149 0.412 0.313 0.889 0.997 1.000 0.987 1.000 0.224 0.658 0.999 1.000 0.199 0.491 0.392 0.923 0.997 1.000 0.990 1.000 30,30,30 1,2,4 1,2,4 3,5,7 4,2,1 1,24 20,25,30 4,2,1 Çizelge 4.16. Nominal =0.05, k=5 iken test istatistikleri için güç değerleri ni i2 4,4,4,4,4 1,2,4,6,8 30,30,30,30,30 1,2,4,6,8 1,2,4,6,8 3,4,5,6,7 8,6,4,2,1 1,2,4,6,8 20,23,26,29,32 8,6,4,2,1 (1, 2, 3, 4, 5) (-3,-1.5,0,1.5,3) (-6,-3,0,3,6) (-3,-1.5,0,1.5,3) (-6,-3,0,3,6) (-3,-1.5,0,1.5,3) (-6,-3,0,3,6) (-3,-1.5,0,1.5,3) (-6,-3,0,3,6) (-3,-1.5,0,1.5,3) (-6,-3,0,3,6) (-3,-1.5,0,1.5,3) (-6,-3,0,3,6) KF 0.263 0.743 0.994 1.000 0.165 0.687 0.507 0.931 0.948 1.000 0.986 1.000 PT1 0.252 0.716 1.000 1.000 0.279 0.791 0.511 0.979 1.000 1.000 1.000 1.000 PT2 0.350 0.737 1.000 1.000 0.383 0.872 0.601 0.992 1.000 1.000 1.000 1.000 ORTA DOĞU TEKNĠK ÜNĠVERSĠTESĠ, FEN-EDEBĠYAT FAKÜLTESĠ, ĠSTATĠSTĠK BÖLÜMÜ | 138 VII. ĠSTATĠSTĠK GÜNLERĠ SEMPOZYUMU BĠLDĠRĠLER KĠTABI 2010 Testleri güç bakımından genel olarak değerlendirdiğimizde ortalamalar arasındaki fark ve örnek hacmi arttığında testlerinde güç değerlerinde artıĢ olduğu gözlenmektedir. Yığın sayısı k=3 iken diğer testlere göre GF ve PB testlerinin daha yüksek güç değerlerine sahip olduğu görülmektedir. PT1 ve PT2 testlerinin örnek hacmi ve yığın varyanslarının ters orantılı olduğu durumda doğru orantılı olduğu duruma göre daha yüksek güç değerlerine sahip olduğu görülmektedir. Ayrıca yığın sayısının artıĢı testlerin güç değerlerini olumlu yönde etkilediği gözlenmektedir. 5. SONUÇLAR Testleri deneysel I.tip hata oranları bakımından karĢılaĢtırdığımızda tüm durumlar için herhangi bir testin iyi olduğunu söylememiz mümkün değildir. Her durum altında testler farklılıklar göstermektedir. GF testinin I.tip deneysel hata oranı tüm durumlar için örnek hacmi küçükken nominal değerinden uzaklaĢırken örnek hacimlerinin artmasından etkilenerek bu değere daha yakın sonuçlar vermiĢ olduğu görülmektedir. PB testi için bu oran doğru orantılı durum altında örnek hacimlerinin her durumunda nominal değerine oldukça yakınlaĢırken ters orantılı olduğu durumunda örnek hacimleri arttığında nominal değerine yaklaĢtığı görülmektedir. PT1 ve PT2 testlerinin hem doğru hem de ters orantılı olduğu durumundan çok fazla etkilenmediği yalnız heterojenliğin arĢtının olumsuz yönde etkilediği gözlenmiĢtir. Hangi testin daha iyi olduğunu anlamak için sadece deneysel I.tip hata oranlarına değil aynı zamanda güç değerlerine de bakılması gerekir. Yığın varyansları heterojen olduğunda örnek hacimleri arttığında, KF testinin deneysel I.tip hata oranları nominal =0.05 değerine daha yakın sonuçlar vermesine rağmen diğer testlere göre daha düĢük güç değerleri vermiĢtir. Örnek hacimlerinin küçük olması tüm testlerin güç değerlerini düĢürmüĢtür. Örnek hacimleri arttığında beklenildiği gibi testlerin güç değerleri artmaktadır. Diğer bir ifadeyle yığından daha büyük hacimli örnek almanın heterojenliğin etkisini azalttığı söylenebilir. Öyleki yığın ortalamaları arasındaki fark çok az olduğunda bile testlerin güç değerleri 0.90 civarına yaklaĢtığı görülmektedir. Örnek hacimleri ve yığın varyansları arasındaki iliĢkinin doğru ve ters orantılı olması testlerin güç değerlerini de etkilediği görülmüĢtür. Ters orantılı olduğu durumunda güç değerlerinin daha da yükseldiği görülmektedir. Ayrıca yığın sayısının artıĢının da güç değerlerini olumlu yönde etkilemiĢtir. ORTA DOĞU TEKNĠK ÜNĠVERSĠTESĠ, FEN-EDEBĠYAT FAKÜLTESĠ, ĠSTATĠSTĠK BÖLÜMÜ | 139 VII. ĠSTATĠSTĠK GÜNLERĠ SEMPOZYUMU BĠLDĠRĠLER KĠTABI 2010 Testleri güç bakımından tüm durumlar altında incelediğimizde, PB ve özellikle GF testleri de genel olarak diğer testlere göre daha yüksek güç değerlerine sahiptirler. Fakat genel olarak tüm durumlar için herhangi bir testin iyi olduğunu söylemek mümkün değildir. KAYNAKLAR Bishop, T.A., “Heteroscedastic ANOVA, MANOVA and multiple comparasion”, Unpublished Ph.D. thesis, The Ohio State University,1-50 (1976). Gamage, J. ve Weerahandi, S., “Size performance of some tests in one-way ANOVA”, Communications in Statistics Simulations, 27(3):625-640 (1998). Krishnamoorthy, K., Lu, F., Thomas, M., “A parametric boostrap approach for ANOVA with unequal variances: fixed and random models”, Computational Statistics and Data Analysis, 51:5731-5742 (2006). Krutchkoff, R.G., “One-way fixed effects analysis of variance when the error variances may be unequal”, J. Statist. Comput. Simulation, 30:259-271 (1988). Lee, S., Ahn, C.H., “Modified ANOVA for unequal variances”, Communications in Statistics Simulations, 32:987-1004 (2003). Manly, B.F.J., “Randomization tests to compare means with unequal variation”,Sankhya, 200222, (1995). Reed, J.F., Stark, D.B., “Robust analysis of variances: a simulation study”, Journal of Applied Statistics, 22:87-104 (1995). Weerahandi, S., “Exact statistical method for data analysis”, Springer-Verlag, New York, 2-50 (1995). Weerahandi, S., “Generalized inference in repeated measures: Exact methods in MANOVA and mixed models”, Wiley, New York (2004). ORTA DOĞU TEKNĠK ÜNĠVERSĠTESĠ, FEN-EDEBĠYAT FAKÜLTESĠ, ĠSTATĠSTĠK BÖLÜMÜ | 140 VII. ĠSTATĠSTĠK GÜNLERĠ SEMPOZYUMU BĠLDĠRĠLER KĠTABI 2010 UYARLANMIġ DURBĠN TESTĠ ĠÇĠN PERMÜTASYON TESTĠ VE BĠR SĠMÜLASYON ÇALIġMASI Fikr Gökpınar1 Hülya Bayrak1 1 Ġstatistik Bölümü, Gazi Üniversitesi, Ankara ÖZET Durbin(1951), Dengeli TamamlanmamıĢ Blok Tasarımı için sıra sayıları testinin duyusal analizde geniĢ bir uygulama alanı vardır. Dengeli TamamlanmamıĢ Blok Tasarımında Durbin sıra sayıları testi, eĢdeğerli veri olduğunda, iyi sonuç vermez. Best ve ark.(2006) Durbin testinin eĢ değerli veriler için uyarlanmıĢ hali olan bir test önermektedir. Bu çalıĢmada, Durbin sıra sayıları testi, Skilling ve Mack sıra sayıları testi, uyarlanmıĢ Durbin sıra sayıları testi verilmiĢ ve ayrıca uyarlanmıĢ Durbin sıra sayıları testinin permütasyon versiyonu karĢılaĢtırılmıĢtır. Anahtar Kelimeler: Durbin Sıra Sayıları Testi, Skilling-Mack Testi, Permutasyon testi ABSTRACT Durbin(1951) rank test is used in Balanced Incomplete Block Designs which have wide application in sensory analysis. Durbins‟s rank test is failed for Balanced Incomplete Block Design when ties occur. Best et. Al. (2006) gave an adjusted version of Durbin rank test for tied data. In this Study, We compare Durbin rank test, Durbin rank test for tied data and permutation version of Durbin rank test for tied data and Skilling and Mack(1981) tests in sensory data. Keywords: Durbin Rank Test, Skilling-Mack Test, Permutation test 1.GĠRĠġ Friedman sıra sayıları testi, özellikle rasgele tamamlanmıĢ blok tasarımında iĢlem etkilerini test etmek için oldukça yaygın olartak kullanılan bir testtir. Firedman tipi bir test olan Durbin sıra sayıları testi Durbin(1951) tarafından tamamlanmamıĢ blok tasarımları için geliĢtirilmiĢtir. Firedmann sıra sayıları testine dayalı bir baĢka test ise Skilling ve Mack(1981) tarafından geliĢtirilmiĢtir. Bu test hem dengeli hem de dengesiz tamamlanmamıĢ blok düzenlerinde kullanılabilmiektedir (Giesbrecht ve Gumbertz (2004), Hollander ve Wolfe(1999)). Durbin sıra sayıları testi duyusal analizde oldukça yaygın biçimde kullanılmaktadır(Bi,(2006), (2009), Meilgaard ve ark.(1991)). Özellikle panelistlerin test edecekleri iĢlem çok fazla iken duyusal yorgunluktan kaynaklanan birçok sorun çıkmaktadır. Bu durumda tamamlanmamıĢ blok tasasrımı yerine dengeli tamamlanmamıĢ blok tasarımı kullanılabilir. Dengeli tamamlanmamıĢ blok tasarımı, kısaca t iĢlem ve b bloktan oluĢur. Her iĢlem tam olarak r bloktadır ve her blokta tam olarak k iĢlem vardır. Her iĢlem çifti kez birlikte görünmektedir. Bu durumda Friedman sıra sayıları testi yerine Durbin sıra sayıları testi veya Skilling ve Mack testi kullanılarak panelistlerin kullanacağı iĢlem sayısını azaltmak daha doğru sonuçlar alınmasını sağlayacaktır. Çok fazla iĢlem olduğunda özellikle Durbin sıra sayıları testi oldukça kullanıĢlıdır. Fakat bu ORTA DOĞU TEKNĠK ÜNĠVERSĠTESĠ, FEN-EDEBĠYAT FAKÜLTESĠ, ĠSTATĠSTĠK BÖLÜMÜ | 141 VII. ĠSTATĠSTĠK GÜNLERĠ SEMPOZYUMU BĠLDĠRĠLER KĠTABI 2010 testler, iĢlemler aynı değeri aldığında hem birinci tip hata hemde testin gücü bakımından oldukça kötü sonuçlar vermektedir. Best ve ark.(2006) Durbin testinin eĢ değerli veriler için uyarlanmıĢ hali olan bir test önermektedir. Bu test istatistiği diğerlerine göre 1.nci tip hata ve testin gücü bakımından daha iyi sonuçlar vermesine rağmen özellikle bloktaki tekrar sayısı az iken 1.nci tip hata bakımından tatmin edici sonuçlar vermektedir(Gökpınar ve Bayrak(2010)). Bu çalıĢmada, Durbin sıra sayıları testi, Skilling ve Mack sıra sayıları testi, uyarlanmıĢ Durbin sıra sayıları testi verilmiĢ ve ayrıca uyarlanmıĢ Durbin sıra sayıları testinin permütasyon versiyonu incelenmiĢtir. Bu 4 yöntem birinci tip hata ve testlerinin gücü bakımından karĢılaĢtırılmıĢ ve sonuçlar yorumlanmıĢtır. 2. TEST ĠSTATĠSTĠKLERĠ Bu Bölümde Durbin sıra sayıları testi, , Skilling ve Mack sıra sayıları testi, uyarlanmıĢ Durbin sıra sayıları testi verilecektir. 2.1 Durbin Sıra Sayıları testi Durbin Sıra sayıları testi tamamlanmamıĢ rasgele blok tasarımlarında kullanılan Friedman testinin Dengeli tamamlanmamıĢ blok tasarımları için bir uzantısıdır(Avlo ve Cabilio,1998). Durbin sıra sayıları testinde i.nci iĢlemin lineer etkisi Mi Mi t 1 rt k N j 1 ij g ( j) (1) Ģeklinde ifade edilmektedir. Burada; 12 k 1 j . 2 2 k 1 g ( j) dir. Mi‟nin tanımına dikkat edildiğinde i.nci iĢlemin sıra sayılarının tekdüze dağıldığı varsayımı altında beklenen değeri ile ortalama sıra sayısı arasındaki fark olduğu aĢikardır. Bu durumda Durbin sıra sayıları test istatistiği, D i 1 M i2 t (2) Ģeklinde ifade edilmektedir. Dikkat edileceği üzere Durbin sıra sayıları testi iĢlemler arasında sıra sayılarının ortalama farkıdır. Burada D istatistiği yaklaĢık olarak t-1 serbeslik dereceli Ki-kare dağılımına sahiptir. ORTA DOĞU TEKNĠK ÜNĠVERSĠTESĠ, FEN-EDEBĠYAT FAKÜLTESĠ, ĠSTATĠSTĠK BÖLÜMÜ | 142 VII. ĠSTATĠSTĠK GÜNLERĠ SEMPOZYUMU BĠLDĠRĠLER KĠTABI 2010 2.2 EĢdeğerli veriler için uyarlanmıĢ Durbin testi Best ve Ark.(2006) aynı değerli gözlemlerin olduğu durumlar için Durbin sıra sayıları testine dayalı uyarlanmıĢ bir test istatistiği oluĢturmuĢlardır. Eğer veriler arasında aynı değerli gözlemler varsa D test istatistiği artık Ki-Kare dağılımına sahip değildir. Bu durumda lineer etki M i , g j ‟ye bağlı olan bir faktör tarafından düzeltilmeye ihtiyaç duyar(Best ve ark., 2006). Yokluk hipotezinin doğruluğu altında, DüzeltilmiĢ Durbin sıra sayıları test istatistiği t AD M i2 a i 1 (3) olarak ifade edilir ve yakalĢık oarak t 1 serbestlik dereceli Ki-Kare dağılımına sahiptir. Düzeltme faktörü olan a; a g Ug / rt (4) Ģeklindedir. Burada g g (1), g (2),..., g (k ) ve U U ij ‟nın (d,w) inci elemanı d ve w’ nin aynı sıra sayılarının atandığı durumların sayısını verir. Eğer herhangi bir blok için d,...,d+m-1 iĢlemlerine aynı sıra sayıları atanmıĢ ise, U‟nun alt matrisine karĢılık gelen m 2 hücrenin her birine , i,j=d,...,d+m-1 için U ij elemanlarına , 1 m eklenir. Matris tüm bloklar üzerinden toplam alınarak oluĢturulduğundan simetriktir. Aynı zamanda düzeltilmiĢ etki M i / a olarak alınabilir. 2.3 Skilling ve Mack Testi Skilling ve Mack(1981) tamamlanmamıĢ blok tasarımlarında kullanılan bir test verilmiĢleridir. Burada sadece dengeli tamamlanmamıĢ blok tasarımlarında olan durum dikkate alınacaktır. rij j.nci blokta i.nci iĢlem var ise sıra sayısını aksi halde (k+1)/2 değerini alsın. Bu durumda i.nci iĢlemin uyarlanmıĢ iĢlem etkisi, b ci j 1 12 k 1 rij . k 1 2 (5) Ģeklindedir. ci(i=1,2,…,t) değiĢkenin varyansı ve ci ve cj (i≠j) arasındaki kovaryans; ORTA DOĞU TEKNĠK ÜNĠVERSĠTESĠ, FEN-EDEBĠYAT FAKÜLTESĠ, ĠSTATĠSTĠK BÖLÜMÜ | 143 VII. ĠSTATĠSTĠK GÜNLERĠ SEMPOZYUMU BĠLDĠRĠLER KĠTABI 2010 Var (ci ) (t 1) i=1,2,…t. (6) Cov(ci , c j ) i≠j=1,2,…t. (7) Ģeklinde ifade edilir. c ci(i=1,2,…t) iĢlem etkileri için sütun vektörü olmak üzere c vektörünün varyans-kovaryans matrisi; Cov(c1 , c2 ) Var (c1 ) Cov(c , c ) Var (c ) 2 1 2 G Cov(ct , c1 ) Cov(ct , c2 ) Cov(c1 , ct ) (t 1) Cov(c2 , ct ) (t 1) Var (ct ) . (t 1) (8) ġeklinde tanımlanır. (5)-(8) ifadelerine dayalı test istatistiği T cG c Ģeklindedir. Burada G , G‟nin genelleĢtirilmiĢ tersidir. G‟in rankı t-1 Ģeklindedir. T test istatistiği H0‟ın doğruluğu altında yaklaĢık olarak Ki-Kare dağılımına sahiptir. 4. SĠMULASYON ÇALIġMASI Bu bölümde, Durbin, uyarlanmıĢ durbin, Skilling ve Mack ve uyarlanmıĢ durbin testinin permutasyon versiyonu 1.nci tip hata ve testlerin gücü bakımından karĢılaĢtırılmıĢtır. Bu karĢılaĢtırma için 2-(4u-1,2u-1,u-1) (u=2,3,4,5,6) paramametreli ve hadamard matrisinden elde edilen simetrik tasarımlar kullanılmıĢtır. Bu karĢılaĢtırma amacıyla her iĢlem için n=9 ve pi(i=1,2,…t) parametreli binom dağılımından sayı üretilmiĢ ve bu sayılar panelistlerin ürünlere verdiği puanlar olarak düĢünülmüĢtür. Daha sonra bu sayılar kullanılarak test istatistikleri hesaplanmıĢ ve bu iĢlem 5000 kez tekrar edilerek 1.nci tip hata ve testlerin gücü hesaplanmıĢtır. Burada testin gücü değerleri iĢlemler 2 ve 3 gruba ayrılarak hesaplanmıĢtır. Tablo 1: Durbin, uyarlanmıĢ Durbin, Skilling ve Mack ve uyarlanmıĢ Durbin testinin ve permutasyon versiyonuna ait 1.nci tip hatalar 2-(4u-1,2u-1,u-1) Durbin 2-(7,3,1) 2-(11,5,2) 2-(15,7,3) 2-(19,9,4) 2-(23,11,5) 0.0005 0.0055 0.0045 0.0120 0.0135 UyarlanmıĢ Durbin 0.0025 0.0355 0.0360 0.0500 0.0501 Skiling ve Mack 0.0005 0.0185 0.0195 0.0270 0.0280 UyarlanmıĢ Durbin-PT 0.0440 0.0520 0.0500 0.0501 0.0503 ORTA DOĞU TEKNĠK ÜNĠVERSĠTESĠ, FEN-EDEBĠYAT FAKÜLTESĠ, ĠSTATĠSTĠK BÖLÜMÜ | 144 VII. ĠSTATĠSTĠK GÜNLERĠ SEMPOZYUMU BĠLDĠRĠLER KĠTABI 2010 Tablo 1den görüldüğü gibi 1.nci tip hata bakımından Durbin ve Skilling ve Mack testlerinin 1.nci tip hataları önceden verilen nominal 1.nci tip hataya yakın sonuçlar vermemiĢtir. Özellikle Durbin testi nominal 1.nci tip hatadan oldukça uzak sonuçlar verdiği gözlemlenmiĢtir. EĢdeğerli veriler için uyarlanmıĢ Durbin testinin 1.nci tip hatası ise her tasarımın parametreleri büyüdükçe (diğer bir deyiĢle her blokta kullanılan iĢlem sayısı arttıkça) nominal 1.nci tip hataya oldukça yakın sonuçlar vermektedir. buna rağmen bu yöntemin esas olarak kullanıldığı küçük tasarımlarda nominal 1.nci tip hatadan uzak değerler almaktadır. Tablo 2: ĠĢlemler iki gruba ayrılmıĢken Durbin, Skilling ve Mack ve uyarlanmıĢ Durbin testinin ve permutasyon versiyonun güç değerleri 2-(4u-1,2u-1,u-1) 2-(7,3,1) 2-(11,5,2) 2-(15,7,3) 2-(19,9,4) 2-(23,11,5) 2-(7,3,1) 2-(11,5,2) 2-(15,7,3) 2-(19,9,4) 2-(23,11,5) 2-(7,3,1) 2-(11,5,2) 2-(15,7,3) 2-(19,9,4) 2-(23,11,5) 2-(7,3,1) 2-(11,5,2) 2-(15,7,3) 2-(19,9,4) 2-(23,11,5) 2-(7,3,1) 2-(11,5,2) 2-(15,7,3) 2-(19,9,4) 2-(23,11,5) 2-(7,3,1) 2-(11,5,2) 2-(15,7,3) 2-(19,9,4) 2-(23,11,5) Ġki grubun binom 0.15-0.25 olasılıkları 0.15-0.25 0.15-0.25 0.15-0.25 0.15-0.25 0.15-0.35 0.15-0.35 0.15-0.35 0.15-0.35 0.15-0.35 0.45-0.55 0.45-0.55 0.45-0.55 0.45-0.55 0.45-0.55 0.40-0.60 0.40-0.60 0.40-0.60 0.40-0.60 0.40-0.60 0.75-0.85 0.75-0.85 0.75-0.85 0.75-0.85 0.75-0.85 0.65-0.85 0.65-0.85 0.65-0.85 0.65-0.85 0.65-0.85 Durbin 0.0005 0.0360 0.1381 0.3240 0.5788 0.0005 0.3042 0.8779 0.9940 1.0000 0.0005 0.0250 0.0775 0.1770 0.3527 0.0005 0.2256 0.6923 0.9590 0.9980 0.0005 0.0255 0.1271 0.3447 0.6568 0.0010 0.3232 0.8709 0.8709 1.0000 UyarlanmıĢ Durbin 0.0095 0.1706 0.4037 0.6660 0.8389 0.0265 0.6143 0.9710 0.9995 1.0000 0.0060 0.1141 0.2436 0.4070 0.5958 0.0185 0.4742 0.8859 0.9910 1.0000 0.0115 0.1816 0.4082 0.6408 0.8539 0.0210 0.6588 0.9720 0.9720 1.0000 Skiling UyarlanmıĢ ve Mack Durbin-PT 0.0005 0.0865 0.1046 0.2361 0.2861 0.4487 0.5430 0.6970 0.7734 0.8524 0.0015 0.2386 0.5503 0.7134 0.9640 0.9775 0.9995 0.9995 1.0000 1.0000 0.0010 0.0775 0.0735 0.1621 0.1801 0.2871 0.3440 0.4410 0.5448 0.6268 0.0010 0.1821 0.4082 0.5698 0.8649 0.9065 0.9900 0.9930 1.0000 1.0000 0.0010 0.1011 0.1101 0.2476 0.2761 0.4552 0.5168 0.6668 0.7649 0.8624 0.0010 0.2236 0.5908 0.7414 0.9580 0.9770 0.9580 0.9770 1.0000 1.0000 ORTA DOĞU TEKNĠK ÜNĠVERSĠTESĠ, FEN-EDEBĠYAT FAKÜLTESĠ, ĠSTATĠSTĠK BÖLÜMÜ | 145 VII. ĠSTATĠSTĠK GÜNLERĠ SEMPOZYUMU BĠLDĠRĠLER KĠTABI 2010 Tablo 3: ĠĢlemler üç gruba ayrılmıĢken Durbin, Skilling-Mack ve uyarlanmıĢ Durbin testinin ve permutasyon versiyonun güç değerleri 2-(4u-1,2u-1,u-1) 2-(7,3,1) 2-(11,5,2) 2-(15,7,3) 2-(19,9,4) 2-(23,11,5) 2-(7,3,1) 2-(11,5,2) 2-(15,7,3) 2-(19,9,4) 2-(23,11,5) 2-(7,3,1) 2-(11,5,2) 2-(15,7,3) 2-(19,9,4) 2-(23,11,5) 2-(7,3,1) 2-(11,5,2) 2-(15,7,3) 2-(19,9,4) 2-(23,11,5) 2-(7,3,1) 2-(11,5,2) 2-(15,7,3) 2-(19,9,4) 2-(23,11,5) 2-(7,3,1) 2-(11,5,2) 2-(15,7,3) 2-(19,9,4) 2-(23,11,5) Üç grubun binom olasılıkları 0.15-0.20-0.25 0.15-0.20-0.25 0.15-0.20-0.25 0.15-0.20-0.25 0.15-0.20-0.25 0.15-0.25-0.35 0.15-0.25-0.35 0.15-0.25-0.35 0.15-0.25-0.35 0.15-0.25-0.35 0.45-0.50-0.55 0.45-0.50-0.55 0.45-0.50-0.55 0.45-0.50-0.55 0.45-0.50-0.55 0.40-0.50-0.60 0.40-0.50-0.60 0.40-0.50-0.60 0.40-0.50-0.60 0.40-0.50-0.60 0.75-0.80-0.85 0.75-0.80-0.85 0.75-0.80-0.85 0.75-0.80-0.85 0.75-0.80-0.85 0.65-0.75-0.85 0.65-0.75-0.85 0.65-0.75-0.85 0.65-0.75-0.85 0.65-0.75-0.85 Durbin 0.0005 0.0205 0.0585 0.1501 0.3157 0.0005 0.1736 0.5548 0.9075 0.9950 0.0005 0.0245 0.0350 0.0880 0.1641 0.0005 0.1211 0.3867 0.7584 0.9658 0.0000 0.0125 0.0580 0.1681 0.3642 0.0005 0.1561 0.5633 0.9336 0.9970 UyarlanmıĢ Skiling ve UyarlanmıĢ Durbin Mack Durbin-PT 0.0040 0.1031 0.2291 0.4227 0.6263 0.0095 0.4117 0.8344 0.9830 0.9995 0.0040 0.0825 0.1476 0.2561 0.3857 0.0080 0.3067 0.6758 0.8964 0.9943 0.0045 0.1031 0.2516 0.4382 0.6403 0.0012 0.4382 0.8374 0.9917 1.0000 0.0005 0.0650 0.1506 0.3262 0.5308 0.0015 0.3437 0.7799 0.9815 0.9995 0.0015 0.0565 0.0905 0.1971 0.3142 0.0005 0.2556 0.6283 0.8988 0.9934 0.0010 0.0540 0.1641 0.3092 0.5048 0.0010 0.3742 0.8159 0.9806 1.0000 0.0700 0.1461 0.2721 0.4597 0.6498 0.1751 0.5068 0.8609 0.9850 0.9995 0.0660 0.1241 0.1711 0.2876 0.4117 0.1246 0.3892 0.7179 0.9130 0.9953 0.0670 0.1531 0.3017 0.4667 0.6633 0.1621 0.5303 0.8679 0.9930 1.0000 ĠĢlemler iki gruba ayrılmıĢken, özellikle küçük tasarımlarda eĢdeğerli veriler için uyarlanmıĢ Durbin testinin permütasyon versiyonu diğer testlere göre oldukça yüksek testin gücü değerlerine sahip olduğu görülmektedir. tasarımların parametreleri büyüdükçe bu fark azalmasına rağmen her durumda diğer tüm testlerden yüksek güç değerlerine sahiptir. Bu tarz tasarımların parametreleri düĢük iken daha kullanıĢlı olduğu düĢünülürse eĢdeğerli veriler için uyarlanmıĢ Durbin testinin permütasyon versiyonu diğer üç teste göre oldukça üstündür denilebilir. ORTA DOĞU TEKNĠK ÜNĠVERSĠTESĠ, FEN-EDEBĠYAT FAKÜLTESĠ, ĠSTATĠSTĠK BÖLÜMÜ | 146 VII. ĠSTATĠSTĠK GÜNLERĠ SEMPOZYUMU BĠLDĠRĠLER KĠTABI 2010 KAYNAKLAR Avlo M. and Cabilo P. ,1998, Application of Hamming distance to the analysis of block designs. Asymptotic methods in probability and statistics, Elsevier Science, Amsterdam, 787–800. Bi, J., 2006, Sensory discrimination tests and measurements: Statistical principles, procedures and tables, Blackwell Publishing, Ames, IA. Bi,J., 2009, Computer-intensive methods for sensory data analysis, exemplified by Durbin‟s rank test , Food Quality and Preference, 20(3):195-202. Best D. J., Brockhoff P. B. and Rayner J. C. W., 2006, Tests for balanced incomplete block ranked data with ties 60(1):3-11 Durbin J., 1951, Incomplete blocks in ranking experiments, British Journal of Psychology (Statistical Section) 4: 85–90. Gisbrecht F.G. Gumbertz M.L.,2004, Planning, Construction and Statistical Analysis of Comparitive Experimemts, Wiley, New York. Gökpınar F., Bayrak H., 2010, A Comparatıve Study of Tests Used in Balanced Incomplete Block Designs For Tied Data, Hacettepe Journal Of Mathematics and Statistics(Incelemede). Hollander and Wolfe, 1999 M. Hollander and D.A. Wolfe, Nonparametric statistical methods (2nd ed.), Wiley, New York. M. Meilgaard, G.V. Civille and B.T. Carr, 1991, Sensory evaluation techniques (2nd ed.), CRC Press, Inc., Boca Raton, FL. Skillings and Mack, 1981 J.H. Skillings and G.A. Mack, On the use of a Friedman type statistic in balanced and unbalanced block designs, Technometrics 23:171–177. ORTA DOĞU TEKNĠK ÜNĠVERSĠTESĠ, FEN-EDEBĠYAT FAKÜLTESĠ, ĠSTATĠSTĠK BÖLÜMÜ | 147