Tıklayınız - Türk İstatistik Derneği
Transkript
Tıklayınız - Türk İstatistik Derneği
Ç NDEK LER ÖNSÖZ ..................................................................................................................... 1 • ktisatta matematik, istatistik ve ekonometri: Tarihsel bir bak Ercan Uygur .......................................................................................................... 2 • Parametrik ve parametrik olmayan testler üzerine bir çal ma P nar Esen, Cihan Aksop ..................................................................................... 3 • Ard arda örnekleme yönteminde yeni bir tahmin edici Esra Sat c , Cem Kad lar ...................................................................................... 11 • Pearson korelasyon katsay s n n tahmin edicilerinin kar la t r lmas Hakan Sava% Sazak, Ahmet Can Diker ............................................................... 18 • Güneydo'u Anadolu Bölgesi’ne yap lan kamu yat r mlar n istatistiksel de'erlendirmesi Bahar Burtan Do(an, Murat P çak ...................................................................... 30 • Parametrik olmayan panel veri modelleri ile uluslararas göçün makro ekonomik belirleyicileri Selahattin Güri%, Elif Öztürk ................................................................................ 46 • Hisse senedi piyasas çalkant lar için erken uyar sistemi: Türkiye örne'i Oya Can Mutan, Ayhan Topcu ............................................................................ 57 • stanbul ve Erzurum illeri için ya' serileri ile s cakl k serilerinin modellenmesi ve kestirimin kar la t r lmas Di(dem Balyam .................................................................................................... 67 • MKB verilerinin bulan k zaman serisi yakla m ile çözümlenmesi F. Emrah nceo(lu, Erol E(rio(lu, Ufuk Yolcu, Ça(da% Hakan Alada( ........... 78 • FGM kapulalar n konveks kombinasyonlar ve yerel ba' ml l k fonksiyonu Olcay Bozkurt, smihan Bayramo(lu .................................................................. 89 • Üç de'i kenli Bernoulli da' l m ile türetilen üç de'i kenli geometrik da' l m Özge Elmasta% Gültekin, smihan Bayramo(lu ................................................. 101 • Basit rasgele örnekleme yönteminde medyan tahmin edicileri Sibel Al, Hülya Ç ng ............................................................................................ 109 • Stokastik oynakl k modellerinde Bayesci çözümleme Derya Ersel, Yasemin Kayhan At lgan, Süleyman Günay ................................ 118 X Kontrol kartlar için Bayesci kontrol s n rlar Haydar Demirhan, Canan Hamurkâro(lu ........................................................... 127 • Türkiye’deki bo anma nedenleri profilinin veri madencili'i yöntemlerinden karar a'açlar ile olu turulmas Mehmet Uysal, Volkan Kat .................................................................................. 136 • Geli tirilmi anahtarlamal bulan k regresyon modelinin alt kümelerin farkl regresyon modellerine sahip oldu'u durumda bir uygulamas Duygu çen, Süleyman Günay ............................................................................. 142 • Bir ayarlama yöntemi olarak k smi en küçük kareler regresyonu Esra Polat, Süleyman Günay ............................................................................... 153 • • Bootstrap yönteminin regresyon analizinde kullan m ve di'er yöntemlerle kar la t r lmas Hakan Sava% Sazak, Duygu Okutan ................................................................... 169 • Parametrik lojistik regresyon modelinin yar parametrik alternatifine kar geçerlilik testi Özge Akku%, Hüseyin Tatl dil .............................................................................. 180 • Bulan k Risk S n fland rma Ay%en Apayd n, Furkan Ba%er, Nuray Güneri Tosuno(lu ................................ 190 • Aral k uzunlu'unun optimizasyonuna dayal yüksek dereceli bulan k zaman serisi yakla m Erol E(rio(lu, Ça(da% Hakan Alada(, Ufuk Yolcu, M. Alper Ba%aran V. Rezzan Uslu ...................................................................................................... 205 • Sa'dan sansürlemenin sa'kal m analizindeki etkisi Çi(dem Topçu, Fahrettin Aslan .......................................................................... 214 • Random forest ve destek vektör makinas yöntemleri ile gen seçimi ve s n flama Erdal Co%gun , Erdem Karabulut, Ergun Karaa(ao(lu ..................................... 222 • Voleybol maç sonuçlar n n modellenmesi: Kesikli seçim modelleri ile bir uygulama Erkan I% kl , Mehtap Hisarc kl lar ........................................................................ 235 • Teknolojik geli me sürecine paralel uygulamal istatistik e'itimi ve ya ad klar m F. Zehra Muluk, Emrah Oral ................................................................................. 243 • Hazard oran n n testi için uyarlamal düzenler Yaprak Parlak Demirhan, Sevil Bacanl .............................................................. 254 • Maksimum entropi ilkesi ve Türkiye nüfus veri kümesine uygulamas rem De(irmenci, Süleyman Günay .................................................................... 260 • Kalite kontrol grafiklerine bulan k yakla m Ay%en Apayd n, Nilüfer Pekin Alakoç ................................................................. 269 • Hayat sigortas irketleri için güvenilir ölüm verileri elde etmeye yönelik alternatif bir uygulama Erdem K rkbe%o(lu, Serpil Cula .......................................................................... 278 • Karma emeklilik planlar nda stokastik modelleme ve Türkiye uygulamas Yasemin 9entürk, Funda Karaman, Ba%ak Bulut, Sema Tüzel ........................ 285 • Çoklu azalan ya am tablosu ve emeklilik sistemine bir uygulama Hatice Tuzgöl, Ömer Esensoy ............................................................................. 305 • ki de'i kenli ba' ml birle ik Poisson sürecinin olas l k fonksiyonu Gamze Özel, Ceyhan nal ..................................................................................... 315 • Gamma müdahaleli ödüllü yenileme sürecinin ergodik da' l m n n zay f yak nsakl ' Rovshan Aliyev, Tahir Khanniyev, Nurgül Okur Bekar ..................................... 324 • statistiksel basit do'um sürecine teorik bir yakla m Seçil Yalaz, Ahmet Kaya, Rojan Arcak ............................................................... 331 • Üçgensel müdahaleli rastgele yürüyü sürecinin momentleri üzerine Rovshan Aliyev, Zafer Küçük, Tahir Khaniyev .................................................. 337 • Tabakal rastgele örneklemede üstel tahmin ediciler Nursel Koyuncu, Cem Kad lar ............................................................................. 346 • Nadaraya-Watson çekirdek kestiricilerinin yar parametrik model tahmindeki performans üzerine bir benzetim çal mas Özge Akku%, Serdar Demir, Hüseyin Tatl dil ...................................................... 356 • A' rl kl bilgi kriteri ile Türkiye toplam elektrik tüketiminin öngörüsü Ça(da% Hakan Alada(, Erol E(rio(lu, Süleyman Günay .................................. 365 • Yapay sinir a'lar ile öngörü kombinasyonu Erol E(rio(lu, Ça(da% Hakan Alada(, Cem Kad lar, Ufuk Yolcu ..................... 374 • Rize Üniversitesi F nd kl Meslek Yüksekokulu ö'rencilerinin sigara içme al kanl klar Zeynep Kazanc , Bengü Kabata% ........................................................................ 383 • IMDb verilerinin analizi ve karma model tabanl kümeleme uygulamas Bahar Erar, Gülay Ba%ar r K ro(lu, Ayd n Erar .................................................. 393 • Faktör korelasyonlar n n Cronbach Alpha üzerine etkisi Fatma Noyan, Gülhayat Gölba% 9im%ek ............................................................ 407 • Ba' ml de'i kende ayk r de'er olmas durumunda ANFIS ile parametre tahmini Türkan Erbay Dalk l ç, Kamile 9anl Kula, Ay%en Apayd n ............................... 422 • Üstel binom da' l m Co%kun Ku% .......................................................................................................... 432 • Çok Boyutlu Do'rusal Regresyon Modeli çin LMS Algoritmas ve Uygulamalar Yasemin Kayhan At lgan, Derya Ersel, Süleyman Günay ................................ 445 • Türkiye’de i sizlik oranlar n n temel bile enli regresyon analizi ile belirlenmesi Öznur %çi, Atilla Gökta%, Niyazi Çankaya .......................................................... 452 • Ya am çözümlemesinde zay fl k modeli Nihal Ata, Durdu Karasoy, M.Tekin Sözer .......................................................... 458 • Veri madencili'inde yap sal olmayan verinin analizi: Metin ve Web madencili'i M. Özgür Dolgun, Tülin Güzel Özdemir, Doruk O(uz ....................................... 467 • Matematikte ba ar üzerine ö'rencilerin kendileriyle ilgili görü leri brahim Demir, Serpil K l ç ................................................................................... 476 • 2006 y l Türkiye’de ortaö'retim performans n n de'erlendirilmesi brahim Demir, Özer Depren ............................................................................... 485 • Türk istatistik sisteminin bugünkü durumu Turhan Mente%, Co%kun Dolanbay ..................................................................... 491 • Bir makine sanayinde tedarikçi seçimindeki belirsizli'in bulan k mant kla modellenmesi M. Bahar Ba%k r .................................................................................................... • Bulan k Kümelerde en uygun küme say s n n yapay sinir a'lar ile belirlenmesi ............................................................................................................ Necati Alp Erilli,Ufuk Yolcu,Erol E(rio(lu,Yüksel Öner, Ç.Hakan Alada( 493 498 • Sinyal seviye ölçümleri için kat ve bulan k kümeleme Kamile 9anl Kula, Türkan Erbay Dalk l ç, Ay%en Apayd n ............................... 509 • Tabu arama algoritmas nda farkl hareket türlerinin birle tirilmesi Ça(da% Hakan Alada(,Gülsüm Hocao(lu, Özgür Yeniay ................................. 516 • Logaritmik do'rusal modellerde gizli düzey çözümlemesi Derya Ersel, Yasemin Kayhan At lgan, Süleyman Günay ................................ 523 • Tavlama benzetimi yöntemi ile çok yan tl problemlerin optimizasyonu Ay%en Apayd n, Özlem Türk%en .......................................................................... 531 • Finans analizinde robust optimizasyonu üzerine bir çal ma Ay%en Apayd n, Gültaç Ero(lu nan ................................................................... 536 POSTERLER • Kumaraswamy da' l m ve beta da' l m aras ndaki ili ki Serpil Akta% ........................................................................................................... 547 • Boxplot ve Cook Sapan De'er statistikleri Seçil Yalaz, Ahmet Kaya ...................................................................................... 554 ÖNSÖZ Alt nc statistik Kongresi’nde sunulan bildirilerin tam metinleri bu kitapta toplanm t r. Kongreye sunulmu bildirilerin önemli bir k sm n n istatistik problemlerinin çözümüne yönelik olmas , ülkemizdeki ara t rmac lar n da istatistik bilminin geli mesine katk da bulundu!unu göstermesi aç s ndan sevindirici olmu tur. Önceki kongrelerde oldu!u gibi bu kongrede de bulan k mant k yakla m n n, istatistik kuram ve uygulamalar n n geli tirilmesinde yayg n olarak kullan ld ! gözlenmi tir. Kongrede dikkat çeken ikinci bir konu da stokastik süreçler alan ndaki çal malara a! rl k verilmi olmas d r. Di!er bir gözlemimiz ise, kuramsal çal malar n yan s ra, istatisti!in iktisat ve i letme alanlar ndaki uygulamalar ile ilgili bildirilerin akademik ve çal ma hayat nda olanlar taraf ndan ilgi ile izlenmi olmas d r. Bu ba!lamda Ercan Uygur taraf ndan sunulan davetli bildiri, istatisti!in iktisat bilimi içerisindeki tarihsel maceras n ortaya koymas bak m ndan kongrenin ilgi toplayan bildilerinin ba nda yer ald . Zehra Muluk’un üniversite y llar nda ara t rma ve e!itimde kulland ! hesaplama teknolojilerini görsel bir sunumla gerçekle tirmesi, kat l mc lar n an lar n canlad rmas bak m ndan ilginç ve ak lda kalan sunumlardan biri oldu. Bilindi!i gibi bildiri tam metinleri kongre ba lamadan önce yazarlardan istenmi ti. Ancak bildiri tam metinlerinin kitap haline gelmesi çe itli nedenlerle yakla k yedi ay gibi uzun bir zaman ald . Kimi bildiriler kongrede sunuldu!u halde tam metinler bize ula t r lmam t . Baz bildiri metinleri ise bize iletilenler aras ndan ç kmad . Sunulmu bildirlerden bir kaç ise hakemli dergilere yay mlanmak üzere editörlere gönderilmi olmas sebebiyle yazarlar n iste!ine ba!l olarak bize gönderilmemi ti. Bu sorunlar n halledilmesi yaz malara ba!l oldu!undan belli bir zaman ald . Buna ra!men yedi adet bildirinin tam metinleri tüm hat rlatmalara kar n yazarlar taraf ndan bize gönderilmemi tir. Bildiri tam metinleri belli bir yaz kal b na uygun olarak yaz lm olmalar na ra!men bir ço!unda yeniden düzenleme yapmak zorunda kal nd . Ba l klar n ve paragraf biçimlerinin ayn olmas sa!land . Do!al olarak, yaz lar n içeri!inden do!rudan yazarlar sorumlu olduklar için yazarlardan herhangi bir düzelme iste!inde bulunulmam t r. Alt nc Kongre bildirilerinin tam metinlerinin bas lm kopyalar , önceki kongrelerde oldu!u gibi, istatistik bölümlerine iletilecek ve kongreyi düzenleyen derneklerin Web sitelerinde bulundurulacakt r. Ara t rmac lar n yararlanmalar n dileriz. Alt nc statistik Kongresi Düzenleme Kurulu 1 ktisatta matematik, istatistik ve ekonometri : Tarihsel bak ! Ercan Uygur Ankara Üniversitesi Siyasal Bilgiler Fakültesi ercan.uygur@gmail.com Üniversite düzeyinde iktisat, o zamanki ad yla “politik iktisat”, ilk kez ngiltere’de 1750’li y llarda felsefe, hukuk, tarih gibi dersler içinde yer almaya ba lad . Avrupa’da ulus devletlerin kuruldu!u ve ayd nlanmac dönemin ba lad ! bu y llarda politik iktisat ayr bir ders konusu olmad ! ndan, konunun önde gelenlerinden A. Smith Glasgow Üniversitesine 1751’de önce Mant k sonra Ahlaki Felsefe Profesörü olarak atanm t . Politik iktisat dersleri ilk olarak ngiltere’de Cambridge ve Oxfod üniversitelerinde 1810’lu y llarda ba lad . lk politik iktisat bölümü ise ABD’de Harvard Üniversitesinde 1871’de aç ld . statistikteki geli meler de, iktisada benzer ekilde, ulus devletlerin olu umuna ko ut bir seyir izlemi tir. lk “statistik” dersleri 1750’lerde G. A. Achenwall taraf ndan Almanya’da Göttingen Üniversitesi’nde verilmi tir, fakat bu dersler bugünkü anlamda istatistik bilgisi de!il, devlet yönetimiyle ilgili bilgiler içermi tir ve verenler politik iktisatç lard r. 1670’lerde ngiltere’de do!um ve ölüm istatistikleri ile u!ra an J. Graunt ve W. Petty bugünkü anlamdaki istatisti!in öncüleridir, fakat yapt klar çal malar n o zamanki ad “politik aritmetik”tir. Giderek olas l k hesaplar n da içeren bu çal malara 1798’de John Sinclair “istatistik hesaplar” ad n vermi ve istatistik kavram bundan sonra yerle mi tir. ktisatta matematik ve istatisti!in kullan lmas 1800’lerin ikinci yar s ndan itibaren ba lam t r. Burada birinci etmen, giderek artan say da iktisatç n n, “iktisad n bir bilim dal haline gelmesi için, matematik ve istatisti!i kullanabilmesi gerekir” görü üdür. Bu görü teki ilk iktisatç lar aras nda bir yanda W. S. Jevons, L. Walras ve A. Marshall gibi neoklasik iktisatç lar, bir yanda da K. Marx vard r. Ayn dönemlerde ek verilerin ve istatistiksel yöntemlerin kullan lmas na Alman Tarihsel ktisat Okulu da çok önem vermi tir. kinci bir etmen, ayn dönemde istatistiksel yöntemlerin h zl bir geli im göstermesi, bunlar n birçok bilim dal nda uygulanmas ve Biometrika gibi önemli dergilerin yay na ba lamas d r. En Küçük Kareler yöntemi ile birlikte korelasyon katsay s 1880’ler sonundan itibaren biyoloji ve psikolojide s kça kullan lm t r. Özellikle psikolojideki uygulamalar n iktisattaki istatistiksel çal malara örnek olu turdu!u anla l yor. 1800’lerin ikinci yar s ndan ba layarak, daha çok tar msal fiyat ve miktarlarda görülen ini -ç k lar yan nda, makro-ekonomik dalgalanmalar da gözleniyordu. Do!al olarak iktisatç lar bu dalgalanmalar ve i döngülerini aç klamaya giri tiler. C. Juglar 1862’de i döngülerini kredilerle aç klad , Jevons 1875’te “güne lekeleri” adl kuram yla bu döngüleri iklim de!i melerine ba!lad . döngülerini 1910’larda ekonomik istatistiklerle aç klayan Mitchell, 1920’de ABD’de kurulan NBER’ n kurucular aras ndad r. döngüleri konusunda yap lan çal malar, ekonometriye giden yolu dü ünce olarak açt lar, ancak 1929’da ba layan büyük bunal m öngöremediler. Bu durumda zaman n iktisatç lar , istatistiksel çal malara temel olu turacak dinamik makroekonomik modeller olu turmaya giri tiler. Bu çerçevede R. Frisch ve J. Tinbergen’in 1930’larda yapt ! çal malar en önemli katk lard r. Ekonometrik modellerle dalgalanmalar anlamak, öngörmek ve bunlara uygun politikalar geli tirmek bu dönemin önemli bir heyecan kayna! oldu. Büyük bunal m, 1930’lar ba nda, Keynes’in de etkisiyle, hem Makroiktisad n, hem de Ekonometrinin do!u unu haz rlad . Ekonometrinin do!umunda ve geli mesinde Cowles Komisyonlar n n ve Ekonometri Derne!inin önemli rolü vard r. 1930’larda ve 1940’larda istatistik, ekonometri ve iktisat içinde da! l mlar yoluyla daha geni olarak yer ald . Ekonometrik model de!i kenlerinin verilerinin bir olas l k da! l m ndan gelen örneklem de!erleri oldu!u aç klamas , ilk kez T. Haavelmo’nun Econometrica’da 1944’te yay nlanan makalesinde yer ald . Ayn dönemde, Frisch’in öncülü!ünde zaman serisi modellemesinde de geli meler vard r. Bugün geldi!imiz noktada ise, dinamik ve olas l ksal optimizasyon yöntemleri ba ta olmak üzere, iktisatta yo!un matematik, istatistik ve ekonometri kullan m n n iktisat içinden ele tiriler ald ! n da belirtmemiz gerekir. 2 Parametrik ve parametrik olmayan testler üzerine bir çal !ma P nar Esen Cihan Aksop Gazi Üniversitesi, statistik Bölümü 06100-Be#evler, Ankara, Türkiye pinardeep@gmail.com Gazi Üniversitesi, statistik Bölümü 06100-Be#evler, Ankara, Türkiye entelpi@yahoo.com Özet Literatürde, varsay mlar n sa!lanmams durumunda parametre-d yöntemlerin kullan m sunulmu tur. Bu çal mada, parametrik teste göre red edildi!i bilinen bir hipotezin parametrik testle de red edilmesi olas l ! incelenmi tir. Anahtar sözcükler: t testi, Wilcoxon-Mann-Whitney testi, Welch testi, parametred testler, simülasyon Abstract A Study on Parametric and Non-Parametric Tests In the literatur, using nonparametric tests is presented as a crucial method when the assumptions of parametric test are not hold. In this paper, we study the probability of rejecting (not rejecting) a test with a non-parametric test when the result of parametric test was given. Keywords: Nonparametric test, t test, Welch test, Wilcoxon-Mann-Whitney test, simulation 1. Giri! ki y ! n n konum parametrelerinin kar la t r lmas nda t testi çok s k kullan lan parametrik bir testtir. Fakat varsay mlardaki bozulmalara kar hassasl ! parametre d alternatifleri kullanmaya zorlamaktad r. ki y ! n n konum parametresinin kar la t r lmas nda en s k kullan lan iki parametre d test Welch[1] ve Wilcoxon-Mann-Whitney [2-3] testleridir. Kar la t r lan iki y ! n n varyanslar n n e it olmamas ve normal da! l m varsay m ndan sapmalara kar Zimmerman ve Williams [4], Gans [5], Murphy [6], Snedecor ve Cochran [7]' n elde etikleri sonuçlar Perry [8] taraf ndan u ekilde özetlenmi lerdir: 1. t testi da! l mlar simetrik ve varyanslar e itken robusttur. 2. Welch testi da! l mlar simetrik ve varyanslar farkl iken robusttur. 3. Wilcoxon-Mann-Whitney testi da! l mlar asimetrik ve varyanslar e it iken robusttur. Bu özelliklerine ra!men, özellikle hesaplama zorluklar nedeniyle uygulamada parametred testlerden kaç n l r ve gerek limit durumundaki da! l m özellikleri ve gerekse baz dönü ümler yard m yla t testine ili kin varsay mlar sa!lat lmaya çal larak, t testi kullan l r. 3 Bu çal mada varsay mlar n sa!lan p sa!lanmad ! na bak lmaks z n t testi ile iki y ! n n konum parametresine ili kin yap lacak testlerde, çok uç de!erler ile (0 veya 1'e çok yak n p de!erleri ile) hipotezin red edilmesi veya edilememesine ra!men yine de parametre d testleri kullanmak gerekli midir, sorusu yan tlanmaya çal lacakt r. 2. Yöntem X1, X2, …, Xn ve Y1, Y2, …, Ym s ras yla P1 ve P2 ortalamal Q12 ve Q22 varyansl iki rastgele örnek olsunlar. Verilmi bir S anlaml l k de!erinde H0: P1 = P2 hipotezini H1: P1 U P2 hipotezine kar s namak istedi!imizi dü ünelim. Bu hipotez testi için kullan labilecek olan test istatistikleri 1. t testi 2. Welch testi 3. Wilcoxon-Mann-Whitney testi dir. Buna göre s ras yla t testi, Welch tesi ve Wilcoxon-Mann-Whitney testleri için | t | > t2/2, n+m-2 , | tw | > tS/2, df ve |z| > zS/2 kritik bölgeleri kullan l r. Bu kritik bölgeleri s ras yla C1, C2 ve C3 ile gösterirsek, bu çal mada P{ t C1 | tw C2}, P{ t C1| z C3}, P{ tw C2| t C1}, P{ tw C2| z C3}, 4 P{ z C3| t C1} ve P{ z C3| tw C2} ko ullu olas l k de!erleri simülasyon çal malar yla elde edilmi ve sonuçlar yorumlanm t r. 4. Sonuçlar Simülasyaon çal mas için normal, ki-kare ve üstel da! l mlar ndan çe itli örnek hacimlerinde veri üretilmi tir. Daha sonra üretilen veri yard m yla kullan lan test istatistiklerinin ko ullu olas l klar hesaplanm t r. Her bir olas l k hesab için 2000’er örnek kullan lm ve bu amaçla bir OCTAVE program haz rlanm t r. Tablo de!erleri yorumunda d tablo kullan lan test istatistiklerini ve da! l mlar belirtmektedir. Buna göre Çizelge 1’de t testi ko ulda kullan lm ve sat rlarda s ras yla normal, ki-kare ve üstel da! l mlar kullan lm t r. ç tablolarda ise sat rlar ko ulda kullan lan anlaml l k düzeylerini, sat rlar ise ilgilenilen test istatisti!ine göre kullan lan anlaml l k düzeylerini vermektedir. Buna göre Çizelge 1’den t testine göre anlaml l k düzeyi 0.05 iken ortalamalar n e itli!ine ili kin hipotez, standart normal da! l ml 30’ar hacimli örnekler kullan lmas durumunda red edildi!i biliniyorsa, ayn durumda Welch istatisti!i ile hipotezin red edilmesi olas l ! 0.45’dir. Çizelge 1. t test istatisti!i verilmi ken di!er test istatistikleri ile ko ullu da! l m . t testi P( . | t) Welch N1=N2=30 X~N(0,1) Y~N(0,1) 0.05 0.025 0.01 0.05 0.74 0.92 0.97 1 0.025 0.42 0.72 0.93 0.41 1 0.01 0.18 0.45 0.67 0.05 0.025 0.01 0.05 0.25 0.01 0.05 1 1 1 0.05 0.72 0.90 0.98 0.025 0.58 1 1 0.025 0.46 0.71 0.85 0.01 0.19 0.47 1 0.01 0.17 0.42 0.70 0.05 0.025 0.01 0.05 0.025 0.01 0.05 1 1 1 0.05 0.68 0.82 0.87 0.025 0.48 1 1 0.025 0.41 0.67 0.89 0.01 0.20 0.37 1 0.01 0.19 0.26 0.48 0.05 0.025 0.01 0.05 1 1 1 0.025 0.45 1 0.01 0.18 N1=N2=30 X~Ki-kare 5 Y~Ki-kare 5 N1=N2=30 X~Üstel Y~Üstel 5 5 Wilcoxon-Mann-Whitney 5 Çizelge 2. t istatistik de!eri verilmi ken di!er istatistiklerin ko ullu da! l mlar T testi P( . | t) Welch N1=N2=30 X~N(0,1) Y~N(1,1) 0.05 0.025 0.01 0.05 1 1 1 0.025 0.96 1 0.01 0.92 0.05 0.025 0.01 0.05 0.99 0.99 0.99 1 0.025 0.97 0.99 0.99 0.94 1 0.01 0.93 0.95 0.96 0.05 0.025 0.01 0.05 0.025 0.01 0.05 1 1 1 0.05 0.97 0.99 0.99 0.025 0.92 1 1 0.025 0.92 0.97 0.99 0.01 0.80 0.86 1 0.01 0.80 0.87 0.96 0.05 0.025 0.01 0.05 0.025 0.01 0.05 1 1 1 0.05 0.87 0.95 0.96 0.025 0.70 1 1 0.025 0.71 0.85 0.95 0.01 0.42 0.59 1 0.01 0.46 0.60 0.79 N1=N2=30 X~Ki-kare 5 Y~Ki-kare 8 N1=N2=30 X~Üstel 5 Y~Üstel 8 Wilcoxon-Mann-Whitney Çizelge 3. Welch istatistik de!eri verilmi ken di!er istatistiklerin ko ullu da! l mlar Welch testi P( . | Welch) t testi N1=N2=30 X~N(0,1) Y~N(0,1) Wilcoxon-Mann-Whitney 0.05 0.025 0.01 0.05 0.025 0.01 0.05 0.99 1 1 0.05 0.73 0.92 0.97 0.025 0.44 1 1 0.025 0.42 0.72 0.93 0.01 0.17 0.41 1 0.01 0.18 0.45 0.67 6 N1=N2=30 X~Ki-kare 5 Y~Ki-kare 5 0.05 0.025 0.01 0.05 0.025 0.01 0.05 1 1 1 0.05 0.72 0.90 0.88 0.025 0.52 0.98 1 0.025 0.46 0.70 0.85 0.01 0.18 0.44 0.96 0.01 0.17 0.39 0.67 0.05 0.025 0.01 0.05 0.025 0.01 0.05 0.98 1 1 0.05 0.68 0.82 0.87 0.025 0.46 0.97 1 0.025 0.40 0.66 0.89 0.01 0.18 0.33 0.86 0.01 0.17 0.25 0.46 N1=N2=30 X~Üstel 5 Y~Üstel 5 Çizelge 4. Welch istatistik de!eri verilmi ken di!er istatistiklerin ko ullu da! l mlar Welch testi P( . | Welch) t testi N1=N2=30 X~N(0,1) Y~N(1,1) 0.05 0.025 0.01 0.05 0.025 0.01 0.05 0.99 1 1 0.05 0.99 0.99 0.99 0.025 0.96 1 1 0.025 0.97 0.99 0.99 0.01 0.092 0.94 0.99 0.01 0.93 0.95 0.98 0.05 0.025 0.01 0.05 0.025 0.01 0.05 0.99 1 1 0.05 0.92 0.97 0.99 0.025 0.92 0.99 1 0.025 0.92 0.97 0.99 0.01 0.79 0.86 0.99 0.01 0.80 0.87 0.96 0.05 0.025 0.01 0.05 0.025 0.01 0.05 0.96 1 1 0.05 0.87 0.94 0.96 0.025 0.68 0.97 1 0.025 0.70 0.84 0.95 0.01 0.39 0.54 0.94 0.01 0.43 0.58 0.77 N1=N2=30 X~Ki-kare 5 Y~Ki-kare 8 N1=N2=30 X~Üstel Y~Üstel 8 5 Wilcoxon-Mann-Whitney 7 Çizelge 5. Wilcoxon-Mann-Whitney istatistiklerin ko ullu da! l mlar istatistik de!eri verilmi ken di!er Wilcoxon-Mann-Whitney texti P( . | Wilcoxon-Mann-Whinet) t testi N1=N2=30 X~N(0,1) Y~N(0,1) 0.05 0.025 0.01 0.05 0.025 0.01 0.05 0.73 0.91 1 0.05 0.73 0.91 1 0.025 0.40 0.69 0.93 0.025 0.40 0.69 0.93 0.01 0.15 0.38 0.53 0.01 0.15 0.38 0.53 0.05 0.025 0.01 0.05 0.025 0.01 0.05 0.69 0.95 1 0.05 0.69 0.95 1 0.025 0.45 0.62 0.90 0.025 0.45 0.62 0.92 0.01 0.14 0.40 0.56 0.01 0.14 0.41 0.56 0.05 0.025 0.01 0.05 0.025 0.01 0.05 0.70 0.85 1 0.05 0.71 0.88 1 0.025 0.38 0.62 0.92 0.025 0.38 0.63 0.97 0.01 0.19 0.29 0.48 0.01 0.20 0.31 0.54 N1=N2=30 X~Ki-kare 5 Y~Ki-kare 5 N1=N2=30 X~Üstel Y~Üstel 5 5 Welch 8 Çizelge 6. Wilcoxon-Mann-Whitney istatistik de!eri verilmi ken di!er istatistiklerin ko ullu da! l mlar Wilcoxon-Mann-Whitney testi P( . | Wilcoxon-Mann-Whitney) t testi N1=N2=30 X~N(0,1) Y~N(1,1) 0.05 0.025 0.01 0.05 0.98 0.99 1 0.025 0.93 0.96 0.01 0.86 0.05 0.025 0.01 0.05 0.98 0.99 1 0.99 0.025 0.93 0.96 0.99 0.88 0.93 0.01 0.86 0.88 0.93 0.05 0.025 0.01 0.05 0.025 0.01 0.05 0.96 0.99 0.99 0.05 0.96 0.99 0.99 0.025 0.89 0.94 0.99 0.025 0.89 0.94 0.99 0.01 0.75 0.81 0.90 0.01 0.75 0.81 0.90 0.05 0.025 0.01 0.05 0.025 0.01 0.05 0.79 0.92 0.99 0.05 0.80 0.93 0.99 0.025 0.58 0.76 0.93 0.025 0.58 0.77 0.94 0.01 0.36 0.49 0.73 0.01 0.37 0.50 0.75 N1=N2=30 X~Ki-kare 5 Y~Ki-kare 8 N1=N2=30 X~Üstel Y~Üstel 8 5 Welch Çizelgedeki de!erler incelendi!inde hemen görülmektedir ki ko ulda kullan lan kritik bölgeye ili kin anlaml l k düzeyi, incelenilen istatisti!in kritik bölgesini olu turmada kullan lan anlaml l k düzeyinden dü ük ise, bu olas l k de!erleri çok yüksek olmaktad r. Ayr ca bütün tablolardan görülmektedir ki; t testi ve Welch testi kullan larak hesaplanan ko ullu olas l klar, t testi ve Wilcoxon-Mann-Whitney testleri ile hesaplananlardan daha yüksektir. Welch testi ve Wilcoxon-Mann-Whitney istatistikleri kullan larak elde edilen ko ullu olas l k de!erlerinin çok küçük olmamas bir anlamda Welch testinin t testi ile wilcoxon-Mann-Whitney testleri aras nda bir role sahip oldu!unu sezdirmektedir. Bu nedenle çal malarda Welch testi ile hipotez testlerini gerçekle tirip, sonucun t testi ve Wilcoxon-Mann-Whitney testleri ile de ayn olma olas l ! n n çok yüksek olaca! göz önünde tutularak, hipoteze ili kin yorumlar yap labilir. 9 Kaynaklar [1] B. L. Welch (1947), The generalization of “student's” problem when several different population variances are involved, Biometrika, 34, 28-35. [2] F. Wilcoxon (1945), Individual comparisons by ranking metjods, Biometrics Bulletin, 1, 80-83. [3] H. B. Mann, D. R. Whitney (1947), On a test of whether one of two random variables is stochastically larger than the other, Annals of Mathematical Statistics, 18, 50-60. [4] D. W. Zimmerman, R. H. Williams (1989), Power comparisons of the student t-test and two approximations when variances and sample sizes are unequal, Journal of Indian Society Agricultural Statistics, 41 (2), 206-217. [5] D. J. Gans (1981), Use of a preliminary test in comparing two sample means, Communication in Statistics B, Simulation and Computation, 10 (2), 163-174. [6] B. P. Murphy (1976), Comparison of some two sample means tests by simulation, Communication in Statistics B, Simulation and Computation, 5(1), 23-32. [7] G. W. Snedecor, W. G. Cochran (1967) Statistical methods, Ames, Iowa: The Iowa State University Press. [8] K. T. Perry (2003), A critical examination of the use of preliminary tests in twosample tests of location, Journal of Modern Applied Statistical Methods, 2 (2), 314328. 10 Ard arda örnekleme yönteminde yeni bir tahmin edici Esra Sat c Cem Kad lar Hacettepe Üniversitesi statistik Bölümü eelagoz@hacettepe.edu.tr Hacettepe Üniversitesi statistik Bölümü kadilar@hacettepe.edu.tr Özet Ard arda örnekleme yöntemi, ortalama gibi kitle karakteristiklerinin daha etkin tahminlerini elde etmek için, s kl kla kullan lan bir yöntemdir. Bu yöntemde, güncel ara t rma tahminlerinin elde edilmesinde daha önceki ara t rma bilgileri birlikte kullan l r. Bu çal mada, iki a amal ard arda örnekleme yönteminde ikinci ara t rma kitle ortalamas tahmini için yeni bir tahmin edici önerilmi tir. Önerilen tahmin edicinin hata kareler ortalamas elde edilmi ve Singh (2005) tahmin edicisi ile teorik olarak kar la t r lm t r. Hangi ko ul alt nda önerilen tahmin edicinin daha etkin oldu!u gözlenmi tir. Ayn zamanda optimum yenileme ilkesi de incelenmi tir. Anahtar sözcükler: Ard arda örnekleme yöntemi, oransal tahmin edici, hata kareler ortalamas:, optimum yenileme ilkesi Abstract A new estimator in successive sampling Successive sampling has been extensively used to provide more efficient estimates of population charecteristics such as mean. In successive sampling, it is common practice to use the information collected on a previous occasion to improve the precision of the estimates at current occasion. In this study, a new estimator has been proposed for estimating the population mean at second (current) occasion in the two occasion successive sampling. The mean square error expression for the proposed estimator has been obtained and compared theoratically with estimator in Singh (2005). By this way, we show the efficient condition for the proposed estimator. Optimum replacement policy is also discussed. Keywords: Successive sampling, ratio estimator, mean square error, optimum replacement policy. 1. Giri! Örnekleme yapman n amac inceleme konusu olan kitle hakk ndaki veriyi daha az zamanda ve daha az maliyet ile elde etmektir. Örnekleme yöntemlerinin teori ve uygulamalar son y llarda büyük bir geli me göstermi tir. Örneklemenin kullan m artt kça ortaya ç kan verileri analiz edip yorumlamak için farkl yöntemlere ihtiyaç duyulmu tur. Örnekleme kuram nda iki süreçten bahsedilir. lk süreç, seçim sürecidir. En temel örnekleme yöntemi, basit rasgele örnekleme (BRÖ) yöntemidir. kinci süreç ise tahmin sürecidir. Seçim sürecinde kullan lan yönteme göre parametreler tahmin edilir. Ara t rman n konusuna göre, daha az hata ile parametre tahmini yapabilmek için farkl örnekleme planlar kullan lm t r. Bunlardan biride ard arda örnekleme yöntemidir. Ard arda örnekleme yönteminde, kitle birimleri, takip eden ara t rmalarda de!i miyor ise, önceki ara t rma verileri son ara t rma kitle parametre tahminleri için kullan lmaktad r. Bu durum, ara t rmac ya maliyet, zaman ve emek tasarrufu sa!lamaktad r. Bu yöntemde önemli olan, daha önceki ara t rmadan ne kadarl k bir örneklemin güncel ara t rmaya dahil edilece!i ve ayn zamanda son ara t rmada, dahil edilen örneklemden ba ka ne kadarl k bir örneklemin yeniden incelenece!idir. Literatürde buna “optimum yenileme ilkesi” (optimum replacement policy) denilmektedir. 11 Ard arda örneklem yöntemi, tar m ile ilgili bir ara t rmada, Jessen (1942)’in daha önce yap lm ara t rma bilgilerini kullanmas yla gündeme gelmi tir. Daha sonra teorisi farkl ara t rmac lar taraf ndan geli tirilmi tir. Bilindi!i gibi, örnekleme teorisinde yard mc de!i ken bilgisinden s kl kla yararlan lmaktad r. lgilenilen de!i ken ve yard mc de!i kenin özelliklerine göre, oransal veya regresyon tahminleri kullan larak, basit tahminden daha duyarl sonuçlar elde edilebilmektedir. Dolay s yla, ard arda örnekleme yönteminde de yard mc de!i ken bilgisinden yararlan lan çal malar mevcuttur. Singh ve Singh (2001) son ara t rmada da yard mc de!i ken bilgisini kullanarak ard arda örnekleme yönteminde, ikinci ara t rma kitle ortalamas tahmini için yeni bir çal ma sunmu lard r. Singh (2005) ard arda iki ara t rmada seçilen örneklemlerden, son ara t rman n kitle ortalamas n tahmin edebilmek için her iki ara t rman n yard mc de!i ken bilgisinden yararlanarak, zincirlemeoransal tahmin edici sunmu tur. Buna benzer biçimde, Singh ve Priyanka (2008) son ara t rma kitle ortalamas tahmini için zincirleme fark ve regresyon tipi tahmin edicileri sunmu lard r. 2. Literatürdeki tahmin ediciler U=(U1, U2,…,UN) N elemanl sonlu kitleden, iki ara t rma için örneklem çekilmektedir. Birinci ara t rmada ve ikinci ara t rmada çal lan de!i ken, s ras yla X ve Y’dir. Z, kitle ortalamas bilinen yard mc de!i kendir. lk ara t rmada, yerine koymadan basit rasgele örnekleme ile n birimlik örneklem çekilir. Buradan rasgele m=na kadar bir k s m ikinci ara t rmada kullan lmak üzere ayr l r (match: e le tirilen k s m). kinci ara t rmada ise, kalan N-n birimden u=n-m=nµ birimlik yeni örneklem yerine koymadan basit rasgele örnekleme ile çekilir. Sonuç olarak, ilk ara t rmada ayr lan k s m da dahil edilince, ikinci ara t rmada örneklem büyüklü!ü n olur. Burada a, e le tirme oran (fraction of matched) ve µ, ikinci ara t rmada yeni örneklem oran (fraction of fresh samples at the second_current occasion) olarak adland r lmaktad r. Singh (2005), ikinci ara t rma kitle ortalamas , Y , tahmini için, iki tane ba! ms z tahmin ediciye ba!l yeni bir tahmin edici önermi tir. Bunlardan birincisi ikinci ara t rmada yeni çekilen u(=nµ) örneklemini temel alan, T1s = yu Z zu (1) oransal tahmin edicisidir. kinci tahmin edici ise, iki ara t rman n ortak m(=na) birimlik örneklem parças n esas alan a a! daki zincirleme oransal tahmin edicidir: T2s = ym x n Z. x m zn (2) Burada x n , z n , y m , x m , y u , z u ise, alt indislerde gösterilen örneklem büyüklüklerinde de!i kenlerin örneklem ortalamalar d r. Sonuç olarak bu iki tahmin edicinin do!rusal kombinasyonu ile ard arda örnekleme yönteminde Y için a a! daki tahmin ediciye ula lm t r: Ts = T1s + (1 )T2s . (3) Burada , T tahmin edicisinin hata kareler ortalamas n minimum yapan bilinmeyen bir sabittir. Kitlenin yeterince büyük oldu!u (N e) varsay m alt nda, düzeltme terimi ihmal edilerek Ts tahmin edicisinin yan ve hata kareler ortalamas (:HKO) a a! da verildi!i gibidir: Yan (Ts ) = Yan (T1s ) + (1 (4) )Yan (T2s ) 12 ve 2 HKO(Ts ) = HKO(T1s ) + (1 )2 HKO(T2s ) . (5) Burada, Yan (T1s ) = ( Y 2 Cz u ), ( 1 m Yan (T2s ) = Y HKO(T1s ) = yz C y C z 1 C 2x n ( Y2 2 C y + C 2z u (6) yx C y C x 2 yz C y C z )+ 1n (C 2 z yz C y C z ), (7) ) (8) ve C 2y HKO(T2s ) = Y 2 m ( 1 m + 1 C 2x n 2 yx C y C x ) + n1 (C 2 z 2 yz C y C z ) (9) göstermektedir. ’e göre minimum HKO e itli!ine, optimum S ras yla opt . opt = de!erinin E .(5)’de yerine konulmas yla ula l r. de!eri ve buna ba!l minimum HKO a a! da verildi!i gibidir: HKO(T2s ) HKO(T1s ) + HKO(T2s ) (10) ve (A + C) ) + (A + C )(B C )µ . n[(A + C ) + (B C )µ 2 ] HKO(Ts ) min . = 2 ( Burada A = Y 2 C 2y , B = Y 2 C 2x 2 yx C y C x ) ( ve C = Y 2 C 2z daha basit hale getirmek için, 1 = A + C ve optimal de!eri a a! daki gibi elde edilmi tir: µˆ = 1 m 2 1 + 1 2 (1 = 2 yz (11) 2 yz C y C z ) göstermektedir. Formülü = B C gösterimleri kullan lm ve buradan µ ’nün ) m (1 ( yz 2 yz yx ) )(1 yx ) = µ0 (12) µ̂ , E .(11)’de yerine yaz ld ! nda HKO(T) min . = 2 1 n [ + 1 + 1 2µ 0 2 2µ0 (13) ] e itli!i elde edilir. 13 3. Önerilen tahmin edici Bu çal mada, ard arda örnekleme yönteminde, ikinci ara t rmada kitle ortalamas tahmini için, Kad lar ve Ç ng (2004) çal mas nda BRÖ’de kitle ortalamas tahmini için önerilen tahmin edici ve klasik zincirleme oransal tahmin edici esas al narak yeni bir tahmin edici önerilmi tir. Buna göre ilk olarak u örneklemine dayal birinci tahmin edici olarak, Kad lar ve Ç ng (2004) çal mas nda önerilen a a! daki tahmin edici al nm t r: T1 = y u + b yz ( Z z u ) zu Z. (14) Burada y u , z u alt indislerde gösterilen örneklem büyüklüklerinde ilgili de!i kenlerin örneklem s yz ortalamalar n , b yz = 2 ; s 2z yard mc de!i kene ait örneklem varyans n ve s yz yard mc de!i ken ve sz ilgilenilen de!i ken aras ndaki örneklem kovaryans n göstermektedir. b yz = 0 oldu!unda, E .(14)’de verilen tahmin edici, E . (1)’de verilen bilinen oransal tahmin ediciye e it olmaktad r. lk ara t rmada ayr lan m birimlik örnekleme dayal ikinci tahmin edici ise, Singh (2005) tahmin edicisinde de kullan lan E .(2) ile tan mlanan, T2s, klasik zincirleme oransal tahmin edicisidir. T1 ve T2s tahmin edicilerinin do!rusal kombinasyonu ile, ard arda örnekleme yönteminde, ikinci ara t rma kitle ortalamas , Y , tahminine ula l r, Töneri = T1 + (1 )T2s . (15) Teorem 3.1. Töneri tahmin edicisinin HKO’ , HKO(Töneri ) = 2 ) 2 HKO(T2s ) . HKO(T1 ) + (1 (16) Sy Sx S , Cy = , C z = z olmak üzere, sonsuz büyüklükte bir kitle ile çal ld ! X Y Z varsay m alt nda (N e), Burada, C x = HKO(T1 ) = [ Y2 2 C z + C 2y (1 u 2 yz ) ] (17) ve HKO(T2s ) E . (9)’da verildi!i gibidir. Tan:t: T1 ve T2 s tahmin edicileri ba! ms z örneklemlere dayanmaktad r, dolay s yla HKO(Töneri ) ifadesinde kovaryans terimi s f rd r. Buna göre, HKO(Töneri ) = 2 HKO(T1 ) + (1 ) 2 HKO(T2s ) olur. HKO(T1 ) ve HKO(T2s ) birinci dereceden Taylor yakla m kullan larak elde edilebilir. Buna göre, HKO(T1 ) ’in elde edili i a a! da gösterilmi tir. 14 h (Y1 , Y2 ) = h ( y u , z u ) = T1 T1 =1 y u Y,Z T1 zu (T1 = Y ,Z b yz + Y ) = (y u Y Z Y) b yz + Y (z u Z Z) 2 (T1 Y ) = (y u Y ) b yz + Y (z u Z)2 Z (her iki taraf n beklenen de!erini al rsak) 2 E (T1 2 Y ) = HKO(T1 ) = V(y u ) 2 B yz Y + Z 2 b yz + 2 Y (y u Z V(z u ) 2 B yz + Y )(z u Z) Y Cov(y u , z u ) Z 1 2 Sy u 1 V( z u ) = S 2z u V( y u ) = Cov( y u , z u ) = olur. B yz = S yz S 2z HKO(T1 ) = 1 S yz u ve yz = [ S yz S ySz ( Y2 2 C z + C 2y 1 u 2 yz oldu!unda göre, )] biçiminde elde edilir. HKO(T2s ) ’in elde edili i için, Sat c ve Kad lar (2008) çal mas incelenebilir. HKO(T1 ) ve HKO(T2S ) ifadeleri E . (16)’da yerine yaz ld ! nda HKO(Töneri ) e itli!ine ula l r. HKO(Töneri ) ifadesinin ’e göre minimum de!eri için, gerekmektedir. Buna göre, HKO(Töneri ) opt . = opt . de!erinin yerine yaz lmas = 0 e itli!inden elde edilen, HKO(T2s ) HKO(T1 ) + HKO(T2s ) (18) ifadesi yerine yaz ld ! nda, HKO(Töneri ) min . = HKO(T1 )HKO(T2s ) HKO(T1 ) + HKO(T2s ) e itli!i elde edilir. Burada A1 = C 2x 2 yx C y C x (19) , A 2 = C 2z k saltmalar kullan ld ! nda, 15 2 yz C y C z ( , A 3 = C 2z + C 2y 1 2 yz ) HKO(Töneri ) min . ( ) (A1A 3 A 2 )µ + A 2 + C 2y A 3 Y2 = n (A1 A 2 )µ 2 + C 2y + A 2 A 3 µ + A 3 ( ) (20) elde edilir. Teorem 3.2. Optimum yenileme ilkesi kapsam nda, µ opt . ( = µˆ ) de!eri ve ve µ ’e göre min. HKO(Töneri ) ifadesi a a! daki gibi elde edilmi tir. µˆ = K 2 ± K 22 4K 1 K 3 2K 1 HKO(Töneri ) min . = Burada, ( )( = µ0 , (21) ( ) (A1A 3 A 2 )µ 0 + A 2 + C 2y A 3 Y2 . n (A A )µ 2 + C 2 + A A µ + A 1 2 0 y 2 3 0 3 ( K 1 = (A 1 A 3 K 3 = A 2 + C 2y A 3 C 2y + A 2 A3 ) A 2 )(A1 (A1A 3 ) A2 ) , A 2 )A 3 göstermektedir. (22) ( ) K 2 = A 2 + C 2y A 3 (A1 A2 ) , Tan:t : µ opt . (= µˆ ) de!erine, HKO(Töneri ) min . ifadesinin µ’e göre birinci dereceden türevi al n p s f ra e itlenerek ula labilir. µˆ (= µ 0 ) de!eri, E .(20)’de verilen HKO(Töneri ) min . ifadesinde yerine yaz larak, HKO(Töneri ) min .* E .(22)’de ki gibi elde edilir. 4. Etkinlik kar! la!t rmas Önerilen tahmin edici, Singh (2005) tahmin edicisi ile teorik olarak kar la t r lm t r. Teorem 4.1.: E .(15)’de önerilen tahmin edicinin a a! da verilen ko ulda, E .(3)’de verilen Singh (2005) tahmin edicisinden daha etkin oldu!u görülmü tür, 2 Cz < Cy yz . (23) Tan:t: HKO(Töneri ) min . < HKO(T ) min . e itsizli!inde ifadeler yerine yaz ld ! nda, HKO(T1 )HKO(T2s ) HKO(T1s )HKO(T2s ) , < HKO(T1 ) + HKO(T2s ) HKO(T1s ) + HKO(T2s ) [HKO(T1 )HKO(T2s )][HKO(T1s ) + HKO(T2s )] < [HKO(T1s )HKO(T2s )][HKO(T1 ) + HKO(T2s )] HKO(T1 )HKO(T2s )HKO(T1s ) + HKO(T2s )HKO(T1 )HKO(T2s ) < HKO(T1 )HKO(T2s )HKO(T1s ) + HKO(T2s )HKO(T2s )HKO(T1s ) HKO(T1 ) < HKO(T1s ) elde edilir. E .(17) ve E .(8) yerine yaz larak, 16 [ Y2 2 C z + C 2y (1 u C 2y (1 2 2 yz ) yz C y C z 2 yz ) ]< Yu (C 2 yz C y C z < C 2y < C 2y 2 Cz < Cy + C 2z 2 yz C y C z ) 2 yz olur, buradan C y > 0 ve 2 2 y yz > 0 varsay m alt nda, yz ko ulu elde edilir. 4. Sonuç Bu çal mada, ard arda örnekleme yönteminde, ikinci ara t rma kitle ortalamas tahmini için Singh (2005) ve Kad lar ve Ç ng (2004) çal malar ndan faydalan larak yeni bir tahmin edici önerilmi tir. Önerilen tahmin edici, ard arda örnekleme yönteminde oransal tahmin olan Singh (2005) tahmin edicisi ile teorik olarak kar la t r lm t r. E .(23)’de verilen ko ul alt nda önerilen tahmin edicinin her zaman daha etkin oldu!u görülmü tür. Bundan sonra çal ma daha fazla yard mc de!i ken bilgisi eklenerek ve daha duyarl tahmin edicilerin dahil edilmesiyle geni letilebilir. Ayr ca burada incelenen ard arda örnekleme plan basit rasgele örnekleme yöntemine dayanmaktad r. Farkl örnekleme yöntemleri içinde ard arda örnekleme plan geli tirilebilir. KAYNAKLAR [1] Jessen, R.J., 1942, Statistical Investigation of a Sample Survey for Obtaining Farm Facts, Iowa Agricultural Experiment Station Road Bulletin, No:304, Ames, USA,1-104. [2] Kad lar, C.; Ç ng , H., 2004, Ratio Estimators in Simple Random Sampling, Applied Mathematics and Computation, 151, 3, 893-902. [3] Sat c , E., Kad lar, C., 2008, Kay p gözlem oldu!unda ard arda örnekleme yönteminde oransal tahmin edici, VI. statistik Günleri Sempozyumu, Ondokuz May s Üniversitesi, Samsun, 27-30 A!ustos 2008. [4] Singh, G.N., 2005, On the use of chain-type ratio estimator in successive sampling, Statistics in Transition, 7(1), 21-26. [5] Singh, G.N., Singh V.K., 2001, On the use of auxiliary information in successive sampling, Journal of the Indian Society Agricultural Statistics, 54(1), 1-12. [6] Singh, G.N., Priyanka, K., 2008, Search of good rotation patterns to improve the precision of estimates at current occasion, Communications in Statistics: Theory and Methods, 37, 337-348. 17 Pearson korelasyon katsay s n n tahmin edicilerinin kar la t r lmas Hakan Sava Sazak Ahmet Can Diker Ege Üniversitesi Ege Üniversitesi Fen Fakültesi, statistik Bölümü 35100-Bornova, zmir, Türkiye hakan.savas.sazak@ege.edu.tr Fen Fakültesi, statistik Bölümü 35100-Bornova, zmir, Türkiye dikerahmetcan@gmail.com Özet Korelasyon katsay s n tahmin etmek için verinin genellikle iki de!i kenli normal da! l ma uydu!u varsay l r; ancak bir çok gerçek ya am verileri uzun kuyruklu simetrik da! l m ile modellenebilir. Bu tür da! l mlarda En Çok Olabilirlik (ML) denklemlerinin çözümü çok problemlidir. ML yönteminin yerine, tahmin edicileri asimptotik olarak ML tahmin edicilerine e it olan Uyarlanm En Çok Olabilirlik Metodu (MML) kullan l r. MML tahmin edicileri verilerin sapmalar na da dayan kl d r. Biz burada özellikle Pearson korelasyon katsay s n (j) tahmin etme konusuyla ilgilenmekteyiz. Bu çal mada j’nun MML tahmin edicisinin uzun kuyruklu da! l m alt nda yüksek etkinli!e sahip oldu!u Monte Carlo Simülasyon yöntemi ile gösterilmi tir. Bunun yan nda MML tahmin edicisi, normal da! l m varsay m geçerli oldu!unda da neredeyse, normal da! l mda en çok etkinli!e sahip olan En Küçük Kareler (LS) tahmin edicisi kadar etkindir. Çal mada ayr ca de!i ik da! l m ve modeller alt nda MML tahmin edicisinin etkinli!i ve buna dayal güç de!erleri hem LS tahmin edicisi ve test istatisti!i ile hem de Kendall ve Spearman tahmin edicileri ve test istatistikleri ile kar la t r lm t r. Sonuçlar MML tahmin edici ve test istatisti!inin üstünlü!ünü göstermektedir. MML tahmin edicisi ayr ca belli ölçülerde sapmalara dayan kl d r. Anahtar sözcükler: Pearson korelasyon katsay:s:; Uzun kuyruklu simetrik daG:l:m; En Çok Olabilirlik; En Küçük Kareler; Uyarlanm:# En Çok Olabilirlik; dayan:kl:l:k Abstract Comparison of the Estimators of the Pearson Correlation Coefficient It is generally assumed that the underlying bivariate distribution is normal for estimating correlation coefficient but numerous real life data can be modelled by long-tailed symmetric distribution. Solving maximum likelihood (ML) equations may be problematic for this type of distribution. Instead of ML methodology, the Modified Maximum Likelihood (MML) method is used which produces estimators that are asymptotically equivalent to ML estimators. MML estimators are also robust to data anomalies. Our main concern is particularly estimating the Pearson correlation coefficient (L). It is shown through Monte Carlo simulation that MML estimator of L is highly efficient for an underlying long-tailed symmetric distribution. Moreover, even for an underlying bivariate normal distribution, it is almost as efficient as LS estimator of L which is the most efficient estimator under bivariate normality. In this study, we also compared the efficiency and power of the MML estimator and test statistic based on its estimator, respectively, with both LS, Kendall and Spearman estimators and test statistics. Results show the superiority of MML estimator and the test statistic. Besides, MML estimator is robust to plausible deviations from the assumed model. Keywords: Pearson correlation coefficient; Long-tailed symmetric distribution; Maximum Likelihood; Least Squares; Modified Maximum Likelihood, robustness. 18 1. Giri! ki de!i kenli verilerin analizinde genellikle iki de!i kenli normal da! l m varsay m kullan lmaktad r. Oysa birçok uygulamada veri setleri iki de!i kenli simetrik normal olmayan da! l mlarla modellenebilir (Tiku ve di!erleri [4]). En Çok Olabilirlik (ML) yöntemi asimptotik olarak tam etkinli!e sahiptir fakat normal olmayan birçok da! l mda ML yöntemini uygulamak çok problemlidir (Sazak ve di!erleri [1]). En Küçük Kareler (LS) yöntemi ise sadece normal da! l m varsay m alt nda tam etkinli!e sahiptir. ML yönteminde zorluklar n ya and ! durumlarda ML yöntemine asimptotik olarak e it olan Uyarlanm En Çok Olabilirlik (MML) yöntemi kullan labilir (Vaughan ve Tiku [5]). MML yöntemi kullan larak bulunan tahmin ediciler de asimptotik olarak tam etkinli!e sahiptir fakat bunun yan nda simülasyon sonuçlar na göre küçük örneklem hacimleri için de yüksek etkinli!e sahiptirler (Vaughan ve Tiku [5]). Bu çal mada, uygulamalarda s kl kla kar la lan uzun kuyruklu simetrik da! l m (LTS) varsay m kullan lm ve sonuçlar bu da! l ma göre bulunmu tur. MML yöntemi ile elde edilen tahmin ediciler da! l mdan makul ölçüde meydana gelen sapmalara dayan kl d rlar (Tiku ve di!erleri [4]). Bu çal mada özellikle Pearson korelasyon katsay s na yönelik MML tahmin edicisi literatürde buna kar l k gelen mevcut tahmin edicilerle kar la t r lm t r. Ayr ca literatürdeki test istatistikleri güç de!erleri aç s ndan kar la t r lm ve sonuçlar verilmi tir. 2. Metodoloji E!er verinin geldi!i iki de!i kenli da! l m f ( x, y ) ise bu da! l m her zaman g (x) marjinal da! l m ( ) ( ) ve h y x ko ullu da! l m n n çarp m olarak f ( x, y ) = g ( x) h y x bu iki de!i kenli da! l m n olabilirlik fonksiyonu L, L = L X LY X eklinde ifade edilebilir. O halde eklinde yaz labilir. Bu çal mada iki de!i kenli da! l m n normal da! l m yerine, uygulamalarda daha s kl kla kar la t ! m z LTS marjinal ve ko ullu da! l mlardan olu tu!u varsay lm t r (Ayr nt lar için bak n z, Tiku ve di!erleri [3]). Burada µ1 , µ 2 ; 12 , 22 ; s ras yla iki de!i kenli da! l m n konum, ölçek ve korelasyon katsay s parametreleridir. Burada as l ilgilendi!imiz nokta Pearson korelasyon katsay s n n tahmin edilmesidir. Marjinal ve ko ullu da! l m n LTS olmas durumunda iki de!i kenli da! l m n olabilirli!i daha önce ifade etti!imiz ekilde a a! daki gibi yaz labilir ( p1 , k1 = 2 p1 3 ve p 2 , k 2 = 2 p 2 3 ekil parametreleri ile): L = L X LY X , (2.1) LX = ( n 1 k1 (1 2 , p1 1 2) ) n 1 i =1 1 xi µ 1 1+ k1 1 (2.2) 19 2 p1 ve LY = X (k n 1 (1 2 , p 2 2 1 2) 2 1 2 ) n i =1 µ2 yi 1 1+ k2 2 2 2 (1 ( x i µ1 ) 1 2 2 p2 . ) (2.3) µ1 ) / z i = ( x (i ) µ 2.1 = µ 2 1 a ( i ) = e( i ) ve 1 µ1 ve 2 2.1 = 2 2 (1 2 yerlerine konulur ve µ1 , yaz labilir: ln L µ1 = 2 p1 n " k1 1 i =1 1, x[i ] µ 2.1 2.1 yaz l r. Burada ) dir. (x[ ] , y[ ] ), e( ) ’ ye göre s ralanm 2.1 , 2 p2 k2 1 1 + z (2i ) k1 1 i i 1 = 1 n + 1 a(i ) n " 2.1 i =1 1 z (i ) 2 p1 n " k1 1 i =1 1 1 + a(2i ) k2 =0, 2 p2 k2 1 1 + z (2i ) k1 1 n " z( ) 2.1 i =1 i a (i ) 1 1 + a (2i ) k2 (2.5) ln L µ 2.1 = 2 p2 k2 1 a (i ) n " 2.1 i =1 1 1 + a (2i ) k2 = 0, (2.6) ln L = 2.1 n + 2.1 2 p2 k2 1 a (i ) n " 2.1 i =1 1 1 + a (2i ) k2 =0 ve (2.7) ln L 1 = 2 p2 k2 1 n " z( ) 2.1 i =1 i = 2 , 1 ( e(i ) ’ ye e lik eden) tahmin etmek için olabilirlik denklemleri a a! daki gibi (2.4) ln L 1 (2.3) olabilirlik denkleminde z (i ) ve a (i ) s ral istatistikleri µ 2.1 , z (i ) = y [i ] i gözlemleridir (1 ! i ! n ) . (xi , y i ) 2.1 a (i ) 1 1 + a (2i ) k2 = 0. (2.8) 20 = 0, (2.4-2.8) olabilirlik ( g 2 (a (i ) ) = a(i ) 1 + a(2i ) k 2 denklemlerinin ) ( g1 ( z (i ) ) = z (i ) 1 + z (2i ) k1 içinde ) ve lineer olmayan fonksiyonlar, denklem sisteminin çözümünde sorun olu turmas nedeniyle lineer olmayan bu fonksiyonlar lineerle tirilmi tir. g 1 ( z (i ) ) ve g 2 (a (i ) ) fonksiyonlar n n lineerle tirilmesi için Taylor aç l m n n ilk iki terimi kullan lm t r. Yakla k olarak E ( z (i ) ) = t1(i ) ve E ( a (i ) ) = t 2 (i ) olarak yaz labilir. g1 (z i ) # 1i 1i z (i ) ve g 2 (a (i ) ) # 2i 2i a (i ) , 1 ! i ! n (2.9) Burada 2 = t13(i ) k1 1i 1+ t 2 2 1(i ) ve k1 t12(i ) =1 1i 1+ k1 2 t12(i ) . k1 (2.10) ( 2i , 2i yerine ) de benzer 1i 1i ln L* 1 ekilde t1(i ) ve k1 yerine t 2 (i ) ve k 2 konularak bulunur. g 1 ( z (i ) ) ve g 2 (a (i ) ) z (i ) ve 2i 2i ln L* µ 2.1 = 0 , = 0, ln L* µ1 = 0 , a (i ) konularak elde edilen yeni MML denklemleri, ln L* 2.1 = 0 ve ln L* 1 = 0 olur. MML denklemleri çözülerek a a! daki tahmin ediciler elde edilir: B1 + B12 + 4nC1 µˆ 1 = K1 , ˆ 1 = 2 n(n 1) , (2.11) ˆx , 1 [.] µˆ 2.1 = y[.] B2 + B22 + 4nC 2 ˆ 2.1 = 2 n(n 2) ve (2.12) ˆ =K 1 2 L ˆ 2.1 . (2.13) Burada, n m1 = " i =1 K1 = , m2 = 1i 1 n " m1 i =1 n K2 = " i =1 B2 = 2 p2 k2 2i n " i =1 2i 1i x (i ) , B1 = (x[ ] i " {y[ ] i =1 2i 2 p1 k1 x[.] )y[i ] n i 1 m2 , x[.] = y[.] n " i =1 n " i =1 1i x (i ) , C1 = " (x[ ] n i =1 2i K 2 (x[i ] 2 i x[i ] , y [.] = i 1 m2 2 p1 k1 x[.] ) , L = " 2 x[.] )} 21 " 2i i =1 y [i ] , ve n " i =1 n i =1 n 2i 1i ( x (i ) (x[ ] i K1 ) 2 x[.] ) " (x [ ] n i =1 2i i x[.] ) 2 2 p2 C2 = k2 " {y[ ] 2i i =1 y [.] i 2 K 2 (x[i ] n x[.] )} . (2.14) ln L* µ 2 = 0 , ln L* 2 =0, ˆ 1 konularak denklemler çözülürse µ 2 , µˆ 2 = µˆ 2.1 + ˆ1 µˆ 1 , ˆ 2 = = 0 denklemlerinde; µ 1 yerine µ̂ 1 ve ln L* 2 ve 1 yerine parametrelerinin MML tahmin edicileri; ˆ 22.1 + ˆ 2 ˆ 12 ve (2.15) ˆ ˆ = ˆ1 1 ˆ2 (2.16) olur. Hesaplamalar: wi ’ler wi = y i MML tahmin edicileri iki iterasyon ile bulunur. lk iterasyonda formülü kullan larak hesaplan r. Burada ~ 1 n = " (xi i =1 x )( y i " (x i =1 i x ) kullan l r. wi ’ ye göre s ralanm ~ kinci iterasyonda ise wi ’ler bulunurken göre s ralanm 1 (x[ ] , y[ ] ) ikilileri kullan l r. i yerine, en küçük kareler tahmin edicisi olan 2 n y) 1 (x[ ] , y[ ] ) ikilileri bulunur. i i yerine MML yöntemiyle bulunan ˆ1 kullan larak wi ’ ye i n n En Küçük Kareler Tahmin Edicisi: En küçük kareler yöntemi 2 " (x i µ 1 ) and i =1 etmeye dayan r. n n " (x µ~1 = x = (1 / n )" x i , ~1 = s x = i =1 i =1 2.1 = s 2.1 , ~ x) i i =1 = s xy s x2 ve ~ = s xy (n 1) , 2 n n µ~ 2 = (1 / n )" y i , ~ 2 = s y = ~ " ( y y ) (n 1) , µ~ (s s ) , 2 i i =1 x 2.1 =y ~ 1 x, y (2.17) burada s 2.1 = x (1 ! i ! n ) 1 i " {y n i =1 i y ~ ( xi } x) 2 n (n 2) ve s xy = " ( x i i =1 (2.18) 22 x )y i (n 1) . "e i =1 2 i minimize Literatürdeki Di<er Korelasyon Katsay s Tahmin Edicileri : Spearman S ralama Korelasyon Katsay s ( xi , y i ) ikilerinin ranklar kullan larak elde edilen Spearman (1904, [6]) taraf ndan bulunan Pearson korelasyon katsay s n n özel bir eklidir. d i , xi ve y i ’nin ranklar n n fark olmak üzere Spearman’ n Rho katsay s a a! daki formül ile gösterilir: n rs = 1 6" d i2 ( i =1 2 nn ). 1 (2.19) Çal mada kar la t r lan bir di!er tahmin edici Kendall (1938, [6]) taraf ndan önerilen Kendall S ralama Korelasyon katsay s d r. ( xi , y i ) ve x j , y j ikililer olmak üzere; xi > y i iken y i > y j (ya ( da xi < y i iken y i < y j ) ) uyumlu olan çiftler olarak tan mlan r. Kendall s ralama korelasyon katsay s , uyumlu olan çiftlerin olas l ! ile uyumsuzluk olan çiftlerin olas l ! aras ndaki fark bulunarak elde edilir. S, uyumlu çiftlerin say s ile uyumsuz olan çiftlerin say s aras ndaki fark göstermek üzere formülü a a! daki gibidir: &= S n(n 1) 2 . (2.20) De!eri ayn olan gözlemlerin bulunmas durumunda formül a a! daki ekilde yaz l r: &= S 1 n(n 1) Tx 2 1 n(n 1) T y 2 (2.21) 1 t1 (t1 1) , t1 , X de!i keni üzerinde de!eri ayn olan gözlemlerden olu an gruplar n 2 1 gözlem say s , T y = t 2 (t 2 1) , t 2 , Y de!i keni üzerinde de!eri ayn olan gözlemlerden olu an 2 Burada Tx = gruplar n gözlem say s d r. ki de!i kenli normal da! l mlarda Kendall tau’nun yanl bir tahmin edici oldu!u gösterilmi tir. Bu yanl l k durumunu ortadan kald rmak için Kendall (1975, [9]), Gideon ve Hollister (1987, [10]) taraf ndan (2.22)’deki düzeltme önerilmi tir. & = sin ' 2 & (2.22) (2.22) de Kendall tau için yaz lan düzeltme formülü normal da! l mlar için kullan lmas na ra!men bu çal mada normal olmayan uzun kuyruklu simetrik da! l m için de kullan lm t r. 23 LS, MML ve di!er yöntemler ile bulunan Pearson korelasyon katsay s tahmin edicilerinin etkinlikleri de!i ik da! l m ve modeller alt nda Monte Carlo çal mas ile ara t r lm t r. Modeller a a! daki gibi yaz labilir; 1. Model: ki de!i kenli normal da! l m BN( µ1 , µ 2 ; 2 1 , 2 2 ; ), ( X ~ LTS µ1 , 2. Model: Uzun kuyruklu simetrik marjinal ve ko ullu da! l m ( Y X ~ N µ 2.1 , 2 2.1 2 1 ) , p1 , ) , p2 , 3. Model: Dixon’ n uçde!er modeli; Gözlemlerin %90’ X ~ N µ1 , ( 2 1 ) , %10’u X ~ N (µ ,4 ), 4. Model: Dixon’ n uçde!er modeli: Gözlemlerin %90’ X ~ LTS µ1 , ( ( 2 1 1 2 1 ( , p1 ) , Y X ~ N µ 2.1 , %10’u X ~ LTS µ1 ,4 2 1 ) ( 2 2.1 , p1 , Y X ~ N µ 2.1 , , p2 2 2.1 ) ) , p2 . Yukar daki modeller için Monte Carlo simulasyonu 10000 kere döndürülerek yap lm , µ1 , 2 1 ( = 2 , µ2 , = 0.5 olarak al nm t r. ki de!i kenli normal da! l m için di!er s ras yla 0, 1, 0, 1 ve parametreler 1 1 ) , µ 2.1 = µ 2 µ 1 ve 2.1 = 2 1 2 ili kileri kullan larak bulunmu tur. LTS da! l m n n marjinal ve ko ullu ekil parametreleri p1 = 5 ve p 2 = 5 olarak al nm t r. Tablo 1-4 de, simülasyon ortalamas , varyans ve hata kareler ortalamas (MSE) verilmi tir. Korelasyon tahmin edicilerinin LS tahmin edicisine göre göreceli etkinli!i (RE) de tablolarda verilmi tir. Örne!in MML korelasyon katsay s tahmin edicisinin ( ˆ ) göreceli etkinli!i 100 * MSE ( ~ ) MSE ( ˆ ) formülü ile bulunmu tur. Tablolarda MML tahmin edicisinin, uzun kuyruklu simetrik da! l mda LS tahmin edicisi olan ~ ’ya ve di!er tahmin edicilere (Spearman rho ve Kendall tau) göre yüksek bir etkinli!e sahip oldu!u, ayn zamanda normal da! l mda neredeyse LS tahmin edicisine yak n bir etkinli!e sahip oldu!u görülmektedir. MML tahmin edicisinin Tablo 3-4’te di!er sapan gözlemlerin bulundu!u modellerde LS den daha yüksek etkinli!e sahip oldu!u görülebilir. Tablolardan, MML tahmin edicisinin yüksek etkinli!inin yan s ra dayan kl bir tahmin edici oldu!u görülmektedir. MML tahmin edicisinden sonra normal olmayan da! l mda yüksek etkinli!e sahip olan di!er bir tahmin ediciler Spearman’ n rho ve Kendall tau dur. Tablo 1. 1.Model (normal) için Korelasyon Tahmin Edicilerinin Kar la t r lmas n 30 60 90 Ortalama n x Varyans n x MSE RE Ortalama n x Varyans n x MSE RE Ortalama n x Varyans n x MSE RE LS 0.494 0.608 0.020 100.000 0.497 0.577 0.010 100.000 0.498 0.576 0.006 100.000 MML 0.488 0.616 0.021 98.233 0.494 0.593 0.010 97.034 0.496 0.596 0.007 96.497 24 Spearman 0.468 0.679 0.024 85.973 0.475 0.644 0.011 84.934 0.478 0.638 0.008 84.486 Kendall 0.493 0.722 0.024 84.252 0.497 0.666 0.011 86.606 0.498 0.653 0.007 88.159 Tablo 2. 2.Model (LTS) için Korelasyon Tahmin Edicilerinin Kar la t r lmas n 30 60 90 Ortalama n x Varyans n x MSE RE Ortalama n x Varyans n x MSE RE Ortalama n x Varyans n x MSE RE LS 0.493 0.661 0.022 100.000 0.497 0.653 0.011 100.000 0.498 0.648 0.007 100.000 MML 0.487 0.625 0.021 105.268 0.494 0.604 0.010 107.861 0.497 0.599 0.007 107.925 Spearman 0.471 0.689 0.024 92.695 0.479 0.669 0.012 93.925 0.482 0.662 0.008 93.624 Kendall 0.497 0.735 0.025 90.108 0.502 0.692 0.012 94.332 0.504 0.680 0.008 95.088 Tablo 3. 3.Model (uçde!er-normal) için Korelasyon Tahmin Edicilerinin Kar la t r lmas n 30 60 90 Ortalama n x Varyans n x MSE RE Ortalama n x Varyans n x MSE RE Ortalama n x Varyans n x MSE RE LS 0.540 0.552 0.020 100.000 0.545 0.545 0.011 100.000 0.546 0.536 0.008 100.000 MML 0.528 0.548 0.019 105.098 0.533 0.536 0.010 110.736 0.534 0.530 0.007 114.987 Spearman 0.502 0.617 0.021 97.150 0.509 0.604 0.010 109.094 0.512 0.597 0.007 119.710 Kendall 0.528 0.654 0.023 88.386 0.532 0.623 0.011 97.311 0.534 0.605 0.008 103.198 Tablo 4. 4.Model (uçde!er-LTS) için Korelasyon Tahmin Edicilerinin Kar la t r lmas n 30 60 90 Ortalama n x Varyans n x MSE RE Ortalama n x Varyans n x MSE RE Ortalama n x Varyans n x MSE RE LS 0.541 0.626 0.023 100.000 0.546 0.632 0.013 100.000 0.546 0.622 0.009 100.000 MML 0.530 0.574 0.020 112.559 0.535 0.556 0.010 120.296 0.535 0.539 0.007 125.348 Spearman 0.504 0.636 0.021 106.247 0.512 0.631 0.011 118.284 0.514 0.618 0.007 128.091 Kendall 0.533 0.670 0.023 96.217 0.537 0.649 0.012 103.310 0.538 0.626 0.008 107.534 3. Hipotez Testi H0 : = 0 ve alternatif hipotezi H 1 : > 0 oldu!unda test istatisti!i a a! daki gibi tan mlan r: 25 W= ˆ V ( ˆ H0 ) (3.1) Burada MML için asimptotik varyans; V ( ˆ H0 ) = 1 ( p 2 + 1)(2 p 2 3) dir. n p 2 (2 p 2 1) (3.2) nun iki de!i kenli normal da! l mda LS tahmin edicisi olan ~ için Fisher Korelasyon katsay s dönü ümü(3.3) kullan larak hipotez testi yap l r: Z= 1 1+ ~ . log 2 1 ~ (3.3) Tablo 5-8’de çe itli test istatistiklerinin güçleri kar la t r lm t r. 1. Model’de LS’e dayanan test istatisti!i di!erlerinden daha güçlüdür. 2. Model’de MML’e dayanan test istatisti!inin, di!er test istatistiklerinden daha güçlü oldu!u görülmektedir. 3. Modelde LS, MML ve Spearman’a dayanan test istatistiklerinin hemen hemen ayn güç de!erlerini verdikleri görülmektedir. 4. Modelde ise MML’e dayanan test istatistiklerinin di!erlerinden daha güçlü oldu!unu söyleyebiliriz. Tablo 5. Test statistiklerinin 1.Modele (normal) Dayal Güç Kar la t r lmas n 30 60 90 0.0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0 0.1 0.2 0.3 0.4 0.5 0 0.1 0.2 0.3 0.4 0.5 LS 0.049 0.132 0.280 0.495 0.732 0.899 0.978 0.998 0.049 0.192 0.455 0.765 0.944 0.994 0.051 0.239 0.597 0.893 0.990 1.000 MML 0.059 0.149 0.308 0.518 0.751 0.907 0.981 0.998 0.060 0.212 0.479 0.782 0.949 0.994 0.058 0.263 0.619 0.900 0.991 1.000 26 Spearman 0.051 0.125 0.260 0.451 0.678 0.858 0.962 0.995 0.052 0.181 0.424 0.725 0.921 0.988 0.049 0.228 0.559 0.861 0.983 0.999 Kendall 0.051 0.127 0.260 0.449 0.675 0.856 0.961 0.995 0.053 0.180 0.424 0.726 0.922 0.988 0.049 0.226 0.558 0.860 0.983 0.999 Tablo 6. Test statistiklerinin 2.Modele (LTS) Dayal Güç Kar la t r lmas ; p1 = 5.0 , p 2 = 5.0 n 0.0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.0 0.1 0.2 0.3 0.4 0.5 0.0 0.1 0.2 0.3 0.4 0.5 30 60 90 LS 0.050 0.135 0.283 0.502 0.724 0.887 0.971 0.996 0.048 0.193 0.464 0.760 0.936 0.992 0.050 0.242 0.604 0.892 0.988 0.999 MML 0.053 0.144 0.300 0.528 0.749 0.905 0.979 0.997 0.049 0.205 0.486 0.783 0.951 0.995 0.051 0.253 0.631 0.911 0.992 1.000 Spearman 0.049 0.132 0.263 0.470 0.684 0.856 0.959 0.993 0.048 0.188 0.447 0.736 0.925 0.990 0.052 0.235 0.584 0.880 0.984 0.999 Kendall 0.049 0.133 0.267 0.471 0.686 0.858 0.960 0.993 0.048 0.190 0.449 0.737 0.927 0.990 0.051 0.236 0.585 0.879 0.984 0.999 Tablo 7. Test statistiklerinin 3.Modele (uçde!er-normal) Dayal Güç Kar la t r lmas n 30 60 90 0.0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.0 0.1 0.2 0.3 0.4 0.5 0.0 0.1 0.2 0.3 0.4 LS 0.051 0.146 0.333 0.580 0.809 0.945 0.989 0.999 0.052 0.214 0.544 0.839 0.978 0.999 0.051 0.286 0.704 0.949 0.996 MML 0.060 0.156 0.351 0.594 0.817 0.947 0.990 0.999 0.059 0.221 0.553 0.843 0.978 0.999 0.055 0.292 0.706 0.948 0.996 27 Spearman 0.051 0.147 0.333 0.580 0.810 0.945 0.989 0.999 0.053 0.214 0.544 0.839 0.978 0.999 0.051 0.287 0.704 0.949 0.996 Kendall 0.052 0.134 0.293 0.521 0.745 0.906 0.977 0.997 0.054 0.193 0.492 0.792 0.958 0.996 0.049 0.254 0.641 0.920 0.993 Tablo 8. Test statistiklerinin 4.Modele (uçde!er-LTS) Dayal Güç Kar la t r lmas ; p1 = 5.0 , p 2 = 5.0 n 30 60 90 0.0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.0 0.1 0.2 0.3 0.4 0.5 0.0 0.1 0.2 0.3 0.4 LS 0.051 0.145 0.333 0.581 0.807 0.932 0.984 0.999 0.049 0.218 0.552 0.839 0.971 0.997 0.049 0.286 0.703 0.941 0.996 MML 0.052 0.149 0.344 0.602 0.821 0.942 0.990 0.999 0.047 0.217 0.562 0.852 0.979 0.999 0.047 0.289 0.714 0.953 0.997 Spearman 0.054 0.138 0.305 0.528 0.753 0.903 0.974 0.997 0.047 0.206 0.519 0.798 0.958 0.996 0.049 0.272 0.665 0.924 0.993 Kendall 0.054 0.134 0.309 0.531 0.755 0.905 0.975 0.998 0.048 0.206 0.521 0.802 0.958 0.996 0.049 0.272 0.665 0.925 0.993 4. Sonuç ve öneriler Simülasyon sonuçlar zaten asimptotik olarak tam etkinli!e sahip olan MML tahmin edicilerinin küçük örneklem hacimlerinde de yüksek bir etkinli!e sahip oldu!unu göstermektedir. Burada s kl kla kar la lan LTS da! l m n n geçerli oldu!u varsay lm t r fakat gerçek da! l m n iki de!i kenli normal da! l m olmas durumunda bile MML tahmin edicilerinin bu da! l m alt nda en iyi tahmin ediciler olan LS tahmin edicileriyle neredeyse e it etkinli!e sahip oldu!u görülmü tür. Bunun yan nda MML tahmin edicileri dayan kl l k özellikleri sebebiyle da! l mdan makul ölçüde sapmalar gerçekle ti!inde de etkinliklerini korurlar. Bu çal mada özellikle Pearson korelasyon katsay s n n tahmin edicileri k yaslanm ve MML tahmin edicisinin bir çok da! l m ve model için yüksek etkinli!e sahip oldu!u görülmü tür. Ayr ca testlerin gücü de bu çal mada ara t r lm , MML korelasyon katsay s tahmin edicisine dayanan test istatisti!inin incelenen da! l mlar alt nda güçlü oldu!u görülmü tür. Bu nedenle özellikle uygulamalarda s kça kullan lan Pearson korelasyon katsay s n n yerine MML tahmin edicisinin ve Pearson korelasyon katsay s na dayanan test istatisti!inin yerine MML tahmin edicisine dayanan test istatisti!inin kullan lmas n n pek çok durum için uygun olaca! söylenebilir. 28 Kaynaklar [1] Sazak, H. S., Tiku, M. L., Islam, M. Q., (2006), Regression Analysis with a Stochastic Design Variable, International Statistical Review, 74, 1, 77-88. [2] Tiku, M. L., (1987), A robust procedure for testing an assumed value of the population correlation coefficient, Commun. Statist.-Simula., 16(4), 907-924. [3] Tiku, M. L., Islam, M. Q., Sazak, H. S., (2008), Estimation in bivariate nonnormal distributions with stochastic variance functions, Computational Statistics and Data Analysis, 52, pp.1728-1745. [4] Tiku, M. L., Tan, W. Y., Balakrishnan, N., (1986), Robust Inference, Marcel Dekker, New York. [5] Vaughan, D. C., Tiku, M. L., (2000), Estimation and hypothesis testing for a nonnormal bivariate distribution with applications, J. Mathematical and Computer Modelling 32, 53-67. [6] Spearman, C., (1904), The proof and measurement of association between two things, Amer. J. Pyschol., 15, 72-101. [7] Kendall, M. G. (1938), A new measure of rank correlation, Biometrica, 30, 81-93. [8] Evandt, O., Coleman, S., Ramalhoto, M. F., Lottum, C. V., A (2004), Little-known Robust Estimator of the Correlation Coefficient and Its Use in a Robust Graphical Test for Bivariate Normality with Applications in the Aluminium Industry, Qual. Reliab. Engng. Int., 20, 433-456. [9] Kendall, M. G. (1974), Rank Correlation Methods, Fourth Edition, Second impression, London: Griffin. [10] Gideon RA, Hollister RA. (1987), A rank correlation coefficient resistant to outliers. Journal of the American Statistical Association; 82, 656–666. 29 Güneydo<u Anadolu Bölgesi’ne Yap lan Kamu Yat r mlar n n statistiksel De<erlendirmesi Bahar Burtan DOoAN Murat PIÇAK Dicle Üniversitesi, ktisadi ve dari Bilimler Fakültesi, ktisat Bölümü, 21280, Diyarbak:r, Türkiye Dicle Üniversitesi, ktisadi ve dari Bilimler Fakültesi, ktisat Bölümü, 21280, Diyarbak:r, Türkiye bahar@dicle.edu.tr mpicak@dicle.edu.tr Özet GüneydoGu Anadolu Bölgesi, 59.176 km²’lik yüzölçümüyle Türkiye toplam alan:n:n % 7,5’ini kapsamaktad:r, ayr:ca 7.170.849 ki#ilik nüfusuyla Türkiye toplam nüfusunun % 10,2’sini bar:nd:rmaktad:r. Bölge, Türkiye’deki bölgeleraras: ekonomik dengesizlik sorunundan olumsuz yönde etkilenmektedir. Özel sektör yat:r:mlar:n:n genellikle geli#mi# bölgelerde yoGunla#mas:, ekonomik e#itsizliGi giderek art:rmaktad:r. Ayr:ca, terör, Körfez Sava#: ve uzun y:llar boyunca devam eden Irak Ambargosu gibi d:#sal faktörlere baGl: olumsuzluklar, bölgeye yönelik özel sektör yat:r:m kararlar:n: olumsuz yönde etkilemektedir. Bölgeye yap:lan kamu yat:r:mlar: göstergeleri incelendiGinde de olumsuz bir tabloyla kar#:la#:lmaktad:r. Bölgenin Türkiye’deki kamu yat:r:mlar:ndan ald:G: pay, kapsad:G: alan veya bar:nd:rd:G: nüfus ile k:yasland:G:nda dü#ük kalmaktad:r. Bölgedeki ki#i ba#:na dü#en kamu yat:r:mlar: Türkiye ortalamas:n:n gerisindedir. Bu yüzdendir ki; Türkiye’nin kamu yat:r:m stratejisinde, GüneydoGu Anadolu Bölgesi’ne yönelik olarak pozitif ay:r:mc: bir politikan:n uygulanmas: yararl: olacakt:r. Anahtar Sözcükler: GüneydoGu Anadolu Bölgesi, Sektörler, Kamu Yat:r:mlar:, Ekonomik Kalk:nma. Abstract The Statistical Assessment of Public Investments in the Southeast Anatolia Region With her 59.176 km² area, Southeastern Anatolia Region covers the 7.5 % of Turkey’s total land and furthermore; with her 7.170.849 inhabitants, the region accommodates approximately the 10,2 % of Turkey’s total population. The region is affected negatively from the problem of interregional economic imbalances. The intensification of private sector investments generally in developed regions gradually increases the economic inequalities. In addition, the negatorities originating from external factors such as terror, Gulf War and the embargo on Iraq that lasted for long years influences the investment decisions of the private sector to the region in negative direction. But when the indicators of the public sector investments to the region is examined, a negative situation is also encountered. The share of the region from the public investments is low when compared according to the covered area and inhabited population. Moreover, the public investment per capita is behind the Turkey average. Therefore; application of a positively distinctive investment policy to the South–East Anatolian Region in Turkey’s public investment strategy will be beneficial. Key Words Southeastern Anatolia Region, Sectors, Public Investments, Economic Development. 30 1. Giri! Ülke co!rafyas nda dengeli bir geli me sa!lanmas hedefi, ülke ekonomisi için hedef al nan yüksek bir kalk nma h z kadar önemlidir. Dengeli geli me amac do!rultusunda al nmas gereken tedbirlerin ve uygulanacak politikalar n be eri ve fiziki kaynaklar n da! l m deseni ile tutarl olmas ve kamu yat r mlar n n da! l m nda ekonomik co!rafyan n ve bölgesel geli menin dikkate al nmas , k sacas ; mekân ile ili kinin sa!lanmas kaç n lmaz olmaktad r [1]. Türkiye’nin sahip oldu!u geni co!rafi alan ve genç kesimin a! rl kl oldu!u nüfus büyüklü!ü itibar yla; e!itim ve sa!l k hizmetlerinin etkili bir ekilde sunulmas ve ya am kalitesinin yükseltilmesi, rekabet gücünün art r lmas ve sürdürülebilir büyümenin sa!lanmas için gerekli sosyal ve fiziki altyap n n geli tirilmesi, çevrenin korunmas , bölgeleraras geli mi lik farkl l klar n n azalt lmas , üyelik sürecinde bulundu!u Avrupa Birli!i kriterlerine uyumun sa!lanmas ve geli mi ülkelerle Türkiye aras ndaki geli mi lik farkl l klar n n azalt lmas bak m ndan kamu yat r mlar hayati bir rol oynamaktad r [2]. Devletin iktisadi hayata müdahale edip etmeyece!i, müdahale edecekse bu müdahalenin ekli, nas l yap laca! ve devletin hangi alanlarda müdahil olmas gerekti!i sorular iktisat literatürünün ba lang c ndan itibaren önemini korumu tur. Bahsi geçen sorulara verilen yan tlar, iktisat tarihi boyunca farkl iktisat okullar n n ortaya ç kmas na neden olmu tur [3]. Günümüzde ça!da devlet felsefelerini, birey–devlet ili kisindeki tutumlar itibariyle iki ana grupta toplamak olana! vard r: Organik Devlet Anlay ve Mekanik Devlet Anlay . Organik Devlet Anlay Mekanik Devlet Anlay Maksimum Devlet Müdahalesi Minimum Devlet Müdahalesi Seçmen Marksizm Nasyonal Fundamentalizm Sosyalizm Egemenli!i Sosyal Muhafazakarlar Demokratlar Liberaller Bekil–1: Organik ve Mekanik Devlet Anlay lar Ortaya konan bu siyasal tasnif, ... soldan sa!a bir yelpazeyi olu turmakla birlikte, maksimum devlet müdahalesinden minimum devlet müdahalesine do!ru bir aç l m da temsil etmektedir [4]. Bir ba ka deyi le; devletin ekonomik hayattaki yeri ve iktisadi ya ama müdahalesinin dozaj , iktisadî doktrinler tarihinin ba l ca ilgi alan ve i tigal konular ndan birini te kil etmi tir. ktisadi doktrinler tarihinde özel bir yeri olan ve konu ile ilgili analizlerde genellikle referans noktas al nan klasik okulun önde gelen temsilcilerinden Adam SMITH, David RICARDO, Thomas Robert MALTHUS, Jean Baptiste SAY ve John Stuart MILL’den itibaren farkl ekollere mensup çok say da dü ünür, çal malar n n ba lang ç a amalar nda; insanl ! n üretken çal malar sonucu olu turulan zenginli!in ve refah n meydana getirili süreçlerinin aç klanarak toplumlar n üretken kapasitelerinin artt r lma yollar n n ortaya konmas dü üncesinden hareketle yola ç km lard r. Söz konusu analizlerde; ekonomilerin tam rekabet ko ullar alt nda dengeye ve ekonomik istikrara kavu turulmas ile ilgili konular üzerinde a! rl kl olarak duruldu!u söylenilebilecektir. Akademik ve politik çevrelerde de bu anlay n egemen olmas na paralel olarak, XX. Yüzy l n ilk çeyre!ine kadar 31 iktisat politikalar da ayn anlay çerçevesinde ekillendirildi!i görülmektedir. Bu yüzy l n geneli için “Kapitalizmin Ya ad ! En riddetli Bunal m” [5] olarak nitelendirilen 1929 Büyük Buhran (The Great Depression) ise; ekonomilerin kendili!inden tam rekabet ko ullar alt nda dengeye geldi!ini varsayan klasik liberal ö!retiyi taht ndan indirmi ve tam istihdamda dengenin istisnai bir durum oldu!u, ekonomilerin genellikle eksik istihdamda dengeye geldi!ini savunan Keynesyen ekolün iktidar ele geçirmesiyle sonuçlanm t r. Takip eden y llarda ise; konjonktürel dalgalanmalara paralel olarak kriz–bunal m dönemlerinde Keynesyen, canlanma–doruk dönemlerinde de liberal ö!retinin iktisat politikalar n ekillendirdi!i ve egemen ö!reti ba!lam nda iktidar n el de!i tirdi!i görülmü tür. Konuya devletin iktisadi hayata müdahalesi aç s ndan bak ld ! nda ise; klasik okulun yan s ra 1938 y l nda Walter LIPMANN taraf ndan Paris’te düzenlenen büyük seminer akabinde iktisat literatürüne “Neoliberalizm” terimi ile giren [6] ve müteakip dönemlerde farkl türevleri ortaya ç kan liberal ekolün, kamu otoritesinin iktisadi hayata müdahale etmemesi ve piyasan n i leyi inin “Görünmez El (Invisible Hand)” çözümlemesi dâhilinde gerçekle mesini savundu!u, Keynesyen ve post–Keynesyen ekolün ise; devletin piyasalara aktif bir ekilde müdahale etmesinin, ekonomik hayat yönlendirmesinin ve hatta bizatihi bir aktör olarak rol almas n n, iktisat politikalar n n omurgas n te kil etmesi gerekti!ini öne sürdü!ü, söylenebilecektir. Bu noktada gözden kaç r lmamas gereken husus ise; “Liberal anar istler” ya da “anarko–kapitalistler” bir kenara b rak ld ! nda, liberal ve Keynesyen görü ler de dâhil olmak üzere iktisadî doktrinler tarihi kapsam nda ele al nan tüm okullarca, düzeyleri farkl olsa da ekonomik hayatta devlete mutlak surette rol biçilmesi, modern ekonomilerde ise devlete tahsis, istikrar ve yeniden bölü üm olmak üzere üç ayr tür görev yüklenmesidir. Nitekim tarihsel süreç içerisinde devletin iktisadi hayata hiç müdahale etmemesi gerekti!i görü ü yerini devletin ikinci en iyiyi sa!layacak ekilde s n rl bir müdahalede bulunmas anlay na b rakm t r. Bu çerçevede devletin ekonomik ve toplumsal hayata müdahalesi dönemler itibar yla gerek içerik, gerekse kullan lan araçlar bak m ndan farkl l k göstermi , son y llarda devletin üretim ve ticari faaliyet gibi rollerinin giderek azalt lmas yönünde bir e!ilim ortaya ç km , devletin iktisadi hayata müdahalesi daha çok düzenleyici bir nitelik kazanm t r [7]. Ekonomik ya ant daki mevcudiyetinin ve bir tak m rolleri üstlenmesinin zaruri oldu!u tart lmaz bir ekilde kabul gören devletin, bu i levlerini yerine getirirken istifade etti!i en temel vas talardan biri de kamu harcamalar d r. Kamu harcamalar ; kamu makamlar n n toplumsal ihtiyaçlar kar lamak, sosyal ve ekonomik hayata müdahalelerde bulunmak üzere belirli kurallara göre yapt klar harcamalard r [8]. Bu harcamalar, harcamay gerçekle tiren kuruma göre geni anlamda de!erlendirildi!inde; merkezi ve yerel yönetimlerin, iktisadi devlet te ekküllerinin ve sosyal güvenlik kurulu lar n n gerçekle tirdi!i harcamalar toplam ile toplum için faydal hizmet gören kurumlar n ödemelerini, vergi muafiyet ve indirimlerini, özel ki ilerin yapt klar yard m ve ba! lar n toplam n içeren bir kavram ortaya ç kmaktad r [9]. Genellikle cari harcamalar, yat r m harcamalar ve transfer harcamalar olmak üzere üç ana ba l k alt nda incelenen kamu harcamalar n n, iktisadi yap üzerinde geni letici etki yapt ! görülmektedir. Kamu harcamalar n n önemli alt dallar ndan biri olan ve en genel anlam yla, belli bir dönem içinde, ekonomideki üretim araçlar mevcuduna yap lan eklemeler ve bu eklemeleri mümkün k lan harcamalar [10] olarak tan mlanan yat r mlar n ise; ekonomilerde üretim kapasitesini artt rma ve ölçe!i büyütme, verimlilik düzeyini yükseltme, ba ta emek olmak üzere üretim faktörlerinin ve altyap n n niteliklerini geli tirme gibi etkileri oldu!u bilinmektedir. Ülkemizdeki kamu yat r mlar n n seyir defterine bak ld ! nda ise; Osmanl mparatorlu!u’ndan a! r bir ekonomik miras devralmas n n da etkisiyle, genç Türkiye Cumhuriyeti’nin 1929 Büyük Buhran ’na, d kaynakl etkenlerin yan s ra kendisine münhas r birtak m olumsuz faktörlerin de etkisiyle daha a! r ko ullarda yakaland ! görülmektedir. 1929 Büyük Buhran ’na ba!l olarak ortaya ç kan derin krizden kurtulma aray lar n n ilk yans mas ; geli mi –azgeli mi ayr m gözetmeksizin bütün ülkelerin, krizin iç pazarlardaki etkilerini asgariye indirgemek istemeleri nedeniyle ekonomilerini bilinçli olarak d a kapatmalar d r [11]. Büyük Buhran n özellikle de geli mekte olan ülkeler üzerindeki ikinci – ve belki de en önemli – yans mas ise; koruma duvarlar arkas nda, yayg n 32 (ve eskiden ithal edilen) s naî tüketim mallar ndan (üç beyazlar) ba layan ithal ikameci yat r mlar n, XX. Yüzy l n ilk yar s nda Üçüncü Dünya ülkelerinin birço!unda ilk sanayile me hamlelerini olu turmas d r [12]. Bir ülkenin sanayi sektörü aç s ndan mevcut durumunun, o ülkenin geli mi lik düzeyini ortaya koyan temel göstergelerin ba nda gelmektedir. 20. yüzy l n son çeyre!inden bu yana dünyan n Gayrisafi Yurtiçi Hâs las ’n n yakla k % 65’ini temsil eden, G–8 (Group of Eight) ülkelerinin geli mi lik seviyelerinin temelinde, sanayi sektöründe kaydedilen ilerlemelerin bulundu!u; üzerinde uzla ma sa!lanm bir tespittir. Bu noktadan hareketle; ülkelerin iktisadî büyümelerinin sanayi sektörlerinin geli mesi sayesinde mümkün oldu!unu öngören geli mekte olan ülkeler de, kalk nma ve sosyal refah seviyelerinin daha yükseklere ç kar lmas amac yla, sanayi sektörlerini büyütmek üzere kamu kaynaklar n sanayi sektörü yat r mlar na tahsis etmi lerdir. Kamu sektörü taraf ndan uygulanan yat r m stratejileri, iktisat politikalar n n liberal ya da Keynesyen ekollerden hangisi çerçevesinde ekillendirildi!ine göre de!i kenlik göstermi tir. Bu ba!lamda kamusal yat r mlar n, Keynesyen politikalar n revaçta oldu!u dönemlerde imalat sanayi ba ta olmak üzere üretken sektörler üzerinde odakland ! , liberal politikalar n egemen oldu!u dönemlerde ise; ekonomik ve sosyal altyap projelerine yönlendirildi!i görülmektedir. II. Dünya Sava sonras nda dünya genelinde, kalk nmaya yönelik tüm çabalar n ifas , e güdümü, uyumlula t r lmas , rasyonelle tirilmesi ve koordinasyonunun belirli bir plan dâhilinde yürütülmesinin süreci h zland raca! görü ü egemen konuma yükselmi , ülkenin ekonomik–sosyal envanterini ç karmak, kaynaklar etkin bir ekilde kullanmak ve belirlenen öncelikler çerçevesinde hangi kaynaklar n, kim taraf ndan, ne zaman ve nas l kullan laca! n n ana hatlar yla ortaya konuldu!u yol haritas niteli!indeki planlar haz rlanmaya ba lanm t r. Kalk nman n olmazsa olmaz unsurlar ndan olan yat r mlar ve kamunun bu alanda üstlenece!i i levler, bu planlar n temel ö!eleri aras nda yer alm t r. Dünyada daha önceleri genellikle sanayile meye yönelik haz rland ! ve sanayi plan ad alt nda uyguland ! görülen bu planlar, kinci Dünya Sava sonras nda iktisadi, sosyal ve kültürel alanlar da kapsam na alarak geni letilmi ve kalk nma planlar na dönü türülmü tür. Ülkemizde bu alanda ya anan geli meler de dünyadaki e!ilime paralel bir seyir izlemi tir. 1933–1937 dönemine yönelik olarak haz rlanan Birinci be Y ll k Sanayi Plan ba ar ile icra edilmi , ancak müteakip dönem için haz rlanan kinci Be Y ll k Sanayi Plan ise, kinci Dünya Sava nedeniyle uygulanamam t r. Ekonomik, sosyal ve kültürel politikalar n ve hedeflerin tayininde ve ekonomik politikay ilgilendiren faaliyetlerin koordinasyonunda Hükümete yard mc olmak ve dan manl k yapmak [13] ile görevlendirilen Devlet Planlama Te kilat (DPT)’n n 1960 y l nda kurulmas ve iktisadi, sosyal ve kültürel kalk nman n demokratik yollarla gerçekle tirilmesi için kalk nma planlar haz rlanmas n n 1961’den itibaren anayasal bir görev haline getirilmesi, planlama faaliyetlerinin kurumsalla mas n beraberinde getirmi tir. 1963–1967 dönemini kapsayan Birinci Be Y ll k Kalk nma Plan ile ba layan planlama süreci, takip eden y llarda be er y ll k dönemler için haz rlanan yedi ayr kalk nma plan ile devam etmi tir. 2001–2005 dönemini kapsayan Sekizinci Be Y ll k Kalk nma Plan ’n n tamamlanmas n n ard ndan da, AB mali takvimi dikkate al narak 2007–2013 y llar n kapsayacak ekilde 7 y ll k olarak [14] belirlenen bir dönem için haz rlanarak “Dokuzuncu Kalk nma Plan ” ad alt nda yürürlü!e konulmu tur. Kamu kesimi için emredici, özel kesim için yol gösterici [15] nitelikte olan kalk nma planlar n n, özel ve tarihsel nedenler bir kenara b rak ld ! nda, konumuz aç s ndan çizdi!i hayati önemi haiz vizyon ise; sanayile me sürecinin ülke ölçe!inde de giderek artan i bölümü ve uzmanla may beraberinde getirmesinin sonuçlar ndan biri olan bölgeler aras geli mi lik farklar n n ortadan kald r lmas için bölgesel kalk nma projeleri uygulanmas n n te vikini öngörmesidir. Sanayile menin belli bölgelerde toplanmas sonucu ortaya ç kan bu e itsizli!i ortadan kald rmak amac yla, geri kalm bölgelerin sanayile tirilerek ülke içinde adil bir refah da! l m n n sa!lanmas [16] amac yla uygulanan bölgesel kalk nma politikalar n n ülkemizdeki en ciddî yans mas ise; Güneydo!u Anadolu Projesi (GAP)’ olmu tur. Bu ba!lamda, yeni bir perspektifle özetlemek gerekirse; Sekizinci Be Y ll k Kalk nma 33 Plan ’nda üretimi, verimlili!i, ekonominin rekabet gücünü ve ihracat art r c , kamu aç klar n ve enflasyon h z n azaltarak sürdürülebilir bir ekonomik ve sosyal kalk nmay sa!lay c kamu yat r m politikalar n n uygulanmas ve kamu yat r mlar n n hedeflenen sektörel yap y gerçekle tirebilecek ve kamunun temel fonksiyonlar n en etkin bir ekilde yerine getirmesini sa!layabilecek nitelikte programlanmas gerekti!i belirtilmi tir. Ayr ca sosyal devlet ilkesi çerçevesinde; kamu yat r mlar nda e!itim ve sa!l k sektörlerine, bölgesel geli mi lik farkl l klar n n giderilmesine ve geleneksel kamu hizmetlerine a! rl k verilmesi, altyap n n ekonomik ve sosyal geli menin önünde darbo!az olu turmamas için sulama, enerji, liman, havaalan yat r mlar ve bunlar n karayolu ve demiryolu ana akslar yla bütünle mesini sa!layacak yollar ile içme suyu, kanalizasyon ve ar tma yat r mlar na öncelik verilmesi öngörülmü tür [17]. 2003 y l yat r m program nda ise; Yat r m tahsislerinde Kalk nmada Öncelikli Yörelerin kalk nmas na h z kazand r c ekonomik ve sosyal altyap yat r mlar ile istihdam a! rl kl projelere öncelik verilmesi, bu kapsamda özellikle Güneydo!u Anadolu Projesi Ana Plan (GAP) kapsam nda öngörülen yat r mlara öncelik verilmesi, Güneydo!u Anadolu Bölgesi’nin kalk nmas na yönelik olarak 2001/10 say l Ba bakanl k Genelgesi gere!ince, DPT Müste arl ! ’n n koordinatörlü!ünde yürütülen çal malar neticesinde ortaya ç kan proje listelerinde yer alan projelere tahsislerde öncelik verilmesi, Güneydo!u Anadolu Bölgesi’nde belirli nüfus büyüklü!üne ula m , do!udan bat ya göçü kendine yönlendirebilecek, çevre illeri sosyoekonomik yönden etkileme potansiyeline sahip Gaziantep, ranl urfa, Diyarbak r, Ad yaman ve Mardin illerinin altyap yat r mlar na öncelik verilmesi, gerekti!i belirtilmi tir [18]. 2. Güneydo<u Anadolu Bölgesi’nin Sosyoekonomik Yap s Güneydo!u Anadolu Bölgesi, bölgelerimiz içinde 59.176 km²’lik yüzölçümüyle en küçü!üdür. Türkiye yüzölçümüne oran % 7,5’tir. Bölge; Hatay ve Kahramanmara ’ n do!usu, Güneydo!u Toroslar’ n güney etekleri ile güneyde Suriye, k smen de Irak s n rlar aras nda kalmaktad r [19]. Güneydo!u Anadolu Bölgesi Türkiye toplam nüfusunun % 10,2’sini bar nd rmaktad r [26]. Türkiye’de % 9,9 olan ortalama i sizlik oran , Güneydo!u Anadolu Bölgesi’nde % 14 düzeyindedir [28]. Türkiye’de ki i ba na dü en gayri safi yurtiçi hâs la 2.146 $ seviyesinde iken, Güneydo!u Anadolu Bölgesi’nde 1.186 $ düzeyinde kalm t r [29]. Bölge, Türkiye’deki bölgeleraras ekonomik dengesizlik sorunundan olumsuz yönde etkilenmektedir. Özel sektör yat r mlar n n genellikle geli mi bat bölgelerinde yo!unla mas [20], bölgenin geri kalm l ! n giderek art rmaktad r. Ayr ca, terör, Körfez Sava ve (uzun y llar süren) Irak Ambargosu gibi d sal faktörlere ba!l olumsuzluklar; bölgeye yönelik özel sektör yat r m kararlar n olumsuz yönde etkilemektedir. Bölgenin belirgin demografik özelliklerini özetlersek: Do!urganl k oran , buna ba!l olarak nüfus art h z ve göç oran yüksek düzeydedir. Kentle me oran dü üktür. E!itim düzeyi yetersizdir [19], Bölgede ya ayan nüfusun 0–14ya grubundaki oran % 47’ye tekabül etmektedir. Türkiye’de ortalama hane halk büyüklü!ü 4,5 iken; Güneydo!u Anadolu’da 6,5’tir [30]. 3. Güneydo<u Anadolu Bölgesi kamu yat r mlar istatistikleri 3.1. Kamu yat:r:mlar: toplam: 34 Çizelge–1’de görülebilece!i üzere, 1999–2008 döneminde Türkiye’nin kamu yat r m harcamalar toplam n n ortalama % 7,5’i, Güneydo!u Anadolu Bölgesi’nde gerçekle tirilmi tir. Di!er taraftan, söz konusu dönem içerisinde Güneydo!u Anadolu Bölgesi’ne yap lan yat r mlar n nicel aç dan y ll k bazda 148.797 bin YTL. ile 1999’da taban, 1.027.697 bin YTL. ile 2005’te tavan yapt ! , oransal aç dan asgari yüzdenin 4,7 ile 2001’de, azami yüzdenin de 9,4 ile 2005’te gerçekle ti!i, görülmektedir. Çizelge 1. Kamu Yat r m Harcamalar Toplam Y llar 1999 2000 2001 2002 2003 2004 2005 2006 2007 2008 Güneydo!u Anadolu Bölgesi (Bin YTL.) 148.797 291.960 181.616 440.080 605.651 544.412 1.027.697 871.186 882.900 976.825 Türkiye (Bin YTL.) 2.264.968 3.278.232 3.901.433 7.261.676 7.261.973 7.146.423 10.940.470 11.540.196 12.607.506 13.687.532 Güneydo!u Anadolu Bölgesi/Türkiye (%) 6,6 8,9 4,7 6,1 8,3 7,6 9,4 7,5 7,0 7,1 Kaynak: [21]. 3.2. Tar:m sektörü kamu yat:r:mlar: Çizelge–2’de belirtilen 1999–2008 dönemine ait verilere göre, Türkiye’de tar m sektörüne yönelik kamu yat r m harcamalar toplam n n ortalama % 22,2’si Güneydo!u Anadolu Bölgesi’nde yap lm , bu yat r mlar nicel aç dan y ll k bazda 22.529 bin YTL. ile 1999’da minimum, 210.457 bin YTL. ile 2003’te maksimum düzeyde gerçekle tikten sonra genel hatlar itibar yla gerileme e!ilimine girmi tir. Oransal aç dan ise asgari nispet % 10,2 ile 2007, azami nispet de % 42,1 ile 2003 y llar nda görülmü tür. Çizelge 2. Tar m sektörü kamu yat r m harcamalar Y llar 1999 2000 2001 2002 2003 2004 2005 2006 2007 2008 Güneydo!u Anadolu Bölgesi (Bin YTL.) 22.529 38.401 44.219 81.888 210.457 197.508 204.733 110.158 87.976 89.854 Türkiye (Bin YTL.) 99.801 158.698 182.900 295.815 499.677 529.520 653.089 792.358 864.260 834.136 Güneydo!u Anadolu Bölgesi/Türkiye (%) 22,6 24,2 24,2 27,7 42,1 37,3 31,3 13,9 10,2 10,8 Kaynak: [21]. 3.3. Madencilik sektörü kamu yat:r:mlar: Türkiye’de 1999–2008 y llar aras nda madencilik sektöründe gerçekle tirilen kamu yat r mlar , Çizelge–3’te gösterilmi tir. Söz konusu çizelgede belirtilen verilerinin analizinden anla lmaktad r ki; 35 Toplam madencilik yat r mlar n n ortalama % 11,6’s Güneydo!u Anadolu Bölgesi’nde yap lm t r. Güneydo!u Anadolu Bölgesi 2001, 2002 ve 2003’te hiç yat r m al nmam , 2008’de ise 117.783 bin YTL. ile sektöre olan kamu yat r mlar maksimum seviyeye ç km t r. Oransal olarak da en yüksek nispet olan % 16,5’e 2005 y l nda ula lm , 2004’ten itibaren de sektöre yap lan yat r mlar genel anlamda artm t r. Çizelge 3. Madencilik sektörü kamu yat r m harcamalar Y llar 1999 2000 2001 2002 2003 2004 2005 2006 2007 2008 Güneydo!u Anadolu Bölgesi (Bin YTL.) 435 100 0 0 0 755 64.017 62.519 74.605 117.783 Türkiye (Bin YTL.) 19.582 24.337 30.195 47.026 57.177 153.470 388.765 586.241 726.747 717.009 Güneydo!u Anadolu Bölgesi/Türkiye (%) 2,2 0,4 0 0 0 0,5 16,5 10,7 10,3 16,4 Kaynak: [21]. 3.4. malat sanayi sektörü kamu yat:r:mlar: Ekonomik kalk nman n lokomotifi olarak görülen imalat sanayi sektörüne Türkiye’de 1999–2008 döneminde yap lan kamu yat r mlar n gösteren Çizelge–4’ün analizi; imalat sanayine yönelik toplam kamu yat r m harcamalar ndan Güneydo!u Anadolu Bölgesi’nin pay na dü en bölümün ortalamas n n sadece % 0,8 oldu!unu, maksimum düzeye 10.965 bin YTL. ile 2003’te ula ld ! n , oransal aç dan ise; 2000 y l nda % 2,7’lik bir yat r m pay na eri ildi!ini, 2005 y l ndan itibaren yat r mlar n miktar aç s ndan geriledi!ini ve nihayet 2008 y l nda da s f rland ! n ortaya koymaktad r. Çizelge 4. malat sanayi sektörü kamu yat r m harcamalar Y llar 1999 2000 2001 2002 2003 2004 2005 2006 2007 2008 Güneydo!u Anadolu Bölgesi (Bin YTL.) 1.208 6.352 1.329 5.051 10.965 415 1.250 874 60 0 Türkiye (Bin YTL.) 125.528 236.329 317.126 458.975 455.010 276.701 585.458 345.896 282.017 269.860 Güneydo!u Anadolu Bölgesi/Türkiye (%) 1,0 2,7 0,4 1,1 2,4 0,1 0,2 0,3 0 0 Kaynak: [21]. 3.5. Enerji sektörü kamu yat:r:mlar: Türkiye’de 1999–2008 y llar aras nda enerji sektörüne yap lan kamu yat r mlar n gösterir Çizelge–5 a a! dad r. Bu çizelgedeki veriler; 36 Referans al nan dönemdeki toplam yat r mlar n ortalama % 9’unun Güneydo!u Anadolu Bölgesi’nde gerçekle tirildi!ini, Nicel aç dan 2001’de 18.600 bin YTL. ile taban, 2005’te ise 243.800 bin YTL. ile tavan yap ld ! n , oransal olarak da asgari yüzde olan 2,2’nin 2002’de, azami yüzde olan 15,9’un da 2008’de gerçekle ti!ini, 2005’ten itibaren ise; dü ü ler ya anmas na ra!men, bölgeye yat r mlar n geçmi e y llara k yasla istikrar n korudu!unu, ortaya koymaktad r. Çizelge 5. Enerji sektörü kamu yat r m harcamalar Y llar 1999 2000 2001 2002 2003 2004 2005 2006 2007 2008 Güneydo!u Anadolu Bölgesi (Bin YTL.) 19.531 42.043 18.600 23.651 54.115 69.848 243.800 189.000 188.140 186.998 Türkiye (Bin YTL.) 370.967 529.347 812.363 1.082.953 1.678.600 1.254.307 1.736.541 1.455.669 1.435.566 1.178.197 Güneydo!u Anadolu Bölgesi/Türkiye (%) 5,3 7,9 2,3 2,2 3,2 5,6 14,0 13,0 13,1 15,9 Kaynak: [21]. 3.6. Ula#t:rma-haberle#me sektörü kamu yat:r:mlar: Ula t rma–haberle me sektörleri aç s ndan kamu yat r mlar n gösteren Çizelge–6’daki verilere göre; 1999–2008 döneminde Güneydo!u Anadolu Bölgesi’ndeki kamu yat r mlar toplam n n, ortalamada % 2 seviyesinde kald ! , minimum yat r m n mebla! n n 3.599 bin YTL. ile 1999’da ve oran n % 1,1 ile 2002’de, maksimum yat r m n ise; 79.803 bin YTL. ile 2008’de gerçekle ti!i, oransal aç dan da 2000’de % 4,6 ile azami seviyenin yakaland ! söylenilebilecektir. Çizelge 6. Ula t rma-haberle me sektörü kamu yat r m harcamalar Y llar 1999 2000 2001 2002 2003 2004 2005 2006 2007 2008 Güneydo!u Anadolu Bölgesi (Bin YTL.) 3.599 17.933 9.762 22.685 34.792 34.261 41.079 79.599 49.439 79.803 Türkiye (Bin YTL.) 266.982 385.704 422.015 2.133.957 1.308.951 1.292.751 2.165.511 3.015.662 3.732.955 4.048.631 Güneydo!u Anadolu Bölgesi/Türkiye (%) 1,3 4,6 2,3 1,1 2,7 2,7 1,9 2,6 1,3 2,0 Kaynak: [21]. 3.7. Turizm sektörü kamu yat:r:mlar: Türkiye’de 1999–2008 y llar aras nda turizm sektörüne yap lan kamu yat r mlar n gösterir veriler Çizelge–7’de gösterilmi tir. Çizelge–7’deki verilere göre; 37 Turizm sektöründe Türkiye genelindeki kamu yat r mlar toplam n n ortalama % 0,2’si Güneydo!u Anadolu Bölgesi’ne yap lm t r. Maksimum yat r m mebla! 455 bin YTL. ile 2006’da, oransal olarak ise % 1,6 ile 2001’de yakalanm t r. 2002–2005 dönemini kapsayan 4 y ll k süreçte ise, Güneydo!u Anadolu Bölgesi’nde turizm alan nda hiç kamu yat r m yap lmam t r. Çizelge 7. Turizm sektörü kamu yat r m harcamalar Y llar 1999 2000 2001 2002 2003 2004 2005 2006 2007 2008 Güneydo!u Anadolu Bölgesi (Bin YTL.) 26 200 300 0 0 0 0 455 10 100 Türkiye (Bin YTL.) 7.933 19.335 19.131 114.851 63.411 44.518 42.243 61.551 27.550 48.202 Güneydo!u Anadolu Bölgesi/Türkiye (%) 0,3 1,0 1,6 0 0 0 0 0,7 0 0,2 Kaynak: [21]. 3.8. Konut sektörü kamu yat:r:mlar: 1999–2008 döneminde Türkiye’de konut sektörüne yap lan kamu yat r mlar n gösteren Çizelge–8 verileri göstermektedir ki, dönem içerisinde sektöre yap lan yat r mlar toplam n n ortalama % 12,4’ü Güneydo!u Anadolu Bölgesi’ne yap lm , miktar olarak minimum de!er 402 bin YTL ile 1999’da, oransal olarak da % 4,0 ile 2006’de, maksimum de!er ise 18.524 bin YTL. ve % 20,1 ile 2008’de gerçekle mi tir. Çizelge 8. Konut sektörü kamu yat r m harcamalar Y llar 1999 2000 2001 2002 2003 2004 2005 2006 2007 2008 Güneydo!u Anadolu Bölgesi (Bin YTL.) 402 1.197 1.408 2.000 2.390 13.315 8.712 3.385 12.577 18.524 Türkiye (Bin YTL.) 5.840 9.832 9.330 13.931 23.825 95.044 86.771 84.023 93.858 92.015 Güneydo!u Anadolu Bölgesi/Türkiye (%) 6,9 12,2 15,1 14,4 10,0 14,0 10,0 4,0 13,4 20,1 Kaynak: [21]. 3.9. EGitim alan:nda yap:lan kamu yat:r:mlar: 1999–2008 döneminde Türkiye’de e!itim alan nda gerçekle tirilen kamu yat r m harcamalar n gösteren Çizelge–9’un tetkikinden; Bu alandaki toplam kamu yat r mlar n n ortalama % 8,2’sinin Güneydo!u Anadolu Bölgesi’nde gerçekle tirildi!i, Minimum mebla! n 9.528 bin YTL. ile 1999’da, oran n ise % 4,8 ile 2000’de görüldü!ü, 38 Maksimum mebla! n 163.090 bin YTL. ile 2008’de, oran n ise % 10,7 ile 2005 y l nda ba ar ld ! , 2006 y l bir kenara b rak ld ! nda; mebla! aç s ndan e!itim alan nda Güneydo!u Anadolu Bölgesi’ne yap lan kamu yat r mlar n n istikrarl bir ekilde yükseldi!i, anla lmaktad r. Çizelge 9. E!itim alan nda yap lan kamu yat r m harcamalar Y llar 1999 2000 2001 2002 2003 2004 2005 2006 2007 2008 Güneydo!u Anadolu Bölgesi (Bin YTL.) 9.528 15.715 22.162 39.986 42.366 46.446 129.850 128.699 161.718 163.090 Türkiye (Bin YTL.) 188.832 324.106 407.550 771.662 829.531 882.957 1.213.740 1.297.614 1.568.099 1.797.245 Güneydo!u Anadolu Bölgesi/Türkiye (%) 5,0 4,8 5,4 5,2 5,1 5,3 10,7 9,9 10,3 9,1 Kaynak: [21]. 3.10. SaGl:k alan:nda yap:lan kamu yat:r:mlar: Türkiye’de 1999–2008 döneminde sa!l k alan nda yap lan kamu yat r mlar n gösteren verileri havi Çizelge–10’a göre; harcama toplam n n ortalama % 10,3’ü Güneydo!u Anadolu Bölgesi’nde gerçekle tirilmi , asgari mebla! ile oran 7.638 bin YTL. ve % 6,7 ile 1999’da, maksimum mebla! ile oran ise; 174.985 bin YTL. ve % 14,6 ile 2007’de hayata geçirilmi tir. Çizelge 10. Sa!l k Alan nda yap lan kamu yat r m harcamalar Y llar 1999 2000 2001 2002 2003 2004 2005 2006 2007 2008 Güneydo!u Anadolu Bölgesi (Bin YTL.) 7.638 15.634 16.829 31.819 53.712 44.091 92.377 142.732 174.985 133.171 Türkiye (Bin YTL.) 113.226 220.939 189.362 363.522 585.826 649.966 1.193.368 1.210.157 1.202.221 1.197.903 Güneydo!u Anadolu Bölgesi/Türkiye (%) 6,7 7,1 8,9 8,8 9,2 6,8 7,7 11,8 14,6 11,1 Kaynak: [21]. 3.11. DiGer kamu hizmetleri yat:r:mlar: Türkiye genelindeki içme suyu, kanalizasyon, esnaf–zanaatkâr ve küçük sanayi sektörlerine yönelik hizmetler, k rsal alan planlamas , belediyecilik, yerle me– ehirle me, çevre hizmetleri, teknolojik ara t rma ile sosyal hizmet ve yard mlardan yat r m niteli!ini ta yan harcamalar n yer ald ! “Di!er Kamu Hizmetleri Yat r mlar ” bölümü kapsam ndan, 1999–2008 döneminde Güneydo!u Anadolu Bölgesi’nin ald ! pay ve oranlar gösterir veriler Çizelge–11’de sunulmu tur. Bu kapsama dâhil olan verilere göre; Toplam kamu yat r mlar n n ortalama % 7,4’ü Güneydo!u Anadolu Bölgesi’ne yap lm t r. 39 Minimum mebla! ile oran, 67.007 bin YTL. ve % 4,4 ile 2001’de görülmü tür. Maksimum mebla! 241.879 bin YTL. ile 2005’te, maksimum oran ise % 11,8 seviyesinin yakaland ! 2002 y l nda gerçekle mi tir. Çizelge 11. Di!er kamu hizmetleri yat r m harcamalar Y llar 1999 2000 2001 2002 2003 2004 2005 2006 2007 2008 Güneydo!u Anadolu Bölgesi (Bin YTL.) 83.900 154.385 67.007 233.000 196.836 137.773 241.879 153.783 133.390 187.502 Türkiye (Bin YTL.) 1.066.278 1.369.606 1.511.461 1.978.984 1.759.963 1.967.189 2.874.984 2.691.025 2.674.233 3.504.334 Güneydo!u Anadolu Bölgesi/Türkiye (%) 7,9 11,3 4,4 11,8 11,2 7,0 8,4 5,7 5,0 5,4 Kaynak: [21]. 4. Sonuç ve öneriler Türkiye’de 1999–2008 y llar aras nda yap lan kamu yat r mlar na ait veriler irdelendi!inde; referans al nan dönem içerisinde yap lan toplam kamu yat r m miktar n n 79.890.409 bin YTL.’s na ula t ! ve bu yat r mlardan Güneydo!u Anadolu Bölgesi’nin pay na dü en miktar n ise 5.971.124 bin YTL. oldu!u görülmektedir. Söz konusu kamu yat r mlar n n toplam Güneydo!u Anadolu Bölgesi ile di!er co!rafi bölgelerimiz aras nda da! t ld ! nda bölgenin pay % 7,5’lerde kalmakta olup, da! l m rekil–2’de gösterilmi tir: 40 7,5% 92,5% GÜNEYDOIU ANADOLU BÖLGES D IER BÖLGELER Bekil–2: Güneydo!u Anadolu Bölgesi'nin 1999–2008 döneminde toplam kamu yat r mlar içerisindeki pay Bunun yan s ra; dönem içerisinde Güneydo!u Anadolu Bölgesi’nde yap lan toplam kamu yat r mlar n n sektörler itibar yla tasnifi rekil–3’tedir: 18,2% 26,6% 0,5% 5,4% 17,3% 11,9% 12,7% 1,1% TARIM M ALAT ULArTIRM A- HABERLErM E KONUT SAoLIK 0,1% 6,2% M ADENC L K ENERJ TUR ZM Eo T M D oER KAM U H ZM ETLER Bekil–3: Güneydo!u Anadolu Bölgesi'ne 1999–2008 döneminde yap lan toplam kamu yat r mlar n n sektörel da! l m reklin analizinden; 41 Dönem içerisinde Güneydo!u Anadolu Bölgesi’ne yap lan kamu yat r mlar nda ilk s rada % 26,6 ile sosyal hizmet ve yard mlardan yat r m niteli!ini ta yan harcamalar ba ta olmak üzere di!er kamu hizmetlerinin yer ald ! , Bu kalemi s ras yla tar m, enerji, e!itim, sa!l k, ula t rma–muhabere, madencilik, konut, turizm ve imalat sektörlerinin takip etti!i, anla lmaktad r. Birim alan ve ki i ba na dü en kamu yat r mlar ile ilgili veriler ise; Çizelge–12 ve Çizelge–13’te gösterilmi tir: Çizelge 12. Birim alana dü en kamu yat r m harcamalar Y llar 1999 2000 2001 2002 2003 2004 2005 2006 2007 2008 Güneydo!u Anadolu Bölgesi (YTL./Km²) 1.944,8 3.816,0 2.373,8 5.752,0 7.916,1 7.115,7 13.432,4 11.386,7 11.539,8 12.767,5 Türkiye (YTL./Km²) 2.890,6 4.183,8 4.979,1 9.267,5 9.267,9 9.120,4 13.962,5 14.727,9 16.090,0 17.468,3 Güneydo!u Anadolu Bölgesi/Türkiye (%) 67,3 91,2 47,7 62,1 85,4 78,0 96,2 77,3 71,7 73,1 Kaynak: [21, 24]. Bu çerçevede yap lan hesaplamalar göstermektedir ki, 1999–2008 döneminde, Güneydo!u Anadolu Bölgesi’nde km²’ye dü en kamu yat r m harcamalar Türkiye ortalamas n n % 75’i düzeyindedir(. Ayn dönemde, Güneydo!u Anadolu Bölgesi’nde ki i ba na dü en kamu yat r m harcamalar ise; Türkiye ortalamas n n % 73’ü seviyesindedir((. Çizelge 13. Ki i ba na dü en kamu yat r m harcamalar Y llar 1999 2000 2001 2002 2003 2004 2005 2006 2007 2008 Güneydo!u Anadolu Bölgesi (YTL./Ki i) 21,3 41,8 26,0 63,1 86,8 77,1 147,2 124,8 126,5 140,0 Türkiye (YTL./Ki i) 32,5 47,1 56,0 104,2 104,2 102,6 157,1 165,7 181,0 196,5 Güneydo!u Anadolu Bölgesi/Türkiye (%) 65,6 88,8 46,5 60,5 83,2 75,1 93,7 75,3 69,9 71,2 Kaynak: [21,25,26]. ( 1999–2008 dönemi km²’ye dü en kamu yat r m harcamalar hesaplan rken, Türkiye ve Güneydo!u Anadolu Bölgesi’nin göllerin dâhil oldu!u yüzölçümü verileri kullan lm t r. (( 1999–2008 dönemi ki i ba na dü en kamu yat r m harcamalar hesaplan rken, dönem içindeki her y la ait nüfus say m verileri bulunmad ! ndan, 2000 y l Genel Nüfus Say m ve 2008 y l Adrese Dayal Nüfus Kay t Sistemi sonuçlar n n aritmetik ortalamas baz al nm t r. 42 Sekizinci Be Y ll k Kalk nma Plan ’nda “Yat r mlarda, özellikle geri kalm bölgelerin geli mesini h zland racak düzenlemelere gidilmesine ve uygulanan te vik tedbirlerinin yürütülmesine devam edilmesi” hedefi konulmu tur [22]. GAP Bölgesel Kalk nma Program ’nda ise temel amaç olarak; “Güneydo!u Anadolu Bölgesi’nde ya ayan insanlar n ekonomik ve sosyal ko ullar n n iyile tirilmesi, istikrarl ekonomik büyümeye katk da bulunulmas yoluyla bölgenin üretkenli!inin ve istihdam kapasitesinin art r lmas ve böylece bölgeleraras geli mi lik farkl l klar n n azalt lmas …”[23] öngörülmü tür. Ancak; 1999–2008 dönemi kamu yat r m harcamalar verileri, Be y ll k kalk nma planlar ve y ll k programlarda belirlenen stratejiler do!rultusunda, bölgeler aras kalk nm l k farkl l klar n ortadan kald rmay sa!layacak bir yat r m hacminin Güneydo!u Anadolu Bölgesi’nde beklenilen ölçülerde gerçekle medi!ini göstermektedir. Belirlenen bu hedeflere ula lmas için, yat r m harcamalar n n art r lmas gerekmektedir. Ancak Türkiye’de özel sektör yat r mlar genellikle geli mi bat bölgelerinde yo!unla m t r [20]. Bu durumda, geri kalm bölgelerdeki özel sektör yat r mlar düzeyindeki yetersizlikler kamusal yat r mlar ile ikame edilmelidir. Özelle tirme sürecinin ya and ! günümüz piyasa ko ullar nda, devletin bir müte ebbis statüsünde Güneydo!u Anadolu Bölgesi’nde kamu yat r m yapmas n beklememiz do!ru de!ildir. Ancak bölgenin sosyo-ekonomik geri kalm l ! göz önünde bulundurularak, Güneydo!u Anadolu Bölgesi’ne pozitif ayr mc bir yat r m politikas uygulanmas yararl olacakt r. Güneydo!u Anadolu Bölgesi’ne yönelik kamu yat r m politikalar belirlenirken, a a! da belirtilen hususlar n göz önünde bulundurulmas gerekmektedir: Bölgedeki giri imlerin desteklenerek, istihdam imkânlar ve yeni i alanlar yaratacak altyap yat r mlar na a! rl k verilmesi gerekmektedir. Özellikle bölgenin ekonomik yap s nda yüksek potansiyele sahip petrol, antepf st ! , baklagiller, üzüm, pamuk, hayvanc l k vb. alanlar n geli mesine yönelik kamusal yat r mlar n ve te viklerin art r lmas yararl olacakt r. Bölgenin k rsal kesiminde destekleyici, gelir getirici faaliyetlerin geli tirilmesine yönelik yat r mlara a! rl k verilmesi gerekmektedir. Çünkü bölgede yüksek düzeyde olan köyden kente göçlerin azalt lmas , birçok sosyo-ekonomik sorunun do!mas na engel olacakt r [27]. Bölgede zengin kültürel ve tarihsel mirasa sahip alanlar yenileyip geli tirerek kültürel miras n korunmas ve turizm potansiyelinin geli tirilmesine yönelik kamusal yat r mlar n ve te viklerin art r lmas yararl olacakt r. Bölgeye yönelik yat r mlar n mukayeseli üstünlükler aç s ndan öncelikli olunan sektörler üzerinde yo!unla t r lmas halinde, uluslararas düzeydeki rekabet ortam na ayak uydurulmas aç s ndan müspet sonuçlar elde edilecektir. Yeniden in a a amas ndaki Irak ile mevcut co!rafi yak nl k avantajlar ile GAP Projesi’nin tamamlanmas akabinde ortaya ç kacak geni d ticaret potansiyeli nedeniyle; ba ta ula m ve haberle me olmak üzere bölgedeki altyap imkânlar n n kuvvetlendirilmesine yönelik yat r mlar n artt r lmas hem bölge hem de ülke için fayda getirecektir. Dünya genelinde g da ürünleri fiyatlar nda ya anan ve önümüzdeki dönemde de sürmesi beklenen art lardan istifade edilmesi amac yla, görece avantajl konumdaki tar msal a! rl kl ekonomik yap ile ba!lant l modern sanayilerin olu turulmas na yönelik yat r mlara a! rl k verilmelidir. Bunun yan s ra; organik tar m için son derece elveri li bulunan volkanik karakterli arazinin slah , serac l k, damla sulama vb. modern üretimin te viki, en modern depolama, ambalajlama ve pazarlama tekniklerinin hayata geçirilmesine yönelik kamu yat r mlar , k sa vadede dahi büyük hâs la al nmas n mümkün k lacakt r. Bölgede topyekûn bir sosyoekonomik kalk nma için ise; Kalk nma Bakanl ! kurulmal , sanayi envanteri yap lmal ve bilgileri payla lmal , Kalk nma Ajanslar devreye al nmal , te vik programlar uzun süreli olarak uygulanmal , üniversiteye giri ler yeniden düzenlenmeli, üniversite bölümleri ihtiyaca göre aç lmal , sermayenin bölgede kalmas sa!lanmal , bölgede enerji cazibesi olu turulmal , s n r ticareti geli tirilmeli, te vik ve destek sistemleri zenginle tirilmeli, il kalk nma projeleri olu turulmal , organize sanayi bölgeleri güçlendirilmeli, vergi muafiyetleri getirilmeli, serbest ticaret bölgeleri güçlendirilmeli, üreme konusunda halk bilinçlendirilmeli, göçü 43 durduracak çal malar h zland r lmal , ehircilik bilinci uyand r lmal , yat r m ortam na belirginlik getirilmeli, kredi ve nakliye cazibesi sa!lanmal , GAP özel sektöre aç lmal , sulama rejimi olu turulmal , GAP’a kültürel boyut kazand r lmal , navlun te vik kapsam na al nmal , arazi imkânlar yeniden yap land r lmal , yan u!ra alanlar olu turulmal , may nl araziler tar ma kazand r lmal , hayvanc l k desteklenmeli, bürokratik i lemler azalt lmal , madencilik yat r mlar canland r lmal , Küçük hidroelektrik santralleri (HES) kurulmal , sanayiye do!algaz ula t r lmal , kaçak elektrik kullan m dü ürülmeli, in aat sektörüne özel önem verilmeli, S n r Ticareti Merkezleri (STM) için vakit kaybedilmemeli, ula m imkânlar art r lmal , kom ularla ortak fuarlar n say s art r lmal , yeni s n r kap lar aç lmal , bölgeye uçu lar art r lmal d r [30]. Kaynaklar [1] B. Dinçer, M. Özaslan, E. Sat lm , (1996), llerin sosyo-ekonomik geli#mi#lik s:ralamas: ara#t:rmas:, Ankara: DPT-Bölgesel Geli me ve Yap sal Uyum Genel Müdürlü!ü, s. 1, [2] DPT, Kamu yat:r:mlar:, http://www.dpt.gov.tr/kamuyat/program.html (Eri im: Mart 2009), [3] Y. Özdemir (2007), Türkiye’de yat r m harcamalar n n geli imi ve kamu yat r m politikalar , Ankara: Bütçe Dünyas:, Cilt:3 Say : 27, s.1, http://www.debud.org/Html/dergi/27/yozdemir.pdf (Eri im: Mart 2009), [4] G. Akal n, (1999), Liberalizm aç s ndan devletin ekonomideki rolü, Ankara: Yeni Türkiye, Say : 25, s. 343–344, [5] G. Kazgan (1988), Ekonomide d:#a aç:k büyüme, stanbul: Alt n Kitaplar Yay nevi, kinci Bask , s. 35, [6] Genel ekonomi ansiklopedisi (1988), stanbul: Milliyet Yay nlar , Birinci Bask , Cilt: II, s. 686. [7] Y. Özdemir, s. 1, [8] . Türk (1999), Kamu maliyesi, Ankara: Turhan Kitabevi, Üçüncü Bask , s. 27, [9] r. Aksoy (1988), Kamu maliyesi, stanbul: Filiz Kitabevi, Üçüncü Bask , s. 91, [10] Yat:r:m nedir, http://www.ekodialog.com/Konular/yatirim_fonksiyon.html, (Eri im: Mart 2009), [11] B.B. Do!an (2000), Yirminci y:l:nda 24 Ocak 1980 kararlar:, DÜ–SBE, Yay nlanmam Yüksek Lisans Tezi, s. 8, [12] K. Boratav (1993), Türkiye iktisat tarihi 1908–1985, stanbul: Gerçek Yay nlar , Dördüncü Bask , s. 48– 49, [13] 1960 sonras: dönemde planlama ve devlet planlama te#kilat:, http://www.dpt.gov.tr/PortalDesign/ PortalControls/WebContentGosterim.aspx?DokumanRef=359, (Eri im: Mart 2009), [14], Dokuzuncu kalk nma plan (2007 – 2013) (2006), Resmi Gazete, Say : 26215, http://www.gep.gov.tr /fileAdmin/Statistics/Others/DokuzuncuKalk%C4%B1nmaPlan%C4%B1.pdf, (Eri im: Mart 2009), [15] Planlar:n niteliGi ve DPT te#kilat:, 1960 sonras: dönemde planlama ve Devlet Planlama Te#kilat:, http://www.dpt.gov.tr/PortalDesign/PortalControls/WebContentGosterim.aspx?DokumanRef=359, (Eri im: Mart 2009), [16] Bölgesel kalk:nma nedir, bölgesel ekonomik kalk:nma plan:, http://www.bilgininadresi.net/Madde /39843/B%C3%B6lgesel-Kalk%C4%B1nma-Nedir,-B%C3%B6lgesel-Ekonomik-Kalk%C4%B1nmaPlan%C4%B1, (Eri im: Mart 2009), [17] DPT, (2000), Bölgesel geli#me Ö K raporu, Sekizinci be# y:ll:k kalk:nma plan:, Ankara, DPT: 2502Ö K: 523, s. 9–19, [18] DPT, (2002), 2003 y:l: yat:r:m program: haz:rlama esaslar:, Ankara, s. 3, [19] M. P çak, (2007), GüneydoGu Anadolu Bölgesi’nin ekonomik geli#iminde tar:ma dayal: sanayilerin etkisi (1990–2000 dönemi), MÜ-SBE, Bas lmam Doktora Tezi, s. 9–60–17–12, [20] L. Elvan, N. Sorguç, L. B. Kazanc k A. Öztürk, (2005), Bölgesel geli#me ve sektör-bölge y:G:nla#malar:, DPT Yay nlar , Ankara, s. 40–45, [21] DPT, Kamu yat:r:mlar:n:n illere göre sektörel daG:l:m:, http://www.dpt.gov.tr/kamuyat/ilozet.html (Eri im: Mart 2009), [22] DPT, (2004), Bölgesel geli#me hedef ve politikalar:, VIII. Be# Y:ll:k Kalk:nma Plan:–2005 Y:l: Program:, s. 1, [23] DPT, (2005), Türkiye-Avrupa BirliGi mali birliGi kapsam:ndaki i#birliGi bölgesel kalk:nma programlar: DPT-Bölgesel Geli me ve Yap sal Uyum Genel Müdürlü!ü, Ankara, s. 62, [24] TU K, Bölgesel istatistikler-bölgelerin alan:, http://tuikapp.tuik.gov.tr/Bolgesel/tabloOlustur.do (Eri im: Mart 2009), [25] TU K, Bölgesel istatistikler-genel nüfus say:mlar:, http://tuikapp.tuik.gov.tr/Bolgesel/tabloOlustur.do (Eri im: Mart 2009), 44 [26] [27] [28] [29] [30] TU K, bölgesel istatistikler, adrese dayal: nüfus kay:t sistemi, http://tuikapp.tuik.gov.tr/Bolgesel/tabloOlustur.do (Eri im: Mart 2009), M. P çak, (2009), Micro-credit applications in the fight against poverty and improvement of income distribution in Turkey, Eurasia Business and Economics Society, 2009, Conference Summary Book, TU K, Bölgesel istatistikler-hanehalk: i#gücü anketine göre i#gücü durumu–2006, http://tuikapp.tuik.gov.tr/Bolgesel/tabloOlustur.do (Eri im: Mart 2009), TU K, Bölgesel istatistikler-ki#i ba#:na dü#en gayri safi yurtiçi hâs:la–2001, http://tuikapp.tuik.gov.tr/Bolgesel/tabloOlustur.do (Eri im: Mart 2009), MÜS AD Ara t rma Raporlar : 53 [2008], DoGu ve GüneydoGu Anadolu bölgelerine yönelik sosyoekonomik kalk:nma önerileri, stanbul: s. 12–13, 149–157. 45 Parametrik olmayan panel veri modelleri ile uluslararas göçün makro ekonomik belirleyicileri .Selahattin GÜR ^ Marmara Üniversitesi ktisadi ve dari Bilimler Fakültesi Ekonometri Ana Bilim Dal: Ekonometri Bölümü Bahçelievler, stanbul, Türkiye sguris@marmara.edu.tr .Elif ÖZTÜRK Y:ld:z Teknik Üniversitesi Fen Edebiyat Fakültesi statistik Bölümü Davutpa#a Kampüsü 34210-Esenler, stanbul, Türkiye eozturk@yildiz.edu.tr elfztrk@gmail.com Özet Uluslar aras göç ya ad ! m z dünyan n yap s hakk nda bilgi veren anahtar kelimelerden birisidir; sosyal, ekonomik ve politik de!i im süreçlerinde önemli bir rolü bulunmakta ve OECD üyesi ülkelerin politikalar nda merkezi bir öncelik ta maktad r. Çal mam z n amac , temel makro ekonomik de!i kenlerin uluslararas göç trendi üzerindeki etkisini belirlemektir. Her bir de!i ken göçü iki farkl yolla etkilemektedir: göç eden insanlar ya ad klar yerden ayr lmaya iten etkiler , göç ettikleri bölgelerde onlar gitmeye çeken etkiler. Bu amaçla parametrik olmayan panel veri modelleri yöntemleri kullan lm t r. Anahtar Sözcükler:Parametrik Olmayan Regresyon; Nadaraya Watson Kernel Tahmin; Parametrik Olmayan Panel veri Analizi Abstract The Macroeconomic Determinants of International Migration by Using Nonparametric Panel Data Models International migration is one of the key factors that shape the world in which we live: it plays a central role in global processes of social, economic and political change.International migration.International migration has a key role in the globalization proccess and international politics as it has a central importance of country’s policies The aim of this study is to focus on the role of the main economic variables as the determinants of the international migration trend Each explanatory variable affects migration in two different ways:by pushing people to the region where they are living,and by attracting (or pulling) them from another region .For this purpose, nonparametric panel data models are used. Keywords:Nonparametric Regression; Nadaraya Watson Kernel Estimation,;Nonparametric Panel Data Models 1. Parametrik Olmayan Panel Veri Modelleri Parametrik olmayan panel verilerin modellenmesinde parametrik olmayan regresyon yöntemlerinin irdelenmesi gerekmektedir. Parametrik olmayan regresyon analizinde de parametrik regresyonda oldu!u gibi, ba! ml ve ba! ms z de!i kenler vard r ve bunlar aras ndaki ili ki incelenmektedir. Parametrik olmayan regresyon analizinin parametrik regresyon analizinden en büyük fark ili kinin parametrik olmayan fonksiyonlar ile aç klanmas , bu nedenle tahminlerin de parametrik olmayan yöntemlerle yap lmas d r. Parametrik olmayan regresyonda da! l mlarla ilgili varsay m 46 yap lmamaktad r. Burada önemli olan fonksiyonel ekildir ve da! l m n önemi yoktur. Bu regresyon yöntemlerinde yo!unluk fonksiyonu tahmini kullan lmaktad r.1 Kernel yo!unluk fonksiyonu tahmini popüler bir parametrik olmayan tahmin yöntemidir. Kernel tahmin y = m( x) + ) belirlemesidir. Burada m( x) , y de!i keninin herhangi bir parametrik kal ba sahip olmayan ko ullu beklentisidir ve ) hatas n n da! l m tamamen belirlenmemi tir. yi ve xi ile ilgili N tane gözlem y ve x için ortak yo!unluk fonksiyonunun tahmini için kullan l r. ( y0 , x0 ) gibi bir noktadaki yo!unluk N tane gözlemin ne oranda ( y0 , x0 ) noktas na “yak n” oldu!unu belirleyerek tahmin edilir. Bu yöntem yak n gözlemleri a! rl kland rma için kernel olarak adland r lan ve bu parametrik olmayan sürecin neden kernel olarak adland r ld ! n aç klayan bir formülün kullan lmas n içerir. Bu ortak da! l m n belirlenmesi ile birlikte x de!i keninin (bile ik yo!unlu!un y üzerinden integrali al narak) marjinal da! l m ve daha sonra x verildi!inde y de!i keninin ko ullu da! l m ( bu ortak ve marjinal da! l mlar n oran olarak) belirlenebilir. Ko ullu da! l m ilgilenilen birçok konu hakk nda bilgi edinmemizi sa!layabilir. x verildi!inde y de!i keninin ko ullu olas l ! , yani m( x) tahmin edilebilir ve “regresyon katsay s n n” e de!eri x de!i kenindeki birim de!i imin m( x) üzerindeki etkisi tahmin edilerek belirlenebilir. Bununla birlikte y de!i keninin ko ullu varyans tahmin edilebilir ve bu hata terimi varyans n n bir tahminini verecektir. Burada dikkat edilmesi gereken önemli bir nokta bu da! l mlar n her zamanki parametrik yöntemlerle yap ld ! gibi bir formül olarak “belirlenmedi!inin” anla lmas d r. Anlat lmak istenen örnek olarak verilen bir x de!eri için ko ullu yo!unlu!un yüksekli!inin tahmin edilebilece!idir.2 Yo!unluk fonksiyonunun tahmini, düzgünle tirme parametresi h ’ n seçimi ile gerçekle tirilmektedir. Düzgünle tirme parametresinin seçiminde önemli olan ne kadar düzgünle tirme yap lmas gerekti!ine karar verilmesidir. Düzgünle tirme parametresinin seçimi sapma ve varyans ili kisini dengelemek amac yla yap lmaktad r. “Çok küçük” seçilmesi durumunda çok az say da gözlem önemli düzeyde a! rl !a sahip olacak ve elde edilen yo!unluk tahmini kaba (yeterince düzgün olmayan- h de!erinin bazen düzgünle tirme parametresi olarak adland r lmas n n nedeni budur) bir görüntüye sahip olacakt r. Buna kar l k “çok büyük” bir tan mlama kullan ld ! nda çok say da gözlem önemli düzeyde a! rl !a sahip olur ve yo!unlu!u a r derecede düzle tirir. (Örne!in çift modlu bir yo!unlu!un tek modlu tan mlanmas na neden olabilir.) Böyle bir durumda yo!unlu!u hesaplanan x de!erine çok yak n olmayan gözlemler “ ait olmad klar ndan” tahmin sürecine ek bir sapman n kat lmas söz konusu olur. Dolay s yla varyans ile sapma aras nda bir al veri söz konusudur- yüksek bir h de!eri (daha fazla gözlem içermesi sonucu) yo!unluk tahmininin varyans n n azalmas na ancak daha fazla sapmaya neden olmaktad r.3 h ’ n seçimiyle ilgili bahsedilen bu durum a a! daki ekilden de görülebilir: 1 Ebru, ÇAoLAYAN, “Yar parametrik Regresyon Modelleri ile Ya am boyu Sürekli Gelir Hipotezinin Türkiye Uygulamas ”, Dan man:Prof.Dr.Selahattin Güri , stanbul,2002 2 Peter Kenedy, “Ekonometri K lavuzu”,Gazi Kitapevi, 2006, s. 3 Adrian Pagan,Aman Ulah, “Nonparametric Econometrics”,Cambridge University Press, 1999,p.6 47 Bekil 1. düzgünle tirme parametresinin seçimi. 2. Nadaraya Watson Kernel Tahmini Parametrik olmayan panel veri modelinin a a! daki gibi oldu!unu varsayal m, yit = m( xit ) + uit ; i = 1,..., N t = 1,..., T (1) Burada m( xit ) = E ( yit / xit ), E (uit / xit ) = 0, var(uit / xit ) = u2 ( xit ) ve ( yit , xit ) birbirlerinden ba! ms z ve e it da! l mlara sahip de!i kenler olmak üzere genel panel veri durumu olan N’in büyük ve zaman boyutu T’nin küçük oldu!u panel veri oldu!u varsay lm t r. m( x) ’in parametrik olmayan x = O(h) gibi küçük bir aral ktaki xit de!erlerine kar l k gelen y de!erlerinin düzle tirilmi ortalamas d r, burada h , N * + iken s f ra giden pencere geni li!i de denilen düzgünle tirme parametresidir. En küçük karelerde bu, x etraf ndaki verilere bir sabitin eklenmesidir. Daha aç k olarak x etraf nda m( xit ) ’nin Taylor aç l m kullan lmaktad r : m( xit ) = m( x) + O( xit x) . O( xit x) , kalan terimleri ifade etmektedir. N’in tahmini, x noktas ndaki ko ullu ortalama, x 'in xit büyük olmas halinde kombine edilmi hata teriminin beklenen de!erinin s f r oldu!u varsay ld ! ndan kalan O (h) terimleri uit ’ye ilave edilebilir. Dolay s yla model a a! daki gibi ifade edilebilir: yit = m( x) + uit (2) Veya daha kapal biçimde, y = :NT m( x) + u (3) "" ( y xit x = u ' K ( x)u ’nun m( x) ’e göre k smi türevi minimize h x x edilir. K ( x) , kö egen elemanlar K it = K (, it ) = K it olan, kö egen matristir. x ’e uzak olan h xit de!erlerine dü ük, x ’e yak n olan xit gözlemlerine büyük de!erler veren tart fonksiyonu ya da Yaz labilir. Ve it i m( x))2 K t 48 kernel olarak adland r l r.4 Ba! ms z de!i ken say s n n birden çok olmas halinde çok de!i kenli yo!unluk tahmininin yap lmas gerekir. Çok de!i kenli yo!unluk fonksiyonunun tahmini kernel tahmincisinin düz bir ekilde genelle tirilmesidir. y ve x de!i kenlerinin f ( x, y ) eklindeki ortak yo!unlu!unun tahmin edilmek istendi!ini varsayal m; bu durumda kernel tahmincisi sadece iki aç dan de!i ecektir. lk olarak, K *( x, y ) eklindeki kernel’in çift de!i kenli bir yo!unluk fonksiyonu olarak tan mlanmas gerekir ve ikinci olarak 1/ hN gösterimindeki h yerini h 2 ile de!i ecektir. z = (Y , X 1 , X 2 ,..., X q ) = (Y , X ) , q + 1 boyutlu vektör, Y skaler ve X, 1× q boyutlu ba! ms z de!i ken vektörüdür. Z yo!unlu!unun Kernel tahmincisi, fˆ ( y, x) = fˆ ( z ) = z z 1 n K i q +1 " 1 nh i =1 h (3) zi , i.inci örnek gözlemi olan ( yi , xi ) noktas n ifade etmektedir. z ise z = ( y, x) sabit belirlenen noktad r. fˆ ( x) ’in marjinal Kernel tahmincisi; 1 fˆ1 ( x) = . fˆ ( x, y )dy = = 1 nh q n yi y xi x 1 n , K dy q +1 " . 1 nh i =1 h h xi "K x h i =1 (4) . Burada K ( x) = K1 ( y, x) dy ve . K ( x)dx = 1 ko ullar sa!lanmaktad r. De!i kenlerden birindeki de!i im di!erlerinden daha fazlaysa z deki bütün de!i kenler için tek bir h düzgünle tirme parametresinin kullan lmas uygun olmayabilir. Bu gibi durumlarda düzgünle tirme parametrelerine ait bir vektör ya da matrisin kullan lmas daha uygundur. Bu düzgünle tirme matrisiyle fˆ1 ( x) ’in marjinal Kernel tahmincisi; fˆ1 ( x) = ( n det( H ) ) 1 n " K (H i =1 1 ( xi x) ) (5) Burada H tekil olmayan kö egen elemanlar h j ,j.inci de!i kene ait düzgünle tirme parametresi de!erleri olan düzgünle tirme parametresi matrisi ve K (.) çok de!i kenli Kernel fonksiyonudur. H = hI ,, ij = h j 1 ( xij xj ) (6) Böylece verili x’e kar l k y’nin ko ullu olas l k fonksiyonu; 4 Nilanjana Roy “Nonparametric and Semiparametric Analysis of Panel Data Models: An Application to CalorieIncome Relation for Rural South India”, University of California Riverside, June, 1997 49 f ( y / x) = f ( x, y ) fˆ ( x) (7) 1 eklinde tan mlanabilir.5 Kernel matrisi olu turulduktan sonra uygun Kernel fonksiyonunun belirlenmesi gerekmektedir. ki boyut için en uygun Kernel’ler a a! daki gibidir: /3' 1 (1 xT x) 2 K 2 ( x) = 0 10 /4' 1 (1 xT x)3 K3 ( x) = 0 10 x T x < 1 ise diger durumlarda x T x < 1 ise diger durumlarda (8) Burada x birim kovaryans matrisine sahip olacak ekilde do!rusal dönü türülmü standartla t r lm de!i ken matrisidir6. , ij de!erleri bulunduktan sonra bu de!erler uygun oldu!u belirlenen Kernel ˆ ( x) tahmini elde edilir. fonksiyonunda yerine konularak m m( x) ’in E.K.K. çözümü, mˆ ( x) = (: 'NT K ( x):NT ) 1 : 'NT K ( x) y (9) Bu tahminci Nadaraya (1964) ve Watson(1964) Kernel regresyon tahmincisidir. Bu tahminci ortalama ya da düzgünle tirme sa!lar ve asl nda lokal sabit E.K.K tahmincisidir. Bu tahmini iki ba! ms z de!i ken olmas halinde (x ve z) a a! daki ekilde de ifade edebiliriz; N mˆ ( x, z ) = T "" K i =1 t =1 N T hix "" K i =1 t =1 ( xit hix xi ) K hiz ( zit ( xit zi ) yit xi ) K hiz ( zit zi ) (10) Burada hix ve hiz s ras yla x ve z ba! ms z de!i kenlerine ait i.inci birimlerin düzgünle tirme parametresi de!erleridir. Normal Kernel’in tercih edilmesi halinde formül; K hix ( xit xi ) = exp ( xit xi ) 2 /(2hix 2 ) hix 2' (11) eklinde hesaplanmaktad r.7 5 6 Adrian Pagan,Aman Ullah,a.g.e. s.58 B.W.Silverman, “Density Estimation for Statistics and Data Analysis”,Chapman & Hall/CRC,1998 s. 76 50 3. Uyumsuzluk (Discrepancy) Ölçüleri fˆ ’nin gerçek f yo!unluk fonksiyonuna yak nl ! n ölçmek için çe itli ölçüler geli tirilmi tir. Yo!unluk fonksiyonu tahminleri büyük ölçüde düzgünle tirme parametresinin seçimine ba!l oldu!undan Kernel fonksiyonlar için düzgünle tirme parametresinin seçimi teknikleri ortalama hata kareye (MSE) dayanmaktad r.8 Ortalama hata kare varyans ile sapma karesinin toplam na e it oldu!undan analizlerde kolayl k sa!lamaktad r. { } MSE ( fˆ ) = E fˆ ( x) f ( x) 2 (12) Ortalama ve varyans terimleriyle; { MSE ( fˆ ) = Efˆ ( x) } 2 f ( x) + var fˆ ( x) (13) Dolay s yla MSE x noktas ndaki sapma kareleri ve varyans n toplam na e ittir. Bu ölçü sapma ve varyans aras nda bir de!i -toku u ifade etmektedir. Düzgünle tirme parametresinin de!eri de!i tirilerek, varyansta bir miktar art pahas na sapma azalt labilir ya da tam tersi durum söz konusu olabilir. lk Rosenblatt(1956) taraf ndan kullan lan daha yayg n kullan m daha kolay bir ölçü olan ortalama birle ik hata karesi ölçüsü a a! daki gibidir: { MISE ( fˆ ) = E . fˆ ( x) } 2 f ( x) dx (14) 4. Düzgünle!tirme Parametresi Seçicisi Uygulamam zda kullan lan düzgünle tirme parametresi seçicisi Genelle tirilmi çapraz geçerlilik seçicisidir. Bu yöntem en küçük kareler seçicisinden türetilmi tir. Bu de!er ortalama hata kareyi minimum yapan düzgünle tirme parametresi de!erini bulur. MSEGCV (h) = 1 n(1 df h / n)2 "( n i =1 yi fˆh ( xi ) ) 2 (15) df h = iz ( H h ) tahminin serbestlik derecesini ifade etmektedir. H düzgünle tirme matrisinin kö egen de!erlerinin toplam bize serbestlik derecesini verir. Bir tahmincinin serbestlik derecesi ya da etkin parametre say s farkl düzgünle tiriciler aras nda kar la t rma yapmak için kullan labilir ve bir düzgünle tiricinin esnekli!i hakk nda bilgi verir. 7 Ait-Sahalia,Y.,A.W.Lo.,1998, “Nonparametric Estimation of State Price Densities Implicit in Financial Asset Prices”,Journal of Finance,53,499-547 8 Ebru Ça!layan, a.g.e. 51 5. Parametrik Olmayan Modellerin Testi Parametrik regresyon modellerinde k tane parametre tahmin edilirken, parametrik olmayan regresyon modellerinde çok say da parametre tahmin edilmektedir. Parametrik regresyon modellerinde tahmin edilen parametre say s k, parametrik olmayan modellerde H matrisinin izdü ümüne e ittir. Dolay s yla parametrik modellerde serbestlik derecesi ( n k ) iken parametrik olmayan modellerde serbestlik derecesi tr ( I H ) ’a e ittir. Parametrik olmayan regresyon modellerinde,parametrik regresyon modelinde oldu!u gibi belirli bir da! l m varsay m olmad ! ndan katsay lar n anlaml l ! t testi ya da benzeri bir test ile incelenemez. Ancak parametrik olmayan regresyon modelinin ba! ml de!i kendeki de!i meleri klasik regresyon modelinden daha iyi aç klay p aç klamad ! test edilebilir. Burada temel hipotez klasik, alternatif hipotez ise parametrik olmayan modelin ba! ml de!i kendeki de!i meleri daha iyi aç klad ! n , yani do!ru oldu!unu ifade etmektedir. 6. Uygulama Uygulamada ele al nan OECD ülkeleri: uygulamam zda kullan lan veri seti www.oecd.org/els/migration/imo kayna! ndan International Migration Outlook 2007 yay n ndan elde edilmi tir. Türkiye gibi baz OECD ülkelerinin göç verileri düzenlenmemi oldu!undan uygulamaya bu ülkeler dahil edilmemi ve 25 OECD ülkesiyle 1995-2006 dönemleri için çal lm t r. Çizelge 1. Uygulamaya Al nan OECD ülkeleri Almanya Avusturalya Avusturya Belçika Kanada Çek Cumhuriyeti Danimarka Finlandiya Fransa Yunanistan Macaristan rlanda talya Japonya Lüksemburg sveç Hollanda sviçre Norveç Amerika Polonya Yeni Zellanda Portekiz Slovakya spanya 5.1. Ele Al:nan DeGi#kenler Göç ara t rmalar uluslar aras göç üzerinde etkisi bulunan bir çok de!i ken ortaya koymu lard r. Bu de!i kenler göç alan ve göç veren ülkeler aras ndaki itici ve çekici faktörleri ortaya ç karan de!i kenler olabilirler. Haris ve Todaro (1970)’ya göre uluslar aras göçün en önemli belirleyicileri ki i ba na d en gelirdeki farkl l klar, i verme oran , ticaret, ileti im kaynaklar , etnik ve politik sorunlar ve kültürel engeller ve 52 akrabal k ili kileridir.9 Veri yetersizli!inden dolay bahsedilen bu bütün de!i kenleri modelimize dahil etmemiz mümkün de!ildir. Modelimize dahil etti!imiz de!i kenlerimiz a a! daki gibidir: Netmig: Ülkelerin mevcut do!al nüfus art ndan, gerçek nüfus art n n ç kar lmas yla elde edilen de!i ken. Dolay s yla bu de!erin pozitif veya negatif olmas bize sözkonusu ülkelerin göç durumlar yla ilgili bilgi verebilece!i gibi model içerisinde kullan lmas n n anlaml sonuçlar getirmesi beklenmektedir. Uerate: Modelimizde ba! ms z de!i ken olarak dahil edilen bu de!i ken önemli bir makro ekonomik gösterge olan i sizlik oran d r. Göçmen için çal ma arz ve talebi göç karar nda önemli faktörlerden biridir. Borjas (1994)’a göre bir ülkedeki yüksek i sizlik oranlar o ülkeden göçe sebep olan etkenlerden biridir.10 Gdprowth: Modelimizde bu k saltmayla yeralan ba! ms z de!i kenimiz ki i ba na dü en gayri safi milli has ladaki büyüme oran n ifade etmektedir. Borjas (1994)’a göre yüksek büyüme oranlar d göçü azaltmada önemli bir etkendir.11 5.2.Düzgünle#tirme Parametrelerinin Seçimi Uygulamam zda SAS/INSIGHT program , MATHCAD program ve Microsoft Office Excel Program kullan lm t r. Ülkelere ait düzgünle tirme parametreleri MSEGCV (h) genelle tirilmi çapraz geçerlilik tahmincisine göre belirlenmi tir. Bu düzgünle tirme parametreleri a a! daki çizelgede verildi!i gibidir: Çizelge 2. Düzgünle tirme Parametreleri OECD Ülkesi Almanya Avusturalya Avusturya Belçika Kanada Çek Cumhuriyeti Danimarka Finlandiya Fransa Yunanistan Macaristan rlanda talya h 0.4877 0.7973 0.4673 0.2392 0.4206 0.5343 0.5782 0.2637 0.2589 0.6019 0.1389 0.6622 0.5635 MSEGCV ( h) OECD Ülkesi 1.1031 0.7158 7.3646 0.4545 0.6990 1.4774 0.5965 0.0918 0.0326 0.5967 4.4012 10.6659 4.059 Japonya Lüksemburg Hollanda Norveç Polonya Portekiz Slovakya spanya sveç sviçre Amerika Yeni Zellanda h 0.2779 0.2633 0.3305 0.2337 0.1652 0.3972 0.0012 0.1214 0.3305 0.2779 0.2779 0.0198 MSEGCV (h) 0.5820 4.8784 3.2519 3.7827 0.3033 0.8051 0.0089 3.410 2.4665 18.8016 0.3685 23.7067 SAS/INSIGHT program nda ele al nan veri setine ili kin Kernel tahmini uygulan rken, düzgünle tirme parametresinin de!eri manuel olarak de!i tirilebilmektedir. Tekil bir de!i kene ili kin uygun bant geni li!i ya da düzgünle tirme parametresi : 9 Haris J.R.; Todaro M.P., “Migration, Unemployment and Development: a Two-sector Analysis”, American Economic Review, 60 (1970): 126-142 10 Borjas G.J., “The Economics of Migration”, Journal of Economic Literature, 32(1994):1667-1717 11 Borjas,G.J. a.g.e. 53 Bekil 2.SAS program nda tekil bir de!i kenin düzgünle tirme parametresinin belirlenmesi Burada c de!eri en üst ve en alt kartiller aras ndaki farkt r. h = n 1/ 5Qc olarak belirlenir. Birle tirilmi hata karesi ölçütüne göre uygun düzgünle tirme parametresi de!eri seçilir. Çok de!i kenli Kernel regresyon modeli tahmin edildi!inde uygun düzgünle tirme parametresi de!eri MSEGCV ( h) kriterine göre belirlenir ve c de!erinin de!i tirilmesiyle bu parametre de!eri de de!i ir ve görsel olarak da bu de!i imi öngörülen Kernel tahmin yüzeyinde görebiliriz. c de!erinin azalt lmas yla kartiller aras aral k küçültülmü olacak ve böylece h de!eri küçülerek daha küçük aral ktaki gözlemlerin daha çok tart almas na sebep olacakt r. Görsel olarak h de!eri küçüldükçe yo!unluk tahmini ekildeki gibi daha düzgünle memi - kaba bir görünüm alacakt r: Bekil 2.SAS program nda tekil bir birime ait Kernel Tahmin Yüzeyi Bu kriterlere göre düzgünle tirme parametreleri elde edildikten sonra bu de!erler ile NT × NT boyutlu (300 × 300) Kernel matrisi olu turulmu tur. Burada Excel program nda normal Kernel 54 fonksiyonu tan mlanarak Kernel tahmin de!erleri elde edilmi ard ndan bu tahmin de!erleriyle NT × 1 boyutlu ba! ml de!i kene ait gözlem vektörü çarp larak ba! ml de!i kene ait tahmin de!erleri elde edilmi tir. Elde edilen tahminlere ili kin serpilme diyagram a a! daki gibidir: 15 n e 10 t m i 5 g 0 0 5 10 15 netmigtahmin Modelin hata kareleri ortalamas :MSE: 131.4023’tür. tr ( I H ) =64,122 olarak hesaplanm t r. Bu de!erler kullan larak alternatif modellerle öngördü!ümüz model kar la t r labilir. 7. Sonuç ve öneriler Çal mam z n amac , temel makro ekonomik de!i kenlerin uluslararas göç trendi üzerindeki etkisini belirlemekti. Bu amaçla göç alan ve göç veren ülkelere ait net göç oranlar , i sizlik oran , ki i ba na gayri safi yurt içi has la (GDP)’daki art de!i kenleri kullan lm ; 1995-2006 periyodunda belirlenen ülkelerde ele al narak söz konusu veri üzerinde parametrik olmayan Nadaraya Watson Kernel tahmini uygulanm ve sonuçlar yorumlanm t r. Uygulama a amas nda sözkonusu yöntemle ilgili herhangi bir program yaz l m bulunmad ! ndan teoriye uygun ekilde ço!u analiz Excel program nda manuel olarak, formül tan mlayarak uygulanm t r. Parametrik olmayan yakla mlar ili kilerin fonksiyonel ekillerinin belirlenmesinde kolayl k sa!lamalar n n yan nda, dü ünülemeyen fonksiyonel ekillerin ortaya ç kar lmas nda da ara t rmac ya yard mc olmaktad r. Fonksiyonel ekil hakk ndaki bilgiye ya iktisadi teoriler yard m yla ya da daha önceki tecrübelerden yararlan larak ula labilmektedir. Fakat günümüz ko ullar nda iktisadi teori taraf ndan sa!lanan bilgiler çok aç klay c olamamakta ve yetersiz kalabilmektedir. Dolay s yla parametrik olmayan yöntemler parametrik yöntemlere göre daha avantajl d r. Önerimiz bu konuda yap lan çal malar n artt r lmas ve bir yaz l m program n n olu turulmas d r. Kaynaklar 55 [1] Adrian Pagan,Aman Ulah, “Nonparametric Econometrics”,Cambridge University Press, 1999 [2] Ait-Sahalia,Y.,A.W.Lo.,1998, “Nonparametric Estimation of State Price Densities Implicit in Financial Asset Prices”,Journal of Finance,53,499-547 [3] Badi H.Baltagi “Econometric Analysis of Panel Data”,John Wiley & Sons, 1995 [4] B.W.Silverman, “Density Estimation for Statistics and Data Analysis”,Chapman & Hall/CRC,1998 [5] Borjas G.J., “The Economics of Migration”, Journal of Economic Literature, 32(1994):1667-1717 [6] Daniel J.Henderson, Raymond J.Carroll, Qi Li, “Nonparametric Estimation and Testing of Fixed EffectsPanel Data Models”,Journal of Econometrics, 144, 2008 [7] Daniel J.Henderson, Aman Ulah, “A Nonparametric Random Effects Estimator”,Economics Letters 88, 2005 [8] Ebru, ÇAoLAYAN, “Yar parametrik Regresyon Modelleri ile Ya am boyu Sürekli Gelir Hipotezinin Türkiye Uygulamas ”, Dan man:Prof.Dr.Selahattin Güri , stanbul,2002 [9] Haris J.R.; Todaro M.P., “Migration, Unemployment and Development: a Two-sector Analysis”, American Economic Review, 60 (1970): 126-142 [10] Matyas, Laszlo and Sevestre, Patrick “The Econometrics of Panel Data, a Handbook of the Theory with Applications”, 2.th edition, Kluwer Academic Publishers, 1996 [11] Nilanjana Roy “Nonparametric and Semiparametric Analysis of Panel Data Models: An Application to Calorie- Income Relation for Rural South India”, University of California Riverside, June, 1997 [12] Peter Kenedy, “Ekonometri K lavuzu”,Gazi Kitapevi, 2006 [13] International Migration Institute - http://www.imi.ox.ac.uk/ [14] www.oecd.org/els/migration/imo 56 Hisse senedi piyasas çalkant lar için erken uyar sistemi: Türkiye örne<i Oya Can Mutan Ayhan Topcu Sermaye Piyasas: Kurulu Eski#ehir Yolu 8. km. No: 156 06530 Ankara, Türkiye oya.canmutan@spk.gov.tr Sermaye Piyasas: Kurulu Eski#ehir Yolu 8. km. No: 156 06530 Ankara, Türkiye ayhan.topcu@spk.gov.tr Özet Dünyada 19. yüzy:ldan bu yana etki alan: geni# ve maliyeti yüksek pek çok ekonomik kriz meydana gelmi#, piyasalar: tehdit eden ve derinden etkileyen bu durum ara#t:rmac:lar:n olduGu kadar piyasa aktörlerinin de ilgisini çekmi#tir. Yap:lan ara#t:rmalar ya#anan krizlerin önceden tahmin edilip edilemeyeceGi sorusunu ak:llara getirmi#, erken uyar: sistemleri (EWS- early warning system) geli#tirilmi#tir. Çal:#mada, bankac:l:k ve para krizleri için pek çok örneGi bulunan erken uyar: sistemlerini Türk hisse senedi piyasas: krizleri için geli#tirmek ve literatürde bu konuda mevcut olan bo#luGu kapatmak amaçlanm:#, bu baGlamda KLR (1998), FR (1996) modelleri uygulanm:#t:r. Kriz dönemlerini belirlemek için SMPI (stock market pressure index) endeksi olu#turulmu#, veriler 1998:01–2008:10 dönemlerini kapsayacak #ekilde temin edilmi#tir Anahtar sözcükler: hisse senedi piyasas: krizi, erken uyar: sistemi, SMPI Abstract Early warning system for the turmoil in stock markets: Turkish evidence Since 19th century so many financial crises that have widespread adverse effects have arisen and the existence and contagion ways of these crises have affected not only the researchers but also the policy makers, which brings into the question of whether an early warning system (EWS) can be implemented. In the literature there exist so many empirical studies on banking and currency crises. Since there are no EWS on stock market crises, in this study, we want to make a contribution by investigating the turmoil in Turkish stock markets. In order to correctly define the binary crisis variable, a “stock market pressure” index (SMPI) is created. The monthly data covers the period 1998:01-2008:10. The methods applied are KLR (1998), FR (1996). Key words: stock market crisis; early warning system; SMPI 1. Giri! Dünyada 19. yüzy ldan bu yana etki alan geni ve maliyeti yüksek pek çok ekonomik kriz meydana gelmi , piyasalar tehdit eden ve derinden etkileyen bu durum ara t rmac lar n geçmi ten günümüze oldukça ilgisini çekmi tir. Reel ve finansal sektördeki arz-talep çalkant lar , dünya piyasalar ndaki h zl ekonomik entegrasyon gibi ekonomik geli melerin yan s ra siyasi istikrars zl k ya da do!al afet gibi ekonomik olmayan geli melerin de krizlere neden oldu!u gözlenmi , krizlerin nedenleri ve i leyi leri ara t r lm t r (Aktan ve ren, 2002). 57 Yap lan ara t rmalar ya anan krizlerin önceden tahmin edilip edilemeyece!i sorusunu ak llara getirmi , ara t rmac lar kadar piyasa aktörlerinin de kulland ! erken uyar sistemleri (EWS- early warning system) geli tirilmi tir. Bu sistemler ADB (Asian Development Bank), ASEAN (Association of Southeast Asian Nations), BIS (Bank for International Settlements), ECB (European Central Bank), Fed (Federal Reserve Board of Governors) ve IMF’nin (International Monetary Fund) de aralar nda bulundu!u pek çok kurulu taraf ndan olas krizleri önceden tahmin etmekte kullan lmaktad r. Literatürde bankac l k krizi, para krizi ve ikisinin birle imi olan ikiz (twin) kriz hakk nda pek çok çal ma olmas na kar n, ampirik ara t rmalar n daha çok para krizi etraf nda yo!unla t ! görülmü tür. Bu durumun en önemli sebebi para krizlerinin bankac l k krizlerine göre daha s k gerçekle mesi olurken bir di!er sebebi de kriz dönemlerinin belirlenmesinde kullan lan endeksleri olu tururken ya anan sorunlard r. Yap lan çal malarda, para krizleri, döviz piyasas ndaki bask y ölçmekte kullan lan, kurdaki ve rezervlerdeki de!i imi dikkate alan EMP (exchange market pressure) endeksiyle tan mlanm , ancak bankac l k krizini do!ru tespit edecek tek bir endeks olu turman n güç oldu!una de!inilmi tir (Murshid, 2001). Bu çal ma ile para krizleri için pek çok örne!i bulunan erken uyar sistemlerini Türkiye hisse senedi piyasas krizleri için geli tirmek ve literatürde bu konuda mevcut olan bo lu!u kapatmak amaçlanm , bu ba!lamda Kaminsky, Lizondo ve Rienhart (1998) - KLR, Frankel ve Rose (1996) - FR modelleri uygulanm t r12. Kriz dönemlerinin belirlenmesinde MKB irketlerinin halka aç k bölümünün piyasa de!eri ve MKB 100 endeksindeki ayl k de!i imlerin dikkate al nd ! bir endeks (SMPI - stock market pressure index) olu turulmu tur. Veriler 1998:01–2008:10 dönemlerini kapsayacak ekilde temin edilmi , böylece, çal maya A!ustos 2007’de Amerika’da subprime mortgage krizi olarak ba layarak tüm dünyay etkisi alt na alan finansal türbulans da dahil edilmi tir. Kurulan ekonometrik modelin olabildi!ince güvenilir olmas için 15’i a k n de!i ken kullan lm t r. Çal man n geri kalan u ekilde düzenlenmi tir. Bölüm 2’de erken uyar sistemine ili kin yap lan literatür taramas k saca sunulmu tur. Bölüm 3’te çal mada kullan lan veri ve ekonometrik model hakk nda k sa bir bilgi verilmi ve ampirik sonuçlar sunulmu tur. Son olarak, Bölüm 4’te ise çal man n sonuçlar na de!inilmi tir. 2. Literatür Literatürde 1980’lerde Latin Amerika’da ya anan borç krizleri; 1992–1993 Avrupa döviz kuru mekanizmas krizi; 1994 Meksika; 1997–1998 Güney Do!u Asya; 1998 Rusya, Brezilya ve 2001 Türkiye, Arjantin krizlerine yönelik pek çok çal ma yer alm , her bir çal ma farkl sonuçlar ön plana ç karm t r (Kaya ve Y lmaz, 2006) . 1880–1997 y llar nda meydana gelen krizlerin maliyeti, neden olduklar olumsuz etkilerden ar nma süresi ve say s Bordo ve Eichengreen (2002)’de yer alm (bak n z Çizelge 1, 2, 3), bu durum güvenilir erken uyar sistemlerine olan ihtiyac gözler önüne sermi tir. Bu ba!lamda erken uyar sistemleri geli tirilmi ve bu sistemler kurulurken Kaminsky, Lizondo ve Rienhart (1998), Sachs, Tornell ve Velasco (1996), Frankel ve Rose (1996) taraf ndan geli tirilen üç temel yakla m izlenmi tir. 12 Sachs, Tornell ve Velasco (1996) taraf ndan geli tirilen ve literatürde ülkeler aras nda kar la t rma yaparken s kl kla kullan lan STV modeli gelecek çal malar n konusunu olu turmaktad r. 58 Çizelge 1. Küresel krizlerin GSY H’nin yüzdesi cinsinden maliyetleri Tüm krizler Tüm ülkeler Geli mi ülkeler Geli mekte olan ülkeler 18801914 9.76 1919-1939 1945-1971 1973-1997 13.42 5.24 8.29 7.68 12.29 2.39 6.25 10.37 16.46 8.60 9.21 Kaynak: Bordo ve Eichengreen (2002) Çizelge 2. Küresel krizlerin neden olduklar olumsuz etkilerden ar nma süresi (y l)* Tüm krizler 1880- 1919-1939 1945-1971 1973-1997 Tüm ülkeler Geli mi ülkeler 2.35 (1.62) 2.71 (1.25) 2.35 (1.67) 2.26 (1.65) 1.78 (1.16) 1.60 (1.19) 2.64 (2.15) 2.84 (2.40) Geli mekte olan ülkeler 2.25 (1.73) 2.62 (1.76) 2.00 (1.12) 2.09 (1.14) Kaynak: Bordo ve Eichengreen (2002)* Hesaplamalar 21 ülke için yap,lm, t,r. Parentez içindeki rakamlar standart sapma de/erleridir. Çizelge 3. Kriz say s Geli mi Ülkeler Geli mekte Olan Ülkeler Y%llar Bankac%l%k Krizi Para Krizi )kiz Kriz 1880-1913 1919-1939 4 11 2 13 1 12 1945-1971 0 21 0 1973-1997 9 29 6 1880-1913 11 6 8 1919-1939 7 3 3 1945-1971 0 16 1 1973-1997 17 57 21 Kaynak: Bordo ve Eichengreen (2002) Krizlerin önceden tahmin edilebilirli!i üzerine analizler yap lm ; aralar nda d ticaret dengesi, i sizlik oran , enflasyon, büyüme ve politik istikrars zl ! n da yer ald ! pek çok de!i ken de!erlendirilerek krizleri aç klamada öncü gösterge aray na gidilmi tir. Bak n z Karaçor ve Alptekin (2006), Kittelmann vd. (2006), Racaru vd. (2006), Kamin, Schindler ve Samuel (2001), Aziz, Caramazza ve Salgado (2000), Bruggemann ve Linne (2000), Bussiere ve Mulder (1999), Kaminsky vd. (1998). Çal malarda genelde hem geli mi hem de geli mekte olan ülkeler incelenirken Kamin, Schindler ve Samuel (2001) ve Nag ve Mitra (1999)’n n yaln zca geli mekte olan ülkeler üzerinde yo!unla t ! görülmü tür. 3. Analiz 3.1. Veriler Türkiye hisse senedi piyasalar ndaki çalkant lar için erken uyar sistemi kurulurken bu piyasalar n makroekonomik ve finansal de!i imlere kar çok hassas oldu!u göz önüne al nm , ekonominin 59 mümkün oldu!unca geni bir k sm çal maya dahil edilmek istenmi , bu ba!lamda öncü olabilece!i dü ünülen de!i kenler 1998:01–2008:10 dönemlerini kapsayacak ekilde incelenmi tir. Çal ma kapsam nda kullan lan de!i kenler ve sembolleri: • • • • • • • • • • • • • • • • • MKB ( stanbul Menkul K ymetler Borsas ) 100 endeksi (imkb100), MKB irketlerinin halka aç k bölümünün piyasa de!eri (pd), MKB irketlerinin halka aç k bölümünün piyasa de!erinde yabanc yat r mc lar n pay (yyo), Yat r m fonlar n n ortalama vadesi (yfv), Fiyat kazanç oran (fk), EMBI (emerging markets bond index), Brent petrolünün varil fiyat (bp), Reel efektif döviz kuru (redk), Sanayi üretim endeksi (san), Cari i lemler dengesi (cid), D ticaret dengesi (dtd), 1994 baz y ll TÜFE (tüketici fiyatlar endeksi) (enf), Bankalar mevduat toplam (mev), Brüt uluslararas rezervler (br) Para arz M2’nin brüt uluslararas rezervlere oran (m2/br), K sa vadeli d borçlar n brüt uluslararas rezervlere oran (db/br), Kamu kesimi borçlanma gere!i (kkbg). MKB, MKK (Merkezi Kay t Kurulu u), Reuters, SPK (Sermaye Piyasas Kurulu), TCMB (Türkiye Cumhuriyet Merkez Bankas )’den temin edilen de!i kenlerin analizlerde ayl k yüzde de!i imleri kullan lm t r. 3.2. Yöntem ve Ampirik Sonuçlar Çal mada, hisse senedi piyasas krizi öngörüsünde KLR sinyal yakla m ve FR probit modeli esas al nm , her iki yakla mda da kriz dönemlerini belirlemek için MKB irketlerinin halka aç k bölümünün piyasa de!eri ve MKB 100 endeksindeki ayl k de!i imlerin dikkate al nd ! bir endeks olu turulmu ve bu endekse hisse senedi piyasalar: bask: endeksi (SMPI) ad verilmi tir. Endeks, her iki de!i kenin ayl k de!i imlerinin a! rl kl ortalamas al narak ve a! rl kland r lm de!i kenlerin varyanslar e it olacak ekilde hesaplanm t r. Endeksin belirli bir e ik de!erini (ortalama–1.5*standart sapma13; Kaya ve Y lmaz, 2006) a t ! dönemler hisse senedi piyasalar krizi olarak kabul edilmi tir. Daha sonra, SMPI kullan larak ikili (binary) de!i ken olu turulmu , bu de!i ken bulundu!u dönemi takip eden 12 ay içerisinde kriz varsa 1, yoksa 0 de!erini alm t r. Mevcut çal malar içerisinde ikili de!i ken olu turulurken esas al nan periyodun 12 ila 24 ay aras nda de!i im gösterdi!i görülmü tür (Kittelmann (2006), Komulainen ve Lukkarila (2003) ilgili periyodu 12 ay olarak alm t r). rekil 1’de SMPI ve e ik de!eri sunulmu tur. 13 Literatürde e ik de!er olu turulurken farkl yakla mlar benimsenmi , ortalamadan 1.5–3.0 standart sapmal k oynamalar dikkate al nm t r. 60 80 60 40 smpi e"ik 20 0 Oca.08 Mar.07 May.06 Tem.05 Eyl.04 Kas.03 Oca.03 Mar.02 May.01 Tem.00 Eyl.99 Kas.98 Oca.98 -20 -40 Bekil 1: SMPI ve e ik de!eri rekil 1’de görüldü!ü üzere hisse senedi piyasalar nda A!ustos-Eylül 1998, Kas m 2000, Eylül 2001, Ekim 2008 dönemlerinde kriz ya anm t r. A!ustos-Eylül 1998 döneminde görülen kriz 1997–1998 Güney Do!u Asya krizi ile ili kilendirilmi tir. Do!u Asya ülkelerinde 1997 y l itibariyle ba layan mali ve ekonomik kriz, hemen sonras nda Rusya’da ya anan kriz ile birlikte tüm dünyay etkisi alt na alm , bu etkiden daha çok içerisinde Türkiye’nin de bulundu!u geli mekte olan ülkeler nasiplenmi , geli mekte olan piyasalara yönelen d sermaye tercihini daha güvenli limanlara kayd rm t r. Kas m 2000’de hisse senedi piyasalar nda ya anan krize bankac l k sektöründe ya anan çalkant lar neden olmu tur. Bu dönemde bankac l k kesimine getirilen yeni düzenlemeler bankalar aç k pozisyonlar n kapatmaya ve likiditelerini artt rmaya yöneltmi , bu durum da faizlerin yükselmesine neden olmu tur. Artma e!ilimde olan faizleri bir tehdit olarak alg layan yabanc yat r mc lar ise yat r mlar n Türkiye’den h zla ç karm , bunun sonucunda yerli bankalar daha fazla yük alt nda kalm ve de faizler daha da t rmanm t r. Interbank piyasas ndaki gecelik faizler Kas m ay nda ortalama % 72; Aral k ay nda ise ortalama % 224 dolaylar nda seyretmi , hem mali hem reel kesimi etkileyen bu olumsuz geli meler hisse senedi piyasalar nda fazlas yla hissedilmi tir (E!ilmez, 2001). Eylül 2001’de Türkiye hisse senedi piyasalar n n ya anan rubat 2001 mali krizinin de etkileri ile krize girdi!i görülmü tür. Kamu, mali ve reel sektör üzerindeki derin olumsuz etkileri nedeniyle cumhuriyet tarihinin en derin ekonomik krizi olarak adland r lan rubat 2001 krizinin etkilerinden kurtulmak uluslararas piyasalara entegre olmay gerektirmi , bu ba!lamda yabanc do!rudan yat r mlar n artt r lmas na yönelik olarak yeniden yap lanma ihtiyac ortaya ç km ; reel sektör firma bilançolar n uluslararas muhasebe standartlar ile uyumlu hale getirmek ve gerekli vergi düzenlemelerini yapmak için çal malara ba lanm t r (Erdönmez, 2003). Ekim 2008’de ise A!ustos 2007’de Amerika’da subprime mortgage krizi olarak ba layan finansal türbulans iyice yo!unla arak tüm dünyay etkilemi , bu durumdan Türkiye hisse senedi piyasalar da nasibini alm t r. KLR Sinyal Yakla#:m: Kaminsky, Lizondo ve Reinhart (1998)’ n sinyal yakla m nda krizin öncü göstergesi olarak dü ünülen de!i kenlerin her biri için belirli bir e ik de!er hesaplanmaktad r. De!i kenlerin e ik de!eri 61 geçmesi kriz sinyali olarak kabul edilmekte ve takip eden 12 ay içerisinde kriz ya anaca! na i aret etmektedir. De!i kenlerin performans a a! daki matrisle de!erlendirilmektedir. Matriste A ve D, de!i kenlerin do!ru uyar verdi!i ay say lar n , B yanl sinyal verdi!i ay say s n (kriz yokken sinyal verilmesi), C ise kriz dönemleri için sinyal verilmeyen ay say s n (kriz varken sinyal verilmemesi) göstermektedir. S f r hipotezinin “takip eden 12 ay içerisinde kriz olmayacak” olmas durumunda B’deki gözlemler 1. tip hatay , C’deki gözlemler de 2. tip hatay temsil etmektedir. De!i kenler için e ik de!eri hesaplan rken B/A (noise-to-signal) oran n n minimize edilmesi esas al nmaktad r (Berg ve Pattillo, 1999). Takip eden 12 ay içerisinde kriz Takip eden 12 ay içerisinde kriz var14 yok Sinyal var A B Sinyal yok C D KLR sinyal yakla m na göre çal mada kullan lan 15 de!i kenin performans Çizelge 4’te verilmi tir. Çizelge 4. De!i kenlerin performans P(sinyal|kriz) A/(A+C) P(sinyal|kriz yok) B/(B+D) (1) (2) kötü sinyallerin iyi sinyallere oran P(kriz|sinyal) [B/(B+D)]/[A/(A +C)] (4) A/(A+B) (3) bp br cid db/br dtd embi enf fk kkbg m2/br mev redk san yfv yyo 0.16 0.12 0.09 0.14 0.02 0.09 0.19 0.07 0.19 0.21 0.00 0.16 0.00 0.23 0.23 0.14 0.00 0.14 0.08 0.03 0.01 0.08 0.03 0.06 0.06 0.10 0.07 0.02 0.06 0.06 0.85 0.00 1.48 0.58 1.48 0.12 0.43 0.49 0.31 0.27 0.42 0.25 0.25 0.37 1.00 0.25 0.46 0.25 0.80 0.53 0.50 0.62 0.64 0.00 0.54 0.00 0.67 0.67 Çizelge 4’te 1. sütun kriz varken sinyal verilme olas l ! n göstermekte ve bu oran n yüksek olmas istenmektedir. Buna göre performans en iyi olan göstergeler kamu kesimi borçlanma gere!i, m2’nin brüt uluslararas rezervlere oran , yat r m fonlar n n ortalama vadesi ve yabanc yat r mc oran d r. Sütun 2 ise kriz yokken sinyal verilme olas l ! olup, göstergelerde bu oran n dü ük ç kmas beklenmektedir. Bu oran için en iyi performans gösteren de!i kenler uluslararas brüt rezervler, EMBI ve sanayi üretim endeksidir. 3. sütun kötü sinyallerin iyi sinyallere oran olup bu oran n en dü ük 14 Literatürde de!i kenler için kriz öngörüsü 12 ila 24 ay aras nda de!i im göstermektedir. Kittelmann (2006), Komulainen ve Lukkarila (2003) ise bu periyodu 12 ay olarak kabul etmi lerdir. 62 oldu!u de!i kenler uluslararas brüt rezervler, yat r m fonlar n n ortalama vadesi, EMBI ve yabanc yat r mc oran d r. 4. sütunda ise göstergelerin krizi öngörme olas l ! verilmekte ve performans en iyi olan göstergelerin kamu kesimi borçlanma gere!i, m2’nin brüt uluslararas rezervlere oran , yat r m fonlar n n ortalama vadesi ve yabanc yat r mc oran oldu!u görülmektedir. Ancak, burada dikkat edilmesi gereken nokta en iyi öncü göstergelere karar verirken tüm oranlar n n de!erlendirilmesi gerekti!idir. Kriz öncesi ve kriz dönemlerinde, kamu kesimi borçlanma gere!inde önemli art lar ya an rken yat r m fonlar n n ortalama vadesi ve yabanc yat r mc oranlar nda önemli dü ü ler ya and ! yads namaz bir gerçektir. Bu durumda en ba ar l öncü göstergelerin kamu kesimi borçlanma gere!i, m2’nin brüt uluslararas rezervlere oran , yat r m fonlar n n ortalama vadesi, yabanc yat r mc oran oldu!u söylenebilir. Çizelge 5. En ba ar l öncü göstergelerin ortalama öncü sinyal verme zaman (ay) En ba!ar l öncü göstergeler m2/br yyo yfv kkbg ortalama 8 6 4 2.4 Çizelge 5’te en ba ar l öncü göstergelerin ortalama öncü sinyal verme zaman verilmektedir. Buna göre, yabanc yat r mc oran nda krizden ortalama 6 ay önce, yat r m fonlar n n ortalama vadesinde ise krizden ortalama 4 ay önce dü ü ler ya and ! görülmektedir. FR Probit Modeli Erken uyar sistemi kurulurken s kl kla yararlan lan bir di!er model de Frankel ve Rose (1996) taraf ndan geli tirilen FR probit modelidir. Bu yöntem ile probit regresyon tekni!i kullanarak ilgili piyasan n takip eden 12 ay içerisinde krize maruz kalma olas l ! , ve bu olas l k için kaç r lan kriz ve yanl alarm say s n minimize eden bir e ik de!eri hesaplanmaktad r. Türkiye hisse senedi piyasalar ndaki çalkant lar için çal mada, probit regresyon tekni!i uygulan rken KLR yönteminde de kullan lan 15 ba! ms z de!i ken incelenmi , ancak modele analiz edilmeye uygun, çoklu ba!lant (multicollinearity) problemine yol açmayan ve istatistiksel olarak anlaml katk sa!layan de!i kenler kat lm t r. Varsay mlar kontrol edilmi modelin sonuçlar Çizelge 6’da verilmektedir. Çizelge 6. FR probit modeli sonuçlar Metod: En çok olabilirlik – kili Probit Örneklem: 1998:01-2008:10 Gözlem say s : 130 De!i ken Sabit enf yfv yyo kkbg bp Katsay Std. Sapma -1.260736 0.250586 -0.025166 -0.077490 0.050811 -0.032153 0.256701 0.074791 0.008966 0.030872 0.014167 0.015156 63 z-istatisti!i p-de!eri -4.911301 3.350462 -2.806870 -2.510082 3.586524 -2.121509 0.0000 0.0008 0.0050 0.0121 0.0003 0.0339 LR istatisti!i p-de!eri (LR) McFadden R2 59.95294 1.24E-11 Ba! ml de!i ken =0 say s 87 0.363290 Ba! ml de!i ken=1 say s 43 Çizelge 6’ya göre kurulan modelde tüm katsay lar n istatistiksel olarak anlaml oldu!u görülmü , modelin aç klay c l ! McFadden R2’ye göre 0.36 oran nda15 gerçekle mi tir. Enflasyon, kamu kesimi borçlanma gere!indeki art n ve yabanc yat r mc oran , yat r m fonlar n n ortalama vadesi, petrol fiyatlar ndaki azal n da kriz olas l ! n artt r c yönde etki etti!i görülmü tür. rekil 2’de probit modelinden elde olas l klar ve e ik de!eri sunulmaktad r. 1 0.9 0.8 0.7 0.6 kriz_oncesi kriz olas-l-.e"ik de.er 0.5 0.4 0.3 0.2 0.1 0 Eyl.08 Oca.08 May.08 Eyl.07 Oca.07 May.07 Eyl.06 Oca.06 May.06 Eyl.05 Oca.05 May.05 Eyl.04 Oca.04 May.04 Eyl.03 Oca.03 May.03 Eyl.02 Oca.02 May.02 Eyl.01 Oca.01 May.01 Eyl.00 Oca.00 May.00 Eyl.99 Oca.99 May.99 Eyl.98 Oca.98 May.98 Bekil 2. FR probit modelinden elde edilen kriz olas l klar rekil 2’de k rm z çizgi olas l klar için hesaplanan e ik de!erini, gri alanlar ise kriz ve öncesi 12 ayl k dönemi göstermektedir. Buna göre modelden elde edilen olas l klar n gri dönemlerde zaman zaman azalmakla birlikte genel olarak art içinde oldu!u görülmektedir. E i!i geçen olas l klar Mart 1999 d nda gri alanlarla e le mektedir. 15 Bu oran çok yüksek gibi görünmese de literatürde özellikle krize ili kin finansal modeller için yüksek kabul edilmektedir. 64 4. Sonuç Türkiye hisse senedi piyasalar ndaki çalkant lar için erken uyar sistemi kurmay amaçlayan bu çal mada, para krizlerinin önceden tahmininde kullan lan KLR sinyal yakla m ve FR probit modeli incelenmi tir. Kriz dönemlerinin belirlenmesinde MKB irketlerinin halka aç k bölümünün piyasa de!eri ve MKB 100 endeksindeki ayl k de!i imlerin dikkate al nd ! bir endeks olu turulmu (SMPI), daha sonra bu endeks ikili ba! ml de!i kenin olu turulmas nda kullan lm t r. Her iki yöntemde de 1998:01–2008:10 dönemi için ekonominin mümkün oldu!unca geni bir k sm n kapsayan makroekonomik ve finansal 15 gösterge kullan lm t r. De!i ken baz nda performanslar n incelendi!i KLR sinyal yakla m nda en ba ar l öncü göstergelerin kamu kesimi borçlanma gere!i, m2’nin brüt uluslararas rezervlere oran , yat r m fonlar n n ortalama vadesi, yabanc yat r mc oran oldu!u görülmü tür. Piyasan n takip eden 12 ay içerisinde krize maruz kalma olas l ! n n hesapland ! FR probit regresyon modelinde ise enflasyon, kamu kesimi borçlanma gere!i, yabanc yat r mc oran , yat r m fonlar n n ortalama vadesi ve petrol fiyatlar anlaml aç klay c de!i kenler olarak tespit edilmi tir. Her iki yakla mda da kamu kesimi borçlanma gere!i, yat r m fonlar n n ortalama vadesi ve yabanc yat r mc oran öne ç km t r. FR modeline göre içinde bulundu!umuz dönem kriz dönemine i aret etmekte, piyasalarda ya anan çalkant lar da bu sonucu do!rulamaktad r. Ancak, erken uyar sistemlerinin önemi kriz dönemlerinin aksine piyasalar n n olumlu oldu!u dönemlerde artmaktad r. Kriz için Aktan ve ren (2002)’de “ani ve beklenmedik bir anda ortaya ç kan olumsuz geli meler” tan m yap lmakla birlikte baz öncü göstergelerin çalkant lardan daha önce sinyal verdi!i göz ard edilmemelidir. Nitekim FR modeline göre Ekim-Kas m-Aral k 2007’de takip eden 12 ay içerisinde kriz olma olas l ! s ras yla 0.86; 0.99; 1.00 olarak hesaplanm t r. çinde bulundu!umuz kriz dönemi ve ya ananlar dikkate al nd ! nda, erken uyar sistemlerinin önemi bir kez daha ortaya ç kmaktad r. Kaynaklar [1] Aktan, C. C., ren, H. (2002), Ekonomik Kriz: Nedenler ve Çözüm Önerileri, Yeni Türkiye Dergisi Kriz Özel Say:s:, Cilt: II, Say : 42: 1225-1230. [2] Aziz, J., Caramazza, F., Salgado, R. (2000), Currency Crises: In Search of Common Elements, IMF Working Paper, 00/67. [3] Berg, A., Pattillo, C. (1999), Are Currency Crisis Predictable? A Test, IMF Staff Papers, Vol 46, No.2 [4] Bordo, M.D., Eichengreen B. (2002), Crises Now and Then: What Lessons from the Last Era of Financial Globalization?, National Bureau of Econom:c Research Working Paper 8716. [5] Bruggemann, A., Linne, T. (2000), Are the Central and Eastern European Transition Countries Stil Vulnerable to a Financial Crisis? Results From the Signal Approach, Bank of Finland Institute For Economies in Transition Discussion Paper. [6] Bussiere, M., Mulder, C. (1999), Political Instability and Economic Vulnerability, IMF Working Paper 99/46. [7] E!ilmez, M. (2001), Kas m 2000 Krizi Üzerine. http://www.mahfiegilmez.nom.tr/kose_1.htm, 18.07.2007. [8] Erdönmez, P. A. (2003), Türkiye’de 2001 Y l ndaki Mali Kriz Sonras nda Kurumsal Sektörde Yeniden Yap land rma, Türkiye Bankalar BirliGi Bankac:lar Dergisi, Say 47. [9] Frankel, J., Rose, A. (1996), Currency Crashes in Emerging Markets: An Emprical Treatment, Journal of International Economies, Vol 41: 351-366. [10] Kamin, S., Schindler, J., Samuel, S. (2001), The Contrubitions of Domestic and External Factors to Emerging Market Devaluation Crises: An Early Warning System Approach, Board of Governers of The Federal Reserve System, International Finance Discussion Paper, No:711. [11] Kaminsky, G., Lizondo, S., Rienhart, C. M. (1998), Leading Indicators of Currency Crisis, IMF Staff Papers, Vol 45, No. 1. [12] Karaçor, Z., Alptekin, V. (2006), Finansal Krizlerin Önceden Tahmin Yoluyla De!erlendirilmesi: Türkiye Örne!i, Yönetim ve Ekonomi, 13(2). 65 [13] Kaya, V., Y lmaz, Ö. (2006), Para Krizleri Öngörüsünde Sinyal Yakla m : Türkiye Örne!i, 1990-2002. Ankara Üniversitesi SBF Dergisi, 61-2, 129-155. [14] Kittelmann, K., Tirpak, M., Schweickert, R., Souza, L. V. (2006), From Transition Crises to Macroeconomic Stability? Lessons from a Crises Early Warning System for Eastern European and CIS Countries, The Kiel Institute for the World Economy Working Paper, No. 1269. [15] Komulainen, T., Lukkarila, J. (2003), What Drives Financial Crises in Emerging Markets?, Bank of Finland Transition Economies BOFIT Discussion Papers No. 5/2003. [16] Murshid, A. P. (2001), Echoes From the Past: Are Global Financial Crises Reasserting Themselves? North American Econometric Society Meetings Presentation, University of Maryland. [17] Nag, A., Amit, M. (1999), Neural Networks and Eary Warning Indicators of Currency Crisis, Reserve Bank of India Occasional Papers 20 (2). [18] Racaru, I., Copaciu, M, Lapteacru I. (2006), Early Warning Systems on Currency Crises, National Bank of Romania Occasional Papers No. 5. [19] Sachs, J., Tornell, A., Velasco, A. (1996), Financial Crisis in Emerging Markets: The Lessons from 1995, NBER Working Paper, WP/5576. 66 stanbul ve Erzurum illeri için ya! serileri ile s cakl k serilerinin modellenmesi ve kestirimin kar la t r lmas Di!dem BAYLAM Gazi Üniversitesi Fen-Edebiyat Fakültesi statistik Bölümü Ankara, Türkiye Özet stanbul ve Erzurum illeri için 1930-2006 y:llar: aras:nda ayl:k maksimum ve toplam yaG:# miktar: serilerinin modellenmesi ve kestirimi yap:lm:#t:r. Modellenme ve kestirim, hem seriyi bir bütün olarak hem de y:llar itibariyle ayn: aylara ili#kin serileri dikkate al:narak yap:lm:# ve elde edilen sonuçlara göre hangi serinin daha iyi kestirim yapt:G:na bak:lm:#t:r. Daha önce yap:lan çal:#madaki ayl:k minimum, maksimum ve ortalama s:cakl:k serileri ile birlikte sonuçlar kar#:la#t:r:lm:#t:r. Anahtar Kelimeler: Zaman serileri, SARIMA modelleri, kestirim, ya%&' miktarlar& verileri. Abstract For stanbul and Erzurum counties reference of modelling and forecasting of rain series and temerature series. Monthly maximum and sum rainfall series between 1930-2006 years of Istanbul and Erzurum are modeled and forecasted with using time domain methods. Modelling and forecasting, made both en bloc taking in series and series about same months considering years considering and refered by having results which series making better forecasting. In anterior study results collated with montly minimum, maximum and average temperature series. Key words: Time series, SARIMA models, forecasting, rain datas. 1. Giri! Küresel s nma canl lar taraf ndan atmosfere verilen gazlar n sera etkisi yaratmas sonucunda, dünya atmosferi ve okyanuslar n n ortalama s cakl klar nda belirlenen art a verilen isimdir. Küresel s nma ile ilgili farkl aç lardan al narak de!i ik çal malar yap lm t r. Bunlardan biri, Türke , Sümer ve Çetiner’in “Küresel klim De!i ikli!i ve Olas Etkileri” makalesinde, sera gazlar ile ilgili bilgi vererek iklime etkisinin ara t r lmas yap lm t r. Bunlar n sonucu olarak önümüzde y llarda hangi tür tehlikelerle ba ba a kal naca! hakk nda bilgi vermi tir [6]. 67 Kad o!lu, Öztürk, Erdun ve ren’in “On The Precipitation Climatology of Turkey by Harmonic Analysis” makalesinde, temel harmonik analiz kullan larak s cakl k verileri iklimsel modeller hakk nda bilgi verir [3]. Türke , Sümer, ve Çetiner, “Türkiye Ya! lar nda Israr ve Dönemsellik” makalesinde, küresel s nman n etkisiyle Türkiye’deki ya! miktarlar na göre hem hangi dönemlerde ne kadar ya!d ! hakk nda bilgi verir hem de dönemlerini belirlemede yol gösterir [5]. Türke ’in “El Nino-Güneyli Sal n m ekstremleri ve Türkiye’deki Ya! Anomalileri le li kileri” makalesinde, El Nino-Güneyli Sal n m’ n ya! miktarlar üzerindeki etkisi hakk nda bilgi verir [4]. Türke , Sümer ve K l ç’ n “Türkiye Ya! lar nda Periyodiklik ve 500 hPa Jeopotansiyel Yükseklik De!i imleri le Ba!lant s ” makalesinde, Türkiye’deki 91 istasyonun y ll k ve mevsimlik normalle tirilmi ya! anomalisi dizilerindeki rasgele olmama bile enlerinden srar ve dönemsellik incelenmi tir [7]. Bu çal mada amaç, Ocak 1930-Aral k 2006 y llar na ait ayl k maksimum ve toplam ya! miktarlar verilerini ve y llar itibariyle ayn aylara ili kin serileri kullanarak her birine ait en iyi zaman dizisi modellerini tahmin edip 2007 y l na ait verilerin en iyi kestirim de!erlerini bulmakt r. 2. Metedoloji Burada ele al nan verilere Mevsimsel Otoregresif Tamamlanm Hareketli Ortalamalar (SARIMA) modelleri ve kestirimi özetle verilecektir. Do!rusal zaman dizileri, dura!an ve dura!an olmayan zaman dizileri olarak ele al n rlar. Dura!an modeller, Otoregresif [AR(p)] modeli, Hareketli Ortalamalar [MA(q)] modeli ve Otoregresif-Hareketli Ortamalar [ARMA(p, q)] modeli olarak bilinir [2]. Otoregresif (AR) modeli, bir zaman dizisi ve onun önceki dönemleri cinsinden ifade edilmesiyle olu ur. AR modelinde kapsad ! dönem say s na göre derece al r. p. dereceden Otoregresif AR(p) modeli teorik olarak Z t = 1 Z t 1 + 2 Z t 2 + ... + p Z t p + At (1) eklinde gösterilir. AR modeli her zaman tersi al nabilirdir, fakat dura!anl k ko ulu polinomunun ( B ) = (1 köklerinin 1 B ... p B p ) birim çemberin d nda olmas yla sa!lan r. ( B) = 0 Burada eklindedir. Hareketli Ortalamalar (MA) modeli, zaman dizisinin ayn dönemdeki hata terimi ve ondan önceki hata terimleri cinsinden tan mlanan modeldir. MA modelinde kapsad ! geçmi dönem hata terimi say s na göre derece al r. q. dereceden Hareketli Ortalamalar [MA(q)] modeli teorik olarak Z t = At 1 At 1 ... q At q (2) eklinde gösterilir. MA modeli her zaman dura!and r, fakat tersinirlik ko ulu köklerinin birim çemberin d nda olmas yla sa!lan r. Burada ( B) = 0 ( B ) = (1 1 polinomunun B ... q Bq ) eklindedir. Otoregresif-Hareketli Ortamalar [ARMA(p, q)] modeli, veriye ait zaman ve hata dizilerinin onlardan önceki belirli say da de!erler ile ifade edilir. Otoregresif-Hareketli Ortamalar [ARMA(p, q)] modeli teorik olarak Z t = 1 Z t 1 + 2 Z t 2 + ... + p Z t p + At 1 At 1 ... q At q (3) eklinde gösterilir. ARMA modeli için dura!anl k ve tersinirlik ko ulu ( B) = 0 ve ( B) = 0 polinomlar n n köklerinin birim çemberin d nda olmas yla sa!lan r. Dura!an olmayan zaman dizilerinde dura!an d l k, ortalama üzerinde ve varyans veya kovaryans üzerinde söz konusudur. Zaman dizisi ortalamada dura!an de!ilse, dizinin uygun derecede farklar al narak dura!anl k sa!lanabilir. Varyansda dura!an olmayan bir zaman dizisi için varyans düzgünle tirme dönü ümleri kullan l r. Varyans düzgünle tirme için güç fonksiyonu olarak ifade edilen Box-Cox dönü ümü uygulan r. Otoregresif-Tamamlanm -Hareketli Ortalamalar 68 [ARIMA(p,d,q)] modeli, belirli dura!anl k dönü ümleri yap lan dizilere uygulanan AR ve MA modellerinin bir karmas olan modelleridir. Mevsimsel zaman dizileri,do!al ve sosyal nedenler sonucu ortaya ç kan ve belli zaman aral klar nda düzenli olarak tekrar eden dalgalanmalar içeren dizilerdir. Mevsimsel otoregresif tamamlanm hareketli ortalamalar [ SARIMA ( p, d , q ) × ( P, D, Q ) s ] modeli teorik olarak 3 ( Bs ) ( B ) (1 B s ) (1 B ) Z t = 4 ( B s ) D d ( B ) At (4) eklinde gösterilir. Burada s mevsimsel dalgalar n dalga uzunluklar d r [2.8]. Kestirim yöntemleri olarak en küçük ortalama kareler kestirimleri yöntemi kullan l r. Kestirim ayr ca, dönem uzunlu!una göre en iyi modelin bulunmas nda da kullan lan bir araç olarak dü ünülebilir. Zaman dizilerinde modelleme i leminden sonra veri için gelecekle ilgili de!erlerin tahmin edilmesi önemli bir yer te kil eder. 3. Veri ve analizler 3.1. Veri Bu bildiride Devlet Meteoroloji Müdürlü!ü’nden Ocak 1930-Aral k 2006 y llar na ait stanbul ve Erzurum için ayl k maksimum ve toplam ya! miktarlar verileri ele al nd . Bu verilerin orijinal grafikleri a a! dad r: ISTANBUL MAKSIMUM YAGIÞ MIKTARI 100 80 60 40 20 0 04 20 N 00 J U 20 6 L 99 JU 1 2 G 9 AU 19 8 P 8 SE 19 4 CT 98 O V1 0 O 98 N 1 7 EC 7 D 19 3 N 7 JA 1 9 9 B 96 FE R 1 5 A 6 M 19 1 R 6 AP 19 7 AY 5 M 19 3 N 5 J U 19 L 949 JU 1 5 G 4 AU 19 1 P 4 SE T 19 7 C 93 O V1 3 O 3 N 19 0 C 3 DE 19 N JA Zaman Bekil 1. stanbul ili için ayl k maksimum ya! miktarlar verileri orijinal grafi!i ERZURUM MAKSIMUM YAGIS MIKTARI 70 60 50 40 30 20 10 0 JA D N O SE AU JU JU M AP M FE JA D N O SE AU JU JU N EC OV CT P G L N AY R AR B N EC OV CT P G L N 19 1 1 1 19 1 19 1 9 1 1 1 1 9 19 1 1 1 19 1 20 2 0 30 9 3 93 9 4 45 94 53 57 96 96 96 73 77 9 8 98 9 8 92 99 00 04 6 0 4 8 1 5 9 9 3 7 1 Zaman Bekil 2. Erzurum ili için ayl k maksimum ya! miktarlar verileri orijinal grafi!i 69 400 ISTANBUL TOPLAM YAGIS 300 200 100 0 04 20 N 00 JU 20 6 L 99 JU 1 G 92 AU 19 8 P 8 SE 19 4 T C 98 O V1 0 O 98 N 1 7 EC 7 D 19 3 N 7 JA 1 9 9 B 96 FE R 1 5 A 6 M 19 1 R 6 AP 19 7 Y A 5 M 19 N 53 JU 19 9 L 94 JU 1 5 G 4 AU 19 1 P 4 SE 19 7 T C 93 O 1 3 V O 3 N 19 0 EC 3 D 19 N JA Zaman Bekil 3. stanbul ili için ayl k toplam ya! miktarlar verileri orijinal grafi!i ERZURUM TOPLAM YAGIS 200 100 0 JA D N O SE AU JU J U M AP M F E JA D N O SE AU J U JU N EC OV CT P G L N AY R AR B N EC OV CT P G L N 19 1 1 1 19 1 19 1 9 1 1 1 1 9 19 1 1 1 19 1 20 2 0 30 9 3 93 9 4 45 94 53 57 96 96 96 73 77 9 8 98 9 8 92 99 00 04 6 0 4 8 1 5 9 9 3 7 1 Zaman Bekil 4. Erzurum ili için ayl k toplam ya! miktarlar verileri orijinal grafi!i 3.2. Analiz Sonuçlar: 3.2.1. Modeller stanbul ve Erzurum illerine ili kin ayl k maksimum ya! miktarlar verilerini ele al nd ! nda otokorelasyon ve k smi otokorelasyon grafikleri dikkate al narak gerekli dönü ümler yap lm ve mevsimsel fark al narak AIC kriterine göre en iyi modeller bulunmu tur. Sonuçlar Tablo 1’de verilmi tir. Tablo 1. stanbul ve Erzurum illerine ili kin ayl k maksimum ya! miktarlar verilerine ait analiz sonuçlar Erzurum stanbul AR1 MA1 SMA1 SAR1 Tahmin -,88342324 ,97941062 -,51456741 De!erleri ,90179461 Standart ,17109805 ,15836010 ,0187610 ,02834251 Hata t-Tablo -5,163257 -5,694582 52,204613 -18,155323 De!erleri p ,000000030 ,00000002 ,00000000 ,00000000 De!erleri Model SARIMA ( 0, 0, 0 ) × (1,1, 0 )12 SARIMA (1, 0,1) × ( 0,1,1) 12 AIC 7381,4105 6678,3163 stanbul ve Erzurum illerine ili kin ayl k toplam ya! miktarlar verilerini ele al nd ! nda otokorelasyon ve k smi otokorelasyon grafikleri dikkate al narak gerekli dönü ümler yap lm ve 70 mevsimsel fark al narak AIC kriterine göre en iyi modeller bulunmu tur. Sonuçlar Tablo 2’de verilmi tir. Tablo 2. stanbul ve Erzurum illerine ili kin ayl k toplam ya! miktarlar verilerine ait analiz sonuçlar Erzurum stanbul SAR1 SAR1 Tahmin ,46753067 -,51467115 De!erleri Standart ,02928569 ,02837752 Hata t-Tablo -15,964473 -18,136582 De!erleri p ,00000000 ,00000000 De!erleri Model SARIMA ( 0, 0, 0 ) × (1,1, 0 )12 SARIMA ( 0, 0, 0 ) × (1,1, 0 )12 AIC 9585,9152 8609,6273 stanbul iline ili kin y llar itibariyle ayl k maksimum ya! miktarlar verilerini ele al nd ! nda otokorelasyon ve k smi otokorelasyon grafikleri dikkate al narak gerekli dönü ümler yap lm ve mevsimsel olmayan fark al narak AIC kriterine göre en iyi modeller bulunmu tur. Sonuçlar Tablo 3’de verilmi tir. Tablo 3. stanbul iline ili kin y llar itibariyle ayl k maksimum ya! miktarlar verilerine ait analiz sonuçlar Aylar Ocak rubat Mart Nisan May s Haziran Temmuz A!ustos Eylül Ekim Kas m Aral k Tahmin De!erleri AR1 MA1 ,66871 -,440 -,507 ,91473 -,473 -,420 -,603 -,603 -,534 ,4485 -,529 -,526 Standart Hata AR1 MA1 ,08861 ,1031 ,1006 t-Tablo De!erleri AR1 MA1 7,5466 -4,2696 -5,0386 ,05444 ,1015 ,1048 ,0923 ,0923 ,9693 ,1027 ,0973 ,0998 p De!erleri AR1 ,00005 ,00000 16,802 -4,6581 -4,004 -6,5307 -6,5307 -5,5118 -4,3675 -5,4348 -5,2689 MA1 ,00000 ,00000 ,00001 ,00014 ,00000 ,00000 ,00000 ,00003 ,00000 ,00000 AIC Model 588,44 620,23 608,60 502,78 594,91 596,70 668,16 668,16 679,72 683,27 672,99 629,70 SARIMA ( 0,1,1) × ( 0, 0, 0 )12 SARIMA(1,1, 0) × (0, 0, 0)12 SARIMA (1,1, 0 ) × ( 0, 0, 0 )12 SARIMA ( 0,1,1) × ( 0, 0, 0 )12 SARIMA(1,1, 0) × (0, 0, 0)12 SARIMA (1,1, 0 ) × ( 0, 0, 0 )12 SARIMA (1,1, 0 ) × ( 0, 0, 0 )12 SARIMA (1,1, 0 ) × ( 0, 0, 0 )12 SARIMA (1,1, 0 ) × ( 0, 0, 0 )12 SARIMA(1,1, 0) × (0, 0, 0)12 SARIMA (1,1, 0 ) × ( 0, 0, 0 )12 SARIMA(1,1, 0) × (0, 0, 0)12 stanbul iline ili kin y llar itibariyle ayl k toplam ya! miktarlar verilerini ele al nd ! nda otokorelasyon ve k smi otokorelasyon grafikleri dikkate al narak gerekli dönü ümler yap lm ve mevsimsel olmayan fark al narak AIC kriterine göre en iyi modeller bulunmu tur. Sonuçlar Tablo 4’de verilmi tir. 71 Tablo 4. stanbul iline ili kin y llar itibariyle ayl k toplam ya! miktarlar verilerine ait analiz sonuçlar Tahmin De!erleri Aylar Ocak rubat Mart Nisan May s Haziran Temmuz A!ustos Eylül Ekim Kas m Aral k AR1 MA1 ,67181 -,49751 -,4712 -,39766 -,54125 -,4540 -,57717 -,46933 -,5322 -,39902 -,54700 -,54700 Standart Hata AR1 MA1 ,08827 ,09982 ,10207 ,10556 ,09649 ,10270 ,09437 ,10147 ,09705 ,10580 ,09661 ,09661 t-Tablo De!erleri AR1 MA1 7,6108 -4,9836 -4,6171 -3,7668 -5,6089 -4,420 -6,1155 -4,625 -5,4839 -3,771 -5,6617 -5,6617 p De!erleri AR1 MA1 ,00000 ,00000 ,00001 ,00032 ,00000 ,00003 ,00000 ,00000 ,00000 ,00032 ,00000 ,00000 AIC Model 798,57 790,23 795,70 759,91 739,97 716,61 743,07 772,45 825,89 824,91 837,60 837,60 SARIMA(0,1,1) × (0, 0, 0)12 SARIMA(1,1, 0) × (0, 0, 0)12 SARIMA(1,1, 0) × (0, 0, 0)12 SARIMA (1,1, 0 ) × ( 0, 0, 0 )12 SARIMA (1,1, 0 ) × ( 0, 0, 0 )12 SARIMA (1,1, 0 ) × ( 0, 0, 0 )12 SARIMA (1,1, 0 ) × ( 0, 0, 0 )12 SARIMA (1,1, 0 ) × ( 0, 0, 0 )12 SARIMA(1,1, 0) × (0, 0, 0)12 SARIMA (1,1, 0 ) × ( 0, 0, 0 )12 SARIMA (1,1, 0 ) × ( 0, 0, 0 )12 SARIMA(1,1, 0) × (0, 0, 0)12 Erzurum iline ili kin y llar itibariyle ayl k maksimum ya! miktarlar verilerini ele al nd ! nda otokorelasyon ve k smi otokorelasyon grafikleri dikkate al narak gerekli dönü ümler yap lm ve mevsimsel olmayan fark al narak AIC kriterine göre en iyi modeller bulunmu tur. Sonuçlar Tablo 5’de verilmi tir. Tablo 5. Erzurum iline ili kin y llar itibariyle ayl k maksimum ya! miktarlar verilerine ait analiz sonuçlar Aylar Ocak rubat Mart Nisan May s Haziran Temmuz A!ustos Eylül Ekim Kas m Aral k Tahmin De!erleri AR1 MA1 ,9382 -,495 ,8740 -,493 -,521 -,473 -,547 -,617 -,536 -,498 -,396 -,704 Standart Hata AR1 MA1 ,05622 ,09969 t-Tablo De!erleri AR1 MA1 16,686 -4,9706 ,06025 ,09984 ,09825 ,10259 ,09584 ,09053 ,09703 ,09956 ,10608 ,08122 p De!erleri AR1 ,00000 14,505 -4,9450 -5,3070 -4,6191 -5,7151 -6,8211 -5,5269 -5,005 -3,7372 -8,6788 MA1 ,00000 ,00000 ,00000 ,00000 ,00001 ,00021 ,00000 ,00045 ,00000 ,00036 ,00000 AIC Model 509,48 556,48 502,86 548,66 531,92 555,47 605,27 555,21 569,12 607,28 535,47 495,25 SARIMA ( 0,1,1) × ( 0, 0, 0 )12 SARIMA (1,1, 0 ) × ( 0, 0, 0 )12 SARIMA ( 0,1,1) × ( 0, 0, 0 )12 SARIMA (1,1, 0 ) × ( 0, 0, 0 )12 SARIMA (1,1, 0 ) × ( 0, 0, 0 )12 SARIMA (1,1, 0 ) × ( 0, 0, 0 )12 SARIMA (1,1, 0 ) × ( 0, 0, 0 )12 SARIMA (1,1, 0 ) × ( 0, 0, 0 )12 SARIMA (1,1, 0 ) × ( 0, 0, 0 )12 SARIMA (1,1, 0 ) × ( 0, 0, 0 )12 SARIMA (1,1, 0 ) × ( 0, 0, 0 )12 SARIMA (1,1, 0 ) × ( 0, 0, 0 )12 Erzurum iline ili kin y llar itibariyle ayl k toplam ya! miktarlar verilerini ele al nd ! nda otokorelasyon ve k smi otokorelasyon grafikleri dikkate al narak gerekli dönü ümler yap lm ve mevsimsel olmayan fark al narak AIC kriterine göre en iyi modeller bulunmu tur. Sonuçlar Tablo 6’de verilmi tir. 72 Tablo 6. Erzurum iline ili kin y llar itibariyle ayl k toplam ya! miktarlar verilerine ait analiz sonuçlar Aylar Ocak rubat Mart Nisan May s Haziran Temmuz A!ustos Eylül Ekim Kas m Aral k Tahmin De!erleri AR1 MA1 ,65079 ,90002 ,83064 ,79446 -,586 ,93869 -,515 -,486 -,541 -,394 -,552 ,92299 Standart Hata AR1 MA1 ,08873 ,05560 ,06660 ,07328 ,0936 t-Tablo De!erleri AR1 MA1 7,3341 16,187 12,470 10,840 -6,2611 ,05002 ,0983 ,1008 ,0965 ,1058 ,0955 p De!erleri AR1 ,00000 18,764 -5,2392 -4,822 -5,6149 -3,724 -5,782 ,05314 MA1 ,00000 ,00000 ,00000 ,00000 ,00000 ,00000 ,00000 ,00032 ,00037 ,00016 17,368 ,00000 AIC Model 637,12 652,13 422,88 709,32 782,52 706,99 717,69 686,42 700,66 780,52 708,60 628,66 SARIMA ( 0,1,1) × ( 0, 0, 0 )12 SARIMA ( 0,1,1) × ( 0, 0, 0 )12 SARIMA ( 0,1,1) × ( 0, 0, 0 )12 SARIMA ( 0,1,1) × ( 0, 0, 0 )12 SARIMA (1,1, 0 ) × ( 0, 0, 0 )12 SARIMA ( 0,1,1) × ( 0, 0, 0 )12 SARIMA (1,1, 0 ) × ( 0, 0, 0 )12 SARIMA (1,1, 0 ) × ( 0, 0, 0 )12 SARIMA (1,1, 0 ) × ( 0, 0, 0 )12 SARIMA (1,1, 0 ) × ( 0, 0, 0 )12 SARIMA (1,1, 0 ) × ( 0, 0, 0 )12 SARIMA ( 0,1,1) × ( 0, 0, 0 )12 3.2.2. Kestirimler stanbul ve Erzurum illerine ili kin 2007 y l na ait ayl k maksimum kestirimleri, y llar itibariyle ayl k kestirimleri ve 12. aya kadar elde bulunan veriler Tablo 7’de verilmi tir. Tablo 7. stanbul ve Erzurum illerine ili kin ayl k maksimum kestirim de!erleri, y llar itibariyle ayl k kestirimler ve 2007 y l na ait veriler stanbul Erzurum Aylar Gerçek Kestirim Kestirim Gerçek Kestirim Kestirim De!erler De!erleri1 De!erleri2 De!erler De!erleri1 De!erleri2 Ocak 8,2 120,41 28,32 4,9 22,33 6,33 rubat 3,6 119,43 30,96 3,5 9,87 3,30 Mart 15,4 70,52 20,15 7,7 30,44 12,10 Nisan 9,6 17,46 14,34 17,7 72,41 14,61 May s 8,8 9,28 5,10 10,3 67,59 15,39 Haziran 11,3 36,09 15,35 18,7 45,35 14,15 Temmuz 2,8 19,10 17,43 16,1 20,49 6,92 A!ustos 10,0 28,22 17,43 7,7 14,21 8,42 Eylül 9,3 61,94 16,55 0,1 22,09 12,10 Ekim 22,6 55,09 15,08 15,8 80,68 20,14 Kas m 21,2 111,29 23,63 16 20,10 10,72 Aral k 17,5 59,88 25,31 6 14,94 8,65 stanbul iline ili kin kestirimler ve eldeki verilere bak ld ! nda gerçek de!erlerin kestirim de!erlerine çok yak n oldu!u ortaya ç kmaktad r. Ocak, rubat, Temmuz ve A!ustos aylar nda kestirim de!eri ile gerçek de!eri aras nda büyük farkl l k görülmektedir. 73 140 120 100 80 60 40 GERCEK 20 KES1 0 KES2 1 2 3 4 5 6 7 8 9 10 11 12 Bekil 5. stanbul iline ili kin 2007 y l na ait ayl k maksimum gerçek, kestirim ve y llar itibariyle kestirim de!erleri grafi!i Erzurum iline ili kin kestirimler ve eldeki verilere bak ld ! nda gerçek de!erlerin kestirim de!erlerine çok yak n oldu!u ortaya ç kmaktad r. Temmuz ve Eylül aylar nda kestirim de!eri ile gerçek de!eri aras nda büyük farkl l k görülmektedir. 100 80 60 40 GERCEK 20 KES1 KES2 0 1 2 3 4 5 6 7 8 9 10 11 12 Bekil 6. Erzurum iline ili kin 2007 y l na ait ayl k maksimum gerçek, kestirim ve y llar itibariyle kestirim de!erleri grafi!i stanbul ve Erzurum illerine ili kin 2007 y l na ait ayl k toplam kestirimleri, y llar itibariyle ayl k kestirimleri ve 12. aya kadar elde bulunan veriler Tablo 8’de verilmi tir. Tablo 8. stanbul ve Erzurum illerine ili kin ayl k toplam kestirim de!erleri, y llar itibariyle ayl k kestirimler ve 2007 y l na ait veriler stanbul Erzurum Aylar Gerçek Kestirim Kestirim Gerçek Kestirim Kestirim De!erler De!erleri1 De!erleri2 De!erler De!erleri1 De!erleri2 Ocak 36,8 120,5 105,6 13,5 22,3 18,3 rubat 10,6 119,5 120,3 8,4 9,9 23,9 Mart 47 70,4 70,2 20,4 30,4 36,2 Nisan 16,1 17,5 17,4 79,4 72,4 65,2 May s 28,5 9,3 10,4 61,2 67,6 71,2 Haziran 23,7 36,1 36,3 61,8 45,3 41,7 Temmuz 16 19,2 23,5 41,9 20,5 20,5 A!ustos 19,2 28,2 28,2 30,4 14,2 13,6 Eylül 15,8 61,9 62,4 0,1 22,1 21,7 Ekim 63,5 55,2 52,7 33,7 80,7 82,9 Kas m 88,8 111,4 116,4 68,1 20,1 19,7 Aral k 67,8 60,1 116,4 17,7 14,9 21,6 74 stanbul iline ili kin kestirimler ve eldeki verilere bak ld ! nda gerçek de!erlerin kestirim de!erlerine çok yak n oldu!u ortaya ç kmaktad r. Ocak, rubat, Mart, May s, Haziran, Eylül, Kas m ve Aral k aylar nda kestirim de!eri ile gerçek de!eri aras nda büyük farkl l k görülmektedir. 140 120 100 80 60 40 GERCEK 20 KES1 0 KES2 1 2 3 4 5 6 7 8 9 10 11 12 Bekil 7. stanbul iline ili kin 2007 y l na ait ayl k ortalama gerçek, kestirim ve y llar itibariyle kestirim de!erleri grafi!i Erzurum iline ili kin kestirimler ve eldeki verilere bak ld ! nda gerçek de!erlerin kestirim de!erlerine çok yak n oldu!u ortaya ç kmaktad r. Ocak, rubat, Mart, May s, Haziran, Temmuz, A!ustos, Eylül, Ekim ve Kas m aylar nda kestirim de!eri ile gerçek de!eri aras nda büyük farkl l k görülmektedir. 100 80 60 40 GERCEK 20 KES1 KES2 0 1 2 3 4 5 6 7 8 9 10 11 12 Bekil 8. Erzurum iline ili kin 2007 y l na ait ayl k ortalama gerçek, kestirim ve y llar itibariyle kestirim de!erleri grafi!i 2007 y l na ait gerçek ve kestirim de!erlerine ili kin MSE de!erlerini hesaplay p kar la t rma yap l r. stanbul iline ili kin ayl k maksimum ya! miktarlar na ait MSE de!eri 3671,7375 ve y llar itibariyle ayl k maksimum de!erlere ait MSE de!eri 139,5557 olarak bulunmu tur. stanbul iline ili kin y llar itibariyle ayl k maksimum de!erlere ait MSE de!eri daha küçüktür. Erzurum iline ili kin ayl k maksimum ya! miktarlar na ait MSE de!eri 1058,20003 ve y llar itibariyle ayl k maksimum de!erlere ait MSE de!eri 30,0109 olarak bulunmu tur. Erzurum iline ili kin y llar itibariyle ayl k maksimum de!erlere ait MSE de!eri daha küçüktür. stanbul iline ili kin ayl k toplam ya! miktarlar na ait MSE de!eri 5368,0183 ve y llar itibariyle ayl k toplam de!erlere ait MSE de!eri 1945,25 olarak bulunmu tur. stanbul iline ili kin y llar itibariyle ayl k toplam de!erlere ait MSE de!eri daha küçüktür. Erzurum iline ili kin ayl k toplam ya! miktarlar na ait MSE de!eri 726,4492 ve y llar itibariyle ayl k toplam de!erlere ait MSE de!eri 600,3125 olarak bulunmu tur. Erzurum iline ili kin y llar itibariyle ayl k toplam de!erlere ait MSE de!eri daha küçüktür. 2008, 2009 ve 2010 y llar na ili kin stanbul ve Erzurum illerine ait y llar itibariyle ayl k maksimum ve toplam ya! miktarlar verileri için kestirim de!erleri Tablo 9 ve Tablo 10’da elde edilmi tir. Bu de!erlere göre bulunan en iyi zaman dizisi modeli gelece!e ili kin bize ipuçlar verir. 75 Tablo 9. stanbul ve Erzurum illerine ili kin ayl k maksimum ya! 2008, 2009 ve 2010 y llar na göre kestirim de!erleri stanbul Erzurum Aylar 2008 2009 2010 2008 2009 21,9 21,9 21,9 6,2 6,2 Ocak 15,3 10,2 12,4 3,6 3,6 Bubat 23,4 19,3 21,4 11,5 11,5 Mart 13,7 13,7 13,7 16,7 17,2 Nisan 4,9 6,8 5,9 11,2 10,7 May s 14,9 13,4 14,0 13,4 15,9 Haziran 1,7 2,3 1,9 10,6 13,6 Temmuz 4,6 7,8 5,9 4,2 6,4 A<ustos 11,5 10,3 10,9 8,6 3,9 Eylül 18,9 20,6 19,9 16,9 16,4 Ekim 20,7 20,9 20,8 14,9 15,4 Kas m 13,7 15,7 14,7 4,2 5,5 Aral k miktarlar verilerine ait 2010 6,2 3,6 11,5 16,9 10,9 14,7 11,9 5,0 6,5 16,7 15,2 4,6 Tablo 10. stanbul ve Erzurum illerine ili kin ayl k toplam ya! miktarlar verilerine ait 2008, 2009 ve 2010 y llar na göre kestirim de!erleri stanbul Erzurum Aylar 2008 2009 2010 2008 2009 2010 8,1 8,1 8,1 16,6 16,6 16,6 Ocak 7,2 8,9 8,0 22,4 22,4 22,4 Bubat 26,0 36,4 31,3 33,4 33,4 33,4 Mart 15,9 15,9 15,9 68,4 68,4 68,4 Nisan 19,7 24,4 21,9 49,8 56,4 52,5 May s 15,9 19,7 17,8 43,1 43,1 43,1 Haziran 10,6 13,5 11,9 30,9 36,6 33,7 Temmuz 8,3 15,2 10,9 17,1 23,7 20,4 A<ustos 15,8 15,8 15,8 16 7,3 12,1 Eylül 40,4 52,2 46,2 56,2 47,2 50,9 Ekim 65,6 72,7 70,5 44,8 57,5 50,5 Kas m 18,7 56,2 27,5 21,2 21,2 21,2 Aral k 4. SONUÇ Bu bildiride Ocak 1930-Aral k 2006 dönemlerini kapsayan stanbul ve Erzurum illerine ili kin ayl k maksimum ve toplam ya! miktarlar verileri ve her aya ili kin veriler kullan lm t r. Ocak 1930-Aral k 2006 y llar aras ndaki stanbul ve Erzurum illerine ili kin ayl k maksimum ve toplam ya! miktarlar verilerine ve y llar itibariyle ayl k verilere göre elde edilen sonuçlar Tablo 1, Tablo 2, Tablo 3, Tablo 4, Tablo 5 ve Tablo 6’da verilmi tir. 2007 y l na ili kin ayl k maksimum ve toplam ya! miktarlar ve y llar itibariyle ayl k kestirim de!erleri Tablo 7 ve Tablo 8’de verilmi tir. stanbul ve Erzurum illerine göre ayr ayr MSE de!erleri kar la t r ld . Bu kar la t rmalara göre y llar itibariyle ayl k kestirim yapmak daha avantajl d r. Buna göre 2008, 2009 ve 2010 y llar na ili kin gerçe!e dayal kestirimler Tablo 9 ve Tablo 10’da verilmi tir. stanbul ve Erzurum illerine ili kin bir önceki çal mam zda ayl k s cakl k verilerinin en iyi modelleri olarak ayl k veriler ve yapt ! m z çal mam zda ise ayl k ya! miktarlar verilerinin en iyi modelleri olarak y llar itibariyle ayl k veriler bulunmu tur [1]. Bir önceki çal mam zla yapt ! m z çal may kar la t rd ! m zda s cakl k verileri için ayl k veriler üzerinden, ya! miktarlar için y llar itibariyle ayl k veriler üzerinden kestirimler bize daha iyi sonuçlar verir. 76 KAYNAKLAR: 1. Baylam, Di!dem ve Kasap, Re at, “ stanbul ve Erzurum lleri çin Ayl k Minimum, Maksimum ve Ortalama S cakl k Serilerinin Modellenmesi ve Kestirimi”, VI. statistik Günleri Sempozyumu 2008, Ondokuz May s Üniversitesi. 2. Box, G.E.P., and Jenkins, G.M., “Time Series Analysis: Forecasting and Control”, HoldenDay, San Francisco, 35-72 (1976). 3. Kad o!lu, M., Öztürk, N., Erdun, H. ve ren, Z., “On The Precipitation Climatology of Turkey by Harmonic Analysis”, International Journal of Climatology, 19 : 1717-1728 (1998). 4. Türke , M., “El Nino-Güneyli Sal n m ekstremleri ve Türkiye’deki Ya! Anomalileri le li kileri”, Çevre, Bilim ve Teknoloji, Teknik Dergi, Çevre Mühendisleri Odas Yay n , 1, 1-13 (2000). 5. Türke , M., Sümer, U.M. ve Çetiner, G., “Türkiye Ya! lar nda Israr ve Dönemsellik”, statistik Ara t rma Sempozyumu 2000 Bildiriler Kitab , D E, Ankara, 112-129 (2001). 6. Türke , M., Sümer, U.M. ve Çetiner, G., “Küresel klim De!i ikli!i ve Olas Etkileri”, Çevre Bakanl ! , Birle mi Milletler klim De!i ikli!i Çerçeve Sözle mesi Seminer Notlar (13 Nisan 2000, stanbul Sanayi Odas ), 7-24. 7. Türke , M., Sümer, U.M. ve K l ç, G., “Türkiye Ya! lar nda Periyodiklik ve 500 hPa Jeopotansiyel Yükseklik De!i imleri le Ba!lant s ”, Prof. Dr. S rr Erinç An s na Klimatoloji Çal tay 2002, Bildiriler Kitab , 119-135. 8. Wei, W.S., “Time Series Analysis Univariate and Multivariate Methods”, Addison-Wesley Publishing Company, 32-287 (1990). 77 MKB verilerinin bulan k zaman serisi yakla! mlar ile çözümlenmesi F.Emrah nceo!lu Erol E!rio!lu Ufuk Yolcu Ça!da Hakan Alada! Ondokuz May:s Üni. Fen-Edebiyat Fak. statistik Bölümü Ondokuz May:s Üni. Fen-Edebiyat Fak. statistik Bölümü erole@omu.edu.tr Ondokuz May s Üni. Fen-Edebiyat Fak. statistik Bölümü erole@omu.edu.tr Hacettepe Üni. Fen Fak. statistik Bölümü aladag@hacettepe.edu.tr Özet MKB ulusal 100 endeksi zaman serisinin modellenmesi ve öngörülerinin elde edilmesi gelecek planlamalar: ve ekonomi aç:s:ndan oldukça önemlidir. Klasik zaman serisi analizi yöntemleri ile MKB ulusal 100 endeksinin kapan:#, aç:l:#, en dü#ük veya en yüksek deGerleri ayr: birer zaman serisi olarak ele al:narak modellenebilmektedir. Oysa kapan:#, aç:l:#, en dü#ük veya en yüksek deGerli zaman serilerinin tek ba#:na MKB ulusal 100 endeksini tam olarak temsil etmesi dü#ünülemez. Borsa gibi, gün içinde sürekli deGi#en deGerlere sahip, zaman serilerinin gözlemlerinde belirsizlik olduGu aç:kt:r. Bu tür zaman serilerinin gözlemleri reel say:lar yerine dilsel deGerler ile ifade edilebilir. Gözlemleri dilsel deGerler olan zaman serileri, bulan:k zaman serileri olarak adland:r:l:r. Özellikle son birkaç y:l içinde bulan:k zaman serileri çözümleme yöntemlerini geli#tiren birçok çal:#ma literatürde yer almaktad:r. Bu çal:#mada çe#itli bulan:k zaman serileri çözümleme yöntemleri, MKB ulusal 100 endeksi zaman serisine uygulanm:# ve elde edilen sonuçlar tart:#:lm:#t:r. Anahtar Kelimeler: Bulan:k zaman serileri, öngörü, MKB Ulusal 100 endeksi. Abstract Forecasting IMKB time series by using fuzzy time series approach Forecasting national IMKB 100 index time series is an important issue in order to make economical plans about future. When the conventional time series methods are being used to forecast stock exchange quotation, opening price, closing price, top price and bottom end price time series are analyzed separately since stock-exchange value varies in same day. On the other hand, analyzing these time series separately can lead to wrong results. It is clear that such time series, whose observations vary even in same day, have uncertainty. It is possible to use linguistic variables for such time series instead of using crisp values. The time series include linguistic values are called fuzzy time series. Recently, there have been a lot of studies using fuzzy time series to forecasting in the literature. In this study, various fuzzy time series approaches is applied to IMKB time series and obtained results are discussed. Keywords:Fuzzy time series, Forecasting,National IMKB 100 index . 1. Giri! Gerçek hayat zaman serilerinin birço!unda gözlemlerde belirsizlik olmas mümkündür. Örne!in günlük hava s cakl ! n dü ünürsek, gün içinde sürekli s cakl k de!i ti!inden her bir günü temsil eden kesin bir hava s cakl ! yoktur. Bu nedenle günlük hava s cakl ! n bir bulan k küme ile temsil ederek belirsizli!i modellemek mümkündür. Gözlemleri bu tür belirsizlikler içeren ve bulan k kümeler ile temsil edilen zaman serilerinin öngörülmesi önemli bir problemdir. Zadeh taraf ndan önerilen bulan k küme teorisi birçok yeni çal man n öncüsü olmu tur [5]. Song ve Chissom çal malar nda, bulan k küme teorisinden yararlanarak bulan k zaman serisi tan m n yapm ve bulan k zaman serilerinin öngörülmesi için yöntemler önermi tir [8,9]. Chen, Song ve Chissom’un önerdi!i yöntemi 78 basitle tirerek bulan k mant k grup ili ki tablolar n n kullan ld ! bir algoritma önermi tir [10]. Huarng ise bulan kla t rma a amas nda aral k uzunlu!unun belirlenmesi için iki yöntem önermi tir [4]. Tüm bu çal malar tek de!i kenli ve birinci dereceden öngörü modeline dayal çal malard r. Ancak gerçek hayat zaman serilerinin birço!u karma k ili kiler içerdi!inden birinci dereceden modeller ile çözümleme yapmak yeterli olmamaktad r. Chen ve Chung , Chen vd., Chen, Alada! vd. tek de!i kenli yüksek dereceli bulan k zaman serisi yöntemleri önermi lerdir [12,15,11,1]. Bununla birlikte, zaman serileri birçok faktörden etkilenebilmektedir. Bu nedenle çok de!i kenli bulan k zaman serisi öngörü modeli ile daha do!ru sonuçlar elde edilebilir. Bu fikirden hareketle, Huarng, Lee vd., Wang ve Chen, Cheng vd., Yu ve Huarng çal malar nda iki de!i kenli bulan k zaman serisi öngörü yöntemleri önermi lerdir [3,6,7,2,14]. Jilani ve Burney ise çal malar nda çok de!i kenli bulan k zaman serilerinin çözümlenmesi için bir yöntem önermi tir [13]. Bu çal mada MKB ulusal 100 endeksi zaman serisi Chen [10], Huarng [4] ve Chen [11] yöntemleri ile çözümlenerek öngörüleri elde edilmi ve en uygun bulan k zaman serisi öngörü modeli belirlenmi tir. Çal man n ikinci bölümünde bulan k zaman serisi temel tan mlar , üçüncü bölümde uygulamada kullan lan yöntemler tan t lm t r. Dördüncü bölümde MKB ulusal 100 endeksi zaman serisine belirtilen bulan k zaman serisi yöntemleri uygulanarak sonuçlar ekil ve tablolar yard m yla özetlenmi tir. Son bölümde ise elde edilen sonuçlar tart larak, öneriler verilmi tir. 2. Bulan k zaman serileri tan mlar Bulan k zaman serisi yakla m ilk olarak Song ve Chissom taraf ndan önerildi [8,9]. Yöntem Chen taraf ndan basitle tirildi [10]. Chen çal mas nda, Song ve Chissom’un çal mas ndaki karma k matris i lemleri yerine bulan k ili ki tablosundan yararlanma fikri ortaya att [10]. Bulan k zaman serisi yakla mlar a a! daki temel tan mlara ba!l d r. U = {u1 ,..., u b } evrensel küme olsun. U ’nun elemanlar aral klard r. Bu aral klar zaman serisinin tüm de!erlerini kapsayan evrensel kümenin parçalanmas ile elde edilir. U ’nun elemanlar na ba!l olarak Ai bulan k kümeleri a a! daki gibi tan mlanabilir. Ai = f Ai (u1 ) / u1 + L + f Ai (u b ) / ub (1) Burada f Ai , Ai bulan k kümesinin üyelik fonksiyonudur ve f Ai : U * [0,1] olmaktad r. f Ai (u a ) , u a ’n n Ai ’ye ait olmas n n derecesidir. Tan m 1. Y (t ) , t = ...,0,1,2,... reel de!erli zaman serisi olsun. Zaman serisine uygun evrensel küme tan m ve parçalanmas yap ld ktan sonra Ai ’lerden olu an yeni zaman serisi F (t ) ’ye bulan k zaman serisi ad verilir. Tan m 2. Bulan k zaman serisinde ili ki için, F (t ) ’nin sadece F (t 1) ’den etkilendi!i dü ünülürse bulan k zaman serisine birinci dereceden bulan k zaman serisi ad verilir. Birinci dereceden bulan k zaman serisi için bulan k ili ki F (t ) = F (t 1) ( R (t , t 1) eklinde gösterilebilir. Bu ifadede ( herhangi bir operatörü göstermektedir. F (t 1) = Ai ve F (t ) = A j olsun. Bu durumda bulan k mant k ili ki Ai * A j ile gösterilebilir. Burada Ai bulan k ili kinin sol yan ve A j bulan k ili kinin sa! yan olarak isimlendirilir. Buna göre birinci dereceden bulan k zaman serisi öngörü modeli a a! daki gibi yaz l r. F (t 1) * F (t ) (2) 79 Tan m 3. F (t ) bulan k zaman serisi olsun. E!er F (t 1), F (t oluyorsa bulan k mant k ili ki a a! daki gibidir. F (t n),..., F (t 2) ,…, ve F (t n) , F (t ) ’ye neden 2), F (t 1) * F (t ) (3) (3) de verilen ifadeye n. dereceden bulan k zaman serisi öngörü modeli ad verilir. 3. Baz bulan k zaman serisi çözüm yöntemleri Bu bölümde bulan k zaman serileri yakla mlar ndan literatürde s k kullan lan ve bu çal mada uygulanacak Chen [10], Huarng [4] ve Chen [11] yöntemleri tan t lm t r. 3.1. Chen’in yöntemi Song ve Chissom taraf ndan önerilen yöntemlerde bulan k ili ki belirleme i lemi karma k matris operasyonlar na dayanmaktad r [8,9]. Chen’in çal mas nda, bulan k ili ki belirleme, bulan k mant k grup ili ki tablolar na dayal olarak yap larak Song ve Chissom’un önerdi!i yöntemler basitle tirilmi tir [10]. Chen’in çal mas nda önerilen yöntem birinci dereceden bulan k zaman serisi öngörü modeline dayal d r [10]. Chen taraf ndan önerilen bu yöntem algoritma olarak ad mlar halinde a a! da verilmi tir. Ad m 1. Evrensel küme (U ) ve alt aral klar (u i , i = 1,2,..., b) tan mlan r. Evrensel kümenin ba lang ç ve biti noktalar belirlenir. Bu noktalar zaman serisinin ald ! ve alabilece!i mümkün de!erleri kapsayacak ekilde seçilir. Daha sonra uygun aral k uzunlu!una göre evrensel küme alt aral klara parçalan r. Bu yöntemde aral k uzunlu!unun belirlenmesi ara t rmac ya ba!l d r. Belirlenecek aral k uzunlu!unun alt aral k say s üzerinde etkili oldu!u unutulmamal d r. U = [ Ba#., Biti# ] (4) Ad m 2. Evrensel küme ve parçalanmalara ba!l olarak bulan k kümeler tan mlan r. Ai = f Ai (u1 ) / u1 + L + f Ai (ub ) / ub i = 1,2,..., b (5) Ad m 3. Gözlemler bulan kla t r l r. Her bir gözlemin bulundu!u alt aral k belirlenir. Belirlenen alt aral ! n en yüksek üyelik de!erine sahip oldu!u bulan k küme belirlenir. Gözlemin bulan k de!eri belirlenen bu bulan k kümedir. Ad m 4. Bulan k mant k ili ki ve grup ili ki tablosu olu turulur. Örne!in, bulan k mant k ili kiler A1 * A2 , A1 * A1 , A1 * A3 eklinde iken, bulan k mant k grup ili ki A1 * A2 , A3 , A1 eklinde olmaktad r. Ad m 5. Öngörüler elde edilir. Öngörü elde etmede birkaç durum söz konusudur. F (t 1) = A j olsun. 80 Durum 1. Bulan k grup ili ki tablosundan sadece Ai * A j ili kisi var ise öngörü A j ’dir. Durum 2. Bulan k grup ili ki tablosunda Ai * Ai , A j ,..., Ak ise öngörü Ai , A j ,..., Ak ’d r. Durum 3. Bulan k grup ili ki tablosunda Ai * Bo# ise öngörü Ai ’dir. Ad m 6. Durula t rma i lemi uygulan r. Durula t rmada merkezile tirme yöntemi kullan l r. Ad m 5 de belirtilen durum 1 ve 3 için bulan k öngörü A j oldu!unda durula t r lm öngörü, A j bulan k kümesinde en yüksek üyelik de!erine sahip olan u j aral ! n n orta noktas olmaktad r. Durum 2 için ise bulan k öngörü Ai , A j ,..., Ak oldu!unda durula t r lm öngörü, her bir Ai , A j ,..., Ak bulan k kümelerinin en yüksek üyelik de!erine sahip olan u i , u j ,..., u k aral klar n n orta noktalar n n aritmetik ortalamas olarak elde edilir. 3.2. Huarng’:n yöntemleri Aral k uzunlu!unun seçimi bulan k zaman serisi yakla m nda kritik bir karard r. Aral k uzunlu!unun çok büyük seçimi zaman serisindeki dalgalanmay yok edecek, çok küçük seçimi ise klasik analizle bulan k zaman serisi yakla m aras ndaki ay r m ortadan kald racakt r. Bu nedenle, aral ! n çok küçük ve çok büyük olmayacak ekilde seçilmesi gerekir. Bunun için Huarng ortalamaya ve da! l ma dayal iki yakla m önermi tir [4]. Bu yakla mlar a a! da örneklerle aç klanm t r. Da! l ma dayal yakla mda, zaman serisinin ilk farklar n n da! l m na dayal olarak aral k uzunlu!u belirlenmektedir. Bu yakla m daha iyi anlayabilmek için zaman serisinin de!erlerinin s ras yla 30, 50, 80,120, 100, 70 oldu!u varsay ls n. Bu yakla mda öncelikle ilk farklar n mutlak de!eri hesaplan r. Örnek seri için bu de!erler 20, 30, 40, 20, 30 olarak bulunur. Daha sonra ilk farklar n mutlak de!erinin ortalamas f = 28 olarak hesaplan r. lk farklar n ortalamas na göre a a! da verilen baz tablosundan baz de!eri seçilir. Tablo 1. Aral k uzunlu!u belirlemek için kullan lan baz tablosu Aç kl k 0.1-1 1.1-10 11-100 101-1000 Baz 0.1 1 10 100 lk farklar n mutlak de!erlerinin ortalamas 28 oldu!undan ve bu de!er baz tablosunda 11-100 aral ! na denk geldi!inden, baz de!eri 10 olarak belirlenir. Bu durumda baz de!eri 10 oldu!undan, aral k uzunlu!u 10,20,30,40,.. gibi de!erlerden ilk farklar n say s n n yar s n kapsayacak ekilde seçilir. 5 tane ilk fark m z oldu!undan, seçti!imiz aral k uzunlu!undan büyük ilk farklar n say s 2,5 dan büyük olmal d r. Bu art sa!layan en küçük aral k uzunlu!u da! l ma göre yakla m n aral k uzunlu!u olacakt r. Örne!imiz de 10 ‘dan büyük ilk farklar n say s 5, 20’den büyük ilk farklar n say s 3, 30’dan büyük ilk farklar n say s 1 olmaktad r. Dolay s yla aral k uzunlu!u 20 olarak belirlenir. Ortalamaya dayal yakla mda ise baz ad mlar t pk da! l ma dayal yakla mdaki gibidir. Ortalamaya göre yakla m için de bir önceki örnek kullan l rsa, da! l ma göre yakla mda oldu!u gibi ilk farklar n mutlak de!erleri ve bunlar n ortalamas 28 olarak elde edilir. Daha sonra ortalaman n yar s 28/2=14 olarak hesaplan r. 14 de!eri baz tablosundan 11-100 aral ! na dü tü!ünden baz de!eri yine 10 olarak al n r ve son olarak 14 de!eri 10 baz de!erine göre yuvarlan r. Yani bu yakla mda aral k uzunlu!u 81 14’e en yak n yuvarlanm de!er olan 10 olarak al n r. E!er ortalaman n yar s 37 olsayd , baz de!eri 10 olacak ve aral k uzunlu!u 40 olarak al nmal yd . 3.3. Chen’nin yüksek dereceli bulan:k zaman serisi yöntemi Chen, 2002 y l nda yapt ! çal mada öngörü elde etmede yüksek dereceli bulan k zaman serisi yakla m n önermi tir. Chen taraf ndan verilen bu yöntemde yüksek dereceli modellerde tüm gecikmeli bulan k de!i kenler bulunmaktad r. Yani 4. dereceden bir zaman serisinin çözümlenmesinde, F(t) bulan k zaman serisi iken, F(t-1), F(t-2), F(t-3), F(t-4) bulan k gecikmeli de!i kenleri modelde yer almaktad r. Birinci dereceden bulan k zaman serisi öngörü modellerine göre daha iyi sonuçlar veren, Chen’in çal mas nda önerilen yüksek dereceli bulan k zaman serisi yönteminin algoritmas a a! daki ad mlardan olu ur [11]. Ad m 1. Evrensel küme ve alt aral klar tan mlan r. Veri setinin en küçük ve en büyük de!erleri s ras yla Dmin ve Dmax , ayr ca keyfi iki say D1 ve D2 olmak üzere evrensel küme, U = [Dmin D1 , Dmax + D2 ] (6) eklinde ve sabit aral k uzunlu!una sahip u i alt aral klar , U = {u1 , u 2 ,K , u b } (7) olacak ekilde tan mlan r. Ad m 2. Evrensel küme ve belirlenen alt aral klara ba!l olarak A j bulan k kümeleri tan mlan r. Üyelik dereceleri, a jk ,k = j /1 5 = 00.5 , k = j 1, j + 1 50 , d .d . 1 , j = 1, 2,K, b (8) olmak üzere, bulan k kümeler a a! daki gibi tan mlan r. A j = a j1 / u1 + a j 2 / u 2 + L + a jb / u b , j = 1, 2, K , b (9) Ad m 3. Gözlemler bulan kla t r l r. Her bir veri bulundu!u aral ! n en büyük üyelik de!erine sahip oldu!u bulan k küme ile e le tirilerek zaman serisi bulan kla t r l r. Ad m 4. Bulan k mant k ili ki ve grup ili ki tablosu olu turulur. Örne!in, birinci dereceden bulan k mant k ili kiler, Ai * A j , Ai * Ai , Ai * Ak (10) 82 eklinde verilmi ken, bulan k mant k grup ili kisi, Ai * A j , Ai , Ak (11) olarak elde edilir. Benzer ekilde genel bir ifade ile n’nci dereceden bulan k mant k ili kiler, Ain , Ai ( n 1) , K , Ai1 * A j1 Ain , Ai ( n 1) , K , Ai1 * A j 2 (12) M M Ain , Ai ( n 1) , K , Ai1 * A jp eklinde verilmi ken, bulan k mant k grup ili kisi, Ain , Ai ( n 1) , K , Ai1 * A j1 , A j 2 , K , A jp (13) olarak elde edilir. Bulan k mant k ili ki ve grup ili ki tablolar , elde edilen bu bulan k mant k ili ki ve grup ili kilerden olu ur. Ad m 5. Bulan k öngörüler elde edilir. n’nci dereceden bulan k zaman serisi öngörü modeli için bulan k öngörüler elde edilirken üç durum söz konusudur. Durum 1. n’nci dereceden bulan k mant k grup ili ki tablosunda, Ain , Ai ( n 1) , K , Ai1 * A j (14) ili kisi mevcut ise bulan k öngörü, A j olacakt r. Durum 2. n’nci dereceden bulan k mant k grup ili ki tablosunda, Ain , Ai ( n 1) , K , Ai1 * A j1 , A j 2 , K , A jp (15) ili kisi mevcut ise bulan k öngörüde belirsizlik söz konusudur ve bulan k öngörünün elde edilebilmesi için belirsizlik giderilene kadar incelenen derecenin bir üst derecesine bak larak m>n olmak üzere, Aim , Ai ( m 1) , K , Ai1 * A j (16) ili kisini veren m aran r ve bu durumda bulan k öngörü, yine A j olacakt r. Durum 3. n’nci dereceden bulan k mant k grup ili ki tablosunda, Ain , Ai ( n 1) , K , Ai1 * Bo# (17) 83 ili kisi mevcut ise reel öngörü, Ain , Ai ( n aral klar n n orta noktalar , min , mi ( n 1 × min + 2 × mi ( n 1) 1) 1) , K , Ai1 bulan k kümelerine ba!l olarak, u in , u i ( n 1) , K , u i1 , K , mi1 olmak üzere, + L + n × mi1 (18) 1+ 2 +L+ n ifadesi ile elde edilir. Ad m 6. Durula t rma i lemi uygulan r. Durula t rmada merkezile tirme yöntemi kullan l r. Öngörülerin elde edilmesinde kar la lan Durum 1. ve Durum 2. için bulan k öngörü A j olarak elde edilmi ken, durula t r lm öngörü, A j bulan k kümesinde en yüksek üyelik de!erine sahip olan u j aral ! n n orta noktas olacakt r. Durum 3. için ise reel öngörünün, Ain , Ai ( n 1) , K , Ai1 bulan k kümelerine ba!l olarak nas l elde edildi!i daha önce belirtilmi ti. 4. mkb 100 ulusal endeksi için uygulama Bu çal mada, rekil 1’de verilen, 20.05.2008 ile 26.09.2008 tarihleri aras nda gerçekle en toplam 95 gözlemden olu an MKB ulusal 100 endeksi zaman serisi Chen, Huarng ve Chen yöntemleri ile çözümlenerek öngörüleri elde edilmi ve en uygun bulan k zaman serisi öngörü modeli belirlenmi tir [10,4,11]. 20.05.2008 ile 15.09.2008 zaman aral ! ndaki veriler (85 gözlem) e!itim kümesi, 16.09.2008 ile 26.09.2008 zaman aral ! ndaki veriler (10 gözlem) ise test kümesi olarak kullan lm t r. Test verisi üzerinden tüm yöntemlerden elde edilen sonuçlar kar la t r lm t r. Zaman serisine ilk olarak Chen taraf ndan 1996 y l nda önerilen yöntem uygulanm t r [10]. Uygulamada test kümesi için elde edilen hata kareler ortalamas karekök (HKOK) de!erleri Tablo 2’de verilmi tir. Yöntemin uygulanmas nda aral k uzunlu!u, veriye uygun olarak, 500 ile 1500 aras nda 100’er art rarak de!i tirilmi tir. Chen yönteminin uygulanmas nda test verisi için en iyi sonuç, aral k uzunlu!unun 1300 oldu!u durumda elde edilmektedir. Bu durumda HKOK de!eri 1328,04 olarak elde edilmektedir. Chen yönteminden elde edilen en iyi durum için öngörüler Tablo 5’de ve bu öngörülerin gerçek de!erlerle birlikte grafi!i rekil 2’de verilmi tir. Veriye ikinci olarak, Chen taraf ndan 2002 y l nda önerilen yöntem uygulanm t r [11]. Bu yöntemin uygulanmas nda da aral k uzunlu!u veriye uygun olarak 500 ile 1500 aras nda 100’er art rarak de!i tirilmi tir. Ayr ca model derecesi ise 2 ile 5 aras nda de!i tirilmi tir. Bu yönteme ait farkl durumlar için elde edilen sonuçlar Tablo 3’de verilmi tir. Tablo 3’den, en iyi sonucun 2. dereceden model ile ve 900 aral k uzunlu!unda bulundu!u görülmektedir. Bu durum için HKOK de!eri ise 1576,1 olmaktad r. Chen yönteminin [11] en iyi durumu için elde edilen öngörüler Tablo 5’de ve bu öngörülerin gerçek de!erler ile birlikte grafi!i ise rekil 3’de verilmi tir. Veriye üçüncü olarak Huarng taraf ndan önerilen da! l ma ve ortalamaya dayal yakla mlar uygulanm t r [4]. Ortalamaya dayal yakla mdan aral k uzunlu!unun 300 oldu!u görülmekte ve bu durumda elde edilen HKOK de!eri 1622.87 olmaktad r. Da! l ma dayal yakla ma göre ise aral k uzunlu!unun 500 oldu!u ve buna kar l k HKOK de!erinin 1777.9846 oldu!u görülmektedir. Bu sonuçlar Tablo 4’de verilmi tir. Öngörülerin gerçek de!erler ile birlikte grafi!i ise rekil 4 ve rekil 5’de verilmi tir. 84 Bekil 1. 20.05.2008 ile 26.09.2008 tarihleri aras nda gerçekle en MKB ulusal 100 endeksi zaman serisi Tablo 2. Chen taraf ndan 1996 y l nda önerilen yöntem ile test verisi için elde edilen sonuçlar Aral k Uzunlu<u 500 600 700 800 900 1000 Aral k Uzunlu<u 1100 1200 1300 1400 1500 HKOK Test 1777,68 1506,25 1588,03 1598,79 1469,82 1468,29 HKOK Test 1469,62 1461,06 1328,04 1341,37 1508,12 Tablo 3. Chen taraf ndan 2002 y l nda önerilen yöntem ile test verisi için elde edilen sonuçlar Aral k Uzunlu<u 2.derece HKOK Test 500 600 700 800 900 1000 1100 1200 1300 1400 1500 1697,0611 1636,1397 1740,71 1870,75 1576,1 1826,89 1597,78 1652,11 1933,93 1772,81 1803,67 Model Derecesi 3. derece 4. derece HKOK Test HKOK Test 1775,05 1772,94 1841,46 1974,85 1730,22 1996,25 1737,21 1790,59 1984,43 1850,35 1760,1 85 1877,54 1834,11 1838,49 1834,77 1868,85 1889,39 1866,93 1908,3 1791,87 1876,7577 1966,5196 5. derece HKOK Test 1991,37 1955,06 1962,86 1954,29 1963,78 2008,57 1923,05 1997,23 1922,28 1920,35 2064,09 Tablo 4. Huarng taraf ndan önerilen yöntem ile test verisi için elde edilen sonuçlar Yakla! m Ortalamaya dayal yakla m Da! l ma dayal yakla m Aral k Uzunlu<u 300 500 HKOK Test 1622.87 1777.68 Bekil 2. Chen taraf ndan 1996 y l nda önerilen yöntemde 1300 aral k uzunlu!u için test verisinin öngörüleri Bekil 3. Chen taraf ndan 2002 y l nda önerilen yöntemde 2. dereceden model ve 900 aral k uzunlu!u için test verisinin öngörüleri Bekil 4. Huarng taraf ndan önerilen, da! l ma dayal yakla m için test verisinin öngörüleri 86 Bekil 5. Huarng taraf ndan önerilen, ortalamaya dayal yakla m için test verisinin öngörüleri Tablo 5. Tüm yöntemlerin en iyi durumlar için öngörü sonuçlar Tarih IMKB 16.09.2008 33736,35 17.09.2008 32727,57 18.09.2008 32216,43 19.09.2008 36370,16 20.09.2008 36183,62 22.09.2008 35454,17 23.09.2008 35177,11 24.09.2008 36361,84 25.09.2008 36556,61 26.09.2008 36051,3 HKOK 5. Chen [10] 1300 Aral k Uzunlu<u Huarng [4] Da< l ma Dayal Huarng [4] Ortalamaya Dayal 34816.6667 34600 33950 33950 36550 36550 34816.6667 34816.6667 36550 36550 1328.04 35075 33950 32750 32150 37550 36050 35150 35075 37550 35750 1777.68 35000 34000 32750 32250 37750 37750 35000 35000 37750 35750 1622.87 Chen [11] 2. Derece 900 Aral k Uzunlu<u 35750 33350 32750 32450 34850 36050 35600 36050 35150 36650 1576.1 Sonuçlar ve tart !ma Son y llarda gözlemleri belirsizlik içeren borsa, s cakl k gibi zaman serilerinin çözümlenmesinde bulan k zaman serisi yöntemleri kullan lmaktad r. Bu tip veriler belirli bir birim zaman dilimi içinde (örne!in bir gün içinde) birden fazla de!ere sahip olmaktad r. Bu nedenle bu zaman serilerinin gözlemlerini tek bir reel say ile temsil etmek yerine bulan k küme ile temsil etmek daha do!ru olacakt r. Ayr ca bulan k zaman serisi çözüm yöntemleri klasik analizlerdeki normal da! l m, en az 50 gözlem say s gibi varsay mlara da gerek duymamaktad r. Bu avantajlar nedeniyle bulan k zaman serisi analizi yöntemlerinin uygulama alan her geçen gün artmaktad r. Bu çal mada IMKB 100 ulusal endeksi zaman serisi, çe itli bulan k zaman serisi analiz yöntemleri ile çözümlenmi tir. Çözümlemede literatürde s k kullan lan, Chen taraf ndan 1996 y l nda, Huarng taraf ndan 2001 y l nda önerilen birinci dereceden yöntemler ve yine Chen taraf ndan 2002 y l nda önerilen yüksek dereceli yöntem kullan lm t r [10,4,11]. Elde edilen sonuçlara göre IMKB 100 ulusal endeksi zaman serisi için incelenen modeller aras nda birinci dereceden bir model olan Chen yönteminin [10] kullan lmas uygun olmaktad r. 87 Kaynaklar [1] Ç.H. Alada!, M.A. Ba aran, E. E!rio!lu, U. Yolcu, V.R. Uslu, (2009), Forecasting in high order fuzzy time series by using neural networks to define fuzzy relations, Expert Systems with Applications, 36, 4228-4231. [2] C.H. Cheng, G.W. Cheng, J.W. Wang, (2008), Multi-attribute fuzzy time series method based on fuzzy clustering, Expert Systems with Applications, 34(2), 1235,1247. [3] K. Huarng, (2001a), Heuristic models of fuzzy time series for forecasting, Fuzzy Sets and Systems, 123 (3), 369-386. [4] K. Huarng, (2001b), Effective lengths of interval to improve forecasting in fuzzy time series, Fuzzy Sets and Systems, 123, 387-394. [5] L.A. Zadeh, (1965), Fuzzy Sets, Inform and Control, 8, 338-353. [6] L.W. Lee, L.H. Wang, S.M. Chen, Y.H. Leu, (2006), Handling forecasting problems based on two factors high order fuzzy time series. IEEE Transactions On Fuzzy Systems, 14, 468-477. [7] N.Y. Wang, S.M. Chen, (2008), Temperature prediction and TAIFEX forecasting based on automatic clustering techniques and tow-factors high order fuzzy time series, Expert Systems with Applications, doi:10.1016/j.eswa.2007.12.013. [8] Q. Song, B.S. Chissom, (1993a), Fuzzy time series and its models, Fuzzy Sets and Systems, 54, 269277. [9] Q. Song, B.S. Chissom, (1993b), Forecasting enrollments with fuzzy time series- Part I, Fuzzy Sets and Systems, 54, 1-10. [10] S.M. Chen, (1996), Forecasting enrollments based on fuzzy time-series, Fuzzy Sets and Systems, 81, 311-319. [11] S.M. Chen, (2002), Forecasting Enrollments based on high-order fuzzy time series, Cybernetics and Systems An International Journal, 33. 1-16. [12] S.M. Chen, N.Y. Chung, (2006), Forecasting Enrollments Using High-Order Fuzzy Time Series and Genetic Algorithms, International Journal Of Intelligent Systems, 21, 485-501. [13] T.A. Jilani, S.M.A. Burney, (2008), Multivariate stochastic fuzzy forecasting models, Expert Systems with Applications, 35, 691-700. [14] T.K. Yu, K. Huarng, (2008), A bivariate fuzzy time series model to forecast the TAIEX, Expert Systems with Applications, 34(4). 2945-2952. [15] T.L. Chen, C.H. Cheng, H.J. Teoh, (2008), High-order fuzzy time-series based on multi-period adaptation model for forecasting stock markets, Physica A: Statistical Mechanics and its Applications, 387(4), 876-888. 88 FGM Kapulalar n Konveks Kombinasyonlar ve Yerel Ba! ml l k Fonksiyonu Olcay Bozkurt smihan Bayramo!lu Ege Üniversitesi, Fen Fakültesi, statistik Bölümü, 35100, zmir, Türkiye olcay.bozkurt@ege.edu.tr zmir Ekonomi Üniversitesi, Fen Edebiyat Fakültesi, Matematik Bölümü, 35330, zmir, Türkiye ismihan.bayramoglu@ieu.edu.tr Özet Rasgele deGi#kenlerin baG:ml: olmas: durumunda iki veya çok boyutlu daG:l:m ailelerini olu#turmada kolayl:k saGlayan kapula fonksiyonu kullan:larak, Farlie-Gumbel-Morgenstern (FGM) daG:l:mlar ailesinde konveks kombinasyonlar için ili#ki parametresine ait s:n:rlar elde edilmi# ve yerel baG:ml:l:k fonksiyonlar: incelenmi#tir. Anahtar sözcükler: Kapulalar; Konveks kombinasyonlar; Yerel baG:ml:l:k fonksiyonu. Abstract Convex combinations of FGM copulas and their local dependence functions When the random variables are dependent, copulas make easy to construct the binary or multidimensional distribution families. Take the advantage of copulas, it was obtained bounds of the association parameter for convex combinations of copulas in the Farlie-Gumbel-Morgenstern (FGM) family and examined their local dependence functions. Keywords: Copulas; Convex combinations; Local dependence function. 1. Giri! statistikçiler uzun bir zaman periyodunda çok de!i kenli da! l mlar ve onlar n alt boyutlu marjinalleri aras ndaki ili ki üzerinde durmu lard r. Genel anlamda kapula, rasgele de!i kenlerin ba! ml oldu!u durumlarda marjinal da! l m fonksiyonlar yard m yla ortak da! l m fonksiyonunu I 2 ’de yeniden tan mlamaya yarayan bir fonksiyondur. statistikte incelenen rasgele de!i kenlerin ba! ms z olmalar durumunda bu de!i kenlere ili kin ortak olas l k yo!unluk ve ortak da! l m fonksiyonlar n olu turmak oldukça kolayd r. Ayr ca bu de!i kenlerin ba! ms z olmalar , ko ullu beklenen de!er gibi hesaplanmalar da oldukça kolayla t rmaktad r. De!i kenlerin ba! ml olmas durumunda ise durum biraz daha kar kt r. Bu a amada ise ba! ml rasgele de!i kenlerin ortak da! l m fonksiyonundan elde edilen kapula fonksiyonu bu zorluklar ortadan kald rmada etkilidir. Kapulalar, marjinal da! l mlar verildi!inde ikili veya çoklu da! l m ailelerini olu turmada önemli bir araç oldu!u için istatistikte teorik olarak oldukça önemli bir yere sahiptir (Durante et al., 2006). Son y llarda kapulalar; istatistik, ekonomi, finans ve risk yönetiminde ba! ml l k ölçümü, modelleme ve zaman serilerindeki serisel ba! ml l k gibi birçok çal mada yer alm t r (Peya et al.,2000). 89 2. Kapulalar Tan&m: C (u , v ) , iki de!i kenli bir fonksiyon olarak I 2 = [0,1] × [0,1] ’ de tan mlans n. E!er bu fonksiyon a a! daki özellikleri sa!l yor ise iki boyutlu bir kapula olarak adland r l r. • C (u , 0) = C (0, v ) = 0 (1) • C (u ,1) = u ve C (1, v ) = v , 6(u , v) 7 I (2) Tüm 0 ! u1 ! u2 ! 1 ve 0 ! v1 ! v2 ! 1 için • Vc ([u, v]) = C (u1 , v1 ) C (u1 , v2 ) C (u2 , v1 ) + C (u2 , v2 ) 8 0 (3) Teorem 1: (Sklar Teoremi) X ve Y rasgele de!i ken, F ( x, y ) ortak da! l m fonksiyonu, F ( x) ve F ( y ) marjinal da! l m fonksiyonlar olmak üzere öyle bir C kapulas vard r ki; F ( x, y ) = C ( F ( x), F ( y )) (4) eklinde yaz labilir. E!er F ( x) ve F ( y ) mutlak sürekli ise C kapulas tektir (Nelsen, 1999). 2.1. Kadran BaG:ml:l:k 2000’li y llarda Lai & Xie FGM da! l m n n unfiorm gösterimini kullanarak ve 0-1 aras nda de!er alan ili ki parametresinin pozitif kadran ba! ml l ! n kullanarak sürekli iki de!i kenli da! l mlar üzerinde çal m lard r. Tan&m: X ve Y rasgele de!i kenler olsun. E!er R2’ deki tüm ( x, y ) de!erleri için a a! daki durum söz konusu ise; P{ X ! x, Y ! y} 8 P{ X ! x}P{Y ! y} veya (5) P{ X > x, Y > y} 8 P{ X > x}P{Y > y} ise X ve Y pozitif kadran ba! ml d r. E!er P{ X ! x, Y ! y} < P{ X ! x}P{Y ! y} veya (6) P{ X > x, Y > y} < P{ X > x}P{Y > y} ise X ve Y negatif kadran ba! ml d r (Nelsen, 2005). 90 2.2. Kapulalarda BaG:ml:l:k Ölçüleri Kendall - ve Spearman . ise kapula fonksiyonlar ndaki rasgele de!i kenler aras ndaki ili kiyi ölçen parametrik olmayan ölçümlerdir. Kendall V: ili ki ölçüsünün örneklem versiyonudur. Teorem 2: X ve Y kapulas C olan sürekli rasgele de!i kenler olsun. O zaman X ve Y için Kendall z’ nun kitle versiyonu (7) ile verildi!i ekildedir & = 4. . C (u, v)dC (u, v) 1 I2 (7) Spearman W: Kendall z ‘ da oldu!u gibi ili ki ölçüsünün kitle versiyonu Spearman j’ dur. Teorem 3: X ve Y kapulas C olan sürekli rasgele de!i kenler olsun. O zaman X ve Y için Spearman j’ nun kitle versiyonu (8) ile verildi!i ekildedir = 12 . . C (u, v)dudv 3 I2 (8) (Nelsen, 1999). 2.3. Yerel BaG:ml:l:k Fonksiyonu (Local Dependence Function) X ve Y rasgele de!i kenlerinin marjinal da! l m fonksiyonlar ve olas l k yo!unluk fonksiyonlar s ras yla FX , f X ve FY , fY olsun. A a! daki fonksiyon Pearson korelasyon katsay s nda matematiksel ve EY yerine ko ullu beklenen de!erlerin E ( X | Y = y ) ve beklenen de!erler EX E (Y | X = x ) yaz lmas ile elde edilmi tir (Bairamov, 2003). E{( X H ( x, y ) = E{( X E ( X | Y = y ))(Y E (Y | X = x))} E ( X | Y = y )) 2 } E{(Y E (Y | X = x )) 2 } (9) H ( x, y ) fonksiyonu, ( x , y ) noktas nda X ve Y aras ndaki ba! ml l ! karakterize eden yerel ba! ml l k fonksiyonu olarak adland r l r ve 9 X = EX E ( X | Y = y) , 9Y = EY E (Y | X = x) matematiksel dönü ümlerden sonra (10) ile ifade edildi!i ekilde yaz labilir. H ( x, y ) = Cov ( X , Y ) + 9 X ( y )9 Y ( x ) Var ( X ) + 9 X2 ( y ) Var (Y ) + 9 Y2 ( x ) A a! daki dönü ümler uygulanacak olursa H(x,y) fonksiyonu a a! daki gibi yaz labilir. = Cov( X , Y ) X H ( x, y ) = 3 X ( y) = 9 X ( y) 3 Y ( x) = X Y 9 Y ( x) Y + 3 X ( y )3 Y ( x ) 1 + 3 2X ( y ) 1 + 3 Y2 ( x ) (10) 91 (Bairamov, 2000). Lemma: Yerel ba! ml l k fonksiyonu a a! daki özelliklere sahiptir. 1. E!er X ve Y ba! ms z ise H ( x, y ) = 0 tüm ( x, y ) 7 N X ,Y . 2. H ( x, y ) ! 1 , tüm ( x, y ) 7 N X ,Y . 3. E!er H ( x, y ) = 1 ise baz ( x, y ) 7 N X ,Y o zaman 4. E!er : 0. = ±1 ise o zaman H ( x, y ) = ±1 . H ( x, y ) = 0 E ( X ) = E ( X | Y = y) tüm ( x, y ) 7 N X ,Y ise o zaman ya E (Y ) = E (Y | X = x ) tüm ( x, y ) 7 N X ,Y ve = 0 . 5. E!er 6. ya da 3 X ( y * ) = 3Y ( x * ) = 0 sa!layan ( x * , y * ) noktas H’ n eyer noktas d r (saddle point) ve H ( x * , y * ) = olur (Bairamov, 2003). 3. Yeni FGM kapulalar n n modifikasyonlar Teorem 4: C (u, v) = uv(1 + (1 u ) 2 (1 v)) + (1 )uv(1 + (1 u )(1 v)) , 0 ! ! 1 ili ki parametresi S, (11) ko ulunu sa!layan fonksiyon, iki de!i kenli bir da! l m n konveks kombinasyonunun da! l m fonksiyonudur. max 3 2 +1 , 1 ! 3 ! min +1 2 ,1 (11) 1spat: C (u, v) = uv(1 + (1 u ) 2 (1 v)) + (1 (12) )uv(1 + (1 u )(1 v)) , 0 ! !1 c(u , v) = 1 + (1 2u 2u + 3u 2 )(1 2v) r (u ) = 1 2u 2u + 3u 2 ; u% = 5 < 5 r ( v ) = 1 2v = c(u,v), u~ = +1 2 3 0,1 +1 +1 2 +1 3 1 v% = 2 1 ve v~ = noktalar nda 1 de!erini al r. 2 r(u)>0 r(v)<0 r(u)<0 r(v)<0 Q4 0,0 1,1 Q1 r(u)>0 r(v)>0 r(u)<0 r(v)>0 Q3 Q2 u% 92 v% 1,0 Q1 : u~ < u < 1 , v~ < v < 1 1 8 ( 1 + 2u + 2u 3u 2 u* = )(2v 1) +1 3 ve v*=1 noktalar nda fonksiyon ve v*=0 noktalar nda fonksiyon minimuma ula r. 3 8 +1 2 Q2 : u~ < u < 1 , 0 < v < v~ ! 1 ( 1 + 2u + 2u 3u 2 u* = )(1 2v) +1 3 minimuma ula r. 3 ! 2 +1 Q3 : 0 < u < u~ , 0 < v < v~ 8 ula r. (1 2u 1 2u + 3u 2 )(1 2v) u*=0 ve v*=0 noktalar nda fonksiyon minimuma 8 1 Q4 : 0 < u < u~ , v~ < v < 1 ! (1 2u !1 1 u*=0 ve v*=1 noktalar nda fonksiyon minimuma ula r. 2 2u + 3u )(2v 1) 3 max +1 2 , 1 ! 3 ! min 2 3> = 1 1 = 12 . . C (u , v )dudv 0 0 +1 ,1 ( 2) 6 Çizelge 1 (12) ile verilen kapula için korelasyon de!erleri 2 3 alt 3 üst . alt . üst 0,0 0,00 0,00 -0,000 0,000 0,1 -0,33 0,33 -0,104 0,104 0,2 -0,71 0,71 -0,214 0,214 0,3 -1,00 1,00 -0,283 0,283 0,4 -1,00 1,00 -0,267 0,267 0,5 -1,00 1,00 -0,250 0,250 0,6 -1,00 1,00 -0,233 0,233 0,7 -1,00 1,00 -0,217 0,217 0,8 -1,00 1,00 -0,200 0,200 0,9 -1,00 1,00 -0,183 0,183 1,0 -1,00 1,00 -0,167 0,167 93 Yerel ba! ml l k fonksiyonu: H ( x, y ) = [12 + (2 2 (2 { ) 1 + ( 2 y 1)(2 x 3 x 2 + 2 4 y+2 ][ y ) 12 + (2 2 4 } 1) 4 x+6 x2 )2 ] A a! da S ve {’ n n çe itli de!erleri için yerel ba! ml l k fonksiyonunun grafikleri verilmi tir. (a) (b) (c) Bekil 1. Teorem 4’ deki konveks kapula kombinasyonunda 2 alt s n r ve (a) c=0.1, (b) c=0.5 ve (c) c=1 de!erlerini ald ! durumda yerel ba! ml l k fonksiyonunun 3 boyutlu ve izdü ümü grafikleri rekil 1(a)’ da uç noktalarda de!i kenler aras ndaki noktasal ba! ml l k en yüksek de!eri almaktayken, (b)’ de de!i kenlerin ald ! de!erler aras ndaki fark artt kça noktasal ba! ml l ! n de!eri yükselmekte ve son olarak (c)’ de ise (0,0) noktas nda fonksiyon maksimum de!erini almaktad r. 94 (a) (b) (c) Bekil 2. Teorem 4’ deki konveks kapula kombinasyonunda 2 üst s n r ve (a) c=0.1, (b) c=0.5 ve (c) c=1 de!erlerini ald ! durumda yerel ba! ml l k fonksiyonunun 3 boyutlu ve izdü ümü grafikleri rekil 2 (a) ve (b)’ de (0,0) ve (1,1) noktalar nda de!i kenler aras ndaki noktasal ba! ml l k en yüksek de!eri almakta, (c)’ de ise (0,1) noktas nda fonksiyon maksimum de!erini ula maktad r. De!i kenlerin ald klar de!erler aras ndaki fark artt kça yerel ba! ml l k fonksiyonunun de!eri azalmaktad r. Teorem 5: C (u, v) = uv(1 + (1 u 2 )(1 v)) + (1 )uv(1 + (1 u )(1 v)) , 0 ! ! 1 ili ki parametresi 2, (13) ko ulunu sa!layan fonksiyon, iki de!i kenli bir da! l m n konveks kombinasyonunun da! l m fonksiyonudur. max 2 3 + +1 , 1 ! +1 ! min 2 3 + (13) 95 +1 , 1 +1 1spat: C (u, v) = uv(1 + (1 u 2 )(1 v )) + (1 (14) c(u, v) = 1 + (1 2u + 2u r ( v ) = 1 2v 1+ c(u , v) , u~ = 2 + 3 0,1 1+ +1 2 + +1 3 1 v% = 2 ve v~ = 1 noktalar nda 1 de!erini al r. 2 r(u)<0 r(v)<0 r(u)>0 r(v)<0 Q4 1,1 Q1 r(u)>0 r(v)>0 0,0 !1 3u 2 )(1 2v) 3u 2 ; u% = 5 < 5 = r (u ) = 1 2u + 2u )uv(1 + (1 u )(1 v)) , 0 ! r(u)<0 r(v)>0 Q3 Q2 v% 1,0 u% Q1 : u~ < u < 1 , v~ < v < 1 8 1 u*=1 ve v*=1 noktalar nda fonksiyon minimuma 2 2u + 3u )(2v 1) ( 1 + 2u ula r. 8 1 +1 Q2 : u~ < u < 1 , 0 < v < v~ ! ( 1 + 2u 1 u*=1 ve v*=0 noktalar nda fonksiyon minimuma 2 2u + 3u )(1 2v) ula r. ! 1 +1 Q3 : 0 < u < u~ , 0 < v < v~ 8 1 (1 2u + 2u 3u 2 )(1 2v) u* = minimuma ula r. 8 2 3 + +1 96 1 3 ve v*=0 noktalar nda fonksiyon Q4 : 0 < u < u~ , v~ < v < 1 ! 1 (1 2u + 2u 3u 2 u* = )(2v 1) 1 3 ve v*=1 noktalar nda fonksiyon minimuma ula r. ! 2 3 + max 2 +1 3 + +1 , 1 ! +1 ! min 2 3 + +1 , 1 +1 Teorem 5’ de verilen fonksiyonun 2 ve c parametreleri ile ald ! korelasyon katsay s n n de!erleri Çizelge 2‘ de verilmi tir. 1 1 = 12 . . C (u , v) dudv 3 > = 0 0 ( + 2) 6 Çizelge 2 (14) ile verilen kapula için korelasyon de!erleri 2 3 alt 3 üst . alt . üst 0,0 0,00 0,00 0,000 0,000 0,1 -0,27 0,27 -0,095 0,095 0,2 -0,48 0,48 -0,177 0,177 0,3 -0,65 0,65 -0,248 0,248 0,4 -0,71 0,71 -0,286 0,286 0,5 -0,67 0,67 -0,278 0,278 0,6 -0,63 0,63 -0,271 0,271 0,7 -0,59 0,59 -0,265 0,265 0,8 -0,56 0,56 -0,259 0,259 0,9 -0,53 0,53 -0,254 0,254 1,0 -0,50 0,50 -0,250 0,250 Bu fonksiyona ait yerel ba! ml l k fonksiyonu ise; H ( x, y) = 2 ( + 2) + 12 + (2 + 2 (1 2 y)[( + 2)(2 4x 6 x2 ) + 4 x(2 4 y 2 2 y) 12 + (2 + 4 x 4 x 6 )] x2 )2 A a! da 2 ve c’ n n çe itli de!erleri için yerel ba! ml l k fonksiyonunun grafikleri verilmi tir. 97 (a) (b) (c) Bekil 3. Teorem 5’ deki konveks kapula kombinasyonunda 2 alt s n r ve (a) c=0.4, (b) c=0.8 ve (c) c=1 de!erlerini ald ! durumda yerel ba! ml l k fonksiyonunun 3 boyutlu ve izdü ümü grafikleri rekil 3 (a), (b) ve (c)’ de (0,1) ve (1,0) noktalar nda de!i kenler aras ndaki noktasal ba! ml l k en yüksek de!eri almakta, bu de!erler c’ n n de!eri 1’ e yakla t kça büyümektedir. 98 (a) (b) (c) Bekil 4. Teorem 5’ deki konveks kapula kombinasyonunda 2 üst s n r ve (a) c=0.4, (b) c=0.8 ve (c) c=1 de!erlerini ald ! durumda yerel ba! ml l k fonksiyonunun 3 boyutlu ve izdü ümü grafikleri rekil 4’ teki her üç durum içinde (0,0) ve (1,1) noktalar nda de!i kenler aras ndaki noktasal ba! ml l k en yüksek de!eri almakta, bu de!erler c’ n n de!eri 1’ e yakla t kça artmaktad r. 3.1. Konveks Kapulalar:n Kadran BaG:ml:l:klar:n:n ncelenmesi Teorem 6: C 1 (u , v ) ve C 2 (u , v) kapulalar pozitif kadran ba! ml kapulalar olsun. O zaman bu kapulalar n konveks kombinasyonlar da pozitif kadran ba! ml d r. 1spat: X , Y ~ U (0,1) ve bu rasgele de!i kenlerin kapulalar C 1 (u , v) , Z , W ~ U (0,1) ve kapulas C 2 (u , v) olsun. E!er C 1 (u , v) ve C 2 (u , v) pozitif kadran ba! ml kapulalar ise; 99 C 1 (u , v) 8 uv ve C 2 (u , v) 8 uv olur. Bu durumda bu kapulalar n konveks kombinasyonlar ; C (u , v) = C 1 (u , v) + (1 )C 2 (u , v) ile ifade edilecek olursa; C (u, v) = C 1 (u , v) + (1 = uv + (1 = uv )C 2 (u, v) )uv oldu!undan kapulalar n konveks kombinasyonlar da pozitif kadran ba! ml d r. 4. Sonuç ve öneriler Sonuç olarak, FGM da! l mlar ailesinden kapulalar n modifikasyonlar ve konveks kombinasyonlar kullan larak yeni kapulalar olu turulup ve bu kapulalara ait ili ki parametrelerinin s n rlar elde edilmi tir. Ayr ca bu kapulalar n yerel ba! ml l k fonksiyonlar elde edilerek farkl de!erler almalar ko ulu alt nda de!i imleri incelenmi tir. Bununla birlikte, olu turulan konveks kapula kombinasyonlar nda kadran ba! ml l k yap s incelenerek pozitif kadran ba! ml l k yap s na sahip olduklar belirlenmi tir. Kaynaklar [1] Bairamov, I., Kotz, S., (2000), On Local Dependence Function for Multivariate Distributions, New Trends in Prob. and Stat., Vol 5 pp. 27–44 [2] Bairamov, I., Kotz, S., and Kozubowski, T.J., (2003), A New Measure of Linear Local Dependence, Statistics, Vol. 37(3), pp. 243-258. [3] Nelsen, R.B., (1999), An Introduction to Copulas, Springer, New York. [4] Nelsen, R.B., (2005), An Introduction to Copulas, Springer, 2nd, New York. [5] Durante, F., Molina, J.J.Q., Sempi, C., (2006), A Generalization of the Archimedean Class of Bivariate Copulas, AISM DOI 10.1007/s10463-006-0061-9. [6] Peya, V.H., Ibragimov, R., Sharakhmetov, S., (2006), Characterizations of Joint Distributions, Copulas, Information, Dependence and Decoupling, With Applications to Time Series, IMS Lecture Notes-Monograph Series, 2nd Lehmann Symposium-Optimality, Vol 49, 183-209. 100 Üç de!i kenli Bernoulli da! l m ile türetilen üç de!i kenli geometrik da! l m Özge ELMASTAr GÜLTEK N smihan BAYRAMOoLU Ege Üniversitesi Fen Fakültesi, statistik Bölümü 35100, Bornova, zmir, Türkiye ozge.elmastas@ege.edu.tr zmir Ekonomi Üniversitesi Fen Edebiyat Fakültesi, Matematik Bölümü 35330, Balçova, zmir, Türkiye ismihan.bayramoglu@ieu.edu.tr Özet Bu çal:#mada, üç deGi#kenli Bernoulli daG:l:m:na baGl: olarak türetilen üç deGi#kenli geometrik daG:l:m ve bu daG:l:ma ili#kin ortak olas:l:k fonksiyonu, ortak daG:l:m fonksiyonu, ortak ya#am fonksiyonu, marjinal olas:l:k fonksiyonlar: ve marjinal ya#am fonksiyonlar: incelenmi#tir. Ayn: zamanda, daG:l:m:n geçmi#i unutma özelliGi de elde edilmi#tir. Anahtar sözcükler: ki ve üç deGi#kenli Bernoulli daG:l:m:, iki ve üç deGi#kenli geometrik daG:l:m. Abstract Trivariate Geometric Distribution Generated by Trivariate Bernoulli Distribution In this study it is shown that trivariate geometric distribution is generated by trivariate Bernoulli distribution. The joint probability function, joint distribution function, joint survival function, marjinal pmfs and marjinal survival functions of this distribution are derived. Also, lack of memory property of the distribution is obtained. Keywords: Bivariate and trivariate Bernoulli distribution, bivariate and trivariate geometric distribution. 1. Giri! Bu çal mada, iki ve üç de!i kenli Bernoulli da! l mlar na ba!l olarak türetilen iki ve üç de!i kenli geometrik da! l m ve bu da! l mlara ili kin ortak olas l k fonksiyonlar , da! l m fonksiyonlar , ya am fonksiyonlar , marjinal olas l k fonksiyonlar , marjinal ya am fonksiyonlar ve geçmi i unutma özelli!i incelenmi tir. Literatürde iki de!i kenli geometrik da! l ma ili kin çok say da çal malar yap lm t r. Daha çok ya am analizlerinde, sepet(urn) modellerinde, vb. birçok alanda uygulamas bulunan iki de!i kenli geometrik da! l m, Marshall ve Olkin (1985), Azlarov ve Volodin (1982), Nair ve Nair (1988), Sun ve Basu (1995), Dhar ve Balaji (2006), Roy (1993) ve Nadarajah (2008) gibi birçok yazar taraf ndan incelenmi tir. 2. ki de<i!kenli geometrik da< l m ki de!i kenli geometrik da! l m farkl yollarla elde edilebilir. Marshall ve Olkin, iki de!i kenli Bernoulli rasgele de!i kenlerine dayanan bir yap ortaya koymu tur. Bernoulli marjinallerine sahip bir (U,V) vektörünü göz önüne alal m. Bu vektör sadece 4 mümkün de!eri al r. (1,1),(1,0),(0,1) ve (0,0) ve bunlara ili kin olas l klar da s ras yla p11 , p10 , p 01 , p 00 'd r. 101 Birbirinden ba! ms z ve ayn da! l ma sahip iki de!i kenli Bernoulli rasgele vektör dizisi (U 1 , V1 ), (U 2 ,V2 ),..., (U n , Vn ),... için; X, U 1 ,U 2 ,..., U n ,... dizisindeki ilk ba ar dan (1) önceki ba ar s zl klar n (0) say s n ; Y de V1 , V2 ,..., Vn ,... dizisindeki ilk ba ar dan (1) önceki ba ar s zl klar n (0) say s n göstersin. X ve Y'nin her biri bir geometrik da! l ma sahiptir ve genel olarak ba! ms z olmayacaklard r. Ortak iki de!i kenli da! l mlar , l / p 00 p10 p +k 0 l 1 p +1 , l < k 5 l P( X = l , Y = k ) = 0 p 00 p11 , l=k 5 p k p pl k 1 p , l > k 1+ 1 00 01 0+ ve ya am fonksiyonu da u ekildedir: l / p 00 p +k 0 l , l < k 5 l F (l , k ) = P( X 8 l , Y 8 k ) = 0 p 00 , l=k 5 pk pl k , l > k 1 00 0+ 3. Üç de<i!kenli geometrik da< l m Bernoulli marjinallerine sahip bir (U,V,Z) vektörünü göz önüne alal m. Bu vektör 8 mümkün de!eri al r. (1,1,1),(1,1,0),(1,0,1),(1,0,0),(0,1,1),(0,1,0),(0,0,1) ve (0,0,0) ve bunlara ili kin olas l klar da s ras yla p111 , p110 , p101 , p100 , p 011 , p 010 , p 001 ve p 000 'd r. Tek de!i kenli marjinal olas l klar P(U = 1 ) = p1+ + = p100 + p101 + p110 + p111 P(U = 0 ) = p 0+ + = p 000 + p 001 + p 010 + p 011 P(V = 1 ) = p +1+ = p 010 + p 011 + p110 + p111 P(V = 0 ) = p + 0 + = p 000 + p 001 + p100 + p101 P(Z = 1 ) = p + +1 = p 001 + p 011 + p101 + p111 P(Z = 0 ) = p + +0 = p 000 + p 010 + p100 + p110 ve iki de!i kenli marjinal olas l klar da P(U = 0, V = 0 ) = p 000 + p 001 = p 00+ P(U = 0, V = 1 ) = p 010 + p 011 = p 01+ P(U = 1, V = 0 ) = p100 + p101 = p10+ P(U = 1, V = 1 ) = p110 + p111 = p11+ P(V = 0, Z = 0 ) = p 000 + p100 = p +00 P(V = 0, Z = 1 ) = p 001 + p101 = p +01 102 P(V = 1, Z = 0 ) = p010 + p110 = p +10 P(V = 1, Z = 1 ) = p 011 + p111 = p +11 P(U = 0, Z = 0 ) = p000 + p010 = p0+0 P(U = 0,Z = 1 ) = p001 + p 011 = p0+1 P(U = 1, Z = 0 ) = p100 + p110 = p1+0 P(U = 1, Z = 1 ) = p101 + p111 = p1+1 olmaktad r. Birbirinden ba! ms z ve ayn da! l ma sahip üç de!i kenli Bernoulli rasgele vektör dizisi (U 1 , V1 , Z 1 ), (U 2 ,V2 , Z 2 ),..., (U n ,Vn , Z n ),... için; X, U 1 , U 2 ,..., U n ,... dizisindeki ilk ba ar dan (1) önceki ba ar s zl klar n (0) say s n ; Y de V1 , V2 ,..., Vn ,... dizisindeki ilk ba ar dan (1) önceki ba ar s zl klar n (0) say s n ; Z de Z 1 , Z 2 ,..., Z n ,... dizisindeki ilk ba ar dan (1) önceki ba ar s zl klar n (0) say s n göstersin. X, Y ve Z'nin her biri bir geometrik da! l ma sahiptir ve genel olarak ba! ms z olmayacaklard r. Ortak üç de!i kenli da! l m P ( X = l , Y = k , Z = t ) , l, k ve t’nin durumlar na göre öyle gösterilir: l < k < t, l < k = t, l < t < k, l > k = t, k < t < l, k < l = t, k < l < t, k > l = t, t < l < k, t < k = l, t < k < l, t > k = l, l =k =t Örne!in; l < k < t için P ( X = l , Y = k , Z = t ) olas l ! hesaplan rken a a! daki gibi bir yap üzerinde dü ünülebilir: U 0 . . . 0 1 1 veya 0 . . . . . . . . . . . V 0 . . . 0 0 0 . . . 0 1 1 veya 0 . . . . . Z 0 . . . 0 0 0 . . . 0 0 0 . . . 0 1 ; 5 5 < l kez 5 5= * 1 kez ; 5 55 < 5 5 5= k- l -1 kez * 1 kez ; 5 55 t-k-1 kez < 5 5 5= * 1 kez 103 Her birbirinden ba! ms z oldu!undan olas l klar çarp ld ! nda p p100 p p+10 p p+ +1 elde edilir. Di!erleri de ayn ekilde yap ld ! nda ortak da! l m a a! daki gibi elde edilmi olacakt r. l 000 k l 1 + 00 deneme t k 1 + +0 l / p000 p100 p +k 00l 1 p +10 p +t +k0 1 p + +1 , 5 l t l 1 k t 1 5 p000 p100 p +00 p + 01 p + 0+ p +1+ , k 5 p000 p 010 p0t +k0 1 p0+1 p 0l +t+ 1 p1+ + , 5 k l k 1 t l 1 5 p000 p 010 p0+0 p1+ 0 p + +0 p + +1 , 5 pt p pl t 1 p pk l 1 p , 001 00 + 10 + + 0 + +1+ 5 000 t k t 1 l k 1 p p p p p p 5 000 001 00+ 01+ 0+ + 1+ + , 5 l P( X = l , Y = k , Z = t ) = 0 p000 p100 p +k 00l 1 p +11 , 5 pk p pl k 1 p , 5 000 011 0+ + 1+ + k 5 p000 p 010 p0l +k0 1 p1+1 , 5 l k l 1 5 p000 p101 p + 0+ p +1+ , t l t 1 5 p000 p 001 p 00 + p11+ , 5 l t l 1 5 p000 p110 p + +0 p + +1 , 5 pl p , 1 000 111 l <k <t l <t <k k <t <l k <l <t t <l <k t <k <l l <k =t l >k =t k <l =t k >l =t t <k =l t >k =l l =k =t Ayr ca buna ili kin ortak ya am fonksiyonu da; l / p000 p +k 00l p +t +k0 , 5 l t l k t 5 p000 p + 00 p +0+ , k 5 p000 p0t +k0 p0l +t+ , 5 k l k t l 5 p000 p0+0 p + +0 , 5 pt pl t pk l , 00 + + 0 + 5 000 t k t l k 5 p000 p00+ p0+ + , 5 l k l F (l , k , t ) = P( X 8 l , Y 8 k , Z 8 t ) = 0 p000 p + 00 , 5 pk pl k , 5 000 0+ + k 5 p000 p0l +k0 , 5 l k l 5 p000 p + 0+ , t l t 5 p000 p00 +, 5 l t l 5 p000 p + +0 , 5 pl , 1 000 gibi olacakt r. 104 l <k <t l <t <k k <t <l k <l <t t <l <k t <k <l l <k =t l >k =t k <l =t k >l =t t <k =l t >k =l l =k =t (1) X, Y ve Z’nin tek de!i kenli marjinal olas l k fonksiyonlar ve marjinal ya am fonksiyonlar ; p(X = l) = p1+ + p 0l + + , p(Y = k) = p +1+ p +k 0+ , p(Z = t) = p + +1 p +t +0 ve FX (l) = P(X 8 l) = p 0l + + FY (k) = P(Y 8 k) = p +k 0+ FZ (t) = P(Z 8 t) = p t + +0 ve ayr ca iki de!i kenli marjinal olas l k fonksiyonlar ve marjinal ya am fonksiyonlar da u ekildedir: l k l 1 / p 00 + p10 + p + 0 + p +1+ , l < k 5 l P(X = l, Y = k) = 0 p 00 l=k + p11+ , 5 pk p pl k 1 p , l > k 1 00+ 01+ 0+ + 1+ + / p 0l + 0 p1+0 p +t +l0 1 p + +1 , l < t 5 P(X = l, Z = t) = 0 p 0l + 0 p1+1 , l =t 5 pt p pl t 1 p , l > t 1 0+ 0 0+1 0+ + 1+ + / p +k 00 p +10 p +t +k0 1 p + +1 , k < t 5 P(Y = k, Z = t) = 0 p +k 00 p +11 , k =t 5 pt p pk t 1 p , k > t 1 +00 +01 + 0+ +1+ ve l k l / p 00 + p + 0+ , l < k 5 l FX , Y (l , k ) = P(X 8 l, Y 8 k) = 0 p 00 l=k +, 5 pk pl k , l > k 1 00+ 0+ + / p 0l + 0 p +t +l0 , l < t 5 FX , Z (l , t ) = P(X 8 l, Z 8 t) = 0 p 0l + 0 , l =t 5 pt pl t , l > t 1 0+ 0 0+ + / p +k 00 p +t +k0 , k < t 5 FY , Z (k , t ) = P(Y 8 k, Z 8 t) = 0 p +k 00 , k =t 5 pt pk t , k > t 1 +00 +0+ (3) 105 (2) l 8 0, k 8 0, t 8 0 için. (1), (2) ve (3)’ü kullanarak ortak da! l m fonksiyonu öyle yaz labilir: F(x, y, z) = P(X ! x, Y ! y, Z ! z) = 1 P(X > x) P(Y > y) P(Z > z) + P(X > x, Y > y) + P(X > x, Z > z) + P(Y > y, Z > z) - P(X > x, Y > y, Z > z) = 1 P( X 8 [x ] + 1) P(Y 8 [ y ] + 1) P( Z 8 [z ] + 1) + P( X 8 [x ] + 1, Y 8 [ y ] + 1) + + P( X 8 [x ] + 1, Z 8 [z ] + 1) + P(Y 8 [ y ] + 1, Z 8 [z ] + 1) P( X 8 [x ] + 1, Y 8 [ y ] + 1, Z 8 [z ] + 1) = 1 FX ([x ] + 1) FY ([ y ] + 1) FZ ([z ] + 1) + FX , Y ([x ] + 1, [ y ] + 1) + FX , Z ([x ] + 1, [z ] + 1) + + FY , Z ([ y ] + 1, [z ] + 1) FX , Y , Z ([x ] + 1, [ y ] + 1, [z ] + 1) Örne!in, x < y < z için gösterildi!inde; [x] +1 [y]-[x] [x] +1 [y]-[x] [z]-[y] F ( x, y, z ) = 1 -p 0[x]+ ++1 - p +[y]0++1 - p +[z]+0+1 + p 00 + p 0[x]+ 0+1 p +[z]-[x] + p +[y]00+1 p +[z]-[y] p + +0 + p +0+ +0 +0 - p 000 p + 00 eklinde olacakt r. Burada [x], [y] ve [z], s ras yla, x, y ve z’den daha büyük olmayan en büyük tamsay y göstermektedir. 3.1. Çok deGi#kenli durum Da! l m çok de!i kenli duruma uyarland ! nda; l1 < l 2 < l 3 < ... < l n için olas l k fonksiyonu a a! daki formülle elde edilebilir: l1 l2 l1 1 l3 l2 1 ln ln 1 1 p0{ p +{ ...0 p10{ ...0 p + 0{ ...0 p +10{ ...0 p + + 0{ ...0 ..... p + ...+ 0 ...+1 { n n 1 n 1 n 2 n 2 n 1 n 1 3.2. Geçmi#i unutma özelliGi (Lack of memory property) a) P(X > k1 + l, Y > k 2 + l, Z > k 3 + l X > l, Y > l, Z > l) = P(X > k1 , Y > k 2 , Z > k 3 ) b) P(X > k1 + l1 , Y > k 2 + l 2 , Z > k 3 + l 3 X > k1 , Y > k 2 , Z > k 3 ) = P(X > l1 , Y > l 2 , Z > l 3 ), { k1 ! k 2 ! k 3 , l1 ! l 2 ! l3 } ? { k1 8 k 2 8 k 3 , l1 8 l 2 8 l3 } kümesindeki tüm k1 , k 2 , k 3 , l1 , l 2 ve l3 tamsay lar için geçerlidir. 106 3.3. Örnek uygulama A, B ve C ile adland r lan 3 tane sepetin oldu!u bir oyunu dü ünelim. Bu sepetlerin içinde 3 farkl renkte top bulunsun. Bunlar k rm z , siyah ve beyaz olsun. Oyunun ba nda, her sepette x tane siyah, y tane k rm z ve z tane beyaz top bulunsun. Oyunda 3 oyuncu olsun. Oyuncular ayn anda kendi sepetlerinden bir top çekerler ve ilk beyaz topu çeken oyunu kazan r. lk beyaz topu çekmek bu oyunun ba ar s olarak tan mlan r. Birbirinden ba! ms z ve ayn da! l ma sahip üç de!i kenli Bernoulli rasgele vektör dizisi (U 1 , V1 , Z 1 ), (U 2 ,V2 , Z 2 ),..., (U n ,Vn , Z n ),... için; X, Y ve Z, s ras yla, U 1 ,U 2 ,..., U n ,... , V1 ,V2 ,...,Vn ,... ve Z 1 , Z 2 ,..., Z n ,... dizilerindeki ilk beyaz top çekilinceye kadar çekilen k rm z ve siyah toplar n say s n göstersin. P{U=K veya S, V=K veya S, Z=K veya S} = p000 P{U=K veya S, V=K veya S, Z=B} = p001 P{U=K veya S, V=B, Z=K veya S} = p010 P{U=K veya S, V=B, Z=B} = p011 P{U=B, V=K veya S, Z=K veya S} = p100 P{U=B, V=K veya S, Z=B} = p101 P{U=B, V=B, Z=K veya S} = p110 P{U=B, V=B, Z=B} = p111 Bu oyunda P ( X = l , Y = k , Z = t ) olas l ! , birinci, ikinci ve üçüncü oyuncular n ilk beyaz topu s ras yla, (l+1)., (k+1). ve (t+1). çekili te bulma olas l ! d r. Örne!in; birinci oyuncunun oyunu kazanma olas l ! a a! daki üç olas l ! n toplam na e it olacakt r. P{Birinci oyuncunun kazanmas } = P{X = l , Y = k , Z = t , l < k < t} + P{X = l , Y = k , Z = t , l < t < k} + + P{X = l , Y = k , Z = t , l < k = t} 4. Sonuç Bu çal mada, üç de!i kenli Bernoulli da! l m na ba!l olarak türetilen üç de!i kenli geometrik da! l m ve bu da! l ma ili kin ortak olas l k fonksiyonu, ortak da! l m fonksiyonu, ortak ya am fonksiyonu, marjinal olas l k fonksiyonlar , marjinal ya am fonksiyonlar ve geçmi i unutma özelli!i incelenmi tir. Ayr ca üç de!i kenli geometrik da! l m n bir örnek uygulamas verilmi tir. Kaynaklar [1] Azlarov, T.A., Volodin, N.A. On the discrete analog of Marshall-Olkin's distribution. In: Stability problems for Stochastic Models, Moscow, 1982. Lecture Notes in Mathematics, Vol.982, pp.17-23. Spinger, Berlin, 1983. [2] Dhar, S.K. and Balaji, S. (2006). On the characterization of a bivariate geometric distribution. Communications in Statistics-Theory and Methods, 35, 759-765. [3] Marshall, A.W. , Olkin, I. (1985) A family of bivariate distributions generated by the Bernoulli 107 distribution. J. Am. Stat. Assoc. 80, 332-338. [4] Nadarajah, S. (2008) Marshall and Olkin's distributions. Acta. Appl. Math. 103, 87-100. [5] Nair, K.R.M. and Nair, N.U. (1988) On characterizing the bivariate exponential and geometric distributions. Ann. Inst. Statist. Math. Vol.40, No.2, 267-271. [6] Roy, D. (1993) Reliability measures in the discrete bivariate set-up and related characterization results for a bivariate geometric distribution, J. Multivariate Anal., 46, 362-373. [7] Sun, K. and Basu, A.P. (1995) A characterization of a bivariate geometric distribution. Statistic&Probability Letters, Vol.23, pp.307-311. Basit rasgele örnekleme yönteminde medyan tahmin edicileri Sibel AL Hülya ÇINGI Hacettepe Üniversitesi statistik Bölümü, Beytepe, Hacettepe Üniversitesi statistik Bölümü, Beytepe, 108 06532, Ankara, Türkiye 06532, Ankara, Türkiye sibelal@hacettepe.edu.tr. hcingi@hacettepe.edu.tr Özet Gelir, gider, üretim gibi de!i kenlerin yer ald ! çal malarda de!i kenler oldukça çarp k da! ld ! ndan medyan de!eri ortalamaya göre daha çok tercih edilen bir konum ölçüsü olmu tur. Litaratürde, basit rasgele örnekleme yöntemi kullan larak medyan tahmin edicilerine ili kin çe itli çal malar yer almaktad r (Gross (1980), Kuk ve Mak (1989) Singh ve ark. (2003), Singh (2003)). Bu çal mada bu tahmin edicilere ili kin yan ve hata kareler ortalama de!erleri elde edilmi ve bu tahmin edicilerin etkinlikleri klasik, oransal medyan tahmin edici gibi tahmin edicilerle teorik olarak kar la t r lm t r. Son olarak hata kareler ortalama de!erleri verilen say sal örnekler ile kar la t r lm t r. Anahtar sözcükler: Basit Rasgele Örnekleme, Medyan Tahmin Edicisi, Yard:mc: DeGi#ken, Hata Kareler Ortalamas: (HKO), Etkinlik. Abstract Median Estimators in Simple Random Sampling In survey sampling, when variables have a highly skewed distribution, such as income, expenditure, production are studied, median is often regarded as a more appropriate measure of location than mean. In literature, there have been several researches on median estimation in simple random sampling (Gross (1980), Kuk and Mak (1989) Singh et al. (2003), Singh (2003)). We obtain bias and mean square error equations of these estimators and theoretically compare their performance with several existing estimators such as sample median, ratio median estimator. In addition, mean square errors compared with given numerical examples. Keywords: Simple Random Sampling, Median Estimator, Auxiliary Variable, Mean Square Error (MSE), Efficiency. 1. Giri! Ara t rma sonuçlar n n güvenilir olmas için verilerin elde edildi!i kayna! n özelli!i çok önemlidir. En do!ru sonuç aranan bilginin elde edilece!i kayna! n tümünden elde edilen sonuçtur. Ancak çal malarda, ara t rma konusu ve kitlenin büyüklü!ü nedeniyle tüm birimlerin incelemeye al nmas zaman, para ve insan gücü bak m ndan zorluk yaratabilir. Bu durumda kitleye örneklemenin uygulanmas zorunludur. Örnekleme kuram nda, kitleden kitlenin yap s na en uygun örnekleme yöntemiyle örneklem seçilir ve örneklemden kitlenin özellikleri tahmin edilir. Literatürde kitle ortalamas , toplam ve varyanslar n n tahmini için çe itli örnekleme yöntemlerinde kullan lan tahmin edicilere oldukça s k rastlanmaktad r. Bilindi!i üzere, verilerin da! l m simetrik olmay p oldukça çarp k da! ld ! nda medyan de!erinin ortalama de!erinden daha uygun bir konum ölçüsü oldu!u kabul edilmektedir. Gelir, gider gibi de!i kenlerin yer ald ! örnekleme çal malar nda, de!i kenler oldukça çarp k da! ld ! için medyan tahmin edicileri ortalama tahmin edicilerine göre daha çok kullan lmaktad rlar. Bu çal mada amaç basit rasgele örnekleme yönteminde kullan lan basit, oransal, çarp msal, regresyon gibi çe itli medyan tahmin edicilerini tan tmak, bu tahmin edicilerin yan ve hata kareler ortalamalar n elde etmek ve tahmin edicileri birbirleri ile kar la t rmakt r. Ayr ca say sal örnekler ile tahmin edicilerin etkinlikleri, hata kareler ortalamalar bak m ndan incelenmi tir. 2. Basit rasgele örnekleme yönteminde çe!itli medyan tahmin edicileri 109 Medyan, bir örneklem ya da olas l k da! l m içindeki yüksek de!erde olan veri say lar n n yar s n dü ük de!erde olan veri de!erlerini kapsayan yar s ndan ay ran bir say olarak tan mlan r ve bir merkezsel konum ölçüsü olarak kullan l r. Medyan de!erinin bulunmas için öncelikle verilerin küçükten büyü!e do!ru s ralanmas gerekir. Medyan tahmini s ral istatistiklere dayand ! için ortalama tahminine göre daha karma kt r. M Y ile gösterilen kitle medyan , kitleyi iki e it parçaya ay rmaktad r. M̂ Y örneklem medyan n ifade etmektedir. n örneklem büyüklü!ünün, tek veya çift olmas durumuna göre örneklem medyan hesaplanmaktad r. Örneklem büyüklü!ü n = 2m + 1 oldu!unda örneklem medyan M̂ Y , (m + 1). s ral istatisti!e kar l k gelecektir. Örneklem büyüklü!ü n = 2m oldu!unda ise, örneklem medyan M̂ Y , (m). ve (m + 1). s ral istatistiklerin ortalamas na kar l k gelecektir. 2.1. Klasik medyan tahmin edicisi Örnekleme çal malar nda ilk olarak Gross (1980), kitle medyan n n tahminini M̂ Y olarak tan mlam ve tahmin edicinin asimptotik varyans n elde etmi tir. y ’nin birikimli da! l m fonksiyonu FY , olas l k yo!unluk fonksiyonu ise f Y ile gösterilsin. Taylor serisi aç l m ndan yararlanarak e itlik (1) yaz labilir. FY (M̂ Y ) = FY [M Y + (M̂ Y M Y )] = FY (M Y ) + f Y (M Y )(M̂ Y Burada (M̂ Y M̂ Y M Y ) + o p (n 1/ 2 ) (1) M Y ) ifadesi yaln z b rak l rsa, M Y = {f Y (M Y )} 1 [FY (M̂ Y ) FY (M Y )] + o p (n 1/ 2 ) ( 2) e itli!i elde edilir. F̂Y , FY ’nin tahmini olmak üzere, FY (M̂ Y ) FY ( M Y ) = F̂Y (M̂ Y ) F̂Y (M Y ) + o p (n 1/ 2 ) (3) biçiminde yaz labilir. F̂Y (M̂ Y ) = 0,5 ve F̂Y (M Y ) = p Y olmak üzere, (2) numaral e itlikte (3) numaral e itlik yerine konulursa, M̂ Y M Y = {f Y (M Y )} 1 [F̂Y (M̂ Y ) F̂Y (M Y )] + o p (n = {f Y (M Y )} [0,5 p y ] + o p (n 1 1/ 2 1/ 2 ) ) ( 4) e itli!i elde edilmektedir. P = Q = 1 / 2 ve V(p Y ) = (1 f )n 1 PQ olmak üzere (4) numaral e itlikte E (M̂ Y M Y ) 2 i lemi yap l rsa örneklem medyan n n asimptotik varyans , V(M̂ Y ) = {f Y (M Y )} 2 V(p Y ) = (1 f )(4n ) 1{f Y (M Y )} 2 (5) olarak elde edilir. 2.2. Oransal medyan tahmin edici 110 Kuk ve Mak, (1989) yard mc de!i ken bilgisini kullanarak, M Y kitle medyan n n tahmini için basit oransal tahmin ediciyi, M̂ YO = M̂ Y M̂ X MX (6) biçiminde tan mlam lard r. lgilenilen de!i ken ve yard mc de!i kene ili kin elimizde X ve Y de!erleri olsun. Medyan tahminleri aras ndaki kovaryans hesaplamak için Kuk ve Mak (1989) Pij oranlar na ili kin iki yönlü s n flama tablosundan yararlanm lard r. ki yönlü s n flama göz önüne al n rsa P11 , X ! M X ve Y ! M Y olan birimlerin oran n vermektedir. Benzer durumlar Tablo 1’de gösterilmi tir. Tablo 1. X ve Y de!erlerine ili kin iki yönlü s n flama sonuçlar Y ! MY Y > MY Toplam X ! MX P11 P21 P.1 X > MX P12 P22 P.2 Toplam P1. P2 . 1 M̂ X ile M̂ Y aras ndaki kovaryans e itli!i, e itlik 4’ten yararlanarak, e itlik 7’de görüldü!ü biçimde elde edilmektedir. Cov(M̂ X , M̂ Y ) = Cov [M̂ X [ M X , M̂ Y MY ] = Cov {f X (M X )} (0,5 p X ) , {f Y (M Y )} 1 (0,5 p y ) 1 ] = {f X ( M X )f Y (M Y )} Cov (p X , p Y ) 1 = {f X ( M X )f Y (M Y )} 1 [E (p X p Y ) E (p X )E( p Y )] = (1 f )(n ) 1 {f X (M X )f Y (M Y )} 1 [P11 XY 0,25] (7) = 4P11 1 ile ifade edilirse M̂ X ile M̂ Y aras ndaki kovaryans e itli!i, Cov(M̂ X , M̂ Y ) = (1 f )(4n ) 1 {f X (M X )f Y (M Y )} 1 XY (8) eklinde elde edilir. M̂ YO tahmin edicisinin yan ve hata kareler ortalamalar n bulmak için fark yönteminden yararlan l r. Tan mlanan de!i kenler ve bu de!i kenlerin beklenen de!erleri, karelerinin beklenen de!erleri ve kovaryans terimi a a! daki ekilde elde edilir. e0 = M Y M̂ Y MY M̂ Y = M Y (1 + e 0 ) (9) e1 = M X M̂ X MX M̂ X = M X (1 + e1 ) E ( e 0 ) = E (e 1 ) = 0 (10) 111 (5) numaral e itlikten yararlanarak E (e i2 ) terimleri elde edilebilir. E (e 02 ) = (1 f )(4n ) 1 {M Y f Y ( M Y )} 2 E (e ) = (1 f )(4n ) {M X f X (M X )} 2 (11) 2 1 1 (7) numaral e itlikten yararlanarak kovaryans terimi (12) numaral e itlikte görüldü!ü biçiminde elde edilmektedir. E (e 0 e 1 ) = (1 f )(4n ) 1 {M X M Y f Y (M Y )f X (M X )} 1 (12) XY (6) numaral e itlikte, (9) numaral e itlikte tan mlanan dönü ümler yap ld ! nda tahmin edici, M̂ YO = M Y (1 + e 0 ) (1 + e1 ) 1 (13) biçiminde elde edilir. Burada (1 + e1 ) 1 ifadesi (1 e1 + e12 e13 + e14 ...) biçiminde binom serisi aç l m ndan yaz l p, çarp m i lemi yap ld ! nda ve ikinci dereceden sonraki e’li terimler ihmal edildi!inde tahmin edici (14) numaral e itlikte görüldü!ü biçimde elde edilmektedir. M̂ YO # M Y (1 + e 0 e1 e 0 e 1 + e12 ) (14) Tahmin edicinin yan (15) numaral e itlikte (10), (11) ve (12) numaral e itlikler yerine konulursa e itlik (16)’da görüldü!ü biçimde elde edilir. E (M̂ YO M Y ) # M Y E (e 0 Yan (M̂ YO ) # e1 e 0 e 1 +e12 ) / M Y (1 f ) 1 2 0 4n{M X f X (M X )} 1 XY (15) M X f X (M X ) ; < M Y f Y (M Y ) = (16) (14) numaral e itlikten yararlanarak E (M̂ YO M Y ) 2 i lemi yap l p, ikinci dereceden sonraki e’li terimler ihmal edilirse tahmin ediciye ili kin hata kareler ortalamas e itlik (18)’de görüldü!ü biçimde elde edilir. E (M̂ YO M Y ) 2 # M 2Y E (e 02 + e12 HKO(M̂ YO ) # 2e 0 e 1 ) (17) M Y f Y (M Y ) 1 f 1+ 2 4n{f Y ( M Y )} M X f X (M X ) 2 / 01 2 1 XY M X f X (M X ) ; < M Y f Y (M Y ) = (18) 2.3. Çarp:msal medyan tahmin edici Singh (2003) çarp msal medyan tahmin edicisini, M̂ YÇ = M̂ Y M̂ X MX (19) 112 biçiminde tan mlam t r. (9) numaral e itlikteki dönü ümler yerine konulursa tahmin edici (20) numaral e itlikte görüldü!ü biçimde elde edilir. M̂ YÇ = M Y (1 + e 0 )(1 + e1 ) = M Y (1 + e 0 + e1 + e 0 e1 ) ( 20) Çarp msal tahmin edicinin yan (22) numaral e itlikteki gibi elde edilmektedir. E (M̂ YÇ M Y ) = M Y E (e 0 + e 1 + e 0 e 1 ) Yan (M̂ YÇ ) = 1 f {M X f X (M X )f Y ( M Y )} 1 4n (21) ( 22) XY (21) numaral e itlikte (M̂ YÇ M Y ) 2 ifadesinin beklenen de!eri al nd ! nda ve ikinci dereceden sonraki e’li terimler ihmal edildi!inde tahmin edicinin hata kareler ortalamas e itlik (24)’teki gibi elde edilir. HKO (M̂ YÇ ) # M 2Y E (e 02 + e 12 + 2e 0 e1 ) ( 23) M Y f Y (M Y ) 1 f 1+ HKO(M̂ YÇ ) # 2 4n{f Y ( M Y )} M X f X (M X ) 2 / 01 + 2 1 XY M X f X (M X ) ; < M Y f Y (M Y ) = ( 24) 2.4. Regresyon medyan tahmin edici Singh (2003) regresyon medyan tahmin edicisini, M̂ YR = M̂ Y + b(M X M̂ X ) ( 25) olarak tan mlam t r. Tahmin edici (9) numaral e itlikte tan mlanan e’li terimler cinsinden, M̂ YR = M Y (1 + e 0 ) + b(M X M X (1 + e1 )) ( 26) biçiminde yaz labilir. b sabit oldu!unda yans z medyan regresyon tahmin edicisinin varyans (28) numaral e itlikte görüldü!ü gibi elde edilir. E (M̂ YR M Y ) = M Y E(e 0 ) bM X E (e1 ) V (M̂ YR ) = 1 f [{f Y (M Y )} 4n 2 + b 2 {f X (M X )} ( 27) 2 2b{f X (M X )f Y (M Y )} 1 XY ] ( 28) Regresyon medyan tahmin edicisine ili kin minimum varyans elde etmek amac yla (28) numaral e itlikte verilen varyans n b’ye göre türevi al n r ve s f ra e itlenirse optimal b de!eri elde edilir. V (M̂ YR ) = 2b{f X (M x )} b =0 2 2{f X (M X )f Y (M Y )} 1 XY ( 29) 113 b= f X (M X ) f Y (M Y ) (30) XY E itlik (28)’de, e itlik (30)’da elde edilen optimal b de!eri yerine konulursa regresyon medyan tahmin edicinin minimum varyans e itlik (31)’de görüldü!ü ekilde elde edilir. VMin (M̂ YR ) = 1 f (1 4n{f Y (M Y )}2 2 XY ) (31) 2.4. Çe#itli oransal ve çarp:msal medyan tahmin edicileri Singh (2003) oransal ve çarp msal medyan tahmin edicilerini geli tirerek yeni tahmin ediciler önermi tir. Önerilen tahmin ediciler Tablo 2’de görülen 1 ve 2 numaral tahmin edicilerdir. Bu tahmin edicilere ili kin minimum yan ve minimum hata kareler ortalamalar Tablo 2’de görülmektedir. Minimum yan ve minimum hata kareler ortalamas n elde etmek için HKO’da türev al n p s f ra M f (M ) M Xf X (M X ) e itlenerek optimal = X X X XY ve optimal = XY biçiminde elde edilmi tir. M Y f Y (M y ) M Yf Y (M y ) Singh ve arkada lar (2003) yard mc de!i kene ili kin sabit bir de!erin bilindi!ini varsayarak (örne!in yard mc de!i kene ili kin tepe de!eri, da! l m geni li!i gibi) yeni iki tahmin edici önermi lerdir. Önerilen bu tahmin ediciler Tablo 2’de verilen 3 ve 4 numaral tahmin edicilerdir. Tahmin edicilere ili kin yan ve hata kareler ortalamalar tabloda verilmektedir. Tabloda görülen ve MX MX @ de!erleri = ve @ = olarak tan mlanm t r. A + MX A MX Tablo 2: Çe itli oransal ve çarp msal medyan tahmin edicileri No 1 2 3 4 Tahmin Edici HKO M̂ X M̂ X MX (1 f ) XY M Y f Y (M Y ) 8nM Y {f Y (M Y )}2 M X f X (M X ) MX M̂ S1 = M̂ Y Yan (1 f ) XY M Y f Y (M Y ) 8nM Y {f Y ( M Y )}2 M X f X (M X ) M̂ S2 = M̂ Y M̂SSP1 = M̂ Y M̂ SSP 2 = M̂ Y M̂ X + A XY [ 1 f 1 4n{f Y (M Y )}2 XY (1 f ) XY 4 n M X f X ( M X )f Y ( M Y ) A M̂ X A MX MX + A 1 f [1 4n{f Y (M Y )}2 (1 f )M Y @ @ 4n{M X f X (M X )}2 XY 1 f 1+ 4n{f Y (M Y )}2 M X f X (M X ) M Y f Y (M Y ) 2 XY 2 XY ] ] M Y f Y (M Y ) M X f X (M X ) 1 f M Y f Y (M Y ) 1+ @ M X f X (M X ) 4n{f Y (M Y )}2 2 / 0 1 2 2 / 0@ 2 1 XY XY M X f X (M X ) ; < M Y f Y (M Y ) = M X f X (M X ) ; < M Y f Y (M Y ) = 3. Tahmin edicilerin kar! la!t r lmas Kuk ve Mak (1989), oransal medyan tahmin edicinin belirli bir ko ul alt nda klasik medyan tahmin edicisinden daha etkin oldu!unu göstermi lerdir. (5) ve (18) numaral e itliklerden yararlanarak, HKO(M̂ YO ) < V( M̂ Y ) e itsizli!i yaz l r. Buradan, 2 MY MY {f X (M X )} 2 < 2 {f X (M X )f Y (M Y )} 1 MX MX XY 114 , XY > M Y f Y (M Y ) 2M X f X (M X ) (31) bulunur. (31) numaral e itsizli!in sa!lanmas durumunda oransal medyan tahmin edici klasik medyan tahmin edicisinden daha etkindir. (5) ve (24) numaral e itliklerden yararlanarak, çarp msal medyan tahmin edici ile klasik medyan tahmin edicisi kar la t r ld ! nda (32) numaral e itsizli!in sa!lanmas durumunda çarp msal medyan tahmin edicinin klasik medyan tahmin edicisinden daha etkin oldu!u görülmektedir. HKO(M̂ YÇ ) < V (M̂ Y ) XY < M Y f Y (M Y ) 2M X f X (M X ) (32) Regresyon medyan tahmin edicinin klasik medyan tahmin edicisinden her zaman daha etkin oldu!u (33) numaral e itsizlikte görülmektedir. VMin (M̂ YR ) < V (M̂ Y ) (1 f )(4n ) 1{f Y (M Y )} 2 (1 2 XY 2 XY ) < (1 f )(4n ) 1{f Y ( M Y )} 2 >0 (33) Çe itli medyan tahmin edicilerine ili kin kar la t rmalar Tablo 3’te özetlenmi tir. Tablo 3: Çe itli medyan tahmin edicilerinin kar la t r lmas Kar! la!t rma Ko!ul HKO Min (M̂ S1 ) < HKO (M̂ YO ) M Y f Y (M Y ) M X f X (M X ) HKO Min (M̂ S2 ) < HKO (M̂ YÇ ) ( ) ( ) >0, Daima >0, Daima 2 XY M Y f Y (M Y ) 2M X f X (M X ) >0 ise XY > <0 ise XY < >1 ise XY > (1 + ) M Y f Y (M Y ) 2M X f X (M X ) <1 ise XY < (1 + ) M Y f Y (M Y ) 2M X f X (M X ) Kar! la!t rma HKO (M̂ SSP 2 ) < HKO M̂ Y XY M Y f Y (M Y ) + M X f X (M X ) HKO (M̂ SSP1 ) < HKO (M̂ Y ) HKO (M̂ SSP1 ) < HKO M̂ YO 2 M Y f Y (M Y ) 2M X f X (M X ) Ko!ul @>0 115 ise XY @ M Y f Y (M Y ) > 2M X f X (M X ) ( HKO (M̂ SSP 2 ) < HKO M̂ YO ) @<0 ise XY < @ M Y f Y (M Y ) 2M X f X (M X ) @ >1 ise XY > (1 + @) M Y f Y (M Y ) 2M X f X (M X ) @ <1 ise XY < (1 + @) M Y f Y (M Y ) 2M X f X (M X ) 4. Uygulama Bu çal mada üç farkl kitle kullan larak tahmin edicilere ili kin yan ve hata kareler ortalama de!erleri hesaplanm t r. Tahmin edicilerin etkinlikleri e itlik (34) ile elde edilmi tir. Etkinlik = V (M̂ Y ) HKO(M̂ j ) × 100 ( j = oransal, çarpimsal, regresyon, SSP1, SSP 2, S1, S2) (34) Veri Kümesi 1: X: Kozalakl a!açlar n gö!üs uzunlu!unun yar çap (cm); Y: Kozalakl a!açlar n boy uzunlu!u (fit) (Kaynak: Chen ve di!erleri, 2004) Veri Kümesi 2: X: 1994 y l nda Atlantik ve Gulf sahillerinde bal kç lar taraf ndan avlanan bal k say s ; Y: 1995 y l nda Atlantik ve Gulf sahillerinde bal kç lar taraf ndan avlanan bal k say s (Kaynak: Sarjinder, 2003) Veri Kümesi 3: X: Türkiye’de orta geli mi lik seviyesindeki illere ili kin ilkö!retimde okuyan toplam ö!renci say s ; Y: Türkiye’de orta geli mi lik seviyesindeki illere ili kin ilkö!retimdeki toplam ö!retmen say s (Kaynak: TÜB TAK SOBAG, 106K077,2007 ) Tablo 4: Veri istatistikleri Veri Kümesi 1 Veri Kümesi 2 Veri Kümesi 3 396 69 340 65 24 150 14,6 2138 3513 N n MX MY f X (M X ) 30 0,021940 2068 0,000132 178 0,00008341 f Y (M Y ) P11 0,011784 0,46 0,000133 0,49 0,00018019 0,48 0,84 73,6 0,96 37975 0,92 171278 XY RX Tablo 5: Tahmin Edicilerin Etkinlikleri Tahmin Edici Veri Kümesi 1 HKO Etkinlik Veri Kümesi 2 HKO Etkinlik 116 Veri Kümesi 3 HKO Etkinlik klasik (M̂ Y ) oransal (M̂ YO ) 23,15123 100,00 384051,00 100,00 28687,070 100,00 8,42478 274,80 30191,32 1272,06 23253,180 123,37 24,56 1467469,00 26,17 34808,350 82,41 çarp msal (M̂ YÇ ) 94,27428 regresyon (M̂ YR ) 6,81572 339,67 30109,60 SSP1 (M̂SSP1 ) 14,25590 162,40 SSP2 (M̂SSP 2 ) 16,81843 S1 (M̂S1 ) S2 ( M̂S2 ) 1275,51 4406,334 651,04 342476,00 112,14 28566,240 100,42 137,65 346784,20 110,75 28571,090 100,41 6,81572 339,67 30109,60 1275,51 4406,334 651,04 6,81572 339,67 30109,60 1275,51 4406,334 651,04 Üç kitle de incelendi!inde en etkin tahmin edicilerin regresyon (M̂ YR ) , M̂ S1 ve M̂ S 2 tahmin edicileri oldu!u görülmektedir. Yard mc de!i ken ile ilgilenilen de!i ken aras ndaki korelasyon yüksek oldu!undan oransal tahmin edicilerin kullan lmas daha uygundur. Uygulama sonuçlar nda çarp msal medyan tahmin edicinin (M̂ YÇ ) , en dü ük etkinli!e sahip olmas bu durumun bir sonucudur. Verilen üç farkl kitlede de oransal medyan tahmin edici (M̂ YO ) , M̂ SSP1 ve M̂ SSP 2 tahmin edicileri ile kar la t r ld ! nda ko ullar sa!lanmad ! için daha etkin bulunmu tur. Sonuç olarak verilen bu örnekler için bak ld ! nda regresyon (M̂ YR ) ve Singh 1 (M̂S1 ) medyan tahmin edicilerinin en etkin tahmin ediciler oldu!u söylenebilir. Kaynaklar [1] Chen, Z., Bai, Z,. Sinha, B.K. (2004). Ranked Set Sampling Theory and Applications, Springer-Verlag, New York. [2] Gross T. S., (1980), Median Estimation in Sample Surveys. Proc. Surv. Res. Meth. Sect. Amer. Statist. Ass.,181-184. [3] Ç ng H., Kad lar C., Koçberber G., (2007), Türkiye Genelinde lk ve Orta Ö!retim Olanaklar n n ncelenmesi ve Belirlenen Aksakl klara Çözüm Önerilerinin Getirilmesi, TÜB TAK, SOBAG, 106K077. [4] Kuk, A.Y.C., Mak, T.K., (1989), Median Estimation in the Presence of Auxiliary Information. J. R. Statist. Soc. B. 51, 261-269. [5] Singh, S., (2003), Advanced Sampling Theory with Applications: How Michael ‘selected’ Amy, Kluwer Academic Publishers, London. [6] Singh, H. P., Singh, S., Puertas, S., (2003), Ratio Type Estimators for the Median of Finite Populations. Allgemenius Statistisches Archiv, 87, 369-38. 117 Olas l ksal oynakl k modellerinin Bayesci çözümlemesi ve bir uygulama Derya Ersel Yasemin Kayhan At lgan Süleyman Günay Hacettepe Üniversitesi Fen Fak. statistik Böl. 06800 Beytepe Ankara, Türkiye dtektas@hacettepe.edu.tr Hacettepe Üniversitesi Fen Fak. statistik Böl. 06800 Beytepe Ankara, Türkiye ykayhan@hacettepe.edu.tr Hacettepe Üniversitesi Fen Fak. statistik Böl. 06800 Beytepe Ankara, Türkiye sgunay@hacettepe.edu.tr Özet Zaman Serileri, finansal varl:klar:n çözümlemesinde s:kça kullan:lan istatistiksel yöntemlerden biridir. Özellikle, son y:llarda zaman serisi modellerine zaman içerisinde deGi#en varyans faktörünün de eklenmesi ile olu#turulan modeller üzerinde çe#itli çal:#malar yürütülmektedir. Bu alanda en çok bilinen ve kullan:lan modeller varyans:n deterministik bir fonksiyon olarak tan:mland:G: ‘Otoregresif Ko#ullu DeGi#en Varyans / Autoregressive Conditionally Heteroscedastic / ARCH’ ve ‘Genelle#tirilmi# Otoregresif Ko#ullu DeGi#en Varyans / Generalized Autoregressive Conditionally Heteroscedastic / GARCH’ modelleridir. ARCH ve GARCH modellerine seçenek olarak geli#tirilen ‘Olas:l:ksal Oynakl:k / Stochastik Volatility / SV’ modelinde ise varyans, olas:l:ksal bir fonksiyon olarak tan:mlan:r. Finansal zaman serilerinde SV modelleri, ARCH modellerine göre daha esnektir. Ancak, SV modeline ili#kin olabilirlik fonksiyonu karma#:k bir yap:ya sahip olduGundan parametre tahminlerinin klasik yöntemlerle elde edilmesi zordur. Bu modelin Bayesci çözümlemesinde ‘Markov Zinciri Monte Carlo / Markov Chain Monte Carlo / MCMC’ tekniklerinin kullan:lmas: ile bu sorun ortadan kald:r:lm:#t:r. Bu teknikler sayesinde Bayesci tahminler kolayca hesaplanabilmektedir. Bu çal:#mada, SV modellerinin Bayesci çözümlemesi üzerinde durulacak ve Ocak 1999 / Nisan2009 aylar: aras:ndaki Euro/TL döviz kuru serisi üzerinde yöntemin bir uygulamas: sunulacakt:r. Anahtar sözcükler: Stokastik volatilite; MCMC yöntemler; Gibbs örnekleme algoritmas;, Bayesci çözümleme. Abstract Bayesian Analysis of Stochastic Volatility Models and An Application Time series are frequently used to analyze financial assets. Recently, several studies have been carried out especially on the models which are constituted by inserting the changing variance factor in time to the time series model. Well-known models of this area are called ARCH and GARCH models. In these models, variance is defined as a deterministic function. An alternative to ARCH/GARCH is SV model. Contrary to ARCH/GARCH, in SV model variance is determined as a stochastic function. The SV model provides more flexible modelling of financial time series than ARCH/GARCH models. Since the structure of the likelihood function of SV model is very complicated, it is very hard to estimate the model parameters via the classical approaches. By using Bayesian analysis of SV model and MCMC techniques this problem is solved. In this study, Bayesian analysis of stochastic volatility models will be explained and application of this analysis to the financial time series data, Jan 1999/Apr 2009 monthly Euro/TL exchange rates, will be exhibited. Keywords: Stochastic volatility; MCMC methods; Gibbs sampling; Bayesian analysis. 1. Giri! Oynakl k (volatility), belirli bir zaman dilimi içerisinde özellikle sermaye, döviz ve tahvil piyasalar ndaki fiyatlar n hareketlili!inin bir ölçüsü olarak tan mlanabilir. Finans çal malar nda oynakl k, genellikle finansal varl k getirilerinin standart sapmas veya varyans olarak tan mlanmakta ve finansal varl klar n toplam riskini ifade etmekte kullan lmaktad r. K sa bir zaman dilimi içerisinde fiyatlardaki h zl art ve azal lar yüksek oynakl k, de!i imi az olan fiyatlar ise dü ük oynakl k olu turur. Finansal piyasalardaki hareketlerin yönü ve büyüklü!ü konusunda yap lan çal malar, bu hareketleri modellemek için birçok tekni!in geli tirilmesini de beraberinde getirmi tir. Oynakl k modelleri genel olarak deterministik ve olas l ksal olmak üzere iki ana s n fta incelenebilir. Bu modellerde yer alan ko ullu varyans terimi, deterministik modellerde önceki gözlemlerin 118 deterministik bir fonksiyonu olarak tan mlan rken, olas l ksal oynakl k modellerinde olas l ksal bir fonksiyon olarak tan mlanmaktad r. Deterministik modeller içerisinde en çok bilinen ve birçok ara t rmac taraf ndan kullan lan model 1982 y l nda Engle taraf ndan geli tirilen ARCH modelidir. ARCH süreci ile zamana göre de!i im gösteren ko ullu varyans modellenir. Modelde t zaman ndaki ko ullu varyans t-1 zaman na kadar olan gözlemlerin de!erlerine ba!l d r. ARCH modelleri, do!rusal ve do!rusal olmayan bölüm olarak ba l ca iki bölümde ele al nmaktad r. Do!rusal bölüm, ba! ml de!i kenin zaman içindeki de!i imini gösteren ko ullu ortalama denklemidir. Do!rusal olmayan bölüm ise, ba! ml de!i ken olan ko ullu varyans ile hata teriminin gecikmeli de!erlerinin ili kisini gösteren ko ullu varyans denklemidir. Daha sonra bu model Bollerslev taraf ndan genelle tirilerek GARCH modeli elde edilmi tir. Hem ARCH hemde GARCH modellerinde t-1 an ndaki oynakl k, bilinen bir de!er olarak kabul edilir. Bununla birlikte, bu de!er gözlemlenemeyen bir de!i ken olarak da dü ünülebilir. Bu durumda sürecin varyans n olas l ksal kabul ederek oynakl ! n logaritmas n do!rusal olas l ksal bir süreç olarak tan mlayan SV modeli geli tirilmi tir. ARCH ve GARCH modellerinden farkl olarak SV modelinin ko ullu varyans denkleminde bir raslant de!i keni yer almaktad r. Bu terim ile modelin varyans zamana göre olas l ksal de!i im gösteren bir de!i ken olarak tan mlan r. Deterministik ve olas l ksal modeller aras ndaki temel farkl l k oynakl ! n gözlemlenebilir bir de!i ken olarak kabul edilip edilmemesidir. SV modellerinde biri gözlenen, di!eri gizli oynakl k olmak üzere iki tip gürültü süreci tan ml d r. Bu nedenle SV modelleri ARCH modellerine göre finansal zaman serilerinde daha esnek modeller olu turmaktad r. Ölçüm ve örnekleme hatalar gözlem hatalar n olu tururken, oynakl k dinamiklerinin de!i kenli!i de süreç hatalar n olu turmaktad r. SV modellerine ili kin olabilirlik fonksiyonunun karma k yap s nedeniyle bu modellerde klasik parametre tahminlerine ula mak zordur. Son zamanlarda yap lan çal malarda SV modelleri için kullan lan ba l ca tahmin yöntemleri, genelle tirilmi momentler yöntemi (Malino ve Turnbull, 1990), quasi-en çok olabilirlik tahmini (Harvey, Ruiz ve Shephard, 1994) ve benzetim tabanl genelle tirilmi momentler yöntemi (Duffie ve Singleton, 1993) olarak s ralanabilir. Bu klasik yöntemlere ek olarak Bayesci tahmin yöntemleri de geli tirilmi tir. Çok boyutlu durumda sonsal da! l mlar elde etmek için kullan lan integral i lemlerinin karma kl ! nedeniyle SV modellerinin Bayesci çözümlemesini yapmak kolay de!ildir. Sonsal hesaplamalardaki bu problem ise Markov Zinciri Monte Carlo (MCMC) tekniklerinin geli tirilmesi ile ortadan kald r lm t r. Andersan, Chung ve Sorensan 1999 y l nda yapt klar çal mada MCMC yöntemleri ile SV modellerine ili kin yap lan ç karsamalar n daha etkin oldu!unu göstermi lerdir. Bu çal mada Bayesci çözümleme WinBUGS program yard m yla yap lm t r. WinBUGS’da herhangi bir önsel yo!unluk fonksiyonu ya da olabilirlik fonksiyonunun aç k gösterimine gerek olmad ! için, SV modellerinin bu program yard m yla çözümlenmesi daha kolayd r. Program n en belirgin üstünlü!ü modeldeki her türlü de!i ikli!in kolay bir biçimde gerçekle tirilebilmesidir. Program n eksik kalan taraf ise yak nsamalar n yava gerçekle mesidir. Yak nsamadaki yava l k ise Gibbs örnekleme algoritmas n n yap s ndan kaynaklanmaktad r. SV modelinin Bayesci çözümlemesinde kullan lan MCMC algoritmalar nda ard arda gelen durumlar aras nda yüksek ili kiler oldu!undan yak nsama yava gerçekle ir. WinBUGS program nda, modelin grafiksel gösteriminden yararlan larak parametrelerin tam ko ullu da! l mlar elde edilebilir. Bu program, her bir tam ko ullu da! l ma ili kin en iyi örnekleme yöntemini seçen bir sistem içermektedir. Bu çal mada amaç, SV modellerinin Bayesci çözümlemesi üzerinde durmak ve finansal zaman serileri üzerinde yöntemin bir uygulamas n sunmakt r. Yöntemin uygulamas WinBUGS program kullan larak yap lm t r. 119 2. Olas l ksal Oynakl k Modelinin Bayesci Çözümlemesi SV modelinde parametre tahminlerinin elde edilmesinde kullan lan genel Bayesci yakla m, Meyer ve Yu (2000) taraf ndan ele al nm t r. Bu çal mada, SV modelinin döviz kuru serileri üzerindeki uygulamas sunulmu tur. Bu modelde xt, döviz kuru serisini, yt ise günlük ortalama kar serisini göstermektedir. Buna göre, yt serisi a a! daki dönü üm ile tan mlanabilir. y t = log x t log x t 1 n " (log x t n i=1 1 log x t 1 ), t = 1,..., n (1) Bu verinin analizinde kullan lan SV modeli, bilinmeyen durumlar verildi!inde gözlemlerin ko ullu da! l m n belirler. t ile gösterilen gizli oynakl k terimi, bilinmeyen durumlar ifade eder ve model a a! daki gibi tan mlan r: P(y t / t ) = exp 1 2 t i.i.d ut t = 1,..., n u t ~ N(0,1), (2) Bilinmeyen durumlar n zamana göre bir Markov geçisi gösterdi!i kabul edilirse a a! daki e itlik yaz labilir: P( t / Burada t 1 , µ, , & 2 ) = µ + ( t 1 i.i.d µ) + A t , At ~ N(0, &2 ), ~ N(µ, &2 ) olarak tan mlanmaktad r. 0 t t = 1,..., n , t’inci gündeki oynakl k miktar n , , ise verilerin karesinin logaritmas ndaki mevcut otokorelasyonu ölçer. Böylece de!i mezli!i; sabit ölçek katsay s (3) 1< <1 , oynakl ktaki = exp ( µ 2 ) , en s k görülen oynakl ! (model oynakl ! ) ve & , log-oynakl k’lar n de!i imini göstermektedir. Bayesci çözümleme yapabilmek için bilinmeyenlerin bile ik önsel da! l mlar ile gözlemlerin olabilirlik fonksiyonuna ihtiyaç vard r. Burada µ, , &2 parametreler, 0 , 1 ,..., n gözlemlenemeyen de!i kenler ve y1, y 2 ,..., y n de gözlemler olarak gösterilir. SV modelinde Bayesci ç karsamalar bilinmeyenler olarak tan mlanan µ, , &2 , , 1 ,..., n ’in sonsal da! l mlar na dayanmaktad r. Raslant ’n n olas l k yo!unluk fonksiyonu P( ) ile gösterilirse, bile ik önsel da! l m a a! daki gibi 0 vektörü ifade edilebilir: P(µ, , &2 , 0 ,..., 2 n ) = P(µ, , & )P( 2 0 / µ, & ) n P( t =1 t / t 1 , µ, , &2 ) (4) Burada µ, , &2 parametrelerinin önsel olarak ba! ms z oldu!u kabul edilmektedir. µ için bilgi içeren =2 * Olabilirlik fonksiyonu P(y1 ,..., y n / µ, , &2 , a a! daki gibi ifade edilebilir: 0 1 olarak al nm ve * için 20 ve 1.5 parametreleri ile bir Beta önsel da! l m tan mlanm t r. &2 için önsel da! l m IG(2.5, 0.025) olan e lenik ters Gamma olarak al nm t r. P( t / t 1 , µ, , &2 ) da! l m ise E t.(3)’te tan mland ! gibidir. N(0,10) önsel da! l m kullan lm t r. ,..., 120 n ) ko ullu ba! ms zl k varsay m alt nda P(y1 ,..., y n / µ, , &2 , 0 ,..., n) = n t =1 P(y t / t ) (5) Önsel da! l m ve olabilirlik fonksiyonu yard m yla bile ik sonsal da! l m a a! daki gibi elde edilebilir: P(µ, , &2 , 0 ,..., n / y1 ,..., y n ) B P(µ)p( )P(&2 )P( 2 0 / µ, & ) n P( t / t 1 , µ, , &2 ) × t =1 (6) n t =1 P(y t / t ) 3. Olas l ksal Oynakl k Modelinin Bayesci Çözümlemesinde DAG Gösterimi ve WinBUGS Kullan m Bir modelin ‘yönlendirilmi düz grafik / directed acyclic graph / DAG’ ile gösterimi, temel model yap s n n incelenmesinde kullan ld ! gibi ayn zamanda modelin WinBUGS’da olu turulmas nda da kullan l r. DAG’da herhangi bir t zaman için tüm bilinmeyenler ve gözlemler, dü!üm ad verilen elipslerle gösterilir. Ko ullu ba! ms zl k varsay mlar n göstermek için dü!ümler aras nda kapal oklar kullan l r. Aç k oklar ise di!er dü!ümlerin mant ksal fonksiyonlar olan deterministik dü!ümlere gider. Bekil 1. SV modelinin DAG ile gösterimi. Bir DAG’da tüm oklar yönlendirilmi tir ve ko ullu ba! ms zl k varsay m ndan dolay hiçbir geri dönü yoktur. V, grafikteki tüm dü!ümlerin bir kümesi olmak üzere A ( A7 V ) ile belirtilen bir dü!ümden önce gelen dü!ümler “ebeveynler”, sonra gelen dü!ümler ise “çocuklar” olarak adland r l r. Kapal oklar, ebeveyn dü!ümler bilindi!inde her bir dü!ümün, kendinden sonra gelenler d nda di!er dü!ümlerden ba! ms z oldu!unu gösterir. Böylece, çok de!i kenli olas l k da! l m , tüm dü!ümlerin ko ullu olas l k da! l m fonksiyonlar n n çarp lmas yla a a! daki gibi elde edilebilir. P (V) = C7V P {A parents ( A )} (7) Yukar da verilen E t.(7), E t.(6)’n n sa! taraf n n, DAG gösterimi ile ifadesidir. 121 DAG’da tüm dü!ümlerin olu turdu!u küme V olmak üzere, V0 bilinen dü!ümlerin alt kümesini, Vu ise bilinmeyen dü!ümlerin alt kümesini göstersin. Bu durumda, E t.(6) ile gösterilen çok de!i kenli sonsal da! l m P(Vu/V0) biçiminde ifade edilebilir. Bir MCMC yöntemi olan Gibbs örnekleme algoritmas ile P(Vu/V0) sonsal da! l m ndan bir örneklem olu turmak için, tam ko ullu da! l mlardan iteratif olarak örnekler çekilir. P A V A , A7 Vu biçimindeki tam ko ullu da! l mlar, E t.(7) ile ( ) verilen çok de!i kenli sonsal da! l mdaki A ’ye ba!l terimlerin çekilmesiyle kolayca elde edilir. P ( A V A ) P {A parents ( A )} A7parents( w ) P {w parents ( w )} (8) Herhangi bir dü!üm ( A ) için tam ko ullu da! l m, yaln zca bu dü!ümün ebeveynlerine, çocuklar na ve ikincil ebeveynlerine ba!l d r. WinBUGS, tüm bilinmeyen dü!ümlerin tam ko ullu da! l mlar n olu turmak için modelin gösterimini DAG ile gerçekle tirir ve tam ko ullu da! l mlardan örneklem çekmek için güvenilir örnekleme yöntemleri kullan r. lk olarak tam ko ullu da! l mlar analitik olarak bilinen bir da! l ma dönü türülerek e lenik da! l mlar olu turulmaya çal l r. Bilinen e lenik bir yap elde edilemez ise yo!unluk fonksiyonunun log-konkav bir yap ya dönü türülüp dönü türülemedi!i kontrol edilir. Logkonkav bir yap elde edilir ise ‘uyarlamal red / adaptive rejection / AR’ örneklemesi kullan l r. Yo!unluk fonksiyonu log-konkav de!ilse WinBUGS, örneklem çekmek için bir Metropolis-Hastings (MH) ad m kullan r. 4. MCMC Yöntemlerinde Yak nsaman n Belirlenmesi MCMC yöntemlerinde incelenmesi gereken önemli bir nokta, çekilen örneklemlerin sonsal da! l ma yak nsay p yak nsamad ! n n belirlenmesidir. Kuramsal olarak n * + oldu!unda yak nsaman n gerçekle ece!i söylenir, ancak uygulamada yak nsaman n gerçekle ece!i iterasyon say s n n belirlenmesi gerekir. Yak nsama gerçekle tikten sonra, ilgilenilen parametrelerin sonsal da! l mlar ndan yakla k örneklemler üretmek için iterasyonlara devam edilir. Yak nsama h z , ko ullu da! l mlar n karma kl ! na ba!l d r. Yak nsama belirlenmesinde kullan lan bir çok yöntem vard r. Zincir otokorelasyonlar n n incelenmesi bu yöntemlerden biridir. Otokorelasyon katsay lar , her bir parametre zinciri için ili ki miktar n n belirlenmesinde kullan l r. Yak nsama problemi bulunmayan zincirler için otokorelasyon katsay lar n n küçük olmas beklenir. Yak nsaman n belirlenmesinde kullan lan di!er bir yöntem Raftery ve Lewis taraf ndan önerilmi tir. Bu yöntemde, zincir otokorelasyonunun bir fonksiyonu olan seyreltme oran (thin), yak nsama gerçekle ene kadar geçmesi gereken iterasyon say s (burn), güvenilir tahminler elde etmek için gerekli toplam iterasyon say s (N) ve zincirdeki noktalar n ayn da! l ml ve ba! ms z olmas için gerekli minimum iterasyon say s (Nmin) hesaplan r. Bu yöntemde ayr ca “I istatisti!i” ad verilen I = N N min oran hesaplan r. Bu istatisti!in de!erinin 5’ten büyük olmas zincirde yak nsama sorununun oldu!una i aret eder. Geweke taraf ndan da yak nsaman n belirlenmesi için baz yöntemler önerilmi tir. Bu yöntemlerin ilkinde, örneklemin ba tan %10 ile sondan %50’sinin ortalamalar kar la t r l r ve ortalamalar e itse yak nsama probleminin olmad ! kabul edilir. Önerilen di!er bir yöntemde say sal standart hatalar ve oransal say sal etkinlikler hesaplan r. Bu de!erler örneklemin farkl yüzdeliklerine ba!l olarak tahmin edildi!inde bu tahminler aras nda önemli farklar n olmas , otokorelasyonlar n büyük oldu!una dolay s yla yak nsama probleminin oldu!una i aret eder. 122 5. Uygulama Uygulamada, Ocak 1999/Nisan 2009 aylar aras ndaki ayl k Euro/TL döviz oranlar verisinin logaritmas al narak çözümlemeler gerçekle tirilmi tir. n=124 birimlik veri kümesinde , ,& parametreleri için 200000 iterasyon yap lm , ilk 100 iterasyon çözümlemeden ç kart lm ve seyreltme oran 5 olarak al nm t r. Bu durumda, Raftery-Lewis ölçütlerine göre tüm parametreler için I=1.049 olarak hesaplanm t r. Bu de!er 5’ten küçük oldu!u için parametre zincirlerinin yak nsama gösterdi!i söylenebilir. Ayr ca, seyreltme oran n n (thin) 1 olarak bulunmas zincirlerde ard arda gelen iki gözlem aras nda ili ki olmad ! na i aret eder. Bir ba ka ifade ile, elde edilen parametre zincirlerinde orokorelasyon sorunu bulunmamaktad r. Zincirlerde otokorelasyon sorunu olmad ! a a! daki grafiklerden yararlanarak da söylenebilir. phi beta 1.0 0.5 0.0 -0.5 -1.0 1.0 0.5 0.0 -0.5 -1.0 0 20 0 40 20 40 lag lag tau 1.0 0.5 0.0 -0.5 -1.0 0 20 40 lag Bekil 2. Parametre zincirlerine ili kin otokorelasyon fonksiyonlar n n grafikleri. Geweke testine göre, parametre zincirlerinin ba tan %10 ve sondan %50’lik k s mlar n n ortalamalar al narak dura!anl !a ula p ula mad ! ara t r lacak olunursa Çizelge 1’deki sonuçlara ula l r. Çizelge1. Parametre zincirleri için Geweke testi sonuçlar . Ki-kare p de!eri Yüzdelik %4 %8 %15 0.160142 0.115626 0.072133 0.480305 0.467867 0.433451 & 0.377679 0.356181 0.337174 Buna göre, H0 : µ0.10 = µ0.50 H1 : µ0.10 : µ0.50 hipotezi için parametrelelerin p de!erleri incelenecek olursa, tüm parametre zincirlerinin dura!an oldu!u S=0.05 yan lma olas l ! ile söylenebilir. 123 Parametre zincirlerinin yak nsama grafikleri a a! daki gibi elde edilmi tir. beta 30.0 20.0 10.0 0.0 100 50000 100000 150000 iteration phi 1.0 0.5 0.0 -0.5 100 50000 100000 150000 iteration tau 6.0 4.0 2.0 0.0 100 50000 100000 150000 iteration Bekil 3. Parametre zincirlerinin yak nsama grafikleri. rekil 3’e göre, parametre zincirlerinde yak nsama problemi olmad ! , grafiklerin Geweke ile RafteryLewis test sonuçlar n destekledi!i söylenebilir. Gibbs örnekleme algoritmas kullan larak elde edilen parametre zincirlerinin sonsal olas l k yo!unluk fonksiyonlar na ili kin grafikler rekil 4’de verilmektedir. phi sample: 39200 beta sample: 39200 4.0 3.0 2.0 1.0 0.0 1.5 1.0 0.5 0.0 0.0 10.0 -0.5 20.0 0.0 tau sample: 39200 1.5 1.0 0.5 0.0 2.0 3.0 4.0 Bekil 4. Parametre zincirlerinin sonsal olas l k yo!unluk fonksiyonlar n n grafikleri. 124 0.5 rekil 4’e göre SV modelinin parametrelerinden ’n n sonsal da! l m n n sola çarp k, da! l m n n sa!a çarp k, & ’nun sonsal da! l m n n ise simetrik oldu!u söylenebilir. ’nin sonsal Zincirlerde yak nsama sorunu olmad ! ndan model için güvenilir tahminler elde edilebilir. , , & parametreleri için elde edilen özet istatistikler Çizelge 2’de verilmi tir. Çizelgede “ortalama” kolonu parametrelere ili kin Bayesci tahminleri göstermektedir. Çizelge 2. Parametre zincirlerinin özet istatistikleri. Parametre & Ortalama 1.1260 Std.Sapma 0.5899 Std.Hata 0.0031 2.5% 0.4273 Ortanca 1.0090 97.5% 2.5560 0.6178 0.1512 0.0021 0.2374 0.6398 0.8442 3.3000 0.2911 0.0030 2.7730 3.2880 3.9080 Özet istatistikler de!erlendirildi!inde SV modeli için oynakl ktaki de!i mezlik 0.6178, en s k görülen oynakl k 1.1260 ve oynakl ! n de!i imi 3.3 olarak hesaplanm t r. 6. Sonuç ve Tart !ma Finansal verileri modellemeye ve zaman içerisinde bu serilerin fiyatlar ndaki riski ölçmeye yarayan ARCH / GARCH modellerine güçlü bir seçenek olarak SV modelleri geli tirilmi tir. Bu sayede, model varyans zamana göre olas l ksal de!i im gösteren bir raslant de!i keni olarak tan mlanabilmi ve finans verilerinin daha esnek, gerçekçi modellenmesi sa!lanabilmi tir. Bayesci çözümleme ile de modelin parametrelerinin tahmin edilmesi sürecinde klasik yöntemlerde kar la lan sorunlara etkin çözümler getirilmi tir. Geli tirilen bilgisayar programlar sayesinde bu Bayesci çözümlemeler k sa sürede ve kolay bir ekilde gerçekle tirilebilmektedir. Çal mada, Ocak 1999/Nisan 2009 aylar aras ndaki ayl k Euro/TL döviz oranlar verisi için bir SV modeli olu turulmu ve WinBUGS ile bu modelin Bayesci parametre tahminleri elde edilmi tir. Uygulama sonuçlar de!erlendirildi!inde, elde edilen parametre zincirlerinde yak nsama sorunu gözlenmedi!i için bu zincirler üzerinden modelin parametre tahminlerine geçilmi tir. Modelin oynakl ! ndaki de!i mezlik 0.6178 olarak hesaplanm t r. Genel olarak uygulamada oynakl kdaki de!i mezli!in ‘1’ de!erine yak n olmas istenir. De!er 1’e ne kadar yak n ise serinin piyasalardaki ani ç k ve dü ü lere o kadar dirençli oldu!u söylenebilir. Sonuç olarak, iki farkl yat r m arac ndan hangisinin daha riskli oldu!una bu de!er yard m ile karar verilebilir. En s k görülen oynakl k 1.1260’dir ve bu de!er model oynakl ! olarak yorumlan r.Yat r mc , amaçlar do!rultusunda riskli ama getirisi yüksek olan ya da daha az riskli ancak getirisi de ayn biçimde daha dü ük olan yat r m arac ndan hangisini tercih edece!ine bu de!eri baz alarak karar verebilir. Son olarak, kurulan modelde oynakl ! n de!i imi 3.3 olarak hesaplanm t r. Yine bu de!er farkl zaman serilerinin kar la t r lmas nda önemlidir. Finans verilerinin ço!unda de!i en varyansl l k sorunu yer almaktad r ve genelde bu verilerde oynakl k kümelerinin varl ! gözlenmektedir. Dolay s yla verilerin analizinde mevcut oynakl ! n do!ru olarak modellenmesi ve elde edilen modelden güvenilir tahminlere ula lmas çok önemlidir. Bu nedenle çal mada son zamanlarda literatürde geni bir yer tutan SV modelleri ve bu modellerin Bayesci çözümlemesi bir uygulama üzerinden, kullan lan paket programda aç klanarak sunulmu tur. 125 Kaynaklar [1] Akta , A.M., (2008), Bayesci Olas l ksal Oynakl k Modelleri, Yay:mlanmam:# Bilim Uzmanl:G: Tezi, Hacettepe Üniversitesi, statistik Bölümü. [2] Broto, C., Ruiz, E., (2002), Estimation Methods for Stochastic Volatility Models: A Survey, Universidad Carlos III De Madrid Working Papers, Working Paper 02-54 (14). [3] Gamerman, D., (1997), Markov Chain Monte Carlo Stochastic Simulation for Bayesian Inference, Chapman and Hall, London. [4] Geweke, J., (1992), Evaluating the Accuracy of Sampling-Based Approaches to the Calculation of Posterior Moments, Bayesian Statistics 4, Bernardo, J.M., Berger, J.O., David, A.P., Smith, A.F.M. (eds), Oxford University Press, Oxford, pp. 169-193. [5] Jacquier, E., Polson, N.G., Rossi, P.E., (1994), Bayesian Analysis of Stochastic Volatility Models, Journal of Business & Econometric Statistics, 12, 371-389. [6] Jacquier, E., Polson, N.G., Rossi, P.E., (2004), Bayesian Analysis of Stochastic Volatility Models with Fat-Tails and Correlated Errors, Journal of Econometrics, 122, 185-212. [7] Meyer, R., Yu, J., (2000), BUGS for a Bayesian Analysis of Stochastic Volatility Models, Econometrics Journal, 3, 198-215. [8] Özkan, P., (2004), Analysis of Stochastic and Non-Stochastic Volatility Models, Yay:mlanmam:# Bilim Uzmanl:G: Tezi, Ortado!u Teknik Üniversitesi, statistik Bölümü. [9] Raftery, A.E, Lewis, S., (1995), The Number of Iterations, Convergence Diagnostics and Generic Metropolis Algorithms, Practical Markov Chain Monte Carlo, Gilks, W.R., Spiegelhalter, D.J., Richardson, S. (eds), Chapman and Hall, London, pp. 115-130. [10] Shephard, N., (2005), Stochastic Volatility, Oxford University Press, New York. 126 X Kontrol kartlar için Bayesci kontrol s n rlar Haydar Demirhan Canan Hamurkaro!lu Hacettepe Üniversitesi, statistik Bölümü, 06800-Beytepe, Anakra, Türkiye Hacettepe Üniversitesi, statistik Bölümü, 06800-Beytepe, Ankara,Türkiye haydarde@hacettepe.edu.tr caca@hacettepe.edu.tr Özet Bu çal:#mada, üstel daG:l:ml: veri üreten süreçler için X kontrol kartlar:n:n Bayesci yakla#:m ile olu#turulmas: üzerinde durulmu#tur. Kullan:lan yakla#:m, Bayesci çözümlemenin ard:ll:k özelliGine ve en yüksek sonrsal yoGunluk aral:klar:na dayanmaktad:r. Üstel daG:l:ml: veri üreten süreçler için Bayesci kontrol kartlar:n:n olu#turulmas: aç:klanm:#, X için olu#turulan Bayesci kontrol kartlar:n:n performans: standart ve ho#görü aral:G: kontrol kartlar: ile kar#:la#t:r:lm:#t:r. Sonuç olarak, Bayesci kontrol kartlar:n:n performans:n:n kar#:lat:r:lan diGer kartlara göre daha üstün olduGu görülmü#tür. Anahtar Sözcükler: Bayesci yakla#:m; Gamma daG:l:m:; Kontrol s:n:r:; Sonsal daG:l:m; Kontrol s:n:r: performans:; Ho#görü aral:G: kontrol s:n:r:; Shewart kontrol kart:. Abstract Bayesian Control Limits for X Control Charts X control charts for exponentially distributed processes using the Bayesian perspective. In this sense, we obtain new control limits for X charts for exponentially This article deals with the construction of distributed data. The approach is based on the sequential nature of Bayesian analysis and highest probability density intervals. Construction of the control charts are illustrated and performance of the proposed, standard and tolerance interval control limits are examined and compared via a Monte Carlo simulation study. As the result, proposed Bayesian control limits are found to be better in performance than standard and tolerance interval control limits for X charts. Keywords: Bayesian approaches; Gamma distribution; Control limit; Posterior distribution; Performance of control limit; Tolerance interval control limit; Shewart control chart. 1. Giri! Ölçülebilir kalite karakteristikleri raslant de!i keni olarak tan mland ! nda, bunlar n ortalamalar , de!i kenlikleri ve di!er baz özellikleri kontrol kartlar kullan larak de!erlendirilebilir. En yayg n kontrol kartlar Shewart kartlar olarak bilinen kartlard r. Shewart kartlar normallik ve gözlemlerin ba! ms zl ! varsay m ile olu turulur. Genellikle bir Shewart kart nda kontrol s n rlar aras nda kalan olas l k yo!unlu!u kuramsal olarak 0.9973’tür. Bu kuramsal durumun gerçekle mesi normallik varsay m n n sa!lanmas ile yak ndan ili kilidir. Bu nedenle konrtol kart n olu turmak için kullan lan istatisti!in da! l m simetrik de!il ise ya da normal da! l m varsay m bu istatisti!in da! l m için sa!lanm yorsa Shewart kartlar n n kullan m n n uygun olmad ! dü ünülmektedir. Genel olarak çarp k da! l ml veri üreten süreçler bir i i yapma süresi, hizmet verme süresi, kullan m süresi, ar za süresi, bekleme süresi gibi zaman ölçümlerinden olu an süreçlerdir. ki olay n görülmesi aras nda geçen zaman üstel da! l ma uygun da! l göstermektedir [3]. Üstel da! l ml bir raslant de!i keninin çarp kl k katsay s 2’dir. Bu durumda, üstel da! l m normal da! l ma göre sa!a çarp kt r. Üstel da! l ml veri üreten süreçlerin kontrolü için standart Shewart kartlar n n kullan lmas gözlem say s çok büyük olmad kça uygun bir durum de!ildir. 127 Üstel da! l ml veri üreten bir süreç için X ’n n da! l m simetrik de!ildir ve uygulamada kullan lan örneklem büyüklü!ü küçük oldu!unda merkezi limit teoreminin uygulanmas uygun de!ildir. Bu nedenle standart Shewart kartlar n n kullan m uygun olmamaktad r [2,5]. Hamada [2], bu soruna bir çözüm olarak ho görü aral ! (tolerance interval) kontrol s n rlar n n kullan lmas n önermi ve gerekli olan kontol kart sabitlerinin ç kar m n yapm t r. Ho görü aral ! kontrol s n rlar n n bulunmas nda da! l msal bir varsay m yap lmamaktad r. Ayr ca Hamada [1], np, p, c ve u kartlar için Bayesci ho görü aral ! kontrol kartlar n önermi tir. Çal mada, üstel da! l ml veri üreten bir süreç için X kontrol kart s n rlar n n Bayesci yakla m ile olu turulmas üzerinde durulmu tur. Bayesci yakla m n ard ll k özelli!i kullan larak X kartlar için yüksek performansl kontrol s n rlar n n elde edilmesi amaçlanm t r. Bayesci yakla m n ard ll k özelli!i sayesinde kart n t ad m nda sürece ili kin toplanan bilgi t 1 ad m ndakinden daha çok oldu!undan daha güvenilir s n rlar elde edilmektedir. Yap lan Monte Carlo benzetim çal mas ile önerilen Bayesci kontrol sn rlar n n performans , standart ve ho görü kontrol s n rlar n n performans ile kar la t r lm t r. Kar la t rma için Hamada [1,2] taraf ndan verilen performans ölçütleri kullan lm t r. Benzetim çal mas sonucunda önerilen Bayesci kontrol s n rlar n n, standart ve ho görü kontrol s n rlar na göre daha yüksek performansa sahip oldu!u görülmü tür. kinci bölümde Bayesci kontrol kartlar n n olu turulmas üzerinde durulmu tur. Bayesci kontrol s n rlar n n elde edili i üçüncü bölümde verilmi tir. Dördüncü bölümde bir say sal örnek verilmi tir. Be inci bölümde Bayesci kontrol s n rlar n n performans n n ölçülmesinde ve di!er s n rlar ile kar la t r lmas nda kullan lacak performans ölçüleri ve benzetim tasar m verilmi , benzetim sonuçlar yorumlanm t r. 2. Bayesci kontrol kartlar Bayesci kontrol kartlar n n olu turulmas nda kontrol s n rlar n n d nda kalan olas l k yo!unlu!unun istenen düzeyde olmas temel amaçt r. Hamada [1,2] (1)’de verilen e itsizli!i np, p, c ve u kartlar için Bayesci ho görü aral ! kontrol s n rlar n bulmakta kullanm t r: [ ( ) ] PD X P(T < AKS( X) X ) ! p1 ve P T > ÜKS( X) X ! p 2 8 1 (1) (1) e itsizli!inde T, kontrol kart istatisti!ini, D , sürecin üretti!i verinin da! l m n n parametresini, AKS( X) , alt kontrol s n r n , ÜKS( X) üst kontrol s n r n , p1 ve p 2 s ras yla alt ve üst kontrol s n r d nda kalmas amaçlanan olas l k yo!unluklar n ve 1 güven düzeyini göstermektedir. (1) e itsizli!inde d taki olas l k üretici risikini, içteki olas l klar ise kontrol s n rlar aras nda kalmas planlanan olas l k yo!unlu!unu kontrol eder. Kart n olu turulmas s ras nda her ad mdaki bilgi, al nan her örneklemden sonra Bayesci yakla mlar n ard ll k özelli!i kullan larak güncellenmi tir. Bayesci yakla mlar n ard ll k özelli!i t. ad mda elde edilen sonsal da! l m n ( t + 1). ad mda önsel da! l m olarak kullan lmas ndan gelir. x1 , 1. ad mda al nan örneklem olsun. Bu durumda p(D x1 ) B p(D )l(D x1 ) biçimindedir. Burada l(F F) olabilirlik fonksiyonudur. kinci ad ma geçildi!inde Bayesci yakla mlar n ard ll k özelli!inden p(D x1 , x 2 ) B p(D x1 )l(D x 2 ) biçimindedir. Genel olarak t. ad m için ard ll k özelli!i p(D x1 ,..., x t ) B p(D x1 ,..., x t 1 )l(D x t ) 128 biçimindedir. Çal mada önerilen Bayesci kontrol kart n n olu turulmas için Algoritma 1. kullan l r: Algoritma 1. Bayesci kontrol kart n n olu!turulmas A1. lk konrtol s n rlar için X ’n n da! l m n n parametresi önsel da! l m üzerinden tahmin edilir, süreçten örneklem al n r ve A5.’e geçilir. A2. X ’n n da! l m n n parametresi Bayesci yakla m ile tahmin edilir. A3. Al nan örneklemden elde edilen x de!eri karta i aretlenir. A4. x de!eri kontrol s n rlar n n d nda ise durulur. Süreçte gerekli düzeltme yap l r. Kontrol d olan nokta d ar da b rak l r ve A5.’e geçilir. x de!eri kontrol s n rlar n n içinde ise do!rudan A5.’e geçilir. A5. Tahmin edilen parametre X ’n n da! l m nda yerine konulur. A6. (1) e itsizli!ini sa!layan bir en yüksek yo!unluk (highest probability density) aral ! A5.’te elde edilen da! l m kullan larak bulunur. A7. Bulunan aral ! n alt ve üst s n rlar s ras yla AKS( X) ve ÜKS( X) ’ye e itlenir. Bu de!erler kart üzerinde i aretlenir. A8. Al nmas istenen örneklem say s na ula lmam geçilir; ula lm ise durulur. ise süreçten yeni örneklem al n r ve A2.’ye Hamada [2] Bayesci ho görü aral ! kontrol s n rlar n elde ederken Algoritma 1.’de verilen A4. ad m dikkate almamaktad r. Süreç ortalamas nda t . noktadan hemen sonra özel nedenlerden kaynaklanan bir de!i im oldu!u varsay ls n. Kontrol s n rlar n n elde edilmesinde Bayesci yakla m n ard ll k özelli!i kullan ld ! ndan ( t + 1) . ve sonraki noktalarda elde edilen s n rlar bu de!i imden etkilenir. ( t + 1) . ve sonraki s n rlar verinin, ba ta belirlenen da! l mdan de!il, ba ta belirlenen da! l m ile t . noktada ortaya ç kan da! l m n bir karmas ndan gelip gelmedi!ini test eder. Ancak kontrol d nda oldu!u belirlenen nokta sonraki ad mlarda d ar da b rak ld ! nda kontrol s n rlar tüm noktalarda ba ta belirlenen da! l m için test yapar. Bu nedenle Algoritma 1.’de verilen A4. ad m n uygulanmas kaç n lmazd r. 3. Bayesci kontrol s n rlar n n elde edilmesi X1 ,..., X n ba! ms z raslant de!i kenlerinin tümü 1 / D ortalama ile üstel da! l ma sahip olsun. Bu durumda X ’n n da! l m n ve 1 / (nD ) parametreleri ile gamma da! l m d r. Bu gamma da! l m n n çarp kl k kartsay s 2 / n ’dir. Bu ko ullar alt nda X ’n n da! l m n’nin büyük de!erleri için simetrik olabilmektedir. X için Bayesci kontrol s n rlar n n elde edilmesinde Gamma (n ,1 / (nD )) ve Gamma ( , G ) s ras yla olabilirlik fonksiyonu ve ilk önsel da! l m olarak kullan lm t r. Gamma da! l m bir e lenik önsel oldu!undan sonsal da! l m da bir gamma da! l m d r. lk ad m için sonsal da! l m, p(D x 1 ) B Dn + 1 exp{ D(nx 1 + 1 / G )}, D > 0 olarak elde edilir. kinci ad m için sonsal da! l m, 129 p(D x 1 , x 2 ) B D2 n + 1 exp{ D (n (x 1 + x 2 ) + 1 / G )}, D > 0 ve t. ad m için sonsal da! l m, p(D x 1 ,..., x t ) B Dkn + biçiminde 1 exp{ D(n (x1 + L + x t ) + 1 / G )}, D > 0 elde S xt = edilir. ( D x 1 ,..., x t ~ Gamma kn + , nS xt + 1 / G ) " t i =1 olarak xi tan mland ! nda, 1 biçimindedir. Bu durumda X ’n n da! l m n n parametresi için Bayesci 1 x Dˆ = (kn + 1) nS + 1 / G biçimindedir. Bu de!er sonsal da! l m n tepe de!eridir. ( ) t tahmin, D ’n n önsel da! l m n n parametreleri, D ’ya ili kin önsel bilgi bulundu!unda, bu bilgiyi yans tacak biçimde, bilgi bulunmad ! nda ise önsel da! l m olabildi!ince bas k yapacak biçimde seçilmelidir. 4. Bir say sal örnek Bayesci X kart n n olu turulmas n aç klamak amac yla biri kontrolde, di!eri kontrol d nda olan iki süreç rasgele olarak üretilmi tir. ki süreç için de n = 5 ve k = 25 olarak al nm t r. Birinci süreç için veriler Üstel(0.1) da! l m ndan, ikinci süreç için veriler k = 6 , 12 ve 18 noktalar nda s ras yla Üstel(0.05), Üstel(0.083) ve Üstel(1) da! l mlar ndan, di!er noktalarda ise Üstel(0.1) da! l m ndan üretilmi tir. Üretilen x de!erleri Çizelge 1.’de verilmi tir. Çizelge 1. Üretilen süreçler için x de!erleri. 12.995 13.548 10.337 3.930 4.757 3.116 Süreç I Süreç II 5.284 12.993 4.887 4.114 7.494 4.095 8.247 15.990 4.379 5.728 14.284 2.950 14.646 4.294 8.507 3.651 5.381 5.573 5.966 7.142 16.571 2.674 7.558 6.711 12.072 6.988 15.117 20.431 7.578 8.034 14.458 4.441 9.966 4.706 4.561 5.497 8.314 14.125 10.040 10.127 7.578 8.910 5.968 0.808 Birinci ve ikinci süreç için olu turulan Bayesci X kart rekil 1’in (a) ve (b) k s mlar nda verilmi tir. AKS 35 AKS 25 ÜKS ÜKS Ortalama 30 Ortalama 20 25 15 20 15 10 10 5 5 0 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 (a) 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 (b) Bekil 1. Birinci (a) ve ikinci (b) süreç için olu turulan X kartlar . Birinci süreç için elde edilen kontrol kart nda beklenildi!i gibi kontrol d nda herhangi bir nokta bulunmamaktad r. Kontrol s n rlar ndaki de!i kenlik süreç ilerledikçe azalmaktad r. Bunun nedeni 130 sürecin ilerlemesi ile birlikte kontrol s n rlar n n, sürecin üretti!i verilerin da! l m hakk nda daha çok bilgiye sahip olunarak elde ediliyor olmas d r. Ayr ca kontrol s n rlar n n gelen verinin de!erindeki bir art ya da azal a duyarl oldu!u görülmektedir. Sürecin ilerlemesiyle birlikte her ad mda elde edilen kontrol s n rlar bir öncekine göre daha çok bilgi varl ! nda elde edilmektedir. kinci süreç ise beklenildi!i gibi kontrol d ndad r. kinci sürece ili kin kontrol kart n n olu turulmas s ras nda kontrol d ndaki nokta d ar da b rak lmam t r. Bunun nedeni bu noktan n d ar da b rak lmamas n n etkisini göstermektir. Sürecin kontrolden ç kt ! 6. noktaya bak ld ! nda kontrol kart n n süreç ortalamas ndaki de!i imi yakalad ! görülmektedir. Süreç ortalamas 6. noktada 10’dan 20’ye ç km t r. 6. nokta için kontrol s n rlar , süreç ortalamas n n de!i meyece!i varsay m ile elde edilmi ancak 6. noktada süreç ortalamas artm t r. 6. noktadan sonraki ad mlarda sürecin yeniden kontrol d na ç kmas na kar n kontrol s n rlar d nda bir nokta görülmemektedir. Bunun nedeni 2. Kesimin sonunda sözü edilen durumdur. rekil 1-(b)’de sözü edilen durum aç kça görülmektedir. 6. noktadan sonra kontrol s n rlar , sürecin Üstel(0.1) ile Üstel(0.05) da! l mlar n n bir karmas ndan veri üretmesi gerekti!i bilgisine göre elde edilmi ve hiç bir nokta kontrol s n rlar n n d na ç kmam t r. 18. noktada alt kontrol s n r 0.504, gözlenen de!er 0.808’dir. rekil 2-(a).’da 6. nokta d ar da b rak ld ktan sonra elde edilen Bayesci X kart verilmi tir. Görüldü!ü gibi sürecin tekrar konrol d na ç kt ! 12. nokta yakalanm t r ancak 17. nokta yine yakalanamam t r. 17. noktada (ba lang çta 18. nokta idi) alt kontrol s n r 0.694, gözlenen de!er 0.808’dir. rekil 2-(b).’de 12. nokta d ar da b rak ld ktan sonra elde edilen Bayesci X kart verilmi tir. 16. noktada (ba lang çta 18. nokta idi) alt kontrol s n r 0.821, gözlenen de!er 0.808’dir. Bu durumda sürecin kontrol d na ç kt ! söylenir. 16. noktaya kadar tüm noktalar kontrol alt nda oldu!undan kontrol s r lar , kontrol d na ç kan noktay do!ru belirlemi tir. AKS 25 AKS 25 ÜKS ÜKS Ortalama Ortalama 20 20 15 15 10 10 5 5 0 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 1 (a) 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 (b) Bekil 2. kinci süreçte 6. (a) ve 12. (b) nokta d ar da b rak ld ktan sonra olu turulan X kartlar . Buradan, kontrol kart n n olu turulmas s ras nda kontrol d nda olan noktalar n belirlenmesinden sonra devam etmeden önce, süreçte gerekli düzeltme yap ld ktan sonra bu noktalar n d ar da b rak lmas n n önemi görülmektedir. Bu i lem sürece ili kin önsel bilginin korunmas n sa!lad ! gibi kontrol d noktada özel nedenlerden kaynaklanan de!i kenli!inde giderilerek sürecin izlenmesini sa!lar. 5. Benzetim çal !mas Bayesci kontrol kartlar n n performans n n ölçülmesi ve ho görü aral ! ve standart kontrol s n rlar ile kar la t r lmas nda kullan lacak performans ölçütleri Hamada [1, 2] taraf ndan 131 [( ) ] ] F1 = PX [P(T < AKS( X) X ) ! p1 ], F2 = PX P T > ÜKS( X) X ! p 2 , [ ( ) F3 = PX P(T < AKS( X) X ) ! p1 ve P T > ÜKS( X) X ! p 2 (2) biçiminde verilmi tir. F1 , AKS, F2 , ÜKS ve F3 genel performans n birer ölçüsüdür. Üstel(0.05), Üstel(0.5), Üstel(5) ve Üstel(50) da! l mlar ndan rasgele olarak üretilen 4 adet süreç üzerinde çal lm t r. Her süreç için n = 5 , 10, 15, 20, 25, 50 ve k = 10 , 25, 50 de!erlenin tüm kombinasyonlar nda Bayesci X kartlar n n performans ölçümleri yap lm t r. p1 = p 2 = 0.00135 ve = 0.05 olarak al nm t r. lk ad mdaki önsel da! l m için = 0.001 ve G = 1000 olarak al nm t r. Her benzetim kombinasyonu için 10000 tekrar yap lm t r. X kart için standart kontrol s n rlar x ± A 3 S ve ho görü aral ! kontrol s n rlar ise x ± k * R formülleri ile elde edilmi tir. A 3 katsay s Montgomery [5, sy. 215, A-15] ve k* katsay s Hamada [1, sy. 482, 483] taraf ndan verilmi tir. k* katsay s n n de!erleri n = 50 için verilmedi!inden ho görü aral ! kontrol s n rlar için n en çok 25 olarak al nm t r. Standart X kart kontrol s n rlar n n performans sonuçlar (2) kullan larak elde edilmi ve Çizelge 2.’de verilmi tir. Standart kontrol s n rlar n n performans ölçümlerinin benzetim kombinasyonlar nda büyük farkl l klar gösterdi!i görülmektedir. Standart kontrol s n rlar n n performans n n sadece D ’n n de!erinden etkilenmedi!i, n ve k’daki de!i imden etkilendi!i söylenebilir. n ve k’n n büyümesi performans olumsuz etkilemektedir. Standart kontrol s n rlar n n sadece n = 5 ve k = 10 için yeterli oldu!u, di!er kombinasyonlarda üstel da! l ml veri üreten süreçlerde X kart için bu s n rlar n kullan m n n uygun olmad ! söylenebilir. Çizelge 2. Standart X kart kontrol s n rlar n n performans sonuçlar . D k n 5 10 15 20 25 50 D k n 5 10 15 20 25 50 D k n 5 10 AKS 0.999 0.867 0.695 0.614 0.724 0.524 10 ÜKS 0.948 0.870 0.775 0.661 0.615 0.564 AKS 0.999 0.883 0.738 0.645 0.575 0.391 10 ÜKS 0.972 0.871 0.716 0.699 0.644 0.513 Genel 0.972 0.773 0.539 0.447 0.378 0.192 AKS 0.996 0.423 0.126 0.110 0.062 0.011 AKS 0.995 0.904 10 ÜKS 0.98 0.865 Genel 0.979 0.786 AKS 0.997 0.428 Genel 0.947 0.759 0.535 0.408 0.447 0.290 AKS 0.999 0.349 0.168 0.094 0.07 0.031 20 25 ÜKS 0.716 0.371 0.276 0.125 0.095 0.036 2 25 ÜKS 0.779 0.470 0.213 0.136 0.080 0.029 0.2 25 ÜKS 0.772 0.397 132 AKS 0.962 0.046 0.004 0.001 0.001 <0.001 50 ÜKS 0.331 0.026 0.007 0.005 0.007 <0.001 Genel 0.323 <0.001 <0.001 <0.001 <0.001 <0.001 Genel 0.777 0.198 0.021 0.012 0.003 <0.001 AKS 0.984 0.052 0.004 <0.001 <0.001 <0.001 50 ÜKS 0.273 0.038 0.010 <0.001 <0.001 <0.001 Genel 0.27 0.003 <0.001 <0.001 <0.001 <0.001 Genel 0.771 0.168 AKS 0.968 0.068 50 ÜKS 0.262 0.047 Genel 0.255 0.002 Genel 0.716 0.129 0.045 0.014 0.006 0.001 15 20 25 50 D k n 5 10 15 20 25 50 0.828 0.705 0.591 0.316 0.727 0.717 0.649 0.492 AKS 0.999 0.916 0.750 0.760 0.513 0.50 10 ÜKS 0.945 0.876 0.718 0.774 0.653 0.499 0.601 0.495 0.391 0.14 Genel 0.944 0.805 0.543 0.588 0.317 0.248 0.157 0.064 0.048 0.012 AKS 0.996 0.522 0.117 0.070 0.053 0.018 0.343 0.179 0.099 0.032 0.02 25 ÜKS 0.761 0.365 0.246 0.263 0.108 0.023 0.052 0.010 0.004 <0.001 Genel 0.759 0.195 0.026 0.015 0.006 <0.001 0.005 <0.001 <0.001 <0.001 0.016 0.002 0.002 <0.001 <0.001 <0.001 <0.001 <0.001 AKS 0.972 0.046 0.007 0.002 <0.001 <0.001 50 ÜKS 0.272 0.092 0.004 0.003 <0.001 <0.001 Genel 0.269 0.006 <0.001 <0.001 <0.001 <0.001 Ho görü aral ! X kart kontrol s n rlar n n (2) kullan larak elde edilen performans sonuçlar Çizelge 3.’te verilmi tir. Ho görü aral ! kontrol s n rlar n n performans n n standart kontrol s n rlar n n performans na göre daha iyi oldu!u söylenebilir. Ho görü aral ! kontrol s n rlar n n AKS performans ÜKS performans ndan daha dü üktür ve genel olarak yeterli de!ildir. Ho görü aral ! kontrol s n rlar n n performans n ve k’n n de!erinden etkilenmekte, D’n n de!erinden etkilenmemektedir. k’n n küçük de!erleri için ho görü aral ! kontrol s n rlar n n kullan m uygun olabilir. Ancak k’n n büyük de!erleri için bunlar n kullan m sa!l kl de!ildir. Çizelge 3. Ho görü aral ! X kart kontrol s n rlar n n performans sonuçlar . D k n 5 10 15 20 25 D k n 5 10 15 20 25 D k n 5 10 15 20 25 D k n 5 10 AKS 0.790 0.823 0.743 0.687 0.736 10 ÜKS 0.884 0.927 0.824 0.907 0.744 Genel 0.691 0.759 0.614 0.620 0.554 AKS 0.935 0.316 0.267 0.130 0.142 AKS 0.888 0.876 0.773 0.651 0.688 10 ÜKS 0.810 0.867 0.837 0.843 0.719 Genel 0.732 0.759 0.650 0.544 0.487 AKS 0.947 0.267 0.260 0.162 0.177 AKS 0.897 0.872 0.772 0.761 0.718 10 ÜKS 0.733 0.888 0.849 0.790 0.772 Genel 0.664 0.778 0.656 0.607 0.562 AKS 0.900 0.222 0.265 0.166 0.167 AKS 0.755 0.877 10 ÜKS 0.84 0.905 Genel 0.634 0.794 AKS 0.954 0.388 20 25 ÜKS 0.573 0.374 0.390 0.343 0.211 2 25 ÜKS 0.613 0.321 0.288 0.220 0.148 0.2 25 ÜKS 0.584 0.356 0.472 0.305 0.175 0.2 25 ÜKS 0.608 0.404 133 Genel 0.534 0.117 0.106 0.038 0.032 AKS 0.476 0.035 0.004 0.003 0.004 50 ÜKS 0.206 0.030 0.018 0.007 0.002 Genel 0.085 0.001 <0.001 <0.001 <0.001 Genel 0.575 0.098 0.069 0.024 0.030 AKS 0.544 0.025 0.011 0.006 <0.001 50 ÜKS 0.219 0.032 0.010 0.006 0.001 Genel 0.125 0.001 <0.001 <0.001 <0.001 Genel 0.520 0.077 0.121 0.039 0.026 AKS 0.598 0.025 0.003 0.002 0.001 50 ÜKS 0.150 0.020 0.020 0.004 0.009 Genel 0.083 <0.001 <0.001 <0.001 <0.001 Genel 0.579 0.149 AKS 0.551 0.020 50 ÜKS 0.133 0.033 Genel 0.070 0.002 15 20 25 0.735 0.679 0.653 0.842 0.854 0.766 0.629 0.583 0.501 0.273 0.221 0.102 0.283 0.191 0.267 0.081 0.034 0.025 0.005 0.008 0.001 0.020 0.009 0.005 <0.001 <0.001 <0.001 Bayesci X kart kontrol s n rlar n n (2) kullan larak elde edilen performans sonuçlar Çizelge 4.’te verilmi tir. Bayesci kontrol s n rlar n n performans benzetim kombinasyonlar na göre çok farkl l k göstermemektedir. Bu istenen bir durumdur. Bayesci kontrol s n rlar n n performans n’nin de!erinden az etkilenmekle birlikte k ve D’n n de!erinden etkilenmemektedir ve genel olarak yüksektir. Üstel da! l ml veri üreten süreçlerin kontrolünde X kart için Bayesci kontrol s n rlar n n kullan m önerilebilir. Çizelge 4. Bayesci X kart kontrol s n rlar n n performans sonuçlar . D k 20 25 10 50 n AKS ÜKS Genel AKS ÜKS Genel AKS ÜKS Genel 5 0.992 0.925 0.917 0.949 0.924 0.876 0.912 0.911 0.826 10 0.987 0.928 0.915 0.923 0.925 0.849 0.860 0.914 0.780 15 0.977 0.933 0.910 0.914 0.916 0.833 0.846 0.893 0.753 20 0.998 0.915 0.913 0.99 0.886 0.878 0.965 0.879 0.850 25 0.996 0.886 0.882 0.99 0.899 0.890 0.983 0.897 0.881 50 0.993 0.874 0.869 0.983 0.897 0.881 0.962 0.876 0.841 D 2 k 10 25 50 n AKS ÜKS Genel AKS ÜKS Genel AKS ÜKS Genel 5 0.997 0.923 0.920 0.954 0.902 0.857 0.901 0.891 0.796 10 0.979 0.935 0.914 0.928 0.909 0.839 0.891 0.937 0.832 15 0.989 0.938 0.927 0.908 0.912 0.823 0.852 0.905 0.768 20 0.896 0.991 0.887 0.929 0.957 0.888 0.906 0.925 0.841 25 0.893 0.986 0.882 0.934 0.961 0.899 0.920 0.903 0.834 50 0.911 0.984 0.897 0.904 0.944 0.855 0.909 0.915 0.826 D 0.2 k 10 25 50 n AKS ÜKS Genel AKS ÜKS Genel AKS ÜKS Genel 5 0.997 0.847 0.844 0.905 0.959 0.866 0.907 0.934 0.85 10 0.894 0.993 0.888 0.917 0.972 0.890 0.896 0.934 0.836 15 0.912 0.991 0.907 0.927 0.967 0.895 0.907 0.925 0.840 20 0.933 0.99 0.923 0.936 0.957 0.895 0.911 0.926 0.847 25 0.926 0.99 0.916 0.936 0.961 0.901 0.938 0.907 0.849 50 0.937 0.985 0.923 0.948 0.95 0.902 0.929 0.915 0.846 D 0.2 k 10 25 50 n AKS ÜKS Genel AKS ÜKS Genel AKS ÜKS Genel 5 0.993 0.918 0.911 0.955 0.904 0.861 0.922 0.894 0.821 10 0.982 0.918 0.900 0.945 0.913 0.859 0.886 0.934 0.826 15 0.983 0.926 0.909 0.931 0.962 0.893 0.903 0.925 0.836 20 0.891 0.99 0.881 0.929 0.957 0.888 0.910 0.926 0.846 134 25 0.859 0.99 0.851 0.934 0.961 0.899 0.935 0.907 0.847 50 0.878 0.987 0.866 0.948 0.950 0.902 0.928 0.915 0.845 6. Sonuç ve öneriler Üstel da! l ml veri üreten süreçlerin kontrolünde X kart için Bayesci, standart ve ho görü aral ! kontrol s n rlar verilen performans ölçütleri kullan larak kar la t r ld ! nda, Bayesci s n rlar n performans n n çe itli benzetim ko ullar nda en az de!i im gösterdi!i ve istenen seviyede oldu!u gözlenmi tir. Standart ve ho görü aral ! kontrol s n rlar n n ise benzetim kombinasyonlar n n ço!unda dü ük performansl oldu!u gözlenmi tir. Bu nedenlerle, bu tür süreçlerin kontrolünde X kart için çal mada önerilmi olan Bayesci X kontrol s n rlar n n kullan m ile süreç kontrolünün daha güvenilir biçimde yap laca! söylenebilir, Bayesci kontrol s n rlar n n tercih edilmesi önerilir. Kaynaklar [1] M. Hamada, (2002), Bayesian tolerance interval control limits for attributes, Qual. Reliab. Engn. Int., 18, 45-52. [2] M. Hamada, (2003), Tolerance Interval Control Limits for X , R, and S Charts, Qual. Engn., 15, 471487. [3] I. Miller, M. Miller, (1999), John E. Freund’s Mathematical Statistics, Prentice-Hall, London. [4] D.C. Montgomery, (1996), Introduction to Statistical Quality Control, Wiley, New York. [5] Z. Yang, M. Xie, (2000), Process monitoring of exponentially distributed characteristics through an optimal normalizing transformation, J. of Applied Stat., 27, 8, 1051-1063. 135 Türkiye’deki bo!anma nedenleri profilinin veri madencili<i yöntemlerinden karar a<açlar ile olu!turulmas Mehmet UYSAL Volkan KATI Hacettepe Üniversitesi, statistik Bölümü, Beytepe 06532, Ankara uysal@hacettepe.edu.tr Emniyet Genel MüdürlüGü, Personel Daire Ba#kanl:G:, Kadro ^ube MüdürlüGü Bakanl:klar 06100, Ankara volkan@volkankati.com Özet Veri madencili!i, günümüz bilgi ça! nda en güncel teknolojilerden birisidir. Bilgisayar sistemlerinin her geçen gün hem daha ucuzluyor olmas , hem de güçlerinin art yor olmas , bilgisayarlarda daha büyük miktarlarda verinin saklanabilmesine imkân vermektedir. Bu yüzden, büyük miktardaki verileri i leyebilen teknikleri kullanabilmek, büyük önem kazanmaktad r. Veri madencili!i bu gibi durumlarda kullan lan, büyük miktardaki veri setlerinde sakl durumda bulunan örüntü ve e!ilimleri ke fetme i lemidir. Bu çal mada, en popüler veri madencili!i yöntemi olan “Karar A!açlar ” yard m yla Türkiye’deki bo anma nedenlerinin demografik de!i kenlerle olan ili kisi ortaya konacakt r. Anahtar sözcükler: Veri madencili!i, karar a!açlar , bo anma, bo anma nedenleri, bo anma nedenleri profili, CHAID algoritmas . Abstract Forming the Profile of Cause of Divorce in Turkey by Using the Data Mining methods of Decision Trees Data mining,is one of the most recent technology in our information age. Much more information can easily be saved in computers due to computer systems are being cheaper and also being stronger day by day That’s why using the techniques of analysing huge quantity data being more important nowadays. Data mining is the exploring process of pattern and aptitude which are inside the huge quantity data sets. In this study, relation between the cause of divorce and demographic variables in Turkey will be identified by the way of “Decision Trees” which is the most popular method of data mining. Keywords: Data mining, decision trees, divorce, cause of divorce, the profile of cause of divorce, the CHAID algorithm. 1. Giri! Otomatik veri toplama araçlar ve veri taban teknolojilerindeki geli me, veritabanlar nda, veri ambarlar nda ve di!er bilgi depolar nda çok miktarda bilgi depolanmas sonucunu do!urmu tur. Büyük miktarlardaki veriler içindeki gizli örüntüler, geleneksel çözümleme araçlar yla bulunamamaktad r. 136 Toplanan veri miktar büyüdükçe ve toplanan verilerdeki karma kl k artt kça, daha iyi çözümleme tekniklerine olan gereksinim de artmaktad r. Bu tür bilgiler, bilgi bulma/ke fetme veya veri madencili!i (data mining) olarak bilinen teknikler yard m yla çözümlenebilir[1,3]. 2. Veri Madencili<i Teknolojik geli me sonucunda otomatik veri toplama araçlar ve veri taban ndaki geli me nedeniyle, veritabanlar nda, veri ambarlar nda ve di!er bilgi depolar nda çok miktarda bilgi depolanmas sonucunda veritabanlar günümüzde terabaytlarla ifade edilen boyutlara ula m t r. Zaman içerisinde bu büyük hacimde verinin içinde stratejik önem ta yan gizli bilgilerin bulundu!u belirlenmi tir. Buradaki temel soru, bu gizli kalm bilgi ya da bilgiler nas l aç !a ç kar laca! d r. Bu sorunun en güncel ve popüler yan t Veri Madencili!i (VM) olarak kar m za ç kmaktad r. Veri madencili!i veri kümesi içerisinde ke fedilmemi örüntüleri bulmay hedefleyen teknikler kolleksiyonunu betimlemektedir. Veri madencili!inin amac , geçmi faaliyetlerin analizini temel alarak gelecekteki davran lar n tahminine yönelik karar-verme modelleri yaratmakt r. Veri madencili!i, William Frawley ve Gregory Piatetsky-Shapiro (1991) taraf ndan, ‘ ... verideki gizli, önceden bilinmeyen ve potansiyel olarak faydal enformasyonun önemsiz olmayanlar n n aç !a ç kar lmas ...’ biçiminde yap lan bilgi ke fi tan m n destekler [4,5,6]. Veri Madencili!i, yöntem olarak güçlü teorik dayanaklara sahip olsa da; uygulamada yaz l mlarla kar m za ç kmaktad r. Veri Madencili!i kavram yaz l m baz nda incelendi!inde; kar la lan temel karakteristiklerinden birisi bilgilerin otomatik olarak aç !a ç kar lmas , ke fedilmesidir. Veri Madencili!i’nin ikinci betimsel karakteristi!i ise tahmin edici modelleme yapmas d r. Dolay s yla, Veri Madencili!i bir anlamda otomatik tahminsel modelleme ile bilgi ke fi olarak da tarif edilebilir[5]. Veri madencili!i süreci, ekil 1’de gösterildi!i gibi verinin nas l depolan p eri ilece!inden ba lar, veriden bilgiye ula ncaya kadar tüm süreçleri kapsar[5, 11]. rekil 1- Veri madencili!i süreci Veri madencili!inde kullan lan modeller tahmin edici ve tan mlay c olarak iki grupta incelenebilir. Tan mlay c modellerde amaç karar vermeye yard mc olacak, mevcut veri kümesi içerisindeki yayg n örüntülerin tan mlanmas ve nesneler aras ndaki ili kilerin bulunmas d r. 137 Tan mlay c modeller de kendi içerisinde kümeleme ve birliktelik analizi olarak ikiye ayr l r. Nesneler aras ndaki bu ili kiler birliktelik kural ya da s k gözlenen nesnelerin kümeleri biçiminde gösterilir. Birliktelik kurallar , ayn i lem içerisinde ço!unlukla görülen nesneleri saptama amaçl üretilen kurallard r. Benzer biçimde, her bir i leminde mevcut ö!elerin birlikteli!inden olu tu!u dü ünülen bir veri taban nda bütün birliktelikleri tarayarak s k tekrarlanan birlikteliklerin ortaya ç kar lmas n amaçlayan kurallar olarak da tan mlanabilir[1,3,11]. Veri madencili!i yöntemleri denetimli(en yak n kom uluk, regresyon modelleri, sinir a!lar ve karar a!açlar ) ve denetimsiz (a amal kümeleme) olmak üzere iki ana katogoriye ay rmak mümkündür[5]. Veri madencili!i, çe itli tekniklerle gerçekle tirilebilir. Bunlar, ak ll araçlar, güçlü veritaban sorgular ve çok boyutlu çözümleme araçlar d r. Çok boyutlu çözümleme yöntemlerinde, karar a!ac kullan labilir. 3. Karar A<ac Karar a!ac , ad ndan da anla laca! gibi a!aç olarak görünen ve kolay kural ç kar m na olanak vermesi nedeniyle s n fland rma, kümeleme ve tahmin modellerinde kullan lan bir tahmin tekni!idir. Sorunla ilgili ara t rma alan n alt gruplara ay rmak için kullan l r. Karar a!açlar nda kök ve her dü!üm bir soruyla etiketlenir. Dü!ümlerden ayr lan dallar ise ilgili sorunun olas yan tlar n belirtir. Her dal dü!ümü de söz konusu sorunun çözümüne yönelik bir tahmini temsil eder. Veri madencili!inde kurulu lar n n ucuz olmas , yorumlanmalar n n kolay olmas , veri taban sistemleri ile kolayca entegre edilebilmeleri ve güvenilirliklerinin iyi olmas nedenleri ile s n flama modelleri içerisinde en yayg n kullan ma sahip tekniktir. A!aç yap s ile, kolay anla labilen kurallar yaratabilen, bilgi teknolojileri i lemleri ile kolay entegre olabilen en popüler s n flama tekni!idir[1,4]. Karar a!ac karar dü!ümleri, dallar ve yapraklardan olu ur. Karar dü!ümü, gerçekle tirilecek testi belirtir. Bu testin sonucu a!ac n veri kaybetmeden dallara ayr lmas na neden olur. Her dü!ümde test ve dallara ayr lma i lemleri ard k olarak gerçekle ir ve bu ayr lma i lemi üst seviyedeki ayr mlara ba! ml d r. A!ac n her bir dal s n flama i lemini tamamlamaya adayd r. E!er bir dal n ucunda s n flama i lemi gerçekle emiyorsa, o daim sonucunda bir karar dü!ümü olu ur. Ancak daim sonunda belirli bir s n f olu uyorsa, o dal n sonunda yaprak vard r. Bu yaprak, veri üzerinde belirlenmek istenen s n flardan biridir. Karar a!ac i lemi kök dü!ümünden ba lar ve yukar dan a a! ya do!ru yapra!a ula ana dek ard k dü!ümleri takip ederek gerçekle ir. Karar a!açlar algoritmalar çapraz tablolar n çözümlenmesinde de s kça kullan lmaktad r[3,5,11]. Son zamanlarda pek çok karar a!ac modelleri için algoritmalar (ID3, C4.5, C5, CART veya C&RT, QUEST ve CHAID) geli tirilmi tir. Bu çal mada, CHAID algoritmas kullan lm t r. lk kez Gordon V. Kass (1980) taraf ndan kullan lan CHAID algoritmas , karar a!ac tekni!inin bir türüdür[2]. CHAID algoritmas , de!i kenler aras ndaki birlikteli!i belirlemek için kullan lmaktad r. Regresyon analizine tam olarak uymayan veri kümeleri için çoklu regresyona alternatif olarak kullan labilen bir tekniktir. Bu teknikte ba! ml de!i kenler ile ba! ms z/aç klay c de!i kenler aras nda birlikteli!i/ba!lant y aç klamak için herhangi bir formüle ve e itlik veya denklemlere gerek duyulmamaktad r. CHAID algoritmas n n ç kt görselli!i son derecede anla l r ve yorumlanmas kolay olmas kullan c lar için bir avantajd r[2,5,6]. 4. Uygulama Türkiye statistik Kurumu’ndan 2002 y l na ait bo anma ile ilgili demografik de!i kenler ve bu demografik de!i kenlere ait ba! ml ve ba! ms z de!i kenler elde edilmi tir[12]. Bu de!i kenler üzerinden, bo anma nedenleri profili ortaya konmak istenmektedir. Bu amaç için veri madencili!i 138 yöntemlerinden karar a!açlar n n kullan lmas planlanm t r. Bu modeli olu turmak için SPSS program n n veri madencili!i için kullan lan CLEMENTINE program ndan yararlan lm t r[7,8,9,10]. A a! daki de!i kenlerden “bo anma nedeni” de!i keni, hedef de!i keni olarak belirlenmi tir. Bo anma nedenlerinden “geçimsizlik” nedeninin çok yüksek frekansa sahip olmas , “di!er” nedeninin de belirli bir aç klay c l ! olmamas sebebiyle ara t rmadan ç kar lm t r. Hedef de!i keni “Bo anma nedeni” olarak belirlenirken, bu hedef de!i kenini etkileyen di!er de!i kenlerin tümü analize dâhil edilmi tir. Ara t rmada, de!i kenler bir ön elemeden geçirilip istenilen de!i kenler de!il, hepsi dâhil edilip buna karar a!açlar üzerinde karar verilmek istenmi tir. Dolay s yla tüm de!i kenler dâhil edildi!i için önemli olan de!i kenler karar a!açlar nda ortaya ç km t r. statistiksel olarak önemsiz olanlar da a!aca dâhil olmam lard r. Bu çal mada kullan lan de!i kenler a a! daki gibi grupland r lm t r. * Cinsiyet(davay açan taraf ): (1): Erkek (2): Kad n * llerin Geli mi lik Düzeyi(geli mi lik): (1): 1.derecede, (2): 2.derecede, (3): 3.derecede, (4): 4.derecede, (5): 5.derecede * Bo anma Nedeni(neden): (1): Zina (2): Cana kast ve fena muamele (3): Cürüm ve haysiyetsizlik (4): Terk (5): Ak l hastal ! (6): Geçimsizlik (7): Di!er * Meslek grubu (Erkek ve Kad n için Emesgr ve Kmesgr): (1): lmi ve teknik elemanlar, serbest meslek sahipleri ve bunlarla ilgili di!er meslekler, (2): Müte ebbisler, direktörler ve üst kademe yöneticileri, (3): dari personel ve benzeri çal anlar, (4): Ticaret ve sat personeli, (5): Hizmet i lerinde çal anlar, (6): Tar mc , hayvanc , ormanc , bal kç ve avc lar, (7): Tar m d üretim faaliyetlerinde çal anlar ve ula t rma makineleri kullananlar, (8): Di!er (ev kad n , emekli, ö!renci) * Ö!renim (Erkek ve Kad n için Eogr ve Kogr): (1): Okuma-yazma bilmeyenler, (2): Bir ö!renim kurumundan mezun olmayanlar, (3): lkokul, (4): Ortaokul ve dengi, 139 (5): Lise ve dengi, (6): Yüksekokul ve fakülte * Ya (Erkek ve Kad n için Eyas ve Kyas) * Evlilik Süresi (y l) (evyil): (1): 0–1, (2): 2–3, (3): 4–5, (4): 6–8, (5): 9–12, (6): 13–17, (7): 18–21, (8): 22–26, (9): 27=> * Ya büyüklü!ü (büyüklük): (1): Erkek > Kad n (2): Kad n > Erkek (3):Erkek= Kad n * Evlenme Ay (evay) * Evlenme Y l (evyil) * Davan n Aç ld ! Ay (acay) * Davan n Aç ld ! Y l (acyil) * Davan n Kesinle ti!i Ay (davay) * Davan n Kesinle ti!i Y l (davyil) * Evlilik Süresi_Y l (sureyil) * Evlilik Süresi_Ay (sureay) * Çocuk Say s (çocuk) * Annenin Velayetine Verilen Çocuk Say s (avel) * Baban n Velayetine Verilen Çocuk Say s (bvel) Bu çal mada, ç kt görselli!i son derecede anla l r ve yorumlanmas kolay ve di!er algoritmalardan daha anlaml bir model olu turmas nedeniyle veri madencili!i yöntemlerinden CHAID karar a!açlar algoritmas kullan lm t r 5. Sonuç ve Öneriler Hedef de!i ken “bo anma nedenleri” ile istatistiksel aç dan en önemli ili kiye sahip de!i ken “cinsiyet” olarak görülmü tür. Cinsiyet de!i keni alt nda erkeklerde en önemli de!i ken “evlilik süresi” olarak belirlenirken, kad nlarda “il geli mi lik durumu” olarak görülmü tür. Bo anmay etkileyen en önemsiz de!i kenin ise kad nlar için “çocuk say s ” oldu!u belirlenmi tir. Evlilik süresi: (8-11] y l aral ! d ndaki tüm evlilik sürelerinde erkekler; “terk edilme” nedeniyle bo an rken, (8-11] y l evli kalan erkeklerin genellikle e inin “ak l hastal ! ” yüzünden bo and ! saptanm t r. (5-8] y l evli kalan erkeklerden e leri 25 ya ve alt nda olanlar %45 olas l kla “zina” yüzünden, e leri (25,31] ya lar ndaki erkekler “terk edilme” nedeniyle ve e leri 31 ve daha üst ya lardaki erkekler “terk edilme” ve “ak l hastal ! ” nedeniyle bo and klar saptanm t r. (8-11] y l evli kalan erkeklerden hiç çocu!u olmayanlar, %71 olas l kla e lerinin “ak l hastal ! ” yüzünden bo an rken, çocu!u olanlar %50 olas l kla “terk edilme” sebebiyle bo anmaktad r. 140 (11-13] y l evli kalan erkeklerden ekim, kas m ve aral k aylar nda bo ananlar %64 olas l kla “cana kast ve pek fena muamele” sebebiyle bo an rken, di!er aylarda bo ananlar “terk edilme” sebebiyle bo anmaktad rlar. Evlilik süresi 5 y l ve daha az olan erkeklerden 2.,3.,4. ve 5. derece geli mi illerde ya ayanlardan “terk edilme” nedeniyle bo ananlarda baban n velayetine verilen çocuk say s hiç veya en fazla 1 iken, e inin zina yapmas sebebiyle bo ananlarda erke!in velayetine verilen çocuk say s 1 den fazla olarak belirlenmi tir. (5-8] y l evli kalan erkeklerden e leri (25-31] ya aral ! nda ve ilkokul mezunu olanlar %45 olas l kla e lerinden “zina” sebebiyle bo an rken, e leri (25-31] ya aral ! nda ve ortaokul veya lise mezunu olanlar e lerinden %95 olas l kla “terk edilme” sebebiyle bo and klar saptanm t r. (11-13] y l evli kalan erkeklerden bo anma davalar n 2001 ve daha öncesinde açanlar %87 olas l kla “terk edilme” nedeniyle bo an rken, 2001 den daha sonra açanlar da %68 olas l kla “cürüm ve haysiyetsizlik” sebebiyle bo anmaktad r. Kad nlar n %36 olas l kla “terk edilme” nedeniyle bo and klar belirlenmi tir. 1. ve 5. derece geli mi illerde ya ayan kad nlardan evlilik süreleri 8 ay ve daha az olanlar “terk edilme” nedeniyle bo an rken, 8 aydan fazla olanlar daha çok “cürüm ve haysiyetsizlik” nedeniyle bo anmaktad r. Bu çal mada, ç kt görselli!i son derecede anla l r ve yorumlanmas kolay anlaml bir model olu turmas nedeniyle, bo anma nedenlerinin demografik de!i kenlerle olan ili kisi veri madencili!i yöntemlerinden CHAID karar a!açlar algoritmas kullan larak ortaya konmaya çal lm t r. 2008 y l ndan ba layan ve etkisi 2009 y l nda da bitmesi zor görünen ekonomik krizin bo anmalar üzerindeki etkilerinin ara t r lmas yeni bir ara t rma konusu olarak önerilebilinir. Kaynaklar [1] Dolgun, M. Ö., 2006, Büyük Al:#veri# Merkezleri için Veri MadenciliGi Uygulamalar:, Yüksek Lisans Tezi, H.Ü. Fen Bilimleri Ens., ANKARA [2] G. V. Kass. (1980), “An Exploratory Technique for Investigating Large Quantities of Categorical Data” Journal of Applied Statistics, Vol. 29, No. 2 , pp. 119-127. [3] Hand, D., Mannila, H., Smyth, P., (2001), Principles of data Mining, MIT Press, London [4] Hastie, T., Tibshirani, R. ve Friedman, J. 2001. The Elements of Statistical Learning; Data Mining, Inference, Prediction. Springer, New YORK [5] KOYUNCUG L, A. S. (2009) , Data Mining Center, http://www.koyuncugil.org/ [6] Özgülba , N. ve Koyuncugil, A.S. (2006). MKB’de #lem Gören KOB ’lerin Veri MadenciliGi Karar AGaçlar: Algoritmalar:ndan CHAID ile Profillendirilmesi ve Küreselle#me Sürecinde Güçlü Ve Zay:f Yönlerinin Belirlenmesi. 10. Ulusal Finans Sempozyumu. 1-4 Kas m. zmir. [7] SPSS. 2001. AnswerTree 3.0 User’s Guide, SPSS Inc. USA 226 p [8] SPSS Türkiye, (2004). Clementine Temel EGitimi. [9] SPSS Türkiye, (2004). Clementine Veri Manipülasyon Yöntemleri. [10] SPSS Türkiye, (2004). Clementine ile leri Modelleme. [11] Tan, P., Steinbach M., Kumar, V., (2006), USA ntroduction to Data Mining, Pearson Addison Wesley, [12] TU K, (2004), 2002 Bo#anma statistikleri. 141 Geli tirilmi Anahtarlamal Bulan k Regresyon Modeli ve Bir Uygulama Duygu ÇEN Hacettepe Üniversitesi Fen Fakültesi statistik Bölümü 06800-Beytepe, Ankara, Türkiye duyguicn@hacettepe.edu.tr Süleyman GÜNAY Hacettepe Üniversitesi Fen Fakültesi statistik Bölümü 06800-Beytepe, Ankara, Türkiye sgunay@hacettepe.edu.tr Özet Klasik regresyon analizinde veri kümesinin tek bir s n ftan elde edildi!i varsay larak ba! ml ve ba! ms z de!i kenler aras nda basit bir fonksiyonel ili ki ile veri analizi gerçekle tirilmektedir. Ancak veri kümesinin birbirinden farkl da! l mlara sahip iki ya da daha çok s n ftan elde edilmesi durumunda veri analizi için “Anahtarlamal Regresyon Modeli” (Switching Regression Model) kullan lmas gerekmektedir. Bu çal mada ba! ms z de!i kene ait veri kümesine ili kin en uygun s n flar ve say s n belirlemek amac yla bulan k kümelemeye dayal geçerlilik ölçütünden yararlan lm t r. Bu do!rultuda “Bulan k COrtalamalar Algoritmas ” (Fuzzy C-Means Algorithm) kullan larak küme say s saptanm t r. Elde edilen alt kümelerin farkl regresyon do!rular na sahip olmas durumunda “Geli tirilmi Anahtarlamal Bulan k Regresyon Modeli” (Enhanced Fuzzy Switching Regression Model) uygulanarak tahmin de!erleri hesaplanm t r. Anahtar Kelimeler: Bulan:k kümeler, Geli#tirilmi# anahtarlamal: bulan:k regresyon modeli, Bulan:k Cortalamalar algoritmas:. Abstract Enhanced Fuzzy Switching Regression Model and An Application One of the most important assumptions in classical regression analysis is that the data set is obtained from single cluster. Therefore the data analysis among dependent and independent variables occurs by the help of simple functional relation. In the case of gathering data from two or more different distributed clusters, a switching regression model needs to be fitted. In this study fuzzy clustering based legality criterion is used to determine the best suitable clusters and the number of clusters which belong to the independent data sets. In this respect, the number of clusters is found by using the fuzzy c-means algorithm. In case derived subsets have different regression lines then values of estimators are calculated by applying enhanced fuzzy switching regression model. Keywords: Fuzzy Clusters, Enhanced Fuzzy Switching Regression Model, Fuzzy C-Means Algorithm 1. Giri! Regresyon Analizi birden fazla de!i ken ve bunlar aras ndaki ba! nt lar n incelenmesinde kullan lan bir yöntemdir. Üzerinde durulan de!i kenlerden ba! ml de!i ken y, ba! ms z de!i ken x ise, y=f(x) eklindeki fonksiyona regresyon denir. f(x) fonksiyonu farkl ekiller alabilir, Fonksiyonun ald ! ekle göre Regresyon Analizi farkl isimler al r [7] 142 Kümeleme analizi veriyi anlaml alt bile enlere bölmeyi amaçlayan geni yöntemler toplulu!udur [1]. Kümeleme analizinde amaç gruplanmam verileri benzerliklerine göre homojen topluluklara ay rmak oldu!u için bu analiz çok farkl problem çözümlerinde ba vurulan bir tekniktir[9]. Uygulamalarda kümeler birbirinden belirgin ekilde ayr lam yorsa ya da baz birimlerin hangi kümeye ait oldu!u konusunda karars zl k ya an yorsa Bulan k Kümeleme Yöntemi uygun bir analiz olarak kar m za ç kar [6]. Özellikle sa!l k bilimleri, mühendislik ve psikoloji gibi pek çok alanda Bulan k Kümeleme Teknikleriyle problem çözümleri gerçekle tirilmektedir. 2. Kullan lan Yöntemler Verilerin analizinde kullan lacak ilk yöntem Bulan k Kümeleme Analizidir. Bu analiz sonras nda elde edilen de!erler Geli tirilmi Anahtarlamal Bulan k Regresyon Modelinin ba lang ç verilerini olu turur. 2.1. Bulan:k Kümeleme Analizi Tüm kümeleme algoritmalar nda ayn kümede bulunan verilerin di!er kümelerde bulunan verilere göre birbirlerine daha çok benzemesi amaçlan r. Tipik kümeleme ad mlar rekil 1 de verilmi tir [11]. Geri besleme Çevirimi Öznitelik seçimi Örnekler Örnek benzerli!i Örnek Sunumlar Gruplama Kümeler Bekil 1 Kümeleme i lemi ad mlar Sonuçlar bak m ndan yakla k benzer sonuçlar veren kümeleme algoritmalar nda baz birimlerin farkl kümelerde yer ald ! gözlenmektedir. Bu gibi durumlarda birimlerin küme üyeliklerinde karars zl ! ortaya ç kmaktad r[5]. Bulan k kümeleme Analizi, kümeler birbirinden belirgin ekilde ayr lam yorsa ya da kümeleme yap l rken baz birimler küme üyeliklerinde karars z davran yorsa uygun bir yöntem olarak kullan lmaktad r [2]. Karars zl ! n bir ölçüsü olarak belirlenen üyelik fonksiyonu de!erleri her veri için 0 ile 1 aras nda de!erler almaktad r. Burada üyelik dereceleri u ij , i = 1,2,..., n , j = 1,2,..., c ise u ij > 0 , 6 i ve 6 j için ve u ij = 1 olmal d r [14] Veriler aras ndaki bulan k ili kileri ya da belirlenen amaç fonksiyonunu kullanmaya göre ikiye ayr lan bulan k kümeleme teknikleri di!er kümeleme yöntemlerinin aksine veri uzay ndaki her bir birimin belirlenen kümelere belirli bir de!erle ba!lanmas n sa!lar [6]. Bulan k kümeleme algoritmalar a a! da verilmektedir. Bulan k Kümeleme Algoritmalar Geleneksel Bulan k Kümeleme Algoritmalar Bulan k C-ortalamalar Algoritmas Prototipti farkl Geometrik ekle sahip kümeleme algoritmalar Bulan k C-Regresyon Algoritmas Gustafson-Kessel Algoritmas Bulan k C-Hatlar Algoritmas Gath-Geva Algoritmas 143 Uyarlamal Bulan k Küme Algoritmas Kabuk Prototipler En iyi bilinen bulan k kümeleme algoritmas 1974 y l nda Dunn taraf ndan önerilen ve Bezdek taraf ndan geli tirilen Bulan k C-Ortalamalar (BCO) Algoritmas d r. Bu algoritma, veriler aras ndaki uzakl klar kullanan ad msal bir algoritmad r [1]. Bulan k C-Ortalamalar Algoritmas n n hedefi a a! da verilen amaç fonksiyonunu minimize etmektir. m J m (U ,V ) = "" (u ij ) d 2 (X j , Vi ) , K ! N N K (1) j =1 i =1 Burada m: Bulan kl k indeksi Xj: j geni li!indeki veri kümesi Vi: i. küme merkezi uij: Xj. Eleman n i. kümeye ait olan üyelik derecesi d 2 X j ,Vi : Xj. Eleman n i. kümeye olan uzakl ! ( ) N: veri say s K: küme say s olarak verilmektedir. Bulan k küme bölünmesini gerçekle tirmek için gerekli olan algoritma, Ad m 1: Ba lang ç küme merkezinin seçilmesi Ad m 2: Tüm veriler için üyelik de!erlerinin hesaplanmas 1 1 2 d (X j ,Vi ) u ij = ( m 1) 1 K 1 " d (X 2 k =1 j (2) ( m 1) ,Vi ) Ad m 3: yeni küme merkezini e itlik 3’e göre hesapland ktan sonra üyelik derecelerini u ij * uˆ ij olarak ad m 2 ye göre güncellenmesi " (u ) N Vˆi = m j =1 ij (3) " (u ) N m ij j =1 [ Ad m 4: max u ij ij Xj uˆ ij ]< ) olana kadar i lemin devam etmesi, aksi halde ad m 3’e geri dönülmesi eklinde aç klanabilir. ( Burada }, 0 < ) < 1 ’ dur. Burada d 2 X j , V ) = (X Vi ) A (X j T j Vi ) olarak hesaplan r. A matrisi m*m lik pozitif tan ml bir matristir. A=I olarak al n rsa Öklid uzakl ! kullan lm olur. Algoritman n sonucunda Bulan k C-Ortalamalar ile elde edilen kümeler ve üyelik de!erleri elde edilir [4]. 144 Bulan k kümelerde amaç farkl veri tiplerine uygulanabilirlik, gürültüye dayan kl l k, kümeye giri de!erleri s ras n n önemsenmemesi ve h z olarak belirlenmi tir. Ayr ca Bulan k Kümelemenin avantaj veri hakk nda daha detayl bilgi vermesidir. Ancak birey ve küme say s çok oldu!u durumda çok fazla ç kt olaca! ndan bilgiyi özetlemek ve kategorize etmek zordur. 2.2 Geli#tirilmi# Anahtarlamal: Bulan:k Regresyon Modeli Klasik Regresyon Analizinde verilerin tek bir s n ftan geldi!i kabul edilir. Ba! ms z veriler ile ba! ml veri aras nda fonksiyonel bir ili ki kurulur. Genel model Y = f ( x ) + ) eklinde elde edilir [4]. Veri kümesi klasik regresyondakinin aksine birbirinden farkl da! l mlara sahip iki veya daha fazla s n ftan al nan gözlemlerin bir araya getirilmesiyle meydana gelmi olabilir [3]. Bu durumda c s n f say s n göstermek üzere, her farkl s n f bir f i fonksiyonu ile ve rastgele hata ei ile ifade edildi!inde “Anahtarlamal Regresyon Modeli” olarak tan mlanan model E .(4) ile verilir. Yi = f i ( x; i )+ )i 1! i ! c (4) Anahtarlamal Regresyon farkl ve kar t r lm s n flardan bir araya getirilmi verileri analiz eder. Burada i her bir parametre vektörünü, ) i ise rastgele vektörü göstermektedir. { 1 , 2 ,..., c } Parametreleri için en iyi tahmin “tek fonksiyonel ili ki” durumunda bulundu!u gibi elde edilmektedir. Ancak burada problem herhangi bir ( x k , y k ) veri noktas için hangi modelin seçilece!idir. Bunun için Bulan k Kümeleme Teknikleri kullan larak veri kümesinin bölünmesi i lemi yap l r. Bulan k CRegresyon Modeli kullan larak parametre tahmini yap ld ktan sonra ( x k , y k ) noktas n n üyelik derecesi hangi kümeye daha fazla ise o veri noktas için o kümeye kar l k gelen regresyon modeli kullan l r. Bu i leme anahtarlama denir. Geli tirilmi Anahtarlamal Bulan k Regresyon Modeli, yap s do!rusall ktan farkl olan regresyon modellerine (kübik, karesel) sahip veri kümelerine de uygulanabilir [8]. 3. Uygulama Bu çal mada Geli tirilmi Anahtarlamal Bulan k Regresyon Modelinin uygulanmas için ilk önce modelde yer alacak de!i kenler, küme say s , ba lang ç ayr m matrisi, m bulan kl k indeksi, ) i lem bitirme kriteri gibi ba lang ç de!erlerinin belirlenmesi gerekmektedir. Ba lang ç de!erleri elde edildikten sonra model parametreleri belirlenerek tahmin i lemine geçilmi tir [6]. Java programlama dilinde Eclipse IDE'si kullan larak çal ma sonland r lm t r. Bu bölümde Türkiye’ deki sabit sermaye tüketiminin gelir yöntemiyle hesaplanan GSY H içindeki % pay n n modellenmesi amaçlanmaktad r. Bu amaç do!rultusunda verilere Bulan k Kümeleme Analizine dayanan Geli tirilmi Anahtarlamal Bulan k Regresyon Analizi uygulanm t r. Bunun için Türkiye statistik Kurumunun Aral k 2007 de yay nlam oldu!u statistiksel Göstergeler 1923–2006 kitab ndan elde edilen veriler kullan lm t r. Milli gelir bir ülkede belli bir dönemde milli ekonominin bir y l içinde yaratt ! toplam net has lay ifade eder. Milli gelir reel olarak mal ve hizmet ak m n belirtir. Oysa bu ak m sadece fiyatlarla ifade edilebilir. Belirlenen zaman içinde ekonominin durumunu gösteren ölçütlerden biri olan gayri safi yurtiçi has la, bir ekonomide yerle ik olan üretici birimlerin belli bir dönemde, yurtiçi faaliyetleri sonucu yaratm olduklar tüm mal ve hizmetlerin üretim de!erleri toplam ndan bu mal ve hizmetlerin üretiminde kullan lan girdiler toplam n n dü ülmesi sonucu elde edilen de!erdir. Sabit sermaye 145 tüketiminin GSY H içindeki pay gelecek dönemlerde yap lacak olan yat r mlar etkiledi!i için ekonomik geli mi li!in ölçüsü bak m ndan önemli bir de!i kendir. Bu uygulama için olu turulan model E .(5) ile verilmi tir. yˆ i = bi 0 + bi1 X (5) Burada y: Türkiye’de sabit sermaye tüketiminin, gelir yöntemiyle hesaplanan GSY H içindeki % pay n x: Bir önceki y la ait hesaplanan % pay göstermektedir. lk ad mda BCO Kümeleme algoritmas kullan larak ba lang ç üyelik de!erleri matrisi elde edilmi tir. Bu de!erler Çizelge1 ile verilmi tir. Çizelge 1. BCO Algoritmas Sonucunda Elde Edilen Üyelik De!erleri U1 0,00023291900251 0,00062004199838 0,00132446841073 0,92238351614136 0,00132446841073 0,00062004199838 0,00077451612946 0,00132446841073 0,00050756272429 0,02487057349040 0,00276339705449 0,02487057349040 0,00895340645655 0,00132446841073 0,00132446841073 0,02487057349040 0,82238351614136 0,72238351614136 0,00895340645655 0,72238351614136 U2 0,99976708099749 0,99937995800162 0,99867553158927 0,07761648385864 0,99867553158927 0,99937995800162 0,99922548387054 0,99867553158927 0,99949243727571 0,97512942650960 0,99723660294551 0,97512942650960 0,99104659354346 0,99867553158927 0,99867553158927 0,97512942650960 0,17761648385864 0,27761648385864 0,99104659354346 0,27761648385864 Elde edilen Üyelik de!erlerine göre iki gruba ayr lan veriler Çizelge 2 ile verilmi tir. Çizelge 2. BCO Algoritmas Uyguland ktan Sonra Elde Edilen Kümeler. Y 7,00 6,30 6,10 6,90 1. küme X 6,30 6,30 6,30 6,30 Y 5,40 5,70 6,30 7,30 7,20 7,00 7,40 6,50 5,90 6,20 146 2. küme X 4,80 5,40 5,70 7,00 7,30 7,20 7,00 7,40 6,50 5,90 6,10 5,70 7,00 6,50 6,30 6,30 6,20 6,10 5,70 7,00 6,50 6,10 Kümeleme i lemi gözlemin maksimum üyeli!ine göre yap l r. Her bir gözlem maksimum üyeli!e sahip oldu!u kümeye tahsis edilir [6]. Yap lan denemeler sonucunda bulan kl k indeksi m=2 ve )=0.001 olarak belirlenmi tir. Ayr m de!erleri elde edildikten sonra Türkiye deki sabit sermaye tüketiminin gelir yöntemiyle hesaplanan GSY H içindeki % pay n n modellenmesi için Bulan k CRegresyon Modeli (BCRM) Algoritmas kullan lm t r. Modeller, tahmin algoritmas n n e!itim kümesine ili kin verilere uygulanmas ile elde edilir. Bu tahmin algoritmas için tüm ba lang ç de!erleri elde edildikten sonra {bi 0 , bi1 }parametreleri iterasyon ile elde edilmi tir. Tahmin algoritmas n n e!itim kümesine ili kin verilere uygulanmas ndan sonra regresyon modelleri E .(6) ile verilmi tir. Yˆ1i = 5,42287 + 0,13692 X 1 (6) ve Yˆ2i = 1,867424 + 0,75827 X 1 Bir y la kar l k gelen xk tüketim de!erinin tahmini için kullan lacak en uygun model maksimum üyeli!e sahip oldu!u kümenin regresyon modeli olacakt r. Ayr m matrisi güncellendikten sonra elde edilen üyelik dereceleri Çizelge 3’te verilmi tir. Çizelge 3. Güncellenen Üyelik dereceleri U1 0,00001573956925 0.02787861405468 0.98644167474457 0.09149559337267 0,00065674817969 0.00298166816655 0.06407812971621 0.00343744608818 0.99995027191776 0.94345484819241 0.83078119498336 0.95825547261928 0.73179141073012 0.62424580259360 0.99880507120091 0.99998686236769 0.99999961280683 0.97321549114344 0.99995734665852 0.05434177151782 U2 0,99998426043075 0,97212138594532 0,01355832525543 0,90850440662733 0,99934325182031 0,99701833183345 0,93592187028379 0,99656255391182 0,00004972808224 0,99995027191777 0,16921880501664 0,04174452738072 0,26820858926988 0,37575419740640 0,00119492879909 0,00001313763231 0,99998686236770 0,99999961280684 0,00004265334148 0,99995734665853 147 Güncellenen üyelik derecelerine göre elde edilen kümeler Çizelge 4’te görülmektedir Çizelge 4. BCRM Uyguland ktan Sonra Güncellenen Kümeler. 1. Küme Y 6,30 6,50 6,20 6,10 5,70 7,00 6,50 6,30 6,30 6,30 2. Küme X 5,70 7,40 5,90 6,20 6,10 5,70 7,00 6,50 6,30 6,10 Y 5,40 5,70 7,00 7,30 7,20 7,00 7,40 5,90 6,10 6,90 X 4,80 5,40 6,30 7,00 7,30 7,20 7,00 6,50 6,30 6,30 ki farkl regresyon do!rusuna göre elde edilen tahminler ise Çizelge 5’te verilmi tir. Çizelge 5. BCRM Uyguland ktan Sonra Elde Edilen Tahmin De!erleri Y1 den 6,1558 6,2166 6,2469 6,3077 6,3787 6,4090 6,3989 6,3787 6,4192 6,3280 6,2672 6,2976 6,0287 6,8869 6,3787 6,3280 6,3077 6,3077 6,2875 6,3077 Y2 den 5,4476 5,9126 6,1451 6,6100 7,1525 7,3850 7,3075 7,1525 7,4625 6,0105 6,3000 6,5325 6,4550 6,1451 7,1525 6,7650 6,6100 6,3261 6,4550 6,6100 148 Geli tirilmi Anahtarlamal Bulan k Regresyonda her veri için kullan lacak olan regresyon do!rusuna ve regresyon modeline üyelik derecelerine göre karar verilmektedir. Bu analize göre elde edilen tahminler ile mutlak yüzde hata ve ortalama yüzde hata de!erleri Çizelge 6’da verilmi tir. Çizelge 6. Geli tirilmi Anahtarlamal Bulan k Regresyon ile Elde Edilen Tahmin De!erleri ve Hatalar Y llar 1981 1982 1983 1984 1985 1986 1987 1988 1989 1990 1991 1992 1993 1994 1995 1996 1997 1998 1999 2000 Gerçek De%er 5,40 5,70 6,30 7,00 7,30 7,20 7,00 7,40 6,50 5,90 6,20 6,10 5,70 7,00 6,50 6,30 6,30 6,10 6,30 6,90 Tahmin 5,45 5,91 6,25 6,61 7,15 7,38 7,31 7,15 6,42 6,01 6,27 6,30 6,03 6,89 6,38 6,33 6,31 6,33 6,29 6,61 OMYH= MYH (%) 0,882 3,729 0,842 5,571 2,021 2,569 4,392 3,345 1,243 1,864 1,084 3,239 5,789 1,571 1,867 0,444 0,123 3,770 0,199 4,203 2,463766823 E!itim kümesi ile yap lan uygulamada Geli tirilmi Anahtarlamal Bulan k Regresyonun üstünlü!ünü kan tlamak için ayn e!itim verisine Klasik Regresyon Analizi uygulanm t r. Kar la t rma ölçütü olarak mutlak yüzde hata ve ortalama yüzde hata de!erleri kullan lm t r[6]. Klasik Regresyon Analizi ile elde edilen sonuçlar Çizelge 7’de verilmi tir. Çizelge 7.Klasik Regresyon ile Elde Edilen Tahmin De!erleri ve Hatalar Y llar 1981 1982 1983 1984 1985 1986 1987 1988 Gerçek De%er 5,40 5,70 6,30 7,00 7,30 7,20 7,00 7,40 Tahmin MYH (%) 5,52 5,90 6,09 6,47 6,91 7,10 7,03 6,91 2,306 3,538 3,329 7,609 5,378 1,445 0,473 6,657 149 1989 1990 1991 1992 1993 1994 1995 1996 1997 1998 1999 2000 6,50 5,90 6,20 6,10 5,70 7,00 6,50 6,30 6,30 6,10 6,30 6,90 7,16 6,59 6,22 6,40 6,34 6,09 6,91 6,59 6,47 6,47 6,34 6,47 OMYH= 10,136 11,748 0,257 4,992 11,258 12,996 6,268 4,653 2,657 6,023 0,662 6,270 5,65126711 Her iki analiz ile elde edilen tahmin de!erlerinin gerçek de!erlere göre grafikleri rekil 2 ve rekil 3’te verilmi tir. Ayr ca Geli tirilmi Anahtarlamal Bulan k Regresyon ile Klasik Do!rusal Regresyon yöntemleri için elde edilen yüzde hatalar rekil 4 de verilmi tir. Bekil 2 Gerçek De!erler ile Anahtarlamal Bulan k Regresyon Tahmin De!erleri 150 Bekil 3 Gerçek De!erler ile Klasik Do!rusal Regresyon Tahmin De!erleri Bekil 4 Klasik Do!rusal Regresyon % Hatas ve Anahtarlamal Bulan k Regresyon % Hatas 4. Sonuç ve Öneriler Bu çal mada kullan lan ba! ms z de!i kenlere ait veri kümesinde, de!i ik regresyon modellerine sahip alt kümelerin oldu!u belirlenmi tir. Bulan k C-ortalamalar algoritmas kullan larak küme say s saptanm t r. Geli tirilmi Anahtarlamal Bulan k Regresyon Modeli uygulanarak elde edilen tahmin de!erleri, klasik do!rusal regresyon analizi ile elde edilen tahmin de!erleriyle kar la t r lm t r. Buna göre 1981–2000 y llar na ili kin Geli tirilmi Anahtarlamal Bulan k Regresyon için bulunan Ortalama Mutlak Yüzde Hata 2,46’ n n, Klasik Do!rusal Regresyon Analizi ile elde edilen Ortalama Mutlak Yüzde Hata de!eri 5,65’ ten daha küçük oldu!u görülmektedir. Ayr ca her iki yöntemden elde edilen yüzde hatalar n grafi!ine bak ld ! nda Geli tirilmi Anahtarlamal Bulan k Regresyon Analizinin yüzde hatas n n daha az oldu!u belirlenmi tir. Daha sonraki çal malarda küme say s belirlenirken Bulan k C-Ortalamalar Algoritmas yerine farkl algoritmalar kullan larak analize devam edilebilir. KAYNAKLAR [1] J.C. Bezdek, R.Ehrlich, W. Full, , (1984), FCM: Fuzzy C-Means Algorithm Computers and Geoscience 10. 151 [2] M.S. Chen, S.W. Wang, (1999), Fuzzy Clustering Analysis for Optimizing Fuzzy Membership Functions, Fuzzy Sets and Systems, Vol 103. [3] C. Chi-Bin, E.S. Lee, (2001), Switching Regression Analysis by Fuzzy Adaptive Network, Europen Journal of Operational Research, Vol 128. [4] T.E. Dalk l ç, (2005), Switching Regresyonda Bulan k Sinir A!lar ile Parametre Tahmini, Doktora Tezi, Ankara Üniversitesi, Fen Bilimleri Enstitüsü, Ankara. [5] I.Gath, A.B.Geva, (1989), Unsupervised, Optimal Fuzzy Clustering, IEEE, Vol 11, Issue 7, 773- 780. [6] N. Güler, (2006) Bulan k Kümeleme Analizi ve Bulan k Modellemeye Uygulamalar , Yüksek Lisans Tezi, T.C. Mu!la Üniversitesi Fen Bilimleri Enstitüsü, statistik ve Bilgisayar Bilimleri Ana Bilim Dal , Mu!la. [7] M.Halkidi, Y. Batistakis, M. Vazirgiannis, (2001), On Clustering Validation Techhiques, Journal og Intelligent Information Systems, 17:2/3, 107-145. [8] R. J. Hathaway, Bezdek, J.C, (1993), Switching Regression Models and Fuzzy Clustering, IEEE Transactions on Fuzzy Systems, Vol.1, No.3. [9] A.K. Jain, M.N. Murty, P.J. Flynn, (1999), Data Clustering: A Review, ACM Computing Surveys, Vol 31, No 3 [10] R.A. Johnson, D.W. Wichern, (2007), Applied Multivariate Statistical Analysis, Pearson International Edition, United States of America. [11] L. Meng, C. Hu, F.Z. Wang, (2006), Density Based Cluster Validity Measurement for Fuzzy Clustering, IEEE, Vol 42, No 1, 201-263. 152 Bir Ayarlama Yöntemi Olarak K smi En Küçük Kareler Regresyonu Esra POLAT Süleyman GÜNAY Hacettepe Üniversitesi, Fen Fakültesi, statistik Bölümü 06800-Beytepe, Ankara, Türkiye espolat@hacettepe.edu.tr Hacettepe Üniversitesi, Fen Fakültesi, statistik Bölümü 06800-Beytepe, Ankara, Türkiye sgunay@hacettepe.edu.tr Özet K:smi En Küçük Kareler Regresyonu, çok deGi#kenli ayarlamada bir veri s:k:#t:rma yöntemi olarak, Temel Bile#enler Regresyonu ile kullan:lmaktad:r. Bir ayarlama modeli elde edildikten sonra bilinmeyen y deGerlerini kestirme yeteneGinin belirlenmesi #artt:r. Özellikle ayarlama yöntemleri aras:ndan bir seçim yaparken ve modelde kullan:lacak bile#en say:s:na karar verirken, ayarlama modelinin kestirim yeteneGinin test edilmesi önemli olmaktad:r. Bu çal:#mada literatürde kullan:lan kimyasal bir veriye ili#kin ayarlama kümesi kullan:larak Çoklu DoGrusal Regresyon, Temel Bile#enler Regresyonu, K:smi En Küçük Kareler Regresyonu ve Ridge Regresyon modelleri düzenlenir ve daha sonra bu modeller ayarlaman:n hata kareler ortalamas:n:n karekökü, çapraz geçerliGin hata kareler ortalamas:n:n karekökü ve kestirimin hata kareler ortalamas:n:n karekökü kullan:larak uyum ve kestirim bak:m:ndan kar#:la#t:r:l:r. Anahtar Kelimeler: Ayarlama, K:smi En Küçük Kareler Regresyonu, Temel Bile#enler Regresyonu, Ridge Regresyon, ayarlaman:n hata kareler ortalamas:n:n karekökü, çapraz geçerliGin hata kareler ortalamas:n:n karekökü, kestirimin hata kareler ortalamas:n:n karekökü. Abstract Partial Least Squares Regression as a Calibration Method Partial Least Squares Regression is used in multivariate calibration as a data compression method with Principal Component Regression. After a calibration model obtained, the ability of it to predict unknown y values must be determined. The inspection of predictive ability of a calibration model is significant especially while choosing between calibration methods and in the determination of number of components that will be used in the model. In this study, by using calibration set of a chemical data, which is used in literature, Multiple Linear Regression, Principal Component Regression, Partial Least Squares Regression and Ridge Regression models are established. Afterwards, these models are 153 compared in terms of model fit and prediction by using root mean square error of calibration, root mean square error of cross-validation and root mean square error of prediction. Key Words: Calibration, Partial Least Squares Regression, Principal Component Regression, Ridge Regression, root mean square error of calibration, root mean square error of cross-validation, root mean square error of prediction. 1. Giri! Çok emek ve uzun süre gerektiren ancak do!ru sonuç veren ölçme yöntemlerinin ucuz, h zl ve daha az do!rulu!a sahip dolayl ölçme yöntemleriyle yer de!i tirmesi, ayarlama (calibration) olarak tan mlan r. Ayarlama, birden çok ba! ml ve ba! ms z de!i ken oldu!unda “çok de!i kenli ayarlama” olarak adland r l r. Çok de!i kenli ayarlama çal malar , “Kemometri” bilim alan n n en yayg n konular ndan biridir. Kemometri; istatistik ve matematik ile birlikte bilgisayar kullanarak, kimyasal verilerin i lenmesini içeren kimya alan nda bir bilim dal d r. Ayarlama, Ŷ = f (X ) eklinde bir kestirici formül bulmay amaçlamaktad r. Ŷ = f (X ) eklindeki kestiricileri verebilen bir ayarlama modeli, T = h 1 (X ) , Y = h 2 (T ) + F ve X = h 3 (T ) + E eklindeki gizli de!i kenler (LVs) üzerinden regresyondur. Burada T özgün de!i kenlerden daha az say daki bile en say s n temsil ederken, E ve F, art klar temsil etmektedir. Bu türün temsilcisi olan K smi En Küçük Kareler Regresyonu (PLSR/Partial Least Squares Regression), çok de!i kenli ayarlamada bir veri s k t rma yöntemi olarak, Temel Bile enler Regresyonu (PCR/Principal Component Regression) ile kullan lmaktad r [1, 6, 7]. K smi En Küçük Kareler (PLS/Partial Least Squares) yönteminde amaç, X ve Y bloklar için elde edilen LVs aras ndaki ba!lant dan yararlanarak bu iki veri blo!u aras nda ili ki bulmakt r. PLS yöntemi ilk olarak Herman Wold (1966) taraf ndan, ekonomik ve sosyal olay modellemek için kullan lm t r. PLS kimya bilim alan nda Kowalski, Gerlach ve Wold (1979) taraf ndan yap lan bir ba lang ç çal mas ndan sonra kullan lmaya ba lanm t r. PLS yöntemi analitik kimya, fiziksel kimya, klinik kimya ve endüstriyel süreç kontrolü gibi kimyan n birçok alan nda kullan lmaktad r. PLS, kimyasal literatürde ba lang çta bir algoritma olarak sunulmu tur. lerleyen zamanlarda ise, say sal ve istatistiksel özellikleri daha anla l r bir hale gelmi tir. Özellikle çokluba!lant durumunda Çoklu Do!rusal Regresyon (MLR/Multiple Linear Regression) uygulamalar nda, daha sa!lam ve güvenilir sonuçlar elde etmek için kullan lmaya ba lanm t r [6, 7]. 2. Ayarlama X, ölçülmesi güç ve pahal bir nicelik ve Y de, X’e göre daha kolay ölçülebilen ancak çok duyarl olmayan bir nicelik olsun. X, x 1 , L , x n de!erlerini al rken; Y, y1 , L , y n ölçümlerini versin. Y rastlant de!i keni, µ ortalama ve 2 varyans ile normal da! l ml iken model denklemi, e itlik ( ) (1)’deki gibi yaz labilir. Burada, ) i ~ N 0, 2 ’dir. Ayarlama problemleri için bu denklem, ayarlama e!risi olarak adland r l r. Böylece iki a amal bir ayarlama deneyi u ekilde tasarlan r: lk a amada, X de!i keninin x 1 , L , x n gibi bilinen de!erlerine kar l k gelen y1 , L , y n ölçümleri yap l r. Bu ölçümlerin ba! ms z oldu!u varsay m alt nda, n say da (x i , y i ) gözlem çifti için e itlik (1)’in kestirimi elde edilir. kinci a amada, X’in bilinmeyen bir x de!erine kar l k gelecek Y de!i keninin bir ya da birden çok ölçümleri yap l r. Bu ölçümler, test yöntemi sonuçlar ya da önkestirim kümesi olarak da bilinir. (1) e itli!inden yararlanarak, y i de!erine kar l k gelen bilinmeyen x i de!erleri kestirilir. statistiksel ayarlama, regresyon çözümlemesinin ters kestirim türüdür; ŷ = f (x ) ’den x’in 154 kestirimidir. Buna göre ayarlaman n amac s radan bir model elde etmek de!il, genelde rastlant de!i keni olmayan X’e ili kin ileriye dönük kestirimler yapmakt r [3, 8]. y i = f (x i ) + ) i , i = 1, L , n (1) 2.1. Çok DeGi#kenli Ayarlama Çok de!i kenli ayarlama bir aletten elde edilen birden fazla tepkiyi, bir örne!in özelliklerine ba!lamak için bir matematiksel model kurma sürecidir. Kestirim ise, modeli kullanarak verilen alet tepkilerinde bir örne!in özelliklerini bulma sürecidir. Ayarlama modelleri yard m ile pahal ölçümlerin, ucuz ölçümlerden kestirilebilece!i iyi ili kiler bulunmaktad r [1, 6]. Ayarlaman n as l amac Ŷ = f (X ) kestirimi oldu!undan, X’den Y’ye do!ru ileri ‘yön’ olarak da adland r lmaktad r. Ŷ = f (X ) kestiricileri verebilen ayarlama modellerinden biri, ileri regresyon modeli Y = f (X ) + F ’dir. F, art klar temsil etmektedir. Y = XB + F eklindeki MLR modeli, bu tür bir ileri regresyon modelidir. Ayarlaman n bu türü istatistikte bazen ‘ters’ ayarlama olarak da adland r lmaktad r. PLSR de, bu tarz bir “ters” ayarlama modelidir [6]. Çok de!i kenli ayarlama kimyasal analizlerde, kimyasal veri kümelerinden gerçek veya sakl bilginin aç !a ç kar lmas na olanak tan yan güçlü bir araçt r. Kimyasal analiz, genellikle iki ad mdan olu ur: lk ad mda bir yöntem ya da ö!enin karakteristikleri ara t r l r ve i leyi i için bir model bulmaya çal l r. Bu ad mda kullan lan veri kümesi, ayarlama ya da çal ma kümesi ve elde edilen model parametreleri ise regresyon katsay lar olarak adland r l r. kinci ad mda, bir ya da daha çok gözlem için ba! ms z de!i kenler elde edilir. Bu ba! ms z de!i kenler regresyon katsay lar yla birlikte ba! ml de!i kenlere ili kin de!erleri kestirmek amac yla kullan l r. kinci ad mda kullan lan veri kümesi ise kestirim ya da test kümesi olarak adland r lmaktad r [3, 6, 8]. Martens ve Naes (1989)’e göre çok de!i kenli ayarlama yeni analitik ayg tlar n geli mesinde, geleneksel ayg tlar n analitik kapasitelerinin ve güvenirliklerinin artt r lmas nda, endüstriyel süreç kontrolündeki nicel kimyasal çözümlemelerde vb. yard mc olmaktad r. Spektroskopinin (spectroscopy) amaçlardan biri, örne!in bir tah l ya da etin k z l ötesi yans yan spektrumu (NIR/Near Infrared Reflectance) gibi kimyasal birle imini tahmin etmektir. X de!i kenleri spektroskopik (spectroscopic) ölçümler ve Y de!i kenleri örne!in konsantrasyon miktarlar iken genelde çok de!i kenli ayarlama, çok de!i kenli regresyon çözümlemesinin bir uygulama alan olarak görülebilir [6, 7]. 2.2. Çoklu DoGrusal Regresyon y’yi kestirmek için birkaç tane ba! ms z de!i ken oldu!u zaman kullan lan MLR modeli, e itlik (2)’deki gibi yaz labilir. f hata terimlerinin rasgele oldu!u dü ünülüp, beklenen de!eri s f r ve varyans da genellikle 2 f ile gösterilir. E itlik (2)’deki model, do!rusal regresyon modeline benzeyen eklindeki bir matris biçiminde yaz labilir. Bu modeldeki terimler, e itlik (3)’deki gibi tan mlan r. X ve y’deki sat r say s olan N, gözlem say s n ve X’deki sütun say s da olan K, ba! ms z de!i ken say s n göstermektedir. y = Xb + f K y = b0 + " bk x k + f k =1 (2) 155 y1 y y= 2 , M yN f1 f f= 2 , M fN 1 x 11 1 x 21 x= M M 1 x N1 L x 1K L x 2K , O M L x NK b0 b b= 1 M bK (3) Ayn kitleden gelecek gözlemlerden elde edilen x ölçümlerinden yararlanarak y kestirilmek istenir. Bu nedenle, f’in art k kareler toplam n minimize eden b 0 ve b regresyon katsay lar bulunur. Böylece Klasik En Küçük Kareler (OLS/Ordinary Least Squares) yöntemine ili kin çözüm e itlik (4)’deki gibi elde edilebilir. E itlik (4)’deki, X HX matrisinin tersinin al nabilmesi için X’in sütunlar n n do!rusal olarak ba! ms z olmas gerekir. E!er ba! ms z de!i kenlerden her biri, N tane gözlem için elde edilen ortalamay ç kararak merkezle tirilirse, b0’ n tahminini ( y ) di!er K katsay dan ay rmak mümkündür. Bu durumda katsay lar tahmin etmek için e itlik (4)’ü kullanmadan önce, X matrisinin birlerden olu an ilk kolonu silinir (di!er kolonlar ndaki x merkezle tirilmi tir) ve b vektöründen de ba taki b0 silinir. Model denklemine b̂ konulursa, y’nin kestiricisi ya da tahmini olan ŷ = f (X ) = Xb̂ = X(X HX ) X Hy e itli!ine ula l r. b̂ tahmin edicisi, yans zd r ve kovaryans matrisi, 1 2 f (X HX ) 1 eklinde yaz labilir [6, 7]. b̂ = (X HX ) 1 X Hy (4) 2.3. Veri S:k:#t:rma Yöntemleri Bu yakla mda birçok gözlemlenmi de!i kendeki bilgi, LVs’e (t 1 ,L , t A )H = h 1 (x 1 ,L, x k )H eklinde s k t r labilir. Daha sonra bu bile enler e itlik (5)’de gösterildi!i üzere, regresyon denkleminde ba! ms z de!i kenler olarak kullan l r. f terimi, y’nin t = (t 1 , L , t A ) bile enleri taraf ndan aç klanamayan k sm n temsil etmektedir. A ise, y’yi kestirmek için önemli olan bile en say s n göstermektedir. (y1 ,L, y j )H = h 2 (t 1 ,L,t A )H +fH (5) Çok de!i kenli ayarlamada genellikle N<K oldu!undan, her zaman OLS yöntemine dayal standart MLR ile çözüm elde edilememektedir. Ba! ms z de!i kenler aras nda tam do!rusal ili kilere yol açan ve tam çokluba!lant olarak da adland r lan bu durumda, e itlik (6)’da gösterildi!i gibi X de!i kenlerinden daha az say daki T de!i kenlerinin kullan lmas , tahmin edilmesi gereken model parametrelerinin say s n azaltarak hem istatistiksel ayarlamay hem de sonuçlar n yorumlanmas n kolayla t rmaktad r. X ve Y merkezle tirildi!inde elde edilen e itlik (7)’deki do!rusal s k t rma modelini kullanarak, V’nin belirlenmesi ve Q’nun tahmin edilmesinden sonra, Ŷ = XVQ̂ H kestiricisi elde edilir. X ve Y merkezle tirilmedi!inde ise e itlik (8)’deki do!rusal s k t rma modeli ortaya ç kmaktad r. Bu modelde, B̂ = VQ̂ H ve b̂ H0 = y H x HB̂ ’d r [6]. 156 T = XV (6) Y = TQ H + F (7) Ŷ = 1b̂ 0 H + XB̂ (8) Bir ayarlama modelleme türü olan veri s k t rmay yapmak için çok fazla farkl yöntem mevcuttur. Bu yöntemler aras ndan seçim, ayarlama problemi hakk ndaki önsel bilgiye dayanmaktad r. Önsel bilgiden kas t örne!in, ba! ms z de!i kenler aras ndaki ili kilerin düzgünlü!ü olabilir. X ve Y aras ndaki ili kiler hakk nda çok az önsel bilgi gerektiren esnek yöntemler, “yumu ak modelleme (soft modelling)” ya da “bilineer yöntemler” olarak adland r labilir. PCR ve PLSR, iki bilineer ayarlama yöntemidir [6]. 2.4. Bilineer Modelleme Veri s k t rma yöntemleri gibi bilineer yöntemler de, genelde ileri ayarlama yöntemleri olarak uygulanmaktad r. Y, X’in bir fonksiyonu olarak (T=XV olmak üzere) modellenir. Bilineer yöntemler ayarlama için kullan lan veriden V’nin elemanlar n n bir çe it OLS tahminini kendileri elde eder. Bilineer Modelleme (BLM/Bilinear Modelling) ad X’in kendisine X = h 3 (T ) + E biçiminde bir modelle yak nsamas ndan gelmektedir. Bu model, tahmin edilecek iki do!rusal parametreler kümesi olan skorlar (T) ve yüklerin (P) bir ürünüdür. Merkezle tirilmi X ve Y de!i kenlerini kullanarak, tam bilineer ayarlama modeli a a! daki biçimde yaz labilir. Burada, T = XV ’dir. P ve Q matrisleri s ras yla X’in ve Y’nin T üzerinden regresyon katsay lar n , E ve F art klar ise A bile enli bilineer yap ile aç klanamayan X ve Y’deki özgün de!i imi temsil etmektedir [6]. X = TP H + E (9) Y = TQ H + F (10) Bilineer ayarlama yöntemlerinde merkezle tirilmi X ve Y için elde edilen bilineer modelin parametrelerinin tahmini ve kestirimi a a! daki ekilde gösterilebilir. Ayarlama: V̂ = f (X, Y ) , V̂ belirlenir. T̂ = XV̂ , T̂ hesaplan r. X = T̂P H + E ;5 < P̂, Q̂, Ê ve F̂ hesaplan r. Y = T̂QH + F5= 157 Tam kestirim: t̂ Hi = x Hi V̂ , t̂ i hesaplan r. ŷ Hi = t̂ Hi Q̂H , ŷ i hesaplan r. êHi = x Hi t̂ Hi P̂ H , ê i art klar hesaplan r. Yeni bir gözlem için x i ölçümlerinden bilinmeyen y i ’nin ard k kestirimi, “tam kestirim” ve “k sa kestirim” olmak üzere iki yolla yap labilir. Bu yöntemler, benzer ŷ ij kestirimleri verirken bir taraftan da farkl miktarlarda bilgi verir. Her iki yöntem için de x girdi ölçümleri ile ŷ ij ç kt kestirimleri, ayarlama öncesinde do!rusalla t rma ve önsel ölçeklendirmelerle dönü türülmelidir. “Tam kestirim” en çok bilgilendirici kestirim tekni!i olarak ŷ i ’lar yeni t̂ Hi = t̂ i1 ,L, t̂ iA bile enlerini kullanarak ( ) hesaplamakt r. Buna göre, her bir x i girdi vektörü ayarlamada oldu!u gibi ilk olarak ortalama için düzeltilir. Daha sonra merkezle tirilmi X vektörü V̂ ile çarp larak, t̂ Hi = (x Hi x H)V̂ eklinde bile enler elde edilir. Daha sonra bu bile enler Q̂ ile çarp l p y’nin ortalamas eklenir ve ŷ Hi = y H + t̂ Hi Q̂H kestiricisi elde edilir. Seçenek olarak “k sa kestirim” tekni!inde merkezle tirilmemi x i ’ye dayal merkezle tirilmemi y i ’in bilineer kestirimi, x i ’in do!rusal bir fonksiyonu olarak ŷHi = b̂ H0 + x Hi B̂ eklinde ifade edilebilir. Burada B̂ = V̂Q̂H ve b̂H0 = yH x HB̂ ’d r [6]. 2.5. Temel Bile#enler Regresyonu PCR ad , V̂ a! rl klar n belirlemek için X’in Temel Bile enler Analizi’nin (PCA/Principal Component Analysis) kullan lmas ndan kaynaklanmaktad r. PCR’de ilk önce X’e ili kin temel bile enler (PCs/principal components) hesaplan r ve sonra e itlik (10)’daki regresyon denkleminde sadece bir kaç kullan l r. X’in do!rusal birle imi olan T̂ ’daki bile enler, X’in en bask n A tane PC’sinden olu ur. E!er N>K ise, hesaplanabilecek maksimum bile en say s ba! ms z de!i ken say s na e ittir. Genellikle X de!i kenleri ili kili oldu!undan, ideal bile en say s K’dan daha azd r. PCR’de a! rl k matrisi V̂ ve yük matrisi P̂ benzer oldu!undan, P̂ her ikisini de temsil etmek için kullan labilir [6, 7]. Merkezle tirilmi X matrisi, e itlik (11)’deki gibi yaz labilir. Bu e itlikteki PCs, X HX matrisinin özvektör ayr m n kullanarak hesaplanabilir. P̂ ’n n sütunlar , X HX matrisinin birim uzunlu!undaki özvektörleridir. Bile enler matrisi, T̂ = XP̂ çözümünü verecek ekilde X’i P̂ üzerinde döndürerek bulunabilir. X HX ’in özde!erleri, T̂ ’n n kolonlar n n kareler toplam na e ittir. lk A tane PC en büyük özde!ere sahip A tane özvektöre denktir. Buna göre regresyon denklemi ise, e itlik (12)’de oldu!u gibi T̂ ’y X yerine kullanarak yaz labilir. q’daki regresyon katsay lar , klasik OLS ile tahmin edilebilir [7]. X = T̂P̂ H + Ê (11) y = T̂q + f (12) 158 Yeni gözlemler için y’yi kestirmek, iki e de!er yolla yap labilir. lk yöntemde, t̂ H = x HP̂ formülünü kullanarak her bir gözlem için t̂ hesaplan r. Daha sonra e itlik (12)’ye uygun olarak t̂ , kestirim denklemi ŷ = y + t̂ Hq̂ ’da kullan l r ve ŷ = y + xHP̂q̂ e itli!ini verir. Bir di!er yöntem ise do!rudan ŷ = y + x Hb̂ do!rusal kestiricisini kullanmakt r. Böylece regresyon katsay vektörü b̂ = P̂q̂ olarak hesaplan r. Her iki yöntemde de X matrisi merkezle tirildi!inden kesim noktas y ’ya e ittir. PCR yöntemi bile enleri y hakk ndaki bilgiyi kullanmadan sadece X’deki de!i kenli!i aç klamadaki yeteneklerine göre seçti!inden, bile enlerden baz lar n n y’yi kestirmek için çok az yetene!e sahip olma riski vard r [6, 7]. 2.6. K:smi En Küçük Kareler Regresyonu PCR yönteminin aksine, PLS yöntemi tahmin yaparken do!rudan hem X hem de y’deki bilgiden yararlanarak belirlenen ve böylece y’deki de!i kenlik ile do!rudan ba!lant l olan bile enleri PC’ler olarak kullan r. Yani, PLSR için her bir bile en y ve x’in tüm do!rusal fonksiyonlar aras ndaki kovaryans maksimize ederek elde edilir. lk PLS bile eninin yönü olan ve yük a! rl k vektörü olarak adland r lan ŵ 1 , kovaryans ölçütünü maksimize ederek elde edilir. Birim uzunlu!a sahip ŵ 1 vektörünü kullanarak ilk bile en, t̂ 1 = Xŵ 1 eklinde hesaplan r. Daha sonra p̂1 yük vektörünü elde etmek için, X’deki tüm de!i kenler t̂ 1 üzerinde döndürülür. Benzer olarak q̂1 regresyon katsay lar da y’yi t̂ 1 üzerinde döndürerek elde edilir. kinci yön ŵ 2 ise, birincisiyle benzer bir yolla bulunur. Ancak ilk bile enin elde edilmesinden sonra X’den, t̂ 1p̂1 ve y’den, t̂ 1q̂1 ç kar l r ve böylece ikinci bile eni elde etmek için özgün veri yerine art klar kullan l r. Bile enlerin hesapland ! bu süreç, istenilen bile en say s elde edilene kadar ayn ekilde devam eder. PCR’de sadece bir küme yük varken, PLSR’de birbirine e it olmayan Ŵ yük a! rl klar ve P̂ yükleri vard r. PLSR’deki yük a! rl k vektörleri ve bile enler birbirine dik olurken, yük vektörleri de!ildir. P̂ matrisi ve q̂ vektörü, PCR yöntemindeki gibi X ve y’yi en son PLSR bile en matrisi T̂ üzerinde döndürerek elde edilebilir. Böylece PLSR yönteminde kullan lan regresyon katsay vektörü e itlik (13)’deki gibi hesaplanabilir [7]. ( ) b̂ = Ŵ P̂ HŴ (13) 1 q̂ ( ) E itlik (13)’den de görüldü!ü üzere PLSR için V̂ matrisi, V̂ = Ŵ P̂HŴ 1 eklinde yaz labilir. PLSR skorlar n n dik olmas arzuland ! nda PLSR için elde edilen bu V̂ matrisinin, PCR için elde edilen V̂ matrisine k yasla yorumlanmas n n biraz daha zor oldu!u görülmektedir [6]. 2.6.1. Non-linear Iterative Partial Least Squares Algoritmas: PLSR’nin temel algoritmas olan Non-linear Iterative Partial Least Squares (NIPALS) algoritmas n n ad mlar a a! daki gibi gösterilebilir. Algoritma iste!e ba!l olarak dönü türülmü , ölçeklendirilmi ve merkezle tirilmi özgün X ve Y ile ba lar. A. Genellikle, Y’nin kolonlar ndan biri olan bir ba lang ç vektörü, u ile ba lar. Tek bir y de!i keni oldu!unda, u=y’dir. B. X a! rl klar w: w = X Hu / u Hu ’dur (burada w de!i tirilebilir). w, w = 1.0 uzunlu!unda olmas için ölçeklendirilir. 159 eklinde bir C. X skorlar olan t hesaplan r: t = Xw . D. Y a! rl klar , c: c = Y Ht / t Ht ’d r. c, bir uzunlu!una sahip olmas için ölçeklendirilir. E. Son olarak, Y skorlar n n güncellenmi bir kümesi, u: u = Y Hc / cHc bulunur. F. t’deki de!i imden yararlanarak, yak nsakl k test edilir. Örne!in, t eski t yeni / t yeni < ) ’d r. Burada }, 10 6 ya da 10 8 aras nda küçük bir de!erdir. E!er yak nsakl k sa!lanmazsa B’ye dönülür, sa!lan rsa G ile ve daha sonra tekrar A ile devam edilir. E!er tek bir y de!i keni varsa, süreç tek bir yinelemede yak nsar. Daha sonra ise, do!rudan G ile devam eder. G. X ve Y’den, hali haz rdaki bile en ç kar l r. Bu indirgenmi matrisler, bir sonraki bile ende X ve Y olarak kullan l r. X yükleri: p = X Ht / (t Ht ) Y yükleri: q = Y Hu / (u Hu ) Regresyon (t üzerine u’nun): b = u Ht / (t Ht ) Art k Matrisleri: X * X tp H ve Y * Y btcH H. Çapraz geçerlik yöntemi, X’de Y hakk nda daha fazla önemli bilgi olmad ! n gösterene kadar bir sonraki bile enle devam edilir (ad m A’ya geri dönülür). Algoritmadan da görüldü!ü gibi bir sonraki yineleme, bir önceki yinelemeden elde edilen art k matrisleri olan yeni X ve Y matrisleri ile ba lamaktad r. Yinelemelere, bir durdurma ölçütü kullan lana kadar ya da X s f r matrisi olana kadar devam edilebilir [12]. 2.7. Modelin GeçerliGinin ncelenmesi Modelin geçerli!i, modelin amaçlanan kullan m ortam nda ba ar l bir ekilde kullan l p kullan lamayaca! n n belirlenmesine yönelik bir kavramd r. Bir modelin geçerli oldu!unun en iyi göstergesi, yeni X de!i kenleriyle beraber gözlemlerin Y de!erlerini tutarl ve do!ru bir ekilde kestirmesidir. Ancak, ba! ms z ve tipik bir geçerlik kümesine ender sahip olunur. Gerçek bir geçerlik kümesinin yoklu!unda modelin geçerlili!inin incelenmesinin mant kl yöntemi çapraz geçerlik (CV/cross-validation) ile verilmektedir [12]. Eldeki verilere en uygun olacak ekilde ve yeni gözlemlerin kestirimi için geli tirilmi olan bir model, yeni gözlemlerin kestiriminde her zaman çok iyi sonuçlar vermeyebilir. Bunun nedeni, modelin sadece eldeki verilere en iyi uyacak ekilde olu turulmas d r. Bu ekilde olu turulan bir modelin de, yeni veriler girildi!inde do!al olarak beklenenden daha kötü bir kestirim performans gösterme olas l ! yüksektir [11]. 2.7.1. Ayarlama kümesine dayal: geçerlik Kestirim hatas n n deneysel bir tahmini e itlik (14)’de gösterildi!i üzere, ayarlaman n hata kareler ortalamas n n kareköküdür (RMSEC/root mean square error of calibration). Bu e itlikteki ŷ ’lar, ayarlama denklemini do!rudan ayarlama verisi üzerinde test ederek elde edilir. Ancak bu hata tahminiyle ilgili problem, onun bir kestirimin hatas de!il esas olarak model hatas n n bir tahmini olmas d r. Bu durumda b̂ regresyon katsay lar n n tahmin hatalar dikkate al nmamaktad r. Bundan dolay RMSEC, yüksek bir derecede kestirim yetene!inin çok iyimser bir tahmini olabilir. Özellikle 160 çok fazla ba! ms z de!i ken ya da PLS/PCR bile eni olan modeller için RMSEC ve gerçek kestirim hatas aras ndaki fark çok büyük olabilir [7]. RMSEC = N " (ŷ i =1 y i ) / (N A 1) 2 i (14) 2.7.2. Kestirim testi Yeni veri için referans de!erleri bilindi!i sürece model yeni bir veriye uyguland ! nda e itlik (15)’de gösterildi!i gibi kestirimin hata kareler ortalamas n n karekökünü (RMSEP/root mean square error of prediction) hesaplamak mümkündür. RMSEP’de y i tahminleri, önceden olu turulmu ve kestirim için kullan lan gözlemlerin dâhil edilmedi!i modele dayan r. Ayarlamadaki kullan m bak m ndan kestirim testi (prediction testing) veri kümesini, biri model boyutunun seçimi için “ayarlama” ve di!eri de kestiricinin ba ar s n n daha objektif bir testi için “geçerlik/test (validation/testing)” için olmak üzere iki kümeye ay rmaya dayan r. ŷ i ve yi s ras yla, test kümesindeki gözlemler için kestirilen ve ölçülen de!erleri göstermektedir. Np ise, test kümesindeki gözlemlerin say s d r. Kestirim testinde, tüm katsay tahminleri çoktan hesaplanm olarak kullan lan gerçek kestiricinin kestirim yetene!i tahmin edildi!inden kavramsal olarak en basit geçerlik yöntemidir. Bir ayarlama modelinin farkl test kümeleri için ve test etmek için kullan lan gözlemlerin say s na da ba!l olarak, kestirim yetene!i bak m ndan farkl özellikler gösterece!ini vurgulamak önemlidir [7]. RMSEP = Np " (ŷ i =1 yi ) / N p 2 i (15) 2.7.3. Çapraz geçerlik CV yönteminin temelinde de, veri kümesinin iki farkl gruba ayr l p bu gruplardan birinin “çal ma kümesi” olarak modeli olu turmak, di!erinin ise “test kümesi” olarak elde edilen modelin kestirim performans n n ara t r lmas için kullan lmas yatmaktad r. Ancak CV yöntemi için test kümesindeki gözlemler, kestirim testindekinden farkl olarak, do!rudan çal ma kümesinden çe itli yöntemlerle elde edilmektedir. Ayarlamada da CV, sadece ayarlama denklemine dayal bir geçerlik tekni!idir. Ayarlama için kullan lmayan veri üzerinde kestiricileri test etti!i için, kestirim testi yöntemine benzerdir. Ancak CV yönteminde bu, ayarlama kümesinden art arda birbirini izleyerek gözlemlerin silinmesiyle yap l r. En son modelde kalacak bile en say s , genellikle bir CV süreciyle, kestirilen tahmin hatas n minimize ederek seçilir. Modelin yeni gözlemleri kestirme yetene!ini gösteren çapraz geçerli!in hata kareler ortalamas n n karekökü (RMSECV/root mean square error of cross-validation) e itlik (16)’daki gibi elde edilebilir. Burada ŷ CV ,i , i. gözlem silindikten sonra yi için ayarlama denklemine dayal tahmindir. Bir ba ka ifadeyle, ŷ CV ,i ’ler model formülünde yer almayan gözlemler için kestirimdir. CV denildi!inde ilk ve belki de tek akla gelen yöntem, birini-d ar da-b rakma çapraz geçerlik (LOOCV/leave-one-out cross-validation) yöntemidir. LOOCV, her seferde bir gözlemi model olu umundan ç kararak ve bir kez kestirerek CV’yi yerine getirmektedir [7, 11]. 161 N RMSECV = " (ŷ i =1 yi ) 2 CV ,i N (16) Tam (full) CV yöntemi olarak da bilinen LOOCV yöntemine bir seçenek, gözlemlerden olu turulan parçalar silmektir. Böylece daha az say da ayarlama yap lmak zorunda olunaca! ndan, yöntem bilgisayarda daha h zl çal r. Bu nedenle, veri kümesinde uygun yap lar varsa parçalanm (segmented) CV çok faydal olabilir [7]. LOOCV yöntemine iyi bir seçenek olan “venetian blinds” CV yöntemi, PLSR’de yak n zamanda s kl kla uygulanmaya ba lanm t r. Bu yöntemde veri, “venetian blinds” yöntemiyle birkaç gruba bölünür. Bu yakla mda veri rasgele parçalara bölünmez, her bir k. gözlem al narak alt kümeler olu turulur. k ise alt küme say s n göstermektedir. Elde edilen k alt kümeden birisi geçerlik analizi için d ar da b rak l p, geriye kalan (k 1) alt küme modelin olu turulmas için kullan l r. Elde edilen modelin kestirim performans d ar da b rak lan k- nc alt küme kullan larak de!erlendirilir. Bu i lem, bütün alt kümeler bir kez d ar da b rak lana kadar yinelenir ve son geçerlik ölçütünü elde etmek üzere bulunan hatalar n ortalamas al n r. E!er yeteri kadar gözlem varsa bu yöntem basit, uygulamak için kolay ve genellikle güvenilirdir. Bu yöntem için olu turulacak alt küme say s PLS_Toolbox’da otomatik olarak gözlem say s n n kareköküne yak n tamsay olarak seçilir. Örne!in bu çal mada ayarlamada kullan lan 12 gözlemli veri kümesi, her birinde 4 gözlem olan 3 alt gruba bölünsün. Böylece “venetian blinds” seçimini yaparak her bir gruptaki gözlemler a a! daki ekilde olacakt r [11]. Küme 1: 1, 4, 7, 10 Küme 2: 2, 5, 8, 11 Küme 3: 3, 6, 9, 12 3. Ridge Regresyon Çokluba!lant durumunda, yans z OLS tahminleri varyanslar büyüdü!ünden gerçek de!erlerinden uzakla abilmektedir. RR analizinde, X HX matrisinin kö egen de!erlerine küçük bir yanl l k sabiti (k) eklenerek varyanslar küçültülerek daha dura!an sonuçlar elde edilebilmektedir. RR ile bir taraftan tahminlerin varyanslar azalt lmakta, di!er taraftan ise bu katsay (k) oran nda yanl tahminler elde edilmektedir. k 8 0 olmak üzere klasik ridge tahmin edicisi e itlik (17)’deki gibi gösterilebilir ve bu e itlikten, W = W (k ) = [X HX + kI] oldu!u görülmektedir. Bir ridge tahmin edicisinin bir OLS tahmin edicisiyle olan ili kisi ise, e itlik (18)’deki gibi gösterilebilir. Bu e itlikten de, 1 [ Z = Z(k ) = I + k (X HX ) eklinde ˆ( yaz l r = (X HX + kI ) olarak Z, Z = I 1 ] ve 1 oldu!u görülmektedir. Ridge tahmin edicisi ˆ ( = (X HX + kI ) X HX ˆ X HX ’ye, kI terimi bir eklenip bir ç kar l rsa 1 [(X HX + kI) kI]ˆ = [I k(X HX + kI ) 1 ]ˆ = Z ˆ elde edilir. Bu nedenle seçenek k (X HX + kI ) 1 = I kW eklinde de yaz labilir. E itlik (18)’deki denklemin her iki 1 ( ) taraf n n beklenen de!eri al nd ! nda E ˆ * = Z elde edilir ve böylece ˆ * ’ n, {’n n yanl bir tahmini oldu!u aç kça görülür. ˆ ( ’ n varyans-kovaryans matrisi ise, e itlik (19)’daki gibi elde edilir. k = 0 oldu!unda, ridge tahmin edicisi ˆ * OLS tahmin edicisi {’ya e it olur [5, 9, 13]. ˆ ( = ˆ * (k ) = [X HX + kI] 1 X HY = WX HY (17) 162 [ ˆ ( = (X HX + kI ) 1 X HY = (X HX + kI ) 1 X HX(X HX ) 1 X HY = (X HX ) [ = I + k (X HX ) (18) ( ) 1 ] 1 1 (XHX + kI)] 1 ˆ ˆ = Zˆ ( ) () Var ˆ * = Var Z ˆ = Z 2 Var ˆ [ = (X HX + kI ) 2 = 1 (XHX )] 2 () [ Var ˆ = (X HX + kI ) 1 (XHX )] 2 2 (X HX ) 1 (XHX + kI) 1 (XHX )(XHX + kI) 1 (19) OLS gibi yans z bir tahmin ediciyi seçenek yanl bir tahmin edici ile kar la t rmak için hata kareler ortalamaya (MSE/mean square error) bak l r. Ridge tahmin edicisi için Yan ˆ * ve MSE ˆ * de!erleri s ras yla, e itlik (20) ve e itlik (21)’deki gibi elde edilir [13]. D1 , D 2 , L , D p , X HX matrisinin özde!erleridir. E itlik (21)’in sa! taraf ndaki ilk terim, ˆ ( ’daki regresyon katsay ( ) ( ) tahminlerinin varyanslar n n toplam olarak gösterilebilir. kinci terim ise yan de!erinin karesidir ve k=0 olursa, s f ra e it olur. k > 0 ise ˆ ( yanl olur ve k artarken yan de!eri de artar. Ancak k artarken yan de!erindeki art n tam aksine, toplam varyans azalacakt r. RR’de, yan de!erindeki art n toplam varyanstaki dü ü ü a mayaca! bir k de!erini seçmek amaçlan r [2, 5, 10]. ( ) ( ) Yan ˆ * = E ˆ * = [ k (X HX + kI ) [ 1 ] = [ (1 ] = (1 k (X HX + kI ) 1 ) 1 = k (X HX + kI ) (20) ( ) ( MSE ˆ * = E ˆ * 2 = = = 2 2 ) 2 ( ) [( ) ] = Var ˆ * + E ˆ * 2 [ 1 1 )] 1 ( ) [ ( )] = Var ˆ * + Yan ˆ * (X HX + kI ) 1 (X HX )(X HX + kI ) 1 + [ z (X HX + kI ) k (X HX + kI ) k (X HX + kI ) 2 ] 1 2 (X HX )(X HX + kI) 1 ] + k 2 H(XHX + kI ) 2 p " D i /(D i + k )2 + k 2 H(XHX + kI) 2 i =1 (21) RR’de amaç, k’y tahmin edicinin MSE de!erini en küçük yapacak ekilde seçmektir. Ancak do!al olarak ba lang çta MSE de!erini de!erlendirmek mümkün olmad ! ndan, k’n n seçimi biraz özneldir. Genellikle k s f ra çok yak n bir de!erdir ( k ! 0.1 ). k’ya karar vermenin en eski yollar ndan biri ridge 163 izidir. Ridge izi, 0-1 aral ! ndaki k de!erlerine kar yine bu de!erler için bulunan ˆ ( regresyon katsay tahminlerinin çizimi ile elde edilen grafi!e denir. E!er çokluba!lant ciddi bir sorun ise ridge tahmin edicileri, k’n n küçük de!erleri için h zl de!i ecek ve büyük de!erleri için ise yava yava kararl hale gelecektir. Katsay lar n sabitle ti!i k de!erinde ˆ ( sonunda kararl bir hale gelecektir. Ridge izinin en pozitif özelli!i veriye dayal ve pratik olmas d r [2, 5, 9]. Hoerl, Kennard ve Baldwin (1975), k’y seçmek için bir ölçüt olarak e itlik (22)’nin kullan lmas n önermektedir. Bu e itlikte p, 0 ’ n hariç tutuldu!u regresyon katsay s say s n , s 2 ise OLS yönteminde (k=0) tahmin edilen art k kare ortalamas n göstermektedir. E itlik (22)’in paydas ; merkezle tirilmi ve ölçeklendirilmi ba! ms z de!i kenlerden hesaplanan, sabit terimin hariç tutuldu!u, klasik OLS regresyon katsay lar ˆ (0 ) ’lar n kareler toplam n göstermektedir. Van Nostrand (1980)’a göre ridge izinde kararl l ! n ne oldu!una karar vermek öznel ve k’n n seçimi keyfi oldu!undan, ridge izine dayal olarak k’y seçerken k’n n çok büyük bir de!erini seçmeye yönelik bir e!ilim vard r. Bu nedenle, e itlik (22) ile belirlenen k de!erini kullanmak daha iyi olabilir [9]. k = ps 2 / ˆ (0)H ˆ (0) (22) RR ile elde edilen tahmin ediciler yanl d r. Ancak, OLS tahmin edicilerinden daha küçük MSE’ye sahiptir. Bu özellikten dolay ridge yöntemiyle tahmin edilen katsay de!erlerinin, OLS tahminlerine göre regresyon katsay lar n n gerçek de!erlerine daha yak n olmalar beklenmektedir. Ridge tahmin edicileri, verideki küçük de!i ikliklerden fazla etkilenmedikleri için kararl d r [5]. leri ayarlama modeli y = b 0 + K " x k b k + f ’ye dayal MLR’deki çokluba!lant problemini çözmek k =1 için kullan lan yöntemlerden biri de RR’dir. RR ile PCR aras nda benzerlik olmas na ra!men, RR veri s k t rmayla tan mlanamamaktad r. PCR daha küçük özvektörlerin etkilerini silerken, RR sadece onlar n etkilerini azaltmaktad r. Literatürdeki baz uygulamalarda RR’nin mant kl bir k seçildi!inde kestirim bak m ndan PCR’ye üstün oldu!u gösterilmi tir [6]. 4. Uygulama Bu uygulamada kullan lan veri, yer bu!day gözlemlerindeki protein içeri!inin ölçümü için bir NIR yans ma arac yla ayarlama yapmak için yerine getirilmi bir deneyin sonuçlar d r. 24 gözlemli ayarlama kümesi ve ayarlamay test etmek için 26 gözlemli ba ka bir test kümesi elde edilmi tir. Verideki L1-L6 aras ndaki alt de!er, 1680-2310 nm aral ! ndaki alt farkl dalga boyunda bu!day gözlemlerine ili kin NIR radyasyonunun yans mas n n ölçümleridir. Bu ölçümler bir log (1/R) ölçe!inde yap l r. Burada R bir yans mad r ve ço!unlukla bu ölçümler “log de!erleri” olarak adland r l r. Bu veri kümesi için yap lan ayarlamada amaç, protein içeri!ini kestiren log de!erlerinin do!rusal bir birle imini bulmakt r. Daha sonra katsay lar, ölçümü yapan aletin içine programlanabilir ve böylece gelecekteki bilinmeyen gözlemlerin protein içeri!i do!rudan okunabilir [4]. Bu uygulamada, Naes ve Martens (1985) ile Stone ve Brooks (1990) çal malar dikkate al narak ilk 12 gözlem ayarlama kümesi olarak kullan l r ve modeller kurulur. Daha sonra ayarlama kümesine ili kin son 12 gözlemi ve 26 gözlemli test kümesini kullanarak, geçerlik incelemeleri yap l r. Ayarlama kümesi için % 95 geleneksel anlaml l k düzeyinde MLR modelinin anlaml oldu!u görülmektedir (F=66.08; p=0.000). Ancak, VIF (VIF1=1155.6, VIF2=565.1, VIF3=1066.3, VIF4=576.4, VIF5=16.0, VIF6=83.1) de!erlerinin neredeyse hepsi 10’nun çok üstünde oldu!u için güçlü bir çokluba!lant dan bahsedilebilir. Güçlü çokluba!lant regresyon sonuçlar nda belirsizliklere ve zay f tahmin ba ar s na yol açabilir. 164 Çokluba!lant n n etkisini gidermek için veri kümesi üzerinde RR, PCR ve PLSR yöntemleri uygulan r. RMSEC, RMSECV ve RMSEP istatistiklerini kullanarak modellerin kullan lan veri kümesine uyumu ve kestirim gücü hem birbirleriyle hem de MLR ile kar la t r l r. Bu uygulamadaki veri kümesi, öncelikle standartla t r l r. RMSECV de!erlerini hesaplamak için “venetian blinds” CV yöntemi kullan l r ve alt küme say s üç olarak belirlenir. Bekil 1. PCR yöntemine ili kin RMSECV grafi!i. rekil 1’e göre PCR için modelde kalacak maksimum PC say s , be olarak seçilebilir. Çizelge 1’deki varyans yakalama yüzdelerine bak ld ! nda hem X hem de Y için be bile en taraf ndan aç klanan varyans oran çok yüksektir. PCR’deki be PC, ba! ms z de!i kenlerdeki varyans n % 99.99’unu ve ba! ml de!i kendeki de!i imin % 98’ni aç klamaktad r. Çizelge 1. PCR kullanarak regresyon modeli taraf ndan yakalanan varyans yüzdesi. X blo!u Y blo!u PC PC Toplam PC Toplam 1 92.40 92.40 0.00 0.00 2 4.54 96.93 18.74 18.74 3 2.26 99.19 75.85 94.58 4 0.79 99.98 2.66 97.24 5 0.02 99.99 0.76 98.00 6 0.01 100.00 0.75 98.75 165 Bekil 2. PLSR yöntemine ili kin RMSECV grafi!i. PLSR için modelde kalacak ideal LV say s na karar vermek için rekil 2’ye bak l r. Hem rekil 2 hem de Çizelge 2’ye göre, PLSR için modelde kalacak maksimum LV say s dört olarak seçilebilir. Dört LV’li PLSR taraf ndan yakalanan varyans oran n görmek için Çizelge 2’ye bak l r. Çizelge 2’ye göre dört LV, ba! ms z de!i kenlerdeki varyans n % 99.98’ini ve ba! ml de!i kendeki de!i imin % 97.31’ni aç klamaktad r. Çizelge 2. PLSR kullanarak regresyon modeli taraf ndan yakalanan varyans yüzdesi. X blo!u Y blo!u LV LV Toplam LV Toplam 1 4.68 4.68 85.07 85.07 2 90.09 94.77 2.01 87.08 3 4.40 99.17 9.44 96.52 4 0.81 99.98 0.79 97.31 5 0.01 99.99 1.25 98.56 6 0.01 100.00 0.19 98.75 rekil 3’de gösterildi!i üzere “ ” simgesi ile gösterilen ridge parametresi k, Hoerl, Kennard ve Baldwin (1975)’nin yöntemini kullanarak k=0.000456412 olarak belirlenir. Bu de!er RR analizinde kullan lan “ridge” komutu yard m yla otomatik olarak hesaplanmaktad r. 166 Bekil 3. RR yöntemine ili kin Ridge zi. Çizelge 3’deki RMSEP1, 12 gözlemli test kümesi ve RMSEP2 ise, 26 gözlemli test kümesi içindir. Çizelge 3’den de görüldü!ü üzere, veriye uyum bak m ndan en iyi modeller s ras yla MLR ve RR’dir. RMSECV bak m ndan en iyi modeller, s ras yla RR ve PCR’dir. RMSEP1 bak m ndan en iyi modeller, s ras yla PLSR ve RR’dir. RMSEP2 bak m ndan en iyi modeller ise s ras yla PLSR ve PCR’dir. Bu uygulama için, kestirim bak m ndan yanl regresyon yöntemlerinin MLR yönteminden çok daha iyi sonuçlar verdi!ini söylemek mümkündür. 12 gözlemli ve 26 gözlemli test kümeleri için modeller hemen hemen benzer kestim sonuçlar vermektedir. Ancak 12 gözlem kullan ld ! nda RR kestirim bak m ndan PCR’den daha iyi sonuç verirken, 26 gözlem kullan ld ! nda PCR kestirim bak m ndan RR’den daha ba ar l d r. Çizelge 3. Tüm kestirim yöntemlerine ili kin RMSEC, RMSECV ve RMSEP de!erleri. MLR PCR (5 PC) PLSR (4 LV) RR RMSEC 0.148051* 0.187582 0.217569 0.1641 RMSECV 0.619912 0.489013 0.519267 0.3150* RMSEP1 0.607359 0.511108 0.347677* 0.4866 RMSEP2 0.833289 0.448338 0.279457* 0.5191 5. Sonuç ve öneriler Bir ayarlama denklemi hesapland ktan sonra bilinmeyen y de!erlerini kestirme yetene!inin belirlenmesi artt r. Özellikle ayarlama yöntemleri aras ndan bir seçim yaparken ve modelde kullan lacak bile en say s na karar verirken, ayarlama denkleminin kestirim yetene!inin test edilmesi önemli olmaktad r. Bu çal mada literatürde kullan lan kimyasal bir veri kümesi kullan larak MLR, PCR, PLSR, RR modelleri düzenlendi, daha sonra bu modeller uyum ve kestirim bak m ndan kar la t r ld . Sonuç olarak, MLR ve RR modellerinin veriye daha iyi uydu!unu ve kestirim bak m ndan ise yanl regresyon yöntemlerinin MLR yönteminden çok daha iyi sonuçlar verdi!ini 167 söylemek mümkündür. Bir modelde daha az bile en olmas yorumlamay kolayla t rmaktad r. Bu nedenle hem daha az say da bile ene hem de en küçük RMSEP de!erlerine sahip oldu!u için, kestirim bak m ndan PLSR yöntemi di!er yöntemlere tercih edilebilir. ki test kümesi için PCR ve RR yöntemlerinin kestirim ba ar lar ndaki s ralamalar de!i mektedir. Bu nedenle bu örnekten de görülece!i üzere, bir ayarlama modeli farkl test kümeleri için ya da test etmek amac yla kullan lan gözlemlerin say s na ba!l olarak, kestirim bak m ndan farkl özellikler de gösterebilir. Kaynaklar [1] K. R. Bebe et al., (1998), Chemometrics: A Pratical Guide, John Wiley & Sons, Inc. New York. [2] S. Chatterjee, B. Price, (1991), Regression Analysis by Example (2nd Edition), John Wiley & Sons, Inc. New York. [3] G. Çakar, (1994), Regresyon Çözümlemesinde Ayarlama (Kalibrasyon) Problemlerinin ncelenmesi, Bilim Uzmanl ! Tezi, Hacettepe Üniversitesi Fen Bilimleri Enstitüsü, Ankara. [4] T. Fearn, (1983), A Misuse of Ridge Regression in the Calibration of a Near Infrared Reflectance Instrument, Applied Statistics, 32 (1), 73-79. [5] A. E. Hoerl, R. W. Kennard, (1970a), Ridge Regression: Biased Estimation for Nonorthogonal Problems, Technometrics, 12(1), 55-67. [6] H. Martens, T. Naes, (1989), Multivariate Calibration, John Wiley & Sons, Chichester, New York, Brisbane, Toronto, Singapore. [7] T. Naes et al., (2002), A User-Friendly Guide to Multivariate Calibration and Classification, NIR Publications Chichester, UK. [8] Ö. Özyurt, (2002), Do/rusal Regresyonda Çok De/i kenli Ayarlama (Kalibrasyon) Sorunu, Bilim Uzmanl,/, Tezi, Hacettepe Üniversitesi Fen Bilimleri Enstitüsü, Ankara. [9] J. O. Rawlings, (1988), Applied Regression Analysis: A Research Tool, Wadsworth & Brooks/Cole Advanced Books & Software, Pacific Grove, California. [10] P. T. Ryan, (1997), Modern Regression Methods, John Wiley & Sons, New York. [11] A. K. Uluda!, (2005), DoGrusal Regresyon Modellerinde Çapraz Geçerlik Yöntemleri, Yüksek Lisans Tezi, Hacettepe Üniversitesi Sa!l k Bilimleri Enstitüsü Biyoistatistik Program , Ankara. [12] S. Wold et al., (2001), PLS-regression: a basic tool of chemometrics, Chemometrics and Intelligent Laboratory Systems, 58, 109-130. [13] E. Yavuz, (2004), Çoklu BaG:nt:l: DoGrusal Modellerde Ridge Regresyon Yöntemi, Yüksek Lisans Tezi, Trakya Üniversitesi Sa!l k Bilimleri Enstitüsü Biyoistatistik Anabilim Dal , Edirne. 168 Bootstrap Yönteminin Regresyon Analizinde Kullan m ve Di!er Yöntemlerle Kar la t r lmas Hakan Sava Sazak Duygu Okutan Ege Üniversitesi Ege Üniversitesi Fen Fakültesi, statistik Bölümü 35100-Bornova, zmir, Türkiye hakan.savas.sazak@ege.edu.tr Fen Fakültesi, statistik Bölümü 35100-Bornova, zmir, Türkiye okutan_dyg@yahoo.com Özet Orijinal veri setinden yeniden örnekleme yapan yöntemlerin (yeniden örnekleme yöntemleri) bir çe#idi olan bootstrap, parametre tahmin edicisinin standart hatas:n: tahmin etmede, özellikle tahminci kompleks ise ve standart yakla#:m:n uygun olmad:G: zaman veya çok kusurlu olduGunda kullan:l:r. Regresyonda ise baz: uygulamalarda belli ba#l: varsay:mlar geçersiz olabilir. Bu durumlarda bootstrap, özellikle regresyon modelindeki parametrelerin kompleks tahmincilerinin varyans:n: bulmada yard:mc: olur. Bootstrap, baz: özel daG:l:mlar:n doGrusal regresyon modeli için Uyarlanm:# En Çok Olabilirlik (MML) tahmin edicisi ve klasik En Küçük Kareler (LS) tahmin edicisinin varyans:n: tahmin etmede kullan:ld:. Kar#:la#t:rma yapmak amac:yla deGi#ik daG:l:m modelleri alt:nda klasik ve tahmin edilmi# varyanslara dayal: güven aral:klar: simüle edilip güç deGerleri kar#:la#t:r:ld:. Sonuçlara göre regresyonda bootstrap yönteminin kullan:m:n:n daha gerçekçi sonuçlar verebileceGi görülmektedir. Anahtar sözcükler: Bootstrap; regresyon; Uzun kuyruklu simetrik daG:l:m; Uyarlanm:# En Çok Olabilirlik; En Küçük Kareler. Abstract The Usage of the Bootstrap Method in Regression Analysis and its Comparison with Other Methods The bootstrap is a form of a larger class of methods that resample from the original data set and thus are called resampling procedures. The bootstrap is useful for the estimation of the standard error of the parameter estimator, particularly when the estimator is complex and standard approximations are not appropriate or too inaccurate. In the regression case some applications certain key assumptions may be violated. This is where the bootstrap can help especially to find the variance of the complex estimators of the parameters in the regression model. Bootstrap method is used to approximate the variance of the Modified Maximum Likelihood (MML) estimators and the classical Least Squares (LS) estimators for the linear regression model for some specific distributions. Confidence intervals based on the classical and the estimated variances have been simulated and compared with respect to their powers. The results show that sing bootstrap method in regression can give more realistic results. Keywords: Bootstrap; regression; Long-tailed Symmetric distribution; Modified Maximum Likelihood, Least Squares. 1. Giri! statistikte kitle hakk nda bilgi edinmek için, kitle parametresi için güvenilir bir tahminlemenin yap labilmesi gerekir. Güvenilir bir tahminleme ise al nan örne!in kitleyi iyi temsil etmesi ile do!rudan ili kilidir. Bunun için çok say da ve büyük veri setlerinden olu an örneklere ihtiyaç duyulmaktad r. Ço!u durumda da çok say da ve büyük veri setlerine ula mak mümkün de!ildir. Bu 169 durumda, kitleden al nm mevcut veri ile olu turulan modelin güvenilirlik derecesini ölçmenin bir yolu Bootstrap yöntemini kullanmak olabilir. Bootstrap yöntemi, ilk kez Efron [1] taraf ndan öne sürülmü tür. Bu yöntem eldeki örnek verilerin iadeli ve rastsal örnekleme yöntemiyle olu turulmas na, bu ekilde olu turulan her bir örneklem için ilgili istatistiklerin tahmin edilmesine ve bu i lemin defalarca tekrar na dayanan bir süreçtir. Bootstrap yöntemi, matematik formülleri içermeyen, çok basit bir yöntemdir. Veri da! l m ile ilgili a! r varsay mlar gerektirmedi!inden bilinen istatistiksel yöntemlerin ve varsay mlar n yetersiz kald ! durumlarda güvenilir sonuçlar vermektedir. Veri da! l m na dayanan varsay mlar n do!rulu!undan kesin olarak emin olunamad ! için bu yakla m uygulamada çok yararl olabilmektedir. Ayr ca Bootstrap yöntemi ile elde edilen tahmincilerin etkinlikleri varsay mdan sapmalardan etkilenmemektedir (Shou ve Tu [3]). Bu çal mada bootstrap yöntemi regresyon analizindeki parametrelerin tahmin edicilerinin varyanslar n bulmada kullan lacakt r. Burada gerçek hayat problemlerinde s kl kla kar la lan Uzun Kuyruklu Simetrik (LTS) da! l m na dayanan Uyarlanm En Çok Olabilirlik (MML) tahmin edicilerinin ve En Küçük Kareler (LS) tahmin edicilerinin varyanslar tahmin edilip bunlara dayanan güven aral klar olu turulacakt r (Bak n z, Tiku ve di!erleri [4]). Belli da! l mlar alt nda bootstrap yöntemine dayanan varyans ve güven aral klar klasik varyanslara dayanan güven aral klar yla kar la t r lacakt r. 2. Metodoloji 2.1. Genel bootstrap yöntemi: Bootstrap yöntemi, di!er yöntemlerin kullan m n n uygun olmad ! yada parametrik varsay mlar n geçersiz oldu!u durumlarda tercih edilebilmektedir. Bunun yan s ra, kitleden al nan örnek veri setlerine dayal bir tahminin güvenilirli!ini ortaya koymak amac yla da bu yöntem önem ta maktad r. Bu yöntem a a! daki gibi aç klanabilmektedir. n adet gözlemden olu an, x = ( x1 ,..., xn ) orijinal veri seti kullan larak iadeli ve rastsal olarak yap lan ( ) örnekleme ile yeni bir veri seti x * = x1* ,..., xn* elde edilmektedir. Orijinal veri setinden örnekleme yaparken olu turulan x * veri setinin içinde, baz xi verilerinin birden fazla yada hiç görülmeme olas l ! bulunmaktad r. Yeniden örnekleme i lemi istenildi!i kadar yinelenerek birbirinden farkl B adet Bootstrap gözlemler seti olu turulabilir ve b = 1,..., B için olu an bootstrap veri seti x *b ile gösterilebilir. lgilenilen istatistik bu yeni veri setleri kullan larak hesaplanmaktad r. 2.2. Jackknife yöntemi: Jackknife, bootstrap yönteminden önce geli tirilmi bir yöntemdir ve ayn amaçla kullan l r. Bu yöntem a a! daki gibi aç klanabilmektedir. n adet gözlemden olu an, x = ( x1 ,..., xi 1 , xi , xi +1 ,..., x n ) orijinal veri setinde i. gözlem d ar da b rak larak yeni bir veri seti x J = ( x1 ,..., xi 1 , xi +1 ,..., x n ) elde edilmektedir. Burada her yeni veri setinde yaln zca bir gözlem d ar da b rak l r ve kalanlarla ilgilenilen istatistik de!eri hesaplan r. Bu i lem n adet gözlemin her biri d ar da b rak lana kadar devam eder. 2.3. Regresyon analizinde Bootstrap Yönteminin kullan:m:: 170 De!i kenler aras ndaki ili kiyi ara t ran en önemli istatistiksel yöntemlerden biri regresyon analizidir. Regresyon analizinde hata terimleri ve ba! ms z de!i kenlerle ilgili yap lan varsay mlar n gerçekle memesi durumunda bir düzeltme i lemi amac yla da kullan lan bootstrap yöntemi, daha küçük tahmin hatalar n n elde edilmesi, standart sapmalar n küçülmesi ve buna ba!l olarak da daha güvenilir parametre tahmincilerinin elde edilmesi ve güven aral klar n n olu turulmas amac yla geli tirilmi tir (Efron ve Tibshirani [2]). Bootstrap yöntemi ile elde edilen tahmincilerin etkinlikleri varsay mdan sapmalardan etkilenmemektedir (Shao ve Tu [3]). Çal mada bootstrap yönteminin etkinli!inin ölçülmesi için do!rusal regresyon analizinde hata terimlerinin yeniden örneklemesine dayanan bootstrap yakla m kullan lm t r. Do!rusal regresyon modeli: Y = X +) (1) Burada; X ba! ms z de!i keni (n × k ) boyutunda matris, regresyon katsay s (k × 1) boyutunda matris, Y ba! ml de!i keni (n × 1) boyutunda matris, ) hata terimi (n × 1) boyutunda bir vektördür. Var olan örneklemden Y ve X de!i kenleri ile regresyon denklemi Y = X + ) tahmin edilir. Buradan da ) = Y Yˆ kullan larak hata vektörü tahmin edilir. Hata terimlerinin bootstrap örnekleri elde edilir ve yeniden örneklenen hata terimleri eklenerek bootstrap Y de!erleri hesaplan r. Yb* = Yˆ + )ˆb* (2) Bootstrap yöntemi uygulanm (Y ) ba! ml * b ( ) de!i ken ve ( X ) ba! ms z de!i keninden hareketle her bir üretilmi bootstrap örneklemi için, ˆb regresyon katsay s n n bootstrap tahmini elde edilir. Yb* = X ˆb* + )ˆb* (3) Bu noktada parametre tahmini yap l rken hangi tahmin edicinin özellikleri ile ilgileniliyorsa o yöntem kullan larak parametre tahmini yap l r. Bu i lemin ‘B’ say da tekrarlanmas ile tahmin edicinin örneklem da! l m ve özellikleri elde edilir ve bunlara dayanan güven aral klar olu turulur. 2.4. Bootstrap güven aral:G:: Büyük bir kitleden al nan veri setleri için parametre tahminlerinin güvenilirli!i, bu veri setlerinin ne kadar de!i ken oldu!una ba!l d r. Söz konusu tahminin ne kadar güvenilir oldu!u hakk nda bilgi ise güven aral klar ndan al nmaktad r. Bootstrap metodu ile yakla k olarak güven aral klar n olu turmak mümkündür (Efron [1]). Genel olarak herhangi bir ~ parametresi için güven aral ! , ~ parametresinin nokta tahmininden daha fazla bilgi vermektedir. Güven aral klar n n olu turulmas nda çe itli Bootstrap yöntemleri kullan labilir. 171 2.4.1. Standart bootstrap güven aral:G:: Standart bootstrap güven aral ! , güven aral ! n n parametrik modeline dayanmaktad r. Ortalama için (1 ) F100% güven aral ! a a! daki formülle bulunur. z (1 P X / 2) n z( <µ<X / 2) =1 n (4) Benzer biçimde, standart bootstrap güven aral ! ise a a! daki gibi yaz labilir. (ˆ z (1 / 2) SE ˆ , ˆ z ( / 2) ) SE ˆ (5) Burada SE ˆ , bootstrap kullan larak elde edilen ˆ istatisti!inin standart hatas d r. ^ SE B () B ˆ = /0 1 ˆ *b " 1 B 1 b =1 1 ˆ * 2 ;2 < = (6) B ˆ* = 1 ˆ *b " B b =1 (7) 2.4.2. BC a metodu: BC a metodu, 2 parametreye ( , ẑ 0 ) dayanan aral k bitim noktalar n ayarlar. BC a metodu ) F 100% güven aral ! a a! daki formülle bulunur. kullan larak (1 (ˆ Lo ) ( , ˆHi = ˆB*( 1 ) , ˆB*( 2 ) ) (8) Burada, 1 = 3 zˆ 0 + zˆ 0 + z ( / 2 ) 1 ˆ zˆ 0 + z ( / 2 ) ( ) (9) 2 zˆ 0 + z (1 / 2 ) = 3 zˆ 0 + 1 ˆ zˆ 0 + z (1 / 2 ) ( ) (10) (9) ve (10) e itlikleri ile verilen 1 ve 2 formüllerinin içindeki 3 , standart normal kümülatif da! l m fonksiyonunu gösterir. Bilindi!i gibi 0 ! 1 ! 1 ve 0 ! 172 2 ! 1 olur. Orijinal örneklemden hesaplanan ˆ istatisti!inden küçük olan ˆ *b bootstrap tekrarlar n n oran na dayanan ẑ 0 de!eri a a! daki gibi hesaplan r. Burada 3 1 ifadesi standart normal kümülatif da! l m ters fonksiyonudur. zˆ 0 = 3 ( # ˆ *b < ˆ B 1 ) (11) ˆ parametresi ise jackknife yöntemi kullan larak bulunur. " {ˆ n ˆ= (J ) ˆ( i) i =1 / 60" ˆ ( J ) 1 i =1 n ˆ( i) } 3 2 ; < = 3/ 2 (12) Burada ˆ ( i ) , i. de!er ç kar ld ! nda kullan lan örneklemin istatistik de!eridir. ˆ ( J ) ise, i. de!er ç kar ld ! nda kullan lan örneklemin ortalamas d r. n ˆ (J ) = 1 ˆ( " n i =1 i) (13) ẑ 0 , orijinal örneklemin ˆ de!eri ve bootstrap tekrarlar n n medyan aras ndaki fark n ölçümüdür (Efron ve Tibshirani [2]). E!er bootstrap tekrarlar n n yar s ˆ de!erinden küçük yada e it ise, medyan yanl l ! olamaz ve ẑ de!eri s f r olamaz. ˆ parametresi, ˆ de!erinin standart hatas n n 0 ivme oran n n ölçümüdür. 2.5. MML tahmin edicileri: E!er verinin geldi!i iki de!i kenli da! l m f ( x, y ) ise bu da! l m her zaman g (x) marjinal da! l m ( ) ( ) ve h y x ko ullu da! l m n n çarp m olarak f ( x, y ) = g ( x) h y x bu iki de!i kenli da! l m n olabilirlik fonksiyonu L, L = L X LY eklinde ifade edilebilir. O halde X eklinde ifade edilebilir. Bu çal mada iki de!i kenli da! l m n normal da! l m yerine uygulamalarda daha s kl kla kar la t ! m z LTS marjinal ve ko ullu da! l mlardan olu tu!u varsay lm t r (Ayr nt lar için bak n z, Tiku ve di!erleri [4]). Burada µ1 , µ 2 ; 12 , 22 ; s ras yla iki de!i kenli da! l m n konum, ölçek ve korelasyon katsay s parametreleridir. Marjinal ve ko ullu da! l m n LTS olmas durumunda iki de!i kenli da! l m n olabilirli!i daha önce ifade etti!imiz ekilde a a! daki gibi yaz labilir ( p1 , k1 = 2 p1 3 ve p2 , k 2 = 2 p2 L = L X LY 3 ekil parametreleri ile): X (14) 173 LX = LY X ( = n 1 (1 2 , p1 k1 (k 1 2) ) n 1 i =1 1 xi µ 1 1+ k1 1 (15) n 1 (1 2 , p 2 2 1 2) p1 2 2 1 2 ) n 1 1+ k2 i =1 µ2 yi 2 2 2 (1 ( xi µ1 ) 1 2 2 p2 ) (16) µ1 ) / z i = ( x (i ) µ 2.1 = µ 2 1 g1 ( z i ) # µ1 ve 1i a (i ) = e(i ) ve 1 = 2 2.1 1i 2 2 (1 2 2.1 = y[i ] 1 x[i ] µ 2.1 2.1 yaz l r. 1 = 2 , 1 ) dir. z (i ) ve g 2 (a (i ) ) # Burada 2i 2i a (i ) , 1 ! i ! n (17) Burada 2 = t13(i ) k1 1i 1+ t12(i ) 2 ve k1 1i t12(i ) =1 1+ k1 t12(i ) 2 . k1 (18) ( ) de benzer ekilde t1(i ) ve k1 yerine t 2 (i ) ve k 2 konularak bulunur. g 1 ( z (i ) ) ve g 2 (a (i ) ) yerine 1i 1i z (i ) ve 2i 2 i a (i ) konularak elde edilen yeni MML denklemleri çözülerek a a! daki tahmin ediciler elde edilir: 2i , 2i µˆ 1 = K1 , ˆ 1 = B1 + B12 + 4nC1 2 n(n 1) , (19) ˆx , 1 [.] µˆ 2.1 = y[.] ˆ 2.1 = B2 + B22 + 4nC 2 2 n(n 2) (20) ˆ =K 1 2 L ˆ 2.1 (21) Burada, n m1 = " i =1 1i , m2 = n " i =1 2i , x[.] = 1 m2 n " i =1 2i x[i ] , y[.] = 174 1 m2 n " i =1 2i y[i ] , ve K1 = 1 n " m1 i =1 n K2 = " i =1 2i 1i x (i ) , B1 = (x [ ] 2 p1 k1 x[.] )y[i ] i n " 1i x (i ) , C1 = i =1 " (x [ ] i =1 i =1 B2 = 2 p2 k2 " {y[ ] y[.] K 2 (x[i ] x[.] )} C2 = 2 p2 k2 " {y[ ] y[.] K 2 (x[i ] x[.] )} . n 2i i =1 i n 2i i =1 i 1i i =1 n 2 i n " x[.] ) , L = " n 2i 2 p1 k1 2i K1 ) 2 ( x (i ) (x[ ] i x[.] ) " (x [ ] n i =1 2i i x[.] ) 2 2 (22) µˆ 2 = µˆ 2.1 + ˆ1 µˆ 1 , ˆ 2 = ˆ 22.1 + ˆ 2 ˆ 12 ve (23) ˆ ˆ = ˆ1 1 ˆ2 (24) MML tahmin edicileri iki iterasyon ile bulunur. lk iterasyonda formülü kullan larak hesaplan r. Burada ~ 1 n = " (xi i =1 x )( y i y) i =1 i x ) kullan l r. wi ’ ye göre s ralanm ~ kinci iterasyonda ise wi ’ler bulunurken göre s ralanm (x[ ] , y[ ] ) ikilileri bulunur. i i 2.6. En küçük kareler tahmin edicisi: n En küçük kareler yöntemi " ( xi i =1 n i =1 n µ~2 = (1 / n )" yi , ~2 = s y = ~ 2.1 = s 2.1 , ~ i =1 n 2 µ1 ) ve µ~1 = x = (1 / n )" xi , ~1 = s x = "e i =1 n " (x i =1 2 i x) i n minimize etmeye dayan r. (n 1) , 2 " ( y y ) (n 1) , µ~ (s s ) = s xy s x2 ve ~ = s xy i yerine MML yöntemiyle bulunan ˆ1 kullan larak wi ’ ye 1 (x[ ] , y[ ] ) ikilileri kullan l r. i x (1 ! i ! n ) 1 i yerine, en küçük kareler tahmin edicisi olan 1 2 n " (x wi ’ler wi = yi 2 i i =1 x 2.1 =y ~ 1 y (25) Burada; 175 x, s 2.1 = " {y n i =1 i y ~ ( xi } x) 2 n (n 2) ve s xy = " ( xi i =1 x )yi (n 1) . (26) 3. Sonuç ve kar! la!t rmalar Bu çal mada, LS ve MML ile elde edilen ˆ1 regresyon katsay s tahminlerine yönelik güven aral klar olu turulmu tur. Olu turulan güven aral klar için yap lan testin gücü, de!i ik da! l m ve modeller alt nda Monte Carlo ve Bootstrap çal mas ile ara t r lm t r. Modeller a a! daki gibi yaz labilir; 1. Model: ki de!i kenli normal da! l m BN( µ1 , µ 2 ; 2 1 , 2 2 ; ), ( X ~ LTS µ1 , 2. Model: Uzun kuyruklu simetrik marjinal ve ko ullu da! l m ( Y X ~ N µ 2.1 , 2 2.1 2 1 , p1 ) , ) , p2 , 3. Model: Dixon’ n uçde!er modeli; Gözlemlerin %90’ X ~ N µ1 , ( 2 1 4. Model: Dixon’ n uçde!er modeli: Gözlemlerin %90’ X ~ LTS µ1 , ( ( ) , %10’u X ~ N (µ ,4 ), 2 1 1 2 1 %10’u X ~ LTS µ1 ,4 ( , p1 ) , Y X ~ N µ 2.1 , 2 1 ) 2 2.1 ( , p1 , Y X ~ N µ 2.1 , , p2 2 2.1 ) ) , p2 . Yukar daki modeller için simülasyon 1000 kere döndürülerek yap lm , bootstrap tekrar say s 200 ve örneklem say s 50 al nm t r. µ1 , 1 , µ 2 , 2 s ras yla 0, 1, 0, 1 ve = 0,...,0.5 olarak al nm t r. ki de!i kenli normal da! l m için di!er parametreler 1 = ( 2 1 ) , µ 2.1 = µ 2 µ 1 ve ili kileri kullan larak bulunmu tur. Çizelge 1 de, LS ile elde edilen ˆ1 regresyon katsay s tahminine yönelik olu turulan 1000 adet güven aral ! n n ilk on tanesini göstermektedir. Çizelge 2 de ise, MML ile elde edilen ˆ1 regresyon katsay s tahminine yönelik olu turulan 1000 adet güven aral ! n n ilk on tanesini göstermektedir. Güven aral klar klasik güven aral ! , Standart bootstrap güven aral ! ve BC metodu olmak üzere üç ayr yöntem kullan larak olu turulmu tur. Çizelge 2-5 de Olu turulan güven aral klar için yap lan testin gücü de!i ik da! l m ve modeller alt nda ara t r lm t r. 2.1 = 2 1 2 Çizelge 1. Normal da! l m için LS ile elde edilen güven aral klar Klasik Güven Aral ! Alt s n r Üst s n r -0.2482 0.3190 -0.2956 0.3177 LS Standart Bootstrap Güven Aral ! Alt s n r Üst s n r -0.2379 0.3088 -0.2773 0.2995 176 BC Metodu. Alt s n r -0.2371 -0.2460 Üst s n r 0.2980 0.3452 -0.3734 -0.3135 -0.1495 -0.3338 -0.2201 -0.0898 -0.4458 -0.3419 0.2511 0.1982 0.3814 0.3799 0.3820 0.5208 0.1597 0.1773 -0.3551 -0.3139 -0.1325 -0.3425 -0.2016 -0.0618 -0.4297 -0.3192 0.2328 0.1985 0.3645 0.3887 0.3636 0.4929 0.1436 0.1545 -0.2789 -0.2901 -0.1297 -0.3071 -0.1812 -0.0262 -0.4060 -0.3061 0.2609 0.1826 0.3911 0.4282 0.3849 0.6033 0.1385 0.1406 Çizelge 2. Normal da! l m için MML ile elde edilen güven aral klar Klasik Güven Aral ! Alt s n r Üst s n r -0.2216 0.3175 -0.3159 0.3125 -0.4005 0.2133 -0.2939 0.2011 -0.1290 0.3783 -0.3614 0.3322 -0.2314 0.2937 -0.1117 0.4853 -0.4235 0.1657 -0.3597 0.1691 MML Standart Bootstrap Güven Aral ! Alt s n r Üst s n r -0.2256 0.3214 -0.2988 0.2955 -0.3983 0.2112 -0.3116 0.2188 -0.1245 0.3738 -0.3934 0.3642 -0.2115 0.2737 -0.1025 0.4761 -0.4308 0.1730 -0.3486 0.1579 BC Metodu. Alt s n r -0.1938 -0.2943 -0.3353 -0.2863 -0.1279 -0.4234 -0.2005 -0.0791 -0.3823 -0.3802 Üst s n r 0.3905 0.2760 0.2332 0.2481 0.4061 0.3216 0.1938 0.4950 0.2209 0.1459 Çizelge 3. Normal da! l m için güven aral klar na dayanan testinin gücü Klasik Güven Aral ! 0.00 0.10 0.20 0.30 0.40 0.50 0.047 0.104 0.276 0.587 0.853 0.968 LS Standart Bootstrap Güven Aral ! 0.063 0.124 0.306 0.628 0.872 0.972 BC Metodu Klasik Güven Aral ! 0.068 0.126 0.309 0.627 0.863 0.974 0.063 0.136 0.313 0.631 0.866 0.967 MML Standart Bootstrap Güven Aral ! 0.062 0.125 0.296 0.624 0.857 0.969 BC Metodu 0.073 0.129 0.306 0.614 0.845 0.960 Çizelge 4. Uzun kuyruklu simetrik da! l m için güven aral klar na dayanan testinin gücü, p1 = 5.0 , p 2 = 5.0 p 0.00 0.10 Klasik Güven Aral ! 0.051 0.103 LS Standart Bootstrap Güven Aral ! 0.064 0.122 BC Metodu Klasik Güven Aral ! 0.074 0.128 0.057 0.120 177 MML Standart Bootstrap Güven Aral ! 0.063 0.125 BC Metodu 0.075 0.138 0.20 0.30 0.40 0.50 0.306 0.585 0.843 0.951 0.341 0.620 0.862 0.963 0.341 0.605 0.852 0.956 0.330 0.621 0.858 0.972 0.348 0.634 0.870 0.970 0.348 0.640 0.859 0.966 Çizelge 5. Normal da! l m alt nda Dixon’ n uçde!er modeli için güven aral klar na dayanan testinin gücü, p1 = 5.0 , p 2 = 5.0 p 0.00 0.10 0.20 0.30 0.40 0.50 Klasik Güven Aral ! 0.044 0.120 0.263 0.570 0.827 0.967 LS Standart Bootstrap Güven Aral ! 0.061 0.144 0.305 0.603 0.847 0.974 BC Metodu Klasik Güven Aral ! 0.063 0.146 0.319 0.595 0.853 0.971 0.059 0.143 0.298 0.596 0.848 0.971 MML Standart Bootstrap Güven Aral ! 0.057 0.141 0.298 0.589 0.839 0.972 BC Metodu 0.066 0.160 0.311 0.586 0.837 0.965 Çizelge 6. Uzun kuyruklu simetrik da! l m alt nda Dixon’ n uçde!er modeli için güven aral klar na dayanan testinin gücü , p1 = 5.0 , p 2 = 5.0 p 0.00 0.10 0.20 0.30 0.40 0.50 Klasik Güven Aral ! 0.048 0.117 0.277 0.615 0.828 0.952 LS Standart Bootstrap Güven Aral ! 0.059 0.143 0.317 0.647 0.847 0.967 BC Metodu Klasik Güven Aral ! 0.067 0.147 0.323 0.639 0.828 0.961 0.050 0.131 0.294 0.634 0.859 0.970 MML Standart Bootstrap Güven Aral ! 0.055 0.135 0.324 0.647 0.864 0.970 BC Metodu 0.069 0.145 0.333 0.653 0.873 0.968 4. Yorum ve öneriler Normal Da! l m aç s ndan incelendi!inde, LS ve MML ile olu turulan güven aral klar nda görüldü!ü gibi standart bootstrap yöntemiyle yap lan güven aral ! klasik güven aral ! ndan daha dar güven aral klar olu turmaktad r. Ayn ekilde BC metodu ile yap lan güven aral klar ise standart bootstrap yöntemiyle olu turulan güven aral klar ndan da dar güven aral klar olu turmaktad r. Ayr ca I. tip hatada LS için klasik güven aral ! 0.05 de!erine çok daha yak n sonuçlar vermektedir. Standart bootstrap yöntemi ile MML ile LS I. tip hata için yak n sonuçlar vermesine ra!men, güven aral klar için yap lan testin gücünde LS yönteminin daha iyi oldu!u görülmü tür. Uzun Kuyruklu Simetrik Da! l m için bak ld ! nda, I. tip hatada LS için klasik güven aral ! 0.05 de!erine daha yak n sonuçlar vermektedir. Standart bootstrap yöntemi ile güven aral klar için yap lan testin gücünde ise MML yönteminin daha iyi oldu!u görülmü tür. Normal da! l m alt nda Dixon’ n uçde!er modeli için bak ld ! nda, I. tip hatada LS için klasik güven aral ! 0.05 seviyesine daha yak n sonuçlar vermektedir. Standart bootstrap yöntemi ile MML ile LS I. tip hata için ve güven aral klar için yap lan testin gücünde yak n sonuçlar verdi!i görülmü tür. Uzun kuyruklu simetrik da! l m alt nda Dixon’ n uçde!er modeli için bak ld ! nda, I. tip hatada MML için klasik güven aral ! n n 0.05 de!erine çok daha yak n sonuçlar verdi!i ve güven aral klar için 178 yap lan testin gücünde yine MML yönteminin daha iyi oldu!u görülmü tür. Ayn ekilde standart bootstrap yöntemi ile güven aral klar için yap lan testin gücünde MML yönteminin daha iyi oldu!u görülmü tür. Normal da! l mda görüldü!ü gibi di!er da! l m modelleri de incelendi!inde, LS ve MML ile olu turulan güven aral klar nda standart bootstrap yöntemiyle yap lan güven aral ! klasik güven aral ! ndan daha dar güven aral klar olu turmaktad r. Ayn ekilde BC metodu ile yap lan güven aral klar ise standart bootstrap yöntemiyle olu turulan güven aral klar ndan da dar güven aral klar olu turmaktad r. Simülasyon sonuçlar gösteriyor ki veri da! l m n n tam olarak bilinmedi!i ve varsay mlar n tam olarak tutmad ! durumlarda bootstrap yöntemini kullanmak, uygulamada daha yararl olabilmektedir. Kaynaklar [1] [2] [3] [4] Efron, B., (1979), Bootstrap Methods: Another Look at the Jackknife, The Annals of Statistics, 7, 1-26. Efron, B., Tibshirani, R., (1993), An Introduction to the Bootstrap, New York:Chapman & Hall. Shao, J., Tu, D., (1995), The jackknife and the bootstrap, Springer-Verlag, New Jork. Tiku, M.L., Islam, M.Q., Sazak, H.S. (2008), Estimation in bivariate nonnormal distributions with stochastic variance functions, Computational Statistics and Data Analysis, 52, pp.1728-1745. 179 Parametrik lojistik regresyon modelinin yar parametrik alternatifine kar! testi Özge Akku Hüseyin Tatl dil MuGla Ünv. Fen Edebiyat Fak. statistik Bölümü,48000, Kötekli, MuGla ozge.akkus@mu.edu.tr Hacettepe Ünv. Fen Fak. statistik Bölümü, 06532, Beytepe, Ankara tatlidil@hacettepe.edu.tr Özet Hata teriminin lojistik daG:ld:G: varsay:m: üzerine kurulu olan iki düzeyli lojistik regresyon modeli uygulamal: çal:#malarda s:kl:kla kullan:lmaktad:r. Hata terimi ile ilgili bilinen daG:l:m varsay:m:ndan dolay: bu model, parametrik bir model olarak adland:r:lmaktad:r. Varsay:m bozulumlar:n:n olmas: durumunda yanl: tahminlerin elde edildiGi ise teorik olarak ispatlanm:#t:r. statistiksel olarak doGru tahminler elde etmek amac:yla model için daha az varsay:ma gereksinim duyan yar: parametrik yakla#:m:n kullan:m: giderek yayg:nla#maktad:r. Ancak, yar: parametrik alternatifi ile kar#:la#t:r:ld:G:nda parametrik lojistik regresyon analizi uygulamada ve yorumlamada büyük kolayl:k saGlamaktad:r. Bu nedenle analiz a#amas:na geçmeden önce parametrik lojistik regresyon model varsay:mlar:n:n geçerliliGi test edilmelidir. Bu çal:#mada, parametrik lojistik regresyon modelini yar: parametrik alternatifine kar#: test etmek için XploRe yaz:l:m:n:n windows tabanl: yeni versiyonunda olu#turduGumuz kodlar kullan:lm:# ve uygulama bölümünde kullan:lan veri kümesi için en uygun model belirlenmi#tir. Bu modele göre parametre tahminleri elde edilmi# ve sonuçlar yorumlanm:#t:r. Anahtar Kelimeler: Yar: parametrik model, Lojistik regresyon, XploRe. Abstract The Validity Test of the Parametric Logistic Regression Model Against the Semiparametric Alternative Binary logistic regression model based on the logistic distribution assumption of the error term is frequently used in applied studies. This model is called a parametric model due to the known distribution assumption related to the error term. It is theoretically proved that biased estimations are obtained if the assumptions are violated. The use of the semiparametric approach that requires less assumtion for the model gradually become widespread to obtain statistically correct estimates. However, the parametric logistic regression analysis provides large amount of simlicity both in application and interpretation compared with the semiparametric alternative. Therefore, the validity of the parametric logistic regression model assumptions must be tested before the analysis step. In this study, the codes that we wrote in the new windows based version of the XploRe package were used for testing the parametric logistic regression analysis against the semiparametric alternative and the most appropriate model was determined for the data set used in the application part. Parameter estimates were obtained and results were interpreted according to this appropriate model. Keywords: Semi parametric model, Logistic regression, XploRe. 1. Giri! ki düzeyli ba! ml de!i ken modellemesinde uygulama ve yorumlamadaki kolayl ! nedeniyle parametrik lojistik regresyon modeli yayg n olarak kullan lmaktad r. Ancak model geçerlili!i, temel olarak hata da! l m ile ilgili olarak yap lan lojistik da! l m varsay m na ba!l d r. Bu varsay m n geçerlilik testi ise ço!u uygulamada göz ard edilmekte ve istatistiksel olarak yanl tahminler 180 yorumlanm olmaktad r. Parametrik lojistik regresyon model varsay mlar n n sa!lanmamas durumunda alternatif tahmin edicilerin kullan lmas önerilmektedir. Model tahminine yar parametrik yakla mlar bunlardan birisidir [5,8]. Bu çal mada, Uniform Güven Bantlar (UGB)’na dayal olarak Akku (2008) taraf ndan XploRe yaz l m n n windows tabanl yeni versiyonunda olu turulan kodlar kullan larak mide kanseri verisi için parametrik lojistik regresyon modelinin uygun olup olmad ! test edilmi tir. Uygun modele göre tahminler yap lm ve sonuçlar yorumlanm t r. 2. Genel bilgiler ki düzeyli bir ba! ml de!i kenin yer ald ! model tahmininde ko ullu ortalama fonksiyonu, E(Y / X = x ) = P [Y = 1 / X = x ] (1) biçiminde verilen bir olas l k ifadesine dönü mektedir. Model tahmini için iki temel yakla m vard r. Bunlar; parametrik ve yar parametrik yakla mlard r [5,8]. 2.1. Parametrik yakla#:m Parametrik model genel olarak a a! daki biçimde ifade edilmektedir. E(Y / X = x ) = P [Y = 1 / X = x ] = G ( x T {) (2) Burada G, hata terimi için varsay lan da! l m fonksiyonunu, { , tahmin edilmesi gereken sonlu boyutlu parametreler vektörünü ve T, matris transpozunu göstermektedir. Bu yakla m bilinen bir G ve aç klay c de!i kenler aras ndaki do!rusal indeks ( x T { ) varsay m na dayal d r. G’nin yerine lojistik da! l m gösteren I gibi belirli bir kümülatif da! l m fonksiyonunun koyulmas durumunda i. gözlem için ba! ml de!i kenin 1 olarak kodlanan düzeyinin gözlenmesi olas l ! elde edilmektedir. Model, E(Y / X = x ) = P [Yi = 1 / X = x i ] = I exp ( x iT {ˆ ) 1 + exp ( x T {ˆ ) (3) i biçiminde ifade edilir. Model parametreleri En Çok Olabilirlik Tahmin Yöntemi (EÇOTE) ile elde edilmektedir [1,11]. 2.1.1. En çok olabilirlik tahmin yöntemi Lojistik regresyon modeli için olabilirlik ve logaritmik olabilirlik fonksiyonlar s ras yla E itlik (4) ve (5)’de verilmi tir. L ( Y / X, { ) = N i =1 exp (" {ˆ k x ik ) 1 + exp (" {ˆ k x ik ) Yi 1 1 + exp (" {ˆ k x ik ) log L (Y / X, {) = " [Yi log Pi + (1 Yi ) log (1 Pi )] N i =1 1 Yi (4) (5) E itliklerde k, aç klay c de!i ken say s n , N ise gözlem say s n göstermektedir. { parametreler vektörünün tahmini, 181 log L N = " Yi { i =1 exp (" b̂ k x ik ) 1 + exp (" b̂ k x ik ) x ij = 0 ; i = 1,2, K , N (6) j = 1,2, K , K olarak tan mlanan logaritmik olabilirlik fonksiyonunun { ’lara göre birinci dereceden k smi türevi ile elde edilmektedir. Di!er bir ifade ile olabilirlik fonksiyonunu maksimum yapan optimal bir {ˆ parametreler vektörü bulunur [1,3,4,11]. E itlik (6)’dan görüldü!ü gibi lojistik da! l m varsay m parametre tahminlerinin elde edilmesini son derece kolayla t rmaktad r. Ancak varsay m bozulumu, sonuçlar n istatistiksel olarak geçersiz olaca! anlam na gelmektedir. Bu nedenle kullan lan veri kümesi için parametrik yakla m n uygun olup olmad ! n n test edilmesi önemli bir a amad r. Test sonucunda kullan lan veri kümesi için parametrik model varsay mlar n n uygun olmas durumunda, sonuçlar n gösterimi de yorumu da kolayd r. Varsay m bozulumunda ise alternatifi olan yar parametrik yakla m n kullan m önerilmektedir [5,8]. 2.2. Yar: parametrik yakla#:m Bu yakla mda E itlik (2)’deki G ’nin bilinmedi!i (g ile gösterilir) varsay lmaktad r. Model, E(Y / X = x ) = P [Y = 1 / X = x ] = g ( x T {) (7) biçiminde ifade edilir. Yar parametrik yakla m, parametrik ve parametrik olmayan yakla mlar n birle imidir. x T { do!rusal indeks varsay m yakla m n parametrik k sm n ; bilinmeyen hata da! l m (g) ise parametrik olmayan k sm n ifade etmektedir. Tahmin süreci a a! daki ad mlardan olu ur. (1) lk olarak { uygun bir yöntem ile tahmin edilir. (2) Daha sonra her bir gözlem için x iT {ˆ indeks de!erleri hesaplan r. (3) Y’nin x iT {ˆ üzerine tek de!i kenli parametrik olmayan ortalama regresyonu uygulanarak her bir gözlemin ba! ml de!i kende “1” olarak kodlanan düzeye ait olma olas l klar tahmin edilir. Model parametrelerinin ( { ) tahmininde, tüm aç klay c de!i kenlerin sürekli oldu!u durumlar için Yo!unlukla A! rl kland r lm Ortalama Türev Tahmin Edicisi (YAOTT), karma (kesikli-sürekli) oldu!u durumlar için ise Klein ve Spady (KS) (1993) tahmin edicisi kullan lmaktad r [5,8,13]. 2.2.1. YoGunlukla aG:rl:kland:r:lm:# ortalama türev tahmin edicisi A! rl kland r lm Ortalama Türev Tahmin Edicisi (AOTT)’nin iki önemli avantaj vard r. Bunlar, ba! ml de!i ken Y için herhangi bir da! l m varsay m na ihtiyaç duyulmamas ve sonuçta elde edilen tahmin edicinin iteratif olmamas d r. { ’n n tan mlanabilirli!i için gerekli olan G’nin diferansiyellenebilir bir fonksiyon oldu!u varsay ld ! nda, E (Y / x ) = { G ' ( x{ ) x (8) ifadesi elde edilir. Ayr ca, herhangi bir s n rland r lm , sürekli fonksiyon W için, 182 E W (X) [ E (Y / X ) = { E W (X) G ' (X{) x ] (9) yaz labilir. E itlik (9)’un sol taraf , W a! rl k fonksiyonu ile E ( Y / x ) ’in “A! rl kland r lm Ortalama Türevi” olarak adland r lmaktad r. E itlik (9), E ( Y / x ) ’in a! rl kland r lm ortalama türevinin { ’ya orant l oldu!unu göstermektedir. Ölçek normalle tirmesi gereksiniminden dolay , { , sadece ölçe!e göre tan mlan r, böylece E ( Y / x ) ’in herhangi bir a! rl kland r lm ortalama türevi gözlemsel olarak { ’ya e ittir. Bu durumda, { ’y tahmin etmek için E itlik (9)’un sol taraf n n tahmini yeterlidir. E itlik (9)’un sol taraf ndaki her bir bile en ilk bile ene bölünerek yar parametrik yakla mda parametrelerin tan mlanabilirli!i için gerekli olan {1 = 1 ölçek normalle tirmesi de kabul ettirilebilir [10]. E itlik (9)’un sol taraf , E (Y / X) yerine çekirdek kestiricisinin ve kitle beklenen de!erinin [ E (.) ] x yerine örneklem ortalamas koyularak tahmin edilebilir. W a! rl k fonksiyonunun X’lerin olas l k yo!unluk fonksiyonu olarak al nmas durumunda tahmin edici, YAOTT olarak adland r lmaktad r. YAOTT, E (Y / X) = E W (X) x N N 2 1 "" N ( N 1) i =1 j=1 h N k +1 K' j: i Xi Xj hN Yi (10) biçiminde tan mlan r. Burada, K ' , tahmin için seçilen çekirdek fonksiyonunun 1. dereceden k smi türevini, h n , optimal bant geni li!ini, k, tahmin edilecek parametre say s n ve N, gözlem say s n göstermektedir [7,12]. 2.2.2. Klein ve Spady’nin yar: parametrik en çok olabilirlik tahmin edicisi KS tahmin edicisi, Y’nin sadece 0-1 gibi iki de!er ald ! durum için kullan lmaktad r. Y, iki düzeyli bir de!i ken oldu!undan dolay , model için logaritmik olabilirlik fonksiyonu, log L N (b) = N 1 N " {y n log G ( x n{) + (1 y n ) log [1 G ( x n{)]} n =1 (11) biçimindedir. Modelde hata terimi ile ilgili herhangi bir da! l m varsay m yap lmad ! ndan dolay G ( x n{) ’nin de tahmin edilmesi gerekmektedir. G N ( x n{) , G ( x n{) ’n n parametrik olmayan tahmini olmak üzere, Klein ve Spady (1993), G N ’in, y’nin xb k s üzerine parametrik olmayan regresyon tahmini ile elde edilebilece!ini göstermi tir. N PN = " yn n =1 (12) N ba! ml de!i kende “1” cevab n verenlerin oran 183 g N (A / y = 1) = N (A x n b ks ) 1 " yn K hN ( N PN h N ) n =1 (13) ba! ml de!i kende “1” cevab n veren ki iler için elde edilen, • = x n b ks ’nin çekirdek yo!unluk fonksiyonu tahmini, ve g N ( • / y = 0) = N ( • x n b ks ) 1 " (1 y n ) K [N (1 PN ) h N ] n =1 hN (14) tercih eden ki iler için elde edilen, • = x n b ks ’nin çekirdek yo!unluk ba! ml de!i kende “0” fonksiyonu tahmini olmak üzere, G N , a a! daki biçimde elde edilmektedir. G N (A) = PN g N (A / y = 1) PN g N (A / y = 1) + (1 PN ) g N (A / y = 0) (15) E itlik (15) ile verilen G N (A) ’nin, E itlik (11)’de yerine konulup olabilirlik fonksiyonunun maksimize edilmesi ile bilinmeyen parametreler vektörü tahmin edilir. Yar parametrik tahminde tan mlanabilirlik ko ullar n yerine getirebilmek ve tek bir ˆ vektörünü elde edebilmek amac yla en az bir tane sürekli aç klay c de!i kenin varl ! na ihtiyaç duyulmaktad r. Ayr ca hata teriminin da! l m fonksiyonu için bir varsay m yap lmad ! ndan dolay modelde sabit terim ortadan kalkmakta ve { ’lar n tan mlanabilirli!i için gerekli olan sürekli aç klay c de!i kenin katsay s “1” e normalle tirilmektedir [9,10]. 2.3. Uniform güven bantlar: Çal mada, parametrik lojistik regresyon modelinin geçerlili!i, olu turulan UGB’nin alt ve üst limitleri dikkate al narak test edilmi tir. Parametrik modelin ba! fonksiyonunun güven bölgesinde uzanmas durumunda veri kümesi için uygun oldu!u sonucuna ula l r. Her bir x noktas ndaki parametrik olmayan regresyon tahmini m ( x ) için UGB a a! daki biçimde tan mlanmaktad r [8]. / 5 P 0m̂ h ( x ) z n , S 51 Q̂ 2h K 2 2 n h f̂ h ( x ) ! m ( x ) ! m̂ h ( x ) + z n , S ; 5 < #1 S n h f̂ h ( x ) 5 = Q̂ 2h K 2 2 (16) Burada, 1/ 2 K 2 2 = . [K (s)] ds ; z n , S 2 / ; 1 log (1 S ) 5 log 5 2 5 5 =0 + d n< 1/ 2 (2 ‚ log n ) 5 5 51 5= (17) ve d n = (2 ‚ log n )1 / 2 ' 1 K 2 1/ 2 log + (2 ‚ log n ) 2ƒ K 2 1/ 2 (18) 184 biçimindedir. h, parametrik olmayan m ( x ) tahmini için gerekli olan optimal bant geni li!ini, Q̂ 2h , m̂ ( x ) ’in tahmin edilen varyans n , K, keyfi bir çekirdek fonksiyonunu, K ' , K’n n birinci dereceden 2 k smi türevini ve K 2 , K’n n ikinci dereceden normunu göstermektedir. Q̂ 2h ( x ) = x x 1 n "K i n i=1 h n "K i =1 {y i xi m̂ h ( x )} 2 (19) x h m ( x ) , ko ullu ortalama fonksiyonunun x noktas ndaki parametrik olmayan tahminini vermektedir. Bu tahmin yöntemi yar parametrik yakla m n ikinci ad m n olu turmakta ve olas l k tahminleri için kullan lmaktad r [5,8,9]. 3. Say sal örnek Çal man n uygulama bölümü iki a amadan olu maktad r. Birinci bölümde, parametrik lojistik regresyon modelinin geçerlili!i test edilmi tir. Veri kümesinde yer alan de!i kenlerin tümü sürekli oldu!undan dolay test için olu turulan XploRe kodlar nda parametre tahminleri için YAOTT kullan lm t r. Bu bölüm uygun modelin belirlendi!i bölümdür. kinci bölümde, belirlenen uygun modele göre tahminler yap lm ve ba! ml de!i kene etki eden önemli faktörler belirlenmi tir. 3.1. Veri Mide kanseri olan 95 hasta üzerinden yap lan çal mada, Akku (2008) taraf ndan olu turulan XploRe kodlar kullan larak veri kümesi için parametrik lojistik regresyon modelinin uygun olup olmad ! belirlenmi tir [6]. Uygun modele göre tahminler yap larak sonuçlar yorumlanm t r. Çizelge 1. Kullan lan de!i kenler ve düzeyleri De<i!ken De<i!ken Ortalamalar ( x ± standart hata) n (%) YAr (YIL) 56.3736 ± 1.2388 - SÜRE 23.5433 ± 1.6425 - HEMOGLOB N 11.7412 ± 0.2264 - CEA 4.9237 ± 1.2493 - BAoIMLI DEo rKEN (Y) (0) Ya yor 61 (64.2) (1) Ölü 34 (35.8) Ya , Tedavi Süresi, Hemoglobin Düzeyi ve Cea Serum miktar n n aç klay c de!i kenler olarak belirlendi!i çal mada, hastan n “Ölü” olmas na etki eden faktörler belirlenmi tir. 185 3.2. Parametrik lojistik regresyon modelinin geçerlilik testi Parametrik lojistik regresyon modelinin kullan lan veri kümesi için uygunlu!unu test eden güven bant grafi!i rekil 1’de verilmektedir. YAOTT için optimal bant geni li!i h = 0.46814 olarak bulunmu tur. rekilde siyah düz çizgi parametrik olmayan regresyon tahmini m ( x ) ’i; kesik iki mavi çizgi alt ve üst güven bant limitlerini; k rm z halkalar ise parametrik lojistik regresyon modelinden elde edilen olas l k tahminlerini grafiklemektedir. Grafik incelendi!inde, k rm z halkalar n alt ve üst güven limitlerinin d nda kald ! görülmekte ve veri kümesi için parametrik lojistik regresyon model varsay mlar n n geçerli olmad ! sonucuna ula lmaktad r. Bu veri kümesi için alternatif bir tahmin yönteminin kullan lmas önerilmektedir. Yar parametrik model tahmini alternatif yöntemlerden birisidir. Bekil 1. Lojistik regresyon modelinin testi için uniform güven bant grafi!i 3.3.Yar: parametrik model tahmini sonuçlar: Model parametrelerinin yar parametrik tahmini için Altbölüm 2.2.2’de verilen KS tahmin edicisi kullan lm t r. Tahminler optimal bant geni li!i h = 0.46814 ve lojistik çekirdek fonksiyonuna göre elde edilmi tir. Parametrelerin tan mlanabilirlik ko ullar n yerine getirebilmek amac yla sürekli bir de!i kenin katsay s n n “1” e normalle tirilmesinin gereklili!i daha önce belirtilmi ti. Burada farkl normalle tirmeler yap larak sonuçlardaki de!i imler incelenmi tir. Çizelge 2’de s ras yla “CEA”, “HEMOGLOB N”, “SÜRE” ve “YAr” de!i kenlerinin katsay lar n n “1” e normalle tirilmesiyle elde edilen sonuçlar verilmi tir. Ayr ca hata terimi için herhangi bir da! l m varsay m , dolay s yla herhangi bir merkezlenme varsay m yap lmad ! ndan dolay bu yakla mda sabit terim de tahmin edilmemektedir. Çizelgede katsay lar normalle tirilen ve tahmini yap lamayan de!i kenler sabit parametre olarak belirtilmi tir. Çizelge 2 incelendi!inde, CEA de!i keni normalle tirildi!inde SÜRE; HEMOGLOB N ve SÜRE de!i kenleri normalle tirildi!inde YAr de!i keninin istatistiksel olarak önemli bulundu!u; YAr de!i keninin normalle tirildi!i durumda ise önemli bulunan bir de!i ken olmad ! gözlenmi tir. Bu durumda yar parametrik modellemede dikkat edilmesi gereken di!er bir önemli nokta, katsay s normalle tirilecek sürekli de!i kene karar verme a amas d r. Bu karar çal lan konuya ve ara t rma sonucunda istatistiksel olarak etkisi ara t r lan de!i kenlere göre belirlenmelidir. Burada örnek olmas bak m ndan CEA de!i keninin katsay s n n normalle tirildi!i 1.tahmin sonuçlar yorumlanm t r. 186 Çizelge 2. KS parametre tahminleri Parametre tahmini Standart hata ( {ˆ ) (Sh) De<i!ken {ˆ Sh p-de!eri Odds oran 1. TAHM N SONUÇLARI YAr 0.00069450 0.04921948 0.014 0.9887 1.00069474 SÜRE -0.07208389 0.03638445 -1.981 0.0476* 0.93045284 HEMOGLOB N 0.11747370 0.23470919 0.501 0.6167 1.12465205 CEA 1.0 Sabit parametre --- --- --- Sabit Terim 0.0 Sabit parametre --- --- --- 2. TAHM N SONUÇLARI CEA 0.03768289 0.02912038 1.294 0.1957 1.03840190 YAr -0.19440554 0.06555742 -2.965 0.0030* 0.82332395 SURE 0.01635433 0.04835433 0.338 0.7352 1.01648880 HEMOGLOB N 1.0 Sabit parametre --- --- --- Sabit Terim 0.0 Sabit parametre --- --- --- 3. TAHM N SONUÇLARI HEMOGLOB N 0.63695409 0.61382255 1.038 0.2994 1.89071315 CEA -0.01632048 0.38911277 -0.042 0.9665 0.98381198 YAr 0.22116445 0.06964147 3.176 0.0015* 1.24752857 SÜRE 1.0 Sabit parametre --- --- --- Sabit Terim 0.0 Sabit parametre --- --- --- 4. TAHM N SONUÇLARI SÜRE -0.10084387 0.11650667 -0.866 0.3867 0.90407417 HEMOGLOB N 0.16270510 0.41635434 0.391 0.6960 1.17668963 CEA 0.05232328 0.23504822 0.223 0.8238 1.05371633 YAr 1.0 Sabit parametre --- --- --- Sabit Terim 0.0 Sabit parametre --- --- --- * =0.05 yan lma düzeyinde anlaml Parametre Tahminleri CEA normalle tirmesine göre sonuçlar incelendi!inde, SÜRE de!i keninin katsay s n n kritik bir noktada olmas na ra!men 0.05 yan lma düzeyinde anlaml oldu!u görülmü tür (p=0.0476<0.05). Tahmin edilen katsay s n n negatif olmas ise (-0.07208389) tedavi süresi artt kça mide kanseri olan hastalar n “Ölü” olma ihtimallerinin azalaca! n ortaya ç karmaktad r. Di!er de!i kenler istatistiksel olarak önemli bulunmam t r. 187 Odds Oran statistiksel olarak anlaml bulunan SÜRE de!i keni için odds oran yakla k olarak 0.930’dur. (0-1) aral ! nda olmas nedeniyle yorumu daha anla l r yapmak amac yla bu de!erin tersi al nd ! nda (1.075269) de!eri elde edilir. Bu durumda sonuçlar n yorumu için ba! ml de!i kende kodlanan kategorilerin de yer de!i tirmesi gerekir. Odds oran n n 1’e yak n olmas SÜRE de!i keninin ba! ml de!i kenin düzeyleri aras nda çok önemli bir farkl l !a neden olmad ! anlam na gelmektedir. Zaten bu de!i kenin istatistiksel olarak kritik bir noktada anlaml bulundu!u daha önce belirtilmi ti. Bulunan odds oran de!eri yorumland ! nda, tedavi süresindeki 1 ayl k bir art n hastan n ya ama ihtimalini yakla k 1.08 kat art rd ! söylenebilir. 4. Sonuç ve öneriler Parametrik modelleme uygulamal çal malarda s kl kla kullan lmaktad r. Bunun ba l ca nedeni model ile ilgili olarak yap lan varsay mlar n modelleme sürecini kolayla t rmas d r. Ancak, model varsay mlar n n geçerlili!i test edilmeden elde edilen sonuçlar n veri ile ilgili do!ru tahminler verdi!i üphelidir. Bu nedenle parametrik model varsay mlar n n geçerlili!inin test edilmesi önemlidir. Parametrik model varsay mlar n n sa!lanmamas durumunda alternatif tahmin yöntemlerinin kullan lmas gerekir. Parametrik modellemeye göre daha az varsay m gerektirmesinden dolay yar parametrik yakla m bu alternatif yöntemlerden birisidir. Bu çal mada ilk olarak, ba! ml de!i kenin iki düzeyli kategorik bir de!i ken olmas durumu için yayg n olarak kullan lan parametrik lojistik regresyon model varsay mlar n n geçerlili!i test edilmi tir. Bu test, Uniform Güven Bantlar üzerine kurulu olarak Akku ve Tatl dil (2008) taraf ndan XploRe yaz l m n n windows tabanl yeni versiyonunda olu turulan kodlar kullan larak yap lm t r. Uygulama, mide kanseri olan 95 hasta üzerinden gerçekle tirilmi tir. Sonuçlar, parametrik lojistik regresyon modelinin veri için uygun olmad ! ve alternatif yar parametrik yakla m n kullan lmas n n daha do!ru olaca! yönündedir. Çal man n ikinci bölümünde ilk bölümde elde edilen sonuçlar do!rultusunda veri, yar parametrik yakla mla modellenmi , ba! ml de!i kende “1” olarak kodlanan hastan n “Ölü” olmas na etki eden önemli faktörler belirlenmeye çal lm t r. Parametre tahminleri, dört farkl katsay normalle tirmesine göre Klein ve Spady’nin yar parametrik en çok olabilirlik fonksiyonunun maksimizasyonu ile elde edilmi tir. Örnek olmas bak m ndan CEA de!i keninin normalle tirilmesi ile elde edilen sonuçlar yorumlanm t r. Bu normalle tirme sonucunda SÜRE de!i keni istatistiksel olarak anlaml bulunan tek de!i kendir. Bu de!i ken ile ilgili olarak katsay ve odds oran yorumlar yap lm t r. Böylece yar parametrik yakla m n uygulanabilirli!i de gösterilmi tir. Yar parametrik yakla mla elde edilen sonuçlar n yorumu parametrik lojistik regresyon modeli ile elde edilen sonuçlardan farkl de!ildir. Buradaki ba l ca amaç, veri için en uygun modeli belirleyerek do!ru tahminler ve do!ru yorumlar yapabilmektir. Anahtar sözcükler: Yar parametrik model; Lojistik regresyon; XploRe. Kaynaklar [1] A. Agresti, (1990), Logistic Regression, In: An Introduction to Categorical Data Analysis. 1st. ed., John Wiley&Sons, New York, 103-144. [2] Ö. Akku , (2008), Tek ndeks Modellerinde Yar Parametrik Yakla mlar, Doktora Tezi, Hacettepe Üniversitesi Fen Bilimleri Enstitüsü, Ankara, 98s. [3] T. Amemiya, (1981), Qualitative Response Models: A Survey, Journal of Economic Literature, 19, 1483-1536. [4] W.H. Greene, (2000), Econometric Analysis, New York University, Prince Hall, New Jersey 07458, 1004p. 188 [5] W.Hardle, M. Müller, S. Sperlich, A. Werwatz, (2004), Nonparametric and Semiparametric Models, Springer-Verlag, New York. [6] W. Hardle, Z. Hlavka, S. Klinke, (2003), XploRe Application Guide, e-book. MD Tech, Springer-Verlag, New York. [7] W. Hardle, T.M. Stoker, (1989). Investigating Smooth Multiple Regression by the Method of Average Derivatives, Journal of the American Statistical Association, 84, 986-995. [8] J.L. Horowitz, (1998), Semiparametric Methods in Econometrics, Springer-Verlag, New York. [9] W. Klein, R.H. Spady, (1993), An Efficient Semiparametric Estimator for Binary Response Models, Econometrica, 61, 387-421. [10] W. Lin, (2006), Statistical Inference for Single Index Model, A Dissertation Presented to the Graduate School of Clemson University, UMI Number: 3215795. [11] P.McCullagh, J.A. Nelder, (1989), Generalized Linear Models, Monographs on Statistics and Applied Probability, Chapman and Hall, No:37, London. [12] J.L. Powell, J.H. Stock, T.M. Stoker, (1989), Semiparametric Estimation of Index Coefficients, Econometrica, 57, No:6, 1403-1430. [13] I. Proença, A. Werwatz, (1994), Comparing Parametric and Semiparametric Binary Response Models, Sonderforschungsbereich 373, 36, Humboldt Universitaet, Berlin. 189 Bulan k risk s n fland rma Ay!en Apayd n Furkan Ba!er Nuray Güneri Tosono<lu Ankara Üniversitesi, Fen Fakültesi, statistik Bölümü 06100-TandoGan, Ankara, Türkiye Gazi Üniversitesi, TTEF, Bilgisayar Uyg. EGt. Bölümü 06830-Gölba#:, Ankara, Türkiye Gazi Üniversitesi, TTEF, Bilgisayar Uyg. EGt. Bölümü 06830-Gölba#:, Ankara, Türkiye apaydin@science.ankara.edu.tr fbaser@gazi.edu.tr nguneri@gazi.edu.tr Özet Sigortalanan riskin benzer özelliklerine, hasar üretme ihtimaline ve bu hasarlar:n büyüklüGüne göre kategorize etme i#lemi olarak ifade edilebilecek risk s:n:fland:rma aktüerya biliminin temel konular:ndan biridir. Bu çal:#mada, hayat sigortalar:nda bireyleri, bulan:k kümeler ile tan:mlanacak sistolik kan bas:nc: ve kolesterol düzeyi, obezite ve sigara al:#kanl:klar: biçiminde belirlenen kardiyovasküler risk faktörlerine göre s:n:fland:rmak üzere bulan:k ç:kar:m sistemleri kullan:lacakt:r. Bu amaçla, imtiyazl: risk grubu, normal veya kabul edilebilir risk grubu, standart olmayan risk grubu ve kabul edilemez risk grubu biçiminde bir s:n:fland:rma kullan:lacak ve bulan:k ç:kar:m sistemleri sonucunda kesin ç:kt: deGeri olarak bir risk yüklemesi elde edilecektir. Anahtar sözcükler: Sigorta; Hayat sigortas:; Risk s:n:fland:rma; Bulan:k mant:k, Bulan:k ç:kar:m sistemleri. Abstract Fuzzy risk classification Risk classification, which can be defined as to categorize insured risks according to their probability of generating claims and according to the size of those claims, is one of the most important topic in actuarial science. In this paper, we investigate an alternative method of classifying risks in life insurance, based on the concept of fuzzy inference systems. We differentiate policyholders on the basis of their blood pressure, levels of cholesterol, obesity and smoking behaviour, former three of which are handled as fuzzy variables. Four categories of group are considered: preferred risk, normal or acceptable risk, substandard risk and unacceptable risk. According to these groups, we determine risk loading and the gross premium paid by the insured. Keywords: Insurance; Life insurance; Risk classification; Fuzzy logic; Fuzzy inference systems. 1. Giri! Aktüerya bilimi, belirsizlik durumunda sigorta prim ve rezervlerini tespit etmek amac yla her türlü risk ölçüm ve hesaplamalar n kapsamaktad r. Ba ta enflasyon olmak üzere ekonomik etkiler, sigorta irketindeki üretimin niteli!i ve kapasitesi, mevzuat, sosyal ve politik etkenler, irketin risk kabul politikalar , poliçe ve ürün özellikleri gibi belirsizli!i art racak yönde geli en birçok iç ve d faktörün etkisinden dolay hesaplamalar daha karma k ve uzmanl k düzeyinde analiz gerektiren bir olgu haline gelmektedir. Bu nedenle, önemli ölçüde öznel yarg lar gerektiren, bilginin yetersiz ve belirsiz oldu!u problemlerin modellenmesinde bulan k teori uygun ve elveri li bir araç haline gelmektedir. Bulan k mant ! n sigorta ara t rmalar na temel te kil edecek çok say da potansiyel uygulama alan mevcuttur. Klasik aktüeryal metodolojiler genel anlamda olas l k modelleri üzerine kurulmu ve ço!unlukla sigorta irketinin kat düzenlemeleri ile kullan lm t r. Son y llarda k s tlay c artlar n 190 azalmas ve küresel rekabet bu alanda esnek hesaplama yöntemlerini içeren yeni metodolojilerin kullan m na kap lar n açm t r. Bulan k küme metodolojisinin aktüerya bilimine do!rudan uyguland ! ilk çal ma DeWit [4] taraf ndan yap lm t r. Bu çal mada, sigortalama öznel bir durum olarak de!erlendirilmi ve sigortalama sürecinde, olas l k teorisi ile tam anlam yla aç klanamayan bir belirsizli!in hakim oldu!u vurgulanm t r. Bulan k uzman sistemlerin, bireysel sigortalama problemine uygulanabilece!i gösterilmi tir. O zamandan beri bulan k mant ! n, risk s n fland rma, sigortalama, yükümlülükler tahmini, bugünkü ve gelecek de!er hesab , poliçe de!erleme, varl k tahsisi, yat r mlar ve nakit ak konular nda uygulamalar dikkate de!er geli meler göstermi tir. Lemaire [8], hayat sigortalar nda imtiyazl poliçe sahibi için bir esnek tan mlama geli tirmek amac yla bulan k uzman sistemlerini kullanm t r. Çal man n sigortalama literatürüne üç farkl katk s vard r. Bunlardan ilki, sürekli üyelik fonksiyonlar n n kullan lm olmas ; ikincisi, Hamacher ve Yager operatörleri kullan larak bulan k kümelerde arakesit operatörünün tan m n n geni letilmi olmas ; üçüncüsü ise minimum operatörü ile bir karar kural n sadele tirmek amac yla S–kesimin nas l uygulanaca! n n gösterilmi olmas d r. Young [14], grup sa!l k sigortas için model seçim sürecinde bulan k uzman sistemleri kullanm t r. lk olarak tek plan sigortalama ele al nm daha sonra çal ma çoklu seçenekli planlar için geni letilmi tir. Tek plan durumunda, son iki y lda gruptaki ya ve cinsiyet faktörlerinin de!i im özellikleri, grup büyüklü!ünün de!i imi, gruptaki sigorta miktar ve kapsam nda çal anlar n oran , prim miktarlar n n içinde çal an ve i verenlerin oran gibi baz bulan k girdi özellikleri ele al nm t r. Sigortalama, sigortalanabilir risklerin seçimi ve s n fland r lmas sürecidir. Hayat sigortalar nda; özel artlar, durumlar ve primler gibi sigorta poliçesi ö!elerinin sigortalanan riske uygunlu!u sigorta irketi ve sigortalanan aç s ndan büyük öneme sahiptir. Sigortac , mevcut risklere uygun prim oranlar nda mümkün oldu!unca çok sigorta ba vurusu kabul ederek prim gelirlerini maksimize etme aray içerisindedir. Her bir bireyin ortak havuzda birbirlerinden farkl bulan k risk karakteristikleri mevcuttur [3, 7, 8]. Bu çal mada, hayat sigortalar nda bireyleri, bulan k kümeler ile tan mlanacak sistolik kan bas nc ve kolesterol düzeyi, obezite ve sigara al kanl klar biçiminde belirlenen kardiyovasküler risk faktörlerine göre s n fland rmak üzere bulan k ç kar m sistemleri kullan lacakt r. Bu amaçla, imtiyazl risk grubu, normal veya kabul edilebilir risk grubu, standart olmayan risk grubu ve kabul edilemez risk grubu biçiminde bir s n fland rma kullan lacak ve bulan k ç kar m sistemleri sonucunda kesin ç kt de!eri olarak bir risk yüklemesi elde edilecektir. 2. Bulan k Mant k Bulan k mant k, temelleri Aristo mant ! na dayanan ikili mant k sistemine kar geli tirilen ve günlük hayatta kar la lan de!i kenlere üyelik dereceleri atayarak olaylar n hangi oranlarda gerçekle ti!ini belirlemeye çal an bir çoklu mant k sistemidir. Ba l ca yard m belirsiz bilgiyi temsil edebilme yetene!idir. Bulan k mant ! n geçerli oldu!u durumlardan ilki, incelenen olay n çok karma k olmas ve bununla ilgili yeterli bilginin bulunmamas durumunda ki ilerin görü ve de!er yarg lar na yer verilmesi, ikincisi ise insan kavray ve yarg s na gerek duyan durumlard r. nsan dü üncesinde say sal olmasa bile belirsizlik, yararl bir bilgi kayna! d r. Bu tür bilgi kaynaklar n n, olaylar n incelenmesinde özgün bir biçimde kullan lmas na bulan k mant k ilkeleri yard mc olmaktad r [1]. Bulan k mant ! n önemli bir parças olan sözel de!i kenler; de!erleri, kelimeler ve cümleler ile tan mlanan de!i kenler biçiminde ifade edilir. Örne!in, risk kapasitesi hem [0, 100%] aral ! nda de!i en bir say sal de!er olarak hem de yüksek, çok yüksek vb. gibi de!erler alan bir sözel de!i ken 191 olarak ele al nabilir. Burada tan mlanan her bir sözel de!er, X = [0, 100%] evrensel kümesinde yer alan bir bulan k alt kümenin etiketi olarak yorumlanabilir. Bulan k kümeler, kümedeki her bir elemana s f r ile bir aras nda de!i en üyelik derecesi atayan bir üyelik fonksiyonu ile karakterize edilirler. Söz konusu fonksiyon evrensel kümenin elemanlar n belirli bir aral ktaki reel say lara kar l k getirerek elemanlar aras ndaki derecelendirmeyi gerçekle tirmektedir. Bulan k küme teorisinin üyelikten, üye olmamaya dereceli geçi i ifade etmesindeki yetene!i, belirsizli!in ölçülmesinde güçlü ve anlaml araçlar sunmakta ve do!al dilde ifade edilen belirsiz kavramlar n anlaml bir ekilde temsilini de vermektedir. rekil 1 ile verilen, yüksek risk kapasiteli mü terilere ili kin bir bulan k küme örne!inde, risk kapasitesi %50 ve %50’den dü ük olan ki ilere üyelik derecesi s f r, risk kapasitesi %80 ve %80’den yüksek olan ki ilere üyelik derecesi bir olarak atanm t r. (50%, 80%) aras nda de!i en risk kapasitesi için üyelik derecesi ise bulan kt r. Bulan k Yüksek 1 µ Yüksek ( x ) 0 10 20 30 40 50 60 70 80 90 100 x Risk Kapasitesi (%) Dü ük Bekil 1. Yüksek risk kapasiteli mü terilere ili kin bir bulan k küme örne!i 2.1. Bulan:k kümeler Kümeler, temel matematik ve mant k kavramlar n n esaslar n te kil etmektedir. ncelenen bir olay n veya verilen bir problemin sonucunda ula labilmesi mümkün olabilirlikler toplulu!una küme ve bu kümeyi olu turan nesnelere ise kümenin elemanlar ad verilmektedir. Üzerinde çal lan kümelerin her birini alt küme olarak kabul eden ve en geni küme olan evrensel kümedeki nesnelerin ortak özelliklerine göre bir araya getirilmesi i lemi geleneksel küme yakla m olarak de!erlendirilir. Geleneksel küme teorisinde kesin s n rl küme kavram kullan l r. Bu kavram bir nesnenin, bir kümenin eleman olmas ya da olmamas gibi iki seçenekli bir mant !a dayanmaktad r. Bir çe it çok de!erli küme kuram olan bulan k küme kuram , belirsizli!in bir çe it formülle tirilmesidir. Fakat i lemleri, di!er küme kuramlar ndan farkl l klar gösterir. Kümedeki her bir birey, klasik çift de!erli küme kuramlar nda oldu!u gibi üye ya da üye de!il olarak de!il, bir dereceye kadar üye olarak görülür. Bulan k kümelerde üyelik dereceleri aras ndaki geçi yumu ak ve sürekli bir ekilde olmaktad r. Ö!eler bulan k kümeye k smi derecede aittir. Bulan k kümelerde; klasik kümelerdeki karakteristik fonksiyon, µ A : X * {0,1}, yerini üyelik fonksiyonuna b rak r. Bu da; µ A : X * [0, 1] biçiminde gösterilir. Bulan k küme de!i ik üyelik derecesinde ö!eleri olan bir topluluktur. Klasik küme teorisindeki siyahbeyaz ikili üyelik kavram n k smi üyelik kavram na genelle tirir. Burada “0” de!eri üye olmamay , “1” de!eri tam üye olmay belirtirken (0, 1) aral ! ndaki de!erlerde k smi üyelik kavram na kar l k gelir. Bulan k küme, bir nesne ve bu nesnenin ilgili kümeye üyelik derecesini gösteren A = {(x, µ A ( x) ) x 7 X } eklindeki s ral çiftlerle ifade edilir. E!er X kümesi, {x1 , x 2 ,..., x n } eklinde 192 kesikli bir küme ise, bir bulan k A kümesi, A = {" µ A ( xi ) / xi } olarak gösterilir. Bulan k kümenin sürekli olmas durumunda gösterim, A = {. µ A ( xi ) / xi } biçiminde olacakt r [1]. 2.2. Bulan:k ç:kar:m sistemi Klasik matematiksel modellerle kesin say sal i leme yaln zca parametreler ve girdiler do!ru olarak bilindi!i zaman yap labilir. Bu çok rastlanan bir durum olmad ! ndan, uygulamada sadece verileri de!il ayn zamanda bununla ilgili belirsizli!i de yeterince i leyebilen bir modelleme çat s gerekir. Stokastik yakla m, belirsizli!i de!erlendirmede klasik bir yoldur. Bununla beraber tüm belirsizlik tipleri de rasgelelik çat s içerisinde de!erlendirilemez. Bulan k mant k ve bulan k küme teorisi bu konuda bir alternatif önermektedir [1]. Sözel bilgilerin say sal hale getirilip, bilgisayarlar ve algoritmalar taraf ndan alg lanarak hesaplamalar n yap labilmesi için bulan k sistemlere ihtiyaç duyulmaktad r. Bulan k ç kar m sistemi; bulan k küme teorisi, bulan k e!er-ise kurallar ve bulan k mant k kavramlar na dayanan bir hesaplama sistemidir. Bu mant k prosedürü, tüm kurallardan kümelenen bilgilere dayanan ç kt de!erlerini türetir [2, 13]. rekil 2’de bir bulan k ç kar m sisteminin genel yap s görülmektedir. Gerçek Problem EYLEM Bulan k Kural Taban Kesin Ç kt : G RD Bulan kla t r c Bulan k girdi Bulan k Ç kar m Motoru Bulan k ç kt Durula t r c Bekil 2. Bulan k ç kar m sisteminin genel yap s rekil 2’de görülen bulan k sistemin bile enleri a a! da tan mlanm t r [1,13]. Genel bilgi taban birimi, incelenecek olay n etkilendi!i girdi de!i kenlerini ve bunlar hakk ndaki say sal ve/veya sözel tüm bilgileri içeren bile endir. Bulan kla!t rma arayüzü, kesin girdi de!erlerini bulan k de!erlere çevirir. Bunun için girdi de!erlerini al r, girdi de!i ken aral ! n n uygun evrensel kümeye dönü türülmesini sa!lar ve girdi verilerini uygun sözel de!erlere (bulan k kümeler) dönü türür. Bulan k kural taban birimi, veri taban nda giri leri ç k de!i kenlerine ba!layan mant ksal e!er-ise türünde yaz labilen kurallar n tümünü içeren bile endir. Bu kurallar n yaz lmas nda sadece girdi verileri ile ç kt lar aras nda olabilecek tüm bulan k küme ba!lant lar dü ünülür. Böylece her bir kural girdi uzay n n bir parças n ç kt uzay na mant ksal olarak ba!lar. A i , Bi ve C i bulan k alt kümelerinin üyelik fonksiyonlar s ras yla µ A i , µ B i , µ C i olsun. Genel bir bulan k e!er-ise kural ; Ki: E!er ” x A i dir” ve ” y B i dir” ise, ” z C i dir” 193 i = 1,2,…, n (1) biçiminde olu turulur. ”E!er” ile ”ise” kelimeleri aras nda bulunan k sma öncül veya ön artlar, ”ise” kelimesinden sonra gelen k smada soncul veya ç kar m ad verilir. Bulan k ç kar m motoru birimi, bulan k kural taban nda giri ve ç k bulan k kümeleri aras nda kurulmu olan parça ili kilerin hepsini bir arada toplayarak sistemin bir ç k l davranmas n sa!layan i lemler toplulu!unu içeren bile endir. Her bir kural n ç kar mlar n bir araya toplayarak tüm sistemin nas l bir ç kt verece!inin belirlenmesine yarar. Durula!t rma arayüzü, bulan k i lemler sonucu elde edilen bulan k ç kar m sonuçlar n kesin say sal ç kt de!erlerine dönü türen bile endir. Ç kt birimi, bilgi ve bulan k kural tabanlar n n bulan k ç kar m motoru arac l ! ile etkile imi sonucunda elde edilen ç kt de!erlerinin toplulu!unu belirten birimdir. Bulan k e!er-ise kurallar ve kümeleme yöntemlerinin farkl çe itleri, farkl ç kar m sistemlerinin olu mas n sa!lamaktad r. Sonuç biçimine göre genel olarak üç tip kurala dayal bulan k model ay rt edilmektedir. Bunlar sözel bulan k model (Mamdani yöntemi), bulan k ba! nt sal model ve Takagi Sugeno Kang modelidir. Sözel bulan k modelde, hem öncül hem de soncul bulan k önermedir. Bulan k ba! nt sal model, sözel bulan k modelin öncül ile soncul aras ndaki terimler bulan k ba! nt olacak ekilde genelle tirilmi biçimidir. Takagi Sugeno Kang bulan k modelinde ise öncül bulan k önerme ve soncul da kesin fonksiyondur [1]. Mamdani yöntemi, bulan k içerme i lemcisi olarak EK i lemcisini, bile ke i lemcisi olarak da EBEK’y kullan r. Bulan k kurallar (1) ile verildi!i gibi olsun. Girdi verisi x = x 0 ve y = y 0 gibi bir kesin say oldu!unda A i ve Bi e le me derecesi s ras yla µ A i ( x0 ) ve µ B i ( y 0 ) dir. Bundan dolay , Ki kural n n e le me derecesi; i = µ A i ( x0 ) J µ B i ( y 0 ) (2) dir. C Hi , Ki kural n n sonucu oldu!unda; µ C 'i ( z) = i J µ C i ( z) (3) dir ve toplam sonuç C H bireysel denetim kurallar ndan türer; µ ( z) C' n = K[ i =1 i J µ C i ( z )] (4) n C H = U C Hi (5) i =1 3. Hayat Sigortalar nda Risk S n fland rma 3.1. Risk seçim ve s:n:fland:rmada amaç Sigorta irketleri mü terilerine yani poliçe sahiplerine, mevcut veya gelecekte ortaya ç kabilecek talepleri için ödeme taahhüdünde bulunurlar ve mü teriler de bu taahhütlerin zaman nda ve düzgün ekilde kar lanmas n beklerler. Ancak sigortac l k temelde bir risk i i oldu!u için, önceden öngörülemeyen risklerin ortaya ç kmas durumunda irketlerin kaynaklar yükümlülüklerini 194 kar lamada yetersiz kalabilmektedir. te bu nedenle, poliçe sahiplerinin menfaatlerini korumak amac yla, sigorta irketlerinin mali yap lar n n yeterince güçlü olmas gerekmektedir. Sigorta planlar nda, poliçe sahiplerinin farkl s n flar aras nda adaleti koruyabilmek amac yla; her bir sigortalanan birey mü terek fona maruz kalabilece!i risklere ili kin kay plar ölçüsünde katk da bulunurlar. E!er bir bireye mevcut katk s ndan daha az ödeme yapmas na izin verilirse, bu di!er bireylerin ödemelerinin a r yüklenmesine neden olur. Bu a amada sigorta irketinin görevi, mevcut riski dikkatli bir biçimde s n fland rmak ve poliçe sahiplerine adaletli prim borcu yüklemektir. Genel olarak; risk seçim ve s n fland rman n amac , hem sigorta irketi hem de sigortalanan aç s ndan kabul edilebilir prim oranlar n n belirlenmesi biçiminde aç klanabilir [7]. 3.2. Hayat riskini etkileyen faktörler Poliçe sahipleri aras nda prim oranlar aç s ndan adaletli olmak ve sigorta plan n n mali yeterlili!inin sürdürülebilmesi amac yla; risk s n fland rma sürecinde sigorta irketi, hayat riskini etkileyen baz faktörlerin üzerinde önemle durmas gerekmektedir. Bu faktörler do!rultusunda sa!lanan bilgiler, sigorta irketine mevcut riskin büyüklü!ünün ve kapsam n n belirlenmesinde yard mc olacakt r. Bu faktörlerden önemlileri sigorta ba vurusu yapan bireylerin ya , fiziksel yap s , aileden gelen özellikleri, sa!l k özgeçmi i, mesle!i, al kanl klar ve cinsiyeti olarak verilebilir [7, 11]. 3.3. Klasik s:n:fland:rma yöntemleri Hayat sigortalar nda bireylerin mevcut sigortalama bilgilerinin toplanmas n n ard ndan; veriler de!erlendirilmeli ve ba vuru sahibinin standart risk grubu olarak kabul edilip edilemeyece!i, kabul edilebilir fakat standart olmayan risk grubunda yer almas gerekti!i veya sigorta ba vurusunun tamam yla red edilmesi gerekti!i kararlar n verebilmek üzere risk s n fland rma yöntemleri geli tirilmi tir. Sigorta irketleri taraf ndan kullan lan risk de!erlendirme ve s n fland rma sistemleri, Hayat riskini etkileyen her bir faktörün etkisini do!ru ölçmeli, Birbirleri ile ili kili veya çeli en faktörlerin birlikte etkilerini de!erlendirmeli, Yans z sonuçlar üretmeli, Basit ve kullan l olmal d r [11]. 3.3.1 Yarg:sal derecelendirme yöntemi Yarg sal derecelendirme yöntemini kullanan sigorta irketi t bbi, aktüeryal veya ilgili di!er alanlarda uzman ki ilerin birlikte verece!i yarg lar na ba! ml d r. Bu yöntem, bir karma k risk faktörü oldu!unda ve sadece bireylerin standart risk grubuna dahil edilmesi veya ba vurunun tamam yla red edilmesi kararlar n vermek üzere kullan l bir yöntemdir. Baz lar birbirleri ile çeli en çoklu karma k risk faktörleri oldu!unda standart olmayan risk s n fland rmas n n da kullan lmas gereklidir. Yarg sal derecelendirme yönteminin bu gibi zay f yönlerinin olmas nedeniyle say sal derecelendirme sistemi önerilmi tir. 3.3.2 Say:sal derecelendirme sistemi Say sal derecelendirme sistemi, hayat riskine etki eden birçok faktörün riskin kompozisyonuna dahil edilmesi ve bu faktörlerin istatistiksel incelemeler do!rultusunda belirlenmesi prensibine dayal bir yöntemdir. Bu plana göre 100% (baz de!eri), fiziksel, manevi olarak ve finansal aç dan sa!lam bireylerin içerildi!i standart veya normal risk grubunu temsil etmektedir. Bu yöntemde, belirlenen faktörlerin bireyin hayat riskine muhtemel etkileri borç ve alacak biçiminde sisteme kaydedilir. Her bir faktörün etkilerine ili kin bu kaydedilen de!erler, baz risk karakteristikleri ve bilgileri aç s ndan benzer özelliklere sahip gruplar içinde ölüm oran incelemeleri neticesinde yarg sal olarak belirlenir. Böylece ba vuranlar için genellikle 75-500 aras nda bir da! l m meydana gelir. Bu da! l mda 75-125 195 aras nda kalan ki iler sigortalanacak riskin kabul edilebilir limitleri içerisinde kald ! varsay larak sözle me yap l r. Derecelendirme yap ld ktan sonra sigorta ba vurular n n sigorta maliyetlerinin saptanmas için oranlar belirlenir. Bu oranlar n, i letmenin sigortalamay kabul etti!i riskten do!acak zararlar ödemeye yetecek kadar yüksek olmas gerekir. Fiyat n gerekti!inden çok yüksek tutulmas da talebi azaltarak, büyük say lar kanununun i lemesine yeterli say da birimin bir araya getirilememesi sonucunu do!urur. Böylece riskin olas de!erinin gerçek de!erine yak n olarak tahmin edilmesi ans azal r [11]. Örne!in, 35 ya nda bir ki i 30 y ll k karma hayat sigortas na ba vursun. Sigorta irketinin elde etti!i bilgilere göre ki inin boy uzunlu!u 175 cm ve a! rl ! 93 kg; belirli zaman aral klar nda kaydedilen üç sistolik kan bas nc düzeyinin ortalamas 178 mm Hg ve ki inin aileden gelebilecek kal tsal bir hastal ! olmas n. Say sal derecelendirme sistemine göre elde edilen sonuç Çizelge 1 ile gösterilmi tir. 160 de!eri, sigorta ba vurusu yapan birey için beklenen ölüm oran n n, standart veya normal risk grubu için belirlenen ölüm oran ndan %60 daha fazla oldu!unu göstermektedir. Çizelge 1. Say sal derecelendirme sistemi örne!i Faktör Baz De<eri: 100% A r kilo + 25 Aileden gelen özellikler: yi -5 Sistolik kan bas nc : Yüksek + 50 Sigorta plan : 30 y ll k karma hayat sigortas - 10 Toplam + 75 Derece: - 15 160 Say sal derecelendirme sisteminde s n fland rma, riskin homojen oldu!u varsay m ile yap l r. Fakat gerçekte risk heterojendir ve hayat riskine etki eden sadece birkaç faktör ile s n fland rma yap ld ! nda, riskin di!er birçok karakteristi!i göz ard edilmektedir. Oysa sigorta irketi ayn riskle kar kar ya bulunan, çok say da benzer nitelikte birimi bir araya getirerek, onlar için teker teker belirsiz olan hasar olas l ! n tahmin edilebilir duruma getirmek istemektedir. Bu dü ünce büyük say lar kanunundan kaynaklanmaktad r [6, 11]. Ayr ca, bu yöntemde yer alan problemlerden biride hayat riskini etkileyen birçok risk faktörünün esas nda bulan k olmas d r. Sigorta ba vurusu yapan bireyleri cinsiyet ve medeni durumlar na göre s n fland rmak oldukça basittir; fakat bireyleri sa!l k durumu gibi di!er de!i kenlere göre kesin s n rlar ile bir gruba dahil etmek do!ru bir yakla m olmayacakt r. Örne!in, sistolik kan bas nc 160 mm Hg’den yüksek olan bireyleri standart olmayan risk grubunda s n fland r rken, 159 mm Hg kan bas nc na sahip bireylerin standart risk grubu olarak de!erlendirilmesi risk yönetiminin ba ar s z bir biçimde yürütülmesine yol açacakt r. 4. Bulan k Ç kar m Sistemleri ile Risk S n fland rma Sigortalanan riskin benzer özelliklerine, hasar üretme ihtimaline ve bu hasarlar n büyüklü!üne göre kategorize etme i lemi olarak ifade edilebilecek risk s n fland rma aktüerya biliminin temel konular ndan biridir. Hayat sigortalar nda poliçe sahipleri, klasik hayat tablolar kullan larak ve genellikle az say daki risk karakteristiklerine göre s n fland r lmakta ve birçok di!er bulan k risk faktörleri göz ard edilmektedir [6]. Klasik kümeleme algoritmalar , her bir nesnenin bir kümeye kesin s n rlar ile ait oldu!u dü üncesine göre olu turulur. Ancak nesnelerin ait olabilece!i s n flar n s n rlar her zaman kesin olarak tan mlanamayabilir. Bu gibi durumlarda ve çoklu karma k risk 196 karakteristikleri mevcut ise bulan k küme metodolojisi, sistemi en iyi temsil edecek bir model olu turmak üzere etkili bir yöntem sa!lamaktad r[10]. Sigorta i letmeleri kendilerine gönderilen ba vuru formlar n inceler, sa!l k denetimi sonuçlar n ald ktan sonra s ras yla seçim, ay r m ve derecelendirme i lemlerini yaparlar. Ba vuru formlar ndaki bilgilere ve sa!l k denetimi raporunun sonuçlar na göre yap lan bu de!erlendirmelere göre, sigorta için ba vuran ki i kabul veya reddedilir. Ba vuruda bulunan bütün birimlerin ayn oranda ölüm riski ile kar kar ya bulunduklar söylenemez. Bütün dünyada oldu!u gibi ülkemizde de, kardiyovasküler hastal klar ölüm nedenleri aras nda ilk s rada yer almaktad r [9]. Sigara al kanl ! , yüksek kolesterol düzeyi, hipertansiyon ve obezite kardiyovasküler hastal klar ile ili kili olduklar genel olarak kabul edilmi risk faktörleridir [5]. Kad n ve erkekler aras nda, kardiyovasküler hastal k geli imi aç s ndan, en önemli risk faktörü, sigara tüketimidir. çilen sigara say s ile risk aras nda doza ba! ml olan çok aç k bir ili ki vard r [12]. Sigorta planlar nda primler toplam , riskin olas de!erinden az olursa sigorta irketi böyle bir durumda zararla kar kar ya kalabilir. Bu zarar olas l ! n ortadan kald rmak veya minimuma dü ürmek amac yla net primlere bir güvence pay (safety margin) eklenilmektedir. letme giderleri ve kâr paylar ile güvence paylar n n net primlere eklenmesiyle saptanan ödentiye brüt prim denilir. Hayat sigortas nda standart riske kar sigortalanan ki ilerden, ayr ya ve cinsiyette bulunmalar ko uluyla sabit oranda primler al nmaktad r. E!er sigorta i letmesi standard n alt nda riskle kar kar ya bulunan ki ileri de sigortalamak yoluna giderse, bu kez daha yüksek oranlarda primler al rlar. E!er (P) ile her sigortal dan al nan net tek prim ve (C) ile güvence pay gösterilirse, sigortal dan al nan brüt prim; PH = P + C (6) biçiminde yaz labilir [7, 11]. Bu ba!lamda, sigorta irketinin sigortal lardan alacaklar primler belirlenirken; kardiyovasküler hastal klar yönünden yüksek riske sahip bireyler pozitif risk yüklemesi ( D > 0 ) ile dü ük riske sahip bireyler ise negatif risk yüklemesi ( D < 0 ) ile mü terek fona katk da bulunmal d rlar. Yani sa!l kl bireylerin ödeyece!i primlerde indirim yap lmal d r. Bu çal mada, imtiyazl risk grubu, normal veya kabul edilebilir risk grubu, standart olmayan risk grubu ve kabul edilemez (yüksek) risk grubu biçiminde bir s n fland rma kullan lacak ve bulan k ç kar m sistemleri sonucunda kesin ç kt de!eri olarak bir risk yüklemesi elde edilecektir. Bu amaçla, net tek prim ile orant l olarak belirlenen bir risk yüklemesi sonucunda elde edilecek brüt prim; PH = P + D(n) P 100 (7) biçiminde hesaplanacakt r. Burada, D(n) , n. nci bireye ili kin risk yükleme oran n (%) göstermektedir. 4.1. Model Bulan k kümeler ya da bulan k mant ! ve buna kar l k gelen matematiksel çat y kullanan statik ya da dinamik sistemler “bulan k sistemler” olarak tan mlan r. Bu sistemler, bulan k mant kla ç kar m ve karar vermeye dayal çal ma ilkeleri olan sistemlerdir. Bulan k sistemlerin ba l ca özellikleri aras nda en önemlisi; çoklu girdileri, kural taban ve ç kar m motoru ile i leyerek tek ç kt haline dönü türmesidir. Baz özel durumlarda ç kt lar birden fazlada olabilir [1, 13]. 197 Modellerin geli tirilmesi için girdi de!i kenlerinin belirlenmesi, bulan kla t r lmas ve daha sonra karar verme mekanizmas için her bir girdi ve ç kt de!i kenlerini ba!layan kurallar n olu turulmas gerekir. Bulan k sisteme gelen veriler, öncelikle i lenmeye haz r hale getirildikten sonra bulan k kural taban nda yüklenmi e!er-ise biçiminde tan mlanm kurallara göre, ç kar m mekanizmas nda i lenirler. Bu çal mada, eldeki girdiye kar l k olarak gelen ç kt de!erinin belirlenmesi amac yla, kural taban nda bilginin modellenme ekline göre; sözel bulan k modelde denilen Mamdani yöntemi kullan lacakt r. Bulan k i lemler sonucu elde edilen bulan k ç kar m sonuçlar n kesin say sal ç kt de!erlerine dönü türmek amac yla ise; yayg n olarak kullan lan Sentroid yöntemi (A! rl k merkezi yöntemi) uygulanacakt r. Hayat sigortalar nda bireyleri, sistolik kan bas nc ve kolesterol düzeyi, beden kitle indeksi ve günlük ortalama sigara tüketimi biçiminde belirlenen kardiyovasküler risk faktörlerine göre s n fland rmak üzere her bir girdi ve ç kt de!i kenlerine ili kin bulan k alt kümeler a a! daki gibi tan mlanm t r. Obezitenin saptanmas nda en çok kullan lan ve bilinen yöntem Beden Kitle ndeksi (BK )’dir. BK , Vücut A! rl ! (kg) / Boy2 (m2) ile hesaplan r [12]. Sistolik Kan Bas nc (mm Hg): A = { A 1 , A 2 , A 3 , A4 } = {Optimal, Normal, Yüksek, Hipertansiyon} Kolesterol Düzeyi (mg/dl): B = {B 1 , B 2 , B 3 } = {Normal, Orta, Yüksek} Beden Kitle ndeksi (kg/m2): C = {C 1 , C 2 , C 3 , C 4 } = {Normal, Hafif Kilolu, Kilolu, Tehlikeli Kilolu} Günlük Ortalama Sigara Tüketimi (adet): D = {D 1 , D 2 , D 3 } = {Dü ük, Normal, Yüksek} Risk Yüklemesi (%): R = {R 1 , R 2 , R 3 , R 4 } = { mtiyazl Risk, Normal Risk, Standart Olmayan Risk, Yüksek veya Kabul Edilemez Risk} Sistolik kan bas nc , kolesterol düzeyi, beden kitle indeksi, sigara tüketimi girdileri ve risk yüklemesi ç kt s için belirlenen sözel de!i kenlere ili kin üyelik fonksiyonlar uzman deste!i al narak belirlenmi ve analitik olarak rekil 4 ile verilmi tir. Olu turulan bulan k model, girdi – ç kt de!i kenleri ve bulan k kurallar n grafiksel olarak tasarlanabilece!i Matlab program nda, Bulan k Mant k Araç Kutusu (Fuzzy Logic Toolbox) kullan larak de!erlendirilmi tir. Modelin grafiksel yap s rekil 3 ile verilmi tir. Bulan k e!er – ise kurallar n n belirlenmesinde girdiler ile ç kt aras nda olabilecek tüm bulan k küme ba!lant lar dü ünülmü ve toplam 144 kural tan mlanm t r. Sistolik Kan Bas nc Bulan k Ç kar m 198 (Mamdani Yöntemi) Kolesterol Risk Yüklemesi Beden Kitle ndeksi (BK ) Günlük Ortalama Sigara Tüketimi Bekil 3. Matlab program ile olu turulan risk s n fland rma modelinin yap s µ A ( x1 ) Optimal Normal Yüksek Hipertansiyon 1 100 110 120 130 140 150 160 170 180 190 x1 SKB (mm Hg) µ B (x 2 ) Normal Orta Yüksek 1 180 µC (x 3 ) 190 200 210 Normal 220 230 240 Hafif Kilolu 250 260 270 x2 Kolesterol Düzeyi (mg/dl) Kilolu Tehlikeli Kilolu 1 18 20 22 24 26 28 30 32 34 36 38 (kg/m2) µ D (x 4 ) Dü ük Normal 1 199 Yüksek 40 BK x3 0 1 2 3 4 5 6 7 8 9 10 11 12 x4 Günlük Ort. Sig. Tüketimi µ R (D ) Normal Risk 1 Standart Olmayan Risk Yüksek Risk mtiyazl Risk -20 -10 0 10 20 30 40 50 60 70 80 90 100 D Risk Yüklemesi (%) Bekil 4. Bulan k alt kümelere ili kin üyelik fonksiyonlar 4.2. Uygulama i. Sistolik kan bas nc 135 mm Hg, kolesterol düzeyi 230 mg/dl, beden kitle indeksi 29 kg/m2 ve sigara içmeyen bir bireye ili kin; x = x ( x1 , x 2 , x3 , x 4 ) = x ( 135, 230, 29, 0 ) girdisi için bulan k kural taban nda yer alan 144 kural aras ndan aktif olan 8 kural a a! da verilmi tir. Kural 1: Bireyin sistolik kan bas:nc: normal ve kolesterol düzeyi orta ve beden kitle indeksi hafif kilolu ve günlük ortalama sigara tüketimi dü ük ise risk yüklemesi imtiyazl d r. Kural 2: Bireyin sistolik kan bas:nc: normal ve kolesterol düzeyi orta ve beden kitle indeksi kilolu ve günlük ortalama sigara tüketimi dü ük ise risk yüklemesi normaldir. Kural 3: Bireyin sistolik kan bas:nc: normal ve kolesterol düzeyi yüksek ve beden kitle indeksi hafif kilolu ve günlük ortalama sigara tüketimi dü ük ise risk yüklemesi normaldir. 200 Bekil 5. x (135, 230, 29, 0 ) girdisi için bulan k kural taban Kural 4: Bireyin sistolik kan bas:nc: normal ve kolesterol düzeyi yüksek ve beden kitle indeksi kilolu ve günlük ortalama sigara tüketimi dü ük ise risk yüklemesi normaldir. Kural 5: Bireyin sistolik kan bas:nc: yüksek ve kolesterol düzeyi orta ve beden kitle indeksi hafif kilolu ve günlük ortalama sigara tüketimi dü ük ise risk yüklemesi normaldir. Kural 6: Bireyin sistolik kan bas:nc: yüksek ve kolesterol düzeyi orta ve beden kitle indeksi kilolu ve günlük ortalama sigara tüketimi dü ük ise risk yüklemesi standart olmayand r. Kural 7: Bireyin sistolik kan bas:nc: yüksek ve kolesterol düzeyi yüksek ve beden kitle indeksi hafif kilolu ve günlük ortalama sigara tüketimi dü ük ise risk yüklemesi standart olmayand r. Kural 8: Bireyin sistolik kan bas:nc: yüksek ve kolesterol düzeyi yüksek ve beden kitle indeksi kilolu ve günlük ortalama sigara tüketimi dü ük ise risk yüklemesi standart olmayand r. Kural taban nda bilginin modellenmesinde Mamdani yöntemi ve durula t rma yöntemi olarak da Sentroid yöntemi kullan ld ! nda elde edilen Matlab program ç kt s rekil 5’de görüldü!ü gibidir. Buna göre; sigorta ba vurusu yapan bireyler aras ndan, sistolik kan bas nc 135 mm Hg, kolesterol düzeyi 230 mg/dl, beden kitle indeksi 29 kg/m2 ve sigara içmeyen bir ki i için belirlenen risk yüklemesi ( D ) %26’d r. Elde edilen bu sonuca göre, birey için belirlenecek brüt prim; 201 PH = P + 26 P 100 biçiminde olacakt r. ii. Sistolik kan bas nc 155 mm Hg, kolesterol düzeyi 250 mg/dl, beden kitle indeksi 35 kg/m2 ve sigara içmeyen bir bireye ili kin; x = x ( x1 , x 2 , x3 , x 4 ) = x ( 155, 250, 35, 0 ) girdisi için bulan k kural taban nda yer alan kurallar aras ndan aktif olan 4 kural a a! da verilmi tir. Kural 1: Bireyin sistolik kan bas:nc: yüksek ve kolesterol düzeyi yüksek ve beden kitle indeksi kilolu ve günlük ortalama sigara tüketimi dü ük ise risk yüklemesi standart olmayand r. Kural 2: Bireyin sistolik kan bas:nc: yüksek ve kolesterol düzeyi yüksek ve beden kitle indeksi tehlikeli kilolu ve günlük ortalama sigara tüketimi dü ük ise risk yüklemesi standart olmayand r. Kural 3: Bireyin sistolik kan bas:nc: hipertansiyon ve kolesterol düzeyi yüksek ve beden kitle indeksi kilolu ve günlük ortalama sigara tüketimi dü ük ise risk yüklemesi yüksektir. Kural 4: Bireyin sistolik kan bas:nc: hipertansiyon ve kolesterol düzeyi yüksek ve beden kitle indeksi kilolu ve günlük ortalama sigara tüketimi dü ük ise risk yüklemesi yüksektir. rekil 6 ile verilen Matlab program ç kt s na göre sigorta ba vurusu yapan bireyler aras ndan, sistolik kan bas nc 155 mm Hg, kolesterol düzeyi 250 mg/dl, beden kitle indeksi 35 kg/m2 ve sigara içmeyen bir ki i için risk yüklemesi ( D ) %74.3 olarak belirlenmi tir. Elde edilen bu sonuca göre, birey için belirlenecek brüt prim; PH = P + 74.3 P 100 biçiminde olacakt r. 202 Bekil 6. x (155, 250, 35, 0 ) girdisi için bulan k kural taban 5. Sonuç ve Öneriler Hayat sigortalar nda klasik risk s n fland rma yöntemlerine göre bireyler, hayat tablolar kullan larak ve genellikle az say daki risk faktörlerine göre s n fland r lmakta ve birçok di!er bulan k risk karakteristikleri göz ard edilmektedir. Sigorta planlar nda, poliçe sahiplerinin farkl s n flar aras nda adaletin korunmas ve her bir sigortalanan bireyin, mü terek fona maruz kalabilece!i risklere ili kin kay plar ölçüsünde katk da bulunmas ; hem sigortalanan hem de sigorta irketi aç s ndan öneme sahiptir. Bu nedenle risk seçim ve s n fland rma problemi aktüerya biliminin temel konular ndan biridir. Bu çal mada, hayat sigortalar nda risk seçim ve s n fland rma sürecinde bulan k sistem modellemenin bir uygulamas yap lm t r. Bu do!rultuda, ölüm nedenleri aras nda ilk s rada yer alan kardiyovasküler hastal k riskini art ran faktörler belirlenmi ve poliçe sahipleri bu risk faktörlerine göre s n fland r lm t r. Bu amaçla; imtiyazl risk grubu, normal veya kabul edilebilir risk grubu, standart olmayan risk grubu ve kabul edilemez risk grubu biçiminde bir s n fland rma kullan lm t r. Sigortada, özellikle nitel durumlar ile karakterize edilen alanlarda matematiksel modellere ihtiyaç duyuldu!undan dolay ; risk s n fland rma problemlerinde bulan k ç kar m sistemlerinin kullan lmas büyük yarar sa!layacakt r. Bu yöntem ile bulan kl ktan kaynaklanan belirsizli!inde de!erlendirilmesiyle; hayat riskini etkileyen her bir faktörün etkisini do!ru ölçen, birbirleri ile ili kili veya çeli en faktörlerin birlikte etkileri de!erlendirebilen bir model geli tirilmi tir. 203 Kaynaklar [1] N. Baykal, T. Beyan, (2004), Bulan k Mant k Uzman Sistemler ve Denetleyiciler, B çaklar Kitabevi, Ankara. s. 190-260. [2] G. Bojadziev, M. Bojadziev, (2007), Fuzzy Logic for Business, Finance and Management, World Scientific, London. s. 127-155. [3] R. A. Derrig, K. M. Ostaszewski, (1999), Fuzzy Sets Methodologies in Actuarial Science, Practical Applications of Fuzzy Technologies, Zimmerman, H. J. (ed.), Kluwer Academic Publishers, Boston. s. 531-553. [4] G.W. DeWit, (1982), Underwriting and uncertainty, Insurance Mathematics and Economics, 1, 277– 285. [5] N. Dikmeno!lu, (2006), Kardiyovasküler hastal klarda sigara ve kolesterol kadar önemli bir risk faktörü: kan ak kanl ! , Hacettepe T p Dergisi, 37, 93–97. [6] P.-J. Horgby , (1998), Risk Classification by Fuzzy Inference, The Geneva Papers on Risk and Insurance, 23, 63-82. [7] S. S. Huebner, K. Black, (1976), Life Insurance, Prentice-Hall, New Jersey. s. 360-384. [8] J. Lemaire, (1990), Fuzzy Insurance, Astin Bulletin, 20, 33-56. [9] A. Onat, (2001), Risk factors and cardiovascular disease in Turkey, Atherosclerosis, 156, 1-10. [10] K. M. Ostaszewski, (1993), An Investigation into Possible Applications of Fuzzy Set Methods in Actuarial Science, The Society of Actuaries, Schaumburg. s. 47-67. [11] A. Özdemir, (1980), Hayat Sigortas : Teori ve Türkiye’de Uygulama, A. Ü. Siyasal Bilgiler Fakültesi Yay nlar , Ankara. s. 61–84. [12] G. Samur, E. Y ld z, (2008), Obezite ve Kardiyovasküler Hastal klar / Hipertansiyon, Klasmat Matbaac l k, Ankara. s. 3–11. [13] Z. ren, (2001), Bulan k Mant k ve Modelleme lkeleri, Bilge Kültür Sanat, stanbul. s. 20–26. [14] V.R. Young, (1993), The application of fuzzy sets to group health underwriting, Trans. Soc. Actuaries, 45, 551–590. 204 Aral k uzunlu!unun optimizasyonuna dayal yüksek dereceli bulan k zaman serisi yakla m Erol E!rio!lu Ç. Hakan Alada! Ufuk Yolcu Ondokuz May:s Üniversitesi. Fen Edebiyat Fak. statistik Böl. 55139-Kurupelit, Samsun-Türkiye erole@omu.edu.tr Hacettepe Üniversitesi Fen Fak. statistik Böl. 06532-Beytepe, Ankara-Türkiye aladag@hacettepe.edu.tr Ondokuz May:s Üniversitesi Fen Edebiyat Fak. statistik Böl. 55139-Kurupelit, Samsun-Türkiye uyolcu@omu.edu.tr M. Alper Ba aran V. Rezan USLU NiGde Üniversitesi Fen Edebiyat Fak. Matematik Bölümü 51350 NiGde, Türkiye muratalper@yahoo.com Ondokuz May:s Üniversitesi Fen Edebiyat Fak. statistik Böl. 55139-Kurupelit, Samsun-Türkiye vruslu@omu.edu.tr Özet Literatürde bulan:k zaman serisi yakla#:mlar: bir çok çal:#mada ba#ar:l: bir #ekilde kullan:lm:#t:r. Daha iyi öngörüleri elde etmek için farkl: bulan:k zaman serisi yakla#:mlar: önerilmi#tir. Bu yakla#:mlarda aral:k uzunluGunun belirlenmesi öngörü doGruluGu için önemlidir. EGrioGlu vd.aral:k uzunluGunun optimizasyonuna dayal: birinci dereceden bulan:k zaman serisi öngörü yakla#:m: önermi#lerdir [2]. Bu çal:#mada, aral:k uzunluGunun belirlenmesinde optimizasyonun kullan:ld:G: yeni bir yüksek dereceli bulan:k zaman serisi yakla#:m: önerilmi#tir. Önerilen yakla#:m literatürde iyi bilinen bir zaman serisine uygulanarak, elde edilen sonuçlar tart:#:lm:#t:r. Anahtar sözcükler: Bulanýk zaman serileri, öngörü, optimizasyon, yüksek dereceli öngörü modeli. Abstract A high order time series approach based on optimization of interval length In the literature, there have been many studies in which fuzzy time series approach is successfully used. Different fuzzy time series approaches have been proposed to obtain better forecast values In these approaches, determining the length of interval is important for forecasting accuracy. Eðrioðlu et al. proposed a first order fuzzy time series approach based on optimization of length of interval [2]. In this study, by employing optimization to determine the length of interval, a novel high order fuzzy time series approach is proposed. Then, the proposed approach is applied to well known time series in the literature and obtained results are discussed. Keywords: Fuzzy time series; Forecasting; Optimization; High order forecasting model. 205 1. Giri! Bulan k zaman serisi yakla mlar borsa, s cakl k ve kay t verisi gibi gözlemleri belirsizlik içeren zaman serilerine ba ar yla uygulanmaktad r. Bulan k zaman serisi yakla mlar geleneksel yöntemlerdeki normallik, do!rusall k gibi varsay mlar gerektirmemektedir. Bulan k zaman serisi yakla mlar ilk olarak Song ve Chissom taraf ndan önerilmi tir [7,8,9]. Sullivan ve Woodall, Markov modeline dayal ba ka bir yakla m önermi tir [5]. Chen, matris operasyonlar gerektirmeyen daha kolay bir yöntem önermi tir [11]. Huarng, aral k uzunlu!unun belirlenmesinin öngörü performans nda etkili oldu!unu göstererek aral k uzunlu!unun belirlenmesi için ortalama ve da! l ma dayal iki yakla m önermi tir [6]. Egrioglu vd. ise aral k uzunlu!unun optimizasyonuna dayal yeni bir yakla m önermi tir [2]. Tüm bu çal malar birinci dereceden bulan k zaman serisi öngörü modeline dayanmaktad r. Birinci dereceden modeller basit yap s nedeniyle daha karma k ili kiler içeren bulan k zaman serilerinin çözümlenmesinde yetersiz kalabilmektedir. Bu nedenle Chen, yüksek dereceden bulan k zaman serisi öngörü modelini çözümleyen bir yakla m önermi tir [12]. Alada! vd. ise bulan k ili kilerin ileri beslemeli yapay sinir a! ile belirlendi!i yüksek dereceden bulan k zaman serisi öngörü modelini çözümleyen bir yakla m önermi tir [1]. Bu çal mada, yüksek dereceden bulan k zaman serisi öngörü modelini çözümleyen, aral k uzunlu!unun optimize edildi!i bir yakla m önerilmi tir. Aral k uzunlu!unun optimizasyonunda polinomsal interpolasyon ve alt n aramas (golden section search) yönteminin birlikte kullan ld ! “fminbnd” isimli MATLAB fonksiyonu kullan lm t r. Önerilen yöntem Alabama Üniversitesi kay t verisine uygulanm t r. Elde edilen sonuçlar literatürdeki di!er birinci dereceden ve yüksek dereceden yakla mlar ile kar la t r lm t r. Çal man n ikinci bölümünde bulan k zaman serileri ile ilgili temel tan mlar yap lm , üçüncü bölümde Chen taraf ndan önerilen yüksek dereceli bulan k zaman serisi yöntemi tan t lm t r [12]. Dördüncü bölümde bu çal mada önerilen yakla m ve uygulamas verilmi tir. Son bölümde ise elde edilen bulgular tart lm t r. 2. Bulan k zaman serileri Bulan k zaman serisi tan m ilk olarak, Song ve Chissom taraf ndan yap lm t r [8,9]. Bulan k zaman serisi yakla mlar nda, geleneksel yöntemlerde ihtiyaç duyulan teorik varsay mlara gerek duyulmamaktad r. Bu nedenle, bulan k zaman serisi yakla mlar n n en önemli avantaj az say da gözlemle ve do!rusall k varsay m olmaks z n uygulanabilir olmas d r. Baz temel bulan k zaman serisi tan mlar a a! daki gibi verilebilir U = {u1 , u 2 ,..., u b } , evrensel küme ve evrensel kümenin belirlenen bir sabit aral k uzunlu!una göre parçalanmas ile elde edilen u i ’ler alt aral klar olmak üzere bulan k kümeler, Ai = f Ai (u1 ) / u1 + f Ai (u 2 ) / u 2 + L + f Ai (u b ) / u b 206 (1) eklinde tan mlan r. Burada, f Ai , Ai bulan k kümesinin üyelik fonksiyonunu gösterir ve f Ai : U * [0,1] olacakt r. Bunun yan nda f Ai (u a ) ise u a alt aral ! n n Ai bulan k kümesine ait olmas n n üyelik derecesidir ve 1 ! a ! b olmak üzere f Ai (u a ) 7 [0,1] olacakt r. Tan m 1. Y(t), (t=…, 0, 1, 2, …) reel de!erli zaman serisi olsun. Zaman serisine uygun evrensel küme tan m ve alt aral klar n tespit edilmesinden sonra bunlara ba!l olarak elde edilen Ai bulan k kümelerinden olu an yeni zaman serisi, F(t) bulan k zaman serisi olarak adland r l r. Tan m 2. “*” herhangi bir operatörü göstermek üzere, e!er F(t) bulan k zaman serisi yaln zca bir gecikmeli F(t-1) bulan k zaman serisinden etkilenmekte ise, F(t) ile F(t-1) bulan k zaman serisi aras ndaki bulan k ili ki, F (t ) = F (t 1) ( R (t , t 1) (2) eklinde ifade edilir ve birinci dereceden bulan k zaman serisi öngörü modeli olarak adland r l r. Bu ili ki Song ve Chissom taraf ndan a a! daki gibi tan mlanm t r [8], F (t 1) * F (t ) (3) Sonuç olarak F (t 1) = Ai ve F (t ) = A j oldu!unda F(t) ile F(t-1) bulan k zaman serisi aras ndaki bulan k ili ki, Ai * A j (4) olacakt r. Burada Ai , bulan k ili kinin sol yan , A j ise bulan k ili inin sa! yan olarak isimlendirilir. Tan m 3. E!er F(t) bulan k zaman serisi, gecikmeli F (t 1), F (t 2), K , F (t n) bulan k zaman serilerinden etkilenmekte ise, F(t) bulan k zaman serisi ile F (t 1), F (t 2), K , F (t n) bulan k zaman serileri aras ndaki bulan k ili ki, F (t n),..., F (t 2), F (t 1) * F (t ) (5) ifadesi ile verilebilir ve n’nci dereceden bulan k zaman serisi öngörü modeli olarak adland r l r. 3. Chen’in yüksek dereceli bulanýk zaman serisi yöntemi Chen, 2002 y l nda yapt ! çal mada öngörü elde etmede yüksek dereceli bulan k zaman serisi yakla m n önermi tir. Chen taraf ndan verilen bu yöntemde yüksek dereceli modellerde tüm gecikmeli bulan k de!i kenler bulunmaktad r. Yani 4. dereceden bir zaman serisinin çözümlenmesinde, F(t) bulan k zaman serisi iken, F(t-1), F(t-2), F(t-3), F(t-4) bulan k gecikmeli de!i kenleri modelde yer almaktad r. Birinci dereceden bulan k zaman 207 serisi öngörü modellerine göre daha iyi sonuçlar veren, bu yüksek dereceli bulan k zaman serisi yönteminin algoritmas a a! daki ad mlardan olu ur [12]. Ad m 1. Evrensel küme ve alt aral klar tan mlan r. Veri setinin en küçük ve en büyük de!erleri s ras yla Dmin ve Dmax , ayr ca keyfi iki say D1 ve D2 olmak üzere evrensel küme, U = [Dmin D1 , Dmax + D2 ] (6) eklinde ve sabit aral k uzunlu!una sahip u i alt aral klar , U = {u1 , u 2 ,K, u b } (7) olacak ekilde tan mlan r. Ad m 2. Evrensel küme ve belirlenen alt aral klara ba!l olarak A j bulan k kümeleri tan mlan r. Üyelik dereceleri, /1 , k = j 5 a jk = 00.5 , k = j 1, j + 1 50 , d .d . 1 , j = 1, 2,K, b (8) olmak üzere, bulan k kümeler a a! daki gibi tan mlan r. A j = a j1 / u1 + a j 2 / u 2 + L + a jb / u b , j = 1, 2, K , b (9) Ad m 3. Gözlemler bulan kla t r l r. Her bir veri bulundu!u aral ! n en büyük üyelik de!erine sahip oldu!u bulan k küme ile e le tirilerek zaman serisi bulan kla t r l r. Ad m 4. Bulan k mant k ili ki ve grup ili ki tablosu olu turulur. Bulan k mant k ili ki ve grup ili ki tablosu olu turulmas n kavrayabilmek için birkaç örnekle aç klamaya çal al m. Örne!in, birinci dereceden bulan k mant k ili kiler, Ai * A j , Ai * Ai , Ai * Ak (10) eklinde verilmi ken, bulan k mant k grup ili kisi, Ai * A j , Ai , Ak (11) 208 olarak elde edilir. Benzer ekilde genel bir ifade ile n’nci dereceden bulan k mant k ili kiler, Ain , Ai ( n 1) ,K , Ai1 * A j1 Ain , Ai ( n 1) ,K , Ai1 * A j 2 (12) M M Ain , Ai ( n 1) ,K , Ai1 * A jp eklinde verilmi ken, bulan k mant k grup ili kisi, Ain , Ai ( n 1) ,K , Ai1 * A j1 , A j 2 ,K , A jp (13) olarak elde edilir. Bulan k mant k ili ki ve grup ili ki tablolar , elde edilen bu bulan k mant k ili ki ve grup ili kilerden olu ur. Ad m 5. Bulan k öngörüler elde edilir. n’nci dereceden bulan k zaman serisi öngörü modeli için bulan k öngörüler elde edilirken üç durum söz konusudur. Durum 1. n’nci dereceden bulan k mant k grup ili ki tablosunda, Ain , Ai ( n 1) , K , Ai1 * A j (14) ili kisi mevcut ise bulan k öngörü, A j olacakt r. Durum 2. n’nci dereceden bulan k mant k grup ili ki tablosunda, Ain , Ai ( n 1) ,K , Ai1 * A j1 , A j 2 ,K , A jp (15) ili kisi mevcut ise bulan k öngörüde belirsizlik söz konusudur ve bulan k öngörünün elde edilebilmesi için belirsizlik giderilene kadar incelenen derecenin bir üst derecesine bak larak m>n olmak üzere, Aim , Ai ( m 1) , K , Ai1 * A j (16) ili kisini veren m aran r ve bu durumda bulan k öngörü, yine A j olacakt r. Durum 3. n’nci dereceden bulan k mant k grup ili ki tablosunda, Ain , Ai ( n 1) , K , Ai1 * Bo# ili kisi mevcut ise reel öngörü, (17) Ain , Ai ( n 1) , K , Ai1 bulan k kümelerine ba!l u in , u i ( n 1) , K , u i1 aral klar n n orta noktalar , min , mi ( n 1) , K , mi1 olmak üzere, 209 olarak, 1 × min + 2 × mi ( n 1) + L + n × mi1 (18) 1+ 2 +L+ n ifadesi ile elde edilir. Ad m 6. Durula t rma i lemi uygulan r. Durula t rmada merkezile tirme yöntemi kullan l r. Öngörülerin elde edilmesinde kar la lan Durum 1. ve Durum 2. için bulan k öngörü A j olarak elde edilmi ken, durula t r lm öngörü, A j bulan k kümesinde en yüksek üyelik de!erine sahip olan u j aral ! n n orta noktas olacakt r. Durum 3. için ise reel öngörünün, Ain , Ai ( n 1) , K , Ai1 bulan k kümelerine ba!l olarak nas l elde edildi!i daha önce belirtilmi ti. 4. Önerilen yaklaþým ve uygulamasý Bulan k zaman serisi yakla mlar nda aral k uzunlu!u, öngörü performans üzerinde oldukça etkilidir. Bu nedenle, bulan k zaman serilerinde öngörülerin iyile tirilmesi için aral k uzunlu!unun seçimi kritik bir karard r. E!rio!lu vd., birinci dereceden bulan k zaman serisi öngörü modelinin kullan ld ! ve aral k uzunlu!unun optimal de!erinin belirlenebildi!i bir yöntem önermi tir [2]. Bu çal mada, E!rio!lu vd. taraf ndan önerilen yöntem, yüksek dereceden bulan k zaman serisi öngörü modeli kullan larak geli tirilmi tir [2]. Optimizasyon için, polinomsal interpolasyon ve alt n arama (Golden Section Search) yöntemlerini birlikte kullanan tek de!i kenli optimizasyon algoritmas , “fminbnd” isimli MATLAB fonksiyonundan yararlan larak kullan lm t r. Optimizasyon problemi, “la” aral k uzunlu!unu göstermek üzere, min HKO (la ) (19) Yan ^art : la 7 [a, b] eklinde ifade edilir. HKO de!erinin aral k uzunlu!unun bir fonksiyonu olaca! aç kt r, ancak “la” de!i kenine göre HKO fonksiyonu aç k bir formda yaz lamamaktad r. Optimizasyon probleminin her ad m nda de!i tirilen aral k uzunlu!u için Chen taraf ndan önerilen yüksek dereceli bulan k zaman serisi öngörü yöntemi için geçerli olan algoritma kullan lmaktad r [12]. Önerilen yakla m Tablo 1’de verilen Alabama Üniversitesi Kay t verisine uygulanm t r. Uygulamada ikinci, üçüncü ve dördüncü dereceden bulan k zaman serisi öngörü modelleri kullan larak elde edilen sonuçlar, literatürün bir k sm n olu turan, Song ve Chissom [7,8], Sullivan ve Woodall [5], Chen [11,12], Huarng [6], Alada! vd.[1] ve E!rio!lu vd.[2] taraf nfan önerilen yöntemler ile kar la t r lm t r. Tablo 1. Alabama Üniversitesi kayýt verisi Yýllar 1971 1972 1973 Gerçek Veri 13055 13563 13867 210 Yýllar 1982 1983 1984 Gerçek Veri 15433 15497 15145 1974 1975 1976 1977 1978 1979 1980 1981 14696 15460 15311 15603 15861 16807 16919 16388 1985 1986 1987 1988 1989 1990 1991 1992 15163 15984 16859 18150 18970 19328 19337 18876 Uygulamada aral k uzunlu!unun ba lang ç de!eri önceki çal malarda oldu!u gibi, 13000 olarak al nm t r. Optimizasyonda kullan lan amaç fonksiyonu, öngörüler için elde edilen HKO de!eridir. Aral k uzunlu!u (la) için 200 < la ! 1000 aral ! nda Matlab “fminbnd” fonksiyonu yard m yla tek de!i kenli k s tl optimizasyon algoritmas uygulanarak HKO de!erini minimum yapacak optimal aral k uzunlu!u elde edilmi tir. Aral k uzunlu!unun seçimi bulan k zaman serisi yakla m nda kritik bir karard r. Aral k uzunlu!unun çok büyük seçimi zaman serisindeki dalgalanmay yok edecek, çok küçük seçimi ise klasik analizle bulan k zaman serisi yakla m aras ndaki ay r m ortadan kald racakt r. Bu nedenle, aral ! n, çok küçük ve çok büyük olmayacak ve yöntemin HKO de!erini en küçük yapacak ekilde seçilmesi gerekir. Optimizasyon algoritmas , aral k uzunlu!unun çok küçük ya da çok büyük olmas sorununu giderebilmek amac ile, aral k uzunlu!u 200 ve 1000 aras nda s n rland r larak uyguland . kinci, üçüncü ve dördüncü dereceden bulan k zaman serisi öngörü modelleri için elde edilen optimal aral k uzunluklar ve bu aral k uzunluklar na kar l k gelen HKO de!erleri Tablo 2’ de verilmi tir. Tablo 2 incelendi!inde, en iyi sonucun 3. dereceden modelde, 60714 HKO de!eri ile, 222.0880 aral k uzunlu!u için bulundu!u görülür. Tablo 2. Önerilen yaklaþým sonuçlarý Derece 2 3 4 Optimal aral k uzunlu!u 231.7782 222.0880 404.2322 HKO 62639 60714 172820 Önerilen yöntemden, 3. dereceden modelde 222.0880 aral k uzunlu!u için elde edilmi , en iyi durum ve di!er baz yöntemlerin sonuçlar Tablo 3’de özetlenmi tir. Tablo 3’den de görülebilece!i gibi, bu çal mada önerilen, aral k uzunlu!unun optimizasyonuna dayal yüksek dereceli bulan k zaman serisi yakla m , di!er yöntemlerden daha dü ük HKO de!erine sahiptir. Ba ka bir ifade ile önerilen yakla m kar la t rma yap lan di!er tüm yöntemlerden daha iyi bir öngörü performans na sahiptir. Tablo 3. Sonuçlar n kar la t r lmas Yöntem Derece HKO Song and Chissom [8] 1 412499 Song and Chissom [7] 1 775687 Sullivan and Woodall [5] 1 386055 211 Chen [11] 1 407507 Huarng [6] 1 78792 Chen [12] 3 124707 86694 Aladag vd. [1] 2 78073 Egrioglu vd. [2] 1 66661 Önerilen Yakla m 3 60714 a b a- Ortalamaya dayalý uzunluk b- Daðýlýma dayalý uzunluk 5. Sonuç ve öneriler Bu çal mada, yüksek dereceli bulan k zaman serisi öngörü modelinin çözümlenmesi için, aral k uzunlu!unun optimizasyonuna dayal yeni bir yakla m önerilmi tir. Chen taraf ndan önerilen yüksek dereceli bulan k zaman serisi yakla m nda aral k uzunlu!u kullan c tercihine b rak lm t r [12]. Ancak aral k uzunlu!unun belirlenmesinin bulan k zaman serisi yakla mlar n n öngörü performans üzerinde önemli etkisi oldu!u bilinmektedir. Bu çal mada önerilen yakla mda, Chen’in önerdi!i [12] yöntemden farkl olarak, HKO de!erini minimum yapan aral k uzunlu!u tek de!i kenli k s tl optimizasyon ile belirlenmektedir. Daha önce Egrioglu vd., taraf ndan birinci dereceden bulan k zaman serisi öngörü modelinde aral k uzunlu!unun optimize edilerek daha iyi öngörülerin elde edildi!i bir yakla m önerilmi tir [2]. Bu çal ma, Egrioglu vd.’ne ait çal man n yüksek dereceli bulan k zaman serisi öngörü modeline geli tirilmi bir halidir. Önerilen yöntemde tek de!i kenli k s tl optimizasyonun uygulanmas nda önemli bir karar, aral k uzunlu!unun k s tlanaca! aral ! n belirlenmesidir. Çok büyük aral k uzunlu!u, zaman serisindeki dalgalanmay kaybedecek, çok küçük aral k uzunlu!u ise bulan k olmayan (crisp) zaman serisine denk bir bulan k zaman serisi ortaya ç karacakt r. Bu nedenle, aral k uzunlu!u Alabama Üniversitesi kay t verisi için 200 ile 1000 aral ! nda k s tlanm t r. Yüksek dereceli modelin derecesi, 2,3 ve 4 olarak de!i tirildi!inde en iyi sonucun 3. dereceden model ile elde edildi!i görülmektedir ki bu sonuç, kar la t r lmas yap lan di!er tüm yöntemlere göre daha iyi bir öngörü performans içermektedir. Bu çal mada önerilen yöntemde bulan k ili kilerin belirlenmesi Chen taraf ndan önerilen yüksek dereceli yakla ma göre yap lmaktad r [12]. Bulan k ili kilerin alternatif yöntemlerle belirlendi!i ve aral k uzunlu!unun optimize edildi!i yeni bir yakla m ise ara t r labilecek yeni bir konudur. Kaynaklar [1] [2] Ç.H. Alada!, M.A. Ba aran, E. E!rio!lu, U. Yolcu, V.R. Uslu, (2009), Forecasting in High Order Fuzzy Times Series by Using Neural Networks to Define Fuzzy Relations, Expert Systems with Applications, 36, 4228-4231. E. E!rio!lu, Ç.H. Alada!, M.A. Ba aran, V.R. Uslu, U. Yolcu, (2009), A New Approach Based on the Optimization of the Length of Intervals in Fuzzy Time Series, Journal of Intelligent and Fuzzy Systems. (Accepted Manuscript). 212 [3] [4] [5] [6] [7] [8] [9] [10] [11] [12] G.E. Forsythe, M.A. Malcolm, C.B. Moler, (1976), Computer Methods for Mathematical Computations, Prentice Hall. J. Kiefer, (1953), Sequential minimax search for a maximum. Proceedings of the American Mathematical Society 4, 502-506, MR0055639, doi:10,2307/2032161. J. Sullivan, W. H. Woodall, (1994), A comparison of fuzzy forecasting and Markov modeling. Fuzzy Sets and Systems, 64(3), 279 - 293. K. Huarng, (2001), Effective length of intervals to improve forecasting in fuzzy time-series, Fuzzy Sets and Systems, 123, 387-394. Q. Song, B. S. Chissom, (1994), Forecasting enrollments with fuzzy time series - Part II, Fuzzy Sets and Systems, 62(l), 1-8. Q. Song, B.S. Chissom, (1993a), Fuzzy time series and its models. Fuzzy Sets and Systems, 54, 269-277. Q. Song, B.S. Chissom, (1993b), Forecasting enrollments with fuzzy time series - Part I, Fuzzy Sets and Systems, 54, 1-10. R.P. Brent, (1973), Algorithms for Minimization without Derivatives, Prentice-Hall, Englewood Cliffs, New Jersey. S.M. Chen, (1996), Forecasting enrollments based on fuzzy time-series, Fuzzy Sets and Systems, 81, 311319. S.M. Chen, (2002), Forecasting enrollments based on high order fuzzy time series, Cybernetics and Systems, 33, 1-16. 213 Sa!dan Sansürlemenin Sa!kal m Analizindeki Etkisi Çi!dem TOPÇU Fahrettin ARSLAN Ankara Üniversitesi Fen Fakültesi statistik Bölümü TandoGan,Ankara,Türkiye ctopcu@science.ankara.edu.tr Ankara Üniversitesi Fen Fakültesi statistik Bölümü TandoGan,Ankara,Türkiye arslan@science.ankara.edu.tr ÖZET SaGkal:m analizi, ba#lama an:ndan belirlenen bir olay:n ortaya ç:kmas:na kadar geçen süre olarak elde edilen verilerin analizidir. Söz konusu gözlemlerin, bir tak:m nedenlerden dolay: tam olarak gözlenememesi sansürlü verilerin elde edilmesine neden olur. Sansürlü verilerin analizinin hedeflendiGi saGkal:m analizinde, ilgilenilen temel konu Pr(T > t ) = S (t ) saGkal:m fonksiyonunun tahmin edilmesidir. SaGkal:m analizinde T ve C , s:ras:yla saGkal:m süresi ve sansürleme süresini gösteren negatif olmayan rasgele deGi#kenler olmak üzere, gözlemler elde edilmektedir. X = min(T , C ) formunda ve C ’nin baG:ms:zl:G:n:n varsay:m:n: içeren bilgilendirici olmayan (noninformative) sansürleme S (t ) saGkal:m fonksiyonu için en uygun tahmin edici, Kaplan-Meier (K-M) tahmin edicisi olmaktad:r. analizi için önerilen neredeyse tüm istatistiksel yöntemlerde T ve C ’nin baG:ms:zl:G: varsay:m: T modeli çerçevesinde, Sansürlü verilerin kullan:lmaktad:r. Bu çal:#mada, bu genel varsay:m:n geçerliliGinin sorguland:G: durumlarda, yani bireyin saGkal:m süresinin sansürlemenin ortaya ç:k:# nedenleriyle ili#kili olduGu bilgilendiri (informative) sansürleme modeli çerçevesinde, zay:fl:k(frailty) daG:l:m: yard:m: ile S (t ) saGkal:m fonksiyonu için önerilen uyarlanm:# Kaplan-Meier tahmin edicisi incelenmi#tir. Anahtar sözcükler: Bilgilendirici Sansürleme, Bilgilendirici Olmayan Sansürleme, Kaplan- Meier Tahmini, Frailty 1. G R B Klinik çal malarda, en genel anlam yla, önceden belirlenen bir olay n ortaya ç kmas na kadar geçen süre olarak elde edilen verilere ‘sa!kal m verileri’ ad verilir. Çal man n ba nda belirlenen ve ortaya ç kmas beklenen olay, ölüm olabilece!i gibi, bir hastal ! n ortaya ç kmas , bir komplikasyonun belirmesi yada epileptik bir krizin ba lamas gibi olaylarda olabilmektedir. Sa!kal m analizinde ortaya ç kmas beklenen olay genellikle olumsuz oldu!undan ba ar s zl k olarak ifade edilir. Sa!kal m verilerinin analizi, istatistikte özel bir alan olarak göze çarpmaktad r. Bu tip verilerinin incelenmesinde en önemli nokta belirlenen olay n ortaya ç kmas na kadar geçen sürenin ba ar l bir ekilde gözlenebilmesidir. Baz durumlarda, baz deney birimleri için bu süre tam olarak gözlenemez ve bu gözlemler için tüm bilinen, bireyin sa!kal m süresinin belirlenen olay n ortaya ç kma süresini am oldu!udur. Bu tür gözlemlere sa!dan sansürlü gözlemler denir. Sa!kal m analizini di!er 214 istatistiksel analizlerden ay ran ve bu tür verileri özel yapan sansürlemenin varl ! d r. K saca, sansürleme gözlemelerin k smen bilinmesidir. Klinik denemelerde, biyolojik ve medikal çal malarda kar la lan yada en s k kullan lan sansürleme çe idi sa!dan sansürlemedir. Bu çal mada, sa!dan sansürlemenin sa!kal m verilerinin analizine olan etkileri ele al nm t r. Sa!kal m modellerinde sansürleme bilgilendirici olmayan (noninformative) ve bilgilendirici (informative) olarak ikiye ayr lm t r. Hemen hemen sansürlenmi veriler için tüm istatistiksel yöntemlerde sansürlemenin bilgilendirici olmad ! varsay lm t r. Yani, sa!kal m süresinin sansürlemenin nedenlerinden etkilenmedi!i kabul edilmektedir. 2.Kaplan-Meier Tahmini t1 , t2 ,..., tn eklinde gösterilen bir rasgele örneklemi anlatmak için en uygun yol, ampirik sa!kal m fonksiyonunun yada ampirik da! l m fonksiyonunun grafi!ini çizmektir. Bu yöntem, da! l m n parametrik olmayan tahminini gerektirmektedir. n birimlik bir rasgele örneklemde sansürlenmi verilerin olmad ! durumda ampirik sa!kal m fonksiyonunun tahmini; t zaman:nda ya#ayan birey say:s: N t = Sˆ (t ) = n n , t >0 (2.1) olarak tan mlan r. Ampirik sa!kal m fonksiyonunun grafi!i azalan bir basamak fonksiyonudur . Genel olarak, sa!kal m süresi t’ye e it d tane sa!kal m süresi var ise, ampirik sa!kal m fonksiyonu her ti zaman nda d i ni kadar azal r (rekil 2.1). 215 Sˆ (t ) 1 d1 n1 Sˆ (t1 ) d2 n2 Sˆ (t2 ) d3 n3 Sˆ (t3 ) d4 n4 Sˆ (t4 ) 0 t1 t2 t3 t ..... t4 rekil 2.1 Ampirik sa!kal m fonksiyonu grafi!i Sansürlenmi gözlemlerin oldu!u örneklemlerde ise, sa!kal m süresi t ’den büyük gözlemlerin say s kesin olarak bilinemeyecektir. Bu durum, sansürlemenin olmad ! durumda elde edilen sa!kal m fonksiyonunun tahmininin sansürlemenin oldu!u duruma uyarlanmas n gerektirir. Bu uyarlama sonucu elde edilen sa!kal m fonksiyonunun tahmini "Çarp m Limit (Ç-L) tahmini" ya da "KaplanMeier (K-M) tahmini" olarak bilinir [2]. ( ti , L i ) , i = 1, 2,..., n sa!kal m sürelerinin sansürlenmi bir rasgele örneklemini göstermektedir. Bireyler için ba ar s zl ! n meydana geldi!i k ( k ! n) tane ayr t1 < t2 < ... < tk zamanlar n n oldu!u ve t j zaman nda birden fazla ba ar s zl ! n meydana gelebilme olas ! n n var oldu!u dü ünülsün. d j = " I (ti' = t j , L i = 1) , t j zaman nda meydana gelen ba ar s zl klar n say s n vermektedir. t1 , t2 ,..., tk sa!kal m sürelerine ek olarak, ayn zamanda sa!kal m süreleri gözlenememi bireylere ait sansürleme zamanlar vard r. Bu durumda, S (t ) ’nin KM tahmini a a! daki gibi tan mlan r. nj Sˆ (t ) = j:t j <t dj (2.2) nj 216 Burada, n j = " I (t ' j 8 t j ) eklinde ifade edilir ve t j zaman nda risk alt nda bulunan birey say s n yani t j zaman ndan önce sa! olan ve sansürlenmemi birey say s n göstermektedir. 3. B LG LEND R C SANSÜRLEME VE B LG LEND R C OLMAYAN SANSÜRLEME Medikal çal malardan elde edilen sa!kal m tipi verilerde en s k kar la lan sansürleme tipi sa!dan sansürlemedir. Sansürlenmi sa!kal m verilerinin analizinde kullan lan neredeyse tüm istatistiksel yöntemlerde, sansürlemenin bilgilendirici olmad ! (noninformative) varsay lmaktad r. Bu varsay mda, sa!kal m süresinin sansürlemenin meydana gelme sebeplerinden etkilenmedi!i dü ünülmektedir. Örne!in; klinik çal malarda hastalar tedaviden, tedavinin yan etkilerinden veya tedavinin etkisiz kalmas ndan veya ba ka bir ajan n ortaya ç kmas ndan dolay ayr labilir. Bu durumlar n sonucunda, sansürlü gözlemler elde edilmektedir. Böyle durumlarda, sa!kal m fonksiyonunun tahmini a amas nda, her bireyin sansürlenme nedeninin sa!kal m süresine olan etkisi göz ard edilmektedir. Yani; sansürlemenin bireyin sa!kal m süresi hakk nda bilgi vermedi!i dü ünülmektedir [3]. Sa!dan sansürlemenin varl ! nda, sa!kal m fonksiyonunun tahmin probleminde, C1 , C2 ,..., Cn sansürleme zamanlar n n T1 , T2 ,..., Tn sa!kal m sürelerinden ba! ms z oldu!u dü ünülen model için, K-M tahmini, S (t ) için en uygun tahmin edici olmaktad r. Bu varsay m n geçerlili!inin a a! da belirtilen üç durum için sorgulanabilir oldu!unu öne sürülmü tür [3]. Klinik denemelerde tedavinin yan etkilerinden dolay çal madan ayr lmalar Yine klinik çal malarda, hastalar n metaztas gibi kritik sebeplerden dolay çal maya devam edememesi As l ortaya ç kmas beklenen olay d nda, ikinci bir olay n ortaya ç kmas nedeniyle çal madan ayr lmas Bu üç durumda da bireylerin sa!kal m süreleri sansürlenmi tir. Sansürleme sonucunda; hastal ! n seyri hakk nda hüküm vermek (prognoz) için kullan lan gelecek sa!kal m tahminleri, sansürlenen bu bireylerin olas sa!kal mlar ndan etkilenmektedir. Fakat, K-M tahmini bu durumu gözard etmektedir. 217 Sansürlemenin gerçekçi olmayan prognoz ortaya ç kard ! durumlarda, uygun tahmin ediciler K-M tahmin edicisi ile üstten, gözlenen X rasgele de!i keninin ampirik sa!kal m fonsiyonu ile alttan s n rl olmal d r [4]. 3.1 Bilgilendirici Sansürleme Sansürlemenin, gerçekçi olmayan bir prognozu ortaya ç kard ! durumlarda sa!kal m fonksiyonunun tahmini için basit modellere ihtiyaç duyulmu tur. Bu amaçla, William A. Link ‘in çal mas nda; sansürlemenin yüksek (dü ük) risk grubuna uyguland ! varsay lan modellerde sa!kal m fonksiyonu tahmini için uyarlanm K-M tahmin edicisini önermi tir. 3.1.1 Model Bilgilendirici sansürleme için önerilen modelde, sa!kal m olas l klar aras ndaki heterojenli!i ifade eden ve Vaupel, Mantan ve Stallard (1979) taraf ndan tan mlanan ‘zay fl k modeli ‘(frailty model) göz önüne al nmaktad r. Zay fl k (frailty); olaylar kar s ndaki bireysel dayan kl l k veya zay fl ! ifade etmektedir. Modeldeki anlam ise, bireyler aras ortaya ç kan rasgele heterojenliktir. Sa!kal m süresini ifade eden T ile ili kili olarak, Z rasgele de!i keni ‘zay fl k’ (frailty) olarak adland r lmaktad r. Zay fl k modeli, bir ki iye ait zay fl k z olmak üzere, µ ( t ; z ) = z µ (t ) formunda oldu!u varsay lan t ya ndaki bir kimsenin hazard oran n belirler. Burada; ya etkisini gösteren µ ( t ) , z ’den ba! ms zd r [1]. Zay fl k de!erine ba!l ko ullu sa!kal m fonksiyonu; /5 Pr(T 8 t | Z = z ) = S (t | Z = z ) = exp 0 15 olarak verilmektedir. Amaç; ; z µ s ds ( ) < .0 = t S (t ) = E {S (t | Z )} (3.1) sa!kal m fonksiyonunu tahmin etmektir. Bilgilendirici olmayan yada ba! ms z sansürleme modelinde, T sa!kal m süresi ve C sansürleme süresinin ba! ms z oldu!unu varsay m na daha önce yer verilmi ti. Bilgilendirici sansürlemede ise, sansürlemenin meydana gelmesinin yüksek(dü ük) zay fl k de!erine sahip bireyler için olas oldu!u varsay lmaktad r. Yani; Z de!eri çok büyük (yada küçük) ve T ! C ise sansürlü gözlem olarak kaydedilmektedir. A , Z ’nin de!er kümesi olmak üzere, X ve T aras ndaki ili ki, 218 /1, Z 7 A olmak üzere; 10, d . y GA =0 X = (1 G AT ) + G A min(T , C ) (3.2) olarak ifade edilir [4]. 3.1.2 Sa<kal m fonksiyonu tahmini Ti , sa!kal m süresi ise, Ti ’nin t ’den büyük olup olmad ! kesinlikle bilinir. E!er, Ti , t ’ye e it veya büyük bir sansürleme zaman ise, gerçek sa!kal m süresinin (ölüm zaman n n) t ’den büyük oldu!u bilinir. t ’den küçük bir sansürleme zaman için ise, bu bireye ait sa! kal m süresinin t ’den büyük olup olmad ! söylenemez. Çünkü bu süre, Ti ile t aras na dü ebilir. E!er, S (t ) bilinseydi, bu sansürlü gözlemin sa!kal m süresinin t ’den büyük olmas olas l ! , Pr(T > t | L = 0) = S (t ) S (Ti ) olarak tahmin edilebilirdi. n 1 5/ n Sˆ (t ) ;5 Sˆ (t ) = 0" M(Ti > t ) + " < ˆ n 51 i =1 i =1 S (Ti ) 5 = (3.3) 0 = x0 < x1 < ... < xn s ral gözlem de!erleri ve L (1) , L ( 2) ,..., L ( n ) , L ’n n gözlemlere kar l k gelen de!erlerini göstermek üzere, sa!kal m fonksiyonlar n n dizisinin tek limiti olan K-M tahmini öyle elde edilir ( K * + ) ; n 1 /5 n S% ( K ) (t ) ;5 S% ( K +1) (t ) = 0" M( X i > t ) + " 1 L ( i ) ( K ) < n 15 i =1 S% ( xi ) 5= i =1 ( ) (3.4) Sonuç olarak, (3.4) ile gösterilen ifadenin yak nsamas sonucu a a! daki ifadeye ula l r. n 1 /5 n S% (t ) ; Sˆ (t ) = 0" M( X i > t ) + " 1 L ( i ) < n 15 i =1 S% ( xi ) = i =1 ( ) (3.5) Bu e itlik, t zaman ndan sonra tahmin edilen sa!kal m fonksiyonunun, t ’den sonra sa! kalan bireylerin oran ile t ’den sonra sa!kalma olabilirli!i olan fakat t ’den önce sansürlenen bireylerin oran n n toplam oldu!unu söylemektedir. 219 Bilgilendirici sansürleme modeli varsay m alt nda, Pr(T > t | X = xi , L = 0) = S ( t | Z 7 A) S ( xi | Z 7 A) (3.6) olmaktad r. Buradan hareketle, n 1 5/ n S% ( K ) (t | Z 7 A) 5; K S% ( +1) (t ) = 0" M( X i > t ) + " 1 L ( i ) ( K ) < n 51 i =1 S% ( xi | Z 7 A) 5= i =1 ( ) (3.7) elde edilir. S% ( K ) (t | Z 7 A) , S (t | Z 7 A) ’n n tahminidir . Yine (3.7) ile gösterilen ifadenin, a a! daki ifadeye yak nsad ! dü ünülmü tür. k * + durumunda elde edilen bu tahmin ediciye uyarlanm KM (MKME) tahmin edicisi denir. n 1 /5 n S% (t | Z 7 A) ; Sˆ (t ) = 0" M( X i > t ) + " 1 L ( i ) < n 51 i =1 S% ( xi | Z 7 A) = i =1 ( ) (3.8) Bu dü ünceye göre a a! da ki simülasyon sonuçlar elde edilmi tir. 4. S MÜLASYON E exp(1) , Z exp(1) ve U T = E / ( E + Z ) olmak üzere, (U T , G A ) çiftinden 1000 tane örneklem üretilmi tir. G A = I ( Z 7 A) , A = [3, + ) ve µ ( t ; z ) = z µ (t ) , t 7 ( 0,1) formunda olup, µ (t ) = (1 t ) 2 olarak tan mlanm t r. Çal mada, A = [3, + ) kümesi, Pr( Z 7 A) = 0.90 kabul edilerek belirlenmi tir. Elde edilen verilere göre, uyarlanm KM tahmini, KM tahmini elde edilmi ve elde edilen tahminlere ili kin yan ve hata kareler ortalamas (HKO) de!erleri elde edilmi tir. U T de!erleri (0,1) aral ! nda düzgün da! l ma sahip oldu!undan gerçek sa!kal m 220 de!erleri elde edilerek tahmin de!erleri ile kar la t r lm t r. Simülasyon çal mas nda tekrar say s 1000 olarak al nm ve sansürlemenin zay fl k de!eri yüksek olan gruba uyguland ! dü ünülmü tür. t 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 Tahmin Edici KME MKME KME MKME KME MKME KME MKME KME MKME KME MKME KME MKME KME MKME KME MKME Sa<kal m Tahmini 0.9067 0.9068 0.8048 0.8043 0.7043 0.7023 0.6044 0.6017 0.5033 0.5006 0.4043 0.4019 0.3036 0.3016 0.2018 0.2005 0.1010 0.1005 Yan HKO 0.0064 0.0084 0.0048 0.0043 0.0040 0.0023 0.0044 0.0017 0.0033 0.0006 0.0043 0.0019 0.0036 0.0016 0.0018 0.0005 0.0009 0.0005 0.000135 0.000177 0.000177 0.000176 0.000231 0.000219 0.000274 0.000260 0.000249 0.000239 0.000256 0.000241 0.000219 0.000209 0.000156 0.000153 0.000094 0.000093 Gerçek Sa<kal m 0.90 0.80 0.70 0.60 0.50 0.40 0.30 0.20 0.10 Tablo 4.1: Simülasyon Sonuçlar KAYNAKLAR [1] Hougaard, P. (1986), Survival model for heterogeneous populations derived from stable distributions. Biometrics, 73, 2, 387-96. [2] Kaplan,E.J., Meier, P. (1958), Nonparametric estimation from incomplete observations. Journal American Statistics Association, 53, 457-481. [3] Lagakos, S.W., (1979), General right censoring and its impact on the analysis of survival data, Biometrics, 35, 139-156. [4] Link, W.A,(1989), A model for informative censoring, Journal of the American Statistical Assaciation, 84,407,749-752. [5] Williams, J. S., Lagakos, S.W., (1977), Models for censored survival analysis: Constant-sum and variable sum models. Biometrika, 64, 215-24. 221 Random Forest ve Destek Vektör Makinas Yöntemleri ile Gen Seçimi ve S n flama Ar. Gör. Erdal COrGUN1 Dr. Erdem KARABULUT2 Hacettepe Üniversitesi, T:p Fakültesi, Biyoistatistik Anabilim Dal:, S:hhiye, Ankara, Türkiye Hacettepe Üniversitesi, T:p Fakültesi, Biyoistatistik Anabilim Dal:, S:hhiye, Ankara, Türkiye erdal.cosgun@hacettepe.edu.tr ekarabul@hacettepe.edu.tr Prof.Dr. Ergun KARAAoAOoLU3 Hacettepe Üniversitesi, T:p Fakültesi, Biyoistatistik Anabilim Dal:, S:hhiye, Ankara, Türkiye ekaraaga@hacettepe.edu.tr Özet Bu çal:#mada, son y:llarda özellikle veri madenciliGi alan:nda s:n:flama yapmak için kullan:lan iki yöntemden "Random Forest" (RF) ve "Destek Vektör Makinas:" (DVM) yöntemleri ile birlikte yapay veri üzerinde gen s:n:flamas: ve seçimi yap:lm:#t:r. Gen ara#t:rmalar: maliyet ve zaman bak:m:ndan dezavantaja sahip olmalar:ndan dolay: az say:da hasta üzerinde yap:labilmektedir. Az say:daki hastaya ait binlerce gen verisini deGerlendirmekte klasik istatistiksel yöntemler zay:f kalmaktad:r,bu nedenle söz konusu iki yöntem kullan:lm:#t:r. Sonuç olarak, RF yöntemi daha yüksek doGru s:n:flama oran:na ula#m:#t:r. Gen seçiminde ise her iki yöntem benzer sonuçlara ula#:lm:#t:r. leriki çal:#malarda yanl: sonuçlara ula#madan s:n:flama yapmak için bu yöntemlerin iyi birer alternatif olduGu rahatl:kla söylenebilir. Anahtar sözcükler: Mikroarray Veri; Veri MadenciliGi; Random Forest; Destek Vektör Makinas:; Gen S:n:flamas:; SIMAGE. Abstract Gene Selection And Classification with Random Forest and Support Vector Machine In this study, Random Forest (RF) and Support Vector Machine (SVM),two of the methods which have been used for classification in Data Mining in recent years, are used in classifying and selecting genes on artificial data.Gene researches can be applied to a small number of patients as they have disadvantages considering the cost and time constrictions.Classical statistical methods are not sufficient in determining the gene data from a limited number of patients, so these two methods have been used. Consequently, RF method have reached to a higher rate of correct classification. But in gene selection, both methods have achieved the same results. It can be easily stated that these methods are each good alternatives in classification without reaching biased results. Keywords: Microarray Data; Data Mining; Random Forest; Support Vector Machine; Gene Classification; SIMAGE 1. Giri! nsan genomunda yakla k 30.000 gen bulundu!u varsay lmaktad r. Bu kadar çok genin tek tek incelenmesi mümkün de!ildir. Fakat günümüzde, geli tirilen otomasyona dayal sistemlerle çok fazla say daki genin ayn anda analizi mümkün hale gelmi tir. Ancak gen ara t rmalar hem maliyeti hem de ölçümlerin tekrar edilmesindeki zorluklar nedeniyle çok fazla hasta üzerinde yap lamamaktad r. Bu nedenle az say daki hastaya ait yüzlerce gen verisi üzerinden baz sonuçlara ula lmak durumunda kal nm t r. Ve klasik istatistiksel yöntemler bu tip verileri aç klamakta sorun ya amaktad r. Son y llarda bu tip veriler üzerinde Destek Vektör Makinas (DVM), Yapay Sinir A!lar , Karar A!açlar , Naive Bayes gibi birçok veri madencili!i yöntemi denenmi ve ba ar l sonuçlar elde edilmi tir. Bu çal mada amaç: Random Forest (RF) ve DVM yöntemlerinin gen ara t rmalar nda önemli genlerin 222 belirlenmesi ve hastalar n s n fland r lmas nda nas l kullan laca! n , SIMAGE [9] projesinin bir ürünü olan “DNA Ekspresyon Veri Simülatörü” ile türetilen 15 hastaya ait 2200 gen verisi üzerinde göstermektir. 2. Yöntemler 2.1. Materyal Türetilen 15 hastaya ait gen ekspresyon verilerinden en önemli genin seçimi ve hastalar n s n flanmas i lemi için Random Forest ve Destek Vektör Makinas yöntemleri kullan lm t r.Uygulamalar Statistica 7- Data Miner ve R programlar nda yap lm t r. RF yöntemi genelle tirmeye ihtiyaç duymad ! için herhangi bir müdahale yap lmam , DVM için ise 10-fold Çapraz geçerlilik ( Cross Validation) yap larak sonuçlar genelle tirilmi tir. Verilerin türetildi!i SIMAGE [9] program , web tabanl olarak, belirli parametrelerle veri türeten (Ek.1’de parametreler verilmi tir.) bir simulasyon program d r. Bu programdaki amaç ara t r c lara gerçek veri setine en uygun veriyi elde etme imkan vermektir. Bu çal mada Ek.1’de verilen ve uluslararas toplant larda kabul görmü parametrelerle veriler türetilmi tir. 2.2. Random Forest RF bir çok karar a!ac ndan meydana gelir. Her bir a!aç bir s n flama yapar. Ve bu s n flamalar oy (vote) al r. RF ise forest içindeki tüm a!açlardan en çok oy (vote) alan seçer ve onun s n flamas n kullan r. Her Bir A!ac n Olu umu : 1) Bootstrap yöntemi ile e!itim veri setinden örneklem seçilir ve seçilen verilerin 2/3’ü a!aç olu turmak için kullan l r. (inBag) 2) M tane girdi de!i kenden, her dü!ümde m tanesi rastgele olarak seçilir ve bunlara göre en iyi ayr lma gerçekle tirilir, bölünme kriteri “gini de!eri”dir. “m” de!eri RF olu tururken her a!açta sabit olmal d r. 3) Her a!aç ne kadar bölünürse bölünsün, budanmaz (no pruning), 4) Out-of-bag verileri ile tahmin yap l r ve “tahmin hata”lar belirlenir. RF hata oran 2 duruma ba!l d r: 4.a) ki a!aç aras ndaki korelasyona. (Korelasyon artt kça hata oran artar.) 4.b) Her a!ac n kendi hata oran na. ( Dü ük hata oran na sahip a!aç daha iyi s n flay c d r. Her bir a!aç dü ük hata oran na sahip ise RF da dü ük hataya sahip olur.) 223 Tüm a!açlar için; olu turulduklar ndan sonra, tüm veri a!aca uygulan r, ve tüm olgu çiftlerinde benzerlik (proximity) hesaplan r. E!er iki olgu ayn uç dü!ümde yer al yorsa akrabal klar bir birim artar. Bu i lem sonras nda çiftler aras ndaki akrabal k say s a!aç say s na bölünerek normalle tirilir. Elde edilen bu de!erler “eksik veri, a r de!er” analizlerinde i e yarar. 2.2.a. OUT-OF-BAG (OOB) Hata Tahmini RF’da çapraz geçerlilik (cross-validation) ya da di!er yans z tahmin sa!lamay amaçlayan testlere ihtiyaç yoktur. Algoritma kendi içinde bunu u ekilde gerçekle tirir. 1) Tüm a!açlar farkl bootstrap örneklemleri ile olu turulur. Ayr ca e!itim veri setinin 3’te 1’i bootstrap a amas nda ayr l r (OOB) ve a!aç yap s nda kullan lmaz. 2) k. nc a!aç yap s nda d ar da b rak lan veriler (OOB), k. nc a!aca uygulanarak s n flama yap l r. 3) Algoritma sonunda, j, OOB ile gerçekle tirilen deneme sonunda, bir verinin ait oldu!u s n f ifade ederken, tüm veriler ile yap lan s n flama sonucu j’nin gerçek s n f de!erine e it olmad ! durumlar n oran “OOB error rate”tir ve yans zd r. DeGi#ken önemliliGi : RF’taki her bir a!ac n olu turulmas s ras nda, OOB verileri a!açta kullan l r ve do!ru s n flamalar için oy (vote) lar say l r. Rastgele seçilen i. de!i ken için OOB’den veriler seçilir ve a!açta denenerek bir “vote” de!eri elde edilir. Tüm a!açlarda i. de!i keni için elde edilen ortalama oy (vote) de!eri, i. de!i keninin önemlili!ini (importance) ifade eder. RF’nin Baz Özellikleri: RF’da a r uyum olamaz. stedi!iniz kadar a!aç türetebilirsiniz. H zl bir algoritmad r. Elde edilen RF güncellenen veri setlerinde kullan lmak üzere saklanabilir. Eksik veri analizlerinde çok etkili bir metottur, yüksek do!ru s n flama oran eksik veriler olsa da devam eder. Yüzlerce input de!i keni herhangi bir eleme yapmadan kullanabilir. Unsupervised kümeleme yönteminde kullan labilir. 224 2.3. Destek Vektör Makinas: (DVM) Son y llarda özellikle veri madencili!inde s n flama yapmak amac yla s k kullan lan bir yöntemdir. lk olarak Vapnik taraf ndan 1963 y l nda bir do!rusal s n flay c olarak önerilmi tir. Uygulamada yayg n olarak kullan lmaya 1990’lar n sonunda ba lanm t r. Boser ve arkada lar (1992) do!rusal olmayan s n flay c lar olu turmak için çekirdek fonksiyonlar n n kullan lmas n önermi lerdir. Vapnik (1996) regresyon için DVM’nin uyarlamas olan destek vektör regresyonunu (DVR) önermi tir. DVM temelde s n flanmas zor olan (do!rusal ya da do!rusal olmayan) veri setlerini, kulland ! çekirdek fonksiyonlar yard m ile kolayl kla s n flayabilen bir s n flama ve regresyon yöntemidir. Popüler olmas n sa!layan 4 önemli etken: Yöntemin güçlü kuramsal temeli Büyük veri setleri üzerinde çal abilmesi Kullan lan çekirdek fonksiyonlar ile esnek bir algoritmas n n olmas Sonuçlar ndaki yüksek do!ruluk oran d r. Do!rusal olarak s n flanabilen verileri birbirinden ay rt edebilmek için olas pek çok do!rusal fonksiyon içerisinden marjini en büyük olan belirler. Do!rusal olarak s n flanamayan verileri daha yüksek boyutlu uzaya aktar r ve marjini en büyük olan çoklu-düzlemleri bulur. Verileri çok boyutlu uzayda kategorilere ay rmak için farkl çekirdek fonksiyonlar kullan labilir: Do!rusal Polinomiyal Radyal temel fonksiyonu (RTF) Sigmoid Metin madencili!i , Görüntü/yüz tan ma, Görüntü i leme, Ses i leme, El yaz s tan ma, T p alan nda ise özellikle de!i ken say s n n çok fazla oldu!u mikroarray verilerin analizi gibi çok çe itli alanlarda kullan lmaktad r. D veri seti (X1,y1), (X2,y2), ..., (Xn,yn) olarak verilmi olsun. Burada Xi’ler e!itim veri setindeki ba! ms z de!i kenler ve yi’ler s n f etiketleridir. Her bir yi +1 ya da –1 de!erlerinden birini alabilir (yi 7 {+1,-1}). 225 Bekil 1. Destek Vektörler Veriyi ay rmak için kullan lan çoklu düzlem W F X + b = 0 ’d r. Burada, W a! rl k vektörü ve b yanl l k olarak adland r lan skalerdir. Çoklu düzlem ile marjin üzerindeki herhangi bir nokta 1 ’d r. aras ndaki uzakl k: W Bu de!er di!er marjin üzerindeki herhangi bir noktan n çoklu düzleme olan uzakl ! ile 2 ayn d r. Bu nedenle, marjin geni li!i W Marjini en büyük yapmak, di!er bir deyi le paralel düzlemler aras ndaki mesafeyi olabildi!ince açmak için uygun “W ve b” seçilir. A! rl klar ayarlanarak, marjinleri tan mlayan çoklu düzlemler a a! daki gibi yaz labilir: w F xi b 8 +1 w F xi b ! 1 ise xi. gözlem ilk s n fa ise xi. gözlem ikinci s n fa (1) (2) Bu e itlikler: yi ( w F xi b) 8 +1 1 ! i ! n için eklinde yaz labilir. Ortaya ç kan optimizasyon probleminin çözümü W’nin mutlak de!erine ba!l d r. Bu nedenle, matematikte konveks olmayan optimizasyon problemi olarak adland r lan ve çözümü zor olan 1 2 bir problemle kar la l r. Ancak e itlikte, çözümü de!i tirmeden w yerine w 2 kullan labilir. Bu durumda problem, standart quadratik programlama teknikleri ve programlar ile çözülebilir biçime dönü ür. 226 Destek vektör makinesi a a! daki optimizasyon probleminin çözümünü gerektirir. l 1 T min N N + C " 9 i N ,b ,9 2 i =1 (3) G i (N T ( xi ) + b ) 8 1 9 i (4) 9i 8 0 (5) Hata terimi k s tlay c fonksiyon ile artar ve optimizasyon geni marjin-küçük hata k s t aras ndaki dengenin sa!lanmas na dönü ür. Gözlemler do!rusal olarak s n flanamad ! nda Cortes ve Vapnik 1995’te yanl etikenlenmi (s n flanm ) gözlemlere izin veren uyarlanm maksimum marjini önermi tir. Verileri iki s n fa tam olarak do!ru bölen bir çoklu düzlem yoksa, esnek marjin yöntemi olabildi!ince do!ru olarak örnekleri ay rmaya çal r. Tam olarak ayr labilen veriler aras ndaki marjini maksimum yapar. Gözlemler do!rusal olarak s n flanamad ! nda Bekil 2. Do!rusal olarak ayr lamayan veri setleri Çekirdek fonksiyonunun kullan m , dönü üm yap lm özellik uzay nda en büyük marjinli çoklu düzlemin elde edilmesine olanak sa!lar. Veri daha yüksek boyutlu bir uzaya dönü türülür. Böylece, orijinal girdi uzay nda do!rusal olmayan s n flay c yüksek boyutlu özellik uzay nda bir çoklu düzlem olur. Bekil 3. Çoklu Düzlemde S n flama Örne!i 227 Çekirdek fonksiyonu K ( xi , x j ) = ( xi ) ( x j ) ile gösterilir. En s k kullan lan çekirdek fonksiyonlar: 1) DoGrusal K ( xi , x j ) = xiT x j 2) Polinomiyal K ( xi , x j ) = (xi x j ) 3) Radyal Temel Fonksiyon K ( xi , x j ) = exp G xi 4) Sigmoid K ( xi , x j ) = tanh(kxi x j L ) (6) d ( (7) xj 2 ) ,G > 0 (8) (9) 2.3. DNA Ekspresyonu Gen ekspresyonu, DNA dizisi olan genlerin, fonksiyonel protein yap lar na dönü mesi süreci için kullan lan bir terimdir. Basitçe, bu durum genlerin aç k (aktif) olup olmad klar olarak da tan mlanabilir.Bu deneyleri yapan bir çok Gen ekspresyon tekni!i bulunmaktad r.(SAGE, DNA ekspresyon,Tiling array, ChIP-Seq, mRNA-Seq.) Bu çal mada DNA Gen ekspresyonu tekni!i kullan lm t r.Bu teknik sonucu elde edilen görüntülerin analizi ile her bir gen için “k rm z ve ye il” n yo!unluk de!erlerinin say sal olarak belirlenmi tir. Sonras nda bunlar n birbirine oran n n logaritmas ile as l ekspresyon verileri elde edilir. A a! da bu tip verilerdeki ak emas gösterilmektedir. Bekil 4. Mikroarray Veri analiz Ak remas 228 Ekspresyonun ölçülmesi tüm hasta örnekleri için a a! daki formüllerden hesaplan r : K rm z Yo!unluk = Rfg - Rbg Ye il Yo!unluk = Gfg - Gbg fg = foreground, bg = background Ve bu iki sinyal oran n n logaritmas (2 taban nda) ekspresyon oran n verir. Log2 (K rm z Yo!unluk / Ye il Yo!unluk ) Bekil 5. Örnek Gen Expression Verisi 229 3. Sonuç ve Öneriler Çizelge 1’de, kullan lan dört çe it çekirdek fonksiyon için do!ru s n flama yüzdeleri verilmi tir. En yüksek yüzdeyi veren çekirdek fonksiyon DVM yöntemini RF yöntemi ile kar la t r rken kullan lm t r. Yöntemler ile elde edilen sonuçlar u ekildedir: Çizelge 1. DVM çekirdek fonksiyonlar için Do!ru s n flama Yüzdeleri DVM Çekirdek Fonksiyon Do<ru S n flama Yüzdeleri Do<rusal 89,2 Sigmoid 74,2 Polinomiyal 76,5 Radyal Temel 86,5 Çizelge 2. RF ve DVM için Do!ru S n flama Yüzdeleri YÖNTEM Do<ru S n flama Yüzdeleri RF 91,3 DVM(Do<rusal Çekirdek 89,2 230 Çizelge 3. RF ve DVM için Önemli Bulunan Genler YÖNTEM Seçilen YÖNTEM Seçilen En En Önemli Önemli Gen Gen No No 509 RF 2050 824 DVM 415 2146 111 1645 189 545 1841 Yukar daki Çizelge 2 ve Çizelge 3’den de anla ld ! üzere, RF’ n do!ru s n flama oran n n DVM do!ru s n flama oran na göre daha fazla oldu!u görülmektedir. Bu sonuç literatürdeki çal malarla da uyumludur. Bununla birlikte SIMAGE veri setlerinin de bu tip çal malarda, gerçek veri s k nt s çekilen durumlarda kullan l oldu!u görülmektedir. Çal man n bir di!er amac olan önemli genlerin seçiminde ise, her iki yöntem için ilk 5 gen farkl olmakla birlikte, ilk 100 gen için yap lan kar la t rmada %56 oran nda ayn genler önemli bulunmu tur. Bu nedenle “gen seçimi ve hastalar n” s n fland r lmas sonuçlar n n ayr ayr incelenmesi ve birincil amaca göre do!ru yakla mlar n seçilmesi gerekmektedir. Bu çal madaki birincil amaç son zamanlarda gen ara t rmalar nda temel araçlar içine giren Random Forest ve Destek Vektör Makinas yöntemlerinin yapay veri üzerinde uygulamalar n göstermektir. Bununla birlikte yöntemlerin teorik alt yap lar na da de!inilmesi çal man n literatüre ayr bir katk s d r. 231 Kaynaklar [1] Gene expression,Statistics ,(2002) 246, Week 3, [2] Leo Breiman and Adele Cutler, (2003), Random Forests [3] Freeman, W. M., Robertson, D.J., Vrana, K.E., (2000) , Fundamentals of DNA Hybridization Arrays for Gene Expresion Analysis. BioTechniques. 29:1042-1055 [4] Ramón Díaz-Uriarte, Sara Alvarez de Andrés, (2006), Gene Selection And Classification Of Microarray Data Using Random Forest , BMC Bioinformatics, 7:3 [5] Sayan Mukherjee, (2006), Classifying Microarray Data Using Support Vector Machines, , Doctorial Thesis, BMC Bioinformatics [6] Alex H. Beesley, ( ), The gene expression signature of relapse in paediatric acute lymphoblastic leukaemia: implications for mechanisms of therapy failure, [7] Aaron J. Cummings,Joseph R. Freitas,Katrin Hoffmann,Martin J. Firth,Jette Ford, [8] Lingkang Huang, Alexandra N Heinloth, Zhao-Bang Zeng, (2006), Genes related to apoptosis predict necrosis of the liver as a phenotype observed in rats exposed to a compendium of hepatotoxicants , BMC GENOMICS [9] http://bioinformatics.biol.rug.nl/websoftware/simage/simage_start.php, Son Eri im Tarihi : 21.04.2009 232 Ek .1. SIMAGE Veri Türetme Ayarlar Array number of grid rows 12 Array number of grid columns 4 Number of spots in a grid row 10 Number of spots in a grid column 10 Number of spot pins 48 Number of technical replicates 2 Number of genes 0 Number of slides 10 Perform dye swaps yes Gene expression filter yes Reset gene filter for each slide no Mean signal 10.33 Change in log2ratio due to upregulation 1.07 Change in log2ratio due to downregulation -1.26 Variance of gene expression 2.7 % of upregulated genes 15 % of downregulated genes 11 Correlation between channels 1 Dye filter yes Reset dye filter for each slide yes Channel variation 0.2 Gene x Dye 0 Error filter yes Reset error filter for each slide yes Random noise standard deviation 0.62 Tail behaviour in the MA plot 0.108 Non-linearity filter yes 233 Reset non-linearity filter for each slide yes Non-linearity parameter curvature 0.2 Non-linearity parameter tilt 4.5 Non-linearity from scanner filter yes Reset non-linearity scanner filter for each slide yes Scanning device bias 0.04 spotpin deviation filter yes Reset spotpin filter for each slide no spotpin variation 0.32 Background filter yes Reset background filter for each slide yes Number of background densities 5 Mean standard deviation per background density 0.2 Maximum of the background signal relative to the non-background signals 50 Standard deviation of the random noise for the background signals 0.1 Background gradient filter no Reset gradient filter for each slide yes Maximum slope of the linear tilt 700 Missing values filter yes Reset missing spots filter for each slide yes Number of hairs 3 Maximum length of hair 20 Number of discs 4 Average radius disc 10 Number of missing spots 50 234 Voleybol Maç Sonuçlar n n Modellenmesi: Kesikli Seçim Modelleri ile Bir Uygulama Ar. Gör. Erkan I kl Yrd. Doç. Dr. Mehtap Hisarc kl lar Wayne State University Industrial & Manufacturing Eng. Dept. Detroit, MI 48202, USA dx4774@wayne.edu erkanisikli@yahoo.com stanbul Teknik Üniversitesi #letme MühendisliGi Bölümü Say:sal Yöntemler Kürsüsü 34367-Maçka, stanbul, Türkiye hisarciklilar@itu.edu.tr Özet Voleybol, dinamizmi ve kendine has kurallar yla son derece heyecanl bir spordur. Son y llarda, özellikle medyan n etkisiyle, daha çok izleyici voleybol maçlar na ilgi göstermeye ba lam t r. Bu çal mada, temel amaç, voleybol maç sonuçlar n n modellenmesi ve bir tak m n ba ar s na etki eden etmenlerin belirlenmesidir. Tak m ba ar s , galibiyet durumunda 1; ma!lubiyet durumunda 0 de!erini alan ikili bir ba! ml de!i ken olarak modellenmi , ard ndan da ev sahibi tak m olma, maç izleyen seyirci say s ve dünya s ralamas ndaki durumun buna etkisi olup olmad ! incelenmi tir. Kesikli seçim modellerinin kullan ld ! çal mada, 2008 y l nda gerçekle tirilen üç büyük turnuvaya ait gözlemlerden olu an bir veri seti kullan lm t r. Anahtar sözcükler: Voleybol; Olimpiyat; Spor verisi; Kesikli Seçim Modelleri, Lojit; Probit. Abstract Modeling Volleyball Match Result: An Application of Discrete Choice Models In this study, we are trying to find out if it is possible to predict which team will win, given the optimal combinations of two opponent teams in a volleyball match. We examine if some factors, such as home court advantage, number of spectators, and world rankings have an effect on the outcome of a volleyball match. We estimated some discrete choice models and compared their performances using a data set collected from Beijing Olympics, World League, and World Grand Prix, which were all organized in 2008. The dependent variable in all models is dichotomous, which is 1 if a team wins and 0 otherwise. Keywords: Volleyball; Olympics; Sports data; Discrete choice models; Logit; Probit. 1. Giri! Son y llarda spor bilimleri dünya çap nda oldukça dikkat çekici bir ara t rma alan haline gelmi tir. Uygulama yapmak için gayet elveri li olan spor endüstrisinde, girdiler (oyuncular, koçlar) ve ç kt lar (maç sonuçlar ) hakk nda hemen her türlü bilgiye medya ve nternet arac l ! yla ula mak mümkündür. Bu durum, özellikle profesyonel tak m sporlar endüstrisi için ara t rmac lara zengin bir kaynak olu turmaktad r. Spor endüstrisi de!i ik aç lardan çe itli ara t rmac lar taraf ndan incelenmi tir. Bu çal mada, spor ekonomisinde türlü arz ve talep modelleri kurmaya u!ra m Sandy ve di!erleri (2004), Boon ve Sierksma (2003), Forrest ve Simmons (2002) gibi ara t rmac lardan farkl olarak, futbol maçlar ndaki beraberlik olas l ! n belirlemek için modeller geli tiren Karlis ve Ntzoufras (2001), karar setine ba larken izlenmesi gereken servis stratejisi üzerinde tart an Lee ve Chin (2003), s ral probit modeli kullanarak ngiliz futbol liglerindeki maç sonuçlar n tahmin eden Goddard ve Asimakopoulos (2004) gibi spor müsabakalar n n modellenmesi üzerine odaklan lm t r. Uluslararas 235 spor müsabakalar n n sonuçlar n tahmin etmeye veya modellemeye yönelik ara t rmalar n aras nda voleybola odaklananlar n say s n n yok denecek kadar az oldu!unu belirtmek gerekir. William Morgan taraf ndan yarat lan voleybol, h zl ve hareketleri co ku verici oldu!undan izleyenlere büyük keyif veren bir spordur. Pasla ma, tak m oyunu olma, ikiye bölünmü oyun alan nda oynanma gibi önemli unsurlar n y llar geçse de kaybetmemi olan bu spor dal , ülkemizde geli mekten olan bir imaja sahiptir. Voleybol, Uluslararas Voleybol Federasyonu’na (FIVB) üye olan 220 ülke federasyonu arac l ! yla dünya genelinde tan t lmakta ve geli tirilmektedir. FIVB, çe itli turnuvalarla (Dünya rampiyonas , Dünya Ligi, Dünya Grand Prix, SWATCH Dünya Turu, Dünya Kupas , Büyük rampiyonlar Kupas , Olimpiyatlar) voleybolun her alanda (kad n/erkek, y ld z/genç/büyük, plaj/salon) popüler bir spor olmas için u!ra vermektedir. Bu çal mada, hâlihaz rdaki spor literatürüne katk yapmak amac yla, voleybol maç sonuçlar çe itli aç klay c de!i kenler kullan larak modellenmi ve maç sonuçlar n n önceden kestiriminin mümkün olup olmad ! irdelenmi tir. Saha avantaj , seyirci say s ve dünya s ralamas gibi etkenlerin maç sonuçlar na do!rudan bir etkisi olup olmad ! n ortaya koyabilmek için kesikli seçim modellerinden faydalan lm t r. kinci bölümde, uygulama yap lan turnuvalara dair k saca bilgi verilmi , kullan lan veri kümesi ve de!i kenlere dair gerekli aç klamalar yap lm t r. Üçüncü bölümde, çe itli kesikli seçim modellerinin tahmin sonuçlar verilmi ve bu modellerin k yaslamas yap lm t r. Dördüncü bölümde, sonuçlar özetlenmi ve literatürdeki di!er benzer çal malarla kar la t rmalar yap lm t r. Son bölümde ise, bu çal man n genel anlamda literatürde doldurdu!u bo luk özetlenmi ve ileride yap labileceklere i aret edilmi tir. 2. Veri Kümesi ve De<i!kenler Bir voleybol maç nda, rakip tak mlar n en uygun birle imleri verildi!inde, hangi tak m n galip gelece!ini öngörmenin mümkün olup olmad ! n ara t r rken, toplam 251 gözlem içeren bir veri kümesi kulland k. Veri kümesi, 2008’de, kad n ve erkekler kategorisinde toplam 33 ulusal tak m n mücadele etti!i üç turnuvaya (Dünya Grand Prix, Dünya Ligi, Pekin Olimpiyatlar ) ait çe itli istatistiklerden olu maktad r. Olimpiyatlar, dünyadaki hemen her ulusun temsil edildi!i, hem atletler hem de seyirciler aç s ndan son derece önemli ve heyecan verici bir spor olay d r. Uluslararas Olimpiyat Komitesi, di!er pek çok organizasyondaki durumun aksine, egemenli!i tüm dünyaca tan nmayan ülkeleri bile Olimpiyat oyunlar na dâhil ederek tüm uluslar n sporla birle tirilmesini amaçlamaktad r. Kamuoyunun artan ilgisi ve dünyan n her yerinden gelen kat l mc lar ile Olimpiyat oyunlar n n popülaritesi son yirmi y lda kayda de!er bir art göstermi tir. lk kez 1896 y l nda 14 ulusun kat l m yla gerçekle tirilen Modern Olimpiyat Oyunlar ’na 2008 y l nda dünyan n 204 ülkesinden toplam 10,500 atlet kat lm t r. Bu yüzden Olimpiyat Oyunlar ’n n dünyan n en büyük organizasyonu oldu!unu söylemek yanl olmaz. Dünya Ligi ve Dünya Grand Prix, s ras yla 1990 ve 1993 y llar nda FIVB taraf ndan, dünyada voleybolun tan t m na katk da bulunmalar ve bu spora olan ilgiyi canland rmalar amac yla ihdas edilmi turnuvalard r. Sadece erkekler kategorisinde gerçekle tirilen Dünya Ligi, FIVB taraf ndan organize edilen uluslararas turnuvalar içinde, da! tt ! milyonlarca dolarl k ödüllerle son derece ilgi çekici hale gelmi en uzun soluklu FIVB organizasyonudur. Dünya Ligi’ne k yasla daha az ilgi gösterilen bir organizasyon olsa da, sadece kad nlar kategorisinde gerçekle tirilen Dünya Grand Prix, son zamanlarda özellikle Do!u Asya’da ilgi çekici hale gelmi tir. ncelenen bu üç büyük turnuvada ilk üç s raya yerle en tak mlara kupa veya ilt; bu tak mlar n oyuncular na ise madalya verilir. Tablo 1’de, sözü edilen turnuvalarda 2008 y l nda alt n, gümü ve bronz madalya kazanan ulusal tak mlar gösterilmektedir. 236 Tablo 1. Üç Büyük Turnuvadaki Madalya S ralamas OL MP YATLAR Grand DÜNYA SIRA Kad n Erkek Prix LG 1 Brezilya A.B.D. Brezilya A.B.D. 2 A.B.D. Brezilya Küba S rbistan 3 Çin Rusya talya Rusya Tablo 2’de, ilgi dâhilindeki turnuvalarda oynanan maçlar n sonuçlar n n da! l m özetlenmi tir. Tüm sonuçlar, müsabaka cetvelinde ad önce yaz lan tak ma göre düzenlenmi tir. Müsabaka cetvelinde ad önce yaz l olmayan bir tak m n turnuvan n ev sahiplerinden olmas durumunda, modelleme yap l rken, bu tak mlar n yerleri de!i tirilmi tir. Tablo 2. Maç Sonuçlar n n Turnuvalara Göre Da! l m TURNUVA KADIN ERKEK GAL B YET MAILUB YET Dünya Ligi 0 106 68 38 Grand Prix 69 0 44 25 Olimpiyat Oyunlar 38 38 41 35 TOPLAM 107 144 153 98 3:0 0:3 17 14 21 9 20 19 58 42 3:1 3:2 1:3 2:3 35 16 11 13 15 8 8 8 11 10 12 4 61 34 31 25 Modellerde kullan lan ba! ml de!i ken, sonuc, bir tak m n galip gelmesi durumunda 1, ma!lup olmas durumunda 0 de!erini alan bir kukla de!i kendir. Ba! ms z de!i kenler kümesini, iki gruba ayr labilir. Birinci grup, maçlar n karakteristik özelliklerini temsil eden, ço!unlu!u kukla de!i kenlerden meydana gelmektedir. Be sete uzayan baz maçlarda galip gelen tak m, ma!lup olan tak mdan toplamda daha az say alm olabilir. Ancak, bir voleybol maç n en çok say alan tak m de!il, en çok set alan tak m kazan r. Bunun yan s ra, Torgler (2004) gibi baz ara t rmac lar, turnuvan n ev sahibi olman n bir futbol maç n n kazan lma olas l ! na do!rudan etkisi olup olmad ! n incelemi tir. Birinci gruptaki besset, be sete uzayan maçlar n; evsah ise, ev sahibi tak m (organizasyonu düzenleyen ülkelerden biri) olman n etkisini ölçmek için kullan lm t r. Bunlara ek olarak, seyir, spor salonunda maç izleyen toplam seyirci say s n temsil etmektedir. kinci grup, tak m oyuncular n n boy uzunluklar , ya lar , kilolar , blok yükseklikleri (blok yaparken ç kabilecekleri maksimum yükseklik), smaç yükseklikleri (smaç vururken ç kabilecekleri maksimum yükseklik) ile tak mlar n dünya s ralamas ndaki ulusal puanlar gibi sürekli de!i kenlerden olu maktad r. Modelleme yap l rken, bu gruptaki de!i kenlerin (ulusal puanlar temsil eden de!i ken hariç) her maçta her iki tak ma göre ortalamalar kullan lm t r. FIVB dünya s ralamas , tak mlar n son iki y lda düzenlenen büyük turnuvalarda kazand klar ba ar lar n Tablo 3’te özetlenen ekilde puanland r lmas yla olu turulmaktad r. FIVB, her büyük turnuvadan sonra dünya s ralamas n yenilemektedir. FIVB’nin dünya s ralamas prosedürü hakk nda ayr nt l bilgi için http://www.fivb.org/en/volleyball/Rankings/Rankings.htm adresine bak labilir. 237 Tablo 3. ncelenen Turnuvalardan Elde Edilen Ba ar lar n Puanland r lmas Turnuva Dünya Grand Prix Dünya Ligi Olimpiyat Oyunlar S ra 1 2 3 4 5 6 7 8 9 10 11 12 1 2 3 4 5 6 7-9 10-12 13-16 1 2 3 4 5-8 9-10 11-12 Puan 50 45 40 35 30 25 15 10 7 5 3 1 30 26 22 18 14 10 5 3 2 100 90 80 70 45 15 5 Tablo 4‘te, incelenen tak mlar n her turnuvadan önceki ulusal puanlar ve dünya s ralamas ndaki yerleri verilmi tir. FIVB Dünya S ralamas ’na göre Dünya Ligi’ne ve Olimpiyatlara kat lan tak mlar aras nda üçüncü s rada olan A.B.D. Erkek Milli Tak m ile Dünya Grand Prix ve Olimpiyat Oyunlar ’na kat lan tak mlar aras nda birinci s rada olan Brezilya Kad n Milli Tak m her iki turnuvada da ampiyon olmu lard r. 238 Tablo 5. Erkek Tak mlar n n Ulusal Puanlar Tablo 6. Kad n Tak mlar n n Ulusal Puanlar 239 Tablo 7, modellerde kullan lacak de!i kenlere ait genel istatistikleri, de!i kenlerin aç klamalar yla birlikte özetlemektedir. npp ve npd de!i kenleri haricindeki tüm de!i kenlerin de!i im aral ! oldukça küçüktür. Tablo 7. De!i kenlere Ait Genel Bilgi De<i!ken uluspo yasoo boyoo kiloo smaoo blooo seyir uluspf yasof boyof kilof smaof bloof Aç klama Ulus puanlar oran Ya ortalamas oran Boy ortalamas oran Kilo ortalamas oran Smaç yüksekli!i ort. oran Blok yüksekli!i ort. oran Seyirci say s Ulus puanlar fark Ya ortalamas fark Boy ortalamas fark Kilo ortalamas fark Smaç yüksekli!i ort. fark Blok yüksekli!i ort. fark Ortalama 1.627 1.020 1.000 1.004 1.002 1.002 2003 0.060 0.306 -0.021 0.098 0.408 0.544 Std. Sapma 1.698 0.134 0.025 0.075 0.029 0.036 3789 102.047 3.440 4.814 5.878 9.514 11.231 Min. 0.122 0.735 0.927 0.796 0.929 0.911 0.000 -223.000 -7.571 -14.167 -16.250 -24.733 -27.778 Maks. 9.101 1.453 1.067 1.286 1.074 1.092 13000 224.250 9.536 11.722 17.762 22.958 26.056 Bu çal man n çerçevesinde olmayan, ancak tak m ba ar s n etkileyebilecek pek çok de!i ken (hücumcu/savunmac taktik anlay , antrenör deneyimi, motivasyon, oyuncular n bireysel deneyimi ve form durumlar ) bulunmaktad r. Ancak bu etmenlere ait bilgi toplanmas zor ve zaman al c olabilir. Bunun yan s ra, ulusal tak m baz nda ara t rma yap ld ! için bu çal mada demografik farkl l ! n veya sosyal türde li!in tak m ba ar s na etkisi de belirlenememektedir. Do!al olarak, önerilen modellerin kulüpleraras voleybol müsabakalar na genellenmesi ak lc olmaz. 3. Modeller Bu çal mada oran modeli ve fark modeli olarak adland r lan iki temel model vard r. Her iki modelde de birinci grupta bulunan tüm de!i kenler kullan lm t r. Ancak, tak mlar n karakteristik yap s n temsil eden ikinci gruptaki de!i kenler, oran modelinde tak mlara göre oranlanarak (birinci tak m temel al narak); fark modelinde ise, her de!i kenden kendisine kar l k gelen de!i kenin ç kart lmas yla olu turulmu tur. kinci grupta yer alan bir de!i kenin modellere dâhil edilmesinde izlenen yol, denklem (1) ve (2) ile örneklenmi tir. A ve B tak mlar aras ndaki bir maçta bu tak mlar n ulus puanlar n n oran , uluspoi ; ulus puanlar ndaki fark uluspf i ile ifade edilmektedir. A tak m n n ulusal tak m puan ulusp A ile, B tak m n n ulusal tak m puan ulusp B ile temsil edilmi tir. uluspoi = ulusp A ulusp B uluspf i = ulusp A (1) ulusp B (2) Aralar ndaki ilgile im (korelasyon) katsay s mutlak de!erce 0.70’in üzerinde olan de!i kenler (bloof ile smaof, blooo ile smaoo) bir arada modellere dahil edilmemi tir. Okuyucu bunaltmamak için, Tablo 8 ve Tablo 9’da, her modele ait en iyi tahmin sonuçlar verilmi tir. 240 Tablo 8. Modeller için Logit Tahmini Sonuçlar Oran Modeli Fark Modeli De<i!ken Katsay s De<i!ken Katsay s sabit -31.2744*** sabit 0.6179*** (8.6284) (0.2711) *** uluspo 1.3913 0.0179*** uluspf (0.2857) (0.0027) smaoo 14.7552** smaof 0.0687*** (7.2253) (0.0244) boyoo 17.4641* boyof .05277 (9.7576) (0.0541) kilooo -3.4178 kilof -0.0098 (3.2357) (0.0427) yasoo 1.2054 yasof -0.0340 (1.6764) (0.0696) seyir 0.0000 seyir 0.0000 (0.00004) (0.00004) besset - 0.1627 besset -0.2272 (0.3688) (0.3874) evsah 0.3465 evsah 0.3801 (0.3678) (0.3961) * %10 düzeyinde anlaml , ** %5 düzeyinde anlaml , *** %1 düzeyinde anlaml De!i kenlerdeki birer birimlik de!i imin maç kazanma sonucuna nas l etki etti!ini görmek için marjinal etki de!erleri hesaplanm t r. Oran modeli, yap s itibariyle marjinal etki hesaplamaya ve bunu yorumlamaya uygun olmad ! ndan, sadece fark modeli için marjinal etki de!erleri hesaplanm t r. Tablo 9, bu de!erleri özetlemektedir. Buna göre, ulus puanlar aras ndaki 100 birimlik bir fark, birinci tak m n maç kazanma olas l ! n yakla k olarak 0.4 art rmaktad r. Tablo 5’teki ulus puanlar na bak ld ! nda, baz tak mlar n ulus puanlar aras nda 100 birimden fazla fark oldu!u görülmektedir. Örne!in, Brezilya ile Çin tak mlar aras ndaki bir maçta, tak mlara ait tüm de!i kenler e itken, Brezilya’n n maç kazanma olas l ! Çin’inkinden ortalamada, yakla k olarak, 0.81 daha fazlad r. Tablo 9. Fark Modeli için Hesaplanan Marjinal Etki De!erleri Fark Modeli De<i!ken Marj. Etkisi uluspf 0.0039*** smaof 0.0149*** boyof 0.0115 kilof -0.0021 yasof -0.0074 seyir 0.0000 besset -0.0505 evsah 0.0833 *** %1 düzeyinde anlaml Modellerin iyili!ini ölçmek amac yla, 0.5 e ik de!eri kullan larak, do!ru ve yanl tahmin oranlar hesaplanm t r. Tablo 10’da, %5 düzeyinde anlaml olmayan de!i kenlerin ç kar lmas yla tahmin edilen düzeltilmi modellerin güçleri ile hiçbir de!i ken ihraç edilmeden tahmin edilen modellerin güçleri k yaslanmaktad r. Buna göre, fark modeli, sonucu galibiyet olan maçlar n 28’inin ma!lubiyetle; sonucu ma!lubiyet olan maçlar n 21’inin galibiyetle sonuçlanaca! n tahmin etmi tir. Bu modelin lojit tahmini yakla k %80 oran nda isabetlidir. Model, bir bütün olarak anlaml d r ve Pseudo-R2 de!eri 0.3503 olarak bulunmu tur. 241 Tablo 10. Modellerin Tahmin Güçlerinin K yaslanmas Model De<i!kenler Oran Modeli Tüm oran deGi#kenleri Fark Modeli Tüm fark deGi#kenleri Düzeltilmi Oran uluspo Modeli smaoo Düzeltilmi Fark uluspf Modeli smapf sabetli Ma<lubiyet Say s sabetli Galibiyet Say s Tahmin Gücü Pseudo-R2 74 123 %79.11 0.2819 70 130 %80.32 0.3503 71 121 %77.11 0.2693 69 130 %79.92 0.3421 4. Sonuç ve Öneriler Bu çal mada, voleybol maç sonuçlar n n önceden tahmin edilebilmesi için basit, ama istatistiksel aç dan zay f olmayan istatistiksel modeller kurulmu tur. Tahmin edilen modellerde maç sonuçlar n n sadece uluspf ve sadece uluspo de!i kenlerince öngörülebilmesi, incelenen turnuvalarda ‘belirsizlik’ ilkesinin tam olarak varl k gösterdi!ini söylemeyi mümkün k lmamaktad r. Sonucun belirsizli!i, bir turnuvada herhangi iki tak m aras ndaki maç n sonucunun bir dereceye kadar belirsiz olmas olarak aç klanabilir (Forrest ve Simmons, 2003). Torgler (2004)’in aksine, bir tak m n dünya s ralamas ndaki yerinin maç n sonucuna do!rudan bir etkisi olmad ! n söylemek mümkün de!ildir. kinci olarak, saha avantaj ve seyirci deste!inin, san lan n aksine, tak m n genel ba ar s n do!rudan etkilemedi!i söylenebilir. Kaynaklar [1] Boon, B. H. ve Sierksma, G., 2003. Team Formation: Matching Quality Supply and Demand. European Journal of Operational Research, 148, pp.277-292. [2] Forrest, D. ve Simmons, R., 2002. Outcome Uncertainty and Attendance Demand in Sport : The Case of English Soccer. The Statistican, 51(2), pp.229-241. [3] Goddard and Asimakopoulos, 2004. Forecasting football results and the efficiency of fixed-odds betting. Journal of Forecasting, 23(1), pp.51-66. [4] Hal c o!lu, F., 2005. Can We Predict the Outcome of the International Football Tournaments?: The Case of Euro 2000. DoGu# Üniversitesi Dergisi, 6(1), pp.112-122. [5] Karlis, D. ve Ntzoufras, I., 2003. Analysis of Sports Data by Using Bivariate Poisson Models. The Statistician, 52(3), pp.381-393. [6] Lee, K. T. and Chin, S. T., 2004. Strategies to Serve or Receive the Service in Volleybal. Mathematical Methods of Operations Research, 59, pp.53-67. [7] Torgler, B., 2004. The Economics of the FIFA World Cup. Kyklos, 57(2), pp.287-300. 242 Teknolojik geli me sürecine paralel uygulamal istatistik e!itimi ve ya ad klar m F.Zehra Muluk M.Emrah Oral Ba#kent Üniversitesi Ticari Bilimler Fakültesi Sigortac:l:k ve Risk Yönetimi Bölümü Ankara, Türkiye zmuluk@baskent.edu.tr Umut sok. 28/7 Kurtulu# 06600 Ankara, Türkiye oralm2@yahoo.com Özet Çal:#mam:z:n amac:, 1960’lardan günümüze ya#anan h:zl: teknolojik geli#menin istatistik eGitimine yans:mas: ve bu geli#me içinde bizim ya#ad:klar:m:z:n anlat:lmas:d:r. statistik, dünyada ve ülkemizde diGer bilim dallar:n:n içinde geli#mi#tir. Ülkemizde istatistiGin eGitim sürecinde kullan:lmas:, iktisat, hukuk gibi sosyal bilimlerde betimsel istatistik ile birlikte regresyon analizi konular:na yer vermi#tir. T:p, ziraat, veterinerlik alanlar:nda ise, varyans analizi ve deney tasar:m: konular:na önem verilmi#tir. statistiGin kuramsal yönü matematik ile çok ilgili olmas:na raGmen, ülkemizde matematik bölümlerinin ders kapsam: içine girmesi 1960 y:llar:na rastlar.Çal:#mam:zda, zaman içerisinde Uygulamal: statistik alan:nda kullan:lan teknik donan:mlar, ülkemizde ve diGer ülkelerdeki istatistik bölümlerinin aç:l:# tarihleri ve geli#imleri kar#:la#t:rmal: olarak sunulmaya çal:#:lacakt:r. Anahtar sözcükler: statistik Lisans eGitimi, hesap makineleri, bilgisayarlar, paket programlar Abstract A personal perspective on the parallel evolution of applied statistics education and information technologies. This study aims to reflect the way Statistics Education evolved around fast-paced advances in technology since the 1960s, and our experiences within the process. In Turkey and abroad, the roots of Statistics can be traced back to other disciplines. Descriptive Statistics and Regression Analysis have found their places in the education of social sciences like Economics and Law, while education in disciplines such as Medicine, Veterinary Medicine and Agriculture utilized statistical methods like Variance Analysis and Experimental Design. Although Theoretical Statistics is closely related to Mathematics, its inclusion in the curriculum of mathematics departments in Turkey only dates back to the 1960s. This study will focus on the Applied Statistics education and the evolution of information technologies that were used in this field at Hacettepe University. Keywords: Statistics Undergraduate Education; Calculators; Computers; Statistical Software Packages. 243 1. Giri! Böyle bir çal may siz meslek arkada lar mla payla may uzun zamand r dü ünmekteydim. Ancak ne kadar yararl olabilir kayg s içinde oldu!um için geciktirdim. Son iki y ld r ö!rencilerime paket programlardan söz ederken geçmi te ya ad klar m anlat yorum. Anlatt klar m n çok ilgi gördü!ünü saptad m. Geçmi i bilmenin bu günü de!erlendirmek için gerekli oldu!u dü üncesi ile birikimimiz olan bilgilerin gençlere aktar lmas n n yararl olaca! n dü ündüm. Çal maya ba lad ! mda yapt ! m ara t rmalar, verdi!im karar n do!ru oldu!unu gösterdi. Bilgisayar n e!itime girmesi ile geçen elli y l n de!erlendirmeleri yurt d nda bir çok sayg n üniversitede titiz çal malarla de!erlendirilmi ti. Ülkemizde de benzer çal malara rastlad m. Geçmi te elde edilmesi bin bir zorluk ile gerçekle en donan mlar n k ymet bilinmeden bir kö eye at lmas ve ya anan zorluklar n genç ku aklara aktar lmamas bu gün ula lan de!erlerin k ymetini bilmeme olgusunu getirmektedir. Bu görü ler do!rultusunda yapaca! m çal man n önemini kabul ettim. Akademik ya ant m 1966 y l nda Hacettepe Üniversitesinde ba lad . Rakamlar n ve hesaplamalar n yo!un oldu!u bir bilim dal olan istatistik çal ma alan m oldu. Matematik e!itiminden sonra uygulamal istatistik konusu çok ho uma gitti. Bölümümüzün kurucusu olan de!erli hocam Prof. Dr. Alaettin Kutsal’ n mesle!imizi benimsememizde, önemsememizde ve bir ömür severek yapmam zda katk s büyüktür. Bu gün Hacettepe Üniversitesi statistik Bölümü ülkemize de!erli istatistikçiler kazand rd ise, bölüm akademik çal malar ile dünya literatüründe ismini duyurabilmi ise, bu de!erli insan n att ! ilk ad m n sayesindedir. Çal mam z n ba nda da belirtti!im gibi burada, ya ad klar m zdan kesitler vererek son k rk y lda teknolojide olan geli imin istatistik e!itimine yapt ! katk y anlatmaya çal aca! m. Di!er üniversitelerimizde de benzer öyküler ya and ! n biliyorum; ancak insan kendi ya ad klar n daha gerçekçi sunabilir. Bu tür an lar n di!er üniversitelerdeki arkada lar m z taraf ndan da genç arkada lar m za aktar laca! n biliyorum. Çal mam zda zaman içerisinde Uygulamal statistik alan nda kullan lan teknik donan mlar, ülkemizde ve di!er ülkelerdeki istatistik bölümlerinin aç l tarihleri ve geli imleri kar la t rmal olarak sunulmaya çal lacakt r. Çizelge 1’de tarih s ras ile k sa bilgiler verilmi tir. Bu çal ma, baz arkada lar m z geçmi e götürecek, bu gün ile k yaslama yapt racak, genç arkada lar m za da geçmi ten bir yaprak sunacakt r. Çizelge 1. statistik e!itimi geli im sürecinde önemli baz olaylar 1911 Karl Pearson taraf ndan University College London’da istatistik lisans program aç l yor.[1] 1931 Harold Hotelling taraf ndan Columbia University’de istatistik lisans program aç l yor.[2] 1933 George W. Snedecor taraf ndan Iowa State University’de istatistik lisans program aç l yor. [2] 1941 Gertrude Cox taraf ndan North Carolina State University’de istatistik lisans program aç l yor. [2] 244 1947 1948-1965 M. S. Bartlett taraf ndan University of Manchester de istatistik lisans program aç l yor; Walter T. Federer taraf ndan, Cornell Üniversite’sinde biyometri ve istatistik Bölümü kuruluyor[2]. Yurt d nda 1948-1949 y llar aras nda 10 farkl üniversitede de istatistik bölümleri kurulmu tur[2] 1965 John W Tukey taraf ndan Princeton University’de istatistik lisans program aç l yor.. [2] 1966 John Aitchison ve David Silvey taraf nda University of Glasgow’da istatistik lisans program aç l yor. [2] 1966 North Carolina State Univ. Lisansüstü ö!rencisi olan Anthony J.Bar M.Kendall’ n notasyonlar ndan yararlanarak bir varyans analizi program , ard ndan regresyon program olu turuyor. SAS dilinin temelleri olu uyor.[3] 1967 Hacettepe Üniversitesinde istatistik lisans e!itimine Fen Fakültesi bünyesinde, 1 Ekim 1967 tarihinde Prof. Dr. Alaettin Kutsal ba kanl ! nda, 27 ö!renci ile ba lanm t r.[4] 1967 Hacettepe Üniversitesi’nde elektrikli FACIT hesap makineleri ile ilk istatistik laboratuar n n kuruluyor. 1968 Norman Nie ve Hadlai Hull Nie taraf ndan SPSS istatistik paket program IBM ve ICL gibi mainframelerde kullan lmak üzere geli tirilmi .[3] 1968 Bilgisayar kullan m n n temelleri ve programlama dillerinden FORTRAN ile ilk kez tan l yor. 1969 Dr.Ayd n Köksal ba kanl ! nda Hacettepe Üniversite’sinde Burroughs 3500 sisteminin kurulmas . Üzerinde çevrimiçi uygulamalar n da yap ld ! , gösterici uçbirimlerle donat lm bu sistem, 1969 Türkiye’sinde büyük bir yenilikti.[5] 1969 Hacettepe Üniversitesinde ilk statistik Doktora derecesinin al nmas . 245 1976 ODTÜ’de Uygulamal statistik e!itimi, 1975 y l nda Ekonometri Bölümü bünyesinde ba lam , 1976 y l nda ise statistik Bölümü Fen Edebiyat Fakültesi alt nda aç lm t r.[6] 1976 SAS paket program Anthony Barr, James Goodnight, John Sall ve Jane Carolina taraf ndan SAS nstitute Inc. ad alt nda irketle iyor.[3] ~1978 SYSTAT statistik ve Grafikler için Paket Program n yaz lmas [3] 1979 Toronto Üniversite’sinde istatistik bölümünün aç l yor.[2] 1982 A TBA bünyesinde 1956’da Prof.Dr.Necati çil ba kanl ! nda aç lan Tatbiki Matematik Kürsüsü, 1982 y l na kadar e!itimini sürdürmü , bu tarihten sonra statistik Lisans e!itimine Gazi Üniversitesi Fen Edebiyat Fakültesi bünyesinde ba lanm t r.[6] 1982 Anadolu Üniversitesi’nde istatistik bölümünün aç l yor.[6] 1983 Ondokuz May s Üniversitesi’nde istatistik bölümü kuruluyor.[6]. 1984- Mimar Sinan Üniversitesi’nde istatistik bölümünün aç lmas , takip eden y llarda Türkiye’nin farkl üniversitelerinde 13 tane daha istatistik bölümü aç l yor.[6] 1988 D. V. Hinkley taraf ndan University of Oxford’a istatistik bölümü kuruluyor.[3] 1988-1989 HÜ statistik Bölümü’nde ö!renci laboratuarlar n n IBM uyumlu PC’ler ile düzenlenmesi. 1990-2009 90’l y llar n ba lar nda bilgisayar ve Internet teknolojilerinin geli imi, katlanan bir ivme ile h zlanmaya ba l yor. Küreselle me, etkisini bu alanda da göstermek sureti ile bu teknolojiler, di!er disiplinlerde oldu!u gibi, istatistik alan nda da ortaya ç kan her türlü geli meye an nda dünyan n her noktas ndan eri ilebiliyor. 2. statistik e<itimine genel bak ! 246 statistik, dünyada ve ülkemizde di!er bilim dallar n n içinde geli mi tir. Ülkemizde istatisti!in e!itim sürecinde kullan lmas sosyal bilimler ve biyolojik bilimlerde farkl olmu tur. ktisat, hukuk gibi sosyal bilimlerde betimsel istatistik ve regresyon analizi konular na yer verilmi tir. T p, ziraat, veterinerlik alanlar nda ise, varyans analizi ve deney tasar m konular na önem verilmi tir. R.Yüceulu! taraf ndan 1949 y l nda yap lan bir çal mada Cumhuriyet öncesi ve Cumhuriyet döneminde istatistik e!itimi veren kurumlar, e!iticiler, ders programlar ayr nt l olarak incelenmi tir[7]. Bu programlar incelendi!inde istatistik e!itiminin daha çok betimsel içerikte verildi!i görülmektedir. statisti!in kuramsal yönü matematik ile çok ilgili olmas na ra!men, ülkemizde matematik bölümlerinin ders kapsam içine girmesi 1960 y llar na rastlar. Oysa dünyada istatistik, matematik bölümleri bünyesinde geli mi tir. Dünya’da ilk istatistik bölümü 1911 y l nda bölüm ba kanl ! n Karl Pearson’ n yapt ! University College London’da kurulmu tur. Bu bölüm halen faaliyetini sürdürmektedir. Bölümün Internet adresi http://www.ucl.ac.uk/ dir[1]. Ülkemizde ilk istatistik lisans program , Hacettepe Üniversitesinde, 1 Ekim 1967 tarihinde 27 ö!renci ile e!itime Fen Fakültesi bünyesinde ba lam t r[2]. Hacettepe statistik Bölümü Internet adresi http://www.stat.hacettepe.edu.tr/turkce_yeni/indexe.php dir. Daha sonra Gazi Üniversitesi ve Orta Do!u Teknik Üniversitesi’nde aç lan istatistik lisans programlar n görmekteyiz. statistik bölümleri kurulduklar tarihte uygulad klar ders programlar n belli sürelerde güncelleme gereksinimi duymu lar ve de!i tirmi lerdir. Ancak Uygulamal statistik dersi her programda yer alm , geli en teknolojiye paralel olarak içerik de!i ikliklerine u!ram t r. Örne!in; Hacettepe Üniversitesi’nde bölümün ilk kurulu y llar nda Uygulamal statistik dersinin hesaplama yöntemlerinde formüllerin do!ru kullan mlar öncelikte iken, bilgisayar n hayat m za girmesi ile formüllerin FORTRAN programlama dili ile yaz lmas önem kazanm t r. lerleyen y llarda, uzman programlar n h zl bir ivme ile bilgisayar kullan c lar na sunulmas , bu programlar n etkin kullan labilme gereksinimini beraberinde getirmi , Uygulamal statistik derslerinin içeri!i bu yönde yap land r lm t r. Bizim derslerimizde ya ad ! m z de!i im sürecinin istatistik bölümlerinde okutulan di!er derslerde de ya anm oldu!u bilinen gerçektir. 3. Kulland < m z teknik araçlar yönünden ya!ad klar m z Hacettepe Üniversitesine girdi!imiz y llardan ba layarak akademik çal malar m zda ve e!itimde kulland ! m z teknik donan mlar dört evre olarak aktarmak istiyorum. Teknolojik olanaklar n artmas bir önce kulland ! m z gereçleri tamamen ortadan kald rmam , her iki teknoloji bir süre beraber kullan lm t r. 3.1 Mekanik hesap makinelerinin kullan:ld:G: dönem Hacettepe Üniversitesi Say n Prof.Dr. hsan Do!ramac önderli!inde kurulu u ve geli mesi ile Türk E!itim tarihinde modern bir yap lanman n önemli bir örne!idir. Türkiye’de istatistik e!itiminde gördü!ümüz at l m da bu sürecin sonuçlar ndan biridir. 1965 y l nda Ankara Üniversitesi Matematik Bölümünü bitirdi!imizde istatistik sözcü!ünün ne anlama geldi!ini bile bilmiyorduk. Hacettepe T p Fakültesine ba vururken matematik konusunda çal abilece!imizi dü ünüyorduk. Bize matematik yerine istatistik alan nda çal mam z önerildi!inde, bu konuyu bilmedi!imizi belirttik. Kendisini her zaman sayg ve rahmet ile and ! m de!erli Hocam Prof.Dr. Alaettin Kutsal statisti!i matematikçilerin daha iyi yapabilece!ini ve bizi yeterli bulurlar ise istatisti!i ö!retebilece!ini söyledi. Bu görü ile iki y l içinde ayn yerde çal an dört matematik mezunu olduk. lk y llar t p ve sa!l k bilimleri fakültelerinde verilen istatistik derslerinde yard mc olduk. 1966 y l nda ilk göreve ba lad ! m aylarda istatistik hesaplamalarda kullan ld ! için logaritma hesaplamalar n ö!renciye anlatmam o y llarda ek zamanl olarak istatistik derslerine gelen Prof.Dr. Orhan Düzgüne hocam z taraf ndan benden istendi. Ö!rencilerimiz uygulama saatlerinde hesaplamalar n sürgülü hesap cetveli ile yap yorlard . Üzerinde rakamlar bulunan ve ortas nda hareketli bir parças olan bu cetvel, o zamanlar kimya ve fizik ö!rencilerinin de kulland ! basit bir hesap makinesi idi. 247 Hacettepe T p ve Sa!l k Bilimleri Fakültesinin üniversite haline dönü mesi 8 Temmuz 1967 y l nda 892 say l yasa ile gerçekle ti. Akademik kadronun ço!unlu!u t p mensubu oldu!u için Hocam z n önemli görevlerinden biri de biyoistatistik konusunu t p mensuplar na tan tmak, kabul ettirmek ve çal malar n n istatistiklerinde yard mc olmakt . Bizleri de bu konuda yeti tiriyor, onlar ile konu urken bizim de dinlememizi istiyor, baz hesaplamalar bize yapt r yordu. Hesaplamalar için mekanik, kollu hesap makinesi (FACIT marka) kullan yorduk. Yaz lar için daktilo, hesaplar için kollu FACIT hesap makinesi en büyük kolayl ! m zd . Doktora tez çal mam 1968-1969 y llar nda yapt m. Doktora konum prematüre çocuklar n geli imlerinin modellenmesiydi. 726 çocu!un be de!i keni ile çal t m, tüm hesaplamalar kollu FACIT ile uzun bir zaman süresi içinde gerçekle tirdim. Doktora tezimin ço!alt lmas teksir ka! d denilen ve özel bir mürekkebi olan teksir bask makinesinde yap ld . Bu bask yöntemi soru ka! tlar n n bas m nda, ders notlar n n ço!alt lmas nda kullan l yordu. Benden hemen sonra doktoralar n yapan iki arkada m hesaplar n elektrikli Monroe hesap makinesinde gerçekle tirdiler. Bu bizim için büyük bir geli me idi. Elektrikli Monroe hesap makineleri sonuçlar özel rulo ka! da kaydediyor ve çok gürültülü çal yordu. Ayn zamanda bölümümüze Monroe hesap makinesine göre daha sessiz çal an ve sonuçlar n makinenin ince ekran nda veren elektrikli FACIT hesap makinesi de al nm t . Uygulamal istatistik dersinde verdi!imiz problemler çok hesaplama gerektirdi!i için ö!rencilerimize makinelerin bulundu!u bir laboratuar olu turmam z gerekti. lk ö!rencilerimiz kollu FACIT’leri kulland lar. kinci dönem ö!rencilerimiz için elektrikli FACIT’lerden olu an bir laboratuar düzenlendi. FACIT makineler o dönem için ülkemizde olan en kullan l hesap makineleri idi. Yanl hat rlam yorsam 18 makine vard . Bu makineler mekanik yap ya sahip oldu!u için laboratuar dersi oldu!unda hepsi birden çal t r l nca o binada çal an arkada lar n gürültüden kafalar i iyordu. Elektrikli FACIT’leri ö!renci uygulamalar nda uzun y llar kulland k. Büyük sistem bilgisayarlar n kullan lmaya ba lad ! y llarda da bu laboratuarlar kullan ld . Hacettepe Üniversitesine kurulan büyük sistem bilgisayar (Burroughs 3500 Mainframe) tüm üniversiteye hizmet ediyordu. Uygulamal derslerimiz için sistemi kullanma olana! m z yoktu. Daha sonrada de!inece!im gibi sistem ö!renci ödevlerinde ve ara t rma sonuçlar n almada randevu ile kullan l yordu. Beytepe kampüsüne ta nmadan san r m bir y l önce uygulama laboratuarlar m za daha sessiz çal an ve art k mekanik olmayan Canon ve benzeri hesap makinelerinin al nmas planland . Ö!retim elemanlar na al nanlar n d nda üç makine al nd ; ancak o günlerde ö!rencilerin ellerinde ve çevremizde Texas Instruments(SR-51A)[8] küçük hesap makinelerini görmeye ba lad k. Bu hesap makinelerinde baz i lemler programlanm olup hemen çözüm veriyordu. Hesaplama süresini çok k saltm t . Laboratuara almay dü ündü!ümüz Canon’lardan hem daha ucuz hem daha geli mi makinelerdi. Hesaplama i lerimizde art k uzun y llar elimizin alt nda olacak Texas Instruments’lar istatistik bölüm elemanlar için al nd . Zimmet ile bizlere teslim edildi. lerleyen y llarda ö!rencilerin kendi hesap makineleri oldu. Laboratuarlar m z masaüstü bilgisayarlara geçene kadar elektrikli FACIT’ler kald . Ö!renci hesaplamalar için çe itli araçlar kulland . Biz yeni makine ald ! m zda eskiler üniversitenin idari birimlerine veriliyordu. Hacettepe Üniversitesi 1968-1974 y llar aras nda çok geni ledi. Merkez kampüsü art k tüm birimleri ta yam yordu. Bunu önceden bilen Say n Prof.Dr. hsan Do!ramac Beytepe’de yeni bir kampus olu turmu , t p ve sa!l k bilimleri d nda olan birimleri o kampusa ta may planlam t . Bu plan içinde biz de vard k. 1974 y l nda henüz in aatlar n tamamlanmad ! Beytepe Kampüsüne ta nd k. 3. 2 Bilgisayar ile tan:#ma ve büyük bilgisayarlar Hacettepe Üniversitesinde 30 Eylül 1967’de Bilgi lem Merkezi kuruldu[5]. Bu merkezde görevli arkada lar Hacettepe çal anlar na bu yeni teknolojiyi tan tmak için toplant lar, kurslar, seminerler düzenliyorlard . lk kez programlama dillerinden FORTRAN ile 1968 y llar nda tan t k. O y llarda bu yeni teknolojinin hayat m z n içine bu ekilde girece!i hiç akl m za gelmemi ti. Bilgisayar merkezinin genç ve donan ml elemanlar sistem kurulmadan bu sistemin alt yap s n Hacettepe Üniversitesi çal anlar na anlatmak için seminerler düzenlediler. Art k statistik Bölümünün ders programlar n n 248 içine FORTRAN ve COBOL gibi programlama dillerinin gösterildi!i yeni dersler girmi ti. O y llarda yeti tirilen istatistik ö!rencilerimizin bir k sm bu gün bili im dünyas n n tan nm isimleri oldular. Hacettepe Üniversite’sinde Burroughs 3500 sistemi, üzerinde çevrimiçi uygulamalar n da yap ld ! , gösterici uçbirimlerle donat lm bir sistem olarak 1969 y l nda faaliyete geçti.[5]1969 Türkiye’sinde böyle bir sistem çok büyük yenilikti. O y llarda Türkiye’de Karayollar Genel Müdürlü!ünde, Devlet Planlama Te kilat nda, Türk statistik Kurumu(T.C. Ba bakanl k Devlet statistik Enstitüsü), Devlet Su leri, Bankas gibi kurumlarda ve stanbul Teknik Üniversitesi, Orta Do!u Teknik Üniversitesi, Hacettepe Üniversitesi gibi e!itim kurumlar nda bilgisayar sistemi vard .[9] Hacettepe Üniversitesine kurulan ilk sistem imdiki Di çilik Fakültesi Dekanl ! ’n n üst kat nda faaliyete geçti. Makineler ve so!utucular üç büyük oday kapl yordu. Sisteme bilgi delikli kartlar yard m ile veriliyor, sistemden i lenmi bilgiler büyük yaz c lardan iki yan delikli, iki A4 geni li!inde sürekli ka! tlar ile al n yordu. Kurulan bu yeni donan m n program yaparak en etkin kullan m merakl ö!rencilerimiz taraf ndan gerçekle tiriliyordu. Genellikle bitirme projelerinde sistemden yararlan yorlard . Ba ta da belirtti!im gibi bizim önemli görevlerimizden biri de t p doktorlar n n yapt klar makale ve tez çal malar n n istatistik de!erlendirmelerinde yard mc olmakt . 1970 y llar nda bu görevi hocam z n yard m olmadan da yapabiliyorduk. Yapt ! m z bu destek çal malar nda bizim çok vaktimizi alan hesaplama i leri yeni sistem ile çok kolaylam t . Art k Türkiye’de t p biliminde yap lan tez ve makalelerde istatistik de!erlendirme olmadan yay n yap lam yordu. O dönemde bizden yard m isteyen yaln z Hacettepe T p Fakültesi mensuplar de!ildi. Türkiye’nin her kö esinden istatistik destek için Hacettepe statistik Bölüm’üne geliyorlard . Ara t r c lara verilerini veri kodlama ka! tlar na yazmalar n önce gösterir, sonra yaz p gelmelerini isterdik. Biz de yap lacak de!erlendirmenin tan mlanmas n program ka! tlar na yazar sisteme verirdik. Ç kt lar e!er bir hata yok ise, delinmi kartlar ve yaz c dan ç kan sonuçlar ile belli bir süre sonra al n rd . E!er delgide ya da bizim delgi haz rl klar m zda bir hata yap lm ise, sonuç alamaz bu hatay delikli kartlarda bulmaya çal rd k. T p mensuplar na ve di!er bran larda çal anlara yapt ! m istatistik destekler benim çok vaktimi almas na ra!men hiç ikayetçi olmam md r. Her çal ma bana yeni bir bilgi katm t r diyebilirim. Bu i ler çok art nca Hacettepe Bilgi lem Merkezi (Bilgi lem Merkezi daha sonra Bilgi lem Daire Ba kanl ! olarak de!i tirildi.) bünyesinde ara t rma destek birimi kuruldu. Bu birimde Hacettepe statistik Bölümü mezunu ö!rencilerimiz çal t , çok da ba ar l oldular. lerleyen y llarda, bu merkezde çal an mezunlar m z, ihtiyaç duyduklar istatistiksel bilgiler yönünden desteklenmi tir. statistik Bölümü Beytepe’ye 1974 tarihinde ta nd ! nda, bu her bak mdan yeni bir ortamd . Ayn y l Bilgisayar Mühendisli!i Bölümü kuruldu. Bu bölüm ile Bilgi lem Merkezi, Beytepe Kampüsünde ayn binay payla yorlard . Bilgi lem Merkezi alt katta olup, tüm üniversite elemanlar na aç kt . lk al nan bilgisayarlar merkez kampüste kald . Beytepe’ye daha yeni teknoloji ürünü makineler geldi. Bu makineler daha az yer kapl yordu. Uygulamal statistik derslerimizde, ö!rencilerden problemlerin çözümlerini bilgisayardan almalar n ve yorumlar n n yap lmas n istiyorduk. 1980 ve 1981 y llar nda yapt rd ! m z iki çoklu regresyon çözümlemesi ödevi hala elimizdedir. Hüseyin Kayacan ve Nevcan Özkan’a ait ödevlerde, çoklu regresyon çözümlemesinin Bilgi lem Merkezindeki sistemde var olan programdan yararlanarak çözmek için verilerin kodlama ka! d na yaz l , al nan sonuçlar ve yap lan ayr nt l yorumlara yer verilmi ti. Akademik çal malar m z art k üniversitenin bilgisayarlar nda FORTRAN ya da COBOL dillerini kullanarak yapabiliyorduk. Baz arkada lar m z program yazma konusunda çok ba ar l idiler. Bu arkada lar m z di!er programlama dillerini de rahat kullanabiliyorlard . Art k bölümümüzde verilen bilgisayar dilleri ile ilgili dersler bölümümüz elemanlar taraf ndan veriliyordu. Bilgisayar n etkin kullan m çal malar m zda benze im tekni!i, yöneylem ara t rmas gibi i lem yükü isteyen çal malar yapma olana! m z sa!lam t . 249 1970-1980 y llar aras nda di!er çal malar m zda durum nas ld ? Bu y llarda ispirtolu ka! t ve onu basan bir makinemiz oldu. spirtolu ka! d düz ka! d n alt na koyup üzerine yaz m z , formülümüzü elimiz ile yaz yor sonra yaz yazd ! m z ka! d bask makinesinde tak p alttaki mürekkep ile ço!altma i ini gerçekle tiriyorduk. Bu bask türünün baz dezavantajlar vard . Fazla say da ço!altma ba ar l sonuç vermiyordu. Bas lan notlar zaman içinde rengini kaybediyordu. Bu y llar aras nda tez yazan arkada lar m za teknoloji art k baz kolayl klar sa!lam t . Örne!in elektronik daktilo makinelerinde formül yazan toplar, tezlerini ço!altmak için üniversite d nda da olsa fotokopi yapt rma olanaklar , mumlu ka! t ile bu i leri yaparken ya ad ! m z zorluklar ve i in kalitesini dü ündü!ümüzde, bizler için müthi bir geli me idi. Ders notlar m zda ve s nav sorusu yazarken mumlu ka! da formül yazma bizi çok zorluyordu. Fotokopi makinesine sahip olunca birçok i imiz hem kolay hem kaliteli gerçekle ti. Kitaplar m z dizgi tekni!i ile çal an matbaalarda bast r yorduk. Bu teknik kabaca kur undan dökülmü her harfin tek tek dizilerek sayfa tasar mlar n n yap ld ! bir uygulama idi. rimdi siz gençlerin çok do!al kulland ! n z Internet, hayal edemeyece!imiz bir olanakt . Bilimsel çal malar m zda taramalar , y ll k yay mlanan abstraklardan makale özetlerini inceleyerek yapard k. Bu incelemeler sonunda belirlenen makalenin pe ine dü erdik. E!er o dergi üniversitemize geliyor ise çok ansl say l rd k. Üniversitemizde olmayan dergilerin hangi kütüphanede olabilece!ini gösteren kataloglar sayesinde izini bulmaya çal rd k. E!er yurt içinde o dergi yok ise yurt d ndan getirtebilmek için hem maddi, hem zaman kayb m z olurdu. Buraya kadar anlat lan a amalar üç ila dört ay aras nda bir zaman al rd . Günümüzde ayn sürecin en fazla yar m saat ald ! n dü ünürsek, Internet’in bilgisayarlar n yayg n kullan m n n ard ndan gelen en önemli ikinci geli me oldu!u aç kt r. 3.3 Masaüstü bilgisayarlar dönemi Bilgisayar 1970 y l ndan sonra bizlerin de ayr lmaz bir parças oldu. Henüz o y llarda masaüstü bilgisayarlar ile tan mam t k. Dünyada 1970 li y llar n sonunda bir çok bilgisayar firmas kendi sistemlerini piyasaya sürdü. Örne!in, 1977 y l nda ilk masaüstü bilgisayarlardan biri olan Apple iki arkada taraf ndan üretildi. 1981 y l nda da IBM PC’ leri piyasaya sürdü.[9] Bu y llar dünyada bilgisayar teknolojisinin h zla geli ti!i, masaüstü ki isel bilgisayarlar n ve yaz l m teknolojisinin özellikle bilimsel çevrelerde etkin kullan lmaya ba land ! y llar olarak görmekteyiz. Ülkemizin bili im teknolojisine girmesi, ODTÜ ve HÜ gibi e!itim kurumlar nda çal an de!erli akademisyenler ve bu konuda yeti mi genç bilgisayar mühendislerinin katk lar , Bili im Derne!i’nin düzenli çal malar ve ileti im teknolojisinde olan h zl geli me ile çok geç olmam t r. Bu teknolojinin h zl yay lmas ve dü ük maliyette olmas bizlerin ve yeti tirdi!imiz ö!rencilerin bilgisayar dünyas na kolayca girmesini sa!lad . 1980’li y llarda yurt d ülke üniversitelerinde kullan lan teknoloji art k e zamanl olarak ülkemizde de kullan lmaya ba land . Bölümümüzde ilk masaüstü bilgisayar denilebilecek Hewlett Packard’ n geli tarihi konusunda kesin bir bilgi veremeyece!im ama;1976 ile 1978 y llar aras nda olabilir. Bu geli mi bir hesap makinesi ile bilgisayar aras nda bir yap ya sahip olan HP-9830A modeli idi. Bu serinin en geli mi türü olan HP- 9830A, bir hesap makinesi özelli!inden ç k p, programlanabilir bilgisayar özelliklerine sahipti. En önemli özelli!i BASIC programlama dili ile program yaz labilmesi, hard disk, yaz c ba!lant s na izin vermesi idi. Bu makinenin kasetlere kaydedilmi istatistik paket programlar bizi paket program kavram ile kar la t rd . Kasetlerde hem ö!retti!imiz istatistik tekniklerin tümü, hem ara t rmalarda kullanabilece!imiz özel programlardan baz lar bulunuyordu. Bu makineye BAS C programlama dili ile kendi programlar m z yazma olana! m z da oluyordu. Ö!rencilerimize HP-9830A’y tan tmak için gruplar olarak uygulamaya al yor ve o hafta i ledi!imiz konuyu haz r program kasetlerini kullanarak yapt r yorduk. Baz derslerin ödevlerinde ve seminer dersi alan ö!rencilerin projelerinde HP-9830A kullan l yordu. Bölüme uzman olarak al nan bir arkada m z, di!er bölümlerde çal an akademisyenlere verdi!imiz destek için bu makineyi kullan yordu. HP-9830A ilk geldi!inde üçüncü katta bir odaya koyuldu. Bu oda ara t rmalar n yap ld ! ö!renci uygulamalar n n da gerçekle tirildi!i yerdi. 250 1980’lerin ortalar , masaüstü bilgisayarlar n Türkiye’de yayg nla maya ba lad ! y llard . Bu geli me bize de yans d . Yeni bir ara t rma ve bilgisayar odas olu turuldu. Bu odada Bilgi lem Merkezinin ba!lad ! uç için bir ekran, Zenith Heathkit H89, büyük bir yaz c s ve HP-9830A bulunuyordu. Bilgi lem Merkezinin 1974 y l ndan önce ba layan bir projesi, sisteme d ar dan uçlar ile ba!lanmakt . lk zamanlar bu proje ba ar l olamad . statistik Bölümü’ne 1984 ve izleyen y llarda ba!lanan uç bu projenin sonucu idi. Bölümde bulunan bu uç sayesinde Bilgi lem Merkezinde olan i lerimizi oraya gitmeden gerçekle tirebiliyorduk. Bu uç daha sonra nternet ile tan mam z sa!layacak bir araç oldu. Ayn y llarda ö!renci laboratuarlar m za masaüstü ki isel bilgisayarlar al nmas planland . O zaman için en uygun oldu!u dü ünülen AMSTRAD CPC-6128 al nd . Bu bilgisayarlardan alt tane al nm t daha sonra ö!renci say s kadar art rmay dü ünüyorduk ancak; IBM uyumlu PC’lerin daha hesapl , daha kullan l olmas nedeni ile bu dü ünce eyleme koyulmad . AMSTRAD CPC-6128 için Uygulamal statistik derslerinde kulland ! m z yöntemlerin programlar n ö!rencilerimizden lker Yalç n ve Sabri nan yapt lar. Disketlere bu programlar kaydettik ilerleyen y llarda bu disketlerdeki programlar Uygulamal statistik dersinin uygulamalar için kullan ld . 1984 y l n izleyen y llar hesap makinelerinde de önemli geli melerin oldu!u y llard . Geli meler o kadar h zl oluyordu ki, takip etmekte zorlan yorduk. Kulland ! m z Texas Instruments hesap makinelerinin geli tirilmi biçimi olan, program kartlar ile birçok i i çok kolayla t ran Texas Instruments Programmable 58C modelinin al nmas n istedik. San r m iki tane al nd . Bir tanesi bana verilmi ti. Bu makineyi çok uzun zaman kullanamad k. 1984 y l nda ki isel bilgisayarlardan SINCLAIR ZX SPECTRUM 48K ile tan t m. Bu ilk sahip oldu!um ta nabilir ki isel bilgisayard . Görüntü için televizyon ekran n kullan yorduk. Daha öncede belirtti!im gibi mezuniyet a amas nda seminer dersi alan ö!rencilerimize baz projeler veriyorduk. Bu çal may haz rlarken eski mezunlar m zdan derslerimizle ilgili an lar var ise bizimle payla malar n istedim. Gelen desteklerden biri Cebrail Kurt’a ait idi. Bu deste!i oldu!u gibi aktarmak istiyorum: “Hocam günayd:n, Geçen gün kar#:la#t:G:m:zda size anlatt:G:m gibi, 1985 y:l:nda mezun aday: iken benden seminer almam: istemi#tiniz.‘Seminer konusu Kovaryans analizi’ ile ilgili program yapmakt:.Yanl:# hat:rlam:yorsan tar:m ve hayvanc:l:kta en çok kullan:lan söz konusu tekniGi geni# bir #ekilde anlatan ye#il kapl: bir kitab: da vermi#tiniz.Sayenizde lisans program: döneminde ba#l:k olarak görmü# olduGum Kovaryans analizini program geli#tirirken oldukça da ayr:nt:l: olarak öGrenmi#tim. DoGal olarak o dönemde ki#isel mikro bilgisayarlar:n yeni yeni konu#ulduGu dönemde (ekte resmini size gönderiyorum) koskoca konuyu (nerede ise o kal:n bir kitab:n tüm tekniklerini içeren) bir tür paket program: yazm:#t:m ve bölüme ar#ivlenmek üzere b:rakm:#t:m. Bilgisayar derleyicisi (Compiler) interpreter ve 8 K ek bellekli SINCLAIR ZX81 marka ve model olan bu güne göre oldukça basit bir sistemdi. Benzer #ekilde bu program: bölümün HP marka (16 K bellekli) bilgisayar:nda da denemi# ve çal:#t:rm:#t:m. Seminer ba#ar:yla geçmi#, hatta rahmetli bölüm kurucusu ve ba#kan: Prof.Dr. Alaettin Kutsal Hocam da eskiden hesap makinesi ile 6 basamakl: ondal:kl: hesaplama yaparken #imdi bilgisayarlar sayesinde 12 basamakl: olanaG:n:n güzelliGini anlatm:#t:. Bende konunun diGer k:sm: yani paket program:n ba#ar:s:na odaklanm:#t:m. Hocam:n çok önemsediGi konu benim amac:ma göre çok çok küçük gelmi#ti.Benim hiç unutamad:G:m an: da budur. Sayg:lar:mla bilgilerinize sunuyorum. Cebrail KURT”[11] Bilgisayar Mühendisli!i Bölümünde yap lan bir çal madan söz etmek istiyorum. Bu çal may o y llarda bir ki inin kendi çabas ile uzman bir paket program haz rlama giri imi olarak dü ünebiliriz. 251 Bilim Uzmanl ! çal mas yapan Erol ranl türk’ün konusu “Multiple Comparison for Single Factor Experiment” idi[12]. Bu çal maya ben istatistik konusunda dan manl k yapm t m. Tez 1986 y l nda tamamland . Çal ma veri analizi ile ba l yor, verisini tan yan ara t r c için sorgulamalar ile yöntemini seçmeye yönlendiriyordu. Program geli meye müsait alt yap ya sahipti ve COBOL programlama dili ile PC’ler için haz rlanm t . Bu süreç ABD’de ve Avrupa’da 1970 y llar nda ba lam ve yaz l m irketleri olarak bilgisayar piyasas nda yerlerini alm lard . Bu yaz l mlar n serüvenlerini inceledi!imizde bilim ile i dünyas i birli!inin getirdiklerini görmek mümkün. Ülkemizde ilerleyen y llarda istatistik konular n içeren uzman programlar haz rlanm t r. Bunlardan birinin Selçuk Üniversitesi statistik Bölüm’ünde gerçekle tirildi!ini biliyorum, ancak; a a! da verece!im baz yaz l mlar n geli imlerinden görece!imiz gibi bu konuda geç kal nm oldu!unu dü ünüyorum. Ö!renci laboratuarlar m z n PC’ler ile olu turulmas 1988-89 y llar na rastlar. Bu olu um ile dünyada yayg n kullan lan yaz l m programlar n da derslerimizin uygulamalar nda kullanmaya ba lad k. lk kulland ! m z yaz l m SYSTAT idi. SYSTAT 1970 y l n n ortalar nda Illinois Üniversitesi Psikoloji Bölümü Ass. Profesörlerinden Lelond Wilkinson taraf ndan istatistik i lemleri için olu turuluyor. SYSTAT 1983 y l nda irketle ip 50 den fazla çal an oluyor. SYSTAT paket program n n merkezi halen Chicago Illinois’de bulunmaktad r. Bu paket program geli tirerek tüm dünyaya pazarlamaktad r.[3] statistik paket programlar ndan söz ederken SAS program na de!inmek gerekti!ini dü ünüyorum.Çizelge 1’de de de!indi!imiz gibi Anthony J.Bar 1962-1966 y llar aras nda Kuzey Carolina State Univ.’de lisans üstü e!itimini sürdürürken M.Kendall’ n notasyonlar ndan ilham alarak bir varyans analizi modelleme dili yarat yor. Bunun hemen ard ndan çoklu regresyon program olu turuyor. Bu deneyimleri ile SAS dilinin temelleri at l yor. J.Bar’ n James Goodnight ile çal maya ba lamas bu program paketini güçlendiriyor. 1971 y llar nda SAS akademik çevrelerde çok tutulan bir program oluyor. 1972’de endüstride de kullan lmaya ba l yor. Biz 1990’l y llarda yapt rd ! m z bir çok tez çal mas nda bu program kulland k. lk kulland ! m z SAS program bir proje ile 1990 y l nda Üniversitemizin Bilgisayar Merkezine kiralad ! m z programd r. Bu program alt y l kullan ld . 1996 y l nda yeni bir proje ile bölümümüzde olan PC lerde kullan lmak üzere Windows üzerinden çal an SAS program kiraland . O y llarda asistan olan Aytekin Dönmez SAS 6.12’ nin kullan m yönergesi için Türkçe bir kaynak olu turdu. Baz örnekler ekleyip yay nlanmas dü ünülmü tü ancak gerçekle tirilemedi. Masaüstü bilgisayarlar n evlerimize girmesi 1990’l y llarda h zland . Bu a amadan sonra art k bilgisayarlar de!il, yaz l mlar ön plana ç kt . Bu y llardan sonra istatistik ile u!ra an bizler her konu için özel yaz lm uzman programlar n d nda bünyesinde tüm yenilikleri toplam sorular m za cevap veren program aray na girdik. 12 Nisan 1993 tarihinde Türkiye’de bilgisayar alan nda çok önemli bir sayfa aç ld . Ankara Washington aras nda kurulan kiral k hat ile Türkiye Internet ile tan t . ODTÜ den yap lan bu ba!lant üzerinden, Bilkent ve Hacettepe Üniversitelerine de Internet eri imi sa!land . Takip eden y llarda bu e!itim kurumlar kendi ba! ms z Internet hatlar na kavu acaklard .Hacettepe Üniversitesinde lk zamanlar Internet ba!lant s Bilgi i lem Daire Ba kanl ! n n bölümlere ba!lad ! uçlar ile gerçekle iyordu. Ö!renci laboratuarlar nda bulunan PC’lerin Internet’e ba!lanmas daha sonraki y llarda gerçekle mi tir. 3.4 2001 ve sonras: 2001 y l nda Hacettepe Üniversitesinden emekli olup, çal ma hayat ma Ba kent Üniversite’sinde devam etmeye ba lad m. Yeni i yerimin artlar bizim bilgisayar her gün kullanmam z gerektiriyordu. Art k. derslerimizi verirken mutlaka üniversitemizde lisansl olan istatistik paket programlar ndan birinin kullan m gerekiyor. Üniversitemizde Lisansl olan SPSS paket program temel istatistik konular n içeren servis derslerimizde, M N TAB paket program n da deney tasar m ders uygulamalar nda kullan yoruz. Derslerimizde yaln z tahta de!il haz rlad ! m z görsel materyallerimizi kullan yoruz. Bu amaçla tüm ders konular m z için PowerPoint ile haz rlanm notlar m z bulunmaktad r. Ça! m z n en büyük 252 kolayl klar ndan biri olan Internet, ara t rmalar m zda, ö!renci ile haberle mede, ders ile ilgili bilgilerimizi ö!rencilerimizle payla mada kullanmaktay z. Genç arkada lar m z teknolojiye bizden daha hakim ve getirdi!i kolayl klar rahatl kla kullanmaktalar. Bir zamanlar bizim hayal bile edemeyece!imiz, çal t klar konunun tan nm isimleri ile Internet arac l ! ile an nda haberle mekte bilgi al veri i yapabilmekteler. Genç arkada lar n bu de!erlerin k ymetini bileceklerine ve her zaman bir ad m daha iyi olmak için çal acaklar na inan yorum. Yukar da kurulu undan 2001 y l na kadar bünyesinde ya ad klar m aktard ! m Hacettepe Üniversitesi statistik Bölümü'nü son ziyaretimde bilgisayar çal ma odalar n n düzeni, uygulama laboratuarlar ve bilgisayarlar n ça!da l ! na hayran kald m. Ba ta anlat lanlardan bu noktaya gelinmesi bence övgüye de!er. 4. Sonuç ve öneriler Akademik ya ant m zda hedefimiz, yeti tirdi!imiz ö!rencilerimiz ve kendi çal malar m z ile geli mi ülkelerin düzeyini yakalamak olmu tur. Dünyada ilk istatistik bölümünün 1911 y l nda kuruldu!u dikkate al n r ise, istatistik e!itiminde yar a ba lama noktam z n ne kadar geride oldu!u aç kt r. Bu yar ta lehimize olan durum, istatistik e!itimi ile s k bir ili kisi olan bili im teknolojisinin akademik çal malardaki önem ve yerini erken benimsemi ve aktif kullan yor olmam zd r. Bu yar içindeki k rk üç y ll k akademik ya ant ma s !d rd ! m an lar m , kendi görü aç mdan bu sunu ile payla mak istedim. Ça! m z n teknik donan m n çok iyi kulland ! na inand ! m genç arkada m ile de bu an lar görselle tirdik. Ülkemizde istatistik bilim düzeyinde tüm dünya ülkeleri ile ayn düzeye gelindi!ini söylemek yanl olmaz. Genç bilim insan arkada lar m z bu yar ta geri kalmayacaklard r. Bizim eksik yan m z n istatisti!in bilim çevreleri d nda özellikle sanayide etkin kullan lmamas oldu!unu dü ünüyorum. statistik biliminin getirece!i kazançlar ilgili çevrelere anlatmak için daha çok çal lmas ve sab rla ortak çal malar yap lmas gere!ine inan yorum. Kaynaklar [1] University College London. Department of Statistical Science "Karl Pearson (1857-1936) http://www.ucl.ac.uk/ [2] http://en.wikipedia.org/wiki/Founders_of_statistics#Founders_of_Departments_of_Statistics [3] http://en.wikipedia.org/wiki/Statistical_package [4] Kutsal A. Y ll k Yaz s , statistik Bölüm Y ll ! 1982-1983 Zümrüt Matbaas , Ankara [5] Köksal A., Yabanc Dille E!itim http://www.cs.hacettepe.edu.tr/index.php?option=com_content&task=view&id=15&Itemid=39 [6] http://sci.ege.edu.tr/~istatistik/dosyalar/stat_departments.htm [7] Yüceulu! Ratip. Türkiyede istatistik Ö!retimi http://auhf.ankara.edu.tr/dergiler/auhfd-arsiv/AUHF-1949-06-02-03-04/AUHF-1949-06-02-03-04Yuceulug.pdf [8] http://www.vcalc.net/ti-hist.htm [9] http://www.forumasi.net/forum/bilgisayarin_turkiye_deki_tarihsel_gelisimi-t3336.0.html;wap= [10] http://www.google.com.tr/search?hl=tr&q=%22years+of+computing+at%22&meta= [11] Kurt Cebrail, özel mesaj, 1985 H.Ü.Fen Fakültesi statistik Bölüm Mezunu [12] ranl türk E., 1986, Multiple Comparison for Single Factor Experiment, Hacettepe Üniversitesi Fen Bilimleri Enstitüsü Bilim Uzmanl ! Tezi 253 Uyarlamal düzenler ve hazard oran n n testi üzerine bir uygulama Yaprak PARLAK DEM RHAN Sevil BACANLI MSB Savunma Sanayii Müste#arl:G:, Kalite-Test ve Sertifikasyon Daire B#k.l:G:, Endüstriyel Kalite Grup LiderliGi, Balgat/ANKARA, Türkiye. ypdemirhan@ssm.gov.tr Hacettepe Üniiversitesi, Fen Fakültesi, statistik Bölümü, Beytepe/ANKARA, Türkiye. sevil@hacettepe.edu.tr Özet Ya#am daG:l:mlar:n:n kar#:la#t:r:lmas:nda; etik ,ekonomik ve idare edili# gibi nedenlerden dolay: en az say:da ba#ar:s:zl:k say:s: ile test sürecinin sonland:r:lmas: amaçlanmaktad:r. Bu amaçla, grup ard:#:k düzenler ve esnek uygulama ko#ullar:na sahip uyarlamal: düzenler önerilmi#tir. Çal:#mada , uyarlamal: düzenler hakk:nda genel bilgi verilmi# ve hazard oranlar:n:n parametrik olmayan istatistikler ile uyarlamal: düzenlerde testi incelenmi#ti.Gerçek bir veri kümesi üzerinden uygulama yap:lm:#, incelenen yöntemler elde edilen sonuçlar üzerinden deGerlendirilmi#itr. Anahtar sözcükler: Hazard oran, Uyarlamal: düzenler, p-deGerleri, log-rank testi, klinik denemeler. Abstract Adaptive designs and an application on the test of hazard ratio It is aimed to stop testing procedure with the minimum number of failure in the comparison of survival distributions, because of the ethical, economical and administrative reasons. To fulfil this aim, group sequential test and adaptive designs, which have flexible application rules, were proposed. In this study, a general review of adaptive designs are given; they also harmonized to test of hazard ratios via nonparametric statistics, and lastly an application over a real data set is done. Mentioned methods are evaluated over the results. Keywords: Hazard ratio, adaptive designs, p-value, log-rank test, clinical trials. 1. Giri! Klinik denemelerde, dü ük etkiye sahip tedavi ile çal maya devam edecek hasta say s n en aza indirmek amaçlanmaktad r. Dolay s yla, çal ma boyunca biriken verinin periyodik olarak izlenmesi gerekmektedir. Bu amaçla ilk olarak sabit örneklem büyüklü!üne sahip düzenler kullan lm olsa da, etik, idare edili ve maliyet aç s ndan ard k yöntemlerin kullan lmas önerilmi tir. Klasik ard k düzenlerin uygulanamad ! durumlar için, ard k olarak gelen veriyi gruplar halinde incelemeye izin veren grup ard k düzenler geli tirilmi ve ya am çözümlemesinde yayg n olarak kullan lmaya ba lanm t r. Ancak son y llarda, ara t rmac n n çal may herhangi bir ara zamanda yeniden de!erlendirebilece!i ve istenildi!inde çal man n geri kalan k sm nda gerekli de!i ikliklerin yap labilece!i, uyarlamal düzenler (adaptive designs) olarak adland r lan birçok yöntem önerilmi tir. 2. Uyarlamal düzenler ve hazard oran n n testinde kullan m Klinik denemelerde planlama yap l rken ara t rmac düzen hakk nda hatal kararlar verebilir. Hatalar ancak veri toplanmaya ba lad ktan sonra ortaya ç kmaktad r. Dolay s yla, ara t rmac bir yandan denemeyi ve testleri devam ettirirken bir yandan da süreci iyile tirmek ve hatalar yok etmek için düzende de!i iklikler yapmak isteyebilir. Sabit örneklem büyüklü!üne sahip düzenler ve grup ard k 254 test düzeni bu tür de!i ikliklere izin vermezken, uyarlamal düzenler I Tür hatay kontrol ederek bu de!i ikliklerin yap lmas na izin verir. Süreç için gerçekle tirilecek uyarlama türlerine örnek olarak: Örneklem büyüklü!ünü de!i tirmek; ikiden çok tedavinin kar la t r ld ! durumlarda bir ya da daha çok tedaviyi çal madan ç kartmak; tedavi sonunda ölçülen de!i ken türünde de!i iklik yapmak ve test istatisti!ini de!i tirmek verilebilir. Bir klinik deneme için a a! da verilen hipotezin testi dü ünülsün: H 0 : = 0 (D = 1) ya da h A (t ) = h B (t ) (S A (t ) = S B (t )) ( H 1 : : 0 (D : 1) ya da h A (t ) = Dh B (t ) S A (t ) = S B (t )D ) (1) Klinik ara t rmalarda her geçen gün daha büyük önem kazanan uyarlamal düzenlerin temelini olu turan baz çal malar ve E . 1’de verilen hipotezlerin testinde kullan mlar ilerleyen bölümlerde verilmi tir. 2.1. Bauer&Köhne yöntemi Bauer&Köhne (1994) ayr ad mlardan elde edilen p-de!erlerinin birle tirilmesine dayanan bir yöntem (BK) önermi lerdir. Yöntem ayr alt örneklemden gelen p-de!erlerinin, I. Tür hata’n n sabit kalmas n sa!layan Fisher'in çarp m kriteri (Fisher’s product criterion) ile birle tirilmesine dayanan bir iki a amal düzendir. Düzen ya bilinen sabit örneklem büyüklü!üne sahip düzenler gibi ya da grup ard k test düzenlerindeki gibi planlanabilir. Ancak Posch&Bauer (1999) BK yönteminde her ad m için örneklem büyüklü!ünü formüle etmi lerdir. Testin i leyi i a a! da verildi!i gibidir: BK yöntemi için, ( c ) ve 0 sabitleri belirlenir. Bu de!erlere kar l k 1 de!eri SAS makrosu kullan larak hesaplanmaktad r. i = 1, 2 için pi, i. ad mda hesaplanan test istatisti!ine kar l k gelen pde!eri olmak üzere testin durdurma kurallar a a! daki gibidir: 1. p1 8 0 ise H0’ n kabulü ile süreç sonland r l r. 2. p1 ! 1 ( 1 > c 2 ) ise, H0 reddedilir ve süreç sonland r l r. < p1 < ise, ikinci ad ma geçilebilir. p1-de!eri ikinci ad m planlamak ve yeniden düzenlemek için kullan labilir (örne!in ikinci ad mda gözlenecek hasta say s n2’nin belirlenmesinde kullan l r). 4. kinci ad mda, p1 p 2 ! c 2 ise H0 reddedilir. Aksi halde H0 kabul edilerek süreç sonland r l r. 3. 1 0 E . 1’de verilen hipotez testi için, ara ad m ve son ad mda ilgili parametrik olmayan istatistik (örn: log-rank, Tarone-Ware, Gehan Wilcoxon vb.) ve p-de!eri hesaplanarak karar verilir. 2.2. Proschan&Hunsberger yöntemi Proschan&Hunsberger (1995) denemenin farkl ad mlar nda elde edilen ba! ms z test istatistiklerini do!rudan birle tirilmesine dayanan bir yöntem (PH) önermi lerdir. PH yöntemi için ve bunlara kar l k z O1 = n1 n1 + n 2 0 ve O 2 = ve z 1 n2 n1 + n 2 ve 0 sabitleri de!erleri SAS makrosu ile hesaplan r. kinci ad mda test istatisti!i, olmak üzere Z = O1z1 + O 2 z 2 biçiminde hesaplanmaktad r. Testin i leyi i a a! da verildi!i gibidir. 1. z1 ! z 2. z < z1 < z ise sonraki ad ma geçilir, 1 0 ise, H0 kabul, z 1 8 z 1 ise H0 reddedilerek süreç durdurulur, 0 3. Son ad mda, Z > c(n 2 , z 1 ) = n 1 z1 + n 2 z 2 1 z 12 ya da z 2 8 z 2 z 12 ise H0 reddedilir. n1 + n 2 E . 1’de verilen hipotez testi BK yöntemine paralel olarak, yukar daki durdurma kurallar kullan larak gerçekle tirilir. 255 1 2.3.Lehmacher&Wassmer yöntemi Lehmacher&Wassmer (1999), devam eden deneme için uyarlama yapmay sa!larken, klasik grup ard k test s n rlar n n kullan labilece!i bir yöntem (LW) önermi lerdir. Dengeli olmayan düzenlerde ise Wassmer (2006) a a! da verildi!i gibi bir a! rl kland rma yap larak inverse normal yöntem kullan lmas n önermi tir. Bu durumda i ad m say s , L i i. ad mdaki ba ar s zl k say s ve Si i. ad mda elde edilen grup ard k test istatisti!ini göstersin. Test için karar, z i = 3 1 (1 p i ) = olmak üzere, Z (i = 1 i " i " O 3 (1 1 i i =1 O i2 pi L i Si L i 1 Si Li Li 1 1 ) i =1 de!erine göre verilir. Burada i = 1, K , N için O 1 = L1 ve O i = L 2 L1 biçiminde al n r. 2.4.Test istatistiGi birle#tirme yöntemi Yeni bir tedavi yöntemi uygulanan grubun, kontrol grubu ile kar la t r ld ! denemelerde kullan labilecek birçok test istatisti!i vard r. Ara t rmac ara çözümlemenin ard ndan gücü art racak farkl bir test istatisti!i kullanmaya, daha çok gözlem almaya ya da çal ma süresini uzatmaya karar verebilir. Lawrence (2002) bu tür de!i ikliklerin yap labilece!i bir yöntem önermi tir. Lawrence (2002), Fleming-Harrington G ailesine ait istatistikler kullanm , ayr ad mlarda ’nun farkl de!erleri için elde edilen istatistiklerin birle tirilmesi için bir yöntem (T B) önermi tir ve test için klasik grup ard k test yöntemlerinden birine ait durdurma kurallar kullan labilmektedir. Bu birle tirme yöntemi ayr ad mlardan elde edilen, farkl istatistiklerin ba! ms zla t r lmas n temel almaktad r. T B yöntemi için w ad mlara ili kin sonuçlar birle tirilirken kullan lacak a! rl k ve Cov(Z , Z (1) ) Cov(Z , Z (1) )Cov(Z (1) , Z (1) ) w Z (1) + 1 w Z (2 ) ˆ 12 = olmak üzere, Z 2 = e itli!i (1) 2 ˆ 1 + 2 w (1 w ) 12 1 (Cov(Z , Z )) 2 1 2 2 2 1 2 1 2 2 kullan lmaktad r. 2.5.Varyans uyarlamas: yakla#:m: Parlak Demirhan v.d. (2008) klinik denemelerde elde edilen verinin yap s n dikkate alarak sansürlenme oranlar n n süreç için elde edilen güçler üzerindeki etkilerini incelemi tir. Bu incelemelerden yola ç k larak, ortaya ç kabilecek durumlar n olumsuz etkilerini ortadan kald rabilmek amac yla, hazard oran n n uyarlamal testinde hesaplanacak parametrik olmayan istatisti!e ait varyans için bir uyarlama önerilmi tir. Ara çözümlemede sansürlenme oranlar farkl oldu!unda a! rl kl ; ayn oldu!u durumlarda ise skor testlerinin kullan lmas uygundur (Leton&Zuluaga, 2001; 2005). Farkl ad mlardan elde edilen, varyans uyarlamas uygulanm istatistikler yukar da verilen yöntemler ile birle tirilerek hipotez hakk nda karar verilebilir. 3. Gerçek veri üzerine bir uygulama Bu bölümde Kalbfleisch&Prentice (1980) taraf ndan verilmi olan: Orofarinks karsinomu tedavisi için yap lan bir klinik denemeye ait veri kümesi kullan lm t r. E . 1’de verilen yokluk hipotezinin H 1 : > 0 (D > 1, ln D > 0 ) ) alternatifine kar testi gerçekle tirilmi tir. 256 3.1. BK yöntemi ile çözümleme N=2, = 0.05 , 1 = 0.80 için, alternatif hipotez de!eri D = 1.67 ve ln D = ad mda beklenecek ba ar s zl k say s 60 al nm t r. Çizelge 1. Ara çözümleme sonras test sonuçlar = 0.513 ve her 2. ad mdaki test ist. (p2-de!eri) p 2 > c p1 ise H0 kabul 1. ad mdaki test ist. (p1-de!eri) Testler 1 < p1 < ise 2. ad ma geçilir 0 0.9431 (0.8272) Log rank P-P Wilcoxon 1.0098 (0.8437) Wilcoxon 1.0957 (0.8634) Tarone-Ware 1.0291 (0.8483) 0 1 = 0.95 = 0.0117983 c = 0.0087049 (SAS kodu ile hesaplan r) 0.2562 (0.6011) 0.010523 0.6504 (0.7423) 0.010318 0.8789 (0.8102) 0.010082 0.7098 (0.7611) 0.010262 Ara çözümlemede H0 hipotezi hakk nda karar verilemeyerek ikinci ad ma geçilir. kinci ad m sonunda H0 kabul edilerek sürece son verilir. Burada örneklem büyüklü!ü, O’Brien&Fleming (1979) test düzeni dü ünülerek hesaplanm t r. Ancak ara t rmac , ikinci ad mda sa!lanmas istenen ko ullu güç de!erine ba!l kalarak Newton Rapson yöntemi ile birinci ad m örneklem büyüklü!ünü hesaplayabilir. Genel olarak kar la t rma yap ld ! nda: O’Brien&Fleming yöntemine göre toplam 120 ba ar s zl k gerçekle tikten sonra (çal man n 1701. günü) tedaviler aras nda fark olmad ! na karar verilirken, BK yöntemine göre sadece 70 ba ar s zl ! n ard ndan (çal man n 359. günü) bu karara ula labilmi tir. Dolay s yla daha az hasta kayb ve zaman aç s ndan, BK yönteminin kullan lmas daha avantajl d r. 3.2. PH yöntemi ile çözümleme Ara çözümlemeye kadar BK yöntemindeki gibi 60 ba ar s zl k beklenmi tir. PH yöntemine göre 1. ad m bilgisi kullan larak ikinci ad m örneklem büyükl!ü 30 olarak hesaplanm t r. 1. ad m sonuçlar , O1 = 0.8165 ve O 2 = 0.5774 olmak üzere sonuçlar Çizelge 2.’de verildi!i gibidir. Çizelge 2. PH yöntemi için son ad mda elde edilen sonuçlar c(n 2 , z 1 ) Testler z1 z2 Z Log rank P-P Wilcoxon Wilcoxon Tarone-Ware -0.94313 1.6110 -0.4470 -1.0282 -1.00981 1.6053 -0.4551 -1.0873 -1.09568 1.5971 -0.5539 -1.2144 -1.09568 1.5971 -0.5532 -1.1600 Tüm parametrik olmayan istatistikler için Z < c(n 2 , z1 ) oldu!undan H0 yokluk hipotezi kabul edilerek süreç sonland r l r. Hipotez hakk nda z 2 > z A (z ) ise ya da Z > c(n 2 , z1 ) ise ret karar verilmektedir. 1 Ancak z 1 >z oldu!undan z 1 yerine z koyuldu!undan, z A (z ) de!eri olmas gerekenden daha 1 küçük ç km olabilece!inden Z > c(n 2 , z1 ) kar la t rmas na göre karar vermek daha uygun olmu tur. 3.3. LW yöntemi ile çözümleme LW yöntemi kullan ld ! nda elde edilen sonuçlar Çizelge 3.’te verilmi tir. Test için Pocock (1977) s n r de!eri (1.876) kullan lm t r. Dolay s yla 1.ad mda H0 hakk nda karar verilemeyerek ikinci ad ma geçilmi tir. Çizelge 3. LW yöntemi için n 1 = 60 için ara çözümleme sonuçlar 1. Ad m 2. Ad m ( Z 2 ( p-de!eri) Testler z1 (p1-de!eri) 0.9431 (0.8272) -0.1093 (0.5435) Log rank 1.0098 (0.8437) -0.1531 (0.5608) P-P Wilcoxon 1.0957 (0.8634) -0.1610 (0.5640) Wilcoxon 1.0291 (0.8483) -0.1583 (0.5629) Tarone-Ware 257 kinci ad mda Alt bölüm 2.3’e göre hesaplanan de!erlere göre de yokluk hipotezi reddedilemez. Standart tedavi ile alternatif tedavi aras nda fark olmad ! karar ile süreç durdurulur. 3.3. Veri için varyans uyarlamas: O’Brien&Fleming düzenine göre elde edilen sonuçlar incelendi!inde, sansürlenme oranlar standart ve alternatif tedaviler için s ras yla, ara ad mda %58.33-%46.43, son ad mda ise %38.00-%38.30 olarak elde edilmi tir. Sansürlenme oranlar n n birinci ad m sonunda farkl , ikinci ad m sonunda ise ayn oldu!u görülmektedir. Bu durumda, birinci ad m sonunda hipergeometrik varyans hesaplan r ve a! rl kl testler elde edilir. kinci ad mdaysa permütasyonel varyans hesaplanarak skor testleri elde edilir. ki ad mda elde edilen test istatistikleri 2. Bölümde verilen yöntemler kullan larak birle tirilip hipotez testi yap labilir. Testlere ili kin sonuçlar Çizelge 4’te verildi!i gibidir. Burada sadece T B için sonuçlar verilmi itr. Çizelge 4. Ara çözümleme sonras nda varyans uyarlamas sonuçlar 1. Ad m Skor statistikleri A! rl k statistikleri 2. Ad m Skor statistikleri A! rl k statistikleri ˆ 12 # 0 olmak üzere Genel - Z LR -0.965 -0.94313 -0.85258 -0.8579 -1.26976 PPW -1.0278 -1.00981 -1.16888 -1.17955 -1.54056 GW -0.98892 -1.09568 -1.27088 -1.2738 -1.67341 TW -1.03358 -1.02909 -1.13876 -1.14317 -1.5329 Çizelge 4’te verilen sonuçlar klasik grup ard k test s n r de!erleri ile kar la t r larak hipotez testi yap lmaktad r. Di!er yöntemlerde elde edilen sonuçlara burada da ula lmaktad r. 4. Sonuç Bu çal mada, uyarlamal düzenler hakk nda genel bilgi verilmi tir. Ya am da! l mlar n n kar la t rmas nda hazard oranlar n n parametrik olmayan istatistikler ile uyarlamal düzenlerdeki testi verilmi ve yeni bir varyans uyarlamas yakla m önerilmi tir. Son olarak, uyarlamal düzenlerin uygulamas n göstermek amac yla, gerçek veri üzerinde bir uygulama yap lm t r. Grup ard k testler ara ad mlarda düzende uyarlama yapmaya izin vermedi!inden, ara t rmac lara uyarlamal düzenleri kullanmalar ve uyarlamal düzende yap lacak hazard oran testi için, ara ad mda ve son ad mda de!i en sansürlenme oranlar na göre varyans uyarlamas yapmas önerilebilir. Kaynaklar [1] P., Bauer, K., Köhne, (1994), Evaluation of experiments with adaptive interim analyses, Biometrics, 50, 1029-1041. [2] M., Posch, P., Bauer, (1999), Adaptive two stage designs and the conditional error function, Biometrical Journal, 41 (6), 689-696. [3] M. A., Proschan, S.A., Hunsberger, (1995), Designed extension of studies based on conditional power, Biometrics, 51, 1315-1324. [4] W., Lehmacher, G., Wassmer, (1999), Adaptive sample size calculations in group sequential trials , Biometrics, 55, 1286-1290. [5] G., Wassmer, (2006), Planning and analyzing adaptive group sequential survival trials, Biometrical Journal, 48, 4, 714-729. [6] J., Lawrence, (2002), Strategies for changing the test statistic during a clinical trial, Journal of Biopharmaceutical Statistics, 12 (2), 193-205. [7] Y., Parlak Demirhan, H., Demirhan, S., Bacanl , (2008), A simulation study on power comparisons for group sequential tests of non-parametric statistics, Journal of Statistical Computation and Simulation, Kabul edildi. [8] E., Leton, P., Zuluaga, (2001), Equivalence between score and weighted tests for survival curves, Commun. Statist., Theory Meth., 30 (4), 591-608. [9] E., Leton, P., Zuluaga, (2005), Relationships among tests for censored data, Biometrical Journal, 47 (3), 377-387. [10] J.D., Kalbfleisch, RL., Prentice, (1980), The Statistical Analysis of Failure Time Data, Wiley, New York. 258 [11] P.C., O'Brien, T.R., Fleming, (1979), A multiple testing procedure for clinical trials, Biometrics, 35, 549556. [12] S.J., Pocock, (1977), Group sequential methods in the design and analysis of clinical trials, Biometrika, 64, 2, 191-199. 259 Maksimum entropi ilkesi ve üç de!i ik veri kümesine uygulamas rem De!irmenci Süleyman Günay Hacettepe Üniversitesi Fen Fakültesi, statistik Bölümü 06532-Beytepe, Ankara, Türkiye iremd@hacettepe.edu.tr Hacettepe Üniversitesi Fen Fakültesi, statistik Bölümü 06532-Beytepe, Ankara, Türkiye sgunay@hacettepe.edu.tr Özet Entropi, günümüzde birçok bilim dal:nda kar#:la#:lan olas:l:ksal sistemlerin formulasyonunda önemli derecede yer almaktad:r. Entropi kavram:na dayanan entropi optimizasyon ilkeleri ve bu ilkelerin birbirleriyle olan ili#kileri ile ilgili çok say:da özgün çal:#ma yap:lm:#t:r. Bu ilkelerden “Jaynes’in maksimum entropi ilkesi” ve “Kullback’in minimum çapraz entropi ilkesi” en önemli iki optimizasyon ilkesidir. Maksimum entropi ilkesi, bir belirsizlik ölçütü olan Shannon entropi ölçütünün maksimize edilmesi temeline dayanmaktad:r. Maksimum entropi ilkesinin uyguland:G: en önemli alanlardan biri, rastlant: deGi#kenlerinin yoGunluk fonksiyonunun bulunmas:d:r. Bu yöntem yard:m:yla elde edilen daG:l:ma “MaxEnt daG:l:m:” denir. Bu çal:#mada, maksimum entropi ilkesi ve analitik çözüm yakla#:m: ele al:nm:# ve üç ayr: veri kümesi için MaxEnt daG:l:m: elde edilerek, bu daG:l:mlar:n veriye uyumu çe#itli kriterler yard:m:yla gösterilmi#tir. Anahtar sözcükler: Shannon entropi ölçütü; Maksimum entropi; MaxEnt daG:l:m: Abstract Maximum entropy principle and application to three different data set Entropy has very important role in the formulation of probabilistic systems which are encountered in a lot of disciplines. Numerous original workings have been made about entropy optimization principles which based on the concept of entropy and relationships between these principles. Jaynes’s maximum entropy principle and Kullback’s minimum cross entropy principle are the most important optimization principles. Maximum entropy principle is based on maximizing the Shannon entropy measure which is a measure of uncertainty. One of the most important regions which the maximum entropy principle is applied is finding the probability density functions of the random variables. The distribution which is obtained from this method is called “MaxEnt distribution”. In this study, maximum entropy principle and analytical solution approach was discussed and for three different data set, the MaxEnt distribution was found and discussed the performance of this distributions. Keywords: Shannon entropy measure; Maximum entropy; MaxEnt distribution 1. Giri! Modern bilgi kuram , büyük ölçüde olas l k teorisi üzerinde temellenen bilgi kavram n n say sal bir yakla m d r. Matematiksel ifadesiyle, E1 , E 2 ,..., E n gibi n tane farkl durum alabilen bir E rastgele olay belirlensin. Her bir duruma ait olas l klar ise s ras yla p1 , p 2 ,..., p n olarak ifade edilsin. Bu olas l k de!erlerinin pk > 0 ve 260 "p k =1 do!al k s tlar n sa!lad ! biliniyor. Bir E k rastgele olay na ait öz bilgi miktar a a! daki gibi tan mlan r: S ( E k ) = ln( 1 ) = ln( p k ) pk (1) 1948 y l nda, Claude Shannon taraf ndan, termodinamik ve istatistiksel mekanikteki kullan mlar na benzer ekilde, entropi olarak adland r lan bir belirsizlik ölçütü tan mlanm t r. (1) e itli!i ile gösterilen öz bilgi tan m dikkate al narak, rastgele bir olay için Shannon entropisi, öz bilginin matematiksel beklentisi olarak a a! daki gibi ifade edilebilir: H ( p) = n "p k =1 k ln p k (2) Entropi, pozitif ve permutasyonel olarak simetrik bir de!erdir. Bu de!er, ortaya ç kmas kesin olarak belli olan olaylar için 0 iken, bütün olas l klar n birbirine e it oldu!u durumda maksimum de!erini al r. Shannon’a göre, bir olay hakk nda bilgi edinilmesi, o olay n belirsizlik içermesi halinde söz konusu olabilmektedir. Buna göre, ortaya ç kma olas l ! yüksek olaylar n meydana gelmesi fazla bilgi getirmemekte, aksine olas l ! dü ük olaylar n olu mas daha fazla bilgi ta maktad r. Dolay s yla, belli bir durumun olu ma olas l ! , o durumu olu turan say n n belirsizlik derecesini temsil etmektedir. Bu nedenle, kazan lan bilgi, giderilen belirsizlik miktar n n dolayl bir ölçütüdür. Shannon, bu yakla mla, entropi kavram n , bir olay n alabilece!i çe itli alternatif durumlar n beklenen de!eri olarak bir matematiksel ba! nt yla tan mlam t r. Shannon taraf ndan ortaya konan bu ili ki sebebiyle, entropi kavram ve entropi optimizasyon ilkeleri, fizik, elektronik, matematik, istatistik, ekonomi ve t p gibi birçok alanda kullan lmaya ba lanm t r. Jaynes taraf ndan ortaya konan maksimum entropi ilkesi ve Kullback’in minimum çapraz entropi ilkesi, en önemli iki optimizasyon ilkesidir. MinxEnt yönteminin en önemli özelli!i, bir rastlant de!i kenine ait moment de!erleri ve önsel bir da! l m verildi!inde, uygun sonsuz say da da! l m aras ndan Kullback-Leibler ölçütünü minimum yapan da! l m bulmaya olanak sa!lamas d r. Jaynes taraf ndan ortaya at lan maksimum entropi ilkesi ise, sadece ortalama de!erler verildi!inde, olas tüm da! l mlar aras ndan, verilen k s tlarla tutarl olacak biçimde maksimum entropiye sahip olan da! l m n seçilmesi gerekti!ini öneren bir yakla md r. Burada, verilen k s tlar n d nda bir bilgi kullanmamak amac yla maksimum belirsizli!e sahip olan da! l m seçilmektedir. MaxEnt yöntemi ile elde edilen da! l m, bilinen da! l mlardan hiçbirine uyum göstermeyen bir rastlant de!i keni için uygun bir model olabilmektedir. Ayr ca, bilinen da! l mlara uyan bir rastlant de!i keni için de, di!er da! l mlara benzer sonuçlar vermekte, uygun moment k s tlar n n seçilmesiyle Normal da! l mla çak k sonuçlar vermektedir. Bu çal mada, üç ayr veri kümesi için MaxEnt da! l m elde edilmi ve bulunan da! l mlar n veriye uyumu çe itli kriterler yard m yla gösterilmi tir. 2. Maksimum entropi ilkesi X ; x1 , x 2 ,..., x n de!erlerini p1 , p 2 ,..., p n olas l klar ile alan bir rastlant de!i keni olsun. Bu de!i kene ba!l olan g1 ( X ), g 2 ( X ),..., g m ( X ) fonksiyonlar n n beklenen de!erleri, µ1 , µ 2 ,..., µ m ile gösterilirse, 261 n "p g i =1 i r ( xi ) = µ r , r = 1,..., m (3) ifadesi yaz labilir. Ayr ca olas l k de!erleri aras nda, n "p i =1 i =1 (4) ili kisi olmas gerekti!i de biliniyor. Verilen bu (3) ve (4) k s tlar ile tutarl olan sonsuz say da olas l k da! l m vard r. MaxEnt yönteminde yap lmak istenen, bu da! l mlar aras ndan maksimum entropiye sahip olan da! l m n seçilmesidir. Bu amaçla, H ( p) = n "p i =1 i ln pi (5) eklinde tan mlanan entropi fonksiyonu maksimize edilerek uygun p i olas l k de!erleri elde edilir. Bu yolla elde edilen da! l ma “MaxEnt da! l m ” denir. 3. Yöntemin analitik çözümü Matematiksel olarak maksimum entropi ilkesinde yap lmak istenen (5) e itli!i ile verilen entropi fonksiyonunu maksimize etmek oldu!undan, ko ullu ekstremum çözümüne göre verilmi (3) ve (4) ko ullar D0 , D1 ,..., D m Lagrange çarpanlar ile çarp larak yard mc L fonksiyonu LP n "p i =1 i ln pi (D0 1) n "p i =1 m n "D " p g 1 i r =1 r i =1 i ri µr (6) olarak elde edilir. Burada, D0 , D1 ,..., D m , (3) ve (4) e itlikleri ile verilen m + 1 k s ta ait m + 1 tane Lagrange çarpan d r. lemde kolayl k olmas aç s ndan D0 yerine D0 1 de!eri kullan lm t r. L yard mc fonksiyonunun p i ’lere göre k smi türevleri al n r ve s f ra e itlenirse (7) ile gösterilen denklem sistemi elde edilir: L =0 > pi ln pi D0 m "D g r =1 r ri = 0 , i = 1,2,..., n (7) Buradan pi = exp( D0 D1 g1i D2 g 2i L Dm g mi ) , i = 1,2,..., n ifadesine ula l r. Böylelikle (8) p1 , p 2 ,..., p n de!i kenleri D0 , D1 ,..., D m cinsinden yaz lm olur. Bilinmeyen D0 , D1 ,..., D m de!erleri ise, (8) ifadesinin, (3) ve (4) k s tlar nda yerine konmas yla bulunur. Böylelikle elde edilen denklemler, 262 n " exp i =1 D0 m "D i =1 j g ji = 1 (9) ve n " g ri exp D0 i =1 m "D j =1 j g ji = µ r , r = 1,2,..., m (10) eklindedir. (9) ve (10)’da elde edilen e itlikler (11) ve (12)’de gösterildi!i gibi yaz labilir: n exp(D0 ) = " exp i =1 m "D j =1 j g ji (11) ve n µ r exp(D0 ) = " g ri exp i =1 m "D j =1 j g ji , r = 1,2,..., m (12) Böylelikle n µ r = " g ri exp i =1 m " D j g ji j =1 n " exp i =1 m "D j =1 j g ji , r = 1,2,..., m (13) ifadesine ula labilir. Burada (11) denklemi, D0 ’ , D1 , D 2 ,..., D m çarpanlar n n bir fonksiyonu olarak ifade ederken, en son elde edilen (13) denklemi, µ1 , µ 2 ,..., µ m de!erlerinin D1 , D 2 ,..., D m cinsinden ifadesini verir. D0 , D1 ,..., D m Lagrange çarpanlar n elde ettikten sonra (8) e itli!i sayesinde p i olas l k de!erlerine ula labilir. Burada, Matlab’ta yaz lm bir program yard m yla çarpanlar, dolay s yla MaxEnt da! l m elde edilebilir. 4. Uygulama Bu bölümde MaxEnt yöntemi kullan larak üç ayr uygulama yap lm t r. Her bir veri kümesi Türkiye statistik Kurumu’ndan elde edilmi tir. Üç veri kümesi için de MaxEnt da! l mlar elde edilmi ve bu da! l m n veriye olan uyumu baz kriterler yard m yla incelenmi tir. lk veri kümesi, 2000-2006 y llar aras n kapsayan dönemde, 3 y l ve daha fazla süredir i arayan i siz say s n içermektedir. Belirtilen say lar bin ki iyi göstermekte olup, 15 ya ve üstünü kapsamaktad r. lk olarak, bir paket program yard m yla veri kümesinin bilinen herhangi bir da! l ma uyum gösterip göstermedi!i ara t r lm ve bilinen da! l mlardan uniform, geometrik ve negatif binom da! l m na uydu!u görülmü tür. 3 y l ve daha fazla süredir i arayan ki i say na ait MaxEnt da! l m , moment k s tlar n n g1 ( x) = x ve g 2 ( x) = x 2 olarak seçilmesiyle elde edilmi tir. Bulunan MaxEnt da! l m n n veriye uyumu Q 2 Ki-Kare, R 2 korelasyon katsay s ve K-L Kullback-Leibler ölçütü kullan larak gösterilmi tir. Bu de!i ken için elde edilen da! l m ve uygunlu!u a a! daki Çizelge.1’de gösterilmi tir: 263 Çizelge 1. 3 y l ve daha fazla süredir i arayan ki i say s için gerçek olas l klar ve MaxEnt olas l klar Y llar 2000 2001 2002 2003 2004 2005 2006 Q2: K-L : 2 R : 3 y l ve daha fazla süredir i! arayan Gerçek MaxEnt ki!i say s olas l klar olas l klar (Bin ki!i, 15+ ya!) 44 54 94 104 220 259 206 0.0449 0.0550 0.0958 0.1060 0.2243 0.2640 0.2100 0.0492 0.0562 0.0905 0.1006 0.2298 0.2575 0.2162 1.460623582 0.000740164 0.996 Çizelge 1.’den, 3 y l ve daha fazla süredir i arayan ki i say s na göre belirlenen MaxEnt da! l m n n 2 veriyi modellemede Q 2 , Kullback-Leibler ölçütü ve R kriterleri aç s ndan çok iyi sonuçlar verdi!i görülmektedir. Bu kriterlerin yan nda MaxEnt da! l m n n veriye uyumu görsel olarak a a! daki grafik yard m yla da görülmektedir: MAXENT DAGILIMI 300 MaxEnt deðerleri Gerçek deðerler Is arayan kisi sayisi (Bin kisi) 250 200 150 100 50 0 2000 2001 2002 2003 Yillar 2004 2005 2006 Bekil 1. 3 y l ve daha fazla süredir i arayan ki i say s n n MaxEnt da! l m na uyumu 264 Grafik incelendi!inde, bulunan Maxent da! l m n n i arayan ki i say s na yüksek oranda uyum gösterdi!i görülmektedir. Dolay s yla, hem birtak m istatistiksel kriterler yard m yla hem de görsel olarak de!erlendirildi!inde, maksimum entropi yöntemi ile bulunan MaxEnt da! l m n n, 3 y l ve daha fazla süredir i arayan ki i say s için uyumlu sonuçlar verdi!i söylenebilmektedir. Bir di!er veri kümesi ise, 1998-2007 y llar n kapsayan dönemde, 15-24 ya aral ! nda görülen intiharlard r. Bir önceki uygulamaya benzer olarak yine ilk ad mda bir paket program yard m yla veri kümesinin bilinen herhangi bir da! l ma uyum gösterip göstermedi!i ara t r lm ve bilinen da! l mlardan yaln zca negatif binom da! l m na uyum gösterdi!i görülmü tür. Burada intihar say lar na ait MaxEnt da! l m , moment k s tlar n n g1 ( x) = x , g 2 ( x) = x 2 ve g 3 ( x) = x 3 olarak seçilmesiyle elde edilmi tir. Bulunan MaxEnt da! l m n n veriye uyumu Q 2 Ki-Kare, R 2 korelasyon katsay s ve K-L Kullback-Leibler ölçütü kullan larak gösterilmi tir. Bu de!i ken için elde edilen da! l m ve uygunlu!u a a! daki Çizelge.2’de gösterilmi tir: Çizelge 2. Y llara göre 15-24 ya aral ! nda görülen intihar say s için gerçek olas l klar ve MaxEnt olas l klar Y llar 1998 1999 2000 2001 2002 2003 2004 2005 2006 2007 Q2: K-L : 2 R : 15-24 ya! aras nda görülen intiharlar 661 604 621 841 746 922 850 759 778 690 Gerçek MaxEnt olas l klar olas l klar 0.0885 0.0808 0.0831 0.1126 0.0998 0.1234 0.1138 0.1016 0.1041 0.0923 0.0893 0.0798 0.0829 0.1114 0.1003 0.1245 0.1126 0.1018 0.104 0.0934 0.524036 0.000036 0.996 Çizelge 2.’den, 15-24 ya aral ! nda görülen intihar say s na göre belirlenen MaxEnt da! l m n n 2 veriyi modellemede Q 2 , Kullback-Leibler ölçütü ve R kriterleri aç s ndan çok iyi sonuçlar verdi!i görülmektedir. Bu kriterlerin yan nda MaxEnt da! l m n n veriye uyumu görsel olarak rekil. 2’de görülmektedir: 265 MAXENT DAGILIMI 1000 MaxEnt deðerleri Gerçek deðerler 900 800 Intiharlar 700 600 500 400 300 200 100 0 1998 1999 2000 2001 2002 2003 Yillar 2004 2005 2006 2007 Bekil 2. 15-24 ya aral ! nda görülen intihar say s n n MaxEnt da! l m na uyumu Grafik incelendi!inde, bulunan Maxent da! l m n n intihar say lar na yüksek oranda uyum gösterdi!i görülmektedir. Dolay s yla, hem çe itli istatistiksel kriterler yard m yla hem de görsel olarak yorumland ! nda, maksimum entropi yöntemi ile bulunan MaxEnt da! l m n n, 15-24 ya aral ! nda görülen intihar say lar için uyumlu sonuçlar verdi!i söylenebilmektedir. Son olarak, 2002-2006 y llar n kapsayan dönemdeki yoksul (G da yoksullu!u) fert say s ele al ns n. Yoksul fert say s na ili kin MaxEnt da! l m , moment k s tlar n n g1 ( x) = x ve g 2 ( x) = ln( x) olarak seçilmesiyle elde edilmi tir. Bulunan MaxEnt da! l m n n veriye uyumu önceki iki uygulamaya benzer olarak, Q 2 Ki-Kare, R 2 korelasyon katsay s ve K-L Kullback-Leibler ölçütü kullan larak gösterilmi tir. Bu de!i ken için elde edilen da! l m ve uygunlu!u a a! daki Çizelge.3’de gösterilmi tir: Çizelge 3. Y llara göre yoksul fert say s (G da yoksullu!u) için gerçek olas l klar ve MaxEnt olas l klar Y llar 2002 2003 2004 2005 2006 Q2: K-L : 2 R : Yoksul fert MaxEnt Gerçek say s olas l klar olas l klar (Bin ki!i) 926 894 909 623 539 0.2380 0.2298 0.2336 0.1601 0.1385 0.099479029 0.000112917 1.000 266 0.2387 0.2293 0.2337 0.1587 0.1397 Çizelge 3.’ten, 2002-2006 y llar aras ndaki yoksul fert say s na göre belirlenen MaxEnt da! l m n n 2 veriyi modellemede Q 2 , Kullback-Leibler ölçütü ve R kriterleri aç s ndan çok iyi sonuçlar verdi!i görülmektedir. Bu kriterlerin yan nda MaxEnt da! l m n n veriye uyumu görsel olarak rekil. 3’te görülmektedir: MAXENT DAGILIMI 1000 MaxEnt deðerleri Gerçek deðerler 900 800 Yoksul fert sayisi 700 600 500 400 300 200 100 0 2002 2003 2004 Yillar 2005 2006 Bekil 3. Yoksul fert say s n n (G da yoksullu!u) MaxEnt da! l m na uyumu Grafik incelendi!inde, bulunan Maxent da! l m n n yoksul fert say s na çok iyi bir uyum gösterdi!i görülmektedir. Dolay s yla, hem çe itli istatistiksel kriterler yard m yla hem de görsel olarak bak ld ! nda, maksimum entropi yöntemi ile bulunan MaxEnt da! l m n n, yoksul fert say s için de uyumlu sonuçlar verdi!i söylenebilmektedir. 5. Sonuç Bu çal mada, maksimum entropi ilkesi, analitik çözüm yakla m ve bu ilke yard m yla elde edilen MaxEnt da! l m n n veriye uyumu incelenmi tir. Yöntem yard m yla üç farkl veri kümesi için MaxEnt da! l m elde edilmi ve bulunan da! l m n veriye uyumu de!erlendirilmi tir. Hem birtak m kriterler yard m yla hem de grafik ile görsel olarak incelendi!inde, Maxent da! l m n n veriye uyumunun üç veri kümesi için de oldukça iyi oldu!u görülmü tür. Dolay s yla maksimum entropi yönteminin veriyi modellemede etkili ve kullan l bir yöntem oldu!u söylenebilmektedir. Kaynaklar [1] A. M. Djafari, (1991), A Matlab Program to Calculate the Maximum Entropy Distributions, Maximum Entropy and Bayesian Methods, s. 221-233, Kluwer Academic Publishers. [2] A. ramilov, Y. M. Kantar, . Usta, Ç. Giriftino!lu, Verinin ki Modlu Olmas Durumunda MaxEnt Da! l mlar n n Performans n n ncelenmesi, 5. statistik Kongresi ve Risk Ölçümleri ve Yükümlülük Toplant s , s. 246, 20-24 May s, 2007. 267 [3] [4] [5] [6] [7] A. ramilov, . Usta, Y. M. Kantar, Ç. Giriftino!lu, Minimum Çapraz Entropi Metodunun statistiksel Bir Uygulamas , 5. statistik Kongresi ve Risk Ölçümleri ve Yükümlülük Toplant s , s. 144, 20-24 May s, 2007. Ç. Giriftino!lu, (2005), Yüksek Lisans Tezi, Kesikli rassal de!i kenler için entropi optimizasyon prensipleri ve uygulamalar , Anadolu Üniversitesi. J. N. Kapur, H. N. Kesevan, (1992), Entropy Optimization Principles with Applications, Academic Press. M. D. Pandey, (2000), Direct estimation of quantile functions using the maximum entropy principle, Structural Safety, 22, s. 61-79. http://www.tuik.gov.tr 268 Kalite Kontrol Grafiklerine Bulan k Yakla m Ay en Apayd n Nilüfer Pekin Alakoç Ankara Üniversitesi Fen Fakültesi, statistik Bölümü 06100-TandoGan, Ankara, Türkiye Ba#kent Üniversitesi Mühendislik Fakültesi, Endüstri MühendisliGi Bölümü 06530-Etimesgut, Ankara, Türkiye apaydin@science.ankara.edu.tr npekin@baskent.edu.tr Özet Kalite kontrol grafikleri bir sürecin de!i kenli!ini izlemek ve gerekirse süreci kontrol alt na almak için kullan l r. Bu grafikler bulan k teori ile geli tirildi!inde gerçe!i daha iyi yans tan sonuçlar elde edilir. Bunun nedeni bulan k say larla sürecin daha esnek tan mlanabilmesidir. Bu çal mada, bulan k kalite kontrol grafiklerinin tarihsel geli imi anlat lmakt r. Niteliksel ve niceliksel veri grafikleri olarak s n fland r lan klasik grafiklerin bulan k durumlar ayr ayr anlat lm ve çal ma bulan k kontrol grafikleri yöntemleri ile s n rland r lm t r. Bulan k kalite kontrol grafiklerinin avantajlar iki uygulama ile gösterilmi tir. Anahtar sözcükler: Kalite kontrol grafikleri; Bulan:k mant:k. Abstract Fuzzy Approach of Quality Control Charts Quality control charts are used to monitor variation of a process and control the process if required. More realistic results are obtained when these charts are developped with fuzzy theory. This is due to the fact that the process can be defined more flexible with fuzzy numbers. In this study literature review of fuzzy control charts will be presented. The fuzzy States of the classical charts that are classified as qualitative and quantitative data charts are reviewed seperately and the study is limited to fuzzy control charts methods. The advantages of fuzzy quality control charts will be illustrated with two applications. Keywords: Quality control charts; Fuzzy logic. 1. Giri! Kalite kontrol grafikleri bir sürecin önceden belirlenen kalite standartlar na uygun olup olmad ! denetlemek için kullan lan istatistiksel araçlard r. Sürecin zamana göre de!i imini özetlemek için geli tirilmi lerdir. Grafik üzerindeki de!erler sürecin zaman içinde ald ! de!erleri veya istatistikleridir. Temel olarak istatistik kullan larak olu turulmu alt s n r, üst s n r ve orta çizgiden olu urlar. Al nan örne!e dayanarak hesaplanan bu de!erler rasgele de!i kenli!in alabilece!i en küçük ve en büyük de!erleri vermektedir. Kontrol grafi!inde alt ve üst s n rlar n d nda nokta olmas sürecin kontrol d nda oldu!unu gösterir. Fakat grafikte alt ve üst s n rlar n d nda nokta olmamas üretimin kontrol alt nda oldu!unu söylemez. De!erlerin kontrol s n rlar içinde olmas na ra!men sürekli azalmas ya da artmas görülebilir. K sacas grafikte rasgele olmayan de!erlerin olmas kontrol d durum olarak tan mlan r. 269 Süreçteki bir sorunun mümkün oldu!unca erken görülmesi önemlidir. E!er kontrol d bir durum görülürse nedenleri ara t r lmal ve süreci kontrol alt na almak için gerekli tedbirlerin ve önlemlerin al narak sürecin tekrar istenilen kaliteye döndürülmesi gerekir. Bu çal mada 1990’lardan günümüze kadar olan bulan k kalite kontrol grafiklerinin geli melerinin özetlenmesi amaçlanm t r. Bundan sonraki bölümde bulan k kontrol grafiklerinin tan m na ve klasik grafiklere göre kullan m avantajlar na de!inilmi tir. S ras yla niteliksel ve niceliksel veri kontrol grafiklerine literatürdeki bulan k yakla mlar ele al nm t r. Üçüncü bölümde ise bulan k kalite kontrol grafiklerinin klasik grafiklere göre kullan m avantajlar iki uygulama ile özetlenmi tir. 2. Bulan k kontrol grafikleri Bir sürecin ortalamas ndaki küçük dalgalanmalar , kaymalar yakalamak süreci daha erken kontrol alt na almak ve maliyet aç s ndan önemlidir. Bu nedenle bulan k kalite kontrol grafikleri geli tirilmi tir. Klasik grafikler kontrol içinde veya kontrol d nda eklinde sonuca var r. Fakat bulan k yakla m ile çizilen grafikler bir çok ara karar da içerebilir. Bu da gerçe!e daha yak n ve daha esnek sonuçlara var lmas na sebep olur. Bulan k kontrol grafiklerinin kullan lmas n n ve geli tirilmesinin önemli bir nedeni geleneksel kontrol grafiklerinin geçmi veriye dayanmas fakat bulan k kontrol grafikleri uzmanlar n tecrübelerine dayanmas d r. Geçmi verilerin tutulmas na gerek yoktur ve hatta bu grafikler bulan k say lar üretilerek çizildi!i için verilerin kesin olarak bilinmesine de gerek yoktur. Ayr ca klasik grafiklerde alt ve üst s n r n de!eri örneklemdeki alt gruplar n eleman say s ndan etkilenmesine ra!men bulan k grafiklerde bu görülmez. Literatürde kontrol grafikleri ve bulan k mant k çok çal lm olsa da bulan k kalite kontrol grafikleri 1990’lardan sonra incelenmeye ba lanm t r. 2.1. Niteliksek veri kontrol grafikleri Bulan k kalite kontrol grafikleri çal malar ilk olarak 1990’da T. Raz ve J.H. Wang’ n yapt klar iki çal ma ile ba lar. Bu iki makalede de niteliksel veriler ile çal m lar ve p ve c grafiklerine alternatifler üretmi lerdir. Kalite karakteristi!i uygun / uygun de!il olarak de!il ara seviyeleri de belirterek incelemi lerdir. Olas l ksal yakla m ve üyelik yakla m olarak tan mlanan iki yöntem geli tirmi lerdir. Bu konuda yap lm daha sonraki ilk çal ma Kanagawa, F. Tamaki ve H. Ohta (1993)’ya aittir. J.H. Wang ve T. Raz’ n çal malar temel al nm t r. Linguistik terimler bulan k say olarak ele al nm ve bu terimler için olas l k yo!unluk fonksiyonlar tan mlanm t r. Zadeh’in olas l k fonksiyonu kullan larak linguistik terimlerin ortaya ç kma olas l klar bulunmu tur. Grafi!in s n rlar , süreç kontrol alt nda iken noktalar n s n rlar n d na ç kma olas l klar na göre belirlenmi tir. Sürecin durumunu aç klamak için linguistik terimler kullan lm t r. Yukar da içerikleri k saca anlat lan çal malar n varsay mlar n n gerçekçi olmad ! kullan lan üyelik fonksiyonlar n n problemli oldu!unu A. Kanagawa, F. Tamaki ve H. Ohta (1993) taraf ndan ve daha sonraki çal malarda vurgulanm t r. Bu nedenle süreci daha iyi yans tabilmek için yap lan ilk çal ma H. Taleb ve M. Limam (2002) aittir. Bu makalede linguistik veri için farkl kontrol grafikleri üretme prosedürleri anlat lm t r. Literatürdeki Raz ve Wang taraf ndan geli tirilen iki yöntem ve Marcucci yöntemi bir örnek üzerinde kar la t r lm t r. ki sonuca var lm t r: linguistik say lar n üyelik fonksiyonlar n n bulan kl ! kontrol grafiklerini kurmada önemli bir de!i kendir ve multinominal süreçlerde bulan k kontrol grafikleri olas l k grafiklerinden daha iyi ve daha hassas sonuçlar vermektedir. 270 M. Gülbay, C. Kahraman ve D. Ruan, 2004 y l na ait çal malar nda bulan k kontrol grafiklerine farkl bir bak aç s ile yakla m lard r. Bu çal ma Shewhart’ n niteliksel kontrol grafiklerinden p ve c grafikleri temel al narak geli tirilmi tir. Süreçteki hatal ya da uygun olmayan ürün say s ile ilgilenildi!i ve verinin linguistik oldu!u varsay lm t r. Geli tirilen alfa kesme kontrol grafi!i gözlemin s k l ! n kontrol etmektedir. Alfan n ald ! de!er artt kça sonucun s k l ! da artaca! gösterilmi tir. Chi-Bin Cheng (2005) kontrol grafiklerinde kullan lan verinin önemine de!inmi ve güvenilir olmas gerekti!ini savunmu tur. Bunun için hem ölçümlere hem de uzmanlar n görü lerine dayanan bir kontrol grafi!inin gerçe!e daha yak n sonuçlar verece!ini göstermi tir. lk olarak bir grup uzman ürünlere puan vermi ve bu puanlar toplanarak bulan k say lar yaz lm t r. Olu turulan bu bulan k say lar ve ölçümler aras nda sinir a!lar yla uygulanan bulan k regresyon analizi yap lm t r. Bulan k kalite oranlar bulan k grafikler üzerinde gösterilmi ve bu sayede verilerin belirsizli!i kontrol grafiklerinde da korunmu tur. Olas l k teorisi ile kontrol d durumlar n artlar belirlenmi tir. Sadece kontrol içinde veya d nda olarak de!il bulan kl ! n ölçüsü de sonuç olarak verilmi tir. Bulan k say lar gerçek say lara çevirmek için baz dönü üm yöntemleri kullan l r. Bu yöntemlerin veri kayb na sebep olmas bulan k say lar veri olarak kullanan farkl yakla mlar n üretilmesine sebep olmu tur. Bu amaçla yap lan ilk çal mada Chi-Bin Cheng (2005) gibi M. Gülbay ve C. Kahraman (2006)’da kullan lan verinin kontrol grafi!i üzerindeki etkisinde durmu tur. M. Gülbay ve C. Kahraman (2006), bulan k dönü üm tekniklerine do!rudan bulan k yakla m (DBY) olarak adland r lan farkl bir yöntem geli tirmi tir. Bulan k c grafi!ine bir alternatif olarak üretilmi tir. Ayn ekil üzerinde bulan k s n rlar, örneklem ve alfa kesmesi çizilmi ve sonuca örneklemin alt s n r ve üst s n r aras nda kalan alan na dayan larak var lm t r. Önceden belirlenen kabul edilebilirlik yüzdesi sonucun hangi kategoride olaca! n belirtmi tir. M. Gülbay ve C. Kahraman’in 2006 y l nda geli tirdikleri dönü üm tekniklerine do!rudan bulan k yakla m yöntemine bu çal mada do!al olmayan örüntülerin analizlerini inceleyerek yakla lm t r. Alt ve üst kontrol s n rlar n n d nda bir nokta olmamas sürecin kontrol d nda olmad ! n göstermez. Bunu incelemek için literatürde baz kontrol d durumlar n kurallar tan mlanm t r. Bu makalede önemli kurallar bulan kla t r larak bulan k grafiklerin kontrol d durumlar tan mlanm t r. Literatürde bu kurallar ilk defa bu çal ma ile incelenmi tir. V. Amirzadeh, M. Mashinchi ve A. Parchami (2009) çal malar nda ortalama uygunsuzluk derecesine dayanan bir bulan k p grafi!i geli tirilmi tir. Bu grafik daha önce literatürde görülen grafiklerden tamamen farkl bir yakla m ile olu turulmu tur. Bu fark klasik p grafi!ine alternatif olarak geli tirilen grafi!in Shewhart’ n X S grafi!ine benzemesidir. Veri uygun ya da uygun de!il olarak s n fland r lmam , yamuksal üyelik fonksiyonlarla uygunsuzlu!un ya da uygunlu!un dereceleri belirlenmi tir. Normal da! ld ! varsay lan verinin üyelik fonksiyonun beklenen de!er ve varyans na dayanan kontrol grafi!in alt s n r, üst s n r ve orta çizgisi bulunmu tur. Bulan k grafik ile X S grafi!i benzer ekiller vererek kontrol d durumlar vermesine ra!men p grafi!i sürecin kontrol alt nda oldu!unu vermi tir. Geli tirilen grafi!in ortalaman n ve varyans n de!i imlerine daha iyi yan t verdi!i görülmü tür. 2.2. Niceliksel veri kontrol grafikleri Literatürde bulan k kontrol grafikleri çal l rken genellikle niteliksel veriler tercih edilmi tir. Bunun çe itli sebepleri vard r. En önemlisi linguistik ya da niteliksel verilerin bulan k say larla daha kolay ifade edilebilmesidir. Niceliksel veri için geli tirilmi kontrol grafiklerinden ilki A. Faraz ve M.B. Moghadam’n n (2007) çal mas d r. Bu çal mada Shewhart’ n X kontrol grafi!ine daha iyi bir alternatif geli tirilmi tir. Kalite karakteristi!i linguistik olarak tan mland ! için sapma ve genel kalite seviyesi de bir bulan k terimler kümesi ile aç klanm t r. Klasik sürekli verinin süreç ortalamas grafi!i yerine çizilen bu grafi!in en önemli özelli!i üst s n r n yan nda bir uyar çizgisi olmas d r. Bu uyar çizgisine göre geli tirilen kurallar ile süreç hakk nda daha detayl bilgi verilmi tir. Ayr ca kurallar n 271 sonucunda yanl karar verme olas l klar n veren yanl alarm oran da hesaplanm t r. Verinin alt gruplar n n yay kl ! n n kontrol grafi!inde Pearson uyum iyili!i istatisti!i kullan lm t r. Yeni yöntem klasik X grafi!ine göre daha iyi bir görsel grafiktir ve ortalamadaki kaymalar daha belirgin olarak belirtmektedir. Bulan k X R ve X S grafiklerinin geli tirildi!i di!er bir çal mada S. rentürk ve N. Erginel (2008) taraf ndan yap lm t r. Klasik X R ve X S kontrol grafikleri alfa-seviye bulan k midranges dönü üm tekni!i kullan larak bulan k kalite kontrol grafiklerine dönü türülmü tür. X R ve X S grafiklerininin bulan k alt s n r , üst s n r ve orta çizgisi hesaplanm t r. Bunu yaparken üçgensel bulan k say lar kullan ld ! için bulunan de!erler de üçgensel bulan k say lard r. Benzer ekilde alfa ~ ~ kesme yöntemiyle X R~ ve X S~ grafikleri geli tirilmi tir. Son olarak alfa seviye bulan k midranges ~ ~ ~ dönü üm tekni!i ile X R~ ve X S~ grafikleri aç klanm t r. Ayr ca X R~ kontrol grafi!inin hesaplanmas bir uygulama ile gösterilmi tir. Bu uygulamada bulan k grafiklerin geleneksel grafiklerden daha iyi sonuçlar verdi!i kan tlanm t r. 3. Uygulamalar Bu bölümde bulan k kalite kontrol grafikleri iki uygulama ile incelenmi tir. Literatürdeki iki önemli çal man n uygulamas yap larak bulan k kalite kontrol grafiklerinin kullan m avantajlar , uygulanabilirlikleri ve yöntemler aras ndaki farklar gösterilmeye çal lm t r. Niteliksel ve niceliksel verilerin çal ld ! iki yöntem seçilmi tir. Bunlar s ras yla niteliksel veri için dönü üm tekniklerine do!rudan bulan k yakla m yöntemi (M. Gülbay ve C. Kahraman (2006)) ve niceliksel veri için bulan k X R ve X S grafikleri yöntemidir (S. rentürk ve N. Erginel (2008) ). Bu yöntemler uygulamalar yap larak incelenmi tir. Bu bölümde genel sonuçlar ç karabilmek ve yöntemler hakk nda sa!l kl yorumlar yapabilmek için birden çok veri seti üzerinde çal lm t r. Bulan k say lar n simetrisi ve yay kl ! de!i tirilerek veri setleri elde edilmi ve farkl yöntemlerin bu veri setleri üzerindeki sonuçlar incelenmi tir. 3.1 Niteliksel veri için geli#tirilmi# yöntem uygulamas: Niteliksel veri için geli tirilmi bulan k kalite kontrol grafiklerinden en önemlilerinden biri M. Gülbay ve C. Kahraman’a aittir (2006). Bu çal mada geli tirilen ve klasik c grafi!ine alternatif olan do!rudan bulan k yakla m (DBY) yöntemi dönü üm kullan larak olu turulan tepe de!eri, midrange ve ortanca bulan k grafikleri ile kar la t r lm t r. Bu uygulamada 40 birimlik yamuksal veri seti ile çal lm t r. Yöntemler C++ programlama dilinde yaz lm t r ve farkl veri setleri için yöntemlerin sonuçlar kar la t r lm t r. Tepe de!eri, midrange ve ortanca dönü üm tekniklerinin yan nda, “a! rl k merkezi” dönü üm yöntemi (AMD) de geli tirilerek (DBY) ile kar la t r lm t r. Literatürde en çok kullan lan bulan k dönü üm tekniklerinden biri AMD yöntemidir. Beklenen de!er hesaplar n temel al narak bulunur ve x* = . xµ (x )dx , . µ (x )dx X (1) X biçiminde tan mlan r. X bulan k say lar n tan ml oldu!u küme ve µ ( x ) üyelik fonksiyonudur. Bu çal mas nda alfa kesme kullan larak her bir yamuksal bulan k say AMD yöntemi ile tek bir say ya dönü türülmü tür. 272 x = * i di 2 + ci2 + ci d i 3 ci + d i ai ai ( 2 bi2 + bi ai bi i = 1,2,...,40. ) (2) Formülüyle her bir bulan k say n n AMD yönteminden elde edilen de!eri bulunmu tur. 2 2 CL4 + CL23 + CL3CL4 CL1 = 3 CL3 + CL4 CL1 CL AMD CL22 + CL2 CL1 CL2 ( UCL AMD = CL AMD (3) ) 3 CL AMD (4) LCL AMD = CL AMD + 3 CL AMD (5) Kontrol alt nda, LCL AMD ! x *i ! UCL AMD Süreç= (6) Kontrol d nda, d.d. E itlikleriyle kontrol s n rlar hesaplanm ve karar artlar belirlenmi tir. Yap lan denemelerde yöntemlerin farkl veri setlerinde farkl sonuçlar verebildi!i görülmü tür. Öncelikle simetrisi dü ük ve yay kl ! büyük bir veri seti ile çal lm ve bulan k say lar be yöntem ile incelenmi tir. Yöntemler ayn sonucu vererek sürecin kontrol alt nda olu!unu göstermi tir. Bu veri setinde bulan k say lar n birbirlerine yak n ve benzer olmas yöntemlerin farklar n ortadan kalkmas na neden olmu tur. Çizelge 1’de verilen bulan k say lar simetrisi dü ük, yay kl ! büyük bir veri setine aittir. Çizelge 1. Yamuksal bulan k say lar No: a b c d No: a b c d No: a b c d No: a b c d 1 11 12 31 35 11 31 39 55 56 21 15 18 19 21 31 11 2 22 23 33 47 12 12 13 24 25 22 2 3 4 7 32 2 22 45 56 23 36 47 3 0 1 12 13 13 12 13 23 64 23 66 87 118 149 33 2 4 0 1 2 5 14 8 14 25 29 24 20 31 44 55 34 3 13 25 36 14 24 35 5 0 20 23 34 15 0 31 33 44 25 0 1 2 4 35 2 13 34 44 6 1 22 33 53 16 2 23 61 77 26 51 62 70 80 36 2 13 24 29 7 20 21 36 49 17 1 22 39 44 27 74 78 80 98 37 1 2 3 3 8 20 21 24 26 18 0 41 72 93 28 0 1 1 2 38 0 11 11 23 9 10 12 22 32 19 0 11 25 46 29 1 2 3 3 39 50 68 81 123 10 8 10 21 31 20 2 13 24 25 30 27 38 49 55 40 12 81 91 104 Çizelge 1’deki veri setinde bulan k say lar n aral ! ve yay kl ! geni tir. Veri setinin sonuçlar Çizelge 2’de özetlenmi tir. 273 Çizelge 2. Yamuksal bulan k say lar üzerine incelenen be yöntemin sonuçlar No: 1 Tepe de<eri Midrange Ortanca ka ka ka DBY AMD No: ka ka 21 Tepe de<eri Midrange Ortanca ka ka DBY AMD ka ka ka 2 ka ka ka ka ka 22 kd kd kd kkd kd 3 kkd kd kd kka kd 23 kd kd kd kd kd 4 kd kd kd kka kd 24 ka ka ka ka ka 5 ka ka ka ka ka 25 kd kd kd kkd kd 6 ka ka ka ka ka 26 kd kd kd kkd Kd 7 ka ka ka ka ka 27 kd kd kd kd Kd 8 ka ka ka ka ka 28 kd kd kd kkd Kd 9 ka ka ka ka ka 29 kd kd kd kkd kd 10 ka ka kd ka kd 30 ka ka ka ka ka 11 ka kd kd kka kd 31 ka ka ka ka ka 12 ka ka ka ka ka 32 ka ka ka ka ka 13 ka ka ka ka ka 33 ka ka ka ka ka 14 ka ka ka ka ka 34 ka ka ka ka ka 15 ka ka ka ka ka 35 ka ka ka ka ka 16 ka ka ka ka ka 36 ka ka ka ka ka 17 ka ka ka ka ka 37 kd kd kd kkd kd 18 kkd kd kd kkd kd 38 ka kd kd ka kd 19 ka ka ka ka ka 39 kd kd kd kkd kd 20 ka ka ka ka ka 40 kd kd kd kkd kd ka : kontrol alt nda kka : k smen kontrol alt nda kkd : k smen kontrol d nda kd : kontrol d nda Yöntemlerin hesaplamalar ndaki farklara dayal olarak bulan k say lardaki de!i kenlik artt kça yöntemlerin süreç hakk ndaki sonuçlar da de!i mektedir. Örne!in Çizelge 2’de 11 numaral bulan k say n n tepe de!eri dönü ümü kullan ld ! nda kontrol içinde, DBY ile k smen kontrol içinde ve midrange, ortanca ve AMD dönü üm tekni!i kullan ld ! nda kontrol d oldu!u sonucuna var lmaktad r. Bu uygulama çal mas nda yap lan denemeler ile u sonuçlara var lm t r: Tepe de!eri, midrange ve ortanca dönü üm teknikleri di!er yöntemlere göre k smen daha yak n sonuçlar vermektedir. DBY yöntemi herhangi bir dönü üm tekni!i kullanmadan süreci tan mlad ! için daha gerçekçidir. AMD yöntemi ise tepe de!eri, midrange ve ortanca ile DBY aras nda sonuçlar vermektedir. Ayr ca, AMD ve DBY yöntemleri daha güvenilir sonuçlar vermelerine kar n hesaplanmalar daha zordur. Bu uygulamada veri setleri do!rusal üyelik fonksiyonlar olan yamuksal bulan k say lar ile k s tlanm t r. Bulan k say lar n do!rusal olmayan üyelik fonksiyonlar oldu!unda bu yöntemleri kullanmak daha da zor olacakt r. Bu durumda veri kayb n n olmas göz önüne al narak AMD yöntemi ile daha kolay süreci tan mlamak mümkün olacakt r. 3.2 Niceliksel veri için geli#tirilmi# yöntem uygulamas: Niceliksel veri için geli tirilmi bulan k kalite kontrol grafiklerinin uygulamas nda örneklem büyüklü!ü 4 olan 20 örnek ile çal ld (4x20=80). Üçgensel bulan k say elde edebilmek için öncelikle normal da! lan veriler temel al nd . Bunlara dayanarak bulan k say lar n alt ve üst s n rlar hesapland . Farkl veriler için bulan k X R ve X S grafikleri çizildi ve bulan k kontrol grafikleri klasik grafikler ile kar la t r ld . Çizelge 3’de 20 günlük 80 gözlemi içeren üçgensel bulan k say lar verilmi tir. 274 Çizelge 3. X R ve X S grafikleri için 20 günlük üretilmi üçgensel bulan k say lar No a b c No a b c No A b c No a b c 1 502,0 506,7 511,3 21 515,7 520,4 525,0 41 529,9 534,5 539,2 61 479,8 484,4 489,1 2 480,9 485,5 490,2 22 513,1 517,8 522,4 42 474,8 479,5 484,1 62 517,6 522,3 527,0 3 515,1 519,8 524,4 23 502,4 507,1 511,8 43 534,1 538,8 543,5 63 520,7 525,3 530,0 4 511,6 516,2 520,9 24 474,5 479,2 483,8 44 513,8 518,5 523,2 64 537,8 542,5 547,1 5 489,6 494,3 499,0 25 544,8 549,5 554,1 45 478,6 483,2 487,9 65 479,7 484,4 489,0 6 524,8 529,5 534,2 26 515,6 520,3 524,9 46 475,0 479,7 484,3 66 458,2 462,8 467,5 7 477,9 482,6 487,2 27 499,3 504,0 508,7 47 481,6 486,2 490,9 67 473,2 477,8 482,5 8 524,7 529,4 534,0 28 474,0 478,7 483,3 48 463,1 467,8 472,4 68 495,4 500,1 504,7 9 497,0 501,7 506,3 29 482,2 486,9 491,6 49 502,0 506,7 511,3 69 523,9 528,5 533,2 10 480,6 485,3 489,9 30 492,3 496,9 501,6 50 489,3 494,0 498,6 70 499,5 504,1 508,8 11 461,2 465,8 470,5 31 509,0 513,6 518,3 51 501,2 505,9 510,5 71 521,7 526,4 531,0 12 495,0 499,7 504,4 32 507,3 512,0 516,6 52 507,9 512,6 517,2 72 548,3 553,0 557,7 13 490,3 494,9 499,6 33 479,9 484,6 489,3 53 493,4 498,1 502,7 73 486,0 490,6 495,3 14 499,4 504,0 508,7 34 499,2 503,9 508,5 54 481,0 485,6 490,3 74 474,7 479,4 484,0 15 484,0 488,7 493,3 35 489,2 493,9 498,5 55 550,7 555,3 560,0 75 501,1 505,8 510,5 16 538,1 542,7 547,4 36 498,1 502,8 507,5 56 516,7 521,4 526,1 76 519,8 524,5 529,1 17 504,8 509,5 514,1 37 517,4 522,0 526,7 57 500,4 505,1 509,8 77 517,7 522,3 527,0 18 524,1 528,8 533,4 38 489,7 494,4 499,0 58 490,1 494,8 499,4 78 477,5 482,1 486,8 19 486,5 491,1 495,8 39 505,6 510,3 515,0 59 506,9 511,6 516,2 79 535,9 540,6 545,3 20 482,2 486,8 491,5 40 501,1 505,8 510,5 60 485,8 490,4 495,1 80 513,3 517,9 522,6 Çizelge 3’deki verinin bulan k X R grafikleri için alt s n r ve üst s n r de!erleri hesaplanm t r. Çizelge 4 bu s n rlar , sürecin kontrol alt nda olup olmad ! belirlemek için bulunmu istatistikleri ve her günün karar n göstermektedir. (Alfa de!eri 0,6 olarak kabul edildi). Çizelge 4. Bulan k X - R grafi!inin s n rlar (20 günlük) AKL 474,38 Bulan k X grafi!i OÇ ÜKL 505,14 535,90 Bulan k AKL 0,00 R grafi!i OÇ 42,19 ÜKL 96,28 Çizelge 5. Bulan k X -R grafi!i sonuçlar (20 günlük) Gün 1 2 3 4 5 6 7 8 9 10 S (X) 507,06 508,94 488,12 507,60 504,04 506,10 513,09 502,35 496,28 508,12 S(R) Gün 34,24 46,91 35,84 54,09 41,95 41,19 70,82 26,71 19,25 27,66 11 12 13 14 15 16 17 18 19 20 S (X) 517,83 479,22 504,77 515,11 500,47 518,63 481,28 528,00 500,07 515,75 S (R) 59,35 18,46 28,80 69,71 21,14 58,07 37,25 48,87 45,06 58,45 Bulan k X R grafiklerine göre süreç kontrol alt ndad r. Bu uygulaman n ikinci k sm nda yeni veriler ile sürecin durumu tan mlanm t r. 20 örneklem kullan larak alt s n r ve üst s n r hesaplanm ve sürecin kontrol alt nda oldu!u durum baz al narak hesaplanan s n rlar yeni üçgensel say lar n 275 yorumlanmas nda kullan lm t r. Bunun için yeni 10 örnek (4x10=40) üzerinde çal lm t r. Çizelge 6 yeni üçgensel bulan k say lar göstermektedir. Çizelge 6. 10 günlük üretilmi üçgensel bulan k say lar No A b C No a b C No a b C No a b c 1 502,9 517,4 468,3 494,6 423,3 482,2 476,9 483,0 509,2 479,9 510,4 524,9 475,9 502,1 430,8 489,7 484,4 490,5 516,7 487,5 517,9 532,4 483,4 509,6 438,3 497,2 491,9 498,0 524,2 495,0 11 509,1 478,1 497,7 484,3 452,9 494,0 531,0 513,1 551,6 536,8 516,6 485,6 505,2 491,8 460,4 501,5 538,5 520,6 559,1 544,3 524,1 493,1 512,7 499,3 467,9 509,0 546,0 528,1 566,6 551,8 21 492,8 503,2 528,4 498,5 506,9 492,0 477,8 487,7 481,0 494,9 500,3 510,7 535,9 506,0 514,4 499,5 485,3 495,2 488,5 502,4 507,8 518,2 543,4 513,5 521,9 507,0 492,8 502,7 496,0 509,9 31 474,6 464,6 491,6 509,8 486,2 466,3 508,5 468,9 497,8 491,9 482,1 472,1 499,1 517,3 493,7 473,8 516,0 476,4 505,3 499,4 489,6 479,6 506,6 524,8 501,2 481,3 523,5 483,9 512,8 506,9 2 3 4 5 6 7 8 9 10 12 13 14 15 16 17 18 19 20 22 23 24 25 26 27 28 29 30 32 33 34 35 36 37 38 39 40 Çizelge 7. Bulan k X -R grafi!i sonuçlar (10 günlük) Gün S (X) 1 503,29 2 473,86 3 501,58 4 489,72 5 540,65 S (R) Karar Kontrol alt nda 49,034 Kontrol d nda Kontrol alt nda Kontrol alt nda Karar Kontrol alt nda Kontrol alt nda Kontrol alt nda Kontrol alt nda Kontrol alt nda 66,577 39,1406 38,8314 Kontrol d nda 33,757 Gün S (X) 6 513,22 7 498,63 8 486,27 9 496,00 10 499,27 Karar Kontrol alt nda Kontrol alt nda Kontrol alt nda Kontrol alt nda Kontrol alt nda S (R) 34,9984 29,7384 30,1208 41,049 39,568 Karar Kontrol alt nda Kontrol alt nda Kontrol alt nda Kontrol alt nda Kontrol alt nda Sample Mean Xbar/R Grafigi 550 540 530 520 510 500 490 480 470 Subgroup 1 UCL=533,5 Mean=503,5 LCL=473,5 0 10 20 30 Sample Range 100 UCL=93,91 50 R=41,16 LCL=0 0 Bekil 1: Klasik X R grafikleri Kar la t rma yapabilmek için ayn verinin klasik grafi!i de çizilmi tir. ki yöntem de tek bir gün d nda ayn sonuçlar vermi tir. Yirmikinici güne ait veri klasik grafi!e göre kontrol içi fakat bulan k grafikte kontrol d olarak gösterilmi tir. Bunun nedeni s n rlara yak n de!erlere bulan k grafi!in daha hassas yakla mas d r. Sonuç olarak çe itli veri setlerinin incelendi!i bu uygulamada s n rlara yak n 276 de!erleri klasik grafikler genel olarak kontrol içi olarak tan mlarken geli tirilen bulan k yöntemin kontrol d olarak tan mlad ! görülmü tür. 4. Sonuç Bu çal mada bulan k kontrol grafiklerinin tarihsel geli imi incelenmi ve çe itli bulan k grafik çal malar na detaylar yla de!inilmi tir. Bulan k mant ! n kalite kontrol grafiklerine uygulanmas n n sebebi süreci daha iyi yans tan kontrol grafiklerinin geli tirilmek istenmesidir. Bu sayede gerçe!e daha yak n sonuçlar elde edilmi olunur. Bulan k grafikler, klasik kontrol grafiklerinde oldu!u gibi sadece “süreç kontrol alt ndad r” ya da “süreç kontrol alt nda de!ildir” sonucunu de!il ayn zamanda bulan kl ! n derecesini ve ya ara seviyeleri de söyleyebilir. Bu sayede sürecin durumu hakk nda daha çok ve esnek bilgi verilmi olunur. Klasik grafikler sadece geçmi veriye dayanmakta iken geli tirilmi olan bir çok bulan k grafik ise uzmanlar n bilgilerine dayan r. Süreci en do!ru ekilde gösteren bilgilere dayanan ve bilgi kayb olmaks z n hesaplanm grafikler gerçe!e en yak n sonuçlar verir. Çal mada ayr ca bulan k grafikler iki uygulama ile irdelenmi tir. Kaynaklar [1] Y. K. Chen, H.C. Liao, (2004), Multi-criteria design of an _X control chart, Computers & Industrial Engineering, 46 (4), 877 - 891. [2] V. Amirzadeh, M. Mashinchi, A. Parchami, (2009), Construction of p-charts using degree of nonconformity, Information Sciences, 179 (1-2), 1501 - 60. [3] A. Faraz, M. B. Moghadam, (2007), Fuzzy Control Chart A Better Alternative for Shewhart Average Chart, Quality and Quantity, 41, 3 (11), 375 - 385. [4] C. B. Cheng, (2005), Fuzzy process control: construction of control charts with fuzzy numbers, Fuzzy Sets and Systems, 154, 2, 287 - 303. [5] A. J. Duncan, (1956), The economic design of x charts used to maintain current control of a process, Journal of the American Statistical Association, 51 (274), 228 - 242. [6] M. Gülbay, C. Kahraman, D. Ruan, (2004), a-Cuts fuzzy control charts for linguistic data, International Journal of Intelligent Systems, 19, 1173 - 1196. [7] M. Gülbay, C. Kahraman, (2006), Development of fuzzy process control charts and fuzzy unnatural pattern analyses, Computational Statistics and Data Analysis, 51, 434 - 451. [8] M. Gülbay, C. Kahraman, (2006), An alternative approach to fuzzy control charts: direct fuzzy approach, Information Sciences, 77 (6), 1463 - 1480. [9] T. Raz, J. H. Wang, (1990), Probabilistic and memberships approaches in the construction of control charts for linguistic data, Production Planning and Control, 1, 147 - 157. [10] S. Senturk, N. Erginel, (2008), Development of fuzzy X _ R and X _ S control charts using a-cuts, Information Sciences, doi:10.1016/j.ins.2008.09.022. [11] J. H. Wang, T. Raz, (1990), On the construction of control charts using linguistic variables, Intelligent Journal of Production Research, 28, 477 - 487. [12] O. Hryniewicz, (2007), Statistics with fuzzy data in statistical quality control, Soft Computing - A Fusion of Foundations, Methodologies and Applications, 12 , 3, 229 - 234. [13] A. Kanagawa, F. Tamaki, H. Ohta, (1993), Control charts for process average and variability based on linguistic data, Intelligent Journal of Production Research, 31 (4), 913 - 922. [14] H. Taleb, M. Limam, (2002), On fuzzy and probabilistic control charts, International Journal of Production Research, 40, 12 (15), 2849 - 2863. [15] D. C. Montgomery, (1996), Introduction to Statistical Quality Control, John Wiley & Sons, Inc., USA. 277 Hayat Sigortas Birketleri çin Güvenilir Ölüm Verileri Elde Etmeye Yönelik Alternatif Bir Uygulama Erdem K rkbe o!lu Serpil Cula Sigortac:l:k ve Risk Yönetimi Bölümü Ba#kent Üniversitesi Ticari Bilimler Fakültesi Eski#ehir Yolu 20.KM BaGl:ca/Etimesgut Ankara erdemk@baskent.edu.tr Sigortac:l:k ve Risk Yönetimi Bölümü Ba#kent Üniversitesi Ticari Bilimler Fakültesi Eski#ehir Yolu 20.KM BaGl:ca/Etimesgut Ankara scula@ baskent.edu.tr Özet Bu çal man n temel amac Türkiye’de hayat sigorta sektöründe kullan lmak üzere güvenilir ölüm verileri elde edilebilece!ini göstermektir. Türkiye’de sigorta sektöründe kullan lmakta olan yabanc ülkelere ait ölüm verilerinin sigortal lar veya sigortac lar aç s ndan ne denli bir maddi kayba yol açaca! önemlidir. Bu noktadan hareketle çal mada dolayl bir yöntemden (yetimlik yöntemi) elde edilmi ölüm say lar çekirdek kestirim de!erleriyle yeniden düzenlenmi ve CSO 1980 mortalite tablosuyla prim kar la t rmas yap lm t r. Anahtar sözcükler: Hayat sigortas:; mortalite tablosu; çekirdek kestiricisi Abstract An Alternative Practice to Obtain Reliable Mortality Data for Life Insurance Firms Exhibiting of the usability of a mortality data which reflects real mortality level is the main purpose of the study. Therefore, an age related death data will be composed via orphanhood method, which is an indirect one, first. Then, premium paid for insurance will be calculated by finding core estimate values. Finally, American CSO 1980 lifetime table used by Turkish insurance firms will be compared with premium paid for insurance. Keywords: Life insurance; Mortality table; Kernel estimator 1. Giri! Türkiye’de güvenilir ölüm verilerinin bulunmay , sadece demografik ara t rmalar anlam nda de!il, farkl çal ma alanlar bak m ndan da önemlidir. Zira ölüm verileri, aktüeryal dengelerin hesap edildi!i sigorta sektörü, sosyal güvenlik sistemi ve çe itli kurumlar n yard m sand klar içinde büyük önem arz etmektedir. Bunun yan s ra, ölüm olas l klar (mortalite) ve komütasyon (sigorta prim-rant) tablolar n n sigorta irketlerince kullan lmas n zora sokmaktad r. Türkiye’de hiçbir sigorta irketi, Türk ölüm verisinden olu turulmu bir tabloyu kullanmamaktad r. Bunun yerine yurt d ndan ve farkl ülkelerin ölüm oranlar n yans tan ölüm olas l klar tablolar n tercih etmektedirler. Dolay s yla bu noktada iki yönlü bir sorun ortaya ç kmaktad r. Birincisi, Türkiye’de güvenilir ölüm verilerine ihtiyaç duyuldu!u ve bunun için alternatif çal malara gereksinim duyuldu!u, ikincisi ise özellikle sigorta irketlerince kullan lmakta olan yabanc ülkelere ait ölüm oranlar n n Türkiye’nin gerçek ölüm profilini yans tmayaca! ndan hareketle, sigortal lardan eksik veya fazla prim tahsilat na neden olaca! d r. Bu nedenle, alternatif ölüm verisi sa!layacak güvenilir çal malara ve bunlar sayesinde olu turulmu ölüm oranlar tablolar na ihtiyaç duyulmaktad r. Haz rlanan bu tablolar sigortal lardan al nacak primlerin ve sigortal lara ödenecek tazminatlar n hesaplanmas nda önemli bir kolayl k sa!lamaktad r. Dolay s yla sigorta irketleri için kritik öneme sahip bu tablolar n gerçe!e en yak n 278 ölüm verilerini içermesi, aktüeryal dengenin (al nan primlerin ödenecek tazminatlara denk gelmesinin) sa!lanmas aç s ndan önemlidir. Bu sebeple hayat sigortas irketlerinde kullan lacak olan ölüm verilerinin o ülkenin demografik özelliklerini yans tan ve güvenilir ölüm verileri olmas gerekmektedir. Bu çal mada, ilk olarak K rkbe o!lu’nun (2006) Hacettepe Üniversitesi Türkiye Nüfus ve Sa!l k Ara t rma verilerini (1998; 2003) kullanarak olu turmu oldu!u ölüm say lar referans al nacakt r. Bu çal mada ortaya konulan ölüm say lar n n referans al nmas ndaki temel neden, Türkiye’ye ili kin dolayl bir yöntemle (Yetimlik Yöntemi-Orphanhood Method [2]) ya lara ili kin ölüm verisi olu turan birkaç çal madan biri olmas d r. Çal mada amaç, referans al nan bu ölüm say lar n n çekirdek kestirim de!erlerinin hesaplanmas ve Türkiye’de hayat sigortas irketlerince ço!unlukla kullan lmakta olan Amerikan CSO 1980 mortalite (hayat) tablosu ile sigorta primi kar la t rmas yap lmaktad r. Dolay s yla çal man n temel katk s Türkiye’de sigorta sektöründe hesaplanan prim ve tazminatlar n, Türkiye ölüm verisinden hesaplanan prim ve tazminatlara göre ne denli farkl la aca! n ortaya koyacakt r. 2. Hayat Sigortalar nda Güvenilir Ölüm Verisini Gerekli K lan Nedenler Mortalite tablolar ; bir nüfus toplulu!unun gözlem alt nda tutularak olu turulan ya ama ve ölüm istatistiklerine göre elde edilen sonuçlar ndan her bir ya ta bir y l içerisinde kaç ki inin hayatta kalaca! n n, kaç ki inin ölece!inin öngörüldü!ü tablolar olarak tan mlan r [1]. Mortalite tablolar özellikle aktüerler, demograflar veya halk sa!l ! ile u!ra an kesimler taraf ndan, göç, do!urganl k, nüfus tahminleri, yetimlik veya dul kalma, hayat beklentisi, evlilik ve çal ma ya am ile ilgili konularda çe itli çal malar yapmak amac yla kullan lmaktad r. Mortalite tablolar n n büyük önem arz etti!i sigorta sektöründe (özellikle hayat sigortalar nda) prim ve tazminatlar n hesaplanmas nda bu tablolar n ne denli güvenilir olduklar büyük önem te kil etmektedir. Bunun yan s ra sigorta i letmelerinin ay racaklar matematiksel kar l klar ve kar paylar da yine bu tablolar n güvenilirli!iyle yak ndan ili kilidir. Mortalite tablolar n n olu turulmas nda kullan lan ölüm olas l klar n n, o ülkenin ölüm düzeyini ne denli temsil edece!i önemli bir sorundur. Zira bir ülkenin demografik verilerini yans tmayan tablolardan hesaplanacak prim ve tazminatlar n, olmas gerekenden fark de!erleri içermesi muhtemel olacakt r. Bu durum ise sigorta i letmesinin veya sigortal lar n haks z yere zarara u!rayabilecekleri sonucunu do!uracakt r. Dolay s yla sigorta i letmesinin mevcut mali durumunu netle tirmesi ve sigorta prim ve tazminatlar n n gerçe!e en yak n de!erlerle hesaplanabilmesi için, ülke nüfusunun ölüm olas l klar n temsil eden uygun mortalite tablolar n n kullan lmas önemlidir. Mortalite tablolar n n sigorta prim ve tazminatlar üzerinde yaratt ! bu etki ayn zamanda o ülkenin sigorta sektörünün geli imi aç s ndan da önemlidir. Sigortal lar n ödedikleri primlerin olmas gerekenden yüksek olmas , o ülke içerisinde sigorta sektörüne olan güveni ve talebi de süreç içerisinde azaltacakt r. Mortalite tablolar her ne kadar hayat sigortalar nda bu denli önemli olsa da, bugün Türk sigorta sektöründe Türkiye’ye ait ölüm verilerinden haz rlanm bir mortalite tablosu kullan lmamaktad r. Oysa ülkemizde s n rl say da da olsa, 1950’li y llar takiben Türk ölüm verisinden mortalite tablolar n n olu turuldu!u çal malara rastlanmaktad r. Ancak bu tablolar n hiç birisi T.C. Hazine Müste arl ! Sigortac l k Genel Müdürlü!ü’nce sigorta sektöründe kullan lmas aç s ndan dikkate al nmam t r. Geli mi ülkelerde yüzy llard r belirli aral klarla olu turulan mortalite tablolar hem bu ülkelerde hem de geli mekte olan veya az geli mi ülkelerde çe itli alanlarda kullan lmaktad r. Ülkemizde geçmi ten bugüne sigorta sektöründe Türkiye’ye ait demografik verilerden olu turulmu bir tablonun olmay da bu durumun ülkemizde de farkl olmad ! n n göstergesidir. Amerika, Almanya, Fransa, sviçre ve ngiltere gibi geli mi ülkeler sigorta sektöründe kendi vatanda lar n n ölüm oranlar ndan olu an mortalite tablolar n kullanmaktad rlar. Bu tür tablolar Türk toplumunun ölüm oranlar n yans tmaktan 279 uzakt r. Bu ülkelerin mevcut ölüm oranlar Türkiye’ye benzerlik göstermedi!i gibi geçmi y llardaki ölüm oranlar n n da Türkiye’nin u an ki ölüm oranlar na benzerlik gösterdi!i de söylenemez. Özellikle t bb n ilerlemesi, ekonomik geli meler sayesinde hayat standard ndaki iyile me ortalama ya am süresinin Türkiye’de de uzamas na neden olmu tur. Özellikle 1950’li y llara ait mortalite tablolar yla emeklilik sigortalar n n sat lmas irketleri ilerde önemli mortalite riski ile kar kar ya b rakacakt r. Eski tablolar yüksek ölüm oranlar içerdi!inden emeklilik gelirini daha k sa sürede ödeyece!ini varsayarak hesaplama yapmakta, sigortal n n beklenenden uzun ya ayaca! n dikkate almamaktad r. Bu sebeple irketlerin mali yönden sorunlarla kar la abilme riskleri mevcuttur [2]. Bunun yan s ra yüksek ölüm oranlar özellikle vefat teminat içeren sigortalarda sigortal lardan olmas gerekenden yüksek primlerin al nmas na neden olmaktad r. Zira yabanc tablolar yüksek ölüm oranlar içermesi sebebiyle sigortal lar daha erken ya larda ölece!i varsay m nda bulunmaktad r. Dolay s yla, bir ülkede sigorta sektöründe kullan lan mortalite tablolar n n olmas gereken prim ve tazminatlar ortaya koymas iki unsura ba!l d r. Bunlardan birincisi mortalite tablosunun haz rland ! ölüm verisinin o ülkenin ölüm verisinden haz rlanm olmas gereklili!i ve ikincisi, ölüm verisinin güvenilir olmas d r. Dolay s yla ortak noktada ölüm verilerinin güvenilirli!i önemli görülmektedir. Türkiye’de ölüm ve do!um verilerinin yeterli güvenilirli!e sahip olmamas önemli bir problemdir. Bu sebeple güvenilir do!um ve ölüm verilerinin yan s ra ölüm düzeylerine ili kin güvenilir bilgiler de üretilememektedir [3]. Türkiye’de ölümlülük verisi çe itli kaynaklardan elde edilir. Bu kaynaklar hayati kay t sistemleri (MERNIS), Türkiye statistik Kurumu ölüm istatistikleri, defin kay tlar , T.C. Sa!l k Bakanl ! kay tlar ve say mlard r. Ancak ölüm verisinin elde edildi!i bu kaynaklar n yeterli güvenilirli!e sahip olmad ! birçok çal mada nedenleriyle ortaya konmu tur. Dolay s yla alternatif güvenilir bir ölüm verisine ihtiyaç duyulmaktad r. Ülkemizdeki bu bo lu!un ara t rmalar ile giderilmeye çal ld ! söylenebilir. Özellikle Hacettepe Üniversitesi’nin be y lda bir düzenlemi oldu!u Türkiye Nüfus ve Sa!l k Ara t rmas ya lara göre ölüm verisini dolayl yöntemlerle ortaya koymas bak m ndan güvenilir bir kaynak sa!lad ! söylenebilir. Çal man n bundan sonraki bölümünde, do!rudan ölüm verisini temin etmenin mümkün olmad ! ülkelerde s kl kla tercih edilen bir yöntemden (Yetimlik Yöntemi) elde edilmi ya lara göre ölüm say lar na çekirdek kestirim yöntemiyle düzenleme yap lm t r. Dolay s yla ilk olarak çekirdek kestirim yönteminin ölüm verilerini düzenlemedeki fonksiyonuna de!inmek yararl olacakt r. 3. Çekirdek Kestirim Yöntemi Çekirdek kestirim yöntemi parametrik olmayan bir kestirim yöntemi olup bu çal mada, NadarayaWatson çekirdek kestirimine benzer olarak geli tirilen E itlik (1)’de verilen kestiricisi kullan lm t r [4]. j/ K pj h p̂ i = K i / K j/ K "W h j=1 K "W i/K (1) j=1 E itlik (1)’de, W çekirdek fonksiyonu ve h bant geni li!idir. Grup say s K (i=1,2,...,K) ve i. gruba dü en gözlem say s , ni, toplam gözlem say s n ve her bir grup için göreli frekans, p i = ni ’d r. n + Burada W, . W ( x )dx = 1 ko ulunu sa!layan, çekirdek fonksiyonu, h ise pencere geni li!i, düzle tirme + parametresi ya da bant geni li!i olarak adland r l r. W çekirdek fonksiyonu, olas l k fonksiyonu özelliklerini ta yan herhangi bir fonksiyon olarak al nabilir. W çekirdek fonksiyonu sürekli bir 280 fonksiyon olarak al nd ! nda, bu özelli!ini çekirdek kestirimine de ta r. Hangi W çekirdek fonksiyonunun seçilmesi gerekti!ine zaman, hesaplama etkinli!i ve türevlenebilirlik özelliklerine göre karar verilmelidir [5]. Çekirdek kestirimlerinde, W çekirdek fonksiyonlar n n kestirim üzerinde büyük de!i iklik yaratmad ! , bant geni li!i seçiminin çekirdek kestiriminin performans n önemli ölçüde etkiledi!i bilinmektedir. Çekirdek kestiriminde h bant geni li!inin seçimi çok önemlidir. Rosenblatt (1956), olas l k yo!unluk fonksiyonunun çekirdek kestiricisinin do!ruluk ölçütü için, yayg n olarak kullan lan ve en kolay izlenebilen genel ölçüt olan toplanm hata kareler ortalamas n kullanman n matematiksel kolayl ! nedeniyle tercih edildi!ini belirtmi tir [6]. Bu ölçütleri en küçük yapan h bant geni li!i, en uygun bant geni li!i olarak al nmaktad r. Toplanm hata kareler ortalamas n en küçük yapan en uygun bant geni li!i de!eri, bilinmeyen f fonksiyonunun ikinci mertebeden türevine ba!l d r. Bu nedenle h bant geni li!ini elde etmek için birçok yöntem önerilmi tir [7]. Ancak tüm çal malara ra!men herkes taraf ndan benimsenen bir yöntem halen mevcut de!ildir. Önerilen yöntemlerden baz lar bilinmeyen yo!unluk f’ye ba!l olduklar ndan çok fazla tercih edilmemekte ancak baz yöntemler için, ba lang ç de!erleri elde etmek aç s ndan önemli say lmaktad r. Geli tirilen yöntemlerin her birinin di!erine göre avantajlar ve dezavantajlar vard r [8]. 4. Uygulama Çal mada K rkbe o!lu’nun (2006) “yetimlik yöntemi” yard m yla olu turmu oldu!u ya lara göre ölüm say lar n n, çekirdek kestirim de!erleri elde edilmi tir. Çal mada ayr ca, sigorta sektöründe sigortal lar n veya sigortac lar n maddi kay plar n önlemek amac yla sigorta sektöründe kullan lan CSO 1980 mortalite tablosu ile bir kar la t rma da yap lm t r. Bu kar la t rma karma hayat sigortas net tek primleri üzerinden gerçekle tirilmi tir. Çekirdek kestirim de!erleri elde edilirken, kestirim e itli!inde önemli olan W çekirdek fonksiyonu için normal çekirdek fonksiyonu; h bant geni li!inin seçimi için de yans z en küçük kareler çapraz geçerlilik yöntemi kullan lm t r. Yans z en küçük kareler çapraz geçerlilik yönteminden elde edilen h bant geni li!i 0,02 olarak bulunmu , bu de!er E itlik (1)’de yaz larak çekirdek kestirim de!erleri elde edilmi tir. Çizelge 1’de; K rkbe o!lu (2006) taraf ndan Yetimlik yönteminden elde edilmi ölüm olas l klar , çekirdek kestirim yöntemiyle düzeltilmi ölüm olas l klar ve CSO 1980 ölüm olas l klar tablosu verilmi tir. Çizelge 1. Ya! Gruplar na Göre Ölüm Olas l klar Kar! la!t rmas Ya! Türkiye * Türkiye ** CSO 1980 q(x) q(x) q(x) 0-1 0,0295 0,0291 0,0042 1-4 0,0084 0,0088 0,0040 5-9 0,0023 0,0024 0,0041 10-14 0,0018 0,0018 0,0045 15-19 0,0034 0,0034 0,0081 20-24 0,0047 0,0047 0,0093 25-29 0,0050 0,0050 0,0086 30-34 0,0055 0,0055 0,0092 35-39 0,0074 0,0074 0,0121 40-44 0,0114 0,0115 0,0178 45-49 0,0186 0,0187 0,0265 50-54 0,0308 0,0310 0,0396 55-59 0,0511 0,0513 0,0612 60-64 0,0842 0,0845 0,0933 65-69 0,1374 0,1377 0,1440 281 70-74 0,2199 0,2198 0,2192 75-79 0,3405 0,3462 0,3316 1 1 1 80+ * Yetimlik yönteminden elde edilmi ölüm olas l klar (K rkbe o!lu, 2006) ** Çekirdek Kestirim Yöntemiyle Düzeltilmi De!erler Çizelge 1 ve rekil 1’den görüldü!ü gibi, gerek yetimlik yönteminden elde edilen ölüm olas l klar gerekse bu de!erlerin çekirdek kestirim yöntemiyle düzenlenmi ölüm olas l klar , CSO 1980 ölüm olas l klar na göre kar la t r ld ! nda, genç ve orta ya gruplar nda ölüm olas l klar nda belirgin bir farkl la ma görülmektedir . 1,0000 0 1 5 10 15 20 25 30 35 40 45 50 55 60 65 70 75 0,1000 Ölüm Olas l % 0,0100 0,0010 YaTürkiye Yetimlik qx Türkiye Çekirdek qx CSO 80 qx Bekil 1. Ya! Gruplar na Göre Ölüm Oranlar n n Logaritmik Grafi<i Çekirdek kestirim yönteminden elde edilen ölüm olas l klar de!erleri ile CSO 1980 ölüm oranlar de!erlerine ili kin ya lara göre ya am ümidi de!erleri Çizelge 2’de verilmi tir. Ölüm olas l klar nda oldu!u gibi orta ya gruplar nda, çekirdek kestirim yöntemi yard m yla olu turulmu mortalite (hayat) tablosunun “ortalama ya am ümidi (ex)” de!erlerinin, CSO 1980 mortalite tablosu ile farkl l k gösterdi!i söylenebilir. Çizelge 2. Çekirdek Kestirim (h=0,02) Ve CSO 1980 Ölüm Olas l klar n n Ya!lara Göre Ya!am Ümidi De<erleri (Y l) Ya! 0 1 5 10 15 20 25 Türkiye e(x) 70,73 71,90 68,48 63,62 58,73 53,92 49,16 CSO 1980 e(x) 70,83 70,13 66,40 61,66 56,93 52,37 47,84 282 30 35 40 45 50 55 60 65 70 75 44,40 39,62 34,90 30,27 25,79 21,52 17,53 13,89 10,68 7,96 43,24 38,61 34,05 29,62 25,36 21,29 17,51 14,04 10,96 8,31 Hayat sigortalar nda primlerin hesaplanmas na imkan sa!layan unsur, ya gruplar na göre ya am ve ölüm olas l klar d r. Dolay s yla bu çal ma kapsam nda hayat sigorta primlerine yönelik bir kar la t rman n yap lmas Türkiye için güvenilir ölüm verisine duyulan ihtiyac n anla lmas aç s ndan önemli olacakt r. Türkiye’de hayat sigorta irketlerinin en s k kulland ! sigorta türü “karma hayat sigortas ”d r. Dolay s yla bu çal mada karma hayat sigortas primleri üzerinden bir kar la t rma yap lm t r. Ax:n = M x + n + Dx + n x 1 TL Dx Mx (2) E itlik (2)’de karma hayat sigortas yapt ran x ya ndaki bir sigortal n n n y l sonra 1 TL’lik tazminat alabilmesi için ödemek zorunda oldu!u net tek prim e itli!i gösterilmi tir. Çizelge 3’de, 15 y ll k karma hayat sigortas yapt ran bir sigortal n n 10.000 TL tazminat alabilmesi için ödemesi gereken net tek prim kar la t rmas ya lara göre ortaya konmu tur. lgili grafik de rekil 2’de verilmi tir. Çekirdek kestiriminden elde edilen net tek prim de!erleri, CSO 1980 tablosuna göre daha dü ük ç km t r. Daha aç k bir ifadeyle, Türkiye’de sigortal lar ödemeleri gereken prim tutar n n üzerinde prim ödemesi yapmak durumunda b rak lmaktad rlar. Çizelge 3. Çekirdek Kestirim (H=0,02) ve CSO 1980 Ölüm Olas l klar çin Karma Hayat Sigortas Primi Karma Hayat Sigortas Primi (TL) (15 Y ll k Poliçe) Türkiye (Çekirdek Ya- Kestirim Yöntemi) CSO 1980 30 2.795 2.827 31 2.798 2.831 32 2.801 2.837 33 2.805 2.843 34 2.810 2.850 35 2.816 2.857 36 2.822 2.866 37 2.830 2.876 38 2.838 2.886 39 2.847 2.898 40 2.857 2.910 41 2.868 2.924 42 2.881 2.939 283 43 2.895 2.955 44 2.911 2.972 45 2.928 2.991 46 2.947 3.011 47 2.968 3.034 48 2.991 3.058 49 3.017 3.085 50 3.045 3.115 3.200 3.050 Prim (TL) 2.900 2.750 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 YaCSO 80 Türkiye Rekil 2. 10000 TL Tazminat Ödemeli 15 Y-ll-k Karma Hayat Sigortas- Net Tek Prim Kar"-la"t-rmas- 5. Sonuç ve Öneriler Türkiye’de hayat sigorta irketlerinin yabanc ülkelere ait geçmi tarihli mortalite tablolar n kullanmalar özellikle sigortal lar aç s ndan haks z prim ödemelerini beraberinde getirmektedir [9]. Türkiye’ye ili kin güvenilir ölüm verilerinin olmay , Türkiye için bir mortalite tablosu olu turulmas nda demografik ara t rmalar n gereklili!ini art rm t r. Bu çal ma kapsam nda ise Türkiye Nüfus ve Sa!l k Ara t rmas verilerinden dolayl bir yöntemle olu turulmu ölüm olas l klar , çekirdek kestirim yöntemi yard m yla yeniden düzenlenmi ve Türkiye’de hayat sigorta irketlerince en s k kullan lan CSO 1980 tablosuyla kar la t rmas yap lm t r. Ortaya konan sonuçlar sigortal lar n haks z prim ödemeleri yapmak durumunda oldu!unu göstermektedir. Özellikle t bb n ilerlemesiyle birlikte ortalama ya am ümidinin hemen her ülkede yükselmesi ve ölüm olas l klar n n azalmas güncel ölüm verilerinden haz rlanm tablolar gerekli k lmaktad r. Türkiye için de, geli mekte olan birçok ülkede oldu!u gibi kendi ölüm verisinden haz rlanm güncel ve güvenilir bir mortalite tablosunun olu turulmas gereklili!i aç kt r. Bu sebeple üniversitelerin aktüerya, sigortac l k ve demografi bölümleri ile sektörden uzmanlar n bir araya gelerek geni çapl bir ara t rma ile Türkiye mortalite tablosu olu turmalar hayat sigortalar na olan talebi ve güveni art raca! söylenebilir. 284 Kaynaklar [1] Hayat Sigortalar Yönetmeli!i, (1996) [2] Osmançavu o!lu, Ö. (1999), Hayat Sigortalar nda Aktüerya, Ankara 1999, s. 26 [2] Scott, D.W.& Terrell, G.R. Biased and Unbiased Cross-validation in Density estimation, Journal of the American Statistical Association 82, 400, 1131-1146. 1987. [3] Ayd n, H.(2003), Do!um ve Ölüm Verilerinin Sistemli Olarak Derlenebilmesi çin Model Geli tirme, Yay nlanmam Doktora Tezi, Hacettepe Üniversitesi, Ankara, s. 14. [4] Simonoff J. S., (1996), Smoothing Methods in Statistics, Verlag, New York. [5] Silverman, B. W. (1986), Density Estimation for Statistics and Data Analysis. London: Chapman and Hall. [6] Rosenblatt, M. (1956), Remarks on some nonparametric estimates of a density function, Annals Math.Statistics, 27, 832-837. [7] Wand M.P. and Jones M.C. (1995), Kernel Smoothing, Chapman & Hall, London. [8] Cula S.C. (1998), Çok De!i kenli Olas l k Yo!unluk Fonksiyonunun Çekirdek Fonksiyonlar yla Kestirimi, Doktora Tezi. [9] K rkbe o!lu, E. (2006), Construction Of Mortality Tables For Life Insurance Sector From The 2003 Turkey Demographic And Health Survey, Yay nlanmam Yüksek Lisans Tezi, Hacettepe Üniversitesi. Ankara 285 Karma emeklilik planlar nda stokastik modelleme ve Türkiye uygulamas Yasemin GENÇTÜRK Hacettepe Üniversitesi 06800-Beytepe, Ankara, Türkiye yasemins@hacettepe.edu.tr Funda KARAMAN Hacettepe Üniversitesi 06800-Beytepe, Ankara, Türkiye fundakaraman@hacettepe.edu.tr Ba ak BULUT Hacettepe Üniversitesi 06800-Beytepe, Ankara, Türkiye basakbulut@hacettepe.edu.tr Sema TÜZEL Hacettepe Üniversitesi 06800-Beytepe, Ankara, Türkiye sematuzel@hacettepe.edu.tr Özet Bu çal mada, karma plan türlerinden olan Desteklemeli ve Bile ik Karma Planlar için ücret art oran , tahvil getiri oran ve hazine bonosu getiri oran na ili kin Sayan ve Teksöz (2002)’ ün olu turdu!u stokastik modeller kullan larak simülasyon yap lm , farkl yat r m stratejileri için her bir plan üyesine ba!lanacak emekli ayl klar hesaplanarak hangi yat r m stratejisi için hangi tür karma emeklilik plan n n üye lehine olaca! ara t r lm t r. Anahtar sözcükler : Karma Planlar; Katk s Belli Karma Planlar; Faydas Belli Karma Planlar; Bile ik Karma planlar ; Desteklemeli Karma Planlar; Stokastik Model 1. Giri! OECD ülkelerinin ilerleyen y llarda kar kar ya bulunmas muhtemel en önemli zorluklardan birisi, emeklilik sistemleri ile ilgili sorunlar n çözümlenmesidir. Nüfusun h zla ya lanmas na ba!l olarak emeklilik sistemlerindeki dengelerin yeniden kurulmas ve sistemin mali olarak sürdürülebilirli!inin sa!lanmas gereklidir. Genel anlamda ,emeklilik programlar n n iki temel amac bulunmaktad r: 1. Ya l l kta yoksullu!un önlenmesi 2. Çal anlar n ya am standartlar n emeklilik döneminde de korumalar na yard mc olunmas Emeklilik planlamas , k saca emeklilik geliri belirleme ve potansiyel emeklilik geliri kaynaklar hakk nda bilgi toplama i lemidir [13]. Emeklilik planlar , insanlar ; hastal k, i sizlik, ya l l k, ölüm sebebiyle geçici veya sürekli olarak kazançtan yoksun kalma gibi durumlarda yoksullu!a kar koruyan ve gelirin nesiller aras ve/veya ayn nesil içinde yeniden da! l m n sa!layan düzenlemelerdir [11]. Emeklilik planlar fonksiyonel olarak faydas belli, katk s belli ve karma emeklilik planlar olmak üzere üç grupta incelenebilir [14]. 286 1.1. KATKISI BELL EMEKL L K PLANLARI Emeklilik fonuna her y l i çi (plan üyesi) ve/veya i verenin (plan sponsoru) yapaca! katk n n belli oldu!u planlard r. Her bir plan üyesine ba!lanacak emekli ayl ! , emeklilik fonuna yap lan katk lar n büyüklü!ü ile birikimli de!erine ba!l d r [2]. Katk paylar ve oranlar genellikle belli ve sabittir. Katk s belli emeklilik planlar n n uygulamas nda i çi ve i veren aç s ndan birtak m avantajlar söz konusudur. Plan üyesi aç s ndan bu tür plan n avantajlar ndan ilki , vergi kesintisinin birikim sürecinde de!il emekli maa lar n n ödenme sürecinde yap lmas d r. Yani emeklilik fonuna yap lan katk lar vergiden muaft r. Plan üyesi aç s ndan bir di!er avantaj ise plan üyesinin belirli bir dereceye kadar ne kadar katk yapaca! n belirleme hakk na sahip olmas d r. Bu tür planlarda kat l mc lar belirledikleri belli bir miktar üzerinden katk yapabilecekleri gibi, önceden belirlenmi bir oran n maa lar ndan kesilmesi yoluyla da fon olu turabilirler. Yüksek miktarlarda katk ödeyen üyelere, emeklilikte ba!lanacak ayl klar da yüksek olacakt r. Plan sponsoru aç s ndan avantaj ise yat r m riskininin plan üyeleri taraf ndan üstlenilmesidir. Belirlenmi katk emeklilik planlar n n yukar da say lan avantajlar n n yan s ra baz dezavantajlar da söz konusudur. Plan üyesi aç s ndan dezavantajlar , yat r m riskinin üyeler taraf ndan üstlenilmesi ve plan üyelerinin emekliliklerine çok az bir süre kal ncaya kadar emekli ayl klar n n miktar n bilememeleridir. Plan sponsoru aç s ndan önemli bir dezavantaj söz konusu de!ildir [9]. 1.2. FAYDASI BELL EMEKL L K PLANLARI Faydas belli emeklilik planlar , üyelere emekli olduklar nda ba!lanacak emekli ayl ! n n ve ikramiyenin önceden kesin olarak bilinmese de bir formül yard m yla hesapland ! planlard r[2]. Üyeye ba!lanacak emekli ayl ! , genellikle, üyenin çal ma ya am n n son y l nda eline geçen maa a ba!l olmakla birlikte, çal ma ya am n n son birkaç y l ndaki ortalama maa na ya da çal ma ya am boyunca eline geçecek ortalama maa na ba!l oldu!u planlarda söz konusudur. Emeklilik fonuna genellikle üyeler maa lar n n önceden belirlenmi bir oran nda katk da bulunurlarken, plan sponsorunun fona yapaca! katk yat r m getirisine ba!l d r ve düzenli olarak yap lacak aktüeryal de!erlendirme ile belirlenir [9]. Katk s belli emeklilik planlar nda oldu!u gibi faydas belli emeklilik planlar nda da birtak m avantaj ve dezavantajlar ndan söz edilebilir. Bu plana dahil olan çal anlar, emekli ayl ! ve ikramiye miktar n n belli olmas ve söz konusu miktarlar n ödenmesinin kesin olmas nedeniyle kendilerini garanti alt na al rlar. Bir di!er avantaj ise, yat r m riskinin kat l mc lara ait olmamas yani yat r m riskinin i veren taraf ndan üstlenilmesidir. 287 Belirlenmi fayda emeklilik planlar n n en önemli dezavantaj ise kat l mc n n emekli olmadan önce i ten ayr lmas durumunda tazminat alma hakk na sahip olamamas d r [9]. 1.3. KARMA EMEKL L K PLANLARI Karma emeklilik planlar , hem faydas belli hem de katk s belli emeklilik planlar n n özelliklerini içerir. Bu planlar sadece faydas belli emeklilik plan veya sadece katk s belli emeklilik plan n n kullan lmas n n verimli olmad ! durumlar için uygundur [1]. Karma planlarda, yat r m riski i çi ile i veren aras nda payla lmas na ra!men büyük ölçüde i veren taraf ndan üstlenilir [14]. Katk s ve faydas belli planlar n çe itli kombinasyonuyla olu turulabilecek pek çok karma plan türü bulunmaktad r. Dünyada kullan lmakta olan belli ba l karma plan türleri; “Bile ik Karma Planlar”, “Self Annuitising DC Scheme”, “Career Average Schemes”, “Cash Balance Schemes”, “Final Salary Lump Sum Schemes”, “Desteklemeli Karma Planlar” ve “Sabit/birim Tazminat Planlar ” d r [14]. Bu çal mada, karma plan türlerinden Desteklemeli Karma Planlar ve Bile ik Karma Planlar incelenecektir. 1.3.1. B LE^ K KARMA EMEKL L K PLANLARI Bu planlarda plan üyesi ayn anda iki farkl tür tazminat biriktirebilir. Bireye ba!lanacak emekli ayl ! sadece faydas belli esasl , sadece katk s belli esasl veya ikisinin bile imi olarak hesaplanabilir. Ba!lanacak emekli ayl ! , ki ilerin gelir seviyelerine göre de!i ir. Üyelerin çal ma hayat boyunca eline geçen maa , belirli bir seviyeyi a mad ! nda ki iye sadece faydas belli esasl emekli ayl ! ba!lan r. Bu durumda dü ük gelirli üyelere ba!lanacak emekli ayl ! önceden bellidir ve üye yat r m riskini üstlenmez. Yüksek maa l üyeler için emeklilikte ba!lanacak ayl k, katk s belli esasl ya göre belirlenir yani emekli ayl ! miktar , daha az tahmin edilebilirdir ve üye yat r m riskini üstlenir. Yüksek maa l üyelerin yat r m riskine kat lmalar n n bir sonucu olarak i verenin daha az risk üstlendi!i söylenebilir. Bu durum, mali durumunu kontrol alt nda tutmak isteyen i verenin lehinedir. Ayl k gelir miktar belirlenmi s n rlar içerisinde olan plan üyelerinin emekli ayl klar ise faydas belli ve katk s belli esasl n n bile imi olarak belirlenir [14]. 1.3.2. DESTEKLEMEL KARMA EMEKL L K PLANLARI Karma planlar n bu türünde, bile ik karma planlardan farkl olarak üyelere ba!lanacak emekli ayl ! 288 hesaplan rken ki ilerin çal ma hayat boyunca ald klar maa n seviyesine bak lmamaktad r. Bu plan türüne göre üyeye ba!lanacak emekli ayl ! , katk s belli esasl hesaplanan emekli ayl ! ile faydas belli esasl hesaplanan emekli ayl ! ndan büyük olan d r [14]. 2. STOKAST K MODEL Emeklilik planlar na ili kin hesaplamalar deterministik ve/veya stokastik modeller kullan larak yap labilir. Deterministik modelleme de girdi parametreleri sabit oldu!u için her denemede, parametreler de!i medi!i sürece, ayn sonuçlar elde edilir. Stokastik modelleme de ise parametreler fonksiyonel olarak belirlenir bu yüzden ayn parametrelerin kullan lmas durumunda bile farkl sonuçlar elde edilir [4]. Bu çal mada, karma plan türlerinden Bile ik Karma Emeklilik Plan ve Desteklemeli Karma Emeklilik Plan için stokastik modeller (gerçe!i daha iyi yans taca! n dü ündü!ümüzden dolay ) kullan larak farkl yat r m stratejileri için ba!lanacak emekli ayl klar kar la t r lm t r [3,5,6,7]. Y ll k ücret art oran , hazine bonosu ve tahvil getiri oran Sayan ve Teksöz (2002) taraf ndan olu turulan stokastik modellerden elde edilmi tir. 2.1. YILLIK MAA^ ARTI^ ORANININ MODELLENMES Y ll k maa art oran , hem katk s belli hem de faydas belli esasl emeklilik planlar nda emekli ayl ! n etkileyen en önemli unsurlardan birisidir. verenler, hayat ko ullar n n de!i mesine ya da bireyin i indeki performans na göre çal anlar n maa lar na ilave ödemeler yapmaktad rlar. Bu ödemelerin oranlar , bas n ve yay nda ,genel olarak, brüt maa art oranlar olarak yer almaktad r. Fakat aktüeryal hesaplamalarda brüt maa art oranlar n n enflasyondan ar t lm hali olan reel maa art oranlar kullan lmaktad r. Biz bu çal mada reel maa art oranlar n modelleyece!iz. Y ll k maa art oran , promosyon ödemelerinden kaynaklanan art oran ile ulusal verimlilikten kaynaklanan art oran ndan olu maktad r. Sayan ve Teksöz (2002) ulusal verimlilik oran n , g(t) = exp( Q * Z(t) + P ) - 1 (1) biçiminde modellemi lerdir. Burada Q , ulusal verimlilik oranlar n n standart sapmas n , P, ulusal verimlilik oranlar n n beklenen de!erini ve Z(t) standart normal da! l ma sahip ba! ms z raslant de!i kenini göstermektedir. Model parametreleri olan beklenen de!er ve standart sapmaya ili kin tahmin ediciler s ras yla, 0,045 289 ve 0,075 olarak belirlenmi tir. 2000-2008 y lllar aras ndaki brüt memur maa art oranlar enflasyondan ar nd r larak reel memur maa art oranlar elde edilmi ve bu reel memur maa art oranlar n n ortalamas 0,045 olarak hesaplanm t r. Promosyon ödemelerinden kaynaklanan maa art ç karak reel maa art oran : S(t) (2) = oran (p) 0,01 olarak al nm t r. Buradan yola + g(t-1) p biçiminde modellenmektedir [ 12]. Bu modelden de anla laca! üzere reel maa art oran , bir y l önceki ulusal verimlilik oran na ve o dönem içerisinde promosyon ödemelerinden kaynaklanan maa art oran na ba!l d r. 2.2. YATIRIM GET R ORANLARININ MODELLENMES Üyelere, aktif olduklar durumda yapt klar katk kar l ! nda pasif olduklar dönemde emekli maa verilmektedir. Bu katk lar n do!ru yat r m arac na yönlendirilmesi emeklilik irketinin varl ! n sürdürebilmesi aç s ndan çok önemli bir yere sahiptir. Finansal yat r m araçlar n n birçok çe idi bulunmaktad r. Bu çal mada herhangi bir irketin portföy yönetiminde s kl kla kulland ! devlet tahvili ile hazine bonosu yat r m araçlar olarak seçilmi ve bunlara ili kin getiri oranlar stokastik olarak modellenmi tir. 2.2.1. TAHV L GET R ORANLARININ MODELLENMES Ortalama temettü getiri ve bile ik tahvil endeks oranlar kullan larak hesaplanan Türkiye tahvilleri gerçek getiri oran , ln(1+t(t)) (3) = P + j * [ln(1+t(t-1)- P]+ biçiminde modellenmi tir. (3) e itli!inde, t(t) : t y l için tahvil getiri oran n , j : ln(1+t(t)) ve ln(1+t(t-1)) aras nda korelasyon katsay s n , P : ln(1+t(t))’ nin beklenen de!erini, Q : ln(1+t(t))’ nin standart sapmas n ve 290 Q *(1- j)* Z(t) Z(t) : Standart Normal da! l ma sahip rastlant de!i kenini göstermektedir. Bu e itlikten t y l için tahvil getiri oran n n, bir önceki y la ili kin tahvil getiri oran na, hata raslant de!i keni Z(t)’ ye, serinin beklenen de!eri, varyans ve bir gecikmeli seri ile olan korelasyon katsay s na ba!l oldu!u görülmektedir. 1986-2006 IMKB verileri [16] ile kullan ld ! nda Türkiye tahvilleri gerçek getiri oran na ili kin serinin beklenen de!er ve standart sapmas ,s ras yla, 0,079 ve 0,772 olarak hesaplanm t r. 2008 y l için ortalama tahvil getiri oran n n reel olarak 0,04 oldu!u da yap lan incelemelerden elde edilmi tir. Bu durumda tahvil getiri oran na ili kin model, ln(1+t(t)) (4) =0.079 – 0.66*[ ln(1+0,04)-0.079]+0.772*0.9340*Z(t) biçimindedir [ 12 ]. 2.2.2. HAZ NE BONOSU GET R ORANLARININ MODELLENMES Sayan and Teksöz (2002) taraf ndan yap lan çal mada Türkiye hazine bonolar n n gerçek getiri oranlar bir y ll k yurtiçi borçlanma faiz oranlar kullan larak, ln(1+h(t)) = P + j* [ln(1+h(t-1)- P ]+ Q *(1- j)* Z(t) (5) biçiminde modellenmi tir. (5) e itli!inde: h(t) : t y l için tahvil getiri oran n j : ln(1+h(t)) ve ln(1+h(t-1)) aras nda korelasyon katsay s n P : ln(1+h(t)) için beklenen de!erini Q : ln(1+h(t)) için standart sapmas n Z(t) : Normal da! l ma sahip birim raslant de!i kenini göstermektedir. Gerçek hazine bonosu getiri oranlar n n beklenen de!er, varyans ve korelasyon katsay lar tahmin edicileri 1984 - 2006 y llar aras ndaki verilerden s ras yla 0,027, 0,075 ve 0,465 olarak hesaplanm t r. 2008 y l için ortalama hazine bonosu getiri oran n n reel olarak 0,01 oldu!u da yap lan incelemelerden elde edilmi tir. 291 Bu durumda tahvil getiri oranlar na ili kin model, ln(1+h(t)) =0.027 +0.465*[ ln(1+0,01)-0.027]+ 00075*(1-0.465)*Z(t) (6) biçimindedir [12]. 3. EMEKL AYLIIININ HESABI Bu bölümde Bile ik Karma ve Desteklemeli Karma Emeklilik Planlar ’nda emekli ayl ! n n hesab ile bu hesaplamalarda kullan lacak varsay mlar verilmi tir. 3.1. HESABI DESTEKLEMEL KARMA EMEKL L K PLANLARINDA EMEKL AYLIoININ Desteklemeli Karma Emeklilik Planlar ’nda, herbir plan üyesi için faydas belli esasl emekli ayl ! ve katk s belli esasl emekli ayl ! ayr ayr hesaplan r ve hangisi büyük ise emekli ayl ! olarak o ba!lan r. Bu durumda ba!lanacak emekli ayl ! , EA = Max ( DB , DC ) (7) biçiminde modellenir. (7) e itli!inde : EA : Plan üyesine ba!lanacak emekli ayl ! n DB : Faydas belli esasl emeklilik plan na göre ba!lanacak emekli ayl ! n DC : Katk s belli esasl emeklilik plan na göre ba!lanacak emekli ayl ! n r : Plan üyesinin emekli oldu!u ya göstermektedir. 292 Faydas belli esasl emeklilik plan na göre ba!lanacak emekli ayl ! , DB = DRb * SALr-1 (8) olarak hesaplan r. (8) e itli!inde : DRb : Plan üyesinin faydas belli esasl plan için son maa ndan kesilecek olan katk oran n ve SALr-1 : Plan üyesinin emekli olmadan önce ald ! son maa n göstermektedir. Katk s belli esasl emeklilik plan na göre ba!lanacak emekli ayl ! , r DC = CCR * DRc *{SALr + " t =1 r (1+ rt )] * SALt} [ r t +1 (9) biçiminde modellenir. (9) e itli!inde : SALt : Plan üyesinin t. y l n n sonunda ald ! maa miktar n rt : t. y l için y ll k yat r m getiri oran n DRc : Plan üyesinin katk s belli esasl plan için maa ndan kesilecek olan katk oran n CCR : Y ll k ücrete dayal katk oranlar n n birikime uygulanacak emekli ayl ! ba!lama oran n göstermektedir . Bu çal mada faydas belli esasl emekli ayl ! n hesaplayabilmek için üyenin maa ndan kesilecek olan katk oran ( DRb ) %11, plan üyesinin katk s belli esasl plan için maa ndan kesilecek olan katk oran (DRc) % 5 ve y ll k ücrete dayal katk oranlar n n birikime uygulanacak emekli ayl ! ba!lama oran (CCR) %1 olarak belirlenmi tir. 3.2. B LE^ K KARMA EMEKL L K PLANLARINDA EMEKL AYLIoININ HESABI 293 Bile ik Karma Emeklilik Planlar ’nda üç a amada emekli ayl ! hesab yap l r. Bu çal mada hesaplama yapabilmek için alt s n r olarak TÜ K [15] taraf ndan aç klanm 2007 y l açl k s n r olan 853 TL, üst s n r olarak ise yoksulluk s n r olan 2240 TL baz olarak al nm t r. Birinci gruptaki plan üyeleri için ,yani ayl k maa 853 TL ’ye e it veya az olanlar için, emekli ayl ! sadece fayda esasl plana göre belirlenir. Bu durumda ilk gruptakiler için emekli ayl ! , EA1 = DRb1 * SALr-1 (10) biçimindedir. (10) e itli!inde : EA1 : Birinci gruptaki plan üyesi için faydas belli esasl plana göre ba!lanacak emekli ayl ! n DRb1 : Birinci gruptaki plan üyesinin faydas belli esasl plan için maa ndan kesilecek olan katk oran n SALr-1 : Plan üyesinin emekli olmadan önce ald ! son maa miktar n göstermektedir. Birinci gruptaki plan üyelerinin emekli ayl ! n hesaplayabilmek için plan üyesinin faydas belli esasl plan için maa ndan kesilecek olan katk oran (DRb1 ) % 11 olarak belirlenmi tir. kinci gruptaki , yani ayl k maa 853 TL ve 2240 TL aras nda olan plan üyeleri için emekli ayl ! katk s belli plan esasl ve faydas belli plan esasl emekli ayl klar n n belirli oranlarda bile iminden olu maktad r. Bu çal mada bu gruptaki üyelere ba!lanacak emekli ayl ! faydas belli ve katk s belli esasl hesaplanm emekli ayl klar n n % 50’si al narak hesaplanm t r. Bu durumda ikinci gruptakiler için emekli ayl ! miktar , = EA2 (11) 0.50 *DBb2 + 0.50* olarak modellenmi tir. (11) e itli!inde : EA2 : kinci gruptaki plan üyesi için ba!lanacak emekli ayl ! n DBb2 : kinci gruptaki plan üyesi için faydas belli esasl olarak belirlenmi emekli ayl ! n 294 DCc2 DCc2 : kinci gruptaki plan üyesi için katk s belli esasl olarak belirlenmi emekli ayl ! n göstermektedir. kinci gruptaki plan üyesi için (8) ve (9) e itliklerinden yola ç k larak ikinci gruptaki plan üyesi için ba!lanacak emekli ayl ! : r EA2 = 0.50 * DRb2 * SALr-1 + 0.50 * CCR * DRc2 *{SALr + " r (1+ rt )] * SALt} [ t =1 r t +1 (12) biçiminde modellenir. (12) e itli!inde : DRb2 oran n : kinci gruptaki plan üyesinin faydas belli esasl plan için maa ndan kesilecek olan katk SALr-1 : Plan üyesinin emekli olmadan önce ald ! son maa miktar n CCR : Y ll k ücrete dayal katk oranlar n n birikime uygulanacak emekli ayl ! ba!lama oran n DRc2 oran n : kinci gruptaki plan üyesinin katk s belli esasl plan için maa ndan kesilecek olan katk SALt : Plan üyesinin t. y l n sonunda ald ! maa miktar n rt : t. y l için y ll k yat r m getiri oran n göstermektedir. kinci gruptaki plan üyelerinin emekli maa lar n hesaplayabilmek için plan üyesinin faydas belli esasl plan için maa ndan kesilecek olan katk oran (DRb2 ) % 11, plan üyesinin katk s belli esasl plan için maa ndan kesilecek olan katk oran (DRc2) %5 ve y ll k ücrete dayal katk oranlar n n birikime uygulanacak emekli ayl ! ba!lama oran ( CCR) %1 olarak belirlenmi tir. Üçüncü gruptaki plan üyeleri, yani ayl k maa 2240 TL ‘ nin üzerinde olan ki iler için emekli ayl ! sadece katk s belli emeklilik plan esasl olarak belirlenir. Bu durumda (9) e itli!inden yola ç k larak üçüncü gruptaki plan üyeleri için emekli ayl ! : r EA3 = CCR * DRc3 *{SALr + " t =1 r (1+ rt )] * SALt} [ r t +1 (13) biçiminde modellenir. (13) e itli!inde : EA3 : Üçüncü gruptaki plan üyesi için ba!lanacak emekli ayl ! n 295 CCR : Y ll k ücrete dayal katk oranlar n n birikime uygulanacak emekli ayl ! ba!lama oran n DRc3 : Üçüncü gruptaki plan üyesinin katk s belli esasl plan için maa ndan kesilecek olan katk oran n SALt : Plan üyesinin t. y l n sonunda ald ! maa miktar n rt : t. y l için y ll k yat r m getiri oran n göstermektedir. Üçüncü gruptaki plan üyelerinin emekli maa lar n hesaplayabilmek için plan üyesinin, katk s belli esasl plan için maa ndan kesilecek olan katk oran (DRc3 ) % 5 ve y ll k ücrete dayal katk oranlar n n birikime uygulanacak emekli ayl ! ba!lama oran (CCR) %1 olarak belirlenmi tir. 3.3. D oER VARSAYIMLAR Emeklilik planlar nda aktüeryal denge aç s ndan emekli ayl ! hesab n n yap labilmesi yani yükümlülük ve fona yap lacak katk lar n bugünkü de!erlerinin e it oldu!u varsay m alt nda karma emeklilik planlar na ili kin emeklilik maa n hesaplarken kulland ! m z parametrelerin yan s ra i e giri ya , emeklilik ya , mortalite, kariyer ekli gibi parametrelerin de belirlenmesi gerekmektedir. Bu parametreler : e giri ya : 20 Emeklilik ya : 65, Mortalite : 1980 CSO hayat tablosu Kariyer ekli : Emeklilikten önce hep çal m olarak belirlenmi tir. 4. UYGULAMA STRATEJ A : 45 y l boyunca fonu sadece tahvile yönlendirmek STRATEJ B : 45 y l boyunca fonu sadece hazine bonosuna yönlendirmek STRATEJ C : 45 y l boyunca fonun %50’sini hazine bonosuna ve % 50’sini tahvile yönlendirmek Bu çal mada Türkiye’deki farkl sosyal ve ekonomik yap lar yans tmas aç s ndan dü ük, orta ve yüksek düzey olmak üzere üç farkl maa için incelemeler yap lm t r. Burada incelenen maa miktarlar , s ras yla, TÜ K 2007 verilerine göre asgari ücret olarak 575 TL, açl k s n r olan 853 TL ve yoksulluk s n r olan 2240 TL’nin aras nda olan 1000 TL ve yoksulluk s n r n n üstünde olan 3000 TL’dir. Her bir maa düzeyindeki ki iler için emekli olmalar durumunda ba!lanacak emekli ayl klar 296 , üç farkl yat r m stratejisi kullan larak, bireyin Desteklemeli Karma veya Bile ik Karma Emeklilik Planlar ’ndan birine üye olmas durumu için, simulasyon çal mas yap larak bulunmu ve sonuçlar kar la t r lm t r. Bu çal mada kullan lan hayat tablosunda son ya 110 oldu!u için bugün 20 ya nda olan bireylerin 90 y l ya ayaca! varsay lm buna ba!l olarak emeklilik planlar nda aktif üye olarak 45 y l, pasif üye olarak 45 y l sistemde bulunacaklar dikkate al nm t r. Her bir ayl k maa miktar için 10000 adet simulasyon yap lm t r. 5. SONUÇ ve YORUMLAR Yap lan simulasyon çal mas n n sonucunda her bir ayl k maa miktar için a a! daki sonuçlar elde edilmi tir. Ayl k maa miktar 575 TL ve u an 20 ya nda olan birey için yap lan simulasyon çal mas nda Desteklemeli Karma ve Bile ik Karma Emeklilik Planlar ’na esas emekli ayl klar Strateji A, Strateji B, Strateji C için, s ras yla Grafik 1, Grafik 2 ve Grafik 3’de gösterilmi tir : Grafik 1 : Strateji A ve 575 TL’lik maa! için simulasyon grafi<i Bu bireyin yapt ! katk lar sadece tahvile yönlendirildi!i durumlarda Desteklemeli ve Bile ik Karma Emeklilik Planlar ’nda ayl k emekli maa lar genel olarak ayn seyirde izlemektedir. Bunun sebebi ikisinde de emekli ayl klar belirlenirken faydas belli yöntemin dikkate al nmas d r. 297 Grafik 2 : Strateji B ve 575 TL’lik maa! için simulasyon grafi<i Bu bireyin yapt ! katk lar sadece hazine bonosuna yönlendirildi!i durumlarda Desteklemeli ve Bile ik Karma Emeklilik Planlar ’nda ayl k emekli maa lar genel olarak ayn seyirde izlemektedir. Bunun sebebi ikisinde de emekli ayl klar belirlenirken faydas belli yöntemin dikkate al nmas d r. Grafik 3 : Strateji C ve 575 TL’lik maa! için simulasyon grafi<i Bu bireyin yapt ! katk lar n yar s hazine bonosuna di!er yar s tahvile yönlendirildi!i durumlarda Desteklemeli ve Bile ik Karma Emeklilik Planlar ’nda ayl k emekli maa lar genel olarak ayn seyirde izlemektedir. Üç strateji içinde belirleyici istatistik de!erleri a a! daki Tablo 1’de verilmi tir : Tablo 1 : 20 ya! nda ayl k 575 TL alan ki!i için simulasyon çal !mas sonucunda elde edilen belirleyici istatistikler STRATEJ= A Belirleyici istatistikler Desteklemeli Karma E.P. Ortalama Varyans Std.Sapma Max Min Medyan 5027,13 6684584,70 2585,46 20362,50 1040,67 4392,96 Bile-ik Karma E.P. 5027,13 6684584,70 2585,46 20362,50 1040,67 4392,96 STRATEJ= B STRATEJ= C Desteklemeli Bile-ik Desteklemeli Bile-ik Karma E.P. Karma E.P. Karma E.P. Karma E.P. 5027,13 6684584,70 2585,46 20362,50 1040,67 4392,96 298 5027,13 6684584,70 2585,46 20362,50 1040,67 4392,96 5027,13 6684584,70 2585,46 20362,50 1040,67 4392,96 5027,13 6684584,70 2585,46 20362,50 1040,67 4392,96 Yap lan 10000 simulasyon çal mas sonucunda, de!i ik yat r m stratejileri için, ba!lanacak ortalama emekli ayl ! 5027,13 TL olarak bulunmu tur. Ayl k 575 TL maa alan 20 ya ndaki birey için Desteklemeli Karma Emeklilik Plan ile Bile ik Karma Emeklilik Plan için belirlenen ayl k emekli maa miktar farkl de!ildir. Bu maa miktar için ba!lanacak emekli ayl ! son maa n belli bir oran olarak, yani faydas belli esasl yönteme göre, belirlenmi tir. Bu yüzden yat r m getirisi , bu maa seviyesi için, ba!lanacak emekli ayl ! n hesaplamada etkili de!ildir. Ayl k maa miktar 1000 TL ve u an 20 ya nda olan birey için yap lan simulasyon çal mas nda Desteklemeli karma ve bile ik karma emeklilik planlar na esas emekli ayl klar Strateji A, Strateji B, Strateji C için, s ras yla Grafik 4, Grafik 5 ve Grafik 6’da gösterilmi tir : Grafik 4 : Strateji A ve 1000 TL’lik maa! için simulasyon grafi<i Bu bireyin yapt ! katk lar sadece tahvile yönlendirildi!i durumlarda Desteklemeli Karma Emeklilik Plan için ayl k emekli maa Bile ik Karma Emeklilik Plan için ayl k emekli maa ndan daha fazlad r. Bunun sebebi ise Desteklemeli Karma Emeklilik Plan ’nda emekli maa , katk s belli yönteme göre hesapland ! için ki i emeklilik dönemine kadar yapt ! birikim üzerinden emekli maa alacak ve tahvil getiri oranlar yüksek oldu!u için bu birikim büyük de!ere ula acakt r. Di!er taraftan Bile ik Karma Emeklilik Plan ’nda ki inin emekli maa katk s belli ve faydas belli yöntemlerin e it oranda uygulanmas yla hesaplanaca! çin Desteklemeli Karma Emeklilik Plan ’ndan daha az emekli ayl ! ba!lanacakt r. Grafik 5 : Strateji B ve 1000 TL’lik maa! için simulasyon grafi<i 299 Bu bireyin yapt ! katk lar sadece hazine bonosuna yönlendirildi!i durumlarda Desteklemeli Karma Emeklilik Plan için ayl k emekli maa , Bile ik Karma Emeklilik Plan için ayl k emekli maa ndan daha fazlad r. Grafik 6 : Strateji C ve 1000 TL’lik maa! için simulasyon grafi<i Bu bireyin yapt ! katk lar n yar s hazine bonosuna di!er yar s tahvile yönlendirildi!i durumlarda Desteklemeli Karma Emeklilik Plan için ayl k emekli maa , Bile ik Karma Emeklilik Plan için ayl k emekli maa ndan daha fazlad r. Üç strateji içinde belirleyici istatistik de!erleri a a! daki Tablo 2’de verilmi tir : Tablo 1 : 20 ya! nda ayl k 1000 TL alan ki!i için simulasyon çal !mas sonucunda elde edilen belirleyici istatistikler STRATEJ= A Belirleyici istatistikler Ortalama Varyans Std.Sapma Max Min Medyan Desteklemeli Karma E.P. Bile-ik Karma E.P. 11174,47 2153090174,16 46401,40 1363583,33 1809,83 7639,88 6629,25 587516715,18 24238,74 699500,00 923,58 4148,71 STRATEJ= B Desteklemeli Bile-ik Karma E.P. Karma E.P. 5984,41 87800156,41 9370,17 204583,33 1040,67 4415,88 4454,09 5314361,61 2305,29 18348,33 916,83 3881,33 STRATEJ= C Desteklemeli Karma E.P. 8742,85 20218212,28 4496,47 35413,33 1809,83 7639,88 Bile-ik Karma E.P. 5027,13 6684584,70 2585,46 20362,50 1040,67 4392,96 Bu tabloya bak ld ! nda her üç yat r m stratejisi içinde Desteklemeli Karma Emeklilik Plan ’nda ba!lanan emekli ayl ! n n yüksek oldu!u sonucuna ula lm t r. Yat r m stratejileri aç s ndan bak ld ! nda ise A yat r m stratejisi için ba!lanacak emekli ayl ! en yüksektir. B yat r m stratejisi için ise getiri miktar çok dü ük oldu!u için ba!lanacak emekli ayl ! en dü üktür. 300 Ayl k maa miktar 3000 TL ve u an 20 ya nda olan birey için yap lan simulasyon çal mas nda desteklemeli karma ve bile ik karma emeklilik planlar na esas emekli ayl klar Strateji A, Strateji B, Strateji C için, s ras yla Grafik 7, Grafik 8 ve Grafik 9’da gösterilmi tir : Grafik 7 : Strateji A ve 3000 TL’lik maa! için simulasyon grafi<i Bu bireyin yapt ! katk lar sadece tahvile yönlendirildi!i durumlarda Desteklemeli ve Bile ik Karma Emeklilik Planlar ’nda ayl k emekli maa lar genel olarak ayn seyirde izlemektedir. Bunun sebebi ikisinde de emekli ayl klar belirlenirken katk s belli esasl yöntemin dikkate al nmas d r. Grafik 8 : Strateji B ve 3000 TL’lik maa! için simulasyon grafi<i Bu bireyin yapt ! katk lar sadece hazine bonosuna yönlendirildi!i durumlarda Desteklemeli ve Bile ik Karma Emeklilik Planlar ’nda ayl k emekli maa lar genel olarak ayn seyirde izlemektedir. Bunun sebebi ikisinde de emekli ayl klar belirlenirken katk s belli yöntemin dikkate al nmas d r. 301 Grafik 9 : Strateji C ve 3000 TL’lik maa! için simulasyon grafi<i Bu bireyin yapt ! katk lar n yar s hazine bonosuna di!er yar s tahvile yönlendirildi!i durumlarda Desteklemeli ve Bile ik Karma emeklilik planlar nda ayl k emekli maa lar genel olarak ayn seyirde izlemektedir. Üç strateji içinde belirleyici istatistik de!erleri a a! daki Tablo 3’de verilmi tir : Tablo 3 : 20 ya! nda ayl k 3000 TL alan ki!i için simulasyon çal !mas sonucunda elde edilen belirleyici istatistikler Belirleyici =statistikler Ortalama Varyans Std. Sapma Max Min Medyan STRATEJ= A Desteklemeli Bile-ik Karma Karma E.P. E.P. 11,174.47 11,174.47 2,153,090,174.16 2,153,090,174.16 46,401.40 46,401.40 1,363,583.33 1,363,583.33 1,809.83 1,809.83 7,639.88 7,639.88 STRATEJ= B Desteklemeli Bile-ik Karma E.P. Karma E.P. 5,027.13 5,027.13 6,684,584.70 6,684,584.70 2,585.46 2,585.46 20,362.50 20,362.50 1,040.67 1,040.67 4,392.96 4,392.96 STRATEJ= C Desteklemeli Bile-ik Karma Karma E.P. E.P. 6,629.25 6,629.25 587,516,715.18 587,516,715.18 24,238.74 24,238.74 699,500.00 699,500.00 923.58 923.58 4,148.71 4,148.71 Bu tabloya bak ld ! nda her üç yat r m stratejisi içinde Desteklemeli Karma Emeklilik Plan ve Bile ik Karma Emeklilik Plan için ba!lanacak emekli ayl klar ayn d r. Genel olarak sonuçlar yorumland ! nda A yat r m stratejisi için hesaplanan emekli ayl klar di!er yöntemlere göre ba!lanan emekli ayl klar ndan daha yüksektir. Fakat A yat r m stratejisinde katk lar sadece tahvile yönlendirilecektir ve bu oldukça risklidir. B yat r m stratejisinde katk lar sadece hazine bonolar na yönlendirilece!inden getiri oranlar , di!erlerine göre daha dü üktür. C yat r m stratejisinde ise getiri oranlar , A yat r m stratejisi ve B yat r m stratejisi için elde edilen getiri oranlar n n aras nda yer almaktad r. Türkiye ekonomisi, farkl etkenlere aç k olan ve varolan durumlardan kolayca etkilenen bir ülke olmas nedeniyle, A yat r m stratejisinin uygulamaya konulmas ileriye yönelik öngörülerde belirsizlik ve tutars zl klar n ya anmas na neden olacakt r. B yat r m stratejisi, A yat r m stratejisine göre daha 302 az risk içermesine ra!men beklentilerin alt nda sonuçlar verecektir. Bu nedenle, A ve B yat r m stratejilerinin birer kombinasyonu eklinde hesaplanan ayn zamanda A ve B stratejilerinin özelliklerini içinde bar nd ran C yat r m stratejisini kullanmak uygun bulunmu tur. Çal mada kulland ! m z karma emeklilik planlar ndan Desteklemeli ve Bile ik Karma Emeklilik Planlar aras nda bir kar la t rma yap l rsa Desteklemeli Karma Emeklilik Plan ’na göre hesaplanan emekli ayl ! n n daha yüksek ç kt ! görülecektir. 6. ÖNER LER Türkiye’de emeklilik sistemi genel olarak üç basamaktan olu maktad r. Birinci basamak emeklilik sistemi, zorunlu, kamu taraf ndan yürütülen, herkes için asgari bir emeklilik gelirinin sa!lanmas na yönelik sistemdir. Fayda esasl yöntem kullan l r. Sistemin finansman nda da! t m esasl emeklilik sistemi kullan lmaktad r. Söz konusu sistemde ku aklar aras bir gelir da! l m söz konusu oldu!undan sisteme katk yapacak olan genç nüfusun azalmas ya da sistemden emekli ayl ! alan ya l nüfusun artmas , sistemin finansman n güçle tirmektedir. Ya am beklentisinin artmas , do!um oran n n azalmas , e!itim süresinin artmas ve erken emeklilik gibi durumlar sistemin finansman n güçle tiren etkenlere örnek olarak verilebilir. kinci basamak emeklilik sistemi, birinci basamak emeklilik sistemini tamamlay c , zorunlu veya gönüllü olarak olu turulmu , daha çok i yeri bazl emeklilik sistemleridir. Bu sistemde çal rken al nan ücretle orant l bir emeklilik gelirinin sa!lanmas hedeflenir. Üçüncü basamak emeklilik sistemi ise gönüllülük esas na dayal , ya l l kta kamu sosyal güvenlik sistemine ek tasarruf imkan sa!layan bir sistemdir.Sistemin finansman nda fonlu sistem kullan lmaktad r. Fonlu sistemde ki ilerin çal rken ödedi!i primler, çe itli yat r m araçlar nda emekliliklerine kadar fonlanmaktad r. Katk s belli esasa dayanan sistemlerde yat r m araçlar n n getirisne ba!l olarak, emekli ayl ! de!i kenlik gösterebilmektedir. Risk birey taraf ndan üstlenilir. Ki iler emekli olduktan sonra ya am standartlar n ayn ekilde devam ettirebilmek için de!i ik vak flara üye olmakta veya 2003 y l nda çal maya ba layan emeklilik sisteminin üçüncü basama! n olu turan Bireysel Emeklilik Sistemi’ne üye olmaktad rlar. Bireysel Emeklilik Sistemi (BES)’ nde emekli ayl klar ve ikramiye ödemeleri 2013 y l ndan itibaren ba layacakt r. Yani bu sistem için u an girdiler mevcuttur. Buna ba!l olarak fon büyüklükleri de artmaktad r. Bu gayet do!ald r çünkü henüz ç kt ödeme yapmam lard r. Bize göre emeklilik sistemleri için yeni ürünler ç kart lmas gerekmektedir. Bir sistemin ba ar l olup olmad ! n görmeden önce o sistemin ba ar s z olmas durumunda daha iyi bir sisteme çevrilmesi veya ba ar l oldu!u durumda sistem için ba ar n n artt r lmas için önceden çal malara ihtiyaç duyulmaktad r. Bu nedenle, bu çal mada dünyada uygulama alan h zla yay lan karma emeklilik planlar ndan ikisi için de!i ik maa miktarlar ve farkl yat r m stratejileri için emekli ayl klar n n ne kadar olaca! tahmin edilmeye çal lm t r. Yukar da da bahsedildi!i gibi emeklilik sisteminin geli tirilmesi için yeni ürünlere ihtiyaç duyulmaktad r. Bu çal mam zda karma emeklilik planlar n n emekli olan ki i için daha uygun oldu!unu ,Türkiye için, göstermek istedik. Ülkeler kendi geçmi verilerini kullanarak kendilerine has yeni bir karma emeklilik sistemi olu turabilirler. Böylece ülkelerin emeklilik sistemlerindeki yükümlülük art azalt labilir hatta 303 ortadan kald r labilir. Hem sistemin hem de üyelerin memnun oldu!u bir emeklilik sistemine sahip bir ülke kalk nabilir ve geli ebilir. Kaynaklar [1] [2] [3] [4] [5] [6] [7] [8] [9] [10] [11] [12] [13] [14] [15] [16] M. Cohen and M. Bilodeau, (1996), Assessing the Option Premium in Hybrid Pension Plans M. Cohen,1991,The Financial Structure of Pension Plans,Proceedings,1st AFIR international colloquium A. J. W se and M. J. Annable,( 1991), The current state of asset /liability modelling in the U.K, Proceddings, 1st AFIR international colloquium S. Haberman,(1991), Stochastic approach to pension funding methods, Proceeding ,1st AFIR international colloquium C.Dayk n; D.Ballant ne ; D.Anderson , (1993) ,Modelling the assets and liabilities of pension plan, Proceedings, 3rd AFIR nternat onal colloquium J. F. Boulier, D. Florens, E. Trussant,(1995), A dynamic Model for Pension Funds Management, Proceedings, 5th AFIR nternat onal colloquium W.H. A tken , (1996),-A Problem–Solving Approach to Pension Funding and Valuation Jr. Bowers ; N.L. Gerber; H.U Hickman ; J.C. Jones and C.J Nesbitt , 1986 , Actuarial Mathematics, itasca, IL, The Society of Actuaries Dr.Ç. Ergenekon ,(2001),Emeklili!in Finansman –Global Uygulamalar I ! nda Türkiye çin Bir Özel Emeklilik Önerisi ILO, (1995),Turkish Government Social Security and Health Insurance ReformProject,Supplementary Modelling Report ,Ankara :Undersecretarist of Treasure , Hazine uzman Yard mc lar na Yönelik Hizmet içi E!itim Seminer Notlar ,(2005),T.C Ba bakanl k Hazine Müste arl ! Sigortac l k Genel Müdürlü!ü Sigortac l k Genel Müdürlü!ü, Eylül S. Sayan ve A. T. Teksöz ,(2002), Simulation of Risks and Benfits from Money Purchase Pension Scheme for Turkey www.hazine.gov.tr www.pensionsboard.ie www.tuik.gov.tr www.imkb.gov.tr Abstract Stochastic Modelling of Hybrid Pension Scheme and An Application in Turkey In this study, stochastic models were constituted for underpin arrangement and combination hybrid plan, which are varities of hybrid plans, and is made their simulation works under differerent investment strategies, also is tred to forage which is the hybrid pension scheme should be applied in Turkey. Keywords: Hybrid scheme ; Defined Contribution Plan ; Defined Benefit Plan ; Underpin Arrangement Hybrid Plan ; Combination Hybrid Plan ; Stochastic Model 304 Çoklu azalan ya am tablosu ve emeklilik sistemine bir uygulamas Hatice Tuzgöl Ömer Esensoy Sosyal Güvenlik Kurumu, Aktüerya ve Fon Yönetimi Daire Ba#k., Balgat, 06520, Ankara htuzgol@sgk.gov.tr Hacettepe Üniversitesi, Fen Fakültesi, Aktüerya Bilimleri Bölümü, Beytepe, 06800, Ankara esensoy@hacettepe.edu.tr Özet Bu çal:#man:n amac:, çoklu azalan modelleri incelemek ve emeklilik sistemine bir uygulamas:n: yapmakt:r. Standart ya#am tablosu ölüm olas:l:G:n: göstermektedir. Ancak ölümlülük örüntüsü ölüm nedenlerine göre de analiz edilebilmektedir. Çe#itli nedenlerle nüfustan azal:#lar:n incelendiGi modellere çoklu azalan modeller denilmektedir. Ölüm nedenlerini gösteren ya#am modeli, hastal:k düzeyi (morbidite) modeli ve emeklilik sitemi modeli çoklu azalan modeller olarak incelenebilir. Bu çal:#ma sonucunda, Türkiye emeklilik sistemi verileri ile çoklu azalan ya#am tablosu haz:rlanm:#, ula#:lan sonuçlar tart:#:lm:# ve yorumlanm:#t:r. Anahtar Sözcükler: Çoklu azalan ya#am tablosu; Demografi; Ölüm oran: Abstract Multiple decrement life table and an application to pension data Multiple Decrement Life Table is an extension of the standard mortality table. Standard mortality tables are also called single decrement life table. A standard mortality table shows only one transition from alive to dead. Multiple decrement life table can allow various states of decrement from population. Such a model can be improved for the pension model. In these model, there is simultaneous operation of several causes of decrement. A life fails because of one of these decrements. The aim of this study is to discuss the multiple decrement life models and make an application to Turkish pension model data. The application results reached are discussed and interpreted. Key Words: Multiple decrement life table; Demography; Mortality rate 1. Giri! Aktüeryal hesaplamalarda, demografik ve ekonomik olmak üzere iki temel varsay m bulunmaktad r. Ya am tablosu temel bir demografik varsay m olu tururken, teknik faiz ekonomik bir varsay m olu turmaktad r. Bu nedenle de aktüerya literatüründe, detayland r lm ya am tablosu çal malar büyük ölçüde yer almaktad r. Bu çal man n amac , çoklu azalan modelleri incelemek ve Türkiye emeklilik sistemi verileri ile bir uygulamas n yapmakt r. Standard ya am tablosu sadece ölümlülük yap s n göstermektedir. Bu tablolar sadece ya amdan ölüm durumuna geçi olas l ! n içermektedir. Ancak ölümlülük yap s ölümün nedenlerine göre de analiz edilebilmektedir. Ölüm nedenlerine göre ölüm olas l klar n n incelendi!i ya am modeli, benzer ekilde hastal k düzeyi (morbidite) modeli ve emeklilik sistemi modeli çoklu azalan modeller olarak incelenebilir. 305 Son zamanlarda çoklu azalan ya am tablosu ile ilgili birçok çal ma yap lm t r. Keyfitz (1985) ve Schoen (1975, 1988) çoklu azalan modeller üzerine birçok çal malar yapm lar ve i gücü de!i ikli!i konusunda uygulama yapm lard r (Shavelle and Strauss, 1999). Shavelle ve Strauss (1999) çal mas nda çoklu azalan ya am tablosunun uzun dönemli mikro veriler üzerinde çal mada bulunmu lar, çoklu azalan ya am tablolar nda nüfustan ayr lan ki ilerin tahmininin nas l hesaplanaca! konusunu tart m lar ve bu durumda Kaplan-Meier tahmin edicisinin kullan lmas n önermi lerdir. Haberman (1983, 1984) çal malar nda çoklu azalan modelleri incelemi ve hastal k düzeylerinin ölçümü üzerine bir model geli tirmi tir. Yine Waters (1984) ve Waters, Phil ile Wilkie (1987) çal malar nda çoklu azalan modelleri incelemi ler ve bir yöntem geli tirmi lerdir. 2. Tek azalanl ya!am tablosu Tek azalanl ya am tablosu, ki ilerin hayattan sadece ölüm nedeniyle azalmalar sonucu ortaya ç kan ölümlülük yap s na dair x ve x+1 ya lar aras nda ölme olas l klar n göstermektedir. Ya ayan Ölüm Bekil 1. Tek azalanl ya!am modeli Ya gruplar na göre haz rlanan ya am tablolar nda n m x = n M x varsay ld ! nda ya a özel ölüm oran ile ya a özel ölme olas l ! formülasyonlar s ras yla a a! daki gibidir (Preston, Heuveline ve Guillot, 2001); Ya a özel ölüm oran ile ya a özel ölme olas l ! formülasyonlar s ras yla a a! daki gibidir; n mx #n Mx = n qx = n qx n dx = lx = n D x x ve x + n ya lar aras nda nüfusta ölen ki ilerin say s = x ve x + n ya lar aras ndaki ki i y llar n say s n Lx (1) Nüfusta x ve x + n ya lar aras nda ölen ki i say s x Ya nda nüfusta ya ayan ki i say s (2) n× n m x 1 + (n n a x )F n m x (3) Burada; x = Ya n m x = x ve x+n ya lar aras nda ya a özel ölüm oran n = x ya nda hayatta kalan ki i say s n n d x = x ve x+n ya lar aras nda ölen ki i say s n n L x = x ve x+n ya lar aras nda ki i y l say s n n a x = x ve x+n ya lar aras nda ölen ki iler için ortalama ki i y l say s n göstermektedir. lx n qx nax = x ve x+n ya aras nda ölme olas l ! n göstermektedir. de!eri, ölümlerin Uniform (Tekdüze) da! l m göstermesi durumunda, 306 nax = n Lx n F l x + n n / 2( l x + l x + n ) n F l x + n n = = ’dir (Land, 2004). l x l x+n 2 n dx 3. Çoklu azalan modeller ve çoklu azalan ya!am tablosu Ya am tablosu fonksiyonlar olan t q xj , t p x , µ x , s x fonksiyonlar n n yan nda çoklu azalan ya am tablosunda yer alan nüfustan azalma olas l ! n n ç kar mlar Daniel (1993) ve Scott (1990) taraf ndan gösterilmi tir. Çoklu azalan ya am tablosu ile ilgili süreçlere ili kin formülasyonlar ve dayand ! bilimsel temeller öyledir (Preston, Heuveline ve Guillot, 2001); x ve x+n ya lar aras nda j nedenine göre nüfustan azalmalar n/ayr lmalar n oran , ( j) ( j) n dx Burada, n mx = n Lx n (4) L x : x ve x+n ya lar aras nda ki i y l say s n göstermektedir. x ve x+n ya lar aras nda ki inin bir y l içerisinde nüfustan j nedenine göre ayr lmas olas l ! , ( j) n qx = d (xj) lx = ( j) n qx nF n m (xj) = 1 + (n n a x ) n m x x = 1,2,..., n , l x : x ya nda nüfusta ya ayan ki i say s n göstermektedir, l x = j = 1,2,..., m , (5) "l (6) j x , j d (xj) : Nüfustan x ve x+1 ya lar aras nda j nedeni ile azalan ki i say s n göstermektedir ve Çoklu azalan süreçte n q (xj) ’nin temel matematiksel formülasyonu . x +n x a µ ( y ) dy ( j) e .x µ (a )da ile de gösterilebilir. x ve x+1 ya aras ndaki nüfustan m nedene göre azalmalar n toplam say s , dx = m "d j=1 x ve x+n ya lar aras nda ki inin nüfustan ayr lmas olas l ! ise öyledir; n qx = n dx lx = m " ( j) n qx (7) j=1 A a! daki ekillerde çoklu azalan ya am modellerine örnekler verilmi tir. Ya ayan Ölüm Neden 1 Ölüm Neden 2 Ölüm Neden 3 Bekil 2. Ölüm nedenlerine göre çoklu azalan model 307 Ölüm Neden 4 ( j) x Ölüm Çal an Hastal k Ya ayan Ayr lma Bekil 3. kili azalan model Ölüm Bekil 4. Hastal k düzeyi (morbidite) - ya!am modeli Maluliyet Ölüm Çal an Emeklilik Ayr lma Bekil 5. Emeklilik sistemi modeli Çoklu azalan modeller, ölüm nedenlerine göre azalan model, sa!l k- hastal k modeli ve emeklilik sistemi modeli yan nda kaza-ölüm modeli, uzun dönemli bak m modeli, maluliyet, ayr lma ve ölüm modelleri içinde geli tirilebilir (http://www.math.uconn.edu/~valdez/math288s08/Math288-Weeks5to6annot.pdf, 2009). Di!er yandan geli mi ülkeler ile geli mekte olan ya da az geli mi ülkelerdeki belirli hastal k türünden ölümlerin oranlar , kanserden ölenlerin oran gibi, ülkelerin geli mi lik düzeylerini kar la t rmaya yönelik çal malar yap lmaktad r (Gjonca, 2006). Çoklu azalan ya am tablosunda her bir azal nedeni, di!er nedenlerden ba! ms z i leyen bir süreç gibi tekli azalan ya am modeli olarak tan mlanabilir. Bu tablolara ba!lant l tek azalanl ya am tablosu denilmektedir (www.math.uconn.edu/~valdez/math288s08/Math288-Weeks3to5.pdf, 2009). 4. Uygulama Çoklu azalan ya am tablosunun Türkiye için emeklilik sistemine uygulamas için Sosyal Güvenlik Kurumu verileri dikkate al nm t r. 2008 y l Ocak ve Temmuz (y l ortas ) ay nda ya ve cinsiyet baz nda hizmet akdi ile çal makta olan zorunlu sigortal lar, bu sigortal lardan 2008 y l içinde emekli olanlar, 2008 y l içinde maluliyet ayl ! ba!lananlar, 2008 y l nda hizmet akdi ile çal makta iken herhangi bir nedenden dolay ayr lanlar ve 2008 y l içinde ölen ki i say lar dikkate al nm t r. Bu çoklu azalan emeklilik modelinde, aktif durumundan, emekli olma, malul olma, i ten ayr lma ya da ölme durumlar ndan dolay aktif nüfustan azalma söz konusudur. Ayn durumlar dikkate al narak, Skoog ve Ciecka (2007) bir çal ma yapm lar ve aktif olarak çal makta olan ki ilerin ortalama çal ma hayat beklentilerine ili kin yöntem geli tirmi lerdir. Yine, i gücü ve göç konular nda çoklu azalan ya am tablosu olu turmaya yönelik bir uygulama Smith (1992) taraf ndan incelenmi tir. Bu çal mada, aktif olma durumu orijindeki durum olup, i ten sözle menin feshi gibi bir nedenden dolay ayr lma, emekli olma, malul olma ve ölüm durumlar da geçi durumlar n göstermektedir. Aktif olarak çal makta olan sigortal , mevzuat gere!i gerekli ko ullar sa!lamas durumunda emekli olabilir, çal ma gücünün ya da i kazas ya da meslek hastal ! sonucu meslekte kazanma gücünün en az %60’ n kaybetmesi durumunda sigortal malul olabilir, herhangi bir nedenden dolay hizmet akdi sona erebilir, i ten ayr labilir, sigortal aktif olarak çal makta iken, emekli ya da malul iken ölebilir. 308 Sosyal güvenlik kurumunun verileri ile emeklilik sistemi için çoklu azalan ya am tablosunun olu turulmas sonucu çal makta olan, i ten ayr lan, malul olan, emekli olan ve ölüm durumlar aras geçi olas l klar elde edilmi tir. Bu geçi olas l klar emeklilik sistemine yönelik yap lacak tüm çal malarda faydal olacakt r. Böylece yap lacak çal malarda kendi demografik yap m z yans tan tablolar dikkate al narak daha sa!l kl ve güvenilir sonuçlar elde edilebilecektir. Belirli bir nedene göre ya a özel ölüm oranlar na ili kin, genel formülasyonlar öyledir (Gjonca, 2006); Belirli Bir Nedene Göre Ölüm Oran = Belirli Bir Nedene Göre Ölümler × 100,000 Y l Ortas Nüfus (8) Belirli Bir Nedene Göre x Ya Grubundaki Ölümler x Ya Grubundaki Y l Ortas Nüfus (9) Çoklu azalan ya am tablosu olu turulurken ilk a ama, belirli bir nedene göre nüfustan ayr l lar n ya da azal lar n oran n n ve olas l klar n n hesaplanmas d r. Bölüm 3’te çoklu azalan modellere yönelik uygulamalarda yayg n olarak ba vurulan formülasyonlar olan E itlik (4), (5), (6) ve (7)’e göre hesaplamalar yap lm t r. Veriler ya gurubu 5’erli olacak ekilde düzenlenmi tir. x ve x+n ya grubundaki hesaplama a amalar u ekildedir; Ölüm Nedenine Göre Ya a Özel Ölüm Oran = I. Ya a özel nedene göre ayr lma oranlar n gösteren n m x ’lerin hesaplanmas , II. nax ’in belirlenmesi, ve n q xj olas l klar n n hesaplanmas ve III. n qx IV. Belirli bir nedene göre ayr lmalar n/azal lar n say lar n n n d xj = n q xj F l x ile l xj = + " a =x n d aj , x ve x+n ya grubundan sonra j nedeni ile nüfustan ayr lan ki i say lar n n bulunmas d r. j n mx = j n dx Lx j n qx = j n dx lx = q xj F m xj Dj =n qx F n x n mx n Dx n j n qx = n× n m xj 1 + (n n a x )F n m x Yöntemin uygulanmas sonucunda, baz ya lara ili kin özellikle ileri ya larda çal makta olan sigortal lar n davran lar ndan ve verilerden kaynakl baz sonuçlara düzeltme yap lm t r. Herhangi bir nedenle sistemden ç k yapanlar n sisteme tekrar geri dönmeyece!i varsay m yap lm t r. Çal makta olanlar n ölüm verileri derlenirken, cenaze yard m talep edilmemesi durumunda ölüm kay tlar n n yetersiz olabilece!i ve sigortal l ktan ç k nedeninin ölüm oldu!u belirtilen ki i say lar na ili kin sonuçlar dikkate al narak de!erlendirme yap lm t r. Ancak ç k nedenleri aras nda di!er seçene!i de bulunmaktad r, Kuruma ölüm nedeni için bildirimde bulunulurken di!er seçene!inin de i aretleniyor olma ihtimali vard r. Bu gibi nedenlerden dolay çal makta olanlar n ölüm say lar n n belenenden az oldu!u sonucuna ula lm t r. Emeklilik sistemi modeli için çoklu azalan ya am tablosu olu turulurken, çal makta olan ki ilere ili kin ölüm say lar CSO 1980 ya am tablosu ile hesaplanm t r. Formülasyonda yer alan n a x de!erleri Türkiye için daha önce uygulanm çal malardan al nm t r. 2008 y l verileri ile çal makta olan sigortal lara dair olu turulan emeklilik sistemi çoklu azalan ya am tablo sonuçlar Çizelge 1. ve Çizelge 2’de sunulmu tur; 309 Çizelge 1. 2008 – Kad n emeklilik modeli çoklu azalan ya!am tablosu Ya! qx qa qe qm 0-4 5-9 10-14 15-19 20-24 25-29 30-34 35-39 40-44 45-49 50-54 55-59 60-64 65-69 70-74 75-79 80-84 85+ 0,0000 0,0177 0,1350 0,3993 0,4601 0,4033 0,3710 0,3980 0,6180 0,7443 0,7869 0,8224 0,8520 0,8767 0,8972 0,9144 0,9286 1,0000 0,0000 0,0176 0,1346 0,3970 0,4562 0,3981 0,3639 0,3861 0,3662 0,3439 0,1893 0,1155 0,0836 0,0895 0,0612 0,1055 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0007 0,0032 0,2396 0,3822 0,5818 0,6912 0,7493 0,7588 0,7959 0,7176 0,5735 0,2739 0,0000 0,0000 0,0000 0,0000 0,0000 0,0001 0,0006 0,0012 0,0022 0,0049 0,0048 0,0059 0,0090 0,0137 0,0122 0,0422 0,2294 0,2739 qö lx dx da de dm dö la le lm lö 0,0000 100.000,000 3,5876 0,0000 0,0000 0,0000 3,5876 96.170,9164 2.908,1113 58,2237 862,7486 0,0001 99.996,412 1.769,5190 1.762,1357 0,0000 0,0000 7,3833 96.170,9164 2.908,1113 58,2237 859,1611 0,0004 98.226,893 13.265,2215 13.223,4834 0,0000 0,0000 41,7381 94.408,7808 2.908,1113 58,2237 851,7777 0,0023 84.961,672 33.924,3033 33.727,3654 0,0000 0,0000 196,9379 81.185,2974 2.908,1113 58,2237 810,0396 0,0039 51.037,369 23.483,4954 23.281,0573 0,0000 1,8256 200,6125 47.457,9320 2.908,1113 58,2237 613,1017 0,0050 27.553,873 11.112,0956 10.970,4546 0,0000 4,0210 137,6199 24.176,8747 2.908,1113 56,3981 412,4892 0,0058 16.441,778 6.100,3481 5.983,4613 10,7085 10,1546 96,0237 13.206,4201 2.908,1113 52,3770 274,8693 0,0074 10.341,430 4.115,9094 3.993,0504 33,0296 12,8270 77,0024 7.222,9588 2.897,4028 42,2224 178,8456 0,0100 6.225,520 3.847,5812 2.279,7566 1.491,7844 13,8309 62,2093 3.229,9084 2.864,3732 29,3954 101,8432 0,0132 2.377,939 1.769,7856 817,8324 908,9584 11,5978 31,3970 950,1518 1.372,5888 15,5645 39,6339 0,0110 608,153 478,5416 115,0954 353,8404 2,9449 6,6610 132,3194 463,6304 3,9666 8,2369 0,0099 129,612 106,5923 14,9654 89,5883 0,7603 1,2783 17,2240 109,7901 1,0217 1,5759 0,0101 23,019 19,6125 1,9233 17,2492 0,2070 0,2330 2,2586 20,2018 0,2614 0,2976 0,0147 3,407 2,9867 0,3050 2,5850 0,0465 0,0502 0,3353 2,9526 0,0544 0,0646 0,0278 0,420 0,3770 0,0257 0,3344 0,0051 0,0117 0,0303 0,3676 0,0079 0,0144 0,0490 0,043 0,0395 0,0046 0,0310 0,0018 0,0021 0,0046 0,0332 0,0027 0,0027 0,1258 0,004 0,0034 0,0000 0,0021 0,0008 0,0005 0,0000 0,0022 0,0009 0,0006 0,4522 0,000 0,0003 0,0000 0,0001 0,0001 0,0001 0,0000 0,0001 0,0001 0,0001 Not: Burada a: nüfustan ayr lmay , e: emeklili!i, m: maluliyeti ve ö: ölümü ifade etmektedir. Bu durumda, qe emeklilik nedeniyle nüfustan ayr lma olas l ! n göstermektedir. Yuvarlamadan dolay baz say lar s f r olarak gözükmektedir. Çizelge 1. incelendi!inde çal makta olan kad n sigortal lar n bir y l içerisinden sistemden ayr lma olas l klar emekli olma, malul olma ve ölme olas l klar ndan yüksektir. 40-44 ya grubundaki ki ilerin çal an nüfusundan ayr lma olas l klar %62’dir. 50-54 ya grubundaki çal makta olan ki iler için emeklilik nedeniyle nüfustan ayr lma olas l ! %58’dir. 45-49 ya grubundaki çal makta olan kad nlardan, %39,96 s bu ya grubundan sonra sistemden ayr lmakta, %57,52 si emekli olmakta, %0,65 i malul ayl ! almakta ve % 1,67 si ölüm nedeni ile nüfustan azalmaktad r. Çizelge 2. 2008 – Erkek emeklilik modeli çoklu azalan ya!am tablosu Ya! qx qa qe qm 0-4 5-9 10-14 15-19 20-24 25-29 30-34 35-39 40-44 45-49 50-54 55-59 60-64 65-69 70-74 75-79 80-84 85+ 0,0001 0,0001 0,0915 0,4765 0,5861 0,5196 0,4746 0,4656 0,4823 0,8764 0,9309 0,9447 0,9558 0,9646 0,9717 0,9774 0,9819 1,0000 0,0000 0,0000 0,0911 0,4729 0,5806 0,5133 0,4661 0,4492 0,4273 0,3619 0,3802 0,2490 0,2143 0,0628 0,0808 0,1188 0,2158 0,3043 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0009 0,0057 0,0387 0,4954 0,5212 0,6672 0,7014 0,8454 0,7939 0,6544 0,2988 0,1304 0,0000 0,0000 0,0000 0,0000 0,0000 0,0003 0,0009 0,0018 0,0029 0,0035 0,0074 0,0079 0,0158 0,0279 0,0498 0,0982 0,2324 0,2174 qö lx dx da de dm dö la le lm lö 0,0001 100.000,000 8,2616 0,0000 0,0000 0,0000 8,2616 98.117,0400 916,8922 37,7589 928,3089 0,0001 99.991,738 8,8338 0,0000 0,0000 0,0000 8,8338 98.117,0400 916,8922 37,7589 920,0474 0,0004 99.982,905 9.149,7358 9.108,5414 0,0000 0,0000 41,1944 98.117,0400 916,8922 37,7589 911,2136 0,0036 90.833,169 43.281,3672 42.956,6407 0,0000 0,0000 324,7264 89.008,4986 916,8922 37,7589 870,0192 0,0054 47.551,802 27.867,8423 27.608,5085 0,0000 1,4874 257,8464 46.051,8578 916,8922 37,7589 545,2928 0,0060 19.683,959 10.226,9498 10.104,0723 0,0000 5,4043 117,4731 18.443,3493 916,8922 36,2715 287,4464 0,0068 9.457,010 4.488,2234 4.407,4584 8,2294 8,1772 64,3584 8.339,2770 916,8922 30,8672 169,9732 0,0090 4.968,786 2.313,5482 2.231,9974 28,1533 8,7534 44,6441 3.931,8186 908,6628 22,6901 105,6148 0,0134 2.655,238 1.280,6296 1.134,6559 102,7206 7,7672 35,4859 1.699,8212 880,5095 13,9367 60,9707 0,0156 1.374,608 1.204,7342 497,5151 680,9486 4,8036 21,4668 565,1653 777,7889 6,1694 25,4848 0,0221 169,874 158,1390 64,5871 88,5307 1,2619 3,7593 67,6501 96,8403 1,3658 4,0179 0,0206 11,735 11,0866 2,9222 7,8297 0,0927 0,2420 3,0630 8,3096 0,1038 0,2586 0,0243 0,649 0,6199 0,1390 0,4549 0,0103 0,0158 0,1408 0,4799 0,0111 0,0166 0,0286 0,029 0,0277 0,0018 0,0242 0,0008 0,0008 0,0019 0,0251 0,0009 0,0009 0,0471 0,001 0,0010 0,0001 0,0008 0,0001 0,0000 0,0001 0,0008 0,0001 0,0001 0,1060 0,000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,2349 0,000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,3479 0,000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 Not: Burada a: nüfustan ayr lmay , e: emeklili!i, m: maluliyeti ve ö: ölümü ifade etmektedir. Bu durumda qe emeklilik nedeniyle nüfustan ayr lma olas l ! n göstermektedir. Yuvarlamadan dolay baz say lar s f r olarak gözükmektedir. Çizelge 2. incelendi!inde, erkek çal makta olanlar n y l içerisinden sistemden ayr lma olas l klar , kad n çal anlar n sonuçlar gibi di!er nedenlere göre yüksektir. 40-44 ya grubundaki ki ilerin çal an nüfusundan ayr lma olas l klar %48’dir. 50-54 ya grubundaki çal makta olan ki iler için emeklilik nedeniyle nüfustan ayr lma olas l ! %52’dir. 45-49 ya grubundaki erkek çal makta olan ki ilerden, %41,11 i bu ya grubundan sonra sistemden ayr lmakta, %56,58 i emekli olmakta, %0,45 i malullük ayl ! almakta ve % 1,85 i ölüm nedeni ile nüfustan azalmaktad A a! daki ekillerde i ten ayr lmalar n say s n n göreceli olarak di!er nedenlerden daha yüksek olmas nedeniyle ayr lma d nda emeklilik, malullük ve ölüm nedenleri ile çal makta olan nüfustan azal lar n say lar na ili kin da! l mlar rekil 5. ve rekil 6.’da kar la t r lm t r. Emekli, Malul ve Ölen Ki!i S ay lar - 2008 Erkek Emekli, Malul ve Ölen Ki!i S ay lar - 2008 Kad n 3500 3000 2500 2000 1000 1500 1000 500 0 400 800 600 200 Ya" Grubu Ya" Grubu Emeklilik Maluliyet 9 15 -1 9 25 -2 9 35 -3 9 45 -4 9 55 -5 9 65 -6 9 75 -7 9 85 + 5- 59 15 -1 9 25 -2 9 35 -3 9 45 -4 9 55 -5 9 65 -6 9 75 -7 9 85 + 0 0 0 Emeklilik Ölüm Maluliyet Ölüm Bekil 5. l x (Emekli, Malul, Ölüm) Say lar - Kad n Bekil 6. l x (Emekli, Malul, Ölüm) Say lar - Erkek 5. Sonuç ve Öneriler Hizmet akdine ba!l olarak çal makta olan zorunlu sigortal lar n davran lar dinamik bir yap göstermektedir. Bu nedenle kurulacak bir çoklu azalan emeklilik modeline yönelik sa!l kl sonuçlara ula abilmek için baz durumlar n verilerden etkisinin yok edilmesi gerekmektedir. Ölüm ya da maluliyet gibi durumlarda bildirim de bulunulmamas gibi durumlar, sigortal lar n kay tlar n n ve bildirimlerinin güvenilirli!i, sigortal n n ilgili y lda durum de!i ikli!inin gerçekle mesi ancak ayl k ba!lama i inin bir sonraki y la devredilmesi gibi durumlar incelenmelidir. Bu gibi kay t yetersizlikleri hesaplama sonuçlar n do!rudan etkileyecektir. Bu nedenle, belirli bir dönemde i e ba lam olan sigortal lar n, uzun bir dönemde hangi nedenlerle çal an nüfustan azald klar na dair sa!l kl veriler derlenmelidir. Çal ma sonucunda, çoklu azalan emeklilik modeli için çoklu azalan ya am tablosu olu turulmu tur. Çal makta olan sigortal lar n ya ve cinsiyete göre, 5 q x - Çal makta olanlar n herhangi bir nedenden dolay sistemden (1) 5 q x - Çal makta olan ki ilerin nüfustan ç kma olas l klar , ( 2) - Emekli olma nedeni ile sistemden ç kma olas l klar , 5qx ( 3) 5 q x - Malul olma nedeni ile sistemden ç kma olas l klar ve ( 4) - Ölüm nedeni ile sistemden ç kma olas l klar bulunmu tur. 5qx 312 ayr lma/ç kma olas l klar , Ayr ca ya ve cinsiyet baz nda 2008 y l çal makta olan sigortal lar n beklenen aktif çal ma sürelerine, 5 e (x0 ) , ili kin tahminler elde edilmi tir. Bu sonuçlar Çizelge 3.’te sunulmu tur. Çizelge 3. incelendi!inde 0-4 ya lar ndaki bir erkek sigortal için beklenen aktif çal ma süresinin 21 y l oldu!u, 0-4 ya lar n ndaki bir kad n sigortal için beklenen aktif çal ma süresinin 23 y l oldu!u görülmektedir. Yine 45-49 ya grubundaki çal makta olan erkek sigortal lar n ortalama 3 y l aktif olarak, kad n sigortal lar n ortalama 4 y l aktif olarak çal maya devam ettikten sonra, çal an nüfustan, i ten ayr lma, emekli olma, malul olma ya da ölüm gibi nedenlerden dolay azalmas beklenmektedir. Çizelge 3. Çal !makta olan sigortal lar n beklenen aktif olarak çal !ma süreleri - 2008 Çal !makta Olan Sigortal lar n Beklenen Aktif Çal !ma Süreleri (ex) Ya! 0-4 5-9 10-14 15-19 20-24 25-29 30-34 35-39 40-44 45-49 50-54 55-59 60-64 65-69 70-74 75-79 80-84 85+ Kad n 22,53 17,53 12,81 9,36 8,82 9,17 8,65 7,21 5,20 4,28 3,94 3,68 3,49 3,32 3,19 3,10 3,21 6,54 Erkek 21,47 16,47 11,47 7,34 6,60 7,33 7,50 6,92 5,61 3,34 3,02 2,94 2,87 2,81 2,77 2,73 2,73 6,54 Kaynaklar [1] Daniel, J. W., (1993), Multiple-Decrement Models and Corresponding Conditional Single-Decrement Models, Actuarial Research Clearing House, Vol. 1, 229-237. [2] Gjonca, A., (2006), Training on Preparing a Life Table for Turkey, Project Completion Report, Etortop/PMT/ACP-2/FWC/20. [3] Haberman, S., (1983), Decrement Tables and The Measurement of Morbidity: I, JIA 110, 361-381. [4] Haberman, S., (1984), Decrement Tables and The Measurement of Morbidity: II, JIA 110, 361-381. [5] Land, C., Yang Y. and Yi, Z., (2004), Mathematical Demography. [6] Lecture Notes on Multiple Decrement Models, www.math.uconn.edu/~valdez/math288s08/Math288Weeks3to5.pdf, 2009 [7] Lecture Notes on Multiple State Models, http://www.math.uconn.edu/~valdez/math288s08/Math288Weeks5to6annot.pdf, 2009 [8] Shavelle, R. And Strauss, D., (1999), A Long Period Multistate Life Table Using Micro Data, Mathematical Population Studies, Vol, 7(2), pp. 161-177. [9] Scott, A., (1990), A Note On Life Table and Multiple - Decrement Life Table Functions, JIA 117, 671675. [10] Schoen, R., (1975), Constructing Increment-Decrement Life Tables. Demography, 12(2):313–324. [11] Schoen, R., (1988), Practical uses of multistate population models, Annual Review of Sociology, 14:341-361. 313 [12] Skoog, G. R. And Ciecka J. E., (2007), Worklife Expectancy Via Competing Risks/Multiple Decrement Theory With an Application to Railroad Workers, Journal of Forensic Economics, 19 (3), 243-260. [13] Smith, D. P., (1992), Formal Demography, Plenum, 139-183. [14] Preston, S. Heuveline, P., Guillot, M., (2001), Demography, Measuring and Modelling Population Processes, Blackwell, p. 71-91 [15] Waters H. R. (1984), An approach to the Study of Multiple State Models, SSA III, 363-374. [16] Waters, H. R., Phil D. And Wilkie, A. D., (1987), A Short on the Construction of Life Tables and Multiple Decrement Tables, JIA, 114, 569-580. 314 ki De!i kenli Ba! ml Birle ik Poisson Sürecinin Olas l k Fonksiyonu Gamze ÖZEL Ceyhan NAL Hacettepe Üniversitesi statistik Bölümü 06800-Beytepe, Ankara, Türkiye gamzeozl@hacettepe.edu.tr Hacettepe Üniversitesi statistik Bölümü 06800-Beytepe, Ankara, Türkiye ceyhan@hacettepe.edu.tr 1. Giri! {N t , t 8 0} , homojen ya da homojen olmayan Poisson süreci olsun. t zaman do!rusu boyunca ortaya ç kan her olaya X1 , X 2 , X 3 ,... ile gösterilen ayn da! l ml , ba! ms z (kesikli ya da sürekli) raslant de!i kenleri ba!lans n ve bu raslant de!i kenleri {N t , t 8 0} sürecinden de ba! ms z olsunlar. Buna göre, St = Nt "X (1) i i =1 biçiminde tan mlanan {S t , t 8 0} sürecine birle ik Poisson süreci ad verilir. Birle ik Poisson süreci hem olas l k kuram nda hem de biyoloji, sismoloji, risk kuram , meteoroloji gibi birçok uygulama alan nda önem ta maktad r. S t ’nin olas l k fonksiyonu olan p St (s) ’yi elde etmek güçtür. Ancak, p St (s) ’nin yinelemeli e itliklere dayanmayan kapal biçimi, {N t , t 8 0} ’nin D parametresi ile homojen Poisson süreci oldu!u ve X i , i = 1, 2, 3,..., raslant de!i kenlerinin kesikli oldu!u durum için Özel ve nal [3] taraf ndan elde edilmi tir. {N t , t 8 0} , D parametresi ile homojen Poisson süreci; X i , i = 1, 2,..., N t , ayn da! l ml , ba! ms z ve kesikli raslant de!i kenleri; Yi , i = 1, 2,..., N t , ayn da! l ml , ba! ms z ve kesikli raslant de!i kenleri olsun. X i ve Yi , i = 1, 2,..., N t , raslant de!i kenleri {N t , t 8 0} sürecinden de ba! ms z olmak üzere S(t1) = Nt "X i , S(t 2) = i =1 Nt "Y . (2) i i =1 biçiminde tan mlanan {S(t1) , t 8 0} ve {S(t1) , t 8 0} birle ik Poisson süreçleri iki de!i kenli ba! ml birle ik Poisson sürecini olu tururlar. E itlik (2)’de ba! ml l k {N t , t 8 0} sürecinden kaynaklanmaktad r. Ba! ml birle ik Poisson süreçleri özellikle aktüeryal çal malarda portföydeki poliçelerin birbirine ba! ml olmas durumunda ele al nmaktad r [2, 6, 7]. Ancak, bu çal malarda S(t1) ve S(t 2 ) ’nin bile ik olas l k fonksiyonu olan p S(1) , S( 2 ) (s1 , s 2 ) ’nin kapal biçimine ula lamam t r. Bu çal mada, iki t de!i kenli ba! ml t birle ik Poisson sürecinin bile ik olas l k fonksiyonunun elde edilmesi 315 amaçlanm t r. Bu amaçla kinci Bölüm’de S t ’nin olas l k fonksiyonu üzerinde durulmu ; Üçüncü Bölüm’de S(t1) ve S(t 2 ) ’nin bile ik olas l k fonksiyonuna ula lm ve bu fonksiyona ili kin say sal örnekler verilmi tir. Dördüncü Bölüm, tart ma ve sonuca ayr lm t r. 2. S t ’nin Olas l k Fonksiyonu {N t , t 8 0} , D parametresi ile homojen Poisson süreci oldu!u ve X i , i = 1, 2, 3,..., kesikli raslant de!i kenleri için P(X i = k ) = p k , k = 0, 1, 2, ..., olmak üzere St ’nin olas l k fonksiyonu, pS t (s) = e Dt + (D t ) n P(X1 + X 2 + ... + X n = s / N t = n ) , n = 0 n! " = 0, s = 0, 1, 2, ... (3) ö.d. biçiminde yaz labilir. Ancak E itlik (3)’ten olas l klara ula mak güç oldu!undan Panjer [4] a a! daki yinelemeli e itlikler önerilmi tir: p St (0) = e Dt [1 P ( X =0 ) ] pS t (s) = Dt s k "sp k =1 , X ( k ) pS t (s k ) , s 8 1 . (4) E itlik (4)’teki yinelemeli e itlikler s’nin büyük de!erleri için uzun hesaplamalar gerektirmektedir. Özel ve nal [3], {N t , t 8 0} , D parametresi ile homojen Poisson süreci ve X i , i = 1, 2, 3, ..., raslant de!i kenlerinin P(X i = k ) = p k , k = 0, 1, 2, ..., olas l klar ile kesikli oldu!u durum için P(S t = s) , s = 0, 1, 2,..., olas l klar n için a a! daki gibi elde etmi lerdir: p S t ( 0) = e Dt (1 p 0 ) pS t (1) = e Dt (1 p 0 ) p S t ( 2) = e Dt (1 p 0 ) p St (3) = e Dt (1 p 0 ) p S t ( 4) = e Dt (1 p 0 ) pS t (5) = e Dt (1 p 0 ) + , (D1t ) , 1! (D1t ) 2 (D 2 t ) + , 2! 1! (D1 t ) 3 (D1 t )(D 2 t ) (D 3 t ) + + , 3! 1!1! 1! (D1t ) 4 (D1t ) 2 (D 2 t ) (D1t )(D 3 t ) (D 2 t ) 2 (D 4 t ) + + + + , 4! 2!1! 1!1! 2! 1! (5) (D1t )5 (D1t )3 (D 2 t ) (D1t ) 2 (D 3 t ) (D1t )(D 2 t ) 2 (D1t )(D 4 t ) (D 2 t )(D 3 t ) + + + + + 5! 3!1! 2!1! 1! 2! 1!1! 1!1! (D 5 t ) , 1! M Burada k = 0, 1, 2,... için, D k = Dp k ’d r. 316 E itlik (5)’te verilen olas l klar incelendi!inde, kö eli parantez içindeki terimlerin tamsay parçalanmalar na ba!l oldu!u görülmü tür. Örne!in, s = 5 , {1,1,1,1,1}, {1,1,1,2}, {1,2,2}, {1,1,3}, {2,3}, {1,4}, {5} olmak üzere yedi farkl biçimde parçalanmaktad r. Bu parçalanmalardan yararlanarak Oracle program nda P (St = s) , s = 0, 1, 2,..., olas l klar n hesaplayan bir program yaz lm t r. 3. S (t1) ve S (t 2 ) ’nin Bile!ik Olas l k Fonksiyonu Baz durumlarda birden çok birle ik Poisson sürecinin birlikte incelenmesi gerekebilir. Örne!in sigorta irketleri, hem konut hem de ta t sigortal bireylerin bir deprem sonucundaki zararlar n hesaplarken her iki poliçeyi birlikte incelemelidir. Bu bölümde, E itlik (2)’de verilen S(t1) ve S(t 2 ) ’nin bile ik olas l k fonksiyonunun elde edilmesi amaçlanm t r. Bu nedenle öncelikle Ambagaspitiya [1] ve Sundt [5] taraf ndan yap lan pS , S (s1 , s 2 ) ile ilgili önceki çal malar incelenmi ve p S , S (s1 , s 2 ) ’nin kapal 1 1 2 2 biçimine ula lamad ! ancak yinelemeli baz e itliklerin verildi!i görülmü tür. Ambagaspitiya [1] taraf ndan yap lan çal mada, Xi ve Yi , i = 1, 2,..., N ’nin bile ik olas l k fonksiyonunun p X , Y (k , j) ve N raslant de!i keninin D parametresi ile Poisson da! l ml olmas durumunda pS 1 , S2 (s1 , s 2 ) ’nin a a! daki e itlikleri sa!lad ! gösterilmi tir: pS1 ,S 2 (0,0) = exp[D(p 0 q 0 1)] , pS1 ,S 2 (s1 , s 2 ) = D pS1 ,S 2 (s1 , s 2 ) = D s1 s2 k "" s k =1 j =1 s1 s2 1 j "" s k =1 j =1 2 pS1 ,S 2 (s1 k , s 2 j)p X , Y ( k, j) , s1 8 1 pS1 ,S 2 (s1 k , s 2 j)p X , Y (k , j) , s2 8 1 . (6) Burada, P( X = 0) = p 0 ve P( Y = 0) = q 0 olarak tan mlanm t r. Sundt [5] taraf ndan E itlik (6)’ya seçenek olarak a a! daki e itlik önerilmi tir: pS1 ,S 2 (s1 , s 2 ) = D s1 s2 "" k =1 j =1 k+j pS1 ,S 2 (s1 k , s 2 s1 + s 2 j)p X , Y (k , j) . (7) E itlik (6) ve E itlik (7)’den iki de!i kenli ba! ml birle ik Poisson da! l m na ait olas l klara ula mak s1 ve s 2 ’nin büyük de!erleri için güç oldu!undan E itlik (2)’de verilen iki de!i kenli birle ik Poisson sürecine ili kin olas l klara ula mak da güçle mektedir [8]. Bu çal mada, S(t1) ve S(t 2 ) ’nin bile ik olas l k fonksiyonuna ula abilmek için P( X i = k ) = p k , k = 1, 2,..., m ve P (Yi = j) = q j , j = 1, 2,..., r, olarak al nm ve p S(1) ,S( 2 ) (s1 , s 2 ) = P(S (t1) = s1 , S (t 2 ) = s 2 ) t t =P Nt " i =1 X i = s1 , Nt "Y = s i 2 i =1 317 = " P( N t = n )P n " X i = s1 , i =1 n n "Y = s i 2 i =1 = P( N t = 0) + P( N t = 1) P(X1 = s1 , Y1 = s 2 ) + P ( N t = 2)P(X1 + X 2 = s1 , Y1 + Y2 = s 2 ) + P ( N t = 3)P( X1 + X 2 + X 3 = s1 , Y1 + Y2 + Y3 = s 2 ) + ... = P( N t = 0) + P( N t = 1)P(X1 = s1 )P(Y1 = s 2 ) + P( N t = 2) P(X1 + X 2 = s1 ) P(Y1 + Y2 = s 2 ) (8) + P( N t = 3)P(X1 + X 2 + X 3 = s1 )P(Y1 + Y2 + Y3 = s 2 ) + ... elde edilmi tir. Buradan, S(t1) ve S(t 2 ) ’nin bile ik olas l k yarat c fonksiyonu, gS(1) ,S( 2 ) (z1 , z 2 ) = t t + + + """ s2 n =0 s1 = + = P(N t = n )P + "" P( N s1 s2 + + """ s1 s2 n =1 + + + + "Y = s i z1s1 zs22 i=1 n " X i = s1 , i =1 t 2 n "Y = s i 2 z1s1 z s22 i =1 = 0)[P(S(t1) = 0, S(t 2 ) = 0) / P(N t = 0)] z10 z 02 s2 + + """ s1 n = 0)[P(S(t1) = s1 , S(t 2 ) = s 2 ) / P(N t = 0)]z1s1 z s22 t P(N t = n )P "" P( N s1 " X i = s1 , i=1 + + n P(N t = n )P s2 n =1 n " i =1 = P( N t = 0) + P( N t = 1) + + + "" P(X s1 1 n "Y = s i 2 z1s1 z s22 i =1 + "" P(X s1 + P ( N t = 2) X i = s1 , 1 = s1 )P(Y1 = s 2 )z1s1 z s22 s2 + X 2 = s1 ) P(Y1 + Y2 = s 2 )z1s1 z s22 + ... s2 = P( N t = 0) + P( N t = 1)g X (z1 )g Y (z 2 ) + P( N t = 2)[g X (z1 )] [g Y (z 2 )] + ... (9) 2 2 biçiminde yaz lm t r. N t raslant de!i keninin olas l k yarat c fonksiyonunun, g N t (z) = + " P( N t = i ) z i = e Dt ( z 1) (10) i =0 oldu!u dü ünüldü!ünde, g S(1) ,S( 2 ) (z1 , z 2 ) = g N t [g X (z1 )g Y ( z 2 )] t (11) t 318 yaz labilece!i görülmü tür. Buna göre, E itlik (11)’den, g S(1) ,S( 2 ) (z1 , z 2 ) = e Dt[ g X ( z1 ) g Y ( z 2 ) t 1] t =e Dt Dt [ g X ( z1 ) g Y ( z 2 )] =e Dt Dt ( p0 + p1z1 +...+ p m z1m )( q 0 +q1z 2 +...+q r z r2 ) =e Dt Dt ( p0q 0 + p0q1z 2 +...+ p 0q r z r2 + p1q 0z1 + p1q1z1z 2 +...+ p1q r z1z r2 + p mq 0z1m +...+ p mq r z1mz r2 ) e e e (12) bulunmu tur ve p s(1) ,s( 2 ) (s1 , s 2 ) bile ik olas l k fonksiyonuna ula mak için a a! da verilen e itlikten t t yararlan lm t r: s1 +s 2 g S(1) ,S( 2 ) (z1 , z 2 ) t P (S(t1) = s1 , S(t 2 ) t z1s1 z s22 s1! s 2 ! = s2 ) = z1 = z 2 = 0 . (13) Buna göre, P(S(t1) = 0, S(t 2 ) = 0) olas l ! a a! daki gibi yaz labilir: P (S (t1) = 0, S(t 2) = 0) = g S(1) ,S( 2 ) (0, 0) = e t t Dt Dtp o q 0 e = e Dt ( p o q 0 1) . (14) E itlik (13)’ten elde edilen baz olas l klar, P (S(t1) = 0, S(t 2 ) = 1) = e Dt ( poq0 1) P(S(t1) = 0, S(t 2) = 2) = e Dt ( poq0 1) P (S(t1) = 0, S(t 2) = 3) = e Dt ( poq0 1) P (S(t1) = 1, S(t 2) = 0) = e Dt ( poq0 1) P(S(t1) = 2, S(t 2 ) = 0) = e Dt ( poq0 1) P (S(t1) = 3, S(t 2) = 0) = e Dt ( poq0 1) P (S(t1) = 1, S(t 2 ) = 1) = e Dt ( poq0 1) (Dtp 0 q1 ) , 1! (Dtp 0 q1 ) 2 (Dtp 0 q 2 ) , + 2! 1! (Dtp 0 q1 ) 3 (Dtp 0 q 2 )(Dtp 0 q1 ) (Dtp 0q 3 ) , + + 3! 1!1! 1! (Dtp1q 0 ) , 1! (Dtp1q 0 ) 2 (Dtp 2 q 0 ) , + 2! 1! (Dtp1q 0 ) 3 (Dtp 2 q 0 )(Dtp1q 0 ) (Dtp 3q 0 ) , + + 3! 1!1! 1! (Dtp1q 0 )(Dtp 0 q1 ) (Dtp1q1 ) + , 1!1! 1! 319 (15) P (S(t1) = 1, S(t 2) = 2) = e Dt ( poq0 1) P(S(t1) = 1, S(t 2 ) = 3) = e Dt ( poq0 1) + (Dtp1q 0 )(Dtp 0 q1 ) 2 (Dtp1q1 )(Dtp 0 q1 ) (Dtp1q 0 )(Dtp 0 q 2 ) (Dtp1q 2 ) + + + , 2!1! 1!1! 1!1! 1! (Dtp1q 0 )(Dtp 0 q1 ) 3 (Dtp1q1 )(Dtp 0 q1 ) 2 (Dtp1q 0 )(Dtp 0 q 2 )(Dtp 0 q1 ) + + 1!3! 1!2! 1!1!1! (Dtp1q 2 )(Dtp 0 q1 ) (Dtp 0 q 3 )(Dtp1q 0 ) (Dtp1q1 )(Dtp 0 q 2 ) (Dtp1q 3 ) , + + + 1!1! 1!1! 1!1! 1! P (S(t1) = 2, S(t 2) = 1) = e Dt ( poq 0 1) (Dtp1q 0 ) 2 (Dtp 0 q1 ) (Dtp 2 q 0 )(Dtp 0 q1 ) (Dtp1q1 )(Dtp1q 0 ) (Dtp 2 q1 ) + + + 2!1! 1!1! 1!1! 1! biçiminde elde edilmi tir. 4. Say sal Örnekler Bu bölümde, iki de!i kenli ba! ml birle ik Poisson süreci ile ilgili say sal örnekler verilecektir. {N t , t 8 0} , D = 0.5 parametresi ile homojen Poisson süreci ve X i , k = 1, 2,..., m, raslant de!i kenlerinin µ = 0.75 ve Yi , j = 1, 2,..., r, raslant de!i kenlerinin = 0.5 ile Poisson da! l ml oldu!u durumda t = 2 için E itlik (15)’ten elde edilen olas l klar rekil 1’de gösterilmi tir. 0,5 0,4 P(S(t1) = s1 , S(t 2) = s 2 ) 0,3 0,2 0,1 0,0 0 1 2 s1 3 0 4 Bekil 1. D = 0.5 , µ = 0.75 , 1 2 3 4 s2 = 0.5 , t = 2 için olas l klar {N t , t 8 0} , D = 0.75 parametresi ile homojen Poisson süreci ve X i , k = 1, 2,..., m, raslant de!i kenlerinin = 0.85 ve Yi , j = 1, 2,..., r, raslant de!i kenlerinin G = 0.95 ile geometrik da! l ml oldu!u durumda t = 4 için E itlik (15)’ten elde edilen olas l klar rekil 2’de gösterilmi tir. P(S(t1) = s1 , S(t 2) = s 2 ) 0,6 0,5 0,4 0,3 0,2 0,1 0,0 0 Bekil 2. D = 0.75 , 1 2 s1 3 4 0 1 2 3 4 s2 = 0.85 , G = 0.95 , t = 4 için olas l klar 320 {N t , t 8 0} , D = 0.25 parametresi ile homojen Poisson süreci ve X i , k = 1, 2,..., m, raslant de!i kenlerinin µ = 0.25 ile Poisson da! l ml ve Yi , j = 1, 2,..., r, raslant de!i kenlerinin = 0.70 ile geometrik da! l ml oldu!u durumda t = 5 için E itlik (15)’ten elde edilen olas l klar rekil 3’te gösterilmi tir. 0,4 P(S(t1) = s1 , S(t 2) = s 2 ) 0,3 0,2 0,1 0,0 0 1 2 3 s1 Bekil 3. D = 0.25 , µ = 0.25 , 4 0 1 2 3 4 s2 = 0.70 , t = 5 için olas l klar {N t , t 8 0} , D = 0.25 parametresi ile homojen Poisson süreci oldu!u, X i , k = 1, 2,..., m, raslant de!i kenlerinin (m = 5, p = 0.3) ile ikiterimli (binom) da! l ma ve Yi , j = 1, 2,..., r, raslant de!i kenlerinin (l = 10, q = 0.6) ile ikiterimli da! l ma sahip oldu!u durumda t = 3 için E itlik (15)’ten elde edilen olas l klar rekil 4’te gösterilmi tir. P(S(t1) = s1 , S(t 2) = s 2 ) 0,8 0,7 0,6 0,5 0,4 0,3 0,2 0,1 0,0 0 1 2 s1 3 4 0 1 2 3 4 s2 Bekil 4. D = 0.25 , (m = 5, p = 0.3) , (l = 10, q = 0.6) , t = 3 için olas l klar {N t , t 8 0} , D = 0.10 parametresi ile homojen Poisson süreci ve X i , k = 1, 2,..., m, raslant de!i kenlerinin (m = 5, p = 0.8) ile ikiterimli (binom) da! l ml ve Yi , j = 1, 2,..., r, raslant de!i kenlerinin µ = 0.5 ile Poisson da! l ml oldu!u durumda t = 3 için E itlik (15)’ten elde edilen olas l klar rekil 5’te gösterilmi tir. P(S(t1) = s1 , S(t 2) = s 2 ) 0,8 0,7 0,6 0,5 0,4 0,3 0,2 0,0 0 1 2 3 s1 4 0 1 2 3 4 s2 Bekil 5. D = 0.10 , (m = 5, p = 0.8) , µ = 0.5 , t = 3 için olas l klar 321 Son olarak, {N t , t 8 0} , D = 0.75 parametresi ile homojen Poisson süreci ve X i , k = 1, 2,..., m, raslant de!i kenlerinin (m = 10, p = 0.2) ile binom da! l ml ve Yi , j = 1, 2,..., r, raslant de!i kenlerinin = 0.85 ile geometrik da! l ml oldu!u durumda t = 3 için E itlik (15)’ten elde edilen olas l klar rekil 6’da gösterilmi tir. P(S(t1) = s1 , S(t 2) = s 2 ) 0,10 0,05 0,00 0 1 s12 3 Bekil 6. D = 0.75 , (m = 10, p = 0.2) , 4 0 1 2 3 4 s2 = 0.85 , t = 3 için olas l klar 5. Sonuç ve tart !ma E itlik (2)’de verilen S(t1) ve S(t 2) ’nin bile ik olas l k fonksiyonu için genel bir formüle ula lm ve böylece bu sürecin çevrebilimi, sismoloji, risk kuram , biyoloji vb. birçok alanda etkin biçimde kullan labilece!i gösterilmi tir. Ayr ca, bu çal mada elde edilen sonuçlar yard m yla farkl ba! ml l k yap lar na sahip iki de!i kenli birle ik Poisson süreçlerine ili kin bile ik olas l k fonksiyonlar n n da bulunabilece!i görülmü tür. Anahtar sözcükler: Birle ik Poisson süreci; ki de!i kenli ba! ml birle ik Poisson süreci, Oracle veritaban . Kaynaklar [1] R. S. Ambagaspitiya, (1999), On the distributions of two classes of correlated aggregate claims, Insurance: Mathematics and Economics, 24, 301-308. [2] D. Homer, (2006), Aggregating bivariate claim severities with numerical Fourier Inversion, Casualty Actuarial Society Forum. [3] G. Özel, C. nal, (2008), The probability function of the compound Poisson process and an application to aftershock sequence in Turkey, Environmetrics, 19, 1, 79-85. [4] H. Panjer, (1981), Recursive evaluation of a family of compound distributions, ASTIN Bulletin 12 (1): 22–26. [5] B. Sundt, (1999), On multivariate Panjer recursions, ASTIN Bulletin, 29, 29-45. [6] R. Vernic, (2001), Evaluating the bivariate compound generalized poisson distribution, Annals of ^tiinp. University of Constanta, 9, 2, 181-192. [7] G. Wang, K. C. Yuen, (2005), On a correlated aggregate claims model with thinning-dependence structure, Insurance: Mathematics and Economics, 36, 456-468. [8] X. Wu, K. C. Yuen, (2003), A discrete-time risk model with interaction between classes of business, Insurance: Mathematics and Economics, 33, 117-133. 322 Abstract The probability function of bivariate dependent compound Poisson process Compound Poisson process plays very important roles both in probability theory itself and its applications in biology, seismology, risk theory, meteorology, etc. Bivariate dependent compound Poisson process can also be useful especially for actuarial science. However, the explicit probability of the bivariate dependent compound Poisson processes has not been derived yet. In this study, the probability function of the bivariate dependent compound Poisson proces is obtained and numerical examples are given. Keywords: Compound Poisson process; Bivariate dependent compound Poisson process; Oracle database. 323 Gamma müdahaleli ödüllü yenile sürecinin ergodik da< l m için zay f yak nsakl k üzerine Rovshan AL YEV KTÜ Fen Edebiyat Fakültesi statistik ve Bilgisayar Bilimleri Bölümü 61080, Trabzon aliyevrovshan@yahoo.com Tahir KHAN YEV TOBB Ekonomi ve Teknoloji Üniversitesi Endüstri Mühendisli!i Bölümü, 06560, Sö!ütözü, Ankara, tahirkhaniyev@etu.edu.tr Nurgül OKUR BEKAR KTÜ Fen Edebiyat Fakültesi Matematik Bölümü 61080, Trabzon nrgokur@gmail.com Özet Bu çal mada, kesikli ans kar ml bir ödüllü yenileme süreci ( X ( t ) ) incelenmi tir. Bu sürecin ergodik da! l m fonksiyonu bir yenileme fonksiyonu yard m yla ifade edilmi tir. Daha sonra, kesikli ans kar m n ifade eden O1 rasgele de!i keni ( , D ) , > 0 , D > 0 parametreli gamma da! l m na sahip olarak kabul edilmi tir. Bu varsay m alt nda WD ( t ) = D ( X ( t ) s ) stokastik sürecinin ergodik da! l m fonksiyonunun a * 0 iken bir asimptotik ifadesi elde edilmi tir. Ayr ca, WD ( t ) süreci için zay f yak nsama teoremi ispatlanm ve limit da! l m n n kesin ifadesi elde edilmi tir. Son olarak, yakla k formüllerin do!rulu!u Monte-Carlo simülasyon metodu ile test edilmi tir. Anahtar Kelimeler: Ödüllü yenileme süreci; kesikli #ans kar:#:m:; Laplace dönü#ümü; asimptotik aç:l:m; zay:f yak:nsakl:k; Monte-Carlo metodu. Abstract In this study, a renewal-reward process with a discrete interference of chance ( X ( t ) ) is investigated. The ergodic distribution of this process is expressed by a renewal function. Furthermore, we assume that the random variable O1 which describes the discrete interference of chance has a gamma distribution with parameters ( ,D) , > 0 , D > 0 . Under this assumption, an asymptotic expansion for the ergodic distribution of the stochastic process WD ( t ) = D ( X ( t ) s ) is obtained, as a * 0 . Moreover, the weak convergence theorem for the process WD ( t ) is proved and exact expression of the limit distribution is derived. Finally, the accuracy of the approximation formula is tested by Monte-Carlo simulation method. Keywords: Renewal-reward process; discrete interference of chance; Laplace transform; asymptotic expansion; weak convergence; Monte-Carlo method. 1. Giri! Ödüllü yenileme süreçleri klasik yenileme süreçlerinin bir genelle tirilmesidir. Bu nedenle yenileme süreçleri için elde edilmi büyük say lar kanunu ve merkezi limit teoremi, Blackwell ve anahtar yenileme teoremleri gibi klasik sonuçlar n benzerleri ödüllü yenileme süreçleri için de elde edilmi tir. Bunun yan s ra, bu alanda yap lm birçok çal mada ödüllü yenileme süreçlerinin karakteristikleri için asimptotik aç l mlar elde edilmi tir. Bunlardan k saca bahsedilecektir: 324 Brown ve Solomon [3], ödüllü yenileme sürecini a a! daki gibi ifade etmi lerdir: , t < X0 / 0 5 N( t) 1 C(t) = 0 , t80, 5 " Yi , t 8 X 0 1 i =0 burada {( X , Y ) , i = 0,1, 2,K} i i sahip rasgele de!i kenler, ba! ms z rasgele vektörlerin bir dizisi, ( Xi , Yi ) , i 8 1 ayn da! l ma {Xi , i = 0,1, 2,K} N(t) = min { j: S j > t} ’d r. Bu çal mada, j bir yenileme dizisi, S j = " X i , j = 0,1, 2,K ve {C(t), t 8 0} i =0 ödüllü yenileme sürecinin birinci ve ikinci momentleri için iki terimli asimptotik aç l m elde etmi lerdir. Ayr ca, {C(t), t 8 0} sürecinin varyans n n Var C(t) = ct + d + o(1) eklinde oldu!unu göstermi , burada c ve d’yi aç k olarak belirlemi lerdir. Bu alanda di!er önemli bir çal ma Alsmeyer [2] taraf ndan yap lm t r: n n i=0 i =0 Sn = " X i , U n = " Yi için {(S , U )} n n n 80 ortak toplam süreçtir ve burada ( X1 , Y1 ) , ( X 2 , Y2 ) , … birbirinden ba! ms z ve ayn da! l ma sahip olmak üzere, ( X 0 , Y0 ) , ( X1 , Y1 ) , … , birbirinden ba! ms z iki boyutlu rasgele vektörlerin bir dizisidir. Bu çal mas nda ( X 0 , Y0 ) ve ( X1 , Y1 ) üzerindeki uygun ko ullar alt nda, t * + iken T(t) = inf {n 8 0 : Sn > t} , t 8 0 olmak üzere, EU T( t ) , Var U T( t) ve Cov ( U T( t ) ,T(t) ) için asimptotik aç l m elde etmi tir. Ayn zamanda, benzer sonuçlar N(t) = sup {n 8 0 : Sn ! t} ve X 0 , X1 non-negatif olmak üzere, EU N( t) , Var U N( t) ve Cov ( U N( t ) , N(t) ) için de elde etmi tir. Ödüllü yenileme süreçlerinin en çok uyguland ! alanlardan biri de risk teorisidir. Alsmeyer’in çal mas ndaki X1 , X 2 ,… ve Y1 , Y2 , … kolektif risk teorisinde s ras yla sigorta ödemeleri aras ndaki zamanlar , sigorta ödemelerinin miktar n göstermektedir. Literatürde {N(t)}t 8 0 , “sigorta ödemelerinin say s ” ve {U N( t ) } t 80 , “toplam sigorta ödemelerinin süreci” veya “risk süreci” olarak yer almaktad r. (bak, örne!in, Ross [7]). Csenki [1], retrospektif ödül yap l ödüllü yenileme sürecinin beklenen de!erinin asimptotikli!ini incelemi tir. Levy ve Taqqu [6], a! r kuyruklu da! l ma sahip bile enleri olan ödüllü yenileme sürecini incelemi lerdir. Jewell [13], yenileme sürecine gömülü ödüllü yenileme sürecinin de!i imlerini (fluctation) incelemi tir. Khaniyev [8], t * + iken TN( t ) genelle tirilmi yenileme sürecinin ilk üç momentini analitik ve asimptotik yöntemlerle incelemi tir Yukar da sözü edilen çal malar n ço!unda, bir ödüllü yenileme sürecinin karakteristikleri t * + iken baz ko ullar alt nda asimptotikli!i incelenmi tir. Biz ise, onlardan farkl olarak kesikli ans kar ml müdahaleli ödüllü yenileme sürecini inceleyece!iz. Model. Burada, a a! daki kurallarla çal an bir stok kontrol modeli ele al nacakt r: Varsayal m ki, bir depodaki stokun miktar ( X ( t ) ) t = 0 ba lang ç an nda X(0) P X 0 P s + v ’d r. Burada 0 < s < + olup, s’ ye stokun kontrol seviyesi denir. Ayr ca, varsayal m ki, depodaki stokun miktar ( X ( t ) ), önceden belirlenmi s kontrol seviyesinin alt na ininceye dek geçen rasgele anlar T1 ,T2 ,,...,Tn ,... ile ve bu rasgele anlardaki rasgele 325 miktardaki azalmalar ise •1 , • 2 , , ..., • n , ... ile gösterilirse, k saca depodaki stokun miktar ( X ( t ) ) a a! daki gibi de!i mektedir: X ( T1 ) P X1 = s+v •1 , X ( T2 ) P X 2 = s+v ( •1 + •2 ) ,..., X ( Tn ) P X n = s+v n "• i =1 i , n 81. Sürecin bu biçimde de!i mesine “do!al de!i im” denilebilir. X n < s oldu!u ilk anda ( &1 ), sistemin “do!al de!i imine” müdahale ederek, depodan stokun seviyesini ani olarak, s + Ž1 pozisyonuna getirilsin ve böylece sistemin çal mas n n birinci periyodu tamamlanm olsun. Daha sonra, sistemin yeni ba lang ç durumu olan Ž1 noktas ndan ba layarak “do!al de!i imini” birinci devredekine benzer biçimde sürdürsün. Stok miktar s kontrol seviyesinin alt na indi!i takdirde, sisteme birinci devredeki gibi müdahale edilerek, stokun seviyesi ani olarak s + Ž 2 pozisyonuna getirilsin ve süreç benzer ekilde devam etsin. Bu modeli ifade eden stokastik sürece diskret müdahaleli süreç denir. Not edilmelidir ki, O1 rasgele de!i keninin da! l m fonksiyonu uygun ekilde de!i tirilerek onlarca özel bariyerli yar -Markov süreç elde etmek mümkündür. Bu çal mada Ž1 , Ž 2 , K pozisyonlar n [ 0, + ) aral ! nda, gamma da! l ma sahip ba! ms z rasgele de!i kenler olarak kabul edilmektedir. Burada amaç, bu modeli ifade eden X ( t ) sürecini matematiksel olarak in a etmek ve sürecinin olas l k karakteristiklerini incelemektir. 2. Sürecin Matematiksel Kurulu!u {( 9 n , @n , O n )} , n 8 1 dizisi ( R, S, P ) olas l k uzay nda tan mlanm birbirinden ba! ms z ve ayn da! l ma sahip rasgele de!i kenlerin üçlüler dizisi olsun. 9i , @i ve O i rasgele de!i kenleri yaln z pozitif de!erler als n, ayr ca O i rasgele de!i keni ( , D) , > 0 , D > 0 parametreli gamma da! l m na sahip olsun. Buna ilaveten 9i , @i ve O i rasgele de!i kenlerinin kendi aralar nda ba! ms z olduklar varsay ls n. rasgele de!i kenler dizinden yaralanarak tan mlans n: n { Tn } ve { Sn } yenileme dizileri a a! daki gibi n Tn = " 9i , Sn = " @i , T0 = S0 = 0 , n = 1, 2,... . i =1 i =1 Ayr ca, tam de!erler alan { N n } , n 8 0 rasgele de!i kenler dizisi a a! daki gibi tan mlans n: N 0 = 0 , N 1 = N ( v ) = inf {k 8 1 : S k > v} , v > 0 ; { N n +1 = inf k 8 N n + 1: Sk } SN n > O n , n 8 1 , ve & n = TNn , n 8 0 , &0 = 0 ; C ( t ) = max{n 8 0 : Tn ! t}, t > 0 burada inf{T} = ++ art kabul edilmi tir. Bu notasyonlar göz önünde bulundurularak, a a! daki stokastik süreç in a edilsin: { X ( t ) = max s, s+Ž n } S• ( t ) + SN n , e!er z n ! t<z n +1 , n 8 0 , burada O 0 = s + v ve SC ( &n + 0 ) = SNn . Literatürde X ( t ) sürecine “Gamma Müdahaleli Ödüllü Yenileme Süreci” denilmektedir. 326 3. Sürecin Ergodikli<i Önerme 3.1 (Ergodiklik teoremi). Ba lang ç rasgele de!i kenler dizisi için ek olarak a a! daki ko ullar sa!las n: {(9 n , @ n , O n )}, n 8 1 , 1) E9 1< + , 2) E@ 1< + , 3) @1 rasgele de!i keni aritmetik olmayan bir rasgele de!i ken olsun. Bu takdirde, X(t ) süreci ergodiktir. Not: Genel ergodik teorem’in 2. k sm na göre (bak örne!in, Gihman, Skorohod [4], s.243), Önerme 3.1’in artlar sa!land ! nda, zaman ortalamalar t * + iken 1 olas l ! ile mekan ortalamas na (Sf ) yak nsayacakt r. Bu art a a! da önerme eklinde verilecektir. Önerme 3.2. Önerme 3.1’in ko ullar sa!land ! nda, her ölçülebilir s n rl f (x) fonksiyonu ( f : [ 0, ++ ) * R ) için a a! daki ba! nt 1 olas l ! ile do!rudur: ++ t 1 1 lim J f (t) P lim . f (X(u))du = Sf = t *+ t t *+ t 0 . . f (x) U @ (v) U @ (s + v x) d'(v)dx s 0 , + .U @ (3.1) (v)d'(v) 0 + burada U @ (x) = " Fn (x) ’d r. n =0 Not. Önerme 3.2’de f (x) fonksiyonunun yerine indikatör fonksiyonu yaz l r ve gereken sadele tirmeler yap l rsa, X ( t ) sürecinin ergodik da! l m fonksiyonu a a! daki gibi yaz labilir: EU @ (O1 + s x) Q X (x) = 1 , x 7 [s, + ) . (3.2)• EU @ (O1 ) rimdi X ( t ) := X ( t ) s olsun. Bu durumda, X ( t ) sürecinin ergodik da! l m fonksiyonu a a! daki gibi yaz labilir: EU @ (O1 x) Q X (x) = 1 . (3.3) EU @ (O1 ) rimdi, teorik ve baz durumlarda pratik yönden önemini göz önünde bulundurularak, X ( t ) sürecinin ergodik da! l m fonksiyonu için özel hallerde kesin formüller elde edilecektir. Örnek 3.1. Önerme 3.1’in ko ullar sa!land ! nda, X ( t ) sürecinin ergodik da! l m fonksiyonu mevcuttur. Bu durumda @1 rasgele de!i keni µ > 0 parametreli üstel da! l ma sahip, O1 rasgele de!i keni ( , D) parametreli gamma da! l m na sahip iken, her x 8 0 , sürecinin ergodik da! l m fonksiyonu a a! daki ekilde yaz labilir: 327 > 0 , D > 0 için X ( t ) µx g D+ µ Q X% (x) = 1 burada g ,D (x) = D x U( ) 1 e ,D (x) + 1 Dx , G ,D Dµx (1 G D+ µ (x) = x D v U( ) .0 1 e ,D ( x )) , Dv (3.4) dv , + U( ) = . x 1 e x dx Euler’in gamma fonksiyonudur. 0 Örnek 3.2. Önerme 3.1’in ko ullar sa!land ! nda, X ( t ) sürecinin ergodik da! l m fonksiyonu mevcuttur. Bu durumda @1 rasgele de!i keni µ > 0 parametreli Erlang da! l ma sahip, O1 rasgele de!i keni ( , D ) parametreli gamma da! l m na sahip iken, her x 8 0 , sürecinin ergodik da! l m fonksiyonu a a! daki ekilde yaz labilir: Q X (x) = 1 c µx g 2D D burada g ,D (x) = x U( ) c= , D (x) + 1 e Dx µ 3 + 2D 4 µx (1 G 2 (D + 2µ) , G ,D+ 2µ (x) = U( ) 4D (D + 2µ) (D + 2µ) (3D + 2µ ) + D +1 , D (x) ) + x .v 1 e D e2µx 4 D + 2µ ( D+ 2 µ )v > 0 , D > 0 için X ( t ) (1 G , D+ 2 µ (x) ) , (3.5) dv , 0 ’d r. Not. Örneklerden de görüldü!ü gibi, X(t) sürecinin da! l m fonksiyonu için kesin formüller elde edilmi tir. Fakat bu formüllerin karma k matematiksel yap lar ndan dolay , pratik problemlerin çözümlenmesinde kullan lmas zordur. Bu nedenle, pratikte daha kolay uygulanabilir formüllerin elde edilmesi gereksinimi vard r. Bu amaçla, a a! da @1 daha genel s n ftan al narak WD (t) = D (X(t) s) sürecinin ergodik da! l m fonksiyonu için D * 0 iken iki terimli asimptotik aç l m elde edilecektir. 4. Sürecin ergodik da< l m fonksiyonu için asimptotik aç l m rimdi, WD (t) = D (X(t) s) sürecinin ergodik da! l m fonksiyonunun D * 0 iken asimptotik davran incelenecektir. Bunun için öncelikle a a! daki yard mc teorem verilecektir: Yard mc Teorem. E!er g(x) ( g : R + * R ) fonksiyonu s n rl ve lim g(x) = 0 ise bu takdirde, her x *+ > 0 için a a! daki ba! nt do!rudur: + t lim . t 1e t g( )dt = 0 . D* 0 D 0 (4.1) Teorem 4.1. Önerme 3.1’in ko ullar alt nda D * 0 iken WD (t) sürecinin ergodik da! l m fonksiyonunun asimptotik aç l m , her x 8 0 için a a! daki gibi yaz labilir: m2 Q WD (x) = R (x) + (4.2) ( G (x) R (x) ) D + o(D) , 2m1 burada m k = E(@1k ) , k = 1, 2 ; R (x) = 1 x . (1 G (t) ) dt ; G (x) = 0 x 1 t U ( ) .0 1 e t dt ’d r. rimdi, WD ( x ) sürecinin ergodik da! l m fonksiyonu ( Q WD (x) ) için D * 0 iken zay f yak nsama teoremi verilecektir: 328 Teorem 4.2 (Zay f yak nsama teoremi). Teorem 4.1’in ko ullar alt nda her x 8 0 ve a a! daki sonuç do!rudur: x 1 lim Q WD (x) = R (x) P . (1 G (t) ) dt , D*0 > 0 için (4.3) 0 x burada G (x) = 1 t U ( ) .0 1 e t dt ’d r. 5. Simülasyon sonuçlar Bu k s mda, somut modeller için, Monte Carlo simülasyon yöntemini uygulayarak olas l k karakteristiklerinin hesaplanmas ve elde edilen sonuçlar n asimptotik sonuçlarla kar la t r lmas aç s ndan önemi olan simülasyon sonuçlar verilecektir. Bu nedenle, Ž1 ragele de!i keni ( 5,1) ve ( 5,0.5 ) parametreli gamma da! l m na ve @1 rasgele de!i keni ise ( 2,10 ) parametreli gamma da! l m na sahip rasgele de!i kenler olsun. Bunun yan s ra, WD ( t ) sürecinin ergodik da! l m fonksiyonunun Monte Carlo simülasyon yöntemi ile elde edilen de!erleri ise Q̂ WD ( x ) ile gösterilsin. Ayr ca, Teorem 4.1’de elde edilen asimptotik aç l m n ilk iki teriminin kesin de!erleri ise Q WD ( x ) ile i aret edilsin. S ras yla, ‘ k , ‚ k ve APk notasyonlar ise a a! daki gibi, WD ( t ) sürecinin ergodik da! l m fonksiyonunun asimptotik ifadesi ile simülasyon sonuçlar aras ndaki mutlak hatay , ba! l hatay ve do!ruluk yüzdelerini göstersin: ˆ ( x ) Q ( x ) ; ‚ = ‘ k 100% ve AP = 100 ‚ , k = 1, 2 . ‘k = Q WD WD k k k Q̂ WD ( x ) Bu durumda, baz hesaplamalar sonucunda a a! daki simülasyon sonuçlar n elde edilir: Tablo 1: D = 1 için simülasyon sonuçlar x Q̂ WD ( x ) Q WD ( x ) ‘1 ‚1 (%) AP1 (%) 0,2 0,4 0,6 0,8 1,0 1,2 1,4 1,6 1,8 2,0 0,03890 0,07770 0,11650 0,15530 0,19410 0,23280 0,27140 0,30975 0,34780 0,38535 0,038800063 0,077601225 0,116404990 0,155206876 0,193988040 0,232708602 0,271304393 0,309687006 0,347746650 0,385356902 0,0000999370 0,0000987749 0,0000950100 0,0000931239 0,0001119600 0,0000913983 0,0000956067 0,0000629945 0,0000533505 0,0000690164 0,256907457 0,127123456 0,081553624 0,059963884 0,057681748 0,039260430 0,035227236 0,020337200 0,015339410 0,001791006 99,74309254 99,87287654 99,91844638 99,94003612 99,94231825 99,96073957 99,96477276 99,97966280 99,98466059 99,99820899 Tablo 2: D = 0.5 için simülasyon sonuçlar x Q̂ WD ( x ) Q WD ( x ) ‘2 ‚ 2 (%) AP2 (%) 0,2 0,4 0,6 0,03936000 0,07874000 0,11815000 0,039400029 0,078800294 0,118198945 0,0000400289 0,0000602936 0,0000489455 0,10169942600 0,07657299600 0,04142657200 99,89830057 99,92342700 99,95857343 329 0,8 1,0 1,2 1,4 1,6 1,8 2,0 0,15754000 0,19692000 0,23618000 0,27528000 0,31411000 0,35255960 0,39049964 0,157585084 0,196931075 0,236187033 0,275278747 0,314108700 0,352559624 0,390499642 0,0000450844 0,0000110752 0,0000703335 0,0000125294 0,0000129951 0,0000237329 0,0000166158 0,02861776100 0,00562422100 0,00297796300 0,00045515200 0,00041371100 0,00000673161 0,00000425500 99,97138224 99,99437578 99,99702204 99,99954485 99,99958629 99,99999327 99,99999957 Sonuç olarak, tablolarda, sürecin 108 say da trajektoryas için Q̂ WD ( x ) ’ n asimptotik aç l mlar n do!rulu!u, Monte Carlo simülasyon metodu ile test edilerek elde edilmi tir. Tablolardan görüldü!ü gibi, D parametresinin çok küçük de!erleri için bile oldukça yüksek do!ruluk seviyesinde yakla k formüller elde edilmi tir. Örne!in, D = 1 parametresi için do!ruluk yüzdeleri ( APk ) %99’dan fazlad r. Kaynaklar [1] [2] [3] [4] [5] [6] [7] [8] [9] [10] [11] [12] [13] A.Csenki, (2000), Asymptotics for renewal-reward processes with retrospective reward structure. Oper. Res. Lett. 26, 201–209. G. Alsmeyer, (1988), Second-order approximations for certain stopped sums in extended renewal theory, Advances in Applied Probability, 20, 391–410. M. Brown, H. Solomon, (1975), A second-order approximation for the variance of a renewal reward process, Stochastic Proces. Appl. 3, 301–314. M.V. Federyuk, (1984), Asymptotics for Integrals and Series. Nauka, Moscow. I.I. Gihman and A.V.Skorohod (1975), Theory of stochastic processes II, Springer, Berlin. J.B. Levy, M.S. Taqqu, (2000), Renewal reward processes with heavy-tailed inter-renewal times and heavy-tailed rewards, Bernoulli 6(1), pp. 23–44. S.M. Ross, (1983), Stochastic Processes. New York: John Wiley & Sons. T.A. Khaniyev, (2005), About moments of Generalized renewal process, Transactions of NAS of Azerbaijan, Series of Phy. Tech. And Mth. Sciences, 25, 1, 95-100. T.A. Khaniyev and Z. Kucuk (2004), Asymptotic expansions for the moments of the Gaussian random walk with two barriers, Statistics & Probab. Letters, 69, 1, 91-103. T.A. Khaniyev and Z. Mammadova, (2006), On the stationary characteristics of the extended model of type (s,S) with Gaussian distribution of summands, Journal of Statistical Computation and Simulation, 76, 10, 861-874. T.A. Khaniyev, T. Kesemen, R.T. Aliyev and A. Kokangul, (2008), Asymptotic expansions for the moments of a semi-Markovian random walk with exponential distributed interference of chance, Statistics & Probability Letters, 78, 6, 785–793. W. Feller, (1971), Introduction to Probability Theory and Its Appl. II, J. Wiley, N.Y. W.S. Jewell, (1967), Fluctuation of a Renewal- Reward Process, Journal of Mathematical Analysis and Applications, 19, 309-329. 330 statistiksel Basit Do!um Sürecine Teorik Bir Yakla m Ahmet Kaya Seçil Yalaz Rojan Arcak Dicle Üniversitesi Fen-Edebiyat Fakültesi Matematik Bölümü 21280, Diyarbak:r, Türkiye ahmet.kaya@ege.edu.tr Dicle Üniversitesi Fen-Edebiyat Fakültesi Matematik Bölümü 21280, Diyarbak:r, Türkiye syalaz@dicle.edu.tr Dicle Üniversitesi Atatürk SaGl:k Hizmetleri Meslek Yüksek Okulu 21280, Diyarbak:r, Türkiye rarcak@dicle.edu.tr Özet Bu çal:#mada; ekonomik planlamalarda s:kl:kla kullan:lan basit doGum süreçleri, stokastik prosesin bir konusu ve ara#t:rma alan: olarak incelenmektedir. Basit doGum süreci, genelde poisson daG:l:#:na yakla#:m gösterilerek aç:klanmaya çal:#:l:r. Bu çal:#mada, doGum süreçlerinde sisteme yeni kat:l:mlar:n olmas: durumunda poisson daG:l:#:n:n geometrik daG:l:#a yak:nsad:G:n: gösteren teorik bir çal:#ma yap:lm:#t:r. Anahtar sözcükler: Basit doGum süreci, Poisson daG:l:#:, Geometrik DaG:l:# Abstract An Theoretical Approach to Statistical Basic Birth Process In this study, using in economical planning basic birth process is examined as a subject and investigation area of stocastic processes. Basic birth process, is generally defined as approaching to poisson distribution. A theoretical investigation has been constructed that poisson distribution approach to geometric distribution, in case of new participation to system of birth process. Keywords: Basic birth process, Poisson distribution, Geometric distribution. 1. Giri! Günümüzün ekonomik ko ullar , ülkeleri etkili nüfus planlamas na, güçlü bir o kadarda zorla t r lm sosyal güvenlik kanunlar n hayata geçirmeye zorlamaktad r. Bu sorun geli mekte olan ülkeler kadar, geli mi ülkelerin de sorunu haline gelmi güncel bir problemdir. Bu durumda bilimsel yöntem ve modellemelerden yoksun öngörüler, problemleri a! rla t rmaktan ba ka bir i e yaramamaktad r. Geli mi bat l ülkelerden biri olan Almanya’n n ve daha birçok zengin Avrupa ülkesinin bir numaral gündemi, nüfusu gerekti!i kadar ço!altmak, zenginlikle paralel yükselen ortalama ya am seviyesini, emeklilik ya ile uyumlu hale getirmektir. Bunu gerçekle tirmek için etkin bilimsel çal malara ve alternatifleri bulunan yöntemlere ihtiyaç duyulmaktad r. Nüfus planlamalar ve emeklilik sistemlerinin simüle edilmesinde kullan lan istatistiksel da! l lar n çok az ve adeta alternatifsiz olmalar nedeniyle, daha etkin öngörülerde bulunmak çok zor olmaktad r. Bu amaçla, çok s k biçimde kullan lan ve basit do!um süreçleri için adeta alternatifsiz bir durumda bulunan poisson da! l na teorik bir yakla m yaparak, yeni türevler elde etme yoluyla etkin çözümlere katk sa!layacak alternatiflerin bulunmas n n faydal olaca! dü ünülmü tür. 331 2. Poisson Süreci statistikte basit do!um süreçleri poisson da! l ndan faydalan larak aç klan r. Kesikli bir süreç olan poisson da! l binom ile birlikte birçok kesikli de!i ken için ana da! l özelli!i ta r. Bu durum; poisson sürecinin ayn zamanda sürekli da! l lara mesela normale yak nsamas n n bir sonucudur. Ancak üstel bir da! l olan poisson da! l n n di!er üstel da! l larda oldu!u gibi, üstel olmas ndan kaynaklanan olumsuzluklar ortadan kald rmak ve sa!lam temellere oturmas n sa!lamak amac yla, yeni türevler elde etmek alternatif yakla mlar için faydal olabilir. 3. Poisson Modeli Vt uzunluk ifadesi küçük bir zaman aral ! n , DVt , bir olay n gerçeklenme ya da gözlenme olas l ! n ifade etmi olsun. Bu durumda bir’den fazla gerçeklenmelerin ihmal edildi!i varsay lm t r. Bununla beraber, iki zaman aral ! nda meydana gelen gerçeklenmelerin bir birinden ba! ms z oldu!u kabul edilmektedir. Böylece; P (0, Vt ) = 1 DVt ve P (0, t + Vt ) = P (0, t ) P (0, Vt ) = P (0, t )(1 DVt ) gerçeklenmi olur. Bu e itlik yeniden düzenlenirse, P(0, t + Vt ) P(0, t ) = DP(0, t ) elde edilir. Vt dP (0, t ) ise, P (0, t ) birinci dereceden diferansiyel e itlik için P (0, t ) = e Dt elde dt edilmi olur. Bu durumda ba lang ç de!erleri kullan larak P (0,0) = 1 elde edilir. P (1, t ) için benzer Vt * 0 > diferansiyel e itlik çözülüp gerekli i lemler yap ld ! nda; P(1, t + Vt ) = P(1, t ) P(0, Vt ) + P(0, t ) P(1, Vt ) = P(1, t ) P(1 DVt ) + e Dt DVt Buradan, P(1, t + Vt ) P(1, t ) dP(1, t ) = = DP(1, t ) + De dt Vt Dt bulunur. Benzer ekilde devam edilirse; P (1, t ) = e Dt Dt bulunur. Böylece, P ( 2, t ), P (3, t ),..., P ( r , t ) elde edilebilir. Olas l k ifadeleri için genelleme yap l rsa, formül a a! daki formda elde edilir: P(r , t ) = e Dt (D t ) r r! (r = 0,1,2,...). W Böylece, sürecin poisson oldu!u do!rulanm bulunmaktad r. 332 4. Geometrik Da< l ! Arka arkaya n kez tekrarlanan bir bernoulli deneyi verilmi olsun. lk istenen sonucun elde edilmesi için yap lan deney say s x olsun. x ’e geometrik rassal de!i ken denir. Binom da! l m nda deney say s sabit, istenen sonuçlar n say s bir rassal de!i ken iken, geometrik da! l mdan istenen sonucun say s bire e it olmak üzere bir say , deneylerin say s ise bir rassal de!i kendir.(Aytaç, 1994: 317319). lk x 1 deneyin istenen sonucu vermemesi ve x ’inci deneyin istenen sonucu vermesi durumunda geometrik da! l m öyle tan mlan r. /(1 p) x 1 p P( x) = 0 10 x = 1,2,3,... Aksi halde Geometrik da! l n moment ç karan fonksiyonu; M (t ) = pe t biçiminde elde edilir. (1 e t (1 p)) 5.Basit Do<um Süreci Basit do!um süreçleri; nüfus art tahminlerinde, hayat sigortas modellemelerinde, sigortac l kta ve daha benzer birçok süreçte kullan lan bir istatistiksel modelleme ve tahmin yöntemidir. Bu sayede; nüfus art oranlar , sigorta sektöründe risk hesaplamalar , ekonomik planlama i lemleri, hayat sigortas stratejileri ve daha birçok planlama i lemi yap lmaktad r. statistiksel süreçlerde basit do!um süreçleri varsay mlar a a! daki gibidir: 1. [0, t ] aral ! içinde n ki ilik yerin bulundu!u kitlede, [t , t + Vt ] ’ye bir bireyin kat lma olas l ! ; DnVt + 0Vt ’dir. 2. [t , t + Vt ] ’de kitleye bir bireyin kat lma olas l ! 0Vt ’dir. 3. [t , t + Vt ] ’de kitleye s f r ki inin kat lma olas l ! 1- DnVt + nDVt + 0Vt biçimindedir. Bu durumda; t an nda, sistemde n ki inin bulunma olas l ! : Pn (t + Vt ) = {(n 1)DVt }Pn 1 (t ) + Pn (t ){1 nDVt + 0Vt} (2.1) Bu durumda, (2.1) e itli!i; Pn (t + Vt ) = Pn 1 (t )(n 1)DVt + Pn (t ) Pn (t )nD (Vt ) + 0Vt biçiminde elde edilir. 333 Pn (t + Vt ) Pn (t ) = (n 1)DPn 1 (t ) nDPn (t ) = D[(n 1) Pn 1 (t ) nPn (t )] Vt > P' n (t ) = D[(n 1) Pn 1 (t ) nPn (t ) olur. + P( , t ) = " Pn (t ) n (2.2) olas l k türeten fonksiyondan faydalanarak, (2.2) e itli!i, n =0 P' n (t ) n = D (n 1) P( n 1) (t ) nDPn (t ) n n olur. lemlere devam edilirse; > + " P' n (t ) = n n=0 > + " P' n (t ) n + = D " (n 1) Pn 1 (t ) n=0 = D n=0 > + " nPn (t ) n 1 + " nPn (t ) n 1 n =0 2 + " (n 2 P( , t ) / P( , t ) ; = D 0 <+D t = 1 > P( , t ) / P( , t ) ; = D 0 < t = 1 > P( , t ) =D ( t 2 1) Pn 1 (t ) + " (n n =0 > A +D n =0 +D n n =0 n =0 P( , t ) = D t P( , t ) +D ( t + D " nPn (t ) n 1) Pn 1 (t ) n 2 n 2 / P( , t ) ; < 0 = 1 / P( , t ) ; < 0 = 1 / P( , t ) ; 1)0 < = 1 / P( , t ) ; 1)0 < = 0 k smi denklem çözümünden = 1 P( , t ) P( , t ) +B = C genel formun çözüm e itli!i, t t t t P( , t ) + = yakla m ndan, = A B C 1 D (1 334 ) = P( , t ) bulunur. 0 > t P( , t ) P( , t ) = > = 0 > p bir sabittir. 1 0 t > t = 1 D (1 > D. t = . > D t= ) +. (1 ) d > ln (1 ) > Dt + int sb. = ln 1 ln( 1) > e Dt .e int sb. = 1 e itli!i bulunur. (2.3) (2.3) e itli!inden hareketle, / P = f 0e 1 / P = f 0e 1 ; < ba lang ç de!eri verilerek çözüm yap l rsa, 1 = Dt + ; > P ( , t ) = Pn (t ) < " 1 = n =0 Dt nx elde edilir. t = 0 Zamanda kitlede n0 ki i olsun. Bu durumda; P( ,0) = 1 n0 / 1 olur. t = 0 varsay ld ! nda, P = f 0 = u olsun. (u 1) = u > > P ( ,0 ) = P( , t ) = n0 n0 u n0 u 1 u u 1 n0 = u u 1 ; < elde edilir. 1= bulunur. t = 0 an yerine herhangi bir t zaman için; / 55 e =0 5e 51 n0 ; n0 / P( ) ; 1 55 < > P( , t ) = 0 < 11 (1 P) = 5 1 5= Dt Dt ’y e Dt olarak dü ünürsek, fonksiyon geometrik da! l n moment türeten fonksiyonuna yak nsayan bir formda elde edilmi olmaktad r. W 335 Sonuç ve öneriler Basit do!um süreçlerinde poisson da! l kullanarak modelleme yapmak neredeyse geleneksel bir durumdur. Halbuki, özel baz durumlar için alternatif yakla mlar kullanmak ço!u durumlarda faydal sonuçlar n elde edilmesine yol açabilir. Kesikli bir da! l olan poisson sürecinden, yine bir kesikli da! l m süreci olan geometrik da! l a ula mak, do!um süreçlerine alternatif yakla mlar yap lmas n kolayla t r r. Bu anlamda basit do!um süreçlerinde sisteme bir kat l m olmas yerine, birden çok kat l m n ayn anda gerçeklenmesi durumunda poisson da! l nda olu mas muhtemel olumsuzluklar ortadan kalkabilir. Basit do!rum süreçlerine alternatif yakla mlar n sa!lad ! avantajlar a a! da ba l klar halinde s ralanm t r. • Poisson sürecine ba! ml l k ortadan kalkar, • Poisson d • Tek da! l a ba! ml l k ortadan kalkm olur, • Birden fazla da! l la model kurma ans ortaya ç kar, • Poisson da! l n n alternatifsizli!ine bir çözüm elde edilmi olur, • Daha az kat l mla sistemi modelleme ans do!ar, • Bire-bir kat l m d nda bire-çok kat l m olanakl olur, • Simülatif yakla mlar n daha basit bir moda indirgenmesi sa!lanm olur, • Yöntemleri kar la t rma ve performans analizi yapma olana! sa!lanm olur, • Yeni kesikli da! l lar n elde edilmesi mümkün olabilir, • Yöntemler aras geçi ler olanakl hale gelir. yakla mlarla sürece zenginlik kat lm olur, Kaynaklar [1] M. Aytaç, (1994), Matematiksel statistik, Uluda! Üniversitesi Bas mevi, Bursa. [2] E. J. Freud, Mathematical Statistical, Fifth edition, Prentice Hall, International Edition. 336 Üçgensel müdahaleli rastgele yürüyü! sürecinin momentleri üzerine Rovshan ALIYEV Zafer KUCUK Tahir KHANIYEV KTÜ, FEF, statistik ve KTÜ, FEF, statistik ve TOBB Ekonomi ve Teknoloji Üniversitesi Bilgisayar Bilimleri Bölümü Bilgisayar Bilimleri Bölümü Endüstri Mühendisli!i Bölümü, 06560, 61080, Trabzon 61080, Trabzon Sö!ütözü, Ankara, aliyevrovshan@yahoo.com zkucuk1@yahoo.com tahirkhaniyev@etu.edu.tr 1. Giri! Stok kontrol, güvenilirlik, kuyruk teorisi, matematiksel biyoloji, stokastik finans, matematiksel sigortan n pek çok ilginç problemi rastgele yürüyü süreçleri veya bu süreçlerin uyarlanmas yard m yla çözülebilir. Bu süreçlerle ilgili literatürde yay nlanm pek çok de!erli çal ma bulunmaktad r (örne!in, [1–4], [8–12]). Bu çal mada a a! daki gibi ifade edilen (s, S) modelini ele alaca! z: Farzedelim ki, herhangi bir sistem t=0 ba lang ç an nda z = s + x durumunda bulunsun. Burada n s>0 bir kontrol seviyesi ve x 8 0 d r. Ayr ca, Tn = " 9 i , n 8 1 rastgele anlar nda sistem ( X ( t ) ) i =1 durumunu de!i tirir ve bu de!i melerin miktar {@n } , n 8 1 rastgele de!i kenleri ile ifade edilir: X (T1 ) P X 1 = z @1 , X (T2 ) P X 2 = z @1 @ 2 ,..., X (Tn ) P X n = z @1 @2 ... @ n ,.... Sistemin bu de!i imi rastgele & 1 zaman na kadar devam eder ki bu sürecin ilk kez kontrol seviyesi olan s > 0 de!erine ilk kez ula mas an d r. Sistem kontrol seviyesi olan s > 0 ‘ geçti!inde derhal O 1 pozisyonunu al r, burada O 1 rastgele de!i keni [s, S] aral ! nda bilinen bir da! l ma sahiptir. Bu tan ma ba!l olarak birinci periyot & 1 da, ikinci periyot z 2 sona erer ve böylece sistem hareketine devam eder. Buradan, X(z n +0) = Ž n , n=1, 2, 3, .... yaz l r. Burada Ž n ler Ž1 rastgele de!i kenleri ile ayn da! l ma sahip olmal d rlar. X(t) Bu çal madaki amac m z yukar da matematiksel olarak tan mlanan ve fiziksel modeli verilen stokastik sürecini tan mlayarak sürecin ilk dört ergodik momenti için üç terimli asimptotik aç l mlar elde etmektir. Bu amaç için çal mada O1 rastgele de!i keni [s, S] aral ! nda üçgensel da! l ma sahip oldu!u durumda sürecin ergodik da! l m n n ilk dört momenti için üç terimli asimptotik aç l mlar elde edilmi tir. Son olarak, hesaplanm asimptotik formüllerin test edilmesi için Monte Carlo simülasyon metodu kullan lm t r. rimdi X ( t ) sürecini matematiksel olarak a a! daki gibi kural m. 337 2. Sürecin matematiksel kurulu!u {( ’ n ,•n ,Ž n )} , n=1,2,3,..., ba! ms z ve ayn da! l ma sahip rastgele de!i ken üçlüleri ayn (R, S, P) olas l k uzay nda tan mlanm olsunlar. Burada 9 n ler pozitif, @n ler negatif ve pozitif de!erli, O n ler ise [s,S] aral ! nda üçgensel da! l ma sahip rastgele de!i kenler olup kendi aralar nda da ba! ms zd rlar. {Tn }, n 8 1 yenileme sürecini ve {S n }, n 8 1 rastgele yürüyü sürecini n n Tn = " 9 i , S n = " @ i , T0 = S0 = 0 , n = 1,2,... i =1 i =1 eklinde tan mlayal m ve tam de!erli rastgele de!i ken dizisi {N n } a a! daki gibi ifade edelim: N 0 = 0; N n +1 = inf {k 8 N n + 1 : O n } S k + S N n < s , n 8 0 , inf{T} = ++. Ayr ca, & n = TN n , n 8 0 ve C(t ) = max{n 8 0 : Tn ! t} olsun. Bu çal mada incelenen stokastik sürecin analitik ifadesini matematiksel olarak a a! daki gibi tan mlayal m: X (t ) = max{s, O n S v (t ) + S N n } , e!er & n ! t < & n+1 , n = 0,1,2,...; O0 = z 7[s,S]. X(t) sürecine üçgensel müdahaleye sahip yar Markov rastgele yürüyü süreci denir. Bu çal man n temel amac X(t) sürecinin ergodik momentlerinin asimptotik davran lar n a P (S s)/ 2 *+ iken incelemektir. Bu amaçla a a! daki gösterimleri yapal m: m k = E(@1k ); k = 1,5 , m k1 = m k / m1 ; µ k = E(Q1+ ) k , µ k1 = µk / µ1 , k = 2,3 , X(t) = X(t) s , E( X k ) = lim E(( X ( t )) k ) , k = 1,4 , t*+ + 1 burada Q rastgele de!i keni {S n }, n 8 1 rastgele yürüyü sürecinin birinci basamak yüksekli!idir. { } a n ( x , z ) = P z S k 8 s, k = 1, n ; z S n ! x , n 8 1 ; a 0 ( x, z) = )( x z); burada )( t ) =1 iken t 8 0 ve )( t ) =0 iken t<0 ; + S n =0 s A(x, z) = " a n (x, z); A( x,•) = . A( x, z )d'( z ) . 3. Sürecin Ergodikli<i Ele al nan sürecin karakteristiklerini hesaplamak için X ( t ) sürecinin baz ko ullar alt nda ergodik oldu!unun ispatlanmas gerekir. Bunun için a a! daki önermeyi ifade edelim. Önerme 3.1. ( 9 n , @n , O n ) , n 8 1 ba lang ç rastgele de!i kenler dizisi a a! daki ek ko ullar { } da sa!las n: i) 0 < E91 < + , ii) 0 < E@1 < + , iii) @1 aritmetik olmayan rastgele de!i ken Bu takdirde X ( t ) süreci ergodiktir ve a a! daki ifade her s n rl ölçülebilir f (x) ( f : [s, S] * R ) fonksiyonu için 1 olas l ! ile do!rudur: t S 1 1 lim . f ( X( u ))du = f ( x )d x A( x,•) , burada A ( +,•) P lim A( x ,•) . t *+ t x *+ A( +,•) .s 0 338 (3.1) spat. X ( t ) süreci literatürde kesikli ans kar ml yar -Markov süreci olarak bilinir. Bu s n f için Smith’in “anahtar yenileme teoremi” olarak bilinen ergodik teorem literatürde mevcuttur (bak, Gihman ve Skorohod [7, s.243]). Önerme 3.1 ko ullar sa!land ! nda bu ergodik teoremin ko ullar da sa!lan r, böylece X ( t ) süreci ergodiktir ve (3.1) e itli!i de 1 olas l ! ile do!ru olur. a X ( ) P lim E{exp(i X ( t ))}, 7 R olarak alal m. Rastgele yürüyü süreçleri için temel t *+ e itli!i (bak, [6], s.514) ve Önerme 3.1’i kullanarak a a! daki Önerme 3.2’yi elde edebiliriz. Önerme 3.2. Önerme 3.1’in ko ullar sa!land ! nda X ( t ) sürecinin ergodik da! l m n n karakteristik fonksiyonu @1 rastgele de!i keni ve ( N ( x ), S N ( x ) ) çiftinin karakteristik fonksiyonlar yard m yla a a! daki ekilde ifade edilir: X ( ) P lim E{e t *+ i X(t ) } S 1 = ei . EN s z SN ( z s ) @ ( ( ) ) 1 1 d'(z ) , 7 R \{0} , (3.2) burada S EN = . EN 1 ( z s)d'(z ) ; SN ( ) = E exp(i S N1 ) ; @ ( ) = E exp(i @1 ) . s 4. Ergodik da< l m n ilk dört momenti için kesin formüller Bu bölümün esas amac X ( t ) sürecinin ergodik da! l m n n ilk dört momentini @1 rastgele de!i keni ve S N (z s ) s n r fonksiyonelinin yard m yla ifade etmektir. Bunun için a a! daki gösterimleri yapal m: m k = E(@1k ); M k ( x ) = E(S kN ( x ) ), k = 1,5 , x > 0 m k1 = mk M (x) , M k1 ( x ) = k , m1 M1 ( x) k = 2,5 ; E( X k ) = lim E(( X ( t )) k ) , k = 1,4 , t*+ burada X ( t ) = X( t ) s . M ( x ) ölçülebilir ve s n rl fonksiyon için x c * M ( x ) = c . M ( u )du, x > 0 , burada c bir sabittir. 0 Bu bölümün esas sonucunu a a! daki gibi ifade edebiliriz. 3 Teorem 4.1. Özellik 3.2 nin ko ullar sa!lans n ve ayn zamanda E @1 < + olsun. Bu durumda X ( t ) sürecinin ergodik da! l m n n 1. ve 2. momentleri vard r ve @1 rastgele de!i keni ve SN (X ) s n r fonksiyonelinin karakteristikleri yard m yla a a! daki gibi yaz labilirler. J 11 (a ) 12 J 20 (a ) + A1 ; J 10 (a ) 1 E( X 2 ) = [J 12 (a ) J 21 (a ) + m 21 (J 11 (a ) J 10 (a ) E( X ) = (4.1) 1 1 J 20 (a )) + J 30 (a )] + A 2 ; 2 3 burada 2a J kn (a ) = .x n M k ( x )g a ( x )dx , k = 1,5; n = 0, 4 ; 0 339 (4.2) x 2a x , e!er 0 ! x < a ve g a ( x ) = e!er a ! x ! 2a ; 2 a a2 m m 2 m 31 M k ( x ) P E(S kN ( x ) ) , k = 1,3 ; A 1 = 21 , A 2 = 21 . 2 2 3 g a (x ) = Teorem 4.2. Özellik 3.2’nin ko ullar sa!lans n ve ayn zamanda E @1 5 < + olsun. Bu takdirde X ( t ) sürecinin ergodik da! l m n n 3. ve 4. momentleri vard r ve @1 rastgele de!i keni ve SN (X ) s n r fonksiyonelinin karakteristikleri yard m yla a a! daki gibi yaz labilirler. 3 E(X ) = 1 J 13 (a ) J 10 (a ) 3 J 22 (a ) + J 31 (a ) 2 1 J 40 (a ) + 4 1 1 + 3A1 (J12 (a) J 21 (a ) + J 30 (a)) + 3A 2 (J11 (a) J 20 (a)) + 3A 3 ; 3 2 1 1 J 14 (a ) 2J 23 (a ) + 2J 32 (a ) J 41 (a ) + J 50 (a ) + J 10 (a ) 5 3 1 J 22 (a ) + J 31 (a ) + 4A 1 (J 13 (a ) J 40 (a )) + 2 4 1 1 + 6A 2 (J 12 (a ) J 21 (a ) + J 30 (a )) + 12A 3 (J 11 (a ) J 20 (a )) + 3A 4 . 3 2 Teorem 4.1 ve Teorem 4.2 in ispat . Not edelim ki, Teorem 4.1 ve Teorem 4.2’nin ko ullar s n r fonksiyonelinin ilk be momentinin varl ! n ve sonlu olmas n temin eder. (bak, Feller W. 4 E(X ) = SN( x ) [6], s.514). Böylece, @1 rastgele de!i keni ve S N ( x ) ‘nin karakteristik fonksiyonunun Taylor aç l m * 0 iken hesaplanabilir. Bu aç l mlar kullan larak Teorem 4.1–4.2’nin ifadeleri hesaplanabilir.a 5. Ergodik da< l m n ilk dört momenti için üç terimli asimptotik aç l mlar Bu bölümde X ( t ) sürecinin ergodik da! l m n n ilk dört momenti için üç terimli asimptotik aç l mlar elde edilmi tir. Bu amaç için rastgele de!i kenlerin basamak de!i kenlerini kullanaca! z. n S n = " @ i , n 8 1 , rasgele de!i kenlerini ele alal m, ba lang ç durumunda S0 = 0 olsun ve i =1 C1+ = min{n 8 1 : S n > 0} , Q1+ = S C + olarak tan mlayal m. 1 C1+ Q1+ Not edelim ki, ve rastgele de!i kenleri {S n }, n 8 0 , rastgele de!i kenlerinin basamak momentleridir (bak, Feller W., [6], s.391). Q +n , n 8 1 rasgele de!i kenler dizisi ba! ms z ve ayn tür da! l ma sahip rasgele { } de!i kenlerden olu mu rasgele de!i kenler dizi olsunlar. Ayr ca Q1+ rasgele de!i keni ile de ayn da! l ma sahip olsunlar. n ; / H ( x ) = min 0 n 8 1 : " Q i+ 8 x < , x 8 0 tan mlayal m. Not edelim ki H ( x ) bir yenileme = i =1 1 + sürecidir ve Q n , n 8 1 pozitif rastgele de!i kenleri taraf ndan üretilmi tir. Kolayca gösterilebilir ki, N(x ) = H(x) H(x) i =1 i =1 " Ci+ ve S N( x ) = "Q + i d r. A a! da ifade edilen Yard mc Teorem 5.1 [12] nolu yay nda verilmi tir. 340 3 Yard mc Teorem 5.1 (T.A.Khaniyev ve Z.Mammadova). E @1 < + ve Teorem 4.1’in ko ullar alt nda x * + iken SN( x) in momentleri için a a! daki asimptotik aç l mlar do!rudur. µ 21 1 1 + o( ) ; 2) M 2 (x) = x 2 + µ 21x + µ 31 + o(1) ; 2 x 3 3 4) M 4 (x) = x 4 + 2µ 21x 3 + 2µ 31x 2 + o(x 2 ) ; 3) M 3 (x) = x 3 + µ 21x 2 + µ 31x + o(x); 2 5 10 5) M 5 (x) = x 5 + µ 21x 4 + µ 31 x 3 + o(x 3 ); 2 3 + k burada µ k = E( Q1 ) , µ k1 = µ k / µ1 , k = 2,3 ; M k ( x ) = E(S kN ( x ) ), k = 1,5 . 1) M1 (x) = x + Sonuç 5.1. Yard mc Teorem 5.1’in ko ullar alt nda x * + iken SN( x) ‘in momentlerinin integralleri için asimptotik aç l mlar do!rudur. 1 2 1 1 x + µ 21x + [3µ 221 2µ31 ] + o(1) ; 2 2 12 k +2 k +1 x x + µ 21 + O(x k 1 ) , k 8 1 ; 2) 1*(x k M1 (x)) = k + 2 2(k + 1) 1) 1* M1 (x) = x k +3 x k + 2 x k +1 + µ 21 + µ31 + O(x k ), k 8 0 ; 3) 1*(x M 2 (x)) = k +3 k +2 3(k + 1) k x k+4 3x k +3 x k +2 + µ21 + µ31 + O(x k +1 ), k 8 0 ; k + 4 2(k + 3) k+2 1 1 2 5) 1* M 4 (x) = x 5 + µ 21x 4 + µ31x 3 + O(x 2 ) ; 5 2 3 1 6 2 1 6) 1*(xM 4 (x)) = x + µ 21x 5 + µ31x 4 + O(x 3 ) ; 6 5 2 1 6 1 5 7) 1* M 5 (x) = x + µ 21x 5 + µ31x 4 + O(x 3 ) ; 6 2 6 1 5 2 8) 1*(xM 5 (x)) = x 7 + µ 21 x 6 + µ31x 5 + O(x 4 ) . 7 12 3 Yard mc Teorem 5.2. Teorem 4.1’in ko ullar alt nda a * + iken a a! daki asimptotik k 4) 1*(x M 3 (x)) = aç l mlar do!rudur. 1 J 10 (a ) = a + µ 21 + o(1 / a ); 2 3 7 J 12 (a ) = a 3 + µ 21a 2 + o(a 2 ); 2 12 31 J 14 (a ) = 3a 5 + µ 21a 4 + o(a 4 ); 30 3 3 7 J 21 (a ) = a + µ 21 a 2 + o(a 2 ); 2 6 31 1 J 23 (a ) = 3a 5 + µ 21a 4 + µ 31a 3 + o(a 3 ); 15 2 31 4 9 J 31 (a ) = a + µ 21 a 3 + o(a 3 ); 15 4 31 4 7 J 40 (a ) = a + 3µ 21a 3 + µ 31 a 2 + o(a 2 ); 15 3 341 7 2 1 a + µ 21 a + o(a ); 6 2 31 3 J 13 (a ) = a 4 + µ 21 a 3 + o(a 3 ); 15 4 7 2 5 J 20 (a ) = a + µ 21a + µ 31 + o(1); 6 3 31 4 3 7 J 22 (a ) = a + µ 21a 3 + µ 31a 2 + o(a 2 ); 15 2 18 3 7 J 30 (a ) = a 3 + µ 21a 2 + o(a 2 ); 2 4 31 3 J 32 (a ) = 3a 5 + µ 21a 4 + µ 31a 3 + o(a 3 ); 10 2 62 J 41 (a ) = 3a 5 + µ 21 a 4 + 3µ 31 a 3 + o(a 3 ); 15 J 11 (a ) = J 50 (a ) = 3a 5 + 31 µ 21a 4 + 5µ 31 a 3 + o(a 3 ). 6 spat. Federyuk’un çal mas ndaki integral metodu kullan larak Yard mc Teorem 5.2.’nin ispat yap labilir (bak, Federyuk [5]). a 3 Teorem 5.1. Önerme 3.1’ in artlar sa!lanm olsun, E @1 < + ve O1 rastgele de!i keni [s,S] aral ! nda üçgensel da! l ma sahip olsun burada a P (S s )/2 d r. Buradan X ( t ) sürecinin ergodik da! l m n n ilk iki momenti için a * + iken a a! daki asimptotik aç l mlar yaz labilir: 7 1 7 1 7 1 1 a + [ m 21 µ 21 ] + [ µ 221 5µ 31 ] + o( ) ; 12 2 12 6 8 a a 2 m 31 m 1 1 E( X 2 ) = a 2 + (7 m 21 3µ 21 )a + 21 + o(1) , 2 12 2 3 burada X = X s . spat. Yard mc Teorem 5.2’ye göre a * + iken, 1 1 1 1 1 1 1 3 1 1 = [1 µ 21 + µ 221 2 µ 21 3 + o( 3 )]. J 10 (a ) a 2 a 4 8 a a a d r. Di!er bir deyi le a * + iken, 1 7 5 µ 31 + o(1) . J 11 (a ) J 20 (a ) = a 2 2 12 6 E( X ) = (5.1) (5.2) (5.3) (5.4) (5.3) ve (5.4) ü (4.1) formülünde yerine yazarsak (5.1) asimptotik aç l mlar n elde ederiz. Benzer ekilde J 12 (a ), J 21 (a ), J 11 (a ), J 20 (a ), J 30 (a ), J 10 (a ) asimptotik aç l mlar da elde edilir. Baz hesaplamalar yap larak sonuçta (5.2) asimptotik aç l m elde edilir. a Sonuç 5.2. Teorem 5.1’in ko ullar sa!land ! nda a * + iken X(t) sürecinin ergodik da! l m n n varyans için asimptotik aç l m a a! daki gibidir: Var (X ) = 23 2 13 a + µ 21a + o(1) . 144 144 Teorem 5.2. Teorem 5.1’in ko ullar alt nda a * + iken X(t) sürecinin ergodik da! l m n n üçüncü ve dördüncü momentleri için a a! daki asimptotik aç l mlar yaz labilir: 31 3 31 3 a ( µ 21 A 1 )a 2 + 60 120 2 31 2 7 2 7 7 3 + µ 21 + m 21 µ 31 m 31 m 21µ 21 a + o(a ) ; 240 8 12 6 8 3 31 3 3 31 E ( X 4 ) = a 4 ( A 1 + µ 21 )a 3 + ( µ 221 + µ 21 m 21 + 3A 2 )a 2 + o(a 2 ), 5 15 10 20 60 E( X 3 ) = burada A1 = m 21 m2 , A 2 = 21 2 2 m 31 . 3 spat. Teorem 5.2’in ispat Teorem 5.1’in ispat na benzer ekilde yap l r. a Not 5.2. X ( t ) sürecinin ilk dört ergodik momenti için asimptotik aç l mlar elde ettik. Bu momentleri kullanarak çarp kl k ( G 3 ) ve bas kl k ( G 4 ) katsay lar n hesaplamak mümkündür: G3 = E(X a ) 3 3 , G4 = E(X a ) 4 4 3 , burada a = E(X) , 2 = Var(X) . Sonuç 5.4. Teorem 5.3’ün ko ullar alt nda X ( t ) sürecinin ergodik da! l m n n çarp kl k ( G 3 ) ve bas kl ! ( G 4 ) için a * + iken a a! daki asimptotik aç l mlar yaz labilir: 1 1 G 3 = 0.6056 + O( ) ve G 4 = 0.3357 + O( ) . a a 342 6. Simülasyon sonuçlar Bu bölüm çal mam z n temel amac d r. Bu amaç için Monte Carlo yöntemi kullan larak a a! daki k ~ k simülasyon sonuçlar n verebiliriz. Öncelikle Ê ( X ), k = 1,4 ve E ( X ) ile X ( t ) sürecinin ergodik da! l m n n k.momentinin uygun olarak simülasyon ve asimptotik de!erlerini gösterir. A a! daki tan mlamalar yapal m: k ~ k V k = Ê(X ) E(X ) ; L k = Vk Ê(X k ) .100% ; Ap k = 100% L k , k=1,2,3. Di!er bir deyi le V k , L k , Ap k , k = 1,4 , X ( t ) sürecinin karakteristik fonksiyonunun ergodik momentlerinin asimptotik ve simülasyon de!erlerinin s ras yla mutlak, göreli ve kesin yüzdeleridir. k Tablo 1-4 deki Ê ( X ), k = 1,4 , @1 7 N(1,1) için Monte Carlo yöntemi kullan larak k hesaplanan de!erlerdir. Bu hesaplamalar için 108 yörünge kullan lm t r. E (X ) için yakla k ~ k formüller E ( X ) Teorem 5.1 ve 5.2 de kalans z terimdir burada, s=0. X ( t ) sürecinin ergodik da! l m n n k.momenti için @1 rastgele de!i keni N(1,1) normal da! l ma sahip oldu!u durumda k E (X ), k = 1,4 için tablo a a! da sunulmu tur. a 50 40 30 20 10 9 8 7 6 5 Ê ( X ) 29,653119 23,818905 17,993536 12,167070 6,313335 5,711445 5,129110 4,532171 3,972255 3,382124 2 Ê ( X ) a 50 1288,490552 40 830,063400 30 472,465982 20 214,455051 10 57,314823 9 46,998902 8 37,753640 7 29,649688 6 22,311508 5 16,222781 ~ E (X ) 29,801254400 23,961542390 18,117577920 12,262982320 6,365862175 5,768353995 5,167302104 4,561187768 3,947479764 3,321621892 ~ 2 E (X ) 1288,4505500 830,6295770 472,8086080 214,9876400 57,1666708 46,8845739 37,6024770 29,3203801 22,0382833 15,7561864 Tablo 1. V1 0,148135402 0,142637388 0,124041919 0,095912317 0,052527175 0,056908995 0,038192104 0,029016768 0,024775236 0,060502108 L1 (%) Ap1 (%) 0,4995609 0,5988411 0,6893693 0,7882943 0,8320036 0,9964028 0,7446146 0,6402399 0,6237071 1,7888791 99,50044 99,40116 99,31063 99,21171 99,16800 99,00360 99,25539 99,35976 99,37629 98,21112 L 2 (%) Ap 2 (%) 0,003105 0,068209 0,072519 0,248345 0,258489 0,243257 0,400393 1,110662 1,224591 2,876169 99,9969 99,93179 99,92748 99,75165 99,74151 99,75674 99,59961 98,88934 98,77541 97,12383 Tablo 2. V2 0,0400062 0,5661771 0,3426263 0,5325885 0,1481522 0,1143281 0,151163 0,3293079 0,2732247 0,4665946 343 a 50 40 30 20 10 9 8 7 6 5 3 Ê (X ) 67325,56881 34837,64027 14932,32594 4555,035026 625,658769 463,308736 332,576351 230,766167 152,170722 92,626459 4 ~ 3 E (X ) 67499,70306 34920,18329 14980,4531 4580,51249 620,3614558 459,1847792 328,3059984 224,6251134 145,0421241 86,45703063 ~ 4 E (X ) Ê ( X ) a 50 3961304,609000 3962737,4000 40 1643938,562000 1644679,0100 30 531992,940500 531678,4200 20 109522,243000 109433,2880 10 7625,999060 7641,2640 9 5114,708570 5126,9421 8 3279,874903 3288,2255 7 2009,204611 1992,4118 6 1149,358449 1121,1986 5 590,531283 570,6837 Tablo 3. V3 L 3 (%) 174,1342555 82,54302433 48,1271605 25,477464 5,297313167 4,123956775 4,2703526 6,141053642 7,1285979 6,169428375 0,2586451 0,2369363 0,3223018 0,5593253 0,8466777 0,8901099 1,2840217 2,6611586 4,6846054 6,6605465 Ap 3 (%) 99,74135 99,76306 99,6777 99,44067 99,15332 99,10989 98,71598 97,33884 95,31539 93,33945 Tablo 4. V3 1432,791100 740,445940 314,520500 88,954956 15,264936 12,233571 8,350633 16,792777 28,159761 19,847533 L 4 (%) Ap 4 (%) 0,03617 0,045041 0,059121 0,081221 0,20017 0,239184 0,254602 0,835792 2,450042 3,360962 99,96383 99,95496 99,94088 99,91878 99,79983 99,76082 99,7454 99,16421 97,54996 96,63904 Not. Yukar daki tablolardan görüldü!ü gibi an’ n küçük de!erleri için bile yakla k formüller yüksek kesinlik gösterirler. Örne!in Tablo1-Tablo4 de uygunluk yüzdesi %90 dan fazlad r (a>10 için). Bu gösterir ki hesaplanan yakla k formüller uygulamada güvenli bir biçimde kullan labilirler. Anahtar Sözcükler: Yar -Markov rastgele yürüyü süreci, üçgensel da! l m, ergodik da! l m, asimptotik aç l m, basamak yüksekliyi, Monte Carlo simülasyon yöntemi. Kaynaklar [1] G. Alsmeyer (1991), Some relations between harmonic renewal measure and certain first passage times, Statistics & Probability Letters, 12, 1, 19-27. [2] G.Aras and M. Woodroofe(1993), Asymptotic expansions for the moments of a randomly stopped average, Annals of Statistics, 21, 503-519. [3] A.A. Borovkov (1976), Stochastic Process in Queueing Theory, Spinger, New York. [4] M.Brown and H.A. Solomon (1975), Second-order approximation for the variance of a renewalreward process, Stochastic Processes and Their Applications, 3, 301-314. [5] M.V. Federyuk (1984), Asymptotics for Integrals and Series. Nauka, Moscow. [6] W. Feller (1971), Introduction to Probability Theory and Its Appl. II, J. Wiley, N.Y. [7] I.I. Gihman and A.V.Skorohod (1975), Theory of stochastic processes II, Springer, Berlin. [8] J.H.B.Kemperman (1963), A Wiener-Hopf type method for a general random walk with a two-sided boundary, Ann. Math. Statist., 34, 1168-1193. 344 [9] T.A. Khaniev, I. Unver and S. Maden (2001), On the semi-Markovian random walk with two reflecting barriers, Stochastic Analysis and Applications, 19, 5, 799-819. [10] T.A. Khaniev (2003), Some asymptotic results for the semi-Markovian random walk with a special barrier, Turkish Journal of Mathematics, 27, 2, 1-22. [11] T.A. Khaniyev and Z. Kucuk (2004), Asymptotic expansions for the moments of the Gaussian random walk with two barriers, Statistics & Probab. Letters, 69, 1, 91-103. [12] T.A. Khaniyev and Z. Mammadova (2006), On the stationary characteristics of the extended model of type (s,S) with Gaussian distribution of summands, Journal of Statistical Computation and Simulation, 76, 10, 861-874. [13] T.A. Khaniyev, T. Kesemen, R.T. Aliyev and A. Kokangul (2008), Asymptotic expansions for the moments of a semi-Markovian random walk with exponential distributed interference of chance, Statistics & Probability Letters, 78, 6, 785–793. [14] V.I. Lotov (1996), On some boundary crossing problems for Gaussian random walks, The Annals of Probability, 24, 4, 2154-2171. [15] B.A. Rogozin (1964), On the distribution of the first jump, Theory Probability and Its Applications, 9, 3, 498-545. [16] A.V. Skorohod and N.P. Slobodenyuk (1970), Limit Teorems for the Random Walks, Naukova Dumka, Kiev. [17] F. Spitzer (1964), Principles of random walks, Van Nostrand, Princeton, N. J. Abstract On the moments of the random walk with triangular distributed interference of chance In this study, a semi-Markovian random walk with a discrete interference of chance ( X( t ) ) is consedered. The exact formulas for the first four moments of ergodic distribution of the process are obtained, when the random variable O 1 , which is describing a discrete interference of chance, has a triangular distribution in the interval [s, S]. Based on these results, the asymptotic expansions with three-term are obtained for the first four moments of the ergodic distribution of X( t ) as a P (S s) / 2 * + . Furthermore, by using Monte Carlo experiment it is shown that the given approximating formulas provide high accuracy even for small values parameter a . Keywords: Semi-Markovian random walk process, a discrete interference of chance, triangular distribution, ergodic distribution, asymptotic expansion, ladder height, Monte Carlo simulation method. 345 Tabakal rasgele örneklemede üstel tahmin ediciler Nursel Koyuncu Cem Kad lar Hacettepe Üniversitesi statistik Bölümü 06800-Beytepe, Ankara, Türkiye nkoyuncu@hacettepe.edu.tr Hacettepe Üniversitesi statistik Bölümü 06800-Beytepe, Ankara, Türkiye kadilar@hacettepe.edu.tr Özet Tabakal rasgele örneklemede tahminler, bile ik ve ayr tahmin ediciler kullan larak iki ekilde yap labilmektedir. Bu çal mada tabakal rasgele örneklemede kitle ortalamas n n tahmini için yard mc de!i ken bilgisi kullan larak bile ik ve ayr üstel tahmin ediciler önerilmi tir. Tahmin edicilerin yan ve hata kareler ortalamas hesaplanm ayn zamanda say sal bir örnek verilmi tir. Anahtar sözcükler: Üstel tahmin edici;yard:mc: bilgi; hata kareler ortalamas:; etkinlik, tabakal: rasgele örnekleme. Abstract Exponential Estimators in Stratified Random Sampling An exponential family of estimators, which use the information of auxiliary variable in the stratified random sampling, is proposed to estimate the population mean of the variable under study. Under stratified random sampling without replacement scheme, the expressions of bias and mean square error (MSE) up to the first order approximations are derived. The family of estimators in its optimum case is discussed. Also an empirical study is carried out to show the properties of the proposed estimators. Keywords: Exponential estimator; auxiliary information; mean square error; efficiency; stratified random sampling. 1. Giri! lgilenilen de!i ken Y’nin kitle ortalamas n n tahmininde yard mc de!i ken X’i kullanmak tahminlerin duyarl l ! n art rmaktad r. Bu amaçla literatürde birçok oransal, çarp msal, regresyon tipi tahmin ediciler önerilmi tir. Basit rasgele örneklemede üstel tahmin ediciler ise ilk olarak Bahl ve Tuteja [6] taraf ndan tan mlanm t r. Singh ve di!erleri [5] basit rasgele örneklemede, Singh ve Vishwakarma [2] iki a amal örneklemede kitle ortalamas n n tahmini için, Shabbir ve Gupta [3] ise basit rasgele örneklemede kitle varyans n n tahmini için üstel tahmin ediciler önermi lerdir. Bahl ve Tuteja [6] taraf ndan yard mc de!i ken bilgisi kullan larak önerilen üstel tahmin ediciler t1 = y exp X x X +x (1) t2 = y exp x X X +x (2) biçiminde verilmi tir. Burada t1 tahmin edicisi oransal, t 2 tahmin edicisi ise çarp msal üstel tahmin edici olarak tan mlanmaktad r. 346 2. Tabakal Rasgele Örneklemede Önerilen Üstel Bile!ik Tahmin Ediciler N büyüklü!ündeki bir kitle, h (h=1,2,…,L) tabaka say s olmak üzere N h büyüklü!ündeki tabakalara ayr lm olsun. Her bir tabakadan basit rasgele örnekleme ile yerine koymadan nh büyüklü!ünde örneklemler seçilsin. y hi ve xhi s ras yla h. tabaka için ilgilenilen de!i ken ile yard mc de!i kenin gözlemlenen de!erlerini göstersin. Tabakal rasgele örneklemede önerilen bile ik üstel tahmin ediciler y p1( st ) = y st exp X x st X + x st (3) y p 2( st ) = y st exp x st X x st + X (4) eklindedir. Burada y st = L L h =1 h =1 "Wh y h ve xst = "Wh xh s ras yla ilgilenilen de!i ken ile yard mc de!i kenin tabakal örneklemede ortalama tahmin edicileridir. Üstel tahmin edicilerin yan ve hata kareler ortalamas fark yöntemiyle a a! daki e itlikler tan mlanarak bulunabilir: e0 = ( y st Y ) Y > y st = Y (1 + e0 ) , e1 = (x st X ) X > x st = X (1 + e1 ) (5) Beklenen de!er e itlikleri L Vr , s = " W h =1 [ E (x h r+s h E (e0 e1 ) = V1,1 , ] X h ) ( y h Yh ) , X rY s E (e12 ) = V2,0 , E (e02 ) = V0, 2 r s (6) (7) olarak tan mland ! nda üstel tahmin edicilerin yan ve hata kareler ortalamas s ras yla, Yan( y p1( st ) ) = Y 3 V2 , 0 8 HKO ( y p1(st ) ) = Y 2 Yan( y p 2( st ) ) = Y 1 V1,1 2 (8) 1 V2, 0 + V0, 2 V1,1 4 (9) 1 1 V2, 0 + V1,1 8 2 HKO ( y p 2(st ) ) = Y 2 (10) 1 V2, 0 + V0, 2 + V1,1 4 (11) eklinde elde edilir. Singh ve di!erleri [5] tahmin edicisi tabakal rasgele örneklemeye uyarland ! nda y p 3(st ) = y st st exp X x st + (1 X + x st st ) exp 347 x st X X + x st (12) tahmin edicisi elde edilmektedir. Burada st hata kareler ortalamas n minimum yapan bir sabit olarak tan mlanmaktad r. Tahmin edici e’li ifadelerle y p 3(st ) Y = Y e + st 1 1 4 1 1 e + e1 + e12 2 8 1 e e + e0 + e0 e1 2 2 st 1 (13) st 0 1 eklinde yaz labilir yan ve hata kareler ortalamas ise s ras yla Yan( y p 3(st ) ) = Y 1 4 + st HKO ( y p 3( st ) ) = Y 2 1 V2, 0 8 2 st st 1 V1,1 2 st (14) 1 V2, 0 + V0, 2 + (1 2 4 + eklinde yaz labilir. Hata kareler ortalamas n minimum yapan * st st = )V1,1 V1,1 V2, 0 (15) + 1 e itli!i (15)’te yerine 2 yaz ld ! nda minimum hata kareler ortalamas HKOmin (y p 3( st ))= Y 2 V12,1 V0 , 2 (16) V2, 0 biçiminde bulunur. Üstel tahmin edicilerde yard mc de!i kene ili kin kitle bilgilerinin bilinmesi durumunda önerilen tahmin edici, y p 4( st ) = y st exp (a (a X + bst ) (a st x st + bst ) st X + bst ) + (a st x st + bst ) st (17) eklinde tan mlanabilir. Burada a st ve bst , X yard mc de!i keninin h. tabaka için de!i im L katsay s L C x ( st ) = " Wh C xh , çarp kl k 1( x )st h =1 korelasyon katsay s = " Wh h =1 1h (x ) , L bas kl k 2 ( x )st = " Wh h =1 2h (x ) ve L = " Wh * ( xy )st h =1 gibi bilinen parametrelerinden olu an bir fonksiyon olarak ( xy )h tan mlanabilir. Tahmin edici e’li ifadelerle y p 4( st ) Y = Y ( e +3 st 1 eklinde yaz labilmektedir. Burada e + e0 2 2 st 1 st = ee st 0 1 ) (18) a st X olarak tan mlanm t r. Tahmin edicinin yan 2(a st X + bst ) ve hata kareler ortalamas ise ( Yan( y p 4( st ) ) = Y 3 2stV2, 0 HKO ( y p 4(st ) ) = Y 2 ( 2 st V st 1,1 V 2 , 0 + V0 , 2 ) 2 V st 1,1 ) eklinde elde edilir. Çizelge3’te y p 4 ( st ) tahmin edici ailesinden türetilen baz tahmin ediciler verilmi tir. 348 (19) (20) 3. Önerilen ki De<i!kenli Bile!ik Üstel Tahmin Edici Ailesi Tabakal rasgele örneklemede iki yard mc de!i ken bilinmesi durumunda Koyuncu ve Kad lar [4], tahmin edici ailesi önermi lerdir. ki yard mc de!i ken bilinmesi durumunda üstel bile ik aile, /5 X y N = y st 0 K 1st x st 51 G1 st a st (x st X ) Z + K 2 st exp X + bst (x st X ) z st G 2 st exp c st (z st Z ) Z + d st (z st Z ) ;5 < 5= (21) eklinde tan mlanabilir. Burada K 1st + K 2 st = 1 olan sabitler; G 1st , G 2 st uygun sabitler, a st , bst birinci yard mc de!i kene ili kin bilinen kitle parametrelerinden olu an bir fonksiyon ; c st ve d st ise ikinci yard mc de!i kene ili kin bilinen kitle parametrelerinden olu an bir fonksiyon olarak tan mlanmaktad r. ( kinci de!i ken fark yöntemiyle, e2 = z st kullan larak tahmin edici yN Z ) Z eklinde yaz labilmektedir. e’li terimler / G 1st (G 1st + 1) 2 a (a 2bst ) 2 ; ; / e1 + a st e1 G 1st a st e12 + st st e1 5 5 5 K 5 G 1st e1 + 2 2 < 5 5 1st 0 5 5 5 5 1+ e0 G 1st e0 e1 + a st e0 e1 = Y =Y 0 < G 2 st (G 2 st + 1) 2 c st (c st 2d st ) 2 ;5 / 2 5 G e + e 2 + c st e 2 G 2 st c st e 2 + e2 5 5+ K 2 st 50 2 st 2 2 2 <5 5 5+ e 0 G 2 st e 0 e 2 + c st e0 e 2 55 1 == 1 (22) eklinde yaz labilir. Beklenen de!er e itlikleri L Vrst = " Whr + s +t [ E (y h h =1 Yh ) (x h X h ) (z h Y r X sZ t r s Zh ) t ] E (e02 ) = V200 , E (e12 ) = V020 , E (e22 ) = V002 , E(e0 e1 ) = V110 , E(e1e2 ) = V011 , E(e0 e2 ) = V101 eklinde tan mlanabilir, [3]. Tahmin edicinin yanl l ! // G 1st (G 1st + 1) ; ; 2bst ) a (a G 1st a st + st st V020 + (a st G 1st )V110 < 50 5 2 2 = 51 5 55 / G 2 st (G 2 st + 1) ;55 c st (c st 2d st ) Yan( y N ) = Y 0 G c + V + ( c G ) V 2 st st 002 st 2 st 101 5< 5 2 2 55 5+ K 5 <5 2 st 0 5 G 1st (G 1st + 1) a st (a st 2bst ) 5 5 G 1st a st + V020 + (G 1st a st )V110 55 5 5=5 2 2 1 15 = (23) e itli!i ile verilebilir. (22) e itli!inin karesi al n p ikinci dereceden büyük terimler ihmal edilirse (y N [ Y ) = Y 2 e02 + t12ste12 + t22ste22 2t2ste0e2 2t1ste0e1 + 2t2stt1ste1e2 2 349 ] (24) e itli!i elde edilir. Burada t1st = K 1st (G 1st Hata kareler ortalamas ise, a st ) ve t 2 st = K 2 st (G 2 st c st ) olarak tan mlanmaktad r. [ ] HKO( yN ) = Y 2 V200 + t12stV020 + t22stV002 2t2stV101 2t1stV110 + 2t2stt1stV011 (25) e itli!i ile verilir. (25) e itli!ini minimum yapan de!erler t1*st = yx ( st ) 1 yz ( st ) V200 , V020 xz ( st ) 2 xz ( st ) L eklindedir. Burada ab ( st ) "W = yz ( st ) t 2*st = h =1 L "W h =1 2 h DhS 2 h yx ( st ) xz ( st ) 2 xz ( st ) 1 V 200 , V002 D h S abh 2 ah tabakal rasgele örneklemede bile ik L "W h =1 2 h DhS 2 bh korelasyon katsay s olarak tan mlanmaktad r. Optimum de!erler (25)’te yerine koyuldu!unda minimum hata kareler ortalamas 2 yx ( st ) HKOmin ( y N ) = Y V200 1 2 + 2 yz ( st ) (1 2 yx ( st ) 2 xz ( st ) ) yz ( st ) xz ( st ) (26) eklinde bulunur. 4. Önerilen Üstel Ayr Tahmin Ediciler Bahl ve Tuteja [6] tahmin edicileri için üstel oransal ayr tahmin L y pa1 = " Wh y h exp h =1 X h xh X h + xh (27) eklinde tan mlan r. Yan ve hata kareler ortalamas n elde etmek için e’li ifadeler ve beklenen de!er e itlikleri e0 h = ( y h ( ) Yh ) Yh E e12h = Dh C xh2 , e1h = (x h ( ) Xh) X h 2 E e02h = D h C yh , E (e0 h e1h ) = Dh C xyh , D h = N h nh N h nh eklinde tan mlanmaktad r. (27) e itli!inde verilen tahmin edicinin yan ve hata kareler ortalamas L 1 ; /3 Yan( y pa1 ) = " WhYh 0 D h C xh2 D h C xyh < 2 = 18 h =1 L ; /1 2 2 HKO ( y pa1 ) = " Wh2Yh2 D h 0 C xh C xyh < + C yh = 14 h =1 eklinde elde edilir. Bahl ve Tuteja [6] tahmin edicileri için üstel çarp msal ayr tahmin ise 350 (28) (29) xh X h xh + X h L y pa 2 = " Wh y h exp h =1 (30) eklinde verilir. Yan ve hata kareler ortalamas ise Yan( y pa 2 ) = " WhYh L 1 1 D h C xh2 + D h C xyh 8 2 h =1 L 1 2 + C xyh HKO ( y pa 2 ) = " Wh2Yh2 D h C xh2 + C yh 4 h =1 (31) (32) e itlikleri ile elde edilmektedir. Singh ve di!erleri [5] tahmin edicisi için üstel ayr tahmin edici L y pa 3 = " Wh y h h h =1 exp X h xh + (1 X h + xh h xh X h X h + xh ) exp (33) biçiminde verilebilir. Yan ve hata kareler ortalamas e itlikleri L /1 Yan( y pa 3 ) = " WhYh D h 0 14 h =1 h 1 C xh2 + C xh2 8 h 1 ; C xyh + C xyh < 2 = (34) L / HKO ( y pa 3 ) = " Wh2Yh2 D h 0 h =1 1 ; 1 2 2 C xh + C yh + (1 2 h )C xyh < (35) 4 = 1 C xyh biçimindedir. Hata kareler ortalamas n minimum yapan h* = + 2 de!eri (35) e itli!inde yerine 2 C xh 2 h h + koyuldu!unda minimum hata kareler ortalamas { 2 HKOmin ( y pa 3 ) = " Wh2Yh2 D h C yh 1 L h =1 2 yxh } (36) eklinde elde edilir. Yard mc de!i kene ili kin kitle bilgilerinin bilinmesi durumunda önerilen ayr tahmin edici, L y pa 4 = " Wh y h exp h =1 (a (a X h + bh ) (a h x h + bh ) h X h + bh ) + (a h x h + bh ) h (37) biçiminde tan mlanabilir. Burada ah ve bh , h. tabaka için yard mc de!i kene ili kin bilinen kitle bilgileridir. Yan ve hata kareler ortalamas { Yan( y pa 4 ) = " WhYh D h 3 h2 C xh2 L h =1 HKO ( y pa 4 ) = " Wh2Yh2 D h L h =1 eklinde elde edilmektedir. Burada { h 2 h h C xyh 2 C xh2 + C yh = } (38) 2 h C xyh } (39) ah X h olarak tan mlanm t r. Çizelge3’te y pa 4 2(a h X h + bh ) tahmin edici ailesinden türetilen baz tahmin ediciler verilmi tir. 5. Önerilen ki De<i!kenli Ayr Üstel Tahmin Edici Ailesi 351 ki yard mc de!i ken bilinmesi durumunda önerilen üstel ayr tahmin edici, y Na /5 Xh = " Wh y h 0 K 1h xh h =1 51 L G 1h a h (x h X h ) Z exp + K 2h h X h + bh (x h X h ) zh G 2h exp c h (z h Z h ) Z h + d h (z h Z h ) ;5 < 5= (40) eklinde tan mlan r. Burada K 1h + K 2 h = 1 , G 1h , G 2 h uygun sabitler, a h ve bh , h. tabaka için birinci yard mc de!i kene ili kin bilinen kitle parametrelerinden olu an bir fonksiyon ; c h ve d h ise h. tabaka için ikinci yard mc de!i kene ili kin bilinen kitle parametrelerinden olu an bir fonksiyon olarak tan mlanmaktad r. kinci de!i ken fark yöntemiyle, e2 h = z h Z h Z h eklinde yaz labilmektedir. e’li terimler kullan larak tahmin edici ( y Na ) / ; G 1h (G 1h + 1) 2 a (a 2bh ) 2 ; / e1h + a h e1h G 1h a h e12h + h h e1h 5 5 K 5 G 1h e1h + 5 2 2 < 5 1h 0 5 5+ e0 h G 1h e0 h e1h + a h e0 h e1h 5 L 5 5 1 = Y = " W h Yh 0 < G 2 h (G 2 h + 1) 2 c h (c h 2d h ) 2 ;5 / h =1 2 5 G e + e2h + c h e2h G 2h c h e2h + e2h 5 5+ K 2 h 50 2 h 2 h 2 2 <5 5 5+ e 0 h G 2 h e 0 h e 2 h + c h e 0 h e 2 h 55 1 == 1 ( ) (41) eklinde yaz labilir. kinci de!i kene ait beklenen de!er E e2 h = Dh C zh , E (e0 h e2 h ) = Dh C zyh 2 2 e itlikleri kullan ld ! nda yan ve hata kareler ortalamas // G 1h (G 1h + 1) ; ; a (a 2bh ) 2 G 1h a h + h h C xh + (a h G 1h )C xyh < 50 5 2 2 = 51 5 55 L ;55 (42 / G 2 h (G 2 h + 1) c h (c h 2d h ) 2 Yan( y Na ) = " Wh Yh D h 0 G 2h ch + C zh + (c h G 2 h )C zyh 5< 5 2 2 h =1 55 5+ K 5 <5 2h 0 5 G 1h (G 1h + 1) a h (a h 2bh ) 2 5 5 + + G 1h a h C xh + (G 1h a h )C xyh 55 5=5 5 2 2 1 15 = ) { L 2 HKO( y Na ) = " Wh2Yh2 D h C yh + t12h C xh2 + t 22h C zh2 h =1 eklinde elde edilir. Burada t1h = K 1h (G 1h a h ) ve t 2 h = K 2 h (G 2 h Hata kareler ortalamas n minimum yapan de!erler t1*h = yxh 1 yzh xzh 2 xzh C yh C xh t2*h = yzh 1 } 2t1h C yxh + 2t1h t 2 h C xzh (43) 2t 2 h C yzh yxh xzh 2 xzh c h ) olarak tan mlanmaktad r. C yh Czh (43) e itli!inde yerine koyuldu!unda minimum hata kareler ortalamas , 352 /5 2 HKOmin ( y Na ) = "W Y D h 0C yh 51 h =1 L 2 2 h h 2 2 C yzh C xh2 + C yxh C zh2 (C 2 xh C zh2 2C yzh C xzh C yxh ;5 < 2 C xzh 5= ) (44) eklinde elde edilir. 6. Say sal Örnek Konu ile ilgili say sal bir örnek vermek amac yla Türkiye’de bulunan 923 ilçedeki ilk ve ortaö!retimde okuyan ö!renci say s (x) ve derslik say s (z) yard mc de!i ken, ö!retmen say s (y) ilgilenilen de!i ken olarak al nm t r. Bu veriler 2006-2007 ö!retim y l için Milli E!itim Bakanl ! ’ndan elde edilmi tir. Türkiye’nin farkl bölgelerinde bulunan ilçelerdeki ö!retmen, derslik ve ö!renci say lar de!i kenlik gösterece!i dü ünülerek Türkiye’nin co!rafi bölgelerine göre kitle tabakalara ayr lm t r. Burada Do!u Anadolu ve Güneydo!u Anadolu Bölgeleri’nin benzer özellik gösterdi!i dü ünülmü ve iki bölge bir tabaka olarak al nm t r. Tabakalara ait kitle bilgileri Çizelge1’de verilmi tir. Örneklem büyüklü!ünün tahmininde, 2 L d V = t "W S 2 , n= h =1 1 V+ N h yh L "W S h =1 h (45) 2 yh = 0.95 güvenilirlikle, tahmin için ho e itlikleri kullan lm t r [1]. Bu e itliklerden yararlanarak, 1 görülebilecek hata miktar (d), yakla k olarak 95 al nd ! nda örneklem büyüklü!ü n=180 olarak tahmin edilmi tir. Örneklem büyüklü!ünün tabakalara da! t m , birimlere ula ma maliyetinin tabakadan tabakaya de!i medi!i varsay m yap larak Neyman Da! t m na göre yap lm t r. Çizelge 1. Ö!retmen Say s (y), Ö!renci Say s (x) ve Derslik Say s (z) De!i kenlerine Ait Kitle ve Tabaka Bilgileri Tabakalar 1. tabaka 127 2. tabaka 117 3. tabaka 103 4. tabaka 170 5. tabaka 205 6. tabaka 201 nh 31 21 29 38 22 39 S yh 883.835 644.922 1033.467 810.585 403.654 711.723 Yh 703.74 413 573.17 424.66 267.03 393.84 S xh 30486.751 15180.769 27549.697 18218.931 8497.776 23094.141 Xh 20804.59 9211.79 14309.30 9478.85 5569.95 12997.59 0.936 0.996 0.994 0.983 0.989 0.965 4.593 18.543 15.446 10.162 21.947 23.114 2.158 16.392 14.979 12.167 21.088 20.254 0.138 0.127 0.112 0.184 0.222 0.218 2.164 3.867 3.748 3.121 4.084 4.411 S zh 555.58 365.46 612.95 458.03 260.85 397.05 Zh 498.28 318.33 431.36 311.32 227.20 313.71 Nh xyh (xh ) 2 ( yh ) 2 wh 1 (x h ) 353 yzh 2 (z h ) 0.978914 0.976245 0.983511 0.982958 0.964342 0.982689 2.314926 11.19093 10.78635 8.624111 9.720886 14.40696 Çizelge1 verileri kullan larak Bölüm 2-5’te önerilen tahmin edicilerin hata kareler ortalamas hesaplanm ve Çizelge2 de bu de!erler verilmi tir. Çizelge2 incelendi!inde bile ik tahmin edicilerden y N tahmin edici ailesi, ayr tahmin ediciler içinde ise y Na tahmin edici ailesi en küçük hata kareler ortalamas na sahiptir. y p 2 ( st ) ve y pa 2 tahmin edicileri çarp msal üstel tahmin edicilerdir. Say sal örne!imizde x ve y aras nda pozitif yönde kuvvetli bir ili ki oldu!undan bu tahmin edicilerin hata kareler ortalamas çok büyük sonuçlar vermi tir. Çizelge 2. Önerilen Tahmin Edicilerin Yan ve HKO Bile ik Tahmin Ediciler y p1(st ) HKO 602.444 Ayr Tahmin Ediciler y pa1 HKO 571.189 y p 2( st ) 5096.884 y pa 2 5103.045 y p 3(st ) 194.283 y pa 3 106.427 y p 4( st )1 602.532 y pa 4(1) 571.29 y p 4( st )2 603.894 y pa 4(2 ) 572.929 y p 4( st )3 602.594 y pa 4(3) 571.364 y p 4( st )4 602.530 y pa 4(4 ) 571.289 y p 4( st )5 602.453 y pa 4(5 ) 571.201 y p 4( st )6 602.495 y pa 4(6 ) 571.248 yN 78.0926+ y Na 47.606+ Çizelge 3. y p 4( st ) ve y pa 4 Tahmin Edici Ailelerine Ait Tahmin Ediciler y p 4( st ) tahmin edici ast bst y pa 4 tahmin edici ailesine ait ailesine ait tahmin ediciler ah bh tahmin ediciler y p 4( st )1 1 y p 4( st )2 1 y p 4( st )3 1 y p 4( st )4 1 1 y pa 4(1) 1 2 ( x )st y pa 4(2 ) 1 C x ( st ) y pa 4(3) 1 ( xy )st y pa 4(4 ) 1 y pa 4(5 ) 2 ( x )h C x (h ) y pa 4(6 ) C x (h ) xyh * y p 4( st )5 2 ( x )st C x (st ) y p 4( st )6 C x (st ) ( xy )st * 4. Sonuç ve öneriler 354 1 2 ( x )h C x (h) xyh Bu çal mada, yard mc de!i ken bilgisi kullan larak tabakal rasgele örneklemede bile ik ve ayr üstel tahmin edici aileleri önerilmi tir. Bu tahmin edicilerin yan ve hata kareler ortalamas hesaplanm ve kar la t rmalar yap lm t r. Bu kar la t rmalara göre ayr tahminler bile ik tahminlere göre daha etkindir. En küçük hata kareler ortalamas na sahip tahmin edici ise iki yard mc de!i ken kullan m nda önerilen tahmin edici olmaktad r. Kaynaklar [1] H. Ç ng , (1994), Örnekleme Kuram , H.Ü. Fen Fakültesi Bas mevi, Beytepe. [2] H.P. Singh, G.K. Vishwakarma, (2007), Modified exponential ratio and product estimators for finite population mean in double sampling, Austrian Journal of Statistics, 36, 3, 217-225. [3] J. Shabbir, S. Gupta, (2007), On improvement in variance estimation using auxiliary information, Communications in Statistics: Theory and Methods, 36, 2177-2185. [4] N. Koyuncu, C. Kad lar, (2009), Family of estimators of population mean using two auxiliary variables in stratified random sampling, Communications in Statistics: Theory and Methods, (kabul edildi). [5] R. Singh, C. Pankaj, N. Sawan, (2008), On linear combination of ratio and product type exponential estimator for estimating the finite population mean, Statistics in Transition, 9, 1, 105-115. [6] S. Bahl, R.K. Tuteja, (1991), Ratio and product type exponential estimator, Information and optimization sciences, XII, I, 159-163. 355 Nadaraya-Watson Çekirdek Kestiricilerinin Yar Parametrik Model Tahminindeki Performans Üzerine Bir Benzetim Çal !mas Özge Akku Serdar Demir Hüseyin Tatl dil MuGla Ünv. Fen Edebiyat Fak. statistik Bölümü,48000, Kötekli, MuGla ozge.akkus@mu.edu.tr Pamukkale Ünv. ktisadi ve dari Bilimler Fak. Ekonometri Bölümü, 20020, K:n:kl:, Denizli sdemir@pau.edu.tr Hacettepe Ünv. Fen Fak. statistik Bölümü,06532, Beytepe, Ankara tatlidil@hacettepe.edu.tr Özet BaG:ml: deGi#kenin iki düzeyli olduGu olas:l:k modellerinde parametre tahmini için üç temel yakla#:m vard:r. Bunlar parametrik, parametrik olmayan ve yar: parametrik yakla#:mlard:r. Bu yakla#:mlardan parametrik yakla#:mda hata terimi ile ilgili bilinen bir daG:l:m varsay:m: yap:l:rken yar: parametrik alternatifinde böyle bir varsay:ma gereksinim duyulmamaktad:r. Yap:lan daG:l:m varsay:m:n:n hatal: olmas: durumunda yan:lt:c: sonuçlar verebilen parametrik yakla#:m:n en önemli avantaj: parametre tahminlerinin kolay elde edilebilir olmas:d:r. Yar: parametrik yakla#:m ise daha az varsay:m gerektirmekte, varsay:m bozulumlar:nda daha doGru tahminler vermekte fakat uygulamada kar#:la#:lan baz: problemlerden dolay: yayg:n olarak kullan:lmamaktad:r. Her iki yakla#:mda ortak yap:lan tek varsay:m, aç:klay:c: deGi#kenler aras:ndaki fonksiyonel yap:n:n doGrusall:G:d:r ( x T{ ). Parametrik olmayan yakla#:mda hiçbir varsay:m yap:lmamaktad:r. Ancak, aç:klay:c: deGi#ken say:s:n:n ikiden fazla olmas: durumunda bu yakla#:mda tahmin ve yorum giderek zorla#maktad:r. Bu çal:#mada yar: parametrik model tahmini üzerine yoGunla#:lm:#t:r. Tahmin süreci üç a#amadan olu#maktad:r. lk a#amada parametreler belirli yar: parametrik tahmin edicilere gore elde edilmekte, ikinci a#amada x T{ˆ doGrusal indeks deGerleri hesaplanmakta ve son a#amada baG:ml: deGi#ken Y’nin x T{ˆ üzerine parametrik olmayan regresyonu uygulanarak gözlemlerin baG:ml: deGi#kende “1” olarak kodlanan düzeye ait olma olas:l:klar: tahmin edilmektedir. Literatürde yer alan s:n:rl: say:daki çal:#mada bu a#ama için klasik NadarayaWatson (NW) tahmin edicisinin kullan:ld:G: görülmü#tür. Burada, klasik NW tahmin edicisine alternatif olabilecek uyarlanabilir NW tahmin edicisinin yar: parametrik model tahminideki kullan:m: ve baz: istatistiksel kriterlere göre performans: yap:lan bir benzetim çal:#mas: ile ara#t:r:lm:#t:r. Anahtar sözcükler: Uyarlanabilir Nadaraya Watson Çekirdek Kestiricisi, Yar: parametrik yakla#:m, Klein ve Spady tahmin edicisi, ki düzeyli baG:ml: deGi#ken modeli Abstract A Simulation Study on the Performance of the Nadaraya-Watson Kernel Estimators in the Semiparametric Model Estimation There are three fundamental approaches for the parameter estimates of the probability models when the dependent variable is binary. These are the parametric, the nonparametric and the semi-parametric approaches. Among these approaches, a known distribution assumption is made related to the error term in the parametric approach whereas this kind of assumption is not required in the semi-parametric alternative. The most important advantage of the parametric approach that may give misleading results when the distribution assumption is incorrect is that parameter estimates are easily obtained. The semi-parametric approach requires less assumption, gives more accurate estimates when the assumptions are violated but has not widely used yet because of some problems encountered in the application. The unique common assumption made in either model is the linearity ( x T{ ) of the functional form of the explanatory variables. Any assumption is made in the nonparametric approach. However, estimation and interpretation become hard when the number of the explanatory variables is more than two. 356 The semi-parametric model estimation is focused in this study. The estimation process is composed of three parts. In the first step, parameters are obtained according to the specific semi-parametric estimators; in the second step, linear index values ( x T{ˆ ) are calculated and in the last step, probabilities of observations belonging to the category coded as “1” in the dependent variable are estimated by applying the nonparametric regression of Y on x T{ . It is revealed that the classical Nadaraya-Watson (NW) estimator is used for this step in the limited number of study in the literature. Here, the use of the adaptive NW estimators that may be alternative to the classical NW estimator in the semi-parametric model estimation and the performance of them were assessed according to some statistical criteria based on a simulation study. Keywords: Adaptive Nadaraya Watson Kernel Estimator; Semiparametric approach; Klein and Spady estimator; Binary dependent variable model 1. Giri! Ba! ml de!i kenin iki düzeyli oldu!u olas l k modellerinde parametre tahmini için üç temel yakla m vard r. Bunlar, parametrik, parametrik olmayan ve yar parametrik yakla mlard r. Parametrik yakla mda hata terimi ile ilgili bilinen bir da! l m varsay m yap l rken yar parametrik alternatifinde böyle bir varsay ma gereksinim duyulmamaktad r. Yap lan da! l m varsay m n n hatal olmas durumunda yan lt c sonuçlar verebilen parametrik yakla m n en önemli avantaj parametre tahminlerinin kolay elde edilebilir olmas d r. Yar parametrik yakla m ise daha az varsay m gerektirmekte, varsay m bozulumlar nda daha do!ru tahminler vermekte fakat uygulamada kar la lan baz problemlerden dolay yayg n olarak kullan lmamaktad r. Her iki yakla mda ortak yap lan tek varsay m, aç klay c de!i kenler aras ndaki fonksiyonel yap n n do!rusall ! d r ( x T { ). Parametrik olmayan yakla mda hiçbir varsay m yap lmamaktad r. Ancak, aç klay c de!i ken say s n n ikiden fazla olmas durumunda bu yakla mda tahmin ve yorum giderek zorla maktad r. Bu çal mada yar parametrik model tahmini üzerine yo!unla lm t r. Tahmin süreci üç a amadan olu maktad r. lk a amada parametreler belirli yar parametrik tahmin edicilere gore elde edilmekte, ikinci a amada x T {ˆ do!rusal indeks de!erleri hesaplanmakta ve üçüncü a amada ba! ml de!i ken Y’nin x T {ˆ üzerine parametrik olmayan ortalama regresyonu uygulanarak gözlemlerin ba! ml de!i kende “1” olarak kodlanan düzeye ait olma olas l klar tahmin edilmektedir. Bu a ama için literatürde sadece sabit bant geni li!ini kullanan klasik NW tahmin yöntemi kullan lmaktad r. Ba! ml de!i kenin sürekli olmas durumunda regresyon fonksiyonlar n n tahmininde de!i en bant geni li!ini kullanan NWU tahmin yöntemi Demir (2005) taraf ndan incelenmi tir. Ba! ml de!i kenin iki düzeyli kategorik bir de!i ken olmas durumunda bu yöntemin yar parametrik model tahminindeki performans n n ortaya ç kar lmas ise bu çal man n temel amac n olu turmaktad r [1,4,5,8]. 2. Yar parametrik model tahmini Ba! ml de!i kenin iki düzeyli kategorik bir de!i ken olmas durumunda ko ullu ortalama fonksiyonu E (Y / X = x ) ’in modellendi!i çal malarda a a! da verilen bir olas l k ifadesine ula l r. E(Y / X = x ) = P [Y = 1 / X = x ] = G ( x T {) (1) Burada G, hata terimi için bilinen bir da! l m fonksiyonunu; x T { ise aç klay c de!i kenler aras ndaki fonksiyonel ili kinin do!rusall ! n göstermektedir. G için bilinen bir da! l m varsay m yap lmadan daha do!ru tahminler elde edebilmek amac yla geli tirilen yar parametrik yakla mda sadece aç klay c de!i kenler aras ndaki fonksiyonel yap n n x T { biçiminde do!rusal oldu!u varsay lmaktad r. Bilinmesi durumunda G ile gösterilen hata teriminin da! l m fonksiyonu bu yakla mda bilinmemekte ve “g” ile ifade edilmektedir. ki düzeyli ba! ml de!i ken için yar parametrik model, 357 E(Y / X = x ) = P [Y = 1 / X = x ] = g ( x T {) (2) biçiminde tan mlanmaktad r. Burada amaç ve g’nin en iyi tahminlerini elde edebilmektir. ˆ için literatürde s kl kla kullan lan yöntem Klein ve Spady (KS) (1993)’nin Yar Parametrik En Çok Olabilirlik Tahmin Edicisi’dir. Bu yöntem ile ilgili detayl bilgiye [9]’dan ula labilir. 3. Klasik ve uyarlanabilir Nadaraya-Watson çekirdek kestiricileri Yar parametrik modellemenin son a amas n olu turan olas l k tahminleri için parametrik olmayan regresyon fonksiyonu tahmin edicileri kullan lmaktad r. Tahminlerin daha kolay elde edilebilir olmas ndan dolay bu tahmin ediciler aras nda en s k kullan lan çekirdek fonksiyonlar üzerine kurulu olan NW tahmin edicisidir. Bu yöntemde tüm tahminler için ayn bant geni li!i (h) kullan lmaktad r. Ancak bu yöntem baz durumlarda ba ar s z olmaktad r. Verilerin s k oldu!u bölgelerde yeterli düzle tirme yapan bu yöntem, verilerin seyrek oldu!u bölgelerde yeterli düzle tirmeyi yapamamaktad r. Ayr ca, gere!inden büyük bir bant geni li!i fazla düzle tirme yapmakta ve da! l m n önemli tepelerini yok edebilmekte, gere!inden küçük bir bant geni li!i ise yeterli düzle tirme yapmakta ba ar s z olmaktad r. Bu problemler dikkate al nd ! nda klasik yönteme alternatif yöntemler önerilmi tir. lk olarak olas l k yo!unluk fonksiyonunun tahmininde kullan lan NWU tahmin edicisi, verilerin s k oldu!u bölgeler için küçük bir bant geni li!i; seyrek oldu!u bölgeler için ise büyük bir bant geni li!i kullan lmas ilkesine dayan r. Olas l k yo!unluk fonksiyonlar n n tahmininde kullan lan bu yöntem, Demir (2005) taraf ndan ba! ml de!i kenin sürekli oldu!u regresyon fonksiyonlar n n tahminine uyarlanm t r. Bu çal mada ise ba! ml de!i kenin iki düzeyli kategorik bir de!i ken oldu!u durum için NW ve NWU tahmin edicilerinin yar parametrik model tahminindeki performanslar ara t r lmaktad r. 3.1. Sabit bant geni#liGini kullanan klasik Nadaraya-Watson çekirdek kestiricisi X ve Y, f ( x , y) bile ik olas l k yo!unluk fonksiyonuna sahip iki rasgele de!i ken olsun. Y’nin verilen X = x ’e göre ko ullu beklenen de!eri, E (Y / X = x ) = . y f ( y / x ) dy = . y f ( x , y) dy = m ( x ) f X (x ) (3) biçiminde ifade edilmektedir. Burada f ( y / x ) , Y’nin, verilen X = x ’e göre ko ullu olas l k yo!unluk fonksiyonu, f X ( x ) ise X’in marjinal olas l k yo!unluk fonksiyonudur. Veri kümesindeki her bir x i için ko ullu beklenen de!er m ( x i ) elde edilir ve toplam n tane ( i = 1, K , n ) de!erden olu an ko ullu beklenen de!erler kümesi olu turulur. Böylece, Y ve X’in “ortalama olarak” nas l ili kili oldu!u ortaya ç kmaktad r. Bu nedenle a a! da verilen m (.) ’in tahmini regresyonda ilgilenilen temel noktad r. m ( x ) = E (Y / X = x ) = . y f ( x , y) . y f ( x, y) dy dy = f X (x ) f X (x) (4) {X i , Yi }, ( i = 1,K, n ) biçiminde verilen gözlemler için, E itlik (4)’de f ( x , y) ve f X ( x ) bilinmemektedir. Tek bir de!i kenin olas l k yo!unluk fonksiyonu olmas ndan dolay f X ( x ) ’in tahmini kolayd r [2,12]. ki de!i ken X ve Y’nin bile ik olas l k yo!unluk fonksiyonu olan 358 f ( x , y) ’nin tahmini için, “Çarp msal Çekirdekler ile Çekirdek Yo!unluk Fonksiyonu” özelli!i kullan lmaktad r. h ve g s ras yla X ve Y de!i kenlerinin yo!unluklar n n tahmininde kullan lan bant geni likleri (düzle tirme parametreleri) olmak üzere, bu özellik kullan larak elde edilen yo!unluk fonksiyonu tahmini a a! daki biçimde ifade edilmektedir. f̂ h , g ( x, y) = x Xi 1 n Kg "Kh n i =1 h y Yi g (5) Çekirdek fonksiyonlar n n integralinin 1’i verdi!i ve 0 etraf nda simetrik oldu!u bilgisinden yararlan larak veri kümesindeki herhangi bir x için kar l k gelen Y de!erinin NW tahmini, a a! daki formül ile yap lmaktad r. n m̂ h ( x ) = n 1 " K h ( x X i ) Yi i =1 n (6) n " K h (x X i ) 1 i =1 Burada tüm tahminler için ayn bant geni li!i (h) kullan ld ! ndan dolay yöntem, klasik NW tahmin yöntemi olarak adland r lmaktad r. Yar parametrik tahminde m̂ h ( x ) de!erleri, gözlemlerin ba! ml de!i kende “1” olarak kodlanan düzeye ait olma olas l klar n n tahminini vermektedir [6,10,16]. 3.2.DeGi#en bant geni#liGini kullanan uyarlanabilir Nadaraya-Watson çekirdek kestiricileri Daha önce de belirtildi!i gibi parametrik olmayan regresyon fonksiyonlar n n tahmini genel olarak E itlik (4) ile verilen ko ullu ortalama fonksiyonu üzerine kuruludur. Nadaraya ve Watson (1964), pay ve paydadaki olas l k yo!unluk fonksiyonlar n n tahmininde çekirdek kestirimlerinin kullan lmas n önermi tir. ki de!i ken durumunda Epanechnikov (1969) taraf ndan bile ik olas l k yo!unluk fonksiyonunun çekirdek kestirimi, f̂ (x, y) = 1 n 1 && x - Xi y - Yi K , " n i =1 h X h Y hX hY (7) && (...) iki de!i kenli çekirdek fonksiyonunu göstermekte ve a a! da biçiminde verilmi tir. Burada K verilen “Çarp msal Çekirdek Fonksiyonu” kullan larak elde edilmektedir. && x K y Yi x Xi X i y Yi = K1 K2 , hY hX hY hX (8) K 1 = K 2 = K olmas durumunda iki de!i kenli olas l k yo!unluk fonksiyonunun çekirdek kestiricisi a a! daki biçimde elde edilir. f̂ ( x, y) = y Yi x Xi 1 n 1 K K " hY hX n i =1 h X h Y (9) Bu tahmin edici, sabit bant geni likli NW çekirdek kestiricisinin elde edilmesinde kullan lmaktad r. n gözlemli T1 , K , Tq (q boyutlu durumda) de!i kenleri için Sain (1994) taraf ndan, sabit bant geni li!i yerine de!i en bant geni li!i kullan larak çok de!i kenli olas l k yo!unluk fonksiyonunun uyarlanabilir (örneklem noktas ) çarp msal çekirdek kestiricisi, 359 f̂ u ( t 1 , K , t q ) = t q Tqi t T1i 1 n 1 K 1 KK " h (Tqi ) n i =1 h (T1i ) K h (Tqi ) h (T1i ) (10) biçiminde verilmi tir. ki de!i ken (x ve y) için E itik (10), a a! daki biçime dönü ür. f̂ u ( x, y) = y Yi x Xi 1 n 1 K K " h (Yi ) h (X i ) n i =1 h (X i ) h (Yi ) (11) E itlik (4)’de paydadaki kestirici yerine, f̂ u ( x ) = x Xi 1 n 1 K " h (X i ) n i =1 h (X i ) (12) biçiminde tan mlanan yo!unluk fonksiyonunun uyarlanabilir çekirdek kestiricisi ve paydaki kestirici yerine, E itlik (11) ile verilen kestirici koyuldu!unda a a! da verilen regresyon fonksiyonunun çekirdek kestiricisi elde edilmektedir [13,14]. Yi x Xi K h (X i ) i =1 nh ( X i ) n m̂ NWU ( x ) = . y f̂ u ( x, y) f̂ u ( x ) dy = x Xi 1 n 1 K " n i =1 h (X i ) h (X i ) Yi x Xi K hia i =1 a i n " " = x Xi 1 " K hia i =1 a i n (13) a i ’ler yerel bant geni li!i çarpanlar d r ve elde edilmesinde Silverman (1986) taraf ndan verilen üç a amal algoritma kullan lmaktad r. ~ ~ 1. Ad m: Tüm i’ler için f ( x ) > 0 olacak biçimde f ( x i ) > 0 önsel kestirim bulunur. Bu kestirimler için genellikle sabit bant geni likli çekirdek kestiricisi kullan l r. ~ 1 " log f ( x i ) , logaritmas , S , ( 0 ! S ! 1 ) n i duyarl l k parametresi olmak üzere, yerel bant geni li!i faktörü a i tan mlan r. ~ 2. Ad m: g, f ( x i ) ’lerin geometrik ortalamas , log g = ~ f (x i ) ai = g S (14) Burada, S ne kadar büyük olursa önsel kestirimlere duyarl l k da o kadar artar ve örneklemin farkl bölgelerinde kullan lan bant geni likleri aras ndaki fark da büyür. a i ’nin bulunmas nda geometrik ortalaman n kullan lmas n n nedeni, o noktadaki yo!unlu!un geometrik ortalamaya gore daha küçük oldu!u durum için daha büyük h de!eri seçmek; daha büyük oldu!u durumda ise daha küçük bir h de!erinin seçilmesini sa!lamakt r. 3. Ad m: h i = h a i bant geni li!i ile E itlik (13) ile verilen uyarlanabilir çekirdek kestiricisi elde edilir [15]. Bu çal mada, ba! ml de!i kenin iki düzeyli kategorik bir de!i ken olmas durumunda sabit bant geni li!ini kullanan NW ve geometrik ortalamaya gore yerel bant geni li!i çarpan n hesaplayan 360 uyarlanabilir NWU G ’nin farkl örneklem büyüklüklerinde yar parametrik model tahminindeki performans ara t r lm t r. 4. Benzetim çal !mas Bu bölümde, yar parametrik model tahmininin ilk a amas ndaki parametreler vektörünün tahmini için KS tahmin edicisi kullan lm t r. kinci a amada ise sabit bant geni li!ini kullanan NW ve de!i en bant geni li!ini kullanan NWU G ’nin yar parametrik model tahminindeki performans , Ortalama Hata Kareler Ortalamas (OHKO) ve Ortalama Do!ru S n flama Oran (ODSO) kriterlerine göre ara t r lm t r. 4.1. Veri Çal mada, n = 25 , n = 100 , n = 250 ve n = 500 geni liklerinde örneklemler, Proença (2001) taraf ndan da kullan lan, Indeks = 1 + X1 + X 2 fonksiyonu ve X 1 XStandart Normal Da! l m; X 2 XBernoulli (0.75) da! l mlar na göre türetilmi tir. Indeks de!erlerine göre olas l klar a a! daki fonksiyon ile hesaplanm t r. Olas l k = exp (indeks) 1 + exp(indeks) Ba! ml de!i ken Y ise, Y XBernoulli (Olas l k) da! l m ndan türetilmi tir. Her bir örneklem geni li!i için 1000 tekrar yap lm t r. lk a amas ndaki parametre tahminleri için kodlar NLogit yaz l m ile olu turulmu tur [7]. Çal mada, Gaussian ve Epanechnikov çekirdek fonksiyonlar kullan lm ve sonuçlar n farkl çekirdek fonksiyonlar na göre nas l de!i im gösterdi!i de ara t r lm t r. Çizelge 1. Farkl çekirdek fonksiyonlar na gore OHKO Sonuçlar Gaussian Epanechnikov NW NWUG NW NWUG n=25 0.0816* 0.0820 0.0923** 0.0942 n=100 0.0987* 0.1003 0.1040** 0.1062 n=250 0.1147* 0.1161 0.1170** 0.1186 n=500 0.1220* 0.1230 0.1234** 0.1246 * Gaussian çekirde!i için minimum OHKO ** Epanechnikov çekirde!i için minimum OHKO Çizelge 1 incelendi!inde, 1. Tüm örneklem büyüklükleri ve her iki çekirdek fonksiyonu için yar parametrik tahminin ikinci a amas nda kullan lan NW’dan elde edilen OHKO’lar n, NWUG’ya oranla daha dü ük oldu!u görülmektedir. Uygulama kolayl ! da dikkate al nd ! nda, birinci a amas KS ile tahmin edilen yar parametrik tahminin ikinci a amas nda, NW tahmin edicisinin kullan lmas önerilmektedir. 2. Epanechnikov çekirde!i kullan larak elde edilen tahminlerin OHKO’sunun tüm örneklem büyüklüklerinde, Gaussian çekirde!ine oranla daha büyük oldu!u gözlenmi tir. Ancak sonuçlar birbirinden çok az farkl l k göstermektedir. Bu nedenle kolay uygulanabilen herhangi bir çekirdek fonksiyonunun kullan lmas önerilmektedir. 361 Çizelge 2. Farkl çekirdek fonksiyonlar na gore ODSO Sonuçlar Epanechnikov Gaussian NW NWU NW NWU n=25 0.8880 0.8885* 0.8753** 0.8727 n=100 0.8664* 0.8643 0.8601** 0.8560 n=250 0.8454* 0.8428 0.8426** 0.8395 n=500 0.8352* 0.8329 0.8333** 0.8305 * Gaussian çekirde!i için maksimum ODSO ** Epanechnikov çekirde!i için maksimum ODSO Çizelge 2 incelendi!inde, Tüm örneklem büyüklüklerinde ODSO’lar n yüksek oldu!u, ancak yöntemlerin do!ru s n flama oranlar n n hem örneklem büyüklüklerine göre hem de kullan lan çekirdek fonksiyonuna göre önemli derecede farkl l k göstermedi!i görülmektedir. Bu nedenle, burada da göreli olarak daha yüksek ODSO’ya sahip olmas ve daha kolay uygulanabilir olmas bak m ndan, yar parametrik tahminin ikinci a amas nda klasik NW tahmin edicisinin kullan lmas önerilmektedir. Farkl örneklem büyüklükleri ve farkl çekirdek fonksiyonlar na gore NW ve NWUG tahminlerinin gerçek de!erlerden sapmalar n gösteren grafikler a a! da verilmektedir. 1.2 1.2 1 1 0.8 0.8 Y25 0.6 NW 0.4 NWU -0.2 0.4 NW NWU 0 0 -1 Y25 0.2 0.2 -2 0.6 0 1 2 -2 3 -1 -0.2 0 1 Bekil 1. n=25 Gaussian çekirde!i. 2 3 1.2 1 1.2 0.8 1 0.6 Y100 0.8 0.4 NW NWU Y100 NW 0.6 0.4 0 -2 -1 -0.2 0 NWU 0.2 -3 0.2 0 1 2 Bekil 3. n=100 Gaussian çekirde!i. Bekil 2. n=25 Epanechnikov çekirde!i. 362 -3 -2 -1 Bekil 4. n=100 -0.2 0 1 2 Epanechnikov çekirde!i. 1.2 1.2 1 1 0.8 0.8 Y250 0.6 0.4 -0.2 0 1 -3 3 Bekil 5. n=250 Gaussian çekirde!i -1 1.2 1.2 1 1 1 3 0.8 Y500 0.6 Y500 0.6 NW 0.4 NW 0.4 NWU 0.2 0 -0.5 -0.2 -0.2 Bekil 6. n=250 Epanechnikov çekirde!i 0.8 -2.5 NWU 0.2 0 -1 NW 0.4 NWU 0.2 -3 Y250 0.6 NW NWU 0.2 1.5 3.5 Bekil 7. n=500 Gaussian çekirde!i. -2.5 0 -0.5 -0.2 1.5 3.5 Bekil 8. n=500 Epanechnikov çekirde!i. rekiller incelendi!inde de her iki çekirdek fonksiyonu için elde edilen sonuçlar n birbirinden önemli derecede farkl l k göstermedi!i ve NW sonuçlar n n NWUG‘ya yak n oldu!u görülmektedir. 5. Sonuç ve öneriler Bu çal mada, iki düzeyli ba! ml de!i ken modelinde yar parametrik tahminin ilk a amadaki parametreler vektörü Klein ve Spady (KS) tahmin edicisi kullan larak elde edilmi tir. NW ve NWUG tahmin edicilerinin yar parametrik model tahminindeki performanslar ise farkl örneklem büyüklükleri için yap lan bir benzetim çal mas ile Ortalama Hata Kareler Ortalamas (OHKO) ve Ortalama Do!ru S n flama Oranlar (ODSO) kriterlerine göre kar la t r lm t r. Tahminler, Gaussian ve Epanechnikov çekirdek fonksiyonlar na göre ayr ayr incelenmi tir. Benzetim çal mas sonuçlar her iki çekirdek fonksiyonuna göre ayr ayr grafiklenmi tir. Tüm örneklem büyüklükleri ve her iki çekirdek fonksiyonu için NW’dan elde edilen OHKO’lar n, NWUG’ya oranla daha dü ük oldu!u görülmü tür. Uygulama kolayl ! da dikkate al nd ! nda, birinci a amas KS ile tahmin edilen yar parametrik modelin ikinci a amas nda, NW tahmin edicisinin kullan lmas önerilmi tir. Epanechnikov çekirde!i kullan larak elde edilen tahminlerin OHKO’sunun tüm örneklem büyüklüklerinde, Gaussian çekirde!ine oranla daha büyük oldu!u gözlenmi tir. Ancak sonuçlar birbirinden çok az farkl l k gösterdi!inden dolay , kolay uygulanabilen herhangi bir çekirdek fonksiyonunun kullan lmas önerilmi tir. Ayr ca, tüm örneklem büyüklüklerinde ODSO’lar n yüksek oldu!u, ancak yöntemlerin do!ru s n flama oranlar n n hem örneklem büyüklüklerine göre hem de kullan lan çekirdek fonksiyonuna göre önemli derecede farkl l k göstermedi!i görülmü tür. Bu nedenle, burada da göreli olarak daha yüksek ODSO’ya sahip olmas ve daha kolay uygulanabilir olmas bak m ndan yar parametrik tahminde sabit bant geni li!ini kullanan klasik NW tahmin edicisinin kullan lmas önerilmi tir. 363 Kaynaklar [1] Ö. Akku , (2008), Tek ndeks Modellerinde Yar Parametrik Yakla mlar, Doktora Tezi, Hacettepe Üniversitesi Fen Bilimleri Enstitüsü, Ankara, 98s. [2] S. Demir, (2005), Regresyon Fonksiyonlar n n Uyarlanabilir Nadaraya-Watson Çekirdek Kestirimleri, Doktora Tezi, Hacettepe Üniversitesi Fen Bilimleri Enstitüsü, Ankara, 101s. [3] V.K. Epanechnikov, (1969), Non-parametric Estimation of a Multivariate Probability Density, Theory of Probability and its Applications, 14, 153-158. [4] M. Gerfin, (1996), Parametric and Semiparametric Estimation of the Binary Response Model of Labour Market Participation, Journal of Applied Econometrics, 11, 321-339. [5] W. Hardle, M. Müller, S. Sperlich, A. Werwatz, (2004), Nonparametric and Semiparametric Models, Springer-Verlag, New York., 299p. [6] M.L. Hazelton, (2007), Bias Reduction in Kernel Binary Regression, Computational Statistics and Data Analysis, 51, 4393-4402. [7] J.M. Hilbe, (2006), A Review of LIMDEP 9.0 and NLogit 4.0, The American Statistician, 60, 187-202. [8] J.L. Horowitz, (1998), Semiparametric Methods in Econometrics, Springer-Verlag, New York, 204p. [9] W. Klein, R.H. Spady, (1993), An Efficient Semiparametric Estimator for Binary Response Models, Econometrica, 61, 387-421. [10] E.A. Nadaraya, (1964),On Estimating Regression, Theory of Probability and Its Applications, 10, 186-190. [11] I. Proença, S. Silva, 2001, Parametric and Semiparametric Specification Tests for Binary Choice Models: A Comparative Simulation Study, Econometrics, Econ WPA, No: 0508008. [12] M. Rosenblatt, (1956), Remarks on some nonparametric estimates of a density function. Annals Math. Statistics, 27, 832-837. [13] S.R. Sain, (1994), Adaptive Kernel Density Estimation. Ph.D. Dissertation, Department of Statistics, Rice University. [14] S.R. Sain, D.W. Scott, (1996), On Locally Adaptive Density Estimation, Journal of the American Statistical Association, 91, 1525-1534. [15] B.W. Silverman (1986), Density Estimation for Statistics and Data Analysis, London: Chapman and Hall. [16] G. S. Watson, (1964), Smooth Regression Analysis, Sankhya, Series A, 26, 359-72. 364 A! rl kl Bilgi Kriteri ile Türkiye Toplam Elektrik Tüketiminin Öngörüsü Ça!da Hakan Alada! Erol E!rio!lu Süleyman Günay Hacettepe Üniversitesi Fen Fak., statistik Bölümü 06532-Beytepe, Ankara, Türkiye aladag@hacettepe.edu.tr Ondokuz May:s Üniversitesi Fen Edebiyat Fak., statistik Böl. 55139-Kurupelit, Samsun, Türkiye erole@omu.edu.tr Hacettepe Üniversitesi Fen Fak., statistik Bölümü 06532-Beytepe, Ankara, Türkiye sgunay@hacettepe.edu.tr Özet Yapay sinir aGlar: literatürde zaman serilerinin öngörülmesinde ba#ar:yla kullan:lmaktad:r. Yöntemin kullan:m kolayl:G: ve öngörüdeki ba#ar:l: performans:na kar#:n, halen ara#t:rmac:lar:n yöntem üzerinde çal:#t:G: baz: noktalar vard:r. ÖrneGin, öngörü performans:n: art:rmak amac:yla, en iyi mimmarinin belirlenmesi için çe#itli yakla#:mlar önerilmi#tir. Önerilen yakla#:mlardan baz:lar: mimari seçiminde kullan:lan performans ölçütlerine dayanmaktad:r. Bu çal:#mada, Türkiye toplam elektrik tüketimi için daha iyi öngörüler elde edbilmek amac:yla, EGrioGlu ve arkada#lar: taraf:ndan önerilen aG:rl:kl: bilgi kriteri [5] kullan:lm:#t:r. Mimari seçiminde, literatürde en çok bilinen diGer performans ölçütleri de kullan:larak, elde edilen sonuçlar görsel olarak kar#:la#t:r:lm:#t:r. AG:rl:kl: bilgi kriteri kullan:m:yla seçilen en iyi mimari kullan:larak 2011 y:l:na kadar Türkiye toplam elektrik tüketimi tahmin edilmi#tir. Anahtar sözcükler: AG:rl:kl: bilgi kriteri; mimari seçimi; öngörü; Türkiye elektrik tüketimi; yapay sinir aGlar:; zaman serileri. Abstract Forecasting Electricity consumption of Turkey by using weighted information criterion Artificial neural networks have been successfully used to forecast time series in the literature. In spite of the fact that it’s simple usage and accurate forecasting performance, there are still some issues, on which some researchers study, about artificial neural networks. For example, in order to increase forecasting accuracy, various approaches have been proposed to determine best architecture in the literature. Some of these approaches are based on performance measures using for selection of architecture. In this study, weighted information criterion introduced by EGrioGlu et al. [5] and some other performance criteria are used to determine best architecture when Electricity consumption of Turkey time series is forecasted. Results obtained from different criteria are compared visually. Weighted information criterion is used as performance measure in order to forecast the time series until 2011. Keywords: Weighted information criterion; Architecture selection; Electricity consumption of Turkey; Keyword Artificial neural networks; Time series. 1. Giri! Çok de!i ik alanlarda, zaman serilerinin modellenmesinde ve öngörülmesinde yapay sinir a!lar (YSA) modelleri ba ar yla kullan lmaktad r [5]. YSA kullan m n n di!er alternatif zaman serisi çözümleme yöntemlerine göre daha iyi öngörü sonuçlar vermesi ile ilgili literatürde birçok çal ma mevcuttur [2]. YSA modellerinin di!er çözümleme yöntemlerine göre daha iyi öngörü üretmesinin en önemli nedeni, YSA yönteminin zaman serilerindeki hem do!rusal, hem e!risel yap y ö!renebilme yetene!ine sahip olmas d r [6]. Di!er 365 yöntemlere göre sa!lad ! daha iyi öngörü sonuçlar na ve kullan m kolayl ! na kar n, daha güvenilir öngörüler elde etmek amac yla YSA üzerinde çal malar devam etmektedir [3]. YSA modellerinin öngörü performans n art rmak amac yla üzerinde dü ünülen konulardan biri, en iyi YSA mimarisinin belirlenmesi problemidir. YSA yönteminin öngörü elde etmede gösterdi!i ba ar ya kar n, YSA yönteminin kullan m nda halen baz sorunlar bulundu!u literatürde çok say daki çal mada belirtilmi tir. Bu sorunlar n ba nda, en iyi mimarinin belirlenmesinde genel bir yöntemin bulunamam olmas gelmektedir [3]. Literatürde en iyi YSA mimarisinin belirlenebilmesi için çe itli yakla mlar önerilmi tir. Önerilen yakla mlardan baz lar Box-Jenkins modellerine, budama algoritmalar na, yeni önerilen performans ölçütlerine, polinominal zaman algoritmalar na, baz sezgisel yöntemlere ya da baz istatistiksel yöntemlere dayanmaktad r [1,3,5]. YSA mimari seçimi için E!rio!lu ve arkada lar [5], farkl özelliklere sahip performans ölçütlerini a! rl kland rarak, a! rl kl bilgi kriteri (ABK) ad n verdikleri yeni bir öngörü performans ölçütü önermi lerdir. Farkl özellikteki kriterlerin a! rl kl toplamlar ndan olu an ABK ile kullan lan tüm performans ölçütlerinin sunduklar bilgiyi tek bir kriterde toplamay amaçlam lard r. Çal malar nda, önerdikleri kriterin di!er performans ölçütlerinden daha tutarl sonuçlar verdi!ini göstermi lerdir [5]. Buna göre, önerilen performans ölçütüyle YSA mimarisi belirlendi!inde, daha iyi öngörü elde edilebilece!ini vurgulam lard r [5]. Bu çal mada, Türkiye toplam elektrik tüketimi öngörmek için, mimari seçiminde a! rl kl bilgi kriteri (ABK) [5] ve literatürde tercih edilen di!er baz performans ölçütleri kullan lm t r. Uygulama sonucu elde edilen öngörü performanslar görsel olarak kar la t r lm t r. ABK kullan m yla seçilen yapay sinir a! mimarisi ile Türkiye toplam elektrik tüketimi 2011 y l na kadar tahnin edilmi tir. 2. Yapay sinir a<lar Zaman serisi çözümleme yöntemi olarak YSA yöntemi veriye dayal bir yöntemdir. ncelenen zaman serisinin yap s na göre farkl YSA bile enleri kullanmak daha yararl olabilir. YSA bile enlerinin do!ru seçilmesi YSA yönteminin performans n önemli derecede etkiler. YSA bile enleri E!rio!lu ve arkada lar taraf ndan a a! daki gibi verilmi tir [4]. Mimari Yap:: YSA mimarileri ileri beslemeli ve geri beslemeli mimariler olarak ikiye ayr lmaktad r. Zaman serisi öngörü problemleri için, ileri beslemeli mimariler yeteri kadar iyi sonuç verdi!inden, çal mada daha basit yap ya sahip ileri beslemeli sinir a!lar kullan lm t r. En basit hali ile çok tabakal ileri beslemeli bir yapay sinir a! mimari yap s rekil 1 de verilmi tir. rekilde de görüldü!ü gibi çok tabakal ileri beslemeli bir yapay sinir a! mimarisi üç k s mdan olu ur. Bunlar girdi tabakas , gizli tabaka ve ç kt tabakas d r. Tabakalar, nöron (dü!üm) ad verilen birimlerden olu maktad r. Mimarinin tam olarak belirlenmesi tabakalardaki nöron say s na karar verilmesi ile gerçekle ir. YSA de nöronlar birbirlerine a! rl klar ile ba!l d rlar. leri beslemeli a!larda bu ba!lant lar tek yönlü ve ileri do!rudur. Ayn tabakan n birimleri aras nda ba!lant yoktur. 366 Ç kt tabakas Gizli tabaka Girdi tabakas Bekil 1. Çok tabakal ileri beslemeli yapay sinir a! . Zaman serilerinin gelecek tahmininde genellikle, 3 tabakal ileri beslemeli sinir a!lar n n kullan m tercih edilir. Tek de!i kenli zaman serileri için a! n girdileri geçmi veya gecikmeli de!i kenler, ç kt s ise tahmin de!eridir. Öngörü problemi için yapay sinir a! e!risel otoregresif modele denktir. Girdi tabakas ndaki nöronlardan gizli tabakay atlayarak do!rudan ç kt tabakas na ba!lant yap lmas ile elde edilecek yeni yapay sinir a! modeli ise e!risel ve do!rusal iki otoregresif modelin toplam olur. ÖGrenme Algoritmas:: YSA de a! rl klar n belirlenmesinde kullan lan bir çok ö!renme algoritmas vard r. En çok kullan lan ö!renme algoritmalar ndan biri Geri Yay l m (Back Propagation) Algoritmas d r. Geri yay l m algoritmas eldeki veri ile a! n ç kt s aras ndaki farka dayal olarak a! l klar n güncellenmesini gerçekle tirir. Geri yay l m algoritmas nda kullan lan ö!renme parametresi optimal sonuca yeterli derecede yakla lmas nda önemli rol oynar. Ö!renme parametresi sabit olarak al nabilece!i gibi algoritma içinde dinamik olarak da güncellenebilir. Aktivasyon Fonksiyonu: Aktivasyon fonksiyonu girdi ve ç kt birimleri aras ndaki e!risel e le meyi sa!lar. Aktivasyon fonksiyonunun do!ru seçilmesi a! n performans n önemli derecede etkiler. Aktivasyon fonksiyonu genelde tek kutuplu, çift kutuplu ya da do!rusal olarak seçilebilir. Seçilen aktivasyon fonksiyonu do!rusal olmad ! nda e!im parametresinin belirlenmesi gerekmektedir. E!im parametresi de en iyi sonuca yeterli derecede yakla lmas nda önemli rol oynayan bir faktördür. 3. A< rl kl bilgi kriteri kullan m ile mimari seçimi Zaman serileri öngörü probleminde, en iyi YSA mimarisi belirlenirken, test kümesi üzerinden hesaplanan çe itli performans ölçütleri kullan l r. Literatürde en çok tercih edilen ölçütler aras nda, AIC, BIC, hata kareler ortalamas karekök (HKOK), ortalama mutlak hata yüzdesi (OMHY) ve yön sa!laml ! (YS) ölçütleri bulunmaktad r [7]. YSA modelinden elde edilen öngörüler ile gerçek de!erler aras ndaki farkl l ! , de!i ik yönlerden ölçen bu ölçütler s ras yla 367 T "(y AIC = log i =1 i yˆ i ) 2 T + 2m T + m log(T ) T (1) T "(y BIC = log i =1 i yˆ i ) 2 T (2) 1/ 2 T "(y HKOK = i =1 i yˆ i ) 2 T (3) OMHY = 1 T y i yˆ i " T i =1 y i (4) /1 1 T YS = " ai , ai = 0 T i =1 10 if ( y i +1 y i )( yˆ i +1 yi ) > 0 otherwise. ( 5) eklinde hesaplan r. Burada, yi, gerçek de!erleri, ŷ i , YSA mimarisinden elde edilen öngörüleri, T, test kümesindeki gözlem say s n ve m, YSA mimarisindeki a! rl k say s n göstermektedir. Öngörülen zaman serisindeki dönüm noktalar n n ne kadar iyi tahmin edildi!ini ölçen ve de!i tirilmi yön sa!laml ! (DYS) ad verilen bir di!er ölçüt E!rio!lu ve arkada lar taraf ndan önerilmi tir [5]. DYS ölçütü Ai = 1 , y i +1 yi ! 0 Ai = 0 Fi = 1 , y i +1 , yˆ i +1 , yˆ i +1 yi > 0 yˆ i ! 0 yˆ i > 0 Fi = 0 Di = ( Ai Fi ) 2 T 1 MDA = "D i =1 i T 1 ( 6) 368 eklinde hesaplanabilir. (1)-(6) performans ölçütleri elde edilen öngörülerin iyili!ini farkl yönlerden ölçmektedir. E!rio!lu ve arkada lar tüm bu performans ölçütlerini tek bir kriterde birle tirerek, hepsinin farkl avantajlar n tek bir performans ölçütünde toplamay amaçlam lard r. Buna göre, yukar da verilen tüm ölçütlerin a! rl kl toplam ndan olu an yeni bir ölçüt önermi lerdir [5]. A! rl kl bilgi kriteri ad n verdikleri bu ölçütün kullan lmas yla, mimari seçiminin yap lmas u ekilde be ad mda özetlenebilir [5]: Ad:m 1. ncelenecek mimari aral ! belirlenir. Örne!in, girdi ve gizli tabaka birim say s n n 1 ile 12 aras nda de!i ti!i ve bir ç kt biriminin kullan ld ! bir durumda, 144 mimari incelenecektir. Ad:m 2. E!itim kümesi üzerinden mimariler için en iyi a! rl k de!erleri belirlendikten sonra, test kümesi üzerinden AIC, BIC, HKOK, OMHY, YS ve DYS ölçütleri hesaplan r. Ad:m 3. Tüm mimariler için hesaplanan AIC, BIC, HKOK, OMHY, YS ve DYS de!erleri standartla t r l r. Örne!in 144 AIC de!eri AIC i = AIC i min( AIC ) , max( AIC ) min( AIC ) i = 1,...,144 eklinde standartla t r l r. Ad:m 4. Her bir mimari için ABK de!eri WIC = 0.1( AIC + BIC ) + 0.2 ( HKOK + OMHY ) + 0.2 ((1 YS ) + DYS ) ( 7) eklindeki formülle hesaplan r. Ad:m 5. Son ad mda, en küçük ABK de!erine sahip mimari seçilir. 4. Sonuç ve öneriler Yap lan çal mada, 1970 ile 2006 y llar aras nda Türkiye toplam elektrik tüketimi (106 kw/sa) y ll k zaman serisi YSA ile çözümlenmi tir. Çözümlenen zaman serisinin grafi!i rekil 2’de verilmi tir. 369 Bekil 2. Türkiye toplam elektrik tüketimi. 37 gözlemden olu an zaman serisinin ilk 32 gözlemi e!itim, son 5 gözlemi test kümesi için kullan lm t r. Çözümlemede, öngörü problemlerinde ba ar s n kan tlam olan, tek ç k birimi içeren ileri beslemeli sinir a!lar [6] kullan lm t r. Bir gizli tabaka kullan lm ve a! n tüm birimlerinde lojistik aktivasyon fonksiyonu kullan m tercih edilmi tir. Girdi birim say s ve gizli tabaka birim say s 1 ile 14 aras nda de!i tirilerek, toplamda 196 farkl mimari ile çözümleme yap lm t r. ncelenen 196 mimari için HKOK, OMHY, AIC, BIC, YS, DYS performans ölçütleri ve bu ölçütlerin a! rl kl toplamlamlar ndan olu an ABK de!erleri hesaplanm t r. AIC, BIC, YS ve DYS öçütlerini tek ba na mimari seçiminde kullanmak, ölçütlerin özelliklerinden dolay tercih edilen bir durum de!ildir. ABK, HKOK ve OMHY ölçütlerine göre seçilen en iyi mimariler ve sahip olduklar performans ölçütü de!erleri Çizelge 1’de verilmi tir. Çizelge 1. ABK, HKOK ve OMHY ölçütlerine göre en iyi mimariler. Di!er ölçütlerin de!erleri ABK HKOK OMHY Performans ölçütü En iyi mimari ABK 1-6-1 0,0041 5648,21 0,0075 HKOK 3-5-1 0,0082 5306,87 0,0040 OMHY 2-2-1 0,1282 11331,63 0,0037 Çizelge 1 incelendi!inde, örne!in ABK de!erine göre seçim yap ld ! nda, girdi tabkas nda 1, gizli tabakada 6 birimin bulundu!u ve bir ç kt birimi içeren mimari (1-6-1) seçilmi tir. HKOKve OHMY ölçütlerine göre seçim yap ld ! nda s ras yla 3-5-1 ve 2-2-1 mimarileri en iyi mimari olarak belirlenmi tir. Sonuçlar görsel olarak kar la t rabilek için, test kümesindeki gerçek de!erlerlerle, belirtilen bu üç performans ölçütüne göre seçilen mimarilerin tahmin de!erlerinin grafikleri rekil 3, rekil 4 ve rekil 5’de verilmi tir. Grafiklerde, gerçek de!erler düz çizgi ile belirtilirken, kesikli çizgiler tahmin de!erlerini göstermektedir. Dikey eksenler elektrik tüketim miktar n , yatay eksenler test kümesi gözlem numaralar n göstermektedir. 370 Bekil 3. 1-6-1 mimarisi tahmin de!erleri ve gerçek de!erlerin birlikte grafi!i. Bekil 4. 3-5-1 mimarisi tahmin de!erleri ve gerçek de!erlerin birlikte grafi!i. 371 Bekil 5. 2-2-1 mimarisi tahmin de!erleri ve gerçek de!erlerin birlikte grafi!i. E!rio!lu ve arkada lar yapt klar çal mada, performans ölçütü olarak ABK kullan m n n, HKOK ve OMHY kullan m na göre daha tutarl sonuçlar verdi!ini göstermi lerdir [5]. Verilen grafikler incelendi!inde, mimari seçiminde ABK kullan m n n oldukça iyi öngörü de!erlerine götürdü!ünü söylemek mümkündür. Buna göre, ABK kullan m yla en iyi olarak belirlenen 1-6-1 mimarisinin kullan lmas yla, Türkiye toplam elektrik tüketimi 2011 y l na kadar öngörülmü ve elde edilen de!erler Çizelge 2’de verilmi tir. Çizelge 2. 2011 y l na kadar Türkiye toplam elektrik tüketimi tahminleri. Y llar 2007 2008 2009 2010 2011 Tahminler (106kw/sa) 156582,16 166902,67 177036,56 187734,54 205416,43 ABK ile belirlenen 1-6-1 sinir a! mimarisinden elde edilen ve Çizelge 2’de de!erleri verilen gelecek öngörü de!erlerinin grafi!i rekil 6’da görülmektedir. rekil 6 incelendi!inde, 2010 y l na kadar Türkiye elektrik tüketimin belli bir art la yükselmesi beklenirken, 2011 y l nda toplam tüketimde daha büyük bir art n olabilece!i öngörülmektedir. 372 Bekil 6. 2011 y l na kadar Türkiye toplam elektrik tüketimi tahminleri. Kaynaklar [1] [2] [3] [4] [5] [6] [7] Ç.H. Alada! ve E. E!rio!lu, (2005), ARMA Yap l Zaman Serileri çin Genel Bir Yapay Sinir A! Modeli Belirlemek Amac yla Bir Simülasyon Çal mas , 4. statistik Kongresi Bildiriler Kitab , 397–406. Ç.H. Alada!, E. E!rio!lu, ve S. Günay, (2007), Yapay Sinir A!lar le Türkiye Elektrik Tüketiminin Tahmini, 16. statistik Ara t rma Sempozyumu Tam Metin Kitab , 181–191. Ç.H. Alada!, E. E!rio!lu, and S. Günay, (2008), A new architecture selection strategy in solving seasonal autoregressive time series by artificial neural networks, Hacettepe Journal of Mathematics and Statistics, 37(2), 185–200. E. E!rio!lu, Ç.H. Alada!, and S. Günay, (2007), Uzun Dönem Ba! ml Zaman Serilerinin Yapay Sinir A!lar le Çözümlenmesinde Mimari Seçim Kriterlerinin Kar la t r lmas , 8. Türkiye Ekonometri ve statistik Sempozyumu, (http://web.inonu.edu.tr/~eisemp8/bkitap.php). E. E!rio!lu, Ç.H. Alada!, and S. Günay, (2008), A New Model Selection Strategy In Artificial Neural Network, Applied Mathematics and Computation, 195, 591–597. S. Günay, E. E!rio!lu ve Ç.H. Alada!, (2007), Tek De!i kenli Zaman Serileri Analizine Giri , Hacettepe Üniversitesi yay nlar . M. Qi, and G. Zhang, (2001) An investigation of model selection criteria for neural network time series forecasting, European Journal of Operational Research, 132, 666–680. 373 Yapay sinir a<lar ile öngörü kombinasyonu Erol E!rio!lu Ça!da Hakan Alada! Cem Kad lar Ufuk Yolcu Ondokuz May:s Üni. Fen Edb Fak., statistik Böl. 55139, Samsun, Türkiye erole@omu.edu.tr Hacettepe Üniversitesi Fen Fak., statistik Böl. 06532-Beytepe, Ankara, Türkiye aladag@hacettepe.edu.tr Hacettepe Üniversitesi Fen Fak., statistik Böl. 06532-Beytepe, Ankara, Türkiye kadilar@hacettepe.edu.tr Ondokuz May:s Üni. Fen Edb.Fak., statistik Böl. 55139,Samsun,Türkiye uyolcu@omu.edu.tr Özet Öngörü kombinasyonu, daha doGru öngörüleri elde etmek için kullan:lan bir yöntemdir. Öngörü kombinasyonu yakla#:m: farkl: modellerden elde edilen öngörülerin birle#tirilmesinden ibarettir. Yapay sinir aGlar: ve bulan:k zaman serileri öngörü alan:nda ba#ar:lar:n: kan:tlam:# iki yöntemdir. Bu çal:#mada yapay sinir aGlar:na dayal: yeni bir öngörü kombinasyonu tekniGi önerilmi#tir. Önerilen yeni öngörü kombinasyonu tekniGi ile çe#itli bulan:k zaman serisi yakla#:mlar:ndan elde edilen öngörüler kombine edilmi#tir. Önerilen yöntem stanbul Menkul K:ymetler Borsas: Bile#ik Endeksi ( MKB) zaman serisine uygulanarak, literatürdeki diGer öngörü kombinasyonu teknikleri ile kar#:la#t:r:lm:# ve uygulamadan elde edilen sonuçlar tart:#:lm:#t:r. Anahtar sözcükler: Öngörü, öngörü kombinasyonu, yapay sinir aGlar:, bulan:k zaman serileri. Abstract Forecast combination by using artificial neural One of the efficient ways for obtaining accurate forecasts is usage of forecast combination method. This approach consists of combining different forecast values obtain from different models. Also artificial neural networks and fuzzy time series approaches have prove their success in the field of forecasting. In this study, a new forecast combination approach based on artificial neural networks is proposed. The forecasts obtain from different fuzzy time series models are combined by utilizing artificial neural networks. The proposed method is applied to various time series and the results are compared to other forecast combination methods available in the literature. Then, obtained results from the implementation are discussed. Keywords: Forecasting, forecast combination, artificial neural networks, fuzzy time series. 1. Giri! Zaman serilerinde gelece!e yönelik daha iyi tahminler üretebilmek için literatürde birçok çal ma yap lm ve farkl yakla mlar önerilmi tir. Bu yöntemler aras nda son y llarda en yayg n kullan lan iki yakla m, öngörü probleminde ba ar s n kan tlam olan yapay sinir a!lar ve bulan k zaman serisi modelleridir [1,3]. Zaman serilerinde öngörü probleminde kullan lan etkili bir di!er yakla m, çe itli yöntemlerin öngörülerinin kombinasyonlar n n elde edilmesiyle gelecek tahmini yap lmas d r. Öngörülerin kombinasyonu fikri ilk olarak Bates ve Granger taraf ndan ortaya at lm t r [5]. Daha sonra Granger ve Ramanathan, Newbold ve Granger, Winlkler ve Makridakis çal malar nda, ikiden fazla model için öngörü kombinasyonlar yapm lard r [4,8,11]. Wong ve arkada lar dört farkl zaman 374 serisi modelinin kombinasyonu kar la t rm t r [7]. için üç ayr öngörü kombinasyonu tekni!ini Öngörü kombinasyonu ile elde edilen yeni öngörü, çe itli modellerin a! rl klarla kombine edilmi do!rusal bir fonksiyonudur. Her bir modelin kombinasyon yakla m n n öngörüsündeki pay farkl d r. Bu pay a! l klar ile belirlenmektedir. Öngörü kombinasyonundaki a! rl klar belirli varsay mlara ba!l olarak belirlenebilece!i gibi, çe itli optimizasyon yöntemleri ile de belirlenebilir. Öngörü kombinasyonundaki anahtar nokta, en iyi öngörüleri verecek a! rl klar n ve kombinasyon fonksiyonunun tipinin belirlenmesidir. Kombinasyon fonksiyonu öngörülerin do!rusal bir fonksiyonu olabilece!i gibi, e!risel bir fonksiyon olarak da seçilebilir. Bu çal mada, çe itli bulan k zaman serisi öngörü modellerinden elde edilen öngörülerin, ileri beslemeli yapay sinir a! n n girdisi olarak al nd ! ve yapay sinir a! n n ç kt s n n kombine öngörüler olarak elde edildi!i, yeni bir öngörü kombinasyonu yöntemi önerilmi tir. Bu ekilde düzenlenmi bir yapay sinir a! optimize edildi!inde, en iyi e!risel e le meyi sa!layacak optimal a! rl klar belirlenmi olmaktad r. Bu nedenle, öngörü kombinasyonunda yapay sinir a!lar yöntemi kullan ld ! nda, hem kombinasyon fonksiyonu, hem de optimal a! rl klar sorunsuzca belirlenebilmektedir. Önerilen yeni öngörü kombinasyon tekni!i çe itli bulan k zaman serisi öngörü modellerinden elde edilen öngörüler için uygulanm t r. Çal man n ikinci bölümünde literatürde var olan öngörü kombinasyonu teknikleri verilmi tir. Üçüncü bölümde bulan k zaman serisi genel tan mlar verilerek baz bulan k zaman serisi yöntemleri aç klanm t r. Dördüncü bölümde önerilen yeni öngörü kombinasyon tekni!i aç klanarak MKB zaman serisi için uygulama yap lm t r. Son bölümde ise elde edilen sonuçlar tart lm t r. 2. Öngörü kombinasyonu teknikleri Literatürde farkl öngörü kombinasyonu teknikleri geli tirilmi tir. Bunlardan iyi bilinen üç tanesi; basit öngörü kombinasyonu, varyans-kovaryans yöntemi ve öngörü hata kareler ortalamas indirme (MSFE) yöntemidir. A a! da bu üç yöntem özetlenmi tir. 2.1. Basit öngörü kombinasyonu yöntemi Basit öngörü kombinasyonu yönteminde iki veya daha fazla modelden elde edilen öngörüler, a! rl klar ile çarp l p toplanarak kombine öngörüler elde edilmektedir. Kombine öngörüler a a! daki formül ile elde edilir. (1) Burada modelden elde edilen öngörü, olmak üzere , i. model için a! rl k, ve n ise kombine edilecek model say s n göstermektedir. Bu yöntemde modellere verilecek a! rl klar n e it al nmas art de!ildir. E!er a! rl klar, (2) 375 eklinde e it al n rsa yönteme basit ortalama kombinasyonu ad verilmektedir. Sonuç olarak elde edilen kombine öngörüler, a! rl klar ne al n rsa al ns n, model öngörülerinin do!rusal bir kombinasyonu olmaktad r. 2.2. Varyans-Kovaryans yöntemi Varyans-kovaryans yöntemi kombine edilecek model öngörülerinin performans n dikkate alarak a! rl klar n belirlendi!i do!rusal öngörü kombinasyon yöntemidir. Bu yöntemde a! rl klar a a! daki formül ile belirlenir. ( 3) Burada örnek kovaryans matrisini gösterir, ve olmaktad r. (3) e itli!ine göre a! rl klar elde edildi!inde kombine öngörüler (1) formülüne göre hesaplanmaktad r. 2.3. Öngörü hata kareler ortalamas: indirme (MSFE) yöntemi MSFE yönteminde, varyans-kovaryans yönteminden farkl olarak, son öngörülerin katk s artt r larak, kombinasyon a! rl klar belirlenmektedir. Winkler ve Makridakis taraf ndan önerilen bu yöntemde a! rl klar a a! daki formül ile elde edilmektedir [11]. ( 4) olacak ekilde seçilen indirim çarpan d r, ise i. modelden t. gözlem Burada için elde edilen öngörünün hatas d r. (4) e itli!ine göre a! rl klar elde edildi!inde kombine öngörüler (1) formülüne göre hesaplanmaktad r. 3. Bulan k zaman serileri ve çözüm yöntemleri Bulan k zaman serisi yakla m ilk olarak Song ve Chissom taraf ndan önerildi [9,10]. Chen çal mas nda yöntemi daha basitle tirdi. Chen bu çal mas nda Song ve Chissom’un çal mas ndaki karma k matris i lemleri yerine bulan k ili ki tablosundan yararlanma fikrini ortaya att [12]. Bulan k zaman serisi yakla mlar a a! daki temel tan mlara ba!l d r. U = {u1 ,..., u b } evrensel küme olsun. U ’nun elemanlar aral klard r. Bu aral klar zaman serisinin tüm de!erlerini kapsayan evrensel kümenin parçalanmas ile elde edilir. U ’nun elemanlar na ba!l olarak Ai bulan k kümeleri a a! daki gibi tan mlanabilir. (5) 376 Burada f Ai , Ai bulan k kümesinin üyelik fonksiyonudur ve f Ai : U * [0,1] olmaktad r. f Ai (u a ) , u a ’n n Ai ’ye ait olmas n n derecesidir. Tan m 1. Y (t ) , t = ...,0,1,2,... reel de!erli zaman serisi olsun. Zaman serisine uygun evrensel küme tan m ve parçalanmas yap ld ktan sonra Ai ’lerden olu an yeni zaman serisi F (t ) ’ye bulan k zaman serisi ad verilir. Tan m 2. Bulan k zaman serisinde ili ki için, F (t ) ’nin sadece, bir gecikmeli bulan k zaman serisi F (t 1) ’den etkilendi!i dü ünülürse bulan k zaman serisine birinci dereceden bulan k zaman serisi ad verilir. Birinci dereceden bulan k zaman serisi için bulan k ili ki F (t ) = F (t 1) ( R (t , t 1) eklinde gösterilebilir. Bu ifadede ( herhangi bir operatörü göstermektedir. F (t 1) = Ai ve F (t ) = A j olsun. Bu durumda bulan k mant k ili ki Ai * A j ile gösterilebilir. Burada Ai bulan k ili kinin sol yan ve A j bulan k ili kinin sa! yan olarak isimlendirilir. Buna göre birinci dereceden bulan k zaman serisi öngörü modeli a a! daki gibi yaz l r. (6) Tan m 3. F (t ) bulan k zaman serisi olsun. E!er F (t 1), F (t neden oluyorsa bulan k mant k ili ki a a! daki gibidir. F (t n),..., F (t 2) ,…, ve F (t n) , F (t ) ’ye 2), F (t 1) * F (t ) ( 7) (7)’de verilen ifadeye n. dereceden bulan k zaman serisi öngörü modeli ad verilir. Literatürde iyi bilinen bulan k zaman serisi yakla mlar , Chen, Huarng ve yine Chen taraf ndan önerilen yakla mlar d r [12,6,13]. Cheng vd. ise bulan k kümelemeye dayal yeni bir yöntem önermi tir [2]. Bu yakla mlardan baz lar birinci dereceden yöntemlerdir ve (6)’da verilen modele göre çözümleme yap l r [2,6,12]. Baz lar ise yüksek dereceli modellerdir ve (7)’de verilen modele göre çözümleme yap l r [13]. Yöntemler hakk nda detayl bilgi verilen kaynaklardan al nabilir. 4. Yapay sinir a< na dayal yeni bir öngörü kombinasyonu tekni<i ve imkb zaman serisine uygulamas Üçüncü bölümde verilen öngörü kombinasyonu teknikleri, a! rl klar n belirlenmesinde farkl teknikleri kullansa da üç yöntemde de kombinasyon fonksiyonu (1)’de verilen do!rusal formdad r. Öngörü kombinasyon fonksiyonunun do!rusal seçilmesi a! rl klar n optimal de!erinin elde edilmesini kolayla t rmaktad r. Ancak en iyi kombinasyonunun elde edilmesinde do!rusal bir fonksiyon yerine e!risel bir fonksiyonun kullan m da tercih edilebilir. Bu çal mada, çe itli modellerden elde edilen öngörüler, ileri beslemeli yapay sinir a! n n girdisi olarak al narak ve yapay sinir a! n n ç kt s n n kombine öngörüler olarak elde edildi!i yeni bir öngörü kombinasyonu yöntemi önerilmi tir. Bu ekilde 377 düzenlenmi bir yapay sinir a! optimize edildi!inde, en iyi e!risel e le meyi sa!layacak optimal a! rl klar belirlenmi olmaktad r. Bu nedenle, öngörü kombinasyonunda yapay sinir a!lar yöntemi kullan ld ! nda, hem kombinasyon fonksiyonu hem de optimal a! rl klar sorunsuzca belirlenebilmektedir. Kombinasyon için kullan lacak ileri beslemeli yapay sinir a! n n girdi birim say s , kombine edilecek öngörü yöntemi say s (n) kadard r. Gizli tabaka birim say s , yapay sinir a! n n genelle tirme yetene!ini kaybetmemesi ve kombinasyon fonksiyonu yap s n n basit olmas n sa!lamak için 1 olarak dü ünülmü tür. Ç kt say s da bir olarak tercih edilmi tir. Kombinasyon için kullan lan ileri beslemeli yapay sinir a! rekil 1’de verilmi tir. rekil 1’de mimari yap s verilen yapay sinir a! ile 5 modelden elde edilen öngörüler kombine edilebilir. Bekil 1. Öngörü kombinasyonu için ileri beslemeli YSA modeli Kombinasyon için kullan lan ileri beslemeli yapay sinir a! nda gizli tabaka birimleri için (8) de verilen lojistik aktivasyon fonksiyonu ve ç kt tabakas nda (9) de verilen do!rusal aktivasyon fonksiyonu kullan lmaktad r. ( 8) (9) rekil 1’de verilen ileri beslemeli yapay sinir a! n n matematiksel modeli sonuç olarak a a! daki gibi yaz labilir: (10) Burada , i. modelden elde edilen öngörü, ile gizli tabakan n ba!lant a! rl klar , için a! rl k, a! rl klar girdi tabakas girdi tabakas yan ile gizli tabaka ba!lant s gizli tabaka ile ç kt tabakas aras ndaki ba!lant n n a! rl ! ve ise gizli tabaka yan ile ç kt tabakas aras a! rl k olmaktad r. (10)’da verilen modelin e!risel bir forma sahip oldu!u aç kt r. Matematiksel modeli (10)’da verilen sinir 378 a! n n e!itilmesi ile elde edilen a! rl klar öngörü kombinasyonunun optimal a! rl klar ve yapay sinir a! n n ç kt s ise kombine öngörüler olmaktad r. Yöntemin uygulamas nda yapay sinir a! n n girdilerinin kullan lan lojistik aktivasyon fonksiyonuna uygun olarak [0,1] aral ! na dönü türülmesi unutulmamal d r. Önerilen yöntem 20.05.2008 ile 29.09.2008 tarihleri aras nda gerçekle en toplam 95 gözlemden olu an MKB ulusal 100 endeksi zaman serisi (rekil 2) için uygulanm t r. Cheng vd. [2], Chen [12], Huarng [6] ve Chen [13] yöntemlerinden 16.09.2008 ile 29.09.2008 zaman aral ! ndaki 10 veri (test kümesi) için tüm elde edilen öngörüler (Tablo 1), basit öngörü kombinasyonu, Varyans-kovaryans yöntemi ve öngörü hata kareler ortalamas indirme (MSFE) yöntemleri ile kombine edilerek elde edilen sonuçlar Tablo 2’de verilmi tir. Bekil 2. 20.05.2008 ile 29.09.2008 tarihleri aras nda gerçekle en MKB ulusal 100 endeksi zaman serisi Tablo 1. Bulan k Zaman Serisi Yöntemlerinin En yi Durumlar çin Öngörüler Tarih IMKB Chen [12] 1300 Aral k Uzunlu!u 16.09.2008 17.09.2008 18.09.2008 19.09.2008 22.09.2008 23.09.2008 24.09.2008 25.09.2008 26.09.2008 33736,3 32727,5 32216,4 36370,1 36183,6 35454,1 35177,1 36361,8 36556,6 34816.6 34600 33950 33950 36550 36550 34816.6 34816.6 36550 Chen [13] 2. Derece 900 Aral k Uzunlu!u 35750 33350 32750 32450 34850 36050 35600 36050 35150 379 Huarng [6] Da! l ma Dayal Huarng [6] Ortalamaya Dayal Cheng vd. [2] 6 küme 35075 33950 32750 32150 37550 36050 35150 35075 37550 35000 34000 32750 32250 37750 37750 35000 35000 37750 35626.9 35626.9 35626.9 35626.9 35626.9 35626.9 35626.9 35626.9 35626.9 29.09.2008 36051,3 HKOK 36550 1328.04 36650 1576.1 35750 1777.68 35750 1622.87 35626.9 1621.45 Tablo 2. Çe itli Yöntemlerden Elde Edilen Kombine Öngörüler Tarih IMKB 16.09.2008 17.09.2008 18.09.2008 19.09.2008 22.09.2008 23.09.2008 24.09.2008 25.09.2008 26.09.2008 29.09.2008 33736,3 32727,5 32216,4 36370,1 36183,6 35454,1 35177,1 36361,8 36556,6 36051,3 HKOK Basit Öngörü Yöntemi 35253,7 34305,3 33565,3 33285,3 36465,3 36405,3 35238,7 35313,7 36525,3 36065,3 1349,63 VaryansKovaryans Yöntemi 34973,0 34426,3 33885,8 33868,3 35993,2 35611,5 34975,8 35027,6 36047,8 36708,4 1266,24 MSFE 35269,3 34480,3 33845,4 33624,5 36333,7 36272,2 35257,0 35320,4 36384,8 36068,0 1320,09 Önerilen Yöntem 33736,3 32471,9 32471,9 36116,7 36116,7 35454,1 36116,7 36116,7 36116,7 36116,7 366,07 Son olarak önerilen yöntem ile MKB zaman serisi için Cheng vd. [2], Chen [12], Huarng [6] ve Chen [13] yöntemlerinden elde edilen öngörüler önerilen yakla m ile kombine edilmi tir. (10)’da matematiksel modeli verilen ileri beslemeli yapay sinir a!lar n n optimal a! rl klar Tablo 3’deki gibi elde edilmi tir. Önerilen yapay sinir a! na dayal yakla m n kombine öngörüleri ise Tablo 2’nin son sütununda verilmi tir. Tablo 3. leri Beslemeli Yapay Sinir A!lar çin Optimal A! rl klar w(1,1) -28,99062419 w(1,5) -354,301 w(1,2) 267,3430312 w(3,1) 21,969 w(1,3) 357,0638727 w(2,1) 0,839774696 w(1,4) -124,203528 w(3,2) 0,058885 Tüm öngörü kombinasyonu tekniklerinde ve bu çal mada önerilen YSA’na dayal öngörü kombinasyonu tekni!inden elde edilen öngörülerin gerçek de!erler ile birlikte grafi!i rekil 3’de verilmi tir. 380 Bekil 3. Tüm öngörü kombinasyonu tekniklerinden elde edilen öngörülerin gerçek de!erlerle birlikte grafi!i 5. Sonuçlar Zaman serilerinin çözümlenmesi için alternatif birçok yöntem bulunmaktad r. Her yöntemin kendine göre avantajlar ve dez avantajlar vard r. Bir zaman serisi yönteminden elde edilen öngörüler dönme noktalar n yakala m ken hata büyüklü!ü aç s ndan kötü sonuçlar verebilir. Di!er bir yöntem ise dönme noktalar n tam yakalayamam ama hatan n büyüklü!ü aç s ndan iyi sonuçlar vermi olabilir. Herhangi bir zaman serisi için çe itli öngörü yöntemlerinden elde edilen sonuçlar n kombine edilmesi daha iyi öngörülere neden olacakt r. Bu fikirden hareketle, literatürde basit öngörü kombinasyonu, Varyans-kovaryans ve MSFE yöntemleri gibi öngörü kombinasyon teknikleri önerilmi tir. Önerilen bu tekniklerde öngörü kombinasyon fonksiyonu daima do!rusal formdad r. Bu çal mada yapay sinir a!lar na dayal yeni bir öngörü kombinasyon tekni!i önerilmi tir. Önerilen yakla m ile MKB Ulusal 100 Endeksi zaman serisi için çe itli bulan k zaman serisi öngörü yöntemlerinden elde edilen öngörüler kombine edilmi tir. Önerilen yakla m n, Tablo 2’den görüldü!ü gibi, literatürde var olan basit öngörü kombinasyonu, Varyanskovaryans ve MSFE yöntemlerinden daha do!ru öngörülere neden oldu!u aç kt r. Ayr ca rekil 3’de de önerilen yöntemin öngörü do!ulu!u bak m ndan di!er yöntemlere üstünlük sa!lad ! görülmektedir. Kaynaklar [1] [2] [3] [4] Ç.H. Alada!, M.A. Ba aran, E. E!rio!lu, U. Yolcu, V.R. Uslu, (2009), Forecasting in High Order Fuzzy Times Series by Using Neural Networks to Define Fuzzy Relations, Expert Systems with Applications, 36, 4228-4231. C.H. Cheng, G.W. Cheng, J.W. Wang, (2008), Multi-attribute fuzzy time series method based on fuzzy clustering, Expert Systems with Applications, 34, 1235-1242. E. E!rio!lu, Ç.H. Alada!, S. Günay, (2008), A New Model Selection Strategy in Artificial Neural Network, Applied Mathematics and Computation, 195, 591-597. Granger C.W.J. and R. Ramanathan (1984), Improved Methods of Combined Forecasts, Journal of Forecasting, 3, 197-204. 381 [5] [6] [7] [8] [9] [10] [11] [12] [13] J.M. Bates, C.W.J. Granger (1969), The Combination of Forecast, Operational Research Quarterly, 20 (4), 451-468. K. Huarng, (2001), Effective length of intervals to improve forecasting in fuzzy time-series, Fuzzy Sets and Systems, 123, 387-394. K.K.F Wong, H. Song, S.F. Witt, D.C. Wu, (2007), Tourism Forecasting: To Combine or not to Combine?, Tourism Management, 28, 1068-1078. P.P. Newbold, C.W.J. Granger, (1974), Experience With Forecasting Time Series and Combination of Forecasts, Journal of the Royal Statistical Society A, 137 (2), 131-165. Q. Song, B.S. Chissom, (1993a), Fuzzy time series and its models. Fuzzy Sets and Systems, 54, 269-277. Q. Song, B.S. Chissom, (1993b), Forecasting enrollments with fuzzy time series - Part I, Fuzzy Sets and Systems, 54, 1-10. R.L. Winkler, S. Markidakis, (1983), The Combination of Forecasts, Journal of the Royal Statistical Society A, 146 (2), 150-157. S.M. Chen, (1996), Forecasting enrollments based on fuzzy time-series, Fuzzy Sets and Systems, 81, 311-319. S.M. Chen, (2002), Forecasting enrollments based on high order fuzzy time series, Cybernetics and Systems, 33, 1-16. 382 Rize Üniversitesi F nd kl Meslek Yüksek Okulu ö<rencilerinin sigara içme al !kanl klar Zeynep Kazanc Bengü Kabata Rize Üniversitesi F:nd:kl: Meslek Yüksekokulu Marmara Üniversitesi Sosyal Bilimler Enstitüsü Zeynep.kazanc:@gmail.com statistik Bölümü bengu_kabatas85@hotmail.com ÖZET Amaç: Çal:#man:n amac:, Rize Üniversitesi F:nd:kl: Meslek Yüksekokulu ÖGrencileri aras:nda sigara içme al:#kanl:G: ve bunu etkileyen faktörlerin belirlenmesidir. Metot ve Yöntem: Çal:#man:n örneklemi Rize Üniversitesi F:nd:kl: Meslek Yüksek Okulunun çe#itli bölümlerinde eGitim gören birinci ve ikinci s:n:flardaki 262 öGrenciden olu#maktad:r. DaG:t:lan anket formlar: gönüllü öGrencilerin kendileri taraf:ndan doldurulmu#tur. Verilerin deGerlendirilmesinde frekans tablolar:, t-testi, F testi, ki-kare testi ve Homals ( homojenlik analizi veya çoklu kar#:l:k getirme analizi) kullan:lm:#t:r. Sonuçlar: Çal:#maya yakla#:k %41 erkek öGrenci %59 k:z öGrenci kat:lm:#t:r. K:z öGrencilerin sigaray: ilk kez deneme ya#:n:n erkek öGrencilerden yüksek olduGu, erkek öGrencilerin k:z öGrencilerden daha uzun süredir sigara içtikleri, öGrencilerin sigara içme durumunun cinsiyete, okuduklar: bölüme ve anne mesleGine göre farkl:l:k gösterdiGi sonucuna ula#:lm:#t:r. Anahtar Kelime: Sigara içme al:#kanl:G:, üniversite öGrencileri, F:nd:kl: M.Y.O SUMMARY SMOKING HABITS OF R ZE UNIVERSITY FINDIKLI VOCATIONAL HIGH SCHOOL STUDENTS Object: The purpose of Study, Rize University F:nd:kl: Vocational School Students of smoking habits is to determine the factors affecting it. Method and Procedure: Working with samples of various parts of Rize University F:nd:kl: Vocational High School in studying the first and second class consists of 262 students.Survey forms distributed by volunteers from the students themselves have been filled.The data in the evaluation of frequency tables, t-test, F test, ki-square test and Homals (homogeneity analysis or multiple analysis of the money) is used. Results: Approximately 41% male students in the study were 59% female students participated.Girl students try smoking for the first time, high-age students are men, male students than female students for a long time to smoke, smoking status of students' gender, reading the chapter and the mother varies according to the profession that has been found. 383 Key Words: Smoking habits, university students, F:nd:kl: MYO. 1.Giri! Sigara içmek, çok yayg n bir ba! ml l k çe ididir. Bu ba! ml l k insan sa!l ! üzerine yapt ! olumsuz etkiler nedeniyle dünyan n ve ülkemizin en önemli halk sa!l ! sorunlar ndan biridir. Sigara içmek, insanlar n kendi seçimleriyle benimsedikleri bir davran biçimi oldugundan, erken ölümlerin en ”önlenebilir” nedenidir. Dünyada ve ülkemizde sigara içenlerin say s her geçen gün artmaktad r. Sigara içicili!inde art özellikle kad n, ergen ve genç eri kinlerde olmaktad r. Günümüzde sigara içen ki ilerin ço!unlu!u sigara içmeye 25 ya ndan önce, s kl kla da çocukluk ya da adelosan ça!da ba lamaktad r. Dünya nüfusunun 1.3 milyar içicidir ve küresel bazda 4.9 milyar insan sigara kullan m na ba!l sebeplerden dolay ölmektedir. Genellikle çevreye özenme ve uyma, reklâmlar ve arkada etkisi, yeni zevkler arama, keyiflenmek, dinlenmek, güncel s k nt lardan ve stresten uzakla mak, sakinle mek, konsantre olabilmek, kilo almamak, okul ba ar s zl klar , sosyoekonomik durumlar gibi sosyal ve psikolojik nedenler çocuklar n okul ya lar nda sigaraya ba lamas nda rol oynayan etmenlerdir. Geçmi y llarda yap lan çal malar inceledi!imizde; 1988 y l nda P AR taraf ndan yap lan '' Sigara Al kanl klar ve Sigarayla Mücadele Kampanyas Kamuoyu Ara t rmas 'na göre, 15 ya üstü nüfusta sigara içme h z , erkeklerde % 62,8, kad nlarda % 24,3 ve ortalama %43,6 d r.Tüm ülkeyi temsil eden di!er bir P AR çal mas na göre 15–18 ya grubu gençlerin sigara içme oranlar % 30 dur.Sigara içenlerin % 39 u sigaraya 15–18 ya lar nda, %20 si ise 11-14 ya lar nda ba lad klar n belirtmi lerdir. Naz m Bilir ve arkada lar n n 1996 y l nda yapt klar bir ara t rmada lise ö!rencilerinin sigara kullanma oran % 28,3 bulunmu tur. Türkiye statistik Kurumu'nun (TÜ K) çal mas na göre sigara kullan m nda kad nlarda art , erkeklerde azal var. 1993'te sigara kullanan kad nlar n oran yüzde 13,5 iken 2004'te bu rakam yüzde 19,45'e, 2006'da yüzde 16,6'ya yükseldi. Erkeklerde ise 57,8 olan oran 2006'da 50,6'ya geriledi. TÜ K zmir Bölge Müdürü R dvan Yaka verdi!i bilgilere göre 18–24 ya aras ndaki her dört gençten biri sigara içiyor. Dünyada 15 ya kullan m nda yüzde 51,8'le Yunanistan ba üstü fertlerde sigara çekiyor, Türkiye yüzde 35,5'le 21. s rada bulunuyor. Türkiye’deki sigara ba! ml l ! nda az da olsa azalma var. Dünya genelinde 1 milyar 250 milyon ki i sigara içiyor. Sigara, her y l 4 milyon, her gün 11 bin ki inin ölümüne sebep oluyor. Yeti kin nüfusun yakla k üçte biri sigara içiyor. Dünyada sigara kullananlar n yakla k üçte ikisi u 10 ülkede ya yor: Çin, Hindistan, Endonezya, Rusya, ABD, Japonya, Brezilya, Banglade , Almanya ve Türkiye. Sigara içmenin yol açt ! birçok hastal k vard r ki bunlar n en ba nda kanser, beyin damar hastal klar , solunum yolu rahats zl klar ve kalp rahats zl klar d r. Sigaran n belli ba l sa!l k sak ncas olan akci!er kanseri riskine ise ilk kez 1761 y l nda Dr. John Hill ad nda bir ngiliz hekim i aret etmi tir. lk kez 1964 y l nda ABD’de “Surgeon General “ sigaran n zararl oldu!unu ifade etmi tir. Daha sonra 1986 y l nda pasif olarak sigara duman na maruz kalman n da tehlikeli 384 oldu!u ortaya konmu tur. Pasif sigara içicili!i, aktif içme kadar tehlikeli sa!l k sorunlar na yol açmaktad r. Avrupa Komisyonu taraf ndan desteklenen French Comite National Centre le Tabagisme’ ye ba!l ba! ms z uzmanlar taraf ndan yap lan bir çal maya göre; 15 ya n üzerindeki Avrupal lar n yakla k %80’ i çevredeki tütün duman na maruz kalmaktad r ve günde 1 veya daha fazla aktif olarak sigara içen ile e de!erde duman inhale etmektedir. Sigara al kanl ! , kanser ölümlerinin en önemli tek nedeni olup, geli mi ülkelerdeki erkeklerde görülen kanserlerin %45’i, tüm nüfustaki kanserlerin %30’u sigaraya ba!l d r. 2.Metot ve Yöntem Bu çal mada, Rize Üniversitesi F nd kl Meslek Yüksek Okulu Ö!rencileri aras nda sigara içme al kanl ! ve bunu etkileyen faktörlerin belirlenmesi amaçlanmaktad r. Çal man n örneklemi Rize Üniversitesi F nd kl Meslek Yüksek Okulunun çe itli bölümlerinde e!itim gören birinci ve ikinci s n flardaki 262 ö!renciden olu maktad r. Da! t lan anket formlar gönüllü ö!rencilerin kendileri taraf ndan doldurulmu tur. Verilerin de!erlendirilmesinde frekans tablolar , t-testi, F testi ki-kare testi ve Homals ( homojenlik analizi veya çoklu kar l k getirme analizi) kullan lm t r. Çal maya kat lan Turizm ve Otelcilik Pazarlama, Büro Yönetimi ve Sekreterlik bölümlerinin 2. ö!retimleri yoktur. Ayr ca Pazarlama ve Büro Yönetimi ve Sekreterlik bölümlerinin yeni aç lan bölümler olmas nedeniyle 2. s n flar bulunmamaktad r. Anket 29 sorudan olu maktad r. Ankette ö!rencilere ya , cinsiyet, sigara içme durumlar pasif içici olup olmad klar ebeveynlerinin ve karde lerinin sigara içip içmedikleri ve ailelerinin e!itim durumlar , sigaraya ba lama nedenleri ve sigaray ilk kez kulland klar ya , sigaray kullanmaya ba lama nedeni özenti ise kimlere özendikleri, ne kadar zamand r sigara kulland klar , sigaray b rakmay dü ünüp dü ünmedikleri gibi faktörler sorulmu tur. Veriler SPSS15.0 paket program yla de!erlendirildi. 3.Bulgular Çal ma F nd kl meslek yüksekokul’unun tüm bölümlerinden (i letme,muhasebe,turizm,Pazarlama ve büro yönetimi ve sekreterlik) 262 ö!renci aras nda yap lm t r.Çal maya kat lan ö!rencilerin 155’i k z(%59,2) , 105’i erkek(%40,8)d r.Ayr ca 192si(%73ü) 1. ö!retimde e!itim görüyorken ,yakla k %27 si ikinci ö!retimde e!itim görmektedir. Ö!rencilerin 127(%48,5)si hiç sigara içmedim derken, %9,5i bir kez denedim hiç sevmedim, %0,4ü bir kez denedim hiç ho uma gitti, %10,3ara s ra içiyorum ,%29ü düzenli içiyorum, %2,3 içiyordum b rakt m ifadeleri tablo1 gösterilmi tir. Ö!rencilerin ya lara göre da! l m tablo2’cinsiyetlerine göre da! l m tablo3’de verilmi tir. Ankete kat lan ö!rencilerin ya ortalamas 20,04 m 2,373tür. Bu çal mada sigara 385 içmeyen ki ilere pasif içici olup olmad klar sorulmu tur. Ankete kat lan ö!rencilerin yakla k %79ü evet cevab n vererek sigara duman na maruz kald klar n ifade ederken %21 l k k s m pasif içici olmad klar n ifade etmi lerdir. Tablo1:Siz sigara içiyor musunuz? Sigara içme durumlar Hiç içmedim Bir kez denedim, hiç sevmedim Bir kez denedim, ho uma gitti Ara s ra içiyorum Düzenli içiyorum çiyordum, b rakt m Toplam Say Tablo2:Ya n z Ya! n z 17 18 19 20 21 22 23 24 25 27 48 Toplam % 127 48,5 25 9,5 1 ,4 27 76 10,3 29,0 6 2,3 262 100,0 Say 5 50 50 76 41 24 10 1 2 2 1 262 % 1,9 19,1 19,1 29,0 15,6 9,2 3,8 ,4 ,8 ,8 ,4 100,0 Bekil1:ö!rencilerin pasif içicilik durumu Tablo3:Cinsiyetiniz pasif içicilik evet hayir Cinsiyetiniz Kad n 21,15% hayir Erkek Toplam Say % 155 59,2 107 40,8 262 100,0 78,85% evet Pasif içicilik, ba kalar n n içti!i sigara duman na veya sigara duman içeri!inde bulunan kimyasal maddelere maruz kalarak soluma durumudur. Kendisi sigara içmeyen birinin sigara duman na maruz kalmas , istek d olarak gerçekle ti!inden, olaya bu isim verilmi tir. Sigara içenler taraf ndan d ar verilen dumana çevresel tütün duman ad da 386 veriliyor. Sigara içen ki i taraf ndan, sigara duman n n sadece %15lik bir bölümü solunuyor. Geri kalan yüzde ise d ar ya veriliyor. Bu da pasif içici durumundaki insanlar n zarar görme riskini yükseltiyor. Pasif içicilerde dumana maruz kalma sonucu %69 s kl kla göz ve bo!azda irritasyon, %33 oran nda nazal semptomlar, %33 s kl kla ba a!r s görülmektedir. Alerjik ki ilerde de h r lt l solunum, hap rma ve mide bulant s görülür. Esas olarak pasif içiciler dü ük doz sigara içiminin gösterdi!i fizyolojik etkilere sahiptir. Amerika’da pasif içicilik ölüm sebepleri aras nda üçüncü s radad r. Tablo4:ö!rencilerin sigaray deneme ya da ba lama nedenlerinin cinsiyet faktörüne göre gösterilmesi Sigaray deneme ya da ba!lama nedeni Cinsiyetiniz Kad n Merak ettim 19 Erkek 23 38 42 46 Toplam Özendim Toplam Di<er 8 8 35 12 20 73 Ki-kare ve p de<eri Q 2 = 8,418 P<0.05 108 K zlar n sigaraya ba lama nedeni %54 merak etmek iken erkeklerin ise %52 özenerek sigaraya ba lamaktad r. Di!er seçene!inde çevre, arkada ortam , stres, ba ar s zl k kayg s , bunalma vb. nedenlerden sigara ba lad klar n ifade etmi lerdir. En yak n arkada n sigara kullanmas (özenti) ya da arkada grubunda sigara kullan lmas gencin sigara ile tan mas na neden olmaktad r. Gençler sigaraya en çok yak n arkada lar n n sigara ikram ve srarlar ile ba lamaktad r. En iyi arkada n n sigara kullanmas , gencin sigara içme riskini 3–4 kat artt rmaktad r. Merak, büyümeyi ispat etmenin bir yöntemi, formda kalma iste!i sigara kullanma nedenleri aras ndad r. Gençler stres ya da s k nt l olma ve kendilerine olan güvenlerini art rmak için sigaraya ba lamaktad rlar. Tablo5:Örgencilerin sigara kullan m na ba!l olarak ya ad klar yak nmalar sonucu sigaray b rak p b rakma faktörü üzerinde etkileri Öksürük B rakmay denediniz mi? Toplam Ki-kare ve p de<eri Di<er Hay r Evet Toplam Yak nmalar Balgam Nefes ç karma darl < 4 3 10 16 33 13 17 15 18 7 17 18 34 53 86 Q 2 = 9,261 P<0.05 Ö!rencilerin sigara kullan m nedeniyle yak nmalar ya ayanlar n n sigaray b rakmay denedi!ini görmekteyiz. Di!er seçene!i (Ba a!r s , halsizlik, i tahs zl k, dikkat problemi, kötü koku vb.) sigaray b rakmay isteyenlerin yakla k %34ünü olu turmaktad r. p<0.05 yani sigara kullan m yla ya anan yak nmalar sigara b rakmayla ili kilidir. 387 Tablo6:Sigara içme durumunu etkileyen faktörlerin Ki-Kare testi ile gösterilmesi Ba< ms z de<i!kenler Sigara içme durumu Hiç içmedim Bir kez denedim, hiç sevmedim Bir kez denedim, ho!uma gitti Ara s ra içiyorum Düzenli içiyorum Cinsiyet Kad n Erkek Toplam 100 27 127 20 5 25 1 0 1 14 13 27 18 58 76 2 4 6 155 107 262 Bölümünüz sletme Muhasebe Turizm otl Büro yönt. Pazarlama Toplam 50 39 13 13 12 127 7 5 5 5 3 25 1 0 0 0 0 1 10 11 4 1 1 27 28 23 14 1 10 76 1 2 0 3 0 6 97 80 36 23 26 262 117 2 3 0 23 1 0 1 0 0 0 0 25 0 0 0 69 0 1 0 6 0 0 0 240 3 4 1 2 1 1 1 0 0 0 0 0 0 0 0 1 0 0 0 0 2 0 0 0 0 3 0 3 0 0 0 0 0 2 1 7 1 3 127 25 1 27 76 6 262 Annenizin mesle<i Ev kad n Memur çi Zanaatkâr (ayakkab tamircisi, terzi, s hh tesisat, boyac , esnaf (bakkal, kasap, manav, seyyar sat c , pazarc vb.) Muhasebeci Di!er Ö!retmen Hem ire, ebe, sa!l k Teknisyeni, laborant vb. Toplam Anneniz 388 çiyordum, b rakt m Top. Ki-kare ve p de<eri Q 2 = 67,178 P<0.05 Q 2 = 32,574 P<0.05 Q 2 = 67,497 P<0.05 sigara içiyor mu? çmiyor çiyor çiyordu b rakt Toplam 109 17 0 18 6 1 0 1 0 20 7 0 55 15 6 5 1 0 207 47 7 126 25 1 27 76 6 261 Q 2 = 21,236 P<0.05 Sigara içme durumunu etkileyen faktörlerin (cinsiyet, Bölüm, anne mesle!i, annenin sigara içmesi) anlaml olanlar Tablo6’de gösterilmi tir. K zlar n yakla k %12si düzenli sigara içiyor iken erkeklerin %54ü düzenli sigara içmektedir. Ö!rencilerin anne mesle!i ev han m olanlar n n yakla k %28i düzenli sigara kullanmaktad r. Tablo7:Sigaray ilk deneme ya ve ne kadar zamand r sigara kullan yorsunuz sorular n n erkek ve k z ö!rencilere göre etkileri(ba! ms z t testleri) Gruplar Cinsiyet Kad n Erkek Sigaray ilk kez kaç Ya! nda denediniz(y l) Ne kadar zamand r Sigara içiyorsunuz(y l) N Ort. S.S. N Ort. S.S. 34 73 16,44 14,41 2,915 4,219 21 65 3,19 5,42 1,887 2,979 t=2,889 p=0,005 t=3,214 p=0,002 K z ve erkek ö!rencilerin sigaray ilk kez deneme ya lar aras ndaki ili ki istatistiksel olarak anlaml d r. K zlar sigaray ilk kez ortalama 16,44 ya nda denerken, erkekler ortalama 14,41 ya nda sigaray ilk kez denemi leridir. Sigara kullanma öyküleri k zlar n ortalama 3 y l görülürken erkeklerin ise ortalama 5 y ld r sigara kulland ! görülmektedir. p<0.05 yani sigara kullanma süreleri cinsiyete göre de!i mektedir, sonuç anlaml d r. Tablo8: lk deneme ya * Ailenin sosyal durumu de!i kenlerinin F testi lk deneme ya! Ailenin sosyal durumu Birlikte ya yorlar Bo and lar ayr ya yorlar Annem öldü Babam öldü Üvey annem babam var F p 0,762 0,552 Post Hoc. _ Ankete kat lan ö!rencilerin anne babalar n n sosyal durumu ile sigaray ilk kez deneme ya lar aras nda anlaml bir farkl l k yoktur. p>0.05 oldu!undan H0 reddedilemez Homals(Homojenlik Analizi) 389 Uygunluk Analizi yöntemi, iki veya çok de!i kenli çapraz tablolar n sat r ve sütunlar nda yer alan kategorik de!i kenler aras ndaki ili kiyi analiz etmek amac ile geli tirilmi tan mlay c bir matematik-grafik tekniktir. Çapraz tabloda yer alan kategoriler aras ndaki ili kileri, "haritalar" olarak isimlendirilen grafiksel gösterimlere dönü türerek ara t r r. Uygunluk analizi içerdi!i de!i ken say s na ve boyut say s na ba!l olarak Basit Uygunluk Analizi ve Çoklu Uygunluk Analizi ad n al r. Uygunluk Analizinin en temel formu basit uygunluk analizi olarak adland r lan, iki yönlü çapraz tablolara uygulanan d r Basit Uygunluk Analizi rxc biçiminde gösterilen çapraz tablolar n a! rl kl ana bile enler analizini yapar. Homojenlik analizi veya çoklu kar l k getirme analizi, üç veya daha fazla kategorik de!i ken say s na sahip olan çok yönlü kontenjans tablolar n n analiz edilmesi için kullan l r. Bir di!er ifade ile, R*C*M* eklinde iç içe farkl ekillerde çaprazlanm tablolarda yer alan de!i kenlerin alt kategorileri aras ndaki birlikteli!i ve ili kileri ortaya koymak için ba vurulan grafiksel bir analizdir. Analizde, say sal olmayan çok de!i kenli veri yap s n göstermek amaçlanmaktad r. Kategoride kullan lan tüm de!i kenlerin ölçüm düzeyi çoklu s n flay c d r. De!i kenler aras ndaki ili ki homojenlik analizi kullan larak ortaya konulmaya çal lm t r. Çal mam z için, sigaraya ba lama nedeni, cinsiyet, sigaray deneme ya de!i kenleri iki boyutlu bir grafikte, kategorileri kombinasyonlar n n nas l olaca! n görmek amac yla homojenlik analizi uygulanm ve her bir de!i kenin her bir boyutun ayr m ölçüleri tablo9’da verilmi tir. Analiz sonucunda elde edilen özde!erler, D1 = 0,4693 , D2 = 0,422 dir. Homojenlik analizinde özde!erler, gerçek grafik ile elde edilen iki boyutlu grafik aras ndaki uyumun tam bir ölçümünü vermektedir. Bu do!rultuda, gerçek grafik ile elde edilen iki boyutlu grafik aras nda uyumun 0,8913 iyi oldu!u söylenebilir. Tablo9:Her bir de!i ken ve her bir boyut için ayr m ölçüleri De<i!ken Boyut1 Boyut2 Sigaraya ba lama nedeni 0,417 0,667 Cinsiyet 0,519 0,134 Sigaray deneme ya 0,472 0,465 Ayr m ölçüleri kareleri al nm korelasyonlard r.Tablo9 incelendi!inde, Cinsiyet ve sigaray deneme ya de!i kenlerinin boyut 1 taraf ndan, sigaraya ba lama nedeni de!i keninin ise boyut 2 taraf ndan daha iyi aç klanabilece!i görülmektedir. Ayr ca analiz sonucunda elde edilen grafik ekil 2 de verilmi tir. 390 Bekil2:Kategori nicelle tirmesi Cinsiyet Sigara Deneme Ya Arali!i 3 Sigara Ba lama Nedeni B O y U t 2 20+ 2 Diger 1 özendim 15-20 0 Erkek Kadin Merak ettim 10-15 5-10 -1 -2 -2 -1 0 1 2 Boyut1 rekil 1 incelendi!inde, kad nlar n ilk kez 10–15 ya lar nda merak duygusuyla, erkeklerin ise ilk kez 5-10 ya lar nda özenme ile sigaraya ba lad klar görülmektedir. 4.Sonuç Yap lan çal mada elde edilen bulgular a a! da maddeler halinde verilmi tir. Erkek ö!rencilerin sigara içme al kanl klar n n k zlardan yüksek oldu!u ve daha uzun zamand r sigara içtikleri Anne mesle!inin ve annenin sigara içmesinin çocuklar n sigara içme al kanl klar n yüksek düzeyde etkiledi!i Sigaraya erkeklerin özenerek k zlar n ise merak duygusuyla ba lad ! Sigara içme al kanl klar n n bölümlere göre de!i ti!i 391 Sigara kullanan ö!rencilerin baz yak nmalar ya ad klar ve bunun sigaray b rakmalar yla ili kili oldu!u Sigara kullanmayan ö!rencilerin birço!unun pasif içici durumda olmalar Sigaray kullananlar n %69ü sigaray b rakmay dü ünmektedir. Ankete kat lan ö!rencilere göre sigaray cayd r c nedenlerin en ba nda 18 ya ndan küçüklere kesinlikle sigara sat lmamas gelmektedir. Ankete kat lan ve sigara içti!ini belirten ö!rencilere yöneltilen sigaray b rakmay denediniz mi ve dü ünüyor musunuz? Sorular na s ras yla % 23,3 ve % 26,3 ü evet cevab n vermi tir. Ö!renciler, sigara kullan m nedeniyle ailesindeki veya yak n çevresindeki ki ilerin % 16 s n n kanser hastal ! na, % 6,5 inin ise kalp rahats zl klar na yakaland klar n belirtmi tir. Kaynaklar 1) Ata, Nihal. (2007), '' Ya#am Verisi çin Homojenlik Analizi''. nönü Üniversitesi T p Fakültesi Dergisi. 2) Aytaç, M., N. Bayram (1999),'' Çoklu Kar#:l:k Getirme Analizi Ve ÖGretim Elemanlar: Üzerinde Bir Uygulama''. V. Ekonometri ve statistik Sempozyumu. 3) Çelik, P nar. vd.(2000), '' Manisa linde Lise ÖGrencilerinin Sigaraya Kar#: Tutumlar:''. Toraks Dergisi, . 4) Geer, J. Van de.(1993), Multivariate Analysis of Categorical Data Applications. Sage Publications. California. 5) Herkese Sa%l&k Türkiye'nin Hedef ve Stratejileri. TC SaGl:k Bakanl:G:. Ankara, 2001. 6) In: Behrman RE, Kliegman RM, Arvin MA (eds): Nelson Textbook of Pediatrics, (1996) Litt IF. Special health problems during adolescence, 15th ed., Philadelphia, WB. Saunders. 7) Özdamar, Kaz m.(2004), Paket Programlama 1le 1statistiksel Veri Analizi-2. Kaan Kitabevi. Eski ehir. 8) '' Süleyman Demirel Üniversitesi lk Ve Son S:n:f ÖGrencilerinin Sigaraya Yönelik Bilgi Tutum Davran:#lar: Ve Sigaraya Ba#lama Ve Al:#ma Durumlar:''. www.dicle.edu.tr/~halks/m9.25.htm. Eri im Tarihi: 19.12.2008. 9) Schorling JB, Gutgesell M, Klas P, Smith D, Keller A. Tobacco (1994), Alcohol and other drug use among college students. Journal of Substance Abuse. 10) reker, Gürcan. '' Sigara Al&'kanl&%&na Yönelik Tutumlar&n Saptanmas& ve Sigara 1çme Al&'kanl&%&na Yönelik Bir Çal&'ma (Ankara Üniversitesi E%itim Bilimleri Fakültesi Örne%i)” '. I. Ulusal PDR Ö!rencileri Kongresi. 11) WHO (World Health Organization). Facts and figures about tobacco. 2006. http://www.who.int/tobacco/fctc/cop/en/index.html 392 IMDb Verilerinin Analizi ve Karma Model Tabanl Kümeleme Uygulamas Bahar Erar Gülay Ba ar r K ro!lu Ayd n Erar BaGlarba#: Soyak Evleri B-4/17 34664, stanbul 0216 3414766 baharerar@hotmail.com Mimar Sinan Güzel Sanatlar Üniversitesi Fen Edebiyat Fakültesi, statistik Bölümü 0212 2589596 gkiroglu@msgsu.edu.tr Mimar Sinan Güzel Sanatlar Üniversitesi Fen Edebiyat Fakültesi, statistik Bölümü 0212 2366936 aydinerar@msgsu.edu.tr Özet Kümeleme, verileri s n fland rmak için çe itli alanlarda s kça kullan lan çok de!i kenli istatistiksel bir yöntemdir. Kümeleme analizinde kullan lan birçok farkl teknik ve yakla m vard r. Bunlardan biri, karma model tabanl kümeleme yöntemidir. Bu çal mada amaç, IMDb (Internet Film Veri Taban ) uzun metrajl sinema filmi verilerini analiz etmek ve sonlu karma model tabanl kümeleme yöntemini kullanarak filmleri s n fland rmakt r. Bu do!rultuda, EDA teknikleri kullan larak de!i kenler aras ili kiler ve uygun dönü ümler belirlenmi tir. Daha sonra model tabanl kümeleme yöntemleriyle küme say s ve model belirlenmi , küme yap s aç klanm t r. Anahtar sözcükler: Ke#fedici veri analizi (EDA), Kümeleme analizi, Sonlu karma modeller, IMDb. Abstract Analysis of IMDb Data and Application of Mixture Model-Based Clustering Clustering is a multivariate statistical technique used for data classification in a wide selection of fields. There are various techniques and approaches to employ in cluster analysis. One approach is mixture model based clustering. The goal of this study is to analyze The Internet Movie Database (IMDb) data of theatrically released full length movies and to classify them using finite mixture model based clustering method. With this purpose, the nature of relationships between variables and appropriate transformations had been identified with EDA. Then the number of clusters and the model had been determined with model based clustering techniques and cluster memberships had been assigned to movie titles. Keywords: Explanatory data analysis, Cluster analysis, Finite mixture models, IMDb. 1. Giri! S n fland rma insan hayat nda oldu!u kadar bilimde de çok kullan lan bir kavramd r. Kendall’ n deyimiyle “Bilimin temel problemlerinden biri, dünyay tabakalara küçültmek amac yla s n fland rmakt r [8].” Genel olarak s n fland rmay , elimizde nesneler ve özelliklerine dair gözlemler varken bunlar benzerliklerini baz alarak grupland rmak olarak aç klayabiliriz. statistikte gözlemleri “kümelemek”ten bahsederken ana problem udur: p özellikten her birisi için n say da gözlem varken, bu gözlemlerin “belirli bir yap s olmad ! ” alternatif hipotezine kar , tan mlanabilir gruplarda kümelendiklerini gösteren bir kan t var m d r? 393 Kümeleme analizi, esas grup yap lar hakk nda ön bilgi olmad ! ya da en az ndan varl klar bilinse de her grup için mevcut veri bulunmad ! durumlarda nesneler aras nda gruplar yaratmak için kullan l r [7]. Kümeleme analizinin birçok farkl yöntemi vard r. Bu çal mada öncelikle genel olarak çok de!i kenli kümeleme analizine ili kin temel bilgiler sunulacak, daha sonra olas l k modellerine ba!l olarak geli tirilen bir kümeleme algoritmas olan model tabanl kümeleme yöntemi incelenecektir. Olas l k modeline dayal kümeleme yöntemlerinin farkl alanlarda uygulamalar vard r; bunlar aras nda gen tan mlamas veri incelemeleri [4], doku segmentasyonu [5], astronomik veri s n fland rmas [6] gibi çal malar vard r. Model tabanl kümelemede verinin, her biri bir kümeyi temsil eden olas l k da! l mlar n n kar m ndan geldi!i varsay l r. Böylece küme say s ve uygun kümeleme yöntemi seçimi, istatistiksel model seçimi problemine indirgenmi olur [3]. Bu da küme say s ya da kümeleme yöntemi seçiminde kesin bir kriter sa!lamayan di!er kümeleme yöntemlerine göre büyük bir avantaj sa!lar. Model tabanl kümeleme yöntemi ve model seçimi Bölüm 3’te aç klanm t r. Bölüm 4’te aç klanan IMDb (Internet Movie Database) veritaban ndan elde edilmi bir örneklem, uzun metrajl sinema filmi verilerini model tabanl kümeleme yöntemiyle s n fland rmak için kullan lm t r. Bölüm 4.3’te ke fedici veri analizi teknikleriyle veri yap s de!erlendirilecek ve daha sonra 4.4’te kümeleme analizine ili kin sonuçlar verilecektir. 2. Kümeleme Analizi Kümeleme (Cluster) analizi, amac sahip olduklar özelliklere dayanarak nesneleri gruplamak olan bir çok de!i kenli analiz tekni!idir. Kümeleme, her nesneyi (birey, ürün, denek, vb.) önceden belirlenen bir seçim kriterine göre kümedeki di!er nesnelere çok benzer olacak ekilde s n fland r r. Sonuçta ortaya ç kan kümeler, yüksek küme içi homojenlik ve yüksek kümeler aras heterojenlik sa!lamal d r. Buna göre kümeleme analizinin ana amac n n, en çok benzeyen nesneleri gruplayarak verinin yap s n tan mlamak oldu!u söylenebilir. Bu amaç do!rultusunda kümeleme analizinin üç temel problemi vard r: Benzerlik nas l ölçülür? Kümeler nas l olu turulur? Kaç grup olu turulmal d r? Kümeleme analizi temelde nesnelerin benzerli!ine, ya da uzakl klar na, dayand ! için gözlemleri e zamanl olarak de!i ken baz nda kar la t racak bir yönteme ihtiyaç vard r. Bu kar la t rmada kullan lan farkl ölçütler vard r. Kümeleme uygulamalar nda en s kça kullan lan üç temel ölçüm yöntemi vard r: korelasyon ölçüleri, uzakl k ölçüleri ve birliktelik (association) ölçüleri. Korelasyon ve uzakl k ölçüleri metrik veriyi ölçmede kullan l rken, ili kilendirme ölçüleri metrik olmayan veriler için kullan l r [12]. Hangi ölçünün kullan laca! verinin yap s na ve de!i ken tiplerine ba!l oldu!u kadar pratikte ara t rmac n n tercihine de ba!l d r. Uzakl k ölçüleri kümeleme analizinde en s k kullan lan benzerlik ölçüsüdür. Yayg n olarak kullan lan bir uzakl k ölçüsü Öklid uzakl ! d r. Öklid uzakl ! n n karesi (Squared Euclidean distance), Mahalanobis uzakl ! ve genellenmi bir yakla m olan Minkowski uzakl ! da yayg n kullan lan di!er uzakl k ölçüleridir. Genel olarak kümelemenin ola!an basamaklar n a a! daki gibi özetleyebiliriz: 1. Örüntü (pattern) önerme: Aranacak küme say s na karar vermek, hangi ölçümlerin kullan laca! na karar vermek, kaç gözlem üzerinde çal laca! n seçmek ve dönü üm yapmak gibi i lemleri içerir. 2. Benzerlik ölçüsü: Kullan lacak benzerlik ölçüsüne karar verme sürecidir. 394 3. Gruplama: Veriyi kümelere ay rma sürecidir. 4. Veri özetleme: Bölmelerin aç k tan mlamalar n yapmay içeren iste!e ba!l bir ad md r. Bunlar, her küme için sözel ya da say sal tan mlamalar olabilir. 5. Küme de!erlendirmesi: Kümelerin anlaml olup olmad ! n n incelenmesidir. Pratikte kullan lan üç tür kümeleme yöntemi vard r: Hiyerar ik kümeleme yöntemleri, Hhiyerar ik olamayan kümeleme yöntemleri (k-ortalama) ve Model tabanl kümeleme yöntemleri. Hiyerar ik kümeleme yöntemleri genel olarak, a!aç yap s na benzeyen bir hiyerar i kurmaya dayanan yöntemlerdir. Temel olarak iki algoritmas vard r: toplamal (agglomerative) ve da! tmal (divisive). Toplamal algoritmada, her gözlem kendi kümesi olarak ba lar, her ad mda en yak n kümeler çiftler halinde birle tirilir ve sonunda bütün gözlemler tek bir büyük kümede toplan r. Da! tmal metotlarda ise, bütün gözlemleri içeren tek bir kümeden ba lan r; her ad mda en az benzeyen kümeler ayr l r ve sonunda her bir gözlem bir kümeye da! t l r [12]. Bu algoritmalar ile kullan lan çe itli tekniklerden en yayg n kullan lan ikisi: tek ba!lant ve tam ba!lant teknikleridir. Tek ba!lant tekni!inde (en yak n kom uluk) minimum uzakl klar dikkate al n r; yani her ad mda kümeler birle tirilirken aralar nda en k sa uzakl k olan çiftler birle tirilir. Tam ba!lant tekni!inde (en uzak kom uluk) ise kümeleme kriteri maksimum uzakl !a dayan r. Hiyerar ik olmayan kümeleme yöntemleri, küme say s konusunda ön bilgi varken ya da küme say s önceden belirlenmi ken kullan lan yöntemlerdir. Analiz girdisi olarak yaln zca veriyi kulland ! için hiyerar ik yöntemlere k yasla büyük veri kümelerinde kullan mlar daha kolayd r [1]. En yayg n kullan lan hiyerar ik olmayan yöntem k-ortalama (k-means) tekni!idir. Bu teknikte amaç grup-içi uzakl klar minimum olacak ekilde veriyi k tane gruba ay rmakt r. Bu tekniklerin kullan m nda kar la lan problemlerden biri uygun küme say s na karar verme zorlu!u; bir di!eri de, örne!in k-ortalama tekni!inde, kümelere belirli bir yap empoze edilmesidir. Ayr ca baz teknikler ayk r de!erlere a r hassasken, birço!u da kümelerin istatistiksel özelliklerini içermezler. Bölüm 3’te aç klanan model tabanl kümeleme teknikleri bu problemlerin bir ço!u konusunda di!er tekniklere üstünlük sa!lar. 3. Karma Model Tabanl Kümeleme Kümeleme analizinde kullan lan yakla mlardan biri de karma model tabanl kümeleme (mixture model-based clustering) yöntemidir. Veri kayna! iki ya da daha çok kitlenin kar m ndan elde edildi!inde, gözlemlerin karma bir da! l ma sahip oldu!u söylenir. Kümelemede sonlu karma model yakla m olas l k yo!unluk fonksiyonun, a! rl kl bile en yo!unluklar n n toplam olarak modellenebilece!i varsay m na dayan r. Her xij , ' 1 ,..., ' k oranlar yla G1,…,Gk kitlelerinin kar m olan bir karma G kitlesinden geldi!inde, ' j > 0 ve " k j =1 r j iken, x vektörünün olas l k yo!unluk fonksiyonu sonlu karma formda, g (x; d, c ) = " d j f j (x; c j ) k (3.1) j =1 biçiminde verilir. Burada c j , j’inci bile enin bilinmeyen parametre vektörü, d j ise bir gözlemin j’inci bile ene ait olma olas l ! d r. Çok de!i kenli Gaussian karma modellerin bu amaca yönelik uygun bir araç oldu!u birçok ara t rmada gösterilmi tir [1,2,7]. Bile en da! l mlar n n çok de!i kenli normal (Gaussian) oldu!unu varsayd ! m zda karma yo!unluk fonksiyonu, 395 g (x; d, µ j , e j ) = " d j f j (x; µ j , e j ) k (3.2) j =1 olarak tan mlan r. Burada kümeler, µ k ortalama merkezli elipsoitlerdir. e k kovaryanslar ise kümelerin di!er geometrik özelliklerini temsil eder [3]. Burada f j , / 1 (x i µ j )T e j1 (x i exp 0 1 2 f j (x i ; µ j , e j ) = (2' )p / 2 e j ; µ j )< = (3.3) ile verilen çok de!i kenli normal da! l m n olas l k yo!unluk fonksiyonudur. rekil 1’de tek de!i kenli ve iki bile enli bir karma normal da! l m n iki boyutlu grafik gösterimi ve iki bile enli ve iki de!i kenli bir karma normal da! l m n üç boyutlu grafik gösterimi verilmi tir [1]. 0.55 y 0.5 0.45 0.4 0.12 0.35 0.1 0.3 0.25 0.08 0.2 0.06 0.15 0.1 0.04 0.05 x -1.5 -1 -0.5 0.5 1 1.5 2 2.5 3 3.5 4 4.5 5 5.5 6 6.5 0.02 5 0 -6 -4 0 -2 0 2 4 6 -5 X1 X2 Bekil 1. Tek de!i kenli ve iki de!i kenli karma normal da! l mlar. 3.1. Olabilirlik Kestirimi Model tabanl kümelemede c = ( d j , µ j , e j ) parametrelerinin kestirimini yapmak için iki farkl yakla m vard r. Karma olabilirlik (mixture likelihood) yakla m nda c , n k i =1 j =1 L(c | x) = " ln " ' j f j (x i | µ j ; e j ) (3.4) log-olabilirlik fonksiyonunu maksimize edecek ekilde seçilir. Bunun için EM (Expectation Maximization) algoritmas kullan l r. EM algoritmas c 0 ba lang ç de!erlerini kullanarak iki basamakta parametre kestirim sonuçlar n verir. En çok olabilirlik yakla m uygulan rken E-basama! nda, E itlik 3.4’ü kullanarak mevcut c de!eri için xij ’nin j’inci bile ene ait olmas ko ullu olas l ! hesaplan r. Daha sonra M- 396 ˆ en çok olabilirlik kestirimleri basama! nda bu ko ullu olas l klar kullan larak dˆ j , µˆ j , e j hesaplan r [6]. S n fland rma olabilirlik (classification likelihood) yakla m nda ise gözlemlerin hangi bile ene ait oldu!unu belirleyen bir gösterge vektörü (indicator vector), z i de bir bilinmeyen parametre olarak kullan l r. Bu gösterge vektörü, /51, xi 7 G j z ij = 0 510, xi Y G j (3.5) ile tan mlan r. Buna göre c , LC (c | x) = "" z ij ln{' j f j (x i | µ j ; e j )} k n j =1 i =1 (3.6) s n fland rma log-olabilirlik fonksiyonunu maksimize edecek ekilde seçilir. Bu kez z ij de!erleri eksik de!er olarak al narak EM Algoritmas uygulan r [6]. EM algoritmas n n s n fland rmaya uyarlanm bu kullan m CEM Algoritmas olarak da adland r l r [13]. 3.2. Kovaryans Matrisinin Parametrizasyonu Banfield ve Raftery kovaryans matrisinin özvektör-özde!er ayr m n kullanarak, bile enlerin geometrik özelliklerinin k s tlanmas na dayanan bir sistem önermi tir [5]. Kovaryans matrisinin özde!er-özvektör ayr m , e k = sk D k A k D Tk (3.7) olarak yap ld ! nda bir skalar olan Dk , bile enin (kümenin) hacmini; özvektörlerin dik matrisi olan D k , yönünü; özde!erlerle orant l de!erlerin kö egen matrisi olan A k ise eklini belirler ( A k = 1 ). E itlik 3.7’deki parametrelerin hepsinin de!il ama baz lar n n kümeler aras nda de!i kenlik gösterdi!i hesaba kat ld ! nda, farkl kümelenme durumlar n tan mlamaya uygun, kolayl kla yorumlanabilen az parametreli (parsimonious) modeller elde edilir. Bu yüzden model tabanl kümelemenin bir di!er önemli avantaj da farkl veri yap lar na (farkl kümelenme senaryolar na) uygun olan çe itli modellerin kullan labilir olmas d r [4]. Celeux ve Govaert bu ekilde tan mlanm 14 modelin tan m n ve aç klamas n yapm t r. Celeux ve Govaert ayr ca EM algoritmas nda kullan lmak üzere, bu modellere dayal kovaryans matrisi güncel denklemlerini de (covariance matrix update equation) sunmu tur [6]. Bu denklemlerin baz lar kapal yap da olmakla beraber, baz lar n n çözümü ancak iteratif yöntemlerle mümkündür. Bu çal mada yaln zca kovaryans matrisi güncel denklemi kapal yap da olan ve Çizelge 1’de belirtilen 9 model kullan lacakt r [1]. 3.3. Model Seçimi Kovaryans matrisi için belirlenen her farkl model ve her farkl küme say s kombinasyonu, farkl bir olas l k modeline kar l k gelir. Bu durumda model tabanl kümelemenin olas l ksal çerçevesi, en iyi kümeleme yöntemi ve do!ru küme say s seçimi sorunlar n e zamanl olarak model seçimi problemine indirgemi olur [4]. 397 Model kar la t rmas için, genelde, Bayes faktör yakla m kullan l r. Gözlenen X verisi için M k , k parametreli bir model iken toplanm olabilirlik (integrated likelihood), p ( X | M k ) = . p ( X | c k , M k ) p (c k | M k )dc k (3.8) olarak tan mlan r. p (c k | M k ) burada c k ’n n önsel da! l m d r. Toplanm olabilirlik, verinin M k modeli yap s nda oldu!u bilindi!inde, X verisinin gözlemlenmi olma olas l ! n belirtir. Çizelge 1. Çok de!i kenli normal karma da! l m modelleri tan mlar Model No. Kovaryans Da.%l%m 1 e k = sI 2 e k = sk I Hacim: De/i ken / Aekil: Sabit / Yön: - 3 e k = sB Hacim: Sabit / Aekil: Sabit / Yön: Eksenler 4 e k = sB k Hacim: Sabit / Aekil: De/i ken / Yön: Eksenler 5 e k = sk B k Hacim: De/i ken / Aekil: De/i ken / Yön: Eksenler 6 e k = sDAD Hacim: Sabit / Aekil: Sabit / Yön: - T Hacim: Sabit / Aekil: Sabit / Yön: Sabit 7 e k = s D k AD Tk Hacim: Sabit / Aekil: Sabit / Yön: De/i ken 8 e k = sD k A k D Tk Hacim: Sabit / Aekil:De/i ken / Yön: De/i ken 9 e k = s k D k A k D Tk Hacim: De/i ken / Aekil: De/i ken / Yön: De/i ken Bayes faktörü, iki modelin toplanm olabilirliklerinin oran olarak tan mlanm t r. Ba ka bir deyi le Bayes faktörü, hiçbir modelin önsel olarak kabul edilmedi!i varsay m alt nda, bir modelin bir di!erine sonsal odds sonucudur [14]. Bayes faktörünün model tabanl kümeleme için uygun olmas n n nedeni Bayesçi bir çözüm olmas n n yan s ra, ikiden daha fazla modelin kar la t r lmas için uygulanabilir olmas d r [3]. Ancak Bayes faktör kullan m pratikte problemli oldu!undan, Bayesian Bilgi Kriteri (BIC, Bayesian Information Criteria) ad verilen bir yakla m kullan l r [15]. m k , M k modelindeki kestirilecek parametre say s ve ĉ k , c k parametresinin en çok olabilirlik kesitirmi iken BIC, 2 log p( X | M k ) Z BIC k = 2 log p ( X | cˆ k , M k ) mk log(n) (3.9) ile verilmi tir. BIC skorunun, farkl parametrelenmi ve farkl bile en say s na sahip modellerin kar la t r lmas nda anlaml sonuçlar verdi!i çe itli çal malarda gösterilmi tir [3]. Yüksek BIC skoru, söz konusu model lehine güçlü kan t oldu!una i aret eder. Genel olarak, BIC skorlar aras ndaki 10’dan büyük farklar n bir modelin bir di!erine tercih edilmesi için çok güçlü kan t oldu!u söylenebilir [14]. 398 3.4. Model Tabanl: Kümeleme Algoritmas: Çal mada kullan lan algoritma, Martinez ve Martinez’in verdi!i MBCLUST algoritmas d r [1]. MBCLUST bir MATLAB uygulamas d r. Verilen model tabanl kümeleme algoritmas üç temel ad mda incelenebilir: 1. EM Algoritmas nda kullan lan ba lang ç parametre de!erlerinin belirlenmesi. 2. EM Algoritmas ile parametrelerin en çok olabilirlik kesitirimlerinin yap lmas . 3. Bayesçi Bilgi Kriteri (BIC) de!erlerine göre model ve küme say s seçimi yap lmas . Kümelemede EM Algoritmas n n ba lang ç de!erlerine karar vermek için önerilen yöntemlerden biri model tabanl toplamal kümelemedir [3, 5]. Model tabanl toplamal kümeleme yöntemi genel olarak, her gözlemin birer kümeye atanmas ve her ad mda iki kümenin birle tirilmesine dayanan hiyerar ik toplamal kümeleme yöntemine benzer. Ancak burada kümeler, s n fland rma olabilirlik fonksiyonunu maksimize edecek ekilde birle tirilir. Model tabanl toplamal kümelemede, Çizelge 1’de belirtilen dokuz kovaryans matrisi modeli de kullan labilir. Fraley ve Raftery dört temel modelin bu teknikte kullan m n n algoritmalar n vermi tir [3]. K s ts z modeli (model no. 9) kullanarak uygulanm model tabanl toplamal kümelemenin EM algoritmas için anlaml ba lang ç de!erleri sa!lad ! yap lan çal malarla gösterilmi tir [1]. Bekil 2. Model tabanl kümeleme algoritmas . rekil 2’de uygulamalarda kullan lacak olan model tabanl kümeleme algoritmas n n ad mlar gösterilmi tir. Öncelikle verilen model ve küme say s için toplamal model tabanl kümeleme uygulanarak EM algoritmas n n ba lang ç de!erleri belirlenir. Daha sonra EM algoritmas n n yak nsamas sonucunda elde edilen parametre kestirimlerine göre BIC skoru hesaplan r. Bu i lem her model ve belirlenen her küme say s için tekrarlan r. Sonuçta BIC skorlar kar la t r larak seçilecek olan modele karar verilir. Seçilen model sonuç olarak küme say s n ve küme yap lar n (bile en da! l mlar n ) verir ve bu sonuçlara göre gözlemlerin küme üyelikleri belirlenir [1]. 4. IMDb Verileri ve Analizi 4.1. Veri KaynaG: 399 IMDb (Internet Movie Database), Internet üzerinden sunulan ve filmler, oyuncular, televizyon programlar , video oyunlar ve yap m ekipleri hakk nda geni çapl bilgiler içeren çevrimiçi bir veritaban d r [17]. Amazon.com’un bir yan kurulu u olan IMDb, 1990 y l ndan bu yana yap lan çal malar ile olu turulmu tur. Veritaban , film bilgilerinin yan nda kullan c lar n ba l klara verdi!i oylar ve güvenilirli!i sa!lamak amac yla özel yöntemlerle hesaplanan oy ortalamalar , yani “rating”leri de içerir. 10 Ekim 2007 tarihli kay tlara göre IMDb’nin 17 milyonu kay tl üye olmak üzere, 57 milyon kullan c s vard r. Ayr ca 28 Mart 2009 itibari ile IMDb’de kay tl ba l k say s 1,379,920 olup bu ba l klar n 441,957’si sinema filmidir. Kullan lan verilerin son güncelleme tarihi 28 Mart 2009’dur. Veri analizinde kullan lan de!i kenler unlard r: yap m y l , IMDb Rating (kullan c oylar n n “a! rl kl ” ortalamas , puanlar n tan m : “1: berbat”, “10: mükemmel”), oy say s (her ba l k için kullan lan toplam oy say s ), tür (aksiyon, macera, vb.), süre, yap m ülkesi, film bütçesi (tahmini bütçe). Oy sahtekarl ! n önlemek amac yla IMDb Rating hesaplarken, kullan lan oylar çe itli ekillerde filtreleyerek ve a! rl kland rarak her ba l k için aritmetik ortalamadan farkl bir “a! rl kl ortalama” ölçüsü kullanmaktad r. Film türleri, IMDb ba l klar n kategorize etmek için veritaban nda kullan lan 27 tür üzerinden tan mlanm t r. Ancak bu çal mada uzun metraj sinema filmlerinin ait oldu!u, belgesel hariç, 20 türün birle tirilmesiyle elde edilen 14 tür kategorisi dikkate al nm t r. Yap m ülkesi giri i, ortak yap m filmler (co-production) için esas yap m ülkesi dikkate al narak yap lm t r. Ülkeler daha sonra A.B.D., ngilizce konu ulan di!er ülkeler (E.S.C.), Avrupa, Güney Amerika, Uzak Do!u ve di!er olmak üzere 6 grupta toplanm t r. Bütçeler milyon dolar cinsinden belirtilmi tir. Eksik veriler EM Algoritmas kullan larak Eksik De!er Analizi ile tamamlanm t r. 4.2. Örneklem Seçimi Çal mada yaln zca son on y lda (1998-2008) yap m tamamlanm olan uzun metrajl sinema filmleri de!erlendirmeye al nm t r. Belgesel filmler de!erlendirmeye al nmam t r. Süresi belirtilmeyen filmler veriden ç kar lm ; yaln zca IMDb Rating’i belirli olan ve 200’den fazla oy alan ba l klar de!erlendirilmi tir. Bu k s tlamalara göre hedef kitle boyutu 8,572’dir. Bu veriden, SPSS Clementine ile %5’lik rastgele örneklem seçimi (Örneklem 1) yap lm t r. Daha sonra analizler sonucu, modellemede önemli farkl l klara yol açan bir de!i ken oldu!una karar verilen oy say s na göre yeni bir k s tlama getirilerek yeni bir örneklem seçimi (Örneklem 2) yap larak sonuçlar kar la t r lm t r. Bu örneklemin seçildi!i kitle, oy say s 2000’den büyük olan ba l klar içermekte ve 3,019 gözlemden olu maktad r. Bu kitleden yakla k %5’lik bir örneklem seçimi yap lm t r. 4.3. Verilerin Analizi IMDb uzun metrajl film verisinin de!i ken yap lar ve de!i kenler aras ndaki ili kiler incelenmi , uygun dönü ümler belirlenmi tir. Baz dikkat çekici sonuçlar a a! da aç klanm t r. Kullan c be!enisini temsil eden IMDb Rating’lerinin 5.9 ortalamas ile yakla k simetrik da! ld ! gözlemlenmi tir. Oy say s , bütçe ve süre de!i kenlerinin a r çarp k da! ld klar gözlendi!i için, oy say s ve süre logaritmik dönü üm, bütçe dördüncü dereceden kök dönü ümü yap larak modellemede kullan lm t r [2]. 400 50.0% 40.0% 30.0% 20.0% South America Far East Other Comedy Crime Drama Europe E.S.C. 0.0% USA 10.0% 250 200 150 100 Thriller&Mystery Music&Musical History&Biography Sci-Fi Romance Horror Fantasy Family Animation Adventure 0 Action 50 Bekil 3. Filmlerin ülke ve türlere göre da! l mlar . Filmlerin yakla k %70’e yak n n n A.B.D. ve Avrupa yap m oldu!u görülmü tür. Ortak yap m filmlerin esas yap m ülkelerinin bu kategorilerde olmas ve bu ülkelerdeki film endüstrilerinin geli mi li!i göz önüne al nd ! nda bu beklenen bir sonuçtur. Ayr ca türlere göre film say lar incelendi!inde dram ve komedi türlerinin en çok gözlenen türler oldu!u görülmü tür. rekil 4’te, tarih-biyografi ve müzik-müzikal filmleri genel olarak ortalamadan yüksek rating ald klar ve korku filmlerinin de genel ortalamadan dü ük rating ald ! görülüyor. 401 10.0 Rating 8.0 6.0 4.0 Thriller sci-fi romance music horror History fantasy family drama comedy animatio adventur action 0.0 crime 2.0 Bekil 4. Türlere göre Rating da! l mlar . Ayr ca düzle tirme (smoothing) yap larak al nan sonuçlara göre, 90 dakikadan k sa filmler için film süresi uzad kça be!eninin azald ! ancak 90 dakikadan uzun filmler için filmler uzad kça be!eninin artt ! n görüyoruz. Benzer bir ili kinin bütçe (s n r $1,000,000) ve oy say s için de geçerli oldu!u görülüyor. 8.5 8.5 8 8 7.5 7.5 7 Rat ing Rat i ng 7 6.5 6 6.5 6 5.5 5.5 5 5 4.5 3.5 4.5 0.5 4 4.5 5 5.5 6 1 1.5 2 2.5 3 3.5 4 4.5 5 Budget Runt i m e 8.5 8 7.5 Rat ing 7 6.5 6 5.5 5 4.5 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 Num ber of Vot es Bekil 5. Rating’in süre, bütçe ve oy say lar na göre de!i imi. 4.4. Model-tabanl: kümeleme uygulamas: Bölüm 4.3’te analiz sonuçlar verilen IMDb verisi ile daha sonra model tabanl kümeleme uygulamas yap lm t r. Çal man n bu a amas nda, modellemede rating, oy say s , süre ve bütçe de!i kenleri kullan lm t r. Bölüm 3.4’te aç klanan MBCLUST algoritmas , analiz sonucu karar verilen dönü ümlerin yap ld ! , Örneklem 1 verisine uyguland ! nda a a! daki sonuçlar al nm t r. 402 En yüksek BIC de!eri 4 kümeli k s ts z model (model no. 9) ile elde edilmi tir; ancak 2 ve 3 küme ile olu turulan ayn modelin BIC de!erleri de oldukça yüksektir. Model 9, 4 clusters is optimal. -2000 1: [ k = D I 2: [ k = Dk I 3: [ k = D B -3000 BI C 4: [ k = D B k 5: [ k = Dk B k 6: [ k = D DA D' -4000 7: [ k = D D k A D k' 8: [ k = D D k A k D k' -5000 9: [ k = [ k 0 1 2 3 4 5 6 7 8 9 Num ber of clust er s Bekil 6. Örneklem 1 için BIC de!erleri. Kaufman ve Rousseeuw bir veri kümesindeki grup say s n belirlemek için bir kestirim yöntemi olarak siluet istatisti!ini önermi tir. Bir gözlemin siluet geni li!i genel anlam yla, o gözlemin küme atamas n n ne kadar iyi yap ld ! n belirtir. Ortalama siluet geni li!i ise bir verideki küme say s n belirlemek için kullan l r. Büyük siluet de!eri anlaml kümeleme yap ld ! n n i aretidir. Siluet grafi!i ise her küme için siluet de!erlerini gösterir [16]. 1 1 Cluster Cluster 2 3 2 4 -0.5 0 0.5 1 -0.5 0 0.5 1 Silhouette Value Silhouette Value Cluster 1 2 3 -0.5 0 0.5 1 Silhouette Value Bekil 7. Örneklem 1 kümelemesinde küme say lar 4, 2 ve 3 için siluet grafikleri. 4 kümeli model için ortalama siluet de!eri 0.13 iken, 2 kümeli model için 0.27, 3 kümeli model için 0.34’tür. rekil 7’de, 3 farkl küme say s na ait siluet grafikleri gösterilmi tir. 4 kümeli modelde yaln zca 1 numaral kümenin iyi bir küme oldu!u ve di!er kümelerin anlaml küme yap s nda olmad ! söylenebilir. 2 kümeli modelin de küme yap s n iyi aç klamad ! görülebilir. Bu iki modele k yasla 3 kümeli modelin daha anlaml bir küme yap s olu turdu!u aç kt r. 403 Küme say s 3 ve kovaryans matrisi k s ts z olarak (model no. 9) parametrize edilen modele göre, bile enlerin hacim, ekil ve yönleri de!i kenlik gösterir. Çizelge 2’de kümelere atanan gözlemlerin de!i ken ortalamalar verilmi tir. Bu de!erler, örne!in, Küme 1’de bulunan filmlerin sürelerinin ortalamas n n 95 dakika, ortalama bütçenin $1,684,640, rating ortalamas n n 5.2 ve ortalama oy say s n n 325 oldu!u anlam na gelir. Çizelge 2. Çok de!i kenli normal karma da! l m modelleri tan mlar Küme -1 Ortalamalar Küme - 2 Küme - 3 Süre 95 99 102 Bütçe 1,684,640 2,331,187 15,939,622 Rating 5.2 6.5 5.9 Oy Say%s% 325 766 9,065 Buna göre Küme 1’in k sa, dü ük bütçeli, tan nmam ve genellikle az be!enilen filmlerden olu tu!u; Küme 2’nin ortalama süreli, ortalama bütçeli ve fazla tan nmam olmas na ra!men yüksek rating alan filmlerden olu tu!u; Küme 3’ün ise uzun, çok yüksek bütçeli ve çok izlenen filmlerden olu tu!u söylenebilir. Bu de!erlendirmeye göre Küme 1, ‘Limonata Filmler’; Küme 2, ‘Nitelik Filmleri’; Küme 3 ise ‘Kapitalist Filmler’ olarak adland r lm t r. Rating de!i keninin ba! ml bir de!i ken oldu!u dü ünülerek, yine Örneklem 1 üzerinde rating de!i keni ç kar larak üç de!i ken üzerinden yeniden kümeleme yap ld ! nda ise en yüksek BIC de!erine sahip modellerin 2 ve 3 kümeli k s ts z modeller oldu!u belirlenmi tir. 2 kümeli model için ortalama siluet de!eri 0.57, 3 kümeli model içinse 0.45’tir. Ancak rekil 9’daki siluet grafiklerine bak ld ! nda 3 kümeli modelin küme yap lar n n daha iyi oldu!u görülebilir. Model 9, 3 clusters is optimal. -1000 1: [ k = D I -1500 2: [ k = Dk I 3: [ k = D B BI C -2000 4: [ k = D Bk -2500 5: [ k = Dk Bk 6: [ k = D DAD' -3000 7: [ k = D Dk A Dk' 8: [ k = D Dk A k Dk' -3500 -4000 9: [ k = [ k 0 1 2 3 4 5 6 7 8 9 10 11 Number of clust ers Bekil 8. Örneklem 1’in üç de!i ken üzerinden kümelenmesinde BIC de!erleri. 404 1 Cluster Cluster 1 2 2 3 -0.5 0 0.5 1 -0.5 Silhouette Value 0 0.5 1 Silhouette Value Bekil 9. Örneklem 1’in üç de!i ken üzerinden kümelenmesinde 1 ve 2 kümeli modellerin siluet grafikleri. Örneklem 2’ye dört de!i kenin hepsi al narak model tabanl kümeleme uyguland ! nda 5 kümeli k s ts z modelin optimal model oldu!u görülüyor. Bu modelin BIC skorunun di!erlerine göre oldukça büyük olmas , bu model lehine çok güçlü kan t oldu!unun i aretidir. Model 9, 5 clusters is optimal. -800 1: [ k = D I -1000 2: [ k = Dk I BI C 3: [ k = D B 4: [ k = D Bk -1200 5: [ k = Dk Bk 6: [ k = D DA D' -1400 7: [ k = D Dk A Dk' 8: [ k = D Dk A k Dk' 9: [ k = [ k -1600 0 1 2 3 4 5 6 7 8 9 10 11 Num ber of clust er s Bekil 10. Örneklem 2 kümelemesinin BIC de!erleri. 5. Sonuçlar Çal man n amac do!rultusunda, Ke fedici Veri Analizi (EDA) ile de!i ken yap lar belirlenmi ve modellemede kullan lmak üzere uygun dönü ümler belirlenmi tir. Ayr ca de!i kenlerin film ratingi ile ili kileri incelenmi ; süre, bütçe ve oy say s de!i kenleri ile rating aras nda do!rusal olmayan ili kiler oldu!u görülmü tür. Model tabanl kümeleme, oy say lar na k s tlama getirilerek seçilmi iki farkl örneklem üzerinde uygulanm t r. Oy say s 200’den büyük filmleri içeren Örneklem 1 için k s ts z model yap s na uygun 3 küme olu turulmu tur. Bu kümeler Çizelge 3’te tan mlanm t r. Çizelge 3. Örneklem 1 için 3 kümeli k s ts z model, küme tan mlar Süre Limonata Ortalama 95 dak. K,sa Bütçe Oy Say%s% Ortalama $1,684,640 Dü ük ve orta bütçeli 405 Ortalama 325 oy Tan,nmayan Rating Ortalama 5.2 Ortalama be/enilen Ortalama 99 dak. Nitelik Orta uzunlukta Ortalama $2,331,187 Orta bütçeli Ortalama $15,939,622 Ortalama 102 dak. Genellikle yüksek Uzun Kapitalist bütçeli Ortalama 766 oy Az tan,nan Ortalama 6.5 Çok be/enilen Ortalama 9,065 oy Çok izlenen Ortalama 5.9 Orta ve yüksek derecede be/enilen Daha sonra bu örneklemden Rating de!i keni ç kar larak tekrar modelleme yap lm ve daha anlaml küme yap lar ve yüksek siluet geni liklerine sahip kümeler ç kar lm t r. Oy say s 2000’den büyük olan filmleri içeren Örneklem 2 üzerinde de ayr ca kümeleme uygulamas yap lm ve bu kez 5 kümeli k s ts z modelin en iyi model oldu!una karar verilmi tir. Yap lan üç farkl uygulama sonucu ç kan farkl küme yap lar ve küme say lar , örneklem seçimi ve de!i ken seçiminin model tabanl kümeleme uygulamas nda son derece önemli oldu!unu göstermektedir. Di!er kümeleme yöntemlerinden farkl olarak model varsay mlar na dayanan bir yöntem oldu!undan, model tabanl kümeleme için öncelikle örneklem ve de!i ken seçiminin amaca yönelik olarak yap lmas na dikkat edilmelidir. Kaynaklar [1] W. L. Martinez, A. R. Martinez, (2004), Exploratory Data Analysis with MATLAB, Chapman & Hall/CRC, Boca Raton. [2] A. Erar, G. K ro!lu, (2008), Veri Analizi Ders Notlar:, MSGSÜ, stanbul. [3] C. Fraley , A. E. Raftery, (1998), How many clusters? Which clustering methods? Answers via model-based cluster analysis, Computer Journal, 41, 578-588. [4] K. Y. Yeung, C. Fraley, A. Murua, A.E. Raftery, W.L. Ruzzo, (2001), Model-based clustering and data transformations for gene expression data, Bioinformatics, 17, 977-987. [5] J. D. Banfield, A. E. Raftery, (1993), Model-based Gaussian and non-Gaussian clustering, Biometrics, 49, 803-821. [6] G. Celeux, G. Govaert, (1995), Gaussian parsimonious clustering models, Pattern Recognition, 28, 781-793. [7] G. J. McLachlan, K. E. Basford, (1988), Mixture Models: Inference and Applications to Clustering, Marcel Dekker, New York. [8] M. G. Kendall, (1981), Multivariate Analysis, Charles Griffin & Co., Bristol. [9] B. G. Mirkin, (2005), Clustering for Data Mining: A Data Recovery Approach, Chapman & Hall/CRC, Boca Raton. [10] H. Tatl dil, (1996), Uygulamal: Çok DeGi#kenli statistiksel Analiz, Engin Yay nlar , Ankara. [11] D. M. Titterington, A. F. M. Smith, U. E. Makov, (1985), Statistical Analysis of Finite Mixture Distributions, John Wiley & Sons, London. [12] J. F. Hair, R. E. Anderson, R. L. Tatham, W. C. Black, (1998), Multivariate Data Analysis, PrenticeHall, New Jersey. [13] G. Celeux, G. Govaert, (1992), A classification EM algorithm for clustering and two stochastic versions, Comput. Stat. Data Anal., 14, 315-332. [14] R.E. Kass, A.E. Raftery, (1995), Bayes Factors, J. Am. Stat. Assoc., 90, 773-795. [15] G. Schwarz, (1978), Estimating the dimension of a model, The Annals of Statistics, 6, 461-464. [16] L. Kaufman, P. J. Rousseeuw, (2005), Finding Groups in Gata: An Introduction to Cluster Analysis, John Wiley & Sons, New York. [17] The Internet Movie Database (IMDb), http://www.imdb.com/ (accessed March 28, 2009). 406 Faktör korelasyonlar n n Cronbach Alpha üzerine etkisi Fatma NOYAN Gülhayat GÖLBArI r MrEK Y:ld:z Teknik Üniversitesi, Fen Edebiyat Fakültesi statistik Bölümü, 34210 Davutpa#a stanbul noyanf@gmail.com Y:ld:z Teknik Üniversitesi, Fen Edebiyat Fakültesi statistik Bölümü, 34210 Davutpa#a stanbul gulhayatgolbasi@ gmail.com Özet E!itim, sosyoloji, istatistik, t p, siyaset bilimleri ve ekonomi olmak üzere hemen her bilim alan nda tutum ve davran lar n ölçülmesi için, genellikle sosyal bilimlerde ölçek olarak adland r lan tutum anketleri haz rlanmaktad r. Bu anketlerden elde edilen veriler ise istatistik analizlere girdi olu turmaktad r. Bu a amada analizlerin veya tahminlerinin do!rulu!u, olu turulan ölçeklerin geçerli ve güvenilir olmas na ba!l olmaktad r. Geçerlilik en genel tan m yla, ölçe!in istenilen kavram di!erleriyle kar t rmadan ölçebilmesi, güvenilirlik ise ölçümlerin tutarl olmas d r. Tutarl l ! n tahmininde ba ta Cronbach S katsay s olmak üzere Guttman ikiye bölme (split-half) katsay s ve Spearman-Brown katsay s gibi birçok yöntem kullan lmaktad r. Cronbach’ n 2004 y l nda yapt ! bir çal maya göre, Cronbach’n n 1951 y l ndaki makalesi y lda en az 325 defa olmak üzere, SSCI kapsam nda yakla k 5590 defa referans gösterilmi tir. Buradan S katsay s n n ölçek geli tirmedeki önemi de ortaya konulmu olmaktad r. Tutum ve davran lar ölçmekte kullan lan ölçekler, tek bir kavram ölçmek için olu turulabilece!i gibi, ölçekte, birden çok kavram veya alt-ölçek bulunabilir. Bu alt-ölçeklerdeki göstergelerin tamam toplam ölçe!i olu turur. Alt-ölçekler ba! ms z olabilece!i gibi, negatif veya pozitif korelasyonlu da olabilir. Bu çal man n amac , toplam ölçe!i olu turan alt-ölçekler veya faktörler aras ndaki korelasyonun, ölçe!in toplam güvenilirli!i üzerinde bir etkisi olup olmad ! n ara t rmakt r. Bu amaçla, anakütle güvenilirlikleri bilinen faktör modelleri için, faktörler aras ndaki korelasyonun farkl i aret ve derecelerine göre bir Monte Carlo simülasyon çal mas yap lacakt r. Faktörler aras ndaki korelasyonun Cronbach S güvenilirlik tahmininin yanl l k ve etkinli!ine etkisi incelenecektir. Anahtar sözcükler: Güvenilirlik, Cronbach 3, Simülasyon, Faktör korelasyonlar& Abstract The Effect of Factor Correlations on Cronbach’s Alpha The validity and reliability of a scale are the key concepts in scale development. Among the methods to estimate reliability, coefficient alpha has received more attention than others such as split-half reliability. Cortina (1993) reported that in a review of the Social Sciences Citations Index for the literature from 1966 to 1990, Cronbach’s 1951 article had been cited nearly 60 times every year in a total of 278 different journals that cover a variety of research fields including not only psychology but also education, sociology, statistics, medicine, counseling, nursing, political science, and economics. Cronbach (2004) reported that his 1951 article had been cited no less than 5,590 times and had been cited approximately 325 times per year in the Social Sciences Citation Index in recent years. The scales that used for measure some underlying constructs can be a single scale or its consisted of some many subscales. These subscales may be positively or negatively correlated as well as being independent. The aim of this study is to investigate the effect of factor correlations on the bias and efficiency of Cronbach’s alpha to estimate reliability through Monte Carlo simulation. Keywords: Reliability, Cronbach’s Alpha, Simulation, Factor Correlations 407 1. Giri! E!itim, sosyoloji, istatistik, t p, siyaset bilimleri ve ekonomi olmak üzere hemen her bilim alan nda tutum ve davran lar n ölçülmesi için, genellikle sosyal bilimlerde ölçek olarak adland r lan tutum anketleri haz rlanmaktad r. Bu anketlerden elde edilen veriler ise istatistik analizlere girdi olu turmaktad r. Bu a amada analizlerin veya tahminlerinin do!rulu!u, olu turulan ölçeklerin geçerli ve güvenilir olmas na ba!l olmaktad r. Geçerlilik en genel tan m yla, ölçe!in istenilen kavram di!erleriyle kar t rmadan ölçebilmesi, güvenilirlik ise ölçümlerin tutarl olmas d r. Günümüze kadar ölçme araçlar n n güvenilirli!ini tahminine yönelik çok say da güvenirlik katsay s önerilmi tir. Güvenirlik katsay lar n n say ca çok olmas n n temel nedeni; bu katsay lar n farkl madde yap lar nda farkl de!er üretmeleridir [1]. Buna ra!men, e!itim ve psikoloji alan nda yap lan çal malar incelendi!inde; çoklu derecelenmi (polythomous) testlerin güvenirli!inin elde edilmesinde yayg n olarak Guttman ve Cronbach taraf ndan geli tirilen S katsay s n n, Guttman yar ya bölme (split-half) katsay s n n ve Spearman-Brown katsay s n n, ikili derecelenmi (dichothomous) testlerde ise Kuder ve Richarson taraf ndan gelistirilen KR-20 ve KR-21 katsay lar n n kullan ld ! gözlenmektedir. Güvenilirlik temellerini Psikoloji’deki klasik ölçme teorisinden alm t r. Ölçme teorisindeki klasik ölçe modeli [2], X i = Ti + E i (i = 1, 2,..., k) (1) eklindedir. Burada gözlenen de!i ken Xi, ölçülmesi gereken do!ru de!eri Ti (true) ve do!ru skordan ba! ms z oldu!u ( Cov(Ti , E i ) = 0 ) kabul edilen hata terimine (Ei) ayr t r lmaktad r. Gözlenen skorlar n toplam ndan olu an gözlenen skor toplam , X = X1 + X 2 + ... + X k (2) olup, (1)’dekine benzer ekilde X = T1 + T2 + ... + Tk + E1 + E 2 + ... + E k (3) veya T = T1 + T2 + ... + Tk ve E = E1 + E 2 + ... + E k ile gösterilerek, X =T+E (4) eklinde do!ru skor ve hata bile enlerine ayr t r lmaktad r. Bu tan mlardan hareketle, bile ik güvenilirli!i, = Var(T) Var(X) (5) olarak tan mlanmakta ve do!ru skor varyans n n gözlenen skor varyans na oran olarak ifade edilmektedir. Güvenilirli!in tahmininde test-tekrar test, alternatif form, yar ya bölme (split-halves) ve iç-tutarl l k yöntemleri kullan lmaktad r [3]. Test-tekrar test yönteminde, belli zaman aral klar nda ard arda 408 yap lan ölçümler aras ndaki korelasyon güvenilirlik tahmini olarak kullan lmaktad r. Bu durumda testin en az iki kere tekrarlat lmas n n zorlu!unun yan s ra, testler aras nda geçen sürenin ki ilerin tutum ve davran lar n n de!i ebilece!i kadar uzun olmas durumunda güvenilirlik hakk nda tutarl bir tahmin verememesi ve testlerin çok k sa bir zaman aral ! nda tekrarlanmas durumunda da, cevaplay c lar n daha önce verdi!i cevab hat rlayarak, yine güvenilirlik tahminini ku kulu hale getirecek sak ncalar da bulunmaktad r. Alternatif form yönteminde, güvenilirli!i ara t r lacak ankettekilerle paralel olacak ekilde alternatif bir anket formu haz rlanarak, belli bir zaman sonra ayn deneklere tekrarlat lmakta, ve birbirinin alternatifi olan bu iki ankete verilen cevaplar n korelasyonu güvenilirlik tahmini olarak kullan lmaktad r. Test-tekrar test yönteminde oldu!u gibi bu yöntemde de anketin en az iki defa tekrarlanmas gerekmektedir. Yar ya bölme yönteminde ölçekteki maddeler e it say da madde bulunduran iki altsete ayr l p, bu altsetlerdeki maddelerin toplam skorlar aras ndaki korelasyonla ilgilenilmektedir. Böylece yar ya bölme yöntemi, alternatif form yöntemine bir yakla m olarak dü ünülebilir. Uygulamada tek numaral maddeler bir altsete, çift numaral maddeler di!er altsete ayr larak, skor toplamlar aras ndaki korelasyon güvenilirlik tahmini olarak kullan lmaktad r. Bununla beraber, örne!in 12 maddeden olu an bir ölçe!in 462 farkl ekilde ( C(12, 6) / 2 ) iki alt ölçe!e bölünebilece!i göz önüne al nd ! nda, yar ya bölme sonucunda elde edilen güvenilirlik tahminin alt ölçeklere seçilen maddelerden etkilendi!i ve güvenilirli!in tahmiminde baz sak ncalar olaca! aç kt r. Bu durumda elde edilen güvenilirlik tahmini de gerçekte, toplam testin de!il alt ölçeklerin güvenilirli!i olarak dü ünülmektedir. Bu sak ncan n giderilmesi amac yla, Spearman (1910) ve Brown (1910) taraf ndan ba! ms z olarak geli tirilen ve Spearman- Brown formülü olarak adland r lan, xx HH = 2 1+ xx H (6) xx H istatistiksel düzeltmesi uygulanmaktad r [4,5]. Burada xxH yar ya-bölme korelasyonu, xxHH ise toplam ölçe!in güvenilirli!ini ifade etmektedir. Yine yar ya bölme yönteminin dezavantajlar ndan biri de, elde edilen güvenilirlik tahmininin toplam ölçekte bulunan madde say s ile do!rudan ili kili olmas d r. Bu sak ncay da ortadan kald rmak için (6)’daki Spearman- Brown formülünün genelle tirilmi hali olan, x n x HHn = L xx H 1 + (L 1) (7) xx H kullan labilmektedir. Burada x n xHHn , orijinal ölçe!in L kat kadar madde içeren ölçe!in güvenilirlilik katsay s n göstermektedir. Güvenilirli!in de!erlendirilmesinde kullan lan yöntemlerden dördüncüsünün genel ad iç-tutarl l k yöntemleri olup, güvenilirli!in de!erlendirilmesinde kullan lan iç tutarl l k ölçümlerinden baz lar ; Cronbach S [6] , KR-20 (Kuder-Richardson 20), temel bilesenler analizinden elde edilen en katsay s , ortak faktör analizi yüksek özdeger (eigenvalue) ile elde edilen Armor (1974)’un sonuçlar ndan elde edilen Heise ve Bohrnstedt 1970 [7] taraf ndan önerilen R katsay s , yap sal güvenirlik (construct reliability) olarak ta adland r lan [8] ve dogrulay c faktör analizi yöntemiyle elde edilen McDonald’ n N katsay s [9], maddelerin kovaryanslar n n ortalamalar kullan larak Katsay s ’d r [10]. ç tutarl l k yöntemleri de yar ya bölme yönteminde elde edilen Revelle’nin oldu!u gibi, anketin tekrar yapt r lmas n gerektirmedi!inden, test-tekrar test ve alternatif form yöntemlerinde de!inilen, daha önceden verilen cevaplar n hat rlanmas veya tekrar test yap lmadan önce tutum ve davran n de!i mi olmas gibi sak ncalar içermemesinin yan nda, güvenilirlik daha az maliyet ve zamanda de!erlendirilebilmektedir. Tutum ve davran lar ölçmekte kullan lan ölçekler, tek bir kavram ölçmek için olu turulabilece!i gibi, ölçekte, birden çok kavram veya alt-ölçek bulunabilir. Bu alt-ölçeklerdeki göstergelerin 409 tamam toplam ölçe!i olu turur. Alt-ölçekler ba! ms z olabilece!i gibi, negatif veya pozitif korelasyonlu da olabilir. Bu çal man n amac , toplam ölçe!i olu turan alt-ölçekler veya faktörler aras ndaki korelasyonun, ölçe!in toplam güvenilirli!i üzerinde bir etkisi olup olmad ! n ara t rmakt r. Bu amaçla, anakütle güvenilirlikleri bilinen faktör modelleri için, faktörler aras ndaki korelasyonun farkl i aret ve derecelerine göre bir Monte Carlo simülasyon çal mas yap lacakt r. Faktörler aras ndaki korelasyonun Cronbach S güvenilirlik tahmininin yanl l k ve etkinli!ine etkisi incelenecektir. 2. Faktör Modeli ve Güvenilirlik Jöreskog (1971) taraf ndan, gözlenen skor X i ’nin latent faktör ’ ve hata terimi } i ’ye Xi = ai ’ + }i (8) genel faktör modeli ile ayr t rabilece!i ifade edilmi tir [11]. Burada X i ( i = 1, 2,..., k )’nin tek ve ayn ’ özelli!ini ölçen gözlenen de!i kenler oldu!u, ’ ile hata terimlerinin ve gözlenen de!i kenlerin hata terimlerinin korelasyonsuz oldu!u varsay lmaktad r. Cov(’, } i ) = 0 ve Cov(} i , } j ) = 0 (9) (8) modelinden hareketle, gözlenen skorlar n kovaryans matrisi, X1 X2 X i3 M Xk X1 a + ~11 a 2 a1 a 3 a1 M a k a1 2 1 X2 a1a 2 2 a 2 + ~ 22 a3a 2 M ak a2 X3 a1a 3 a 2 a3 2 a 3 + ~ 33 M a k a3 K Xk L a1a k L a2ak K a3a k K M 2 K a k + ~ kk (10) formunda yazabilmektedir. Kovaryans matrisinin kö egen elemanlar do!ru skor varyanslar (a ) 2 i ile gözlenen skorlardaki hata varyanslar n n ( ~ii ) toplam n , kö egen d elemanlar ise gözlenen skorlar aras ndaki kovaryanslar göstermektedir. Toplam skoru olu turan her bir bilenin güvenilirli!i, jii = a2i ~ = 1 2 ii 2 a i + ~ii a i + ~ii (11) Ve her bir bile enin güvenilirliklerinin toplam ndan da olu turulabilen bile ik (toplam skor) güvenilirli!i de, yine bile i!in do!ru skor varyans n n, gözlenen sor varyans na oran olup, 410 k j xx = k k " a2i + "" ai a j i =1 i =1 i : j k k k k " a2i + "" ai a j + " ~ii i =1 i : j i =1 i =1 (12) k i =1 "a i =1 2 k "a i i =1 i : j i j = 2 k "a i =1 i oldu!undan, (12) ifadesi 2 k i =1 k " a + "" a a olup, burada j xx = k 2 i i k + " ~ii i =1 (13) basit formunda yaz labilmektedir. Güvenilirli!i bu ifadesi ayn zamanda McDonald’ n ” katsay s olup [9], yap güvenilirli!i olarak ta adland r lmaktad r. Klasik ölçme teorisine göre, X = T + E denklemindeki E hata teriminin sistematik hata içermeyip yaln zca ölçmedeki hatalar ifade eden s f r ortalamal bir rastgele de!i ken oldu!u, do!ru skorun ise ayn testin ayn ki iye sonsuz defa uygulanabilmesi durumunda, bu ki iden elde edilen bütün skorlar n ortalamas oldu!u varsay lmaktad r [12]. Sonuç olarak bir ki inin T toplam skoru, do!ru skoru etraf nda olmakla birlikte tam olarak do!ru kesinlikte veya gerçek do!rulukta de!ildir. Bu da psikometrideki do!ru (true) kavram na kar l k gelmektedir. Do!ru skor, rastgele hatadan ba! ms z olan ve ’ ’nin verilen bir seviyesinde tutarl olan skor anlam na gelmektedir. Do!ru skor rastgele ölçme hatas ndan ba! ms z olsa bile, sistematik hatal olabilmektedir [13]. Bu durumda do!ru skor, Ti = a i ’ + si (14) oldu!undan, gözlenen skor da, X i = a i ’ + si + } i (15) olmaktad r. Klasik ölçme teorisinde ölçümler paralel, tau-e de!er, tau-e biçimli ve konjenerik olmak üzere dörde ayr lmaktad r.(1), (8), (14) ve (15) modellerinden hareketle, ai = a j = L = a k ve ~ii = ~ jj = L = ~ kk ise ölçümlerin paralel oldu!u yani bütün de!i kenlerin bir latent kavram e it büyüklükte ve e it duyarl l kta (hata terimleri varyans n n e it olma durumu) ölçtü!ü [14], ba ka bir ifadeyle herhangi iki de!i ken için Ti = Tj ve Var(E i ) = Var(E j ) oldu!u, ai = a j = L = a k ve ~ii : ~ jj ise ba ka bir ifadeyle Ti = Tj ve Var(E i ) : Var(E j ) ise ölçümlerin tau-e de!er (tau-equivalent) oldu!u, 411 E!er ölçülmek istenen do!ru skorlar aras nda Ti = Tj + a ij (a ij : 0) ba! nt s ba ka bir ifadeyle Ti = a j’ + s j + a ij (a ij : 0) ili kisi varsa ölçümlerin tau-e biçimli (essentially tau-equivalent) oldu!u, ai : a j ve ~ii : ~ jj ise ba ka bir ifadeyle Ti = bijTj + a ij (b ij : 0, a ij : 0) ise ölçümlerin konjenerik (congeneric) oldu!u yani, bir latent kavram ölçen de!i kenlerin hem faktör yükleri hem de hata varanslar bak m ndan heterojen oldu!u ifade edilmektedir [15]. Konjenerik ölçümler ile paralel, tau-e de!er ve tau-e biçimli ölçümler arasndaki en önemli farkl l k; paralel, tau-e de!er ve tau-e biçimli ölçümlerde gözlenen skorlar aras ndaki kovaryaslar e it iken, konjenerik ölçümlerde bu e itlik sa!lanmamaktad r [14]. Ayr ca buradan paralel, tau-e de!er ve tau-e biçimli ölçümlerde Cov(X i , X j ) = Var(Ti ) = Var(Tj ) (16) oldu!u görülmektedir. (13) denklemiyle verilen güvenilirlik, ölçümlerin paralel olmas durumunda j xx = (ma i )2 , (ma i )2 + m~ii (17) ölçümlerin tau-e de!er veya tau-e biçimli olmas durumunda j xx = (ma i ) 2 k (ma i ) 2 + " ~ ii i =1 (18) haline gelerek basitle mektedir, ölçümlerin konjenerik olmas sadele tirme yap lamamaktad r. durumunda ise böyle bir 2. Güvenilirlik Tahmini çin Cronbach g Cronbach’ n 2004 y l nda yapt ! bir çal maya göre, Cronbach’n n 1951 y l ndaki makalesi y lda en az 325 defa olmak üzere, SSCI kapsam nda yakla k 5590 defa referans gösterilmi tir [16]. Buradan S katsay s n n ölçek geli tirmedeki önemi de ortaya konulmu olmaktad r. Klasik test kuram paralel ölçmeler üzerine kurulu [17] oldu!u için bu tür ölçme araçlar ndan elde edilen güvenirlik katsay lar gerçek güvenirli!i vermektedir. Guttman (1945) paralel ölçmelerin d ndaki tüm ölçme kümeleri için güvenirlik katsay lar gerçek güvenirli!in alt nda de!er üretece!inden dolay “güvenirligin alt s n r ” olarak alt adet • katsay önermi tir [18]. Guttman (1945) taraf ndan önerilen katsay s lar içerisinden •3 katsay s ayn zamanda Cronbach’ n S güvenirlik katsay s [6] olarak bilinir. Ayr ca, Nunnally (1978) taraf ndan da Cronbach S ’n n bir ölçek ile asla yap lmayacak olan ve e it say da de!i ken içeren varsay msal alteratif formu aras ndaki korelasyonun beklenen de!eri oldu!u gösterilmi tir. Benzer ekilde Cronbach S , yar ya bölme güvenilirlik tahminlerinin örnekleme da! l m n n beklenen de!eri olarak ta tan mlanabilmektedir. (19) denkleminde verilen Cronbach S güvenirlik katsay s de!i kenlerin 412 kovaryans terimleri üzerine kuruludur. S = (19) Burada k de!i ken say s n , " i: j " k k 1 i: j Cov(Xi , X j ) Var(X) Cov(Xi , X j ) gözlenen skorlar n kovaryans matrisinin kö egen elemanlar n n toplam n , Var(X) ifadesi ise (2) ve (3) denklemerinde verilen gözlenen skor d toplam X = X1 + X 2 + ... + X k ’n n varyans olup, gözlenen skorlar n kovaryans matrisinin tüm elemanlar n n toplam d r [19]. (19) denkleminin alternatif gösterim ekillerinden baz lar ; k S= k " Var(X ) k 1 i i =1 1 Var(X) = k k 1 1 iz ( – ) 1H–1 (20) burada – gözlenen de!i kenlerin kovaryans matrisini göstermekte, S= k 2 Qij Var(X) (21) (21) denkleminde ise Qij , gözlenen de!i kenler aras ndaki ortalama kovaryans ifade etmektedir [10]. S= kQij Q + (k 1)Qij 2 i (22) Burada Qij , gözlenen de!i kenler aras ndaki ortalama kovaryans , Qi2 ’de gözlenen de!i kenlerin varyanslar n n ortalama n göstermektedir [20]. Cronbach’ n S katsay s ayn zamanda do!rulay c faktör analizi terimleri ile de ifade edilebilir [9]. S= k (a) k k 1 (a ) k (a) + (a ) + ~ 2 2 2 2 (23) ( ) Burada a 2 ( ) faktör yüklerinin ortalamas n n karesini, a2 faktör yüklerinin kareler ortalamas n , ~ ’da gözlenen de!i kenlerdeki hata varyanslar n n ortalamas n göstermektedir. Cronbach S katsay s , bir ölçekte yer alan de!i kenlerin paralel, tau-e de!er veya tau-e biçimli ölçümler oldu!u durumlarda gerçek güvenirli!in sistematik hatas z bir tahmincisi olmaktad r. Ölçekteki de!i kenlerin konjenerik ölçümler oldu!u durumlarda ise S katsay s yanl sonuçlar vermektedir [10,11,17,21,22, 23, 24,25, 26, 27, 28, 29]. Daha aç k bir ifadeyle; ölçme sonuçlar n n çözümlemesinde kullan lan faktör analizinde, de!i kenlere ili kin faktör yükleri e it ise bu tür de!i kenler paralel, tau-e de!er veya tau-e biçimli ölçüm olarak adland r lmaktad r. Bu de!i kenler üzerinden elde edilen S güvenirlik katsay s ise gerçek güvenirli!i vermektedir. Ancak de!i kenlere ili kin faktör yükleri e it de!ilse bu tür de!i kenler konjenerik ölçüm olarak adland r lmakta ve bu durumda S güvenirlik katsay s gerçek güvenirli!in alt nda de!erler üretmekte, böylece S katsay s konjenerik ölçümler için gerçek güvenirli!in bir alt s n r (lower bound of relibility) olmaktad r [24]. 413 Ölçe!i olu turan k de!i enin paralel oldu!u varsay l rsa, k × k boyutlu Ti ( i = 1, 2,..., k ) do!ru skorlar n n kovaryans matrisinin elemanlar n n toplam , Var T = Var(T1 + T2 + ... + Tk ) = kVar(Ti ) + k(k 1)Cov(Ti , Tj ) (24) olup; paralel, tau-e de!er veya tau-e biçimli ölçümler için (16) denkleminde verilen Cov(X i , X j ) = Var(Ti ) = Var(Tj ) = Cov(Ti , Tj ) (25) e itli!i göz önüne al narak, Var(T) = k Cov(Ti , Tj ) + k(k 1)Cov(Ti , Tj ) (26) veya Var(T) = k 2 Cov(Ti , Tj ) = k 2 Var(Ti ) (27) olmaktad r. E!er ölçümlerin en az ndan biri (örne!in g. de!i ken) konjenerik ise, yani Var(Tg ) , Tg ’nin di!er bir i.de!i kenle kovaryans ndan büyük veya bu de!ere e it olabilecektir: Var(Tg ) 8 Cov(Ti , Tg ) (28) E!er ölçümlerin ikisi konjenerik ise, Var(Ti ) + Var(Tj ) 8 2Cov(Ti , Tj ) (29) veya benzer yakla mla, k " Var(T ) 8 i k "" Cov(T , T ) i i =1 j: i j k 1 (30) (30) denkleminin her iki taraf na kovaryans terimlerinin toplam eklenirse, 414 k k k " Var(Ti ) + "" Cov(Ti , Tj ) 8 k "" Cov(T , T ) i i =1 j: i j k 1 i =1 j: i k k + "" Cov(Ti , Tj ) i =1 j: i (31) elde edilen ifadenin sol taraf (26) ile verilmi olan Var(T) oldu!undan, (31) denklemi, Var(T) 8 k k k "" Cov(T , T ) k 1 i=1 i j: i j (32) olmaktad r. Güvenilirlik katsay s j xx ’i elde edebilmek için (32) ifadesinin her iki taraf Var(X) ile bölünüp, k Var(T) k 8 Var(X) k 1 k "" Cov(T , T ) i i =1 j: i j Var(X) (33) paralel, tau-e de!er veya tau-e biçimli ölçümler için (25) denkleminde verilen Cov(X i , X j ) = Var(Ti ) = Var(Tj ) = Cov(Ti , Tj ) özelli!i kullan larak, k Var(T) k 8 Var(X) k 1 k "" Cov(X , X ) i i =1 j: i j Var(X) (34) daha basit bir ifadeyle de, j xx 8 S (35) e itli!i ispatlanarak, S katsay s n n güvenilirlik tahmininin alt s n r oldu!u söylenir [29]. Ayr ca, Cronbach S katsay s n n üretilmesinde iki varsay m bulunmaktad r. Bunlardan ilki hata terimlerinin korelasyonsuz olmas di!eri ise do!ru skorlar aras ndaki ili kinin do!rusal olmas ve böylece de Var(T) ’nin do!as nda toplamsal olabilmesidir [30]. Literatürde de!i kenlerdeki hata terimleri aras nda korelasyon olmas durumunda S tahminleri incelenmi ve Komaroff (1997), Raykov (1997, 2001) Rae (2006) ve Zimmerman vd. (1993) ölçümlerdeki hata terimlerinin negatif korelasyonlu olmas durumunda S katsay s n n gerçek güvenirli!in alt nda de!erler üreterek a a! tahmin etti!ini; hata terimlerinin pozitif korelasyonlu oldu!unda ise gerçek güvenirli!in üzerinde de!erler üreterek a r tahmin etti!ini belirtmi lerdir [27,28,30,31,32]. Toplamsall k varsay m bozuldu!unda ise Zimmerman vd. (1993) taraf ndan S ’n n gerçek güvenilirli!in alt nda tahminler üreterek, güvenilirli!i a a! tahmin etti!i belirtilmi tir [30]. 415 3. Çok Boyutlu Ölçeklerde Boyutlar n Korelasyonlar n n Cronbach Tahminine Etkisi: Mone-Carlo Simülasyonu Güvenilirlik Makalenin amac na uygun olacak ekilde, yukar da teorik olarak üretilen sonuçlar , daha kullan l hale getirmek için planlanan simülasyon çal mas iki a amadan olu maktad r. Birinci a amada, SAS 9.1 program nda, iki faktörlü do!rulay c faktör modeli kullan larak, faktörler aras ndaki korelasyonun farkl i aret ve derecelerine ve ölçümlerin yap s na göre (paralel ve konjenerik) anakütle kovaryans matrisleri olu turulmu tur. Anakütle kovaryans matrislerinin bilinmesi, anakütledeki güvenilirlik de hesaplanabilmesini sa!lamaktad r. Anakütle kovaryans matrisleri olu turulurken, faktörlerin varyanslar 1’e sabitlenerek, faktörler aras ndaki korelasyonun ( ), 11 farkl seviyesinde, ölçümlerin yap s için de 2 farkl seviye kullan ld ! ndan, 11× 2 = 22 farkl anakütle kovaryans matrisi olu turulmu tur. : -1 -.9 -.7 -5 -.3 0 .3 .5 .7 .9 1 Ölçüm: paralel konjenerik n : 100 200 500 1000 Çal man n ikinci a amas nda, birinci a amada olu turan ve anakütle kovaryans matrisleri bilinen anakütlelerden yine SAS 9.1 program kullan larak normal da! l ml ve dört farkl örnek büyüklü!ünün (100, 200, 500, 1000) her biri için 200’er örnek çekilerek Monte Carlo simülasyonu uygulanm t r. Bu ekilde 11× 2 × 4 = 88 farkl simülasyon ko ulunda 200 defa örnek çekilerek ve ’lar ( 88 × 200 = 17600 adet) hesaplanm , bulunan özet sonuçlar bu örneklerin Cronbach hesaplanan anakütle güvenilirlikleri ile kar la t r lm t r. Paralel modelin olu turulmas nda D i = 0.6 ve i = 0.46 (i = 1, 2,3, 4, 5, 6) anakütle parametreleri sabit tutulup, faktör korelasyonlar de!i tirilerek 11 farkl anakütle modeli olu turulmu , bu güvenilirlikleri kar la t r larak bias de!erleri modellerin anakütle güvenilirlikleri ile Cronbach elde edilmi tir. Konjenerik modelin olu turulmas nda D1 = 0.4, D 2 = 0.5, D 3 = 0.7, D 4 = 0.5 , D 5 = 0.6 , D 6 = 0.9 1 = 0.1657, 2 = 0.14, 3 = 0.08, 4 = 0.67 , 5 = 0.07 , 6 ise ve = 0.02 anakütle parametreleri sabit tutulup, faktör korelasyonlar paralel modelde oldu!u gibi de!i tirilerek 11 fark anakütle modeli olu turulmu tur. Paralel model için Monte Carlo simülasyon sonuçlar Tablo 1’de, konjenerik model için Monte Carlo simülasyon sonuçlar Tablo 2’de verilmi tir. Tablo 1 incelendi!inde, paralel modeller için faktör korelasyonlar artt kça, bias n azald ! ve faktör korelasyonlar n n 1 oldu!u durumda da (tek faktörlü model), bias n s f r oldu!u görülmektedir. Ayr ca, Cronbach tahminlerinin n artt kça anakütle de!erine yakla t ! da görülmektedir. Bu tabloda dikkati çeken di!er bir husus ta faktör korelasyonu artt kça, tahminlerinin standart sapmas n n azalmas , = 1 için en küçük standart sapma de!erinin elde edilmesidir. Tablo 2 incelendi!inde, konjenerik ölçümlü modeller için de paralel modelin sonuçlar na benzer sonuçlar ç kar labilece!i görülmektedir. Ayr ca konjenerik modelde = 1 için bile ’n n anakütle güvenilirli!ini dü ük tahmin etti!i ve bias n s f r olmad ! ortaya konulmu olmaktad r. 416 Son olarak, paralel ve konjenerik modellerdeki bias de!erlerinin kar la t r lmas için ba! l bias de!erleri [(bias/ )*100)] hesaplanarak sonuçlar Tablo 3’te verilmi tir. Tablo 3 incelendi!inde konjenerik ölçümlü modellerde, paralel modele göre bias n daha fazla oldu!u, fakat bias n önemli k sm n n ise, modelin konjenerik olmas ndan de!il faktörler as ndaki korelasyondan kaynakland ! görülmektedir. Bu sonuç Tablo 3 sat r sat r ele al narak, modellerin ba! l biaslar aras ndaki farklar kar la t r larak ortaya konulmu tur. Örne!in = 0.0 durumunda paralel modeldeki ba! l bias %20, konjenerik modeldeki bias %22.4 olup, bu ko ullar alt nda, bias n %20’si faktörler aras ndaki korelasyondan, sadece %2.44’ü modelin kojenerik modelden kaynakl olarak yorumlanabilir. 4. Sonuç ve öneriler Özellikle aç klay c faktör analizi kullan larak yap lan ölçek geli tirme çal malar nda, faktörler aras ndaki korelasyonlar hesaba kat lmadan, olu turulan bütün ölçek için tek bir güvenilirlik tahmini verilmeye çal lmaktad r. Oysa ki, ölçe!i olu turan alt ölçekler aras ndaki korelasyonlar n yönü ve büyüklü!ü, ölçe!in güvenilirli!inin bir tahmini olarak s kça kullan lan Cronbach S katsay s n etkileyerek, ölçe!in güvenilirli!inin yanl veya eksik belirlenmesine neden olabilmektedir. Simülasyon çal malar n n sonuçlar incelendi!inde, faktör korelasyonlar azald kça, hem paralel hem de konjenerik ölçümler için, Cronbach S’n n anakütle güvenilirli!ini a a! tahmin etti!i ve çok faktörlü ölçeklerde, konjenerik ölçümlere göre faktör korelasyonlar n n Cronbach S’daki a a! tahminde daha etkili olabilece!i sonuçlar na ula lm t r. Yap lan simülasyon çal mas yla faktör korelasyonlar n n Cronbach S güvenilirlili!inin yans zl k ve etkinli!ine etkisinin ara t r lmas , ölçek geli tirme çal malar aç s ndan büyük önem ta maktad r. 417 Tablo 1. Paralel ölçümler için simülasyon sonuçlar n=100 n=200 n=500 n=1000 Genel ˆ ˆ ˆ ˆ ˆ s.s. s.s. s.s. s.s. s.s. bias ( - ) I II I II = 1 0 -0.93333 0.93333 0.70 0.70 0.70 0.70 -0.9484 0.3102 -0.9431 0.2432 -0.9491 0.1455 -0.9330 0.1089 -0.9434 0.2167 = 0.9 0.18919 -0.52973 0.71892 0.70 0.70 0.70 0.70 -0.5573 0.2587 -0.5420 0.1921 -0.5289 0.1130 -0.5231 0.0827 -0.5378 0.1759 = 0.7 0.41176 -0.05490 0.4667 0.70 0.70 0.70 0.70 -0.0853 0.1737 -0.0595 0.1259 -0.0660 0.0760 -0.0574 0.0501 -0.0670 0.1168 = 0.5 0.53846 0.21538 0.32308 0.70 0.70 0.70 0.70 0.2011 0.1256 0.1996 0.0932 0.2088 0.0551 0.2134 0.0393 0.2057 0.0852 = 0.3 0.62025 0.38987 0.23038 0.70 0.70 0.70 0.70 0.3644 0.0999 0.3865 0.0678 0.3841 0.0431 0.3881 0.0299 0.3801 0.0661 = 0.0 0.70000 0.56000 0.14000 0.70 0.70 0.70 0.70 0.5485 0.0711 0.5564 0.0496 0.5601 0.0328 0.5596 0.0215 0.5562 0.0477 = 0.3 0.75207 0.67107 0.08099 0.70 0.70 0.70 0.70 0.6608 0.0555 0.6644 0.0360 0.6700 0.0226 0.6712 0.0170 0.6666 0.0362 = 0.5 0.77778 0.72593 0.05185 0.70 0.70 0.70 0.70 0.7224 0.0441 0.7243 0.0317 0.7257 0.0198 0.7257 0.0138 0.7245 0.0297 = 0.7 0.79866 0.77047 0.02819 0.70 0.70 0.70 0.70 0.7629 0.0400 0.7693 0.0257 0.7688 0.0157 0.7701 0.0119 0.7678 0.0259 = 0.9 0.81595 0.80736 0.00859 0.70 0.70 0.70 0.70 0.8026 0.0294 0.8071 0.0207 0.8086 0.0131 0.8057 0.0094 0.8060 0.0198 =1 0.82353 0.82353 0 0.70 0.70 0.70 0.70 0.8251 0.0265 0.8218 0.0186 0.8235 0.0121 0.8232 0.0089 0.8234 0.0179 418 Tablo 2. Konjenerik ölçümler için simülasyon sonuçlar n=100 n=200 n=500 n=1000 Genel ˆ ˆ ˆ ˆ ˆ s.s. s.s. s.s. s.s. s.s. bias ( - ) I II I II = 1 0.12181 -1.97337 2.09518 0.87 0.84 0.85 0.81 -2.6380 0.6464 -2.6065 0.4422 -2.5596 0.2729 -2.5596 0.2729 -2.5849 0.42854 = 0.9 0.40952 -0.093371 1.34324 0.87 0.84 0.85 0.81 -1.1940 0.4110 -1.1733 0.2464 -1.1091 0.1664 -1.1337 0.1207 -1.1525 0.2623 = 0.7 0.46327 -0.08907 0.73234 0.87 0.84 0.85 0.81 -0.1369 0.2169 -0.1365 0.1497 -0.1157 0.0871 -0.1264 0.0644 -0.1289 0.1425 = 0.5 0.74443 0.27650 0.46793 0.87 0.84 0.85 0.81 0.2668 0.1375 0.2676 0.0942 0.2765 0.0560 0.2738 0.0398 0.2712 0.0901 = 0.3 0.80090 0.48054 0.32036 0.87 0.84 0.85 0.81 0.4863 0.0913 0.4789 0.0649 0.4857 0.0400 0.4872 0.0290 0.4845 0.0612 = 0.0 0.85046 0.65962 0.19083 0.87 0.84 0.85 0.81 0.6628 0.0589 0.6709 0.0401 0.6691 0.0268 0.6728 0.0172 0.6689 0.0391 = 0.3 0.88026 0.76732 0.11294 0.87 0.84 0.85 0.81 0.7774 0.0393 0.7812 0.0254 0.7820 0.0153 0.7819 0.0110 0.7806 0.0253 = 0.5 0.89431 0.81807 0.07624 0.87 0.84 0.85 0.81 0.8285 0.0293 0.8310 0.0207 0.8307 0.0114 0.8309 0.0091 0.8303 0.0193 = 0.7 0.90540 0.85816 0.04724 0.87 0.84 0.85 0.81 0.8690 0.0227 0.8720 0.0138 0.8705 0.0088 0.8716 0.0060 0.8708 0.0143 = 0.9 0.91439 0.89064 0.02375 0.87 0.84 0.85 0.81 0.9039 0.0157 0.9009 0.0102 0.9033 0.0071 0.9037 0.0045 0.9030 0.0103 =1 0.91827 0.90467 0.01360 0.87 0.84 0.85 0.81 0.9147 0.0148 0.9165 0.0087 0.9174 0.0055 0.9174 0.0039 0.9165 0.0093 419 Tablo 3. Paralel ve konjenerik modeller için ba! l bias [(bias / )*100)] de!erleri Konjenerik model Paralel model I = 1 =0.7 II =0.7 I =0.7 II =0.7 I =0.87 II =0.84 I =0.85 - 1720.04 = 0.9 380.00 328.00 = 0.7 113.34 158.08 = 0.5 60.00 62.86 = 0.3 37.14 40.00 = 0.0 20.00 22.44 = 0.3 10.77 12.83 = 0.5 6.67 8.53 = 0.7 3.53 5.22 = 0.9 1.05 2.60 =1 0.00 1.48 II =0.81 Kaynaklar [1] Osburn, H. G. (2000). Coefficient alpha and related internal consistency reliability coefficients. Psychological Methods, 5, 343-355. [2] Lord F. M. & Novick, R. (1968). Statistical theories of mental test scores. Reading MA: AddisonWesley. [3] Carmines, E. G., & Zeller, R. A. (1979). Reliability and validity assessment, Sage, Beverly Hills, Calif. [4] Spearman, C. (1910). Correlation calculated with faulty data. British Journal of Psychology, 3, 271295. [5] Brown,W. (1910). Some experimental results in the correlation of mental abilities. British Journal of Psychology, 3, 296-322. [6] Cronbach, L.J. (1951). Coefficient alpha and the internal structure of tests. Psychometrika,16, 297334. [7] Heise, D. R., & Bohrnstedt, G. W. (1970). Validity, invalidity and reliability. In Borgatta, E. F. and Bohrnstedt, G. W. (eds.), Sociological Methodology. Jossey-Bass, San Francisco. 104—129. [8] Nunnally, J. C. & Bernstein, I. H. (1994): Psychometric theory. 3rd Edition. McGraw-Hill: New York. [9] McDonald, R. (1985). Factor analysis and related methods. Hillsdale, N J:Erlbaum. 420 [10] Zinbarg, R. E., Yovel, I., Revelle W. and, McDonald, R. P. (2006). “Estimating Generalizability to a Latent Variable Common to All of a Scale’s Indicators: A Comparison of Estimators for ”h”, Applied Psychological Measurement, Vol. 30 No. 2, March 2006, 121–144. [11] Jöreskog, K. G. (1971). Statistical analysis of congeneric tests. Psychometrika, 36, 109-133. [12] Allen, M. J., & Yen, W. M. (1979). Introduction to measurement theory. Monterey, CA: Brooks/Cole. [13] Streiner, D. L. (2003), “Being Inconsistent About Consistency: When Coefficient Alpha Does and Doesn’t Matter”, Journal of Personality Assessment, 80(3), 217–222. [14] Yurdugül, H. (2006). “The Comparison of Reliability Coefficients in Parallel, Tau-Equivalent, and Congeneric Measurements”, Ankara University, Journal of Faculty of Educational Sciences, 39 (1), 15-37. [15] Reuterberg, S.-E., & Gustafsson, J.-E. (1992). Confirmatory factor analysis and reliability: Testing measurement model assumptions. Educational and Psychological Measurement, 52, 795-811. [16] Cronbach, L. J. and, Shavelson, R. J. (2004). “My Current Thoughts on Coefficient Alpha and Successor Procedures”, Educational and Psychological Measurement, 64 (3), 391-418. [17] DeVellis, R. F. (2003). Scale development: Theory and applications (2nd ed.). Thousand Oaks, CA: Sage. [18] Guttman, L. (1945). A basis for analyzing test-retest reliability. Psychometrika, 10(4), 255-282. [19] Christmann, A. and, Aelst, S. Van (2006). “Robust Estimation of Cronbach’s Alpha”, Journal of Multivariate Analysis, 97, 1660-1674. [20] Waller, N. G. (2008). “Commingled Samples: A Neglected Source of Bias in Reliability Analysis”, Applied Psychological Measurement, 32 (3), 211–223. [21] Alwin, D. F. (1976). Attitude scales as congeneric tests: A re-examination of an attitude-behavior model. Sociometry, 39, 377-383. [22] Bacon, D. R., Sauer, P. L. & Young M. (1995). Composite Reliability in Structural Equations Modeling. Educational and Psychological Measurement, 55, 394-406. [23] Feldt, L. S. & Qualls, A. L. (1996). Bias in coefficient alpha arising from heterogeneity of test content. Applied Measurement in Education. 9(3), 277-286. [24] Lucke, J. F. (2005a). “Rassling the Hog: The Influence of Correlated Item Error on Internal Consistency, Classical Reliability, and Congeneric Reliability”, Applied Psychological Measurement, 29 (2), 106–125. [25] Lucke, J. F. (2005b). “The S and the ” of Congeneric Test Theory: An Extension of Reliability and Internal Consistency to Heterogeneous Tests”, Applied Psychological Measurement, Vol. 29 (1), 65–81. [26] Miller, M. B. (1995). Coefficient alpha: A basic introduction from the perspectives of classical test theory and structural equation modeling. Structural Equation Modeling, 2, 255–273. [27] Raykov, T. (1997). “Scale Reliability, Cronbach's Coefficient Alpha, and Violations of Essential Tau-Equivalence with Fixed Congeneric Components”, Multivariate Behavioral Research, 32 (4), 329-353. [28] Raykov T. (2001). “Bias of Coefficient S for Fixed Congeneric Measures With Correlated Errors”, Applied Psychological Measurement, 25 (1), 69–76. [29] Traub, E. R. (1994). Reliability for the social sciences: Theory and Applications. Measurement methods for the social sciences. Sage Publications, 1994. [30] Zimmerman, D. W., Zumbo, B.D. & Lalonde, C. (1993). Coefficient Alpha as an estimate of test reliability under violation of two assumptions. Educational and Psychological Measurement, 53 (1), 33-49. [31] Komaroff, E. (1997). Effect of simultaneous violations of essential tauequivalence and correlated errors on coefficient alpha. Applied Psychological Measurement, 21, 337–348. [32] Rae, Gordon (2007). “A Note on Using Stratified Alpha to Estimate the Composite Reliability of a Test Composed of Interrelated Nonhomogeneous Items”, Psychological Methods; 12 (2), 177-184. 421 Ba< ml De<i!kende Ayk r De<er Olmas Durumunda ANFIS le Parametre Tahmini Türkan ERBAY DALKILIÇ Karadeniz Teknik Üniversitesi, Fen Edebiyat Fakültesi statistik ve Bilgisayar Bilimleri Bölümü, Trabzon. tedalkilic@gmail.com Kamile rANLI KULA Ahi Evran Üniversitesi Fen Edebiyat Fakültesi Matematik Bölümü,K:rsehir. sanli2004@hotmail.com Ay#en APAYDIN Ankara Üniversitesi, Fen Fakültesi, statistik Bölümü,Ankara. apaydin@science.ankara.edu.tr Özet Regresyon çözümlemesi, iki ya da daha çok deGi#ken aras:ndaki ili#kinin yap:s:n: inceleyerek, eGer, ilgilenilen olay: tan:mlayan baG:ml: deGi#ken ve bu olay: etkileyen baG:ms:z deGi#kenler aras:nda bir ili#ki varsa, ili#kinin derecesini ve fonksiyonel #eklini belirler. Regresyon modelinin bilinmeyen parametrelerinin tahmininde, ele al:nan veri setinin yap:s:na uygun modelin elde edilebilmesi için geli#tirilen birçok yöntem literatürde yer almaktad:r. Regresyon çözümlemesi yöntemlerinin her biri için veri analizi oldukça önemlidir. Çünkü tek bir gözlem bile regresyon modelindeki parametre tahminleri üzerinde büyük bir etkiye sahip olabilir. Veri setinde yer alan baG:ml: deGi#kene ili#kin gözlem deGerleri aras:nda ayk:r: deGer bulunmas: durumunda, parametre tahminlerinin var olan bu ayk:r: deGer ya da deGerlerden etkilenmesini en küçük düzeye indirecek güçlü regresyon yöntemleri önerilmi#tir. Bu çal:#mada, regresyon modelinin bilinmeyen parametrelerinin elde edilmesi ve hatas: küçük tahmin deGerlerine ula#:labilmesi için, k:saca ANFIS (Adaptive Network based Fuzzy Inference System) olarak adland:r:lan, bulan:k ç:karsama sistemine dayal: uyarlamal: aG:n kullan:ld:G: bir algoritma önerilmi#tir. Önerilen algoritma, baG:ml: ve baG:ms:z deGi#kenler aras:ndaki ili#kiyi bir yerine birden fazla model ile ifade ederek, tahmin deGerlerine bu modellerin aG ile birle#tirilmesi yoluyla ula#t:G: ve çözüm sürecinde sezgiselliGe izin vermediGi için, veri setinde yer olan baG:ml: deGi#kende var olabilecek ayk:r: gözlemlerden etkilenmemektedir. Bu özelliGinden dolay:, önerilen algoritman:n etkinliGinin s:nanmas: amac: ile, elde edilen sonuçlar literatürde yer alan baz: robust yöntemlerden elde edilen sonuçlar ile kar#:la#t:r:lacakt:r. Anahtar Kelimeler: Bulan:k ç:karsama, uyarlamal: aG, robust regresyon. Abstract Parametre Estimation By ANFIS Where Dependent Variable Has Outlier Regression analysis is investigation the relation between two ore more variable and if there is a relation between dependent and independent variables, the degree and functional shape of this relation is determinate by regression analysis. There are to many methods are located in literature for the estimation of unknown parameter. In regression analysis, data analysis is very important. Because, every observation may be has large influence on the parameters estimates in regression model. In case that dependent variable has outlier, the robust regression methods are proposed to make smaller the effect of the outlier on the parameter estimates. In this study, an algorithm has been suggested to define the unknown parameters of regression model, which is based on ANFIS (Adaptive Network based Fuzzy Inference System). The proposed algorithm, expressed the relation between the dependent and independent variables by more than one model and the estimated values are obtained by connected this model via ANFIS. In the solving process, the proposed method is not to give permission the intuitional and not to be affected the outliers which are to exist in dependent variable. So, to test the activity of the proposed algorithm, estimated values will be compared with some robust methods which are located in literature. Key Words: Fuzzy inference, adaptive network, robust regression. 422 1. Giri! Regresyon modelinin bilinmeyen parametrelerinin elde edilmesi ve hatas küçük tahmin de!erlerine ula labilmesi için, literatürde pek çok yöntem yer almaktad r. Son y llarda karma k problemlerin çözümlenmesinde yayg n olarak kullan lan sinir a!lar , parametre tahminlerinde de etkin sonuçlar veren yakla mlar n önerildi!i bir alan olarak kendini göstermektedir. Bu çal mada da girdi ve ç kt de!i kenleri aras ndaki ili kiyi bir yerine birden çok regresyon denklemi ile modelleyerek tahmin de!erlerine bu modellerin a! rl kl olarak bir araya getirilmesi ile ula an bir yöntem önerilmi tir. Önerilen yönteme ili kin algoritma, k saca ANFIS olarak adland r lan, bulan k ç karsama sistemine dayal uyarlamal a! ile hesaplama yapabilecek biçimde olu turulmu tur. Algoritma ba! ml ve ba! ms z de!i kenler aras ndaki ili kiyi, de!i kenleri birden fazla s n fa ay rarak modelledi!i için ve çözüm sürecinde sezgiselli!e izin vermedi!i için, veri setinde yer olan ba! ml de!i kende var olabilecek ayk r gözlemlerden mümkün oldu!unca az etkilenmektedir. Veri setlerinde ayk r de!erlerin var olmas durumunda regresyon model tahmininde ayk r de!erden En Küçük Kareler yöntemine göre daha az etkilenen robust yöntemler literatürde yer almaktad r. Çal mada öncelikle uyarlamal a!lar ve i leyi lerine de!inilecek daha sonra bu i leyi e dayanarak önerilen algoritmaya ili kin ad mlar verilerek uygulama k sm nda say sal veriler MATLAB de olu turulan ve algoritman n i leyi ine imkan veren program ile i letilerek elde edilen tahmin sonuçlar ayn verilere ili kin robust yöntemlerden elden tahmin sonuçlar ile kar la t r lacakt r. 2. ANFIS: Bulan k Ç karsamaya Dayal Uyarlamal A< Bulan k ç karsama sistemi, bulan k küme teorisi, bulan k E<er- se kural ve bulan k muhakemeye dayal kullan !l bir hesaplama yap s olu!turur. Bulan k metodolojinin en popüler yakla! m olan bulan k ç karsama sistemi genellikle, girdilerin sistemin durum de<i!kenlerine ve ç kt lar n kontrol sinyallerine kar! l k geldi<i durumlarda girdi-ç kt ili!kileri üzerinde performans gösterirler [1,2,9]. Bulan k ç karsama sisteminin temel yap s be! fonksiyonel bloktan olu!ur. Bunlar, bulan k kurallar n seçiminin gerçekle!ti<i kural taban , bulan k kurallarda kullan lan üyelik fonksiyonunun tan mland < veri taban , uygun bir ç kt n n türetilmesi prosedürünün olu!turuldu<u muhakeme mekanizmas , kesin girdilerin sözel de<erlerle e!le!tirildi<i bulan kla!t rma kesiti, ç karsaman n bulan k sonuçlar n kesin ç kt lara dönü!türüldü<ü bulan kl ktan kesinli<e dönü!türme kesitidir [1,9,10]. Farkl E<er- se kural türlerinin farkl bulan k ç karsama sistemlerine ihtiyac vard r. Problem; birden çok da< l mdan gelen bulan k girdilere regresyon do<rular uydurmak oldu<unda, Sugeno taraf ndan önerilen Sugeno Bulan k Ç karsama Sistemi uygun sistemdir. Sugeno a!a< daki bulan k kural önermi!tir: R l = EGer ;( x1 = F1l ise ve x2 = F2l ise ve ... x p = Fpl ise) Y = Y l = c0l + c1l x1 + ... + c lp x p dir [9,14,15]. Burada, Fi l : Bulan k Kümeyi gösterir. l. kuraldaki xi girdisi, Y l : R l kural na göre sistem ç kt s l=1,...,m. 423 m : Bulan k kural say s , cil : cil = (ail , bil ) biçiminde de ifade edilen, merkezi ail ve yay l m bil olan simetrik üçgensel bulan k say d r. l Sugeno bulan k ç karsama sisteminde ci ; gerçek de<erli parametreyi gösterir. Sugeno bulan k sisteminin ç kt s , m " w: Y : Yˆ = :=1 m " w: :=1 (1) biçiminde Y l ’lerin a< rl kland r lm ! bir ortalamas d r. l Burada w a< rl < , wl = p i =1 µ F ( xi ) . i l (2) biçiminde tan mlan r ve, µ F : Fi l bulan k kümesinde üyelik fonksiyonunu gösterir [8]. i l ANFIS, bulan k regresyon analizi için, ç karsama sisteminin i leyi ine imkan veren bir yap d r. rekil 1’de gösterilen bir uyarlamal a!; çok tabakal , ileri beslemeli bir sinir a! d r. Her sinir girdi sinyalleri üzerinde özel fonksiyonlar gösterir. Sinir fonksiyonlar için formülasyonlar sinirden sinire de!i iklik gösterir ve her sinir fonksiyonunun seçimi, tüm a! n girdilerine ve ç kt lar na dayan r. Regresyon fonksiyonuna iyi bir yakla m elde etmek için kullan lan, sinirlere ve ba!lant lara sahip uyarlamal a! be tabakadan olu ur [7]. Birinci tabakadaki her sinir dilsel de!erli girdiye dayanan bir üyelik fonksiyonu üretirler yani l ç kt s üyelik fonksiyonudur. kinci tabakadaki sinirler; girdi sinyallerine ba!l w (l=1,...,6) ürünlerini ç kart rlar. Bu tabakadaki sinirlerin fonksiyonu bulan k E!er- se kural n n ba lang ç bölümündeki bilgi sentezi içindir. kinci tabakadaki sinirlerin say s , birinci tabakadaki alt gruplarda bulunan sinirlerin kombinasyon say s na e ittir. Üçüncü tabaka, ikinci tabakadan gelen ç kt sinyallerinin bir normalizasyonu i levini içerir. Dördüncü tabakadaki her sinir E!er- se kural n n sonucuna kar l k gelir. Örne!in dördüncü tabakadaki Y siniri Y = c0 + c1 x1 + c2 x2 eklinde tan mlan r. Son olarak be inci tabaka, dördüncü tabakadan gelen tüm ç kt lar n toplam d r [10]. 1 1 1 1 1 3. Parametre Tahmini çin ANFIS’e Dayal Bir Algoritma Hedeflenen ç kt ile tahmin edilen ç kt aras ndaki fark ile verilen hata ölçüsünün en küçüklenmesi prensibine dayanarak parametrelerin tahmini, farkl da! l m parametrelerine sahip verilere ili kin regresyon modellerinin olu turulmas ve bu regresyon modellerine dayanan ortak bir tahmin setinin elde edilmesi sürecinde bulan k uyarlamal a!lardan faydalan lmaktad r [8,11,12]. 424 Regresyon modellerine ait tahmin setinin elde edilmesi süreci iki önemli ad mdan olu maktad r. Bunlardan birincisi, verilerin geldi!i s n f karakterize eden önsel parametre setinin belirlenmesi ve bu parametrelerin süreç içinde güncellenmesi, ikincisi ise sonsal parametre setinin tahmin edilmesidir. ANFIS ile regresyon modellerinin parametrelerinin belirlenmesi süreci, ba! ms z de!i kenlerin s n f ya da düzey say lar n n ve önsel parametrelerin belirlenmesi ile ba lar. Ba! ms z de!i kenlerin normal da! l mdan gelmesi durumunda regresyon modellerinin parametrelerinin belirlenmesi için önerilen yönteme ili kin algoritma a a! daki gibi tan mland . Ad&m 1: Ba! ms z de!i kenlere ait veri kümesine ili kin optimal s n f say lar belirlenir. S n f say s n ifade eden c’nin alabilece!i tüm de!erler (c=2, c=3,..., c=max) için S fonksiyonunun farkl de!erleri, Sk = m 1 c n uij ) vi ( "" n i =1 j =1 min vi xj k = 1,..., c 2 vj i: j 2 (3) ile elde edilir ve S k de!erlerinden en küçü!ünün hesaplanmas nda kullan lan c, optimal s n f say s olarak belirlenir. Ad&m 2: Önsel parametreler belirlenir. Yay l mlar, girdi de!i kenlerinin de!er ald ! aral !a ve de!i kenlerin düzey say lar na göre belirlenir. Merkez parametreleri de de!i kenlerin de!er ald ! aral !a ve düzey say s na ba!l d r ve vi = min( X i ) + max( X i ) min( X i ) * (i 1) (c 1) i = 1,..., p (4) ile belirlenir [3]. Burada c Ad m 1’de belirlenen de!i kenlere ili kin optimal s n f say s n , p ise ba! ms z de!i ken say s n göstermektedir. Ad&m 3: Sonsal parametre setinin hesaplanmas nda yer alacak olan B matrisinin olu turulmas nda L kullan lan w a! rl klar ba! ms z de!i kenin ait oldu!u da! l m ailesine dair üyelik fonksiyonlar ndan yararlan larak hesaplan r. Ba! ms z de!i ken say s p ile gösterildi!inde her bir de!i kene ait düzey say s li (i = 1,..., p ) ile ifade edilirse, bulan k kural say s L= p i =1 li ile belirlenir. Uyarlamal a! n birinci tabakas ndaki sinir fonksiyonlar ba! ms z de!i kenlerin geldi!i da! l ma ait üyelik fonksiyonlar ile, f1,h = µ Fh ( xi ) (5) biçminde tan mlan r. Fh için üyelik fonksiyonu uygun bir çok fonksiyon olabilir. Burada önsel parametre seti {vh , h } olan Normal Da< l m fonksiyonu dü!ünüldü<ünde, üyelik fonksiyonlar ; µ F ( xi ) = exp xi vh 2 h h (6) biçiminde tan mlan r. Tan mlanan üyelik fonksiyonundan, ba! ms z de!i kenler için, bu de!i kenlerin ait oldu!u her bir s n fa ait üyelik dereceleri belirlenir. Bu üyelik derecelerinin ba! ms z de!i ken say s na ve bu de!i kenlerin düzey (s n f) say lar na ba!l miktarda kar l kl çarp mlar ndan wL a! rl klar 425 wL = µ FL ( xi ).µ FL ( x j ) (7) wL ile ifade edilir. wL = a! rl klar w L ile belirtilen a! rl klar n normalizasyonudur ve, wL m "w L L =1 (8) ile hesaplan r. Ad&m 4: Ba! ms z de!i kenlerin bulan k, ba! ml de!i kenin kesin say lardan olu tu!u durumda, sonsal parametre seti ciL = aiL , biL , ciL = aiL (i=1,...,p) biçiminde kesin say lar olarak elde edilir. ( ) Bu durumda sonsal parametre setinin saptanmas için, Z = ( BT B ) 1 BT Y (9) e itli!i kullan l r. Burada, B ile a! rl kland r lm [((p+1)*m )*n] boyutlu veri matrisi, Y ba! ml de!i ken de!erlerinden olu an (n*1) boyutlu vektör ve Z sonsal parametrelere ili kin Z = a10 ,..., a0m , a11 ,..., a1m , a1p ,..., a mp T (10) biçiminde tan mlanan [(p+1)*m ] boyutlu vektördür. Ad&m 5: Ad m 3’de elde edilen sonsal parametre seti ci = ai kullan larak, L L Y L = c0L + c1L x1 + c2L x2 + ... + c Lp x p (11) biçiminde ifade edilen regresyon modelleri olu turulur. Kurulan modellerden ve Ad m 3’de belirlenen a! rl klardan yararlan larak tahmin de!erleri, m Yˆ = " w LY L L =1 (12) ifadesi ile elde edilir. Ad&m 6: Her bir gözleme ili kin hata ) k = Yk Yˆk k=1,...,n (13) n ( biçiminde verildi!inde, modele ili kin hata ) = " Yk k =1 Yˆk ) 2 biçiminde hesaplan r. E!er ) < ise ula lan sonsal parametre, kurulacak olan regresyon modellerinin parametreleri olarak elde edilmi tir, sürece son verilir. E!er ) 8 ise Ad m 7’ye geçilir. Burada, , karar verici taraf ndan belirlenen küçük sabit bir de!er, Ad&m 7: Ad m 2’de belirlenen merkezi önsel parametreler, en küçük de!erden en büyük de!ere do!ru artacak, en büyük de!erden en küçük de!ere do!ru azalacak ekilde, vi = vi ± t ile güncellenir. Burada, ' t= max( x ji ) min( x ji ) a j = 1,..., n i = 1,..., p (14) ile hesaplanan ad m büyüklü!üdür ve a , ad m büyüklü!ü (t)’yi ve dolay s yla iterasyon say s n belirleyen bir sabittir. Ad&m 8: De!i im ile elde edilen her önsel parametre için tahminler ve bu tahminlere ili kin hata ölçütleri hesaplan r. Hesaplanan hata ölçütlerinden en küçük olan belirlenir. Belirlenen en küçük 426 hatay veren önsel parametreler ve bu parametrelere ili kin modellerden elde edilen tahmin ç kt olarak al n r. Önerilen bu algoritmada, bulan k uyarlamal a! ile olu turulan modellerden elde edilen tahmin de!erleri, ba! ms z de!i kenlerin a! rl kland r lm biçimlerinden elde edildi!i için ba! ms z de!i kenlerde var olabilecek ayk r gözlemlerden etkilenmemektedir. Bu anlamda robust bir yöntem özelli!i ta d ! dü üncesi ile literatürde yer alan ve s k kullan lan robust yöntemlerle kar la t r lmas na uygulama k sm nda yer verilmi tir. . 4. Uygulama Veri kümesinde ayk r de!er olmas durumda, elde edilen regresyon modeli ayk r de!erin etkisiyle ayk r de!er d ndaki gözlemlerden uzakla r. Ayk r de!er d ndaki gözlemlerin art klar büyür. Robust regresyon çözümlemesi ile ayk r de!er olmas durumunda regresyon model tahmininde EKK yöntemine göre daha az etkilenen parametre tahminleri elde edilir [13]. Önerilen algoritman n etkinli!inin s nanmas için, elde edilen sonuçlar, literatürde s kl kla kullan lan robust yöntemlerden elde edilen sonuçlar ile kar la t r lacakt r. Bu amaçla kullan lan robust yöntemlere k saca de!inmek gerekirse. 4.1. M Yöntemi Huber, Hampel, Andrews ve Tukey’in tan mlad klar farkl fonksiyonlara sahip M yöntemi art klar n kareleri toplam n minimum yapmaktan çok art klar n fonksiyonunu minimum yapar. Regresyon katsay lar n " i =1 ( yi p " xij ˆ j ) / d j =1 (15) toplam minimum yap larak elde edilir. E itlik (1)’in ˆ j ’ya göre türevi al n p s f ra e itlenirse n " xij, ( yi i =1 p " xij ˆ j ) / d j =1 =0 j = 1,..., p p denklem sistemi için regresyon katsay lar elde edilir. fonksiyonu Huber’in / z2 5 ( z ) = 50 2 5 5k z 1 (16) z !k k2 2 z >k z = ri / d d = median ri median ( ri ) / 0.6745 biçiminde tan mlan r. Burada k ifadesi tuning sabiti (ayar sabiti) olarak ifade edilir ve k=1.5 de!erini al r. d’nin pay genellikle mutlak sapmalar n medyan (MAD) olarak tan mlan r. Ayr ca ri = yi p xij ˆ j ’dir. E itlik (16)’n n türevi al n rsa " j =1 427 z< k z !k z>k / k 5 , ( z ) = 50 z 5 51 k (17) fonksiyonu elde edilir. , fonksiyonu ’nun türevidir. E itlik (17)’de ayk r de!ere genellikle s f r ya da s f ra çok yak n , a! rl klar verilir. Bu nedenle , “s f ra geri azalan” (redescending to zero) olarak nitelendirilir. Hampel , fonksiyonu /z 5 5a sgn ( z ) 5 , ( z) = 0 c z sgn ( z ) 5a 5 c b 50 1 0< z !a a< z !b /+1, 5 sgn( z ) = 00 , 5 1, 1 , b< z !c z>0 z=0 z<0 c< z (18) biçiminde tan mlan r. Genellikle sabitlerin de!erleri a=1.7, b=3.4 ve c=8.5 olarak seçilir. Andrews (sinüs tahmini) ise , fonksiyonunu /sin( z / k ) z ! k' 510 z > k' , ( z ) = 50 (19) olarak tan mlam t r, burada k=1.5 ya da k=2.1 al n r. Tukey’in iki a! rl kl tahmini için , fonksiyonu ise / z (1 , ( z ) = 50 ( z / k ) 2 )2 z !k z >k 510 (20) biçiminde tan mlan r. k, 5 ya da 6 olarak seçilir [4,5,6,7] 4.2. Say:sal Örnek Veri setinde yer alan, ba! ms z de!i kenler X 1 ~ N ( µ = 20; X 3 ~ N ( µ = 32; = 3) , X 2 ~N ( µ = 50; = 12 ) ve = 13) olan normal da! l mdan, ba! ml de!i ken de!erleri ise ba! ms z de!i ken de!erlerine ba!l olarak türetildi. Ba! ml de!i kendeki 15’inci gözlem ( y15 + 50 ) biçiminde de!i tirilerek ayk r gözlem durumuna dönü türüldü. Üç ba! ms z ve bir ba! ml de!i kenden ve 30 gözlemden olu an veri seti Çizelge 1’de verilmi tir. Çizelelge 1. Ba! ml de!i kende ayk r de!er olmas durumu için veri kümesi No x1 x2 x3 y No 428 x1 x2 x3 y 50.5397 78.9993 46.2813 52.2510 61.3724 43.6916 36.6127 30.8922 64.0981 55.8217 69.7458 44.5492 62.1052 74.5928 57.2242 21.8101 19.8248 16.6740 26.4327 15.9415 21.3711 21.1735 26.2190 19.0300 24.4044 18.4928 20.6288 22.2644 17.1554 21.8395 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 49.8319 35.1925 33.5450 37.0010 31.0880 24.4820 38.1010 48.8959 53.2524 22.8635 42.4943 18.6431 48.8284 32.1941 34.8432 125.4057 137.4526 97.0719 116.3851 107.0015 92.0244 100.6000 90.8950 136.5460 104.7410 133.6250 83.1755 134.8870 126.0083 166.4707 25.2815 20.2663 27.7867 17.9736 28.3604 19.9495 20.8150 17.2577 14.1459 19.0477 21.7650 22.4870 14.9754 14.2331 18.6900 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 50.2143 30.6749 64.8650 58.2030 40.6314 56.3718 75.6140 54.2523 52.7804 65.4558 49.8381 33.9999 43.3239 59.0672 39.0578 54.2714 40.9755 33.4679 17.8756 11.7420 40.2863 26.7405 26.7568 33.0930 26.3405 24.6859 43.4148 21.4096 28.6413 38.4129 128.9194 60.9541 130.0444 87.9184 78.4568 116.6304 118.1328 103.9698 101.7193 113.7832 93.9008 101.4928 85.7995 105.1197 99.5382 Veri seti, MATLAB da yaz lan ve bulan k ç karsama sistemine ve bulan k kümelemeye dayal uyarlamal a! n i leyi inin modellendi!i programda i letilerek bulan k kurallara ili kin regresyon modelleri a a! daki gibi elde edilmi tir. ŷ1 =1308 +346x1 -84x 2 -314x 3 ŷ 2 =10896-145x1 +175x 2 -230x 3 ŷ3 =9022-211x1 -126x 2 +263x 3 (21) ŷ 4 =-27061-24x1 +202x 2 +207x 3 ŷ5 = -20670+701x1 -51x 2 +436x 3 ŷ 6 =-6201-405x1 -155x 2 +341x 3 ŷ 7 =18219-610x1 +19x 2 -316x 3 ŷ8 =25742+283x1 -204x 2 -283x 3 Robust regresyon yöntemleri kullan larak elde edilen Regresyon Model Tahminleri ise Çizelge 2’de yer almaktad r. Çizelge 2: Regresyon parametreleri tahmin de!erleri Regresyon Katsay lar Yöntem Sabit ˆ ˆ 1.0404 0.8125 0.7794 0.8127 0.7775 1.2420 1.0329 0.9778 0.9625 0.9809 1 -10.4360 3.0366 5.5338 5.3224 5.2896 EKK Huber Hampel Tukey Andrews ˆ 2 3 0.9412 1.0085 1.0412 1.0563 1.0430 Çizelge 3: Tüm yöntemler için gözlemlere ili kin a! rl klar Gözlemlerin E itlik (21) de ki Modellere ait olma dereceleri No EKK A! rl k Huber A! rl k Hampel A! rl k 1 2 3 4 5 6 7 8 9 10 11 12 13 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 0.9901 0.2780 1 1 1 1 1 1 1 1 1 1 1 1 0.1984 1 1 1 1 1 Tukey A! rl k 0.9892 0.9274 0.9704 0.9996 0.9068 0.9812 0.9383 0 0.9555 0.9729 0.9853 0.9794 0.9999 Andrews A! rl k w1 0.4710 0.4632 0.4713 0.4752 0.4545 0.4702 0.4559 0.1023 0.4685 0.4692 0.4732 0.4728 0.4758 0.2558 0.1331 0.4513 0.2955 0.2619 0.9279 0.6285 0.1777 0.1053 0.5702 0.1575 0.9492 0.1794 429 w2 w3 0.8399 0.1553 0.4688 0.3919 0.2287 0.5080 0.9008 0.5464 0.4404 0.2784 0.3079 0.3440 0.5488 0.1927 0.6541 0.2568 0.2492 0.4029 0.4451 0.1891 0.0367 0.1939 0.6084 0.4207 0.4818 0.2896 w4 0.6327 0.7634 0.2667 0.3305 0.3518 0.2437 0.2710 0.1128 0.8109 0.2971 0.8225 0.1746 0.8859 w5 0.2563 0.1323 0.4431 0.3017 0.2564 0.9283 0.6283 0.1813 0.1044 0.5774 0.1557 0.9468 0.1801 w6 0.8417 0.1544 0.4603 0.4001 0.2239 0.5082 0.9005 0.5573 0.4365 0.2820 0.3045 0.3431 0.5510 w7 w8 0.1931 0.6504 0.2521 0.2544 0.3944 0.4453 0.1890 0.0374 0.1922 0.6161 0.4160 0.4806 0.2908 0.6341 0.7590 0.2619 0.3374 0.3444 0.2438 0.2709 0.1150 0.8037 0.3009 0.8134 0.1742 0.8895 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 0.0793 1 0.1292 1 0.5182 1 1 0.5921 1 1 1 1 1 0.9584 1 1 1 0 1 0 1 0.7229 1 1 0.9567 1 1 1 1 1 1 1 1 0.9917 0 0.9371 0 0.8298 0.6013 0.9810 0.9724 0.7679 0.8455 0.9931 0.9569 0.9086 0.9955 0.8559 0.9882 0.9931 0.1503 0.4992 0.1247 0.5070 0.1445 0.5293 0.3005 0.3892 0.2313 0.5032 0.2068 0.4008 0.8261 0.4479 0.4073 0.1948 0.5378 0.4754 0 0.4691 0 0.4345 0.3816 0.4742 0.4718 0.4197 0.4425 0.4747 0.4682 0.4589 0.4762 0.4441 0.4744 0.4726 0.1419 0.5684 0.5603 0.8905 0.1493 0.1817 0.0669 0.6510 0.1485 0.3235 0.2081 0.2502 0.4589 0.9347 0.1794 0.1431 0.7880 0.5525 0.5843 0.0919 0.1032 0.2798 0.6608 0.1178 0.4306 0.9096 0.4841 0.1806 0.8070 0.5943 0.1135 0.1907 0.2575 0.1901 0.5216 0.6652 0.4131 0.1812 0.2891 0.2268 0.0262 0.7203 0.5841 0.3113 0.1817 0.5038 0.3301 0.2367 0.0840 0.1891 0.2785 0.1478 0.5004 0.1267 0.5050 0.1483 0.5224 0.3091 0.3872 0.2309 0.4952 0.2010 0.3973 0.8278 0.4501 0.3971 0.1894 0.5323 0.1396 0.5697 0.5694 0.8869 0.1532 0.1793 0.0688 0.6476 0.1483 0.3184 0.2022 0.2480 0.4598 0.9393 0.1750 0.1392 0.7799 0.5435 0.5856 0.0934 0.1027 0.2872 0.6521 0.1212 0.4284 0.9080 0.4764 0.1755 0.7999 0.5955 0.1140 0.1860 0.2504 0.1882 Çizelge 4: Tüm yöntemler için gözlemlere ili kin art klar Gözlem No 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 HKT EKK Art k 3.4767 -3.9789 1.1051 -0.4020 -4.6338 2.9175 7.6721 -10.3378 -2.5497 -1.0641 -1.8004 -0.7286 -0.9346 -4.3509 50.3167 -0.3957 -26.3607 -0.4926 -9.4589 -2.1298 -1.6218 -12.1691 3.8849 0.7363 -1.6870 -3.4418 5.4420 6.6952 0.4278 5.8638 3867,3 Huber Hampel Art k Art k 2.1904 1.5721 1.2178 2.5822 -1.1466 -1.6369 0.5861 0.6348 -3.7318 -3.3337 1.8044 1.6230 4.1178 3.0940 -14.6644 -16.1899 -1.8646 -1.9390 1.1593 1.8002 0.6667 1.2379 -1.4388 -1.4064 0.3685 0.4359 -0.4822 0.6489 51.4430 51.6845 -1.2575 -1.9241 -31.5567 -33.0319 3.6793 4.5840 -7.8677 -7.1450 -1.4330 -1.1352 -1.4706 -1.5166 -6.8861 -5.3992 3.8895 4.0801 -0.7023 -0.9030 1.0962 1.9775 -3.1937 -3.0297 1.2833 -0.0150 4.2542 3.9416 0.6231 0.9175 2.2337 1.2525 4087,8 4228,2 Tukey Andrews ANFIS Art k Art k Art k 1.0752 1.6086 -17.6759 2.8061 2.5519 -7.8254 -1.7818 -1.5673 -1.5879 0.2043 0.6978 -11.5606 -3.1872 -3.3084 -2.6604 1.4196 1.7260 1.1031 2.5835 3.1943 -7.6847 -17.1185 -16.0816 -28.9371 -2.1887 -1.9565 2.7615 1.7052 1.8737 -6.1937 1.2547 1.2210 -1.0513 -1.4838 -1.2970 1.2672 0.1152 0.4387 -13.3710 0.9398 0.6329 -4.3802 51.5151 51.7272 -10.2161 -2.6085 -1.8880 -29.6824 -33.6463 -32.9199 -9.3339 4.3540 4.6162 -11.3668 -6.9146 -7.0821 -5.1477 -1.4250 -0.9864 10.9992 -1.7185 -1.4846 -7.6727 -5.1320 -5.4017 -11.5501 4.1399 4.1380 -3.2610 -0.8580 -0.8578 0.0676 2.1547 2.0043 -7.9256 -3.1557 -2.9457 -2.9142 -0.6893 0.0864 -16.3709 3.9915 4.0392 0.8268 1.1227 0.9512 -1.3372 0.8570 1.3398 -5.0809 4278,2 4222,3 3580.9 Regresyon modellerinin tahminlerinde kullan lan herbir yöntem için veri setinde yer alan gözlemlere ili kin a! rl klara Çizelge 3’de yer verilmi tir. Robust yöntemler için elde edilen a! rl klar, verilerin elde edilen tek bir modele dahil edilme a! rl klar n ifade etmektedir. Di!er yandan a!dan elde edilen a! rl klar verilerin E itlik 21 ile verilen de!i ken say s na göre çe itlilik gösterebilen modellere aitliklerini göstermektedir. Bu aç dan a! rl klar aras nda fark olmas do!ald r. E itlik (23)’de verilen regresyon modellerin a! rl kl ortalamalar ndan elde edilen tahmin de!erlerine dayanarak belirlenen art k de!erleri ve robust regresyon yöntemleri kullan larak olu turulan modellerden elde edilen tahminlerin art klar ise Çizelge 4’de yer almaktad r. Bu çal mada önerilen algoritma MATLAB’da yaz lan bir program ile i letildi. Ad msal i letim a amas nda bu çal ma için, ayk r gözlemin mevcut oldu!u ba! ml de!i kene sahip veri seti ele al nd . Tan mlanan robust regresyon yöntemlerinden M yöntemleri için MATLAB’da yaz lan programlar i letilerek elde edilen sonuçlar kar la t r ld . Yap lan kar la t rmalardan, uyarlamal a!dan elde edilen modellerin en küçük hatay veren tahmin de!erlerine ula t klar görüldü. 430 0.5132 0.6668 0.4198 0.1804 0.2967 0.2238 0.0270 0.7165 0.5831 0.3063 0.1766 0.4994 0.3307 0.2379 0.0819 0.1839 0.2757 Kaynaklar [1] [2] [3] [4] [5] [6] [7] [8] [9] [10] [11] [12] [13] [14] [15] Cherkassky, V. and Muiler, F., (1998), Learnin From Data Concepts, Theory and Methods, Newyork Jhon Wiley and Sons. Chi-Bin, C. and Lee, E. S. (2001), Switching Regression Analaysis by Fuzzy Adaptive Network, Europen Journal of Operational Research, 128, 647-663 Erbay, D.T., Apayd n, A. A Fuzzy Adaptive Network Approach to Parameter Estimation in case Where Independent Variables Come From Exponential Distribution, Journal of Computational and Applied Mathematics, doi:10,1016/j.cam,2008,07,057. 2008. Hampel, F.R., Ronchetti, E.M., Rousseeuw, P.J., and Stahel W.A. (1986). Robust statistics. JohnWilley & Sons, New-York. Hogg, R.V. (1979). Statistican robustness: One view of its use in applications today. The American Statistican, 33, 108-115. Huber, P.J. (1981). Robust statistics. John Willey & Son. Huynh, H. (1982). A comparision of for approaches to robust regression. Psychological Bulletin, 92, 505-512. Ishibuchi, H. and Nei, M. Fuzzy Regression using Asymmetric Fuzzy Coefficients and Fuzzied Neural Networks, Fuzzy Sets and Systems 119, 273–290, 2001. Jyh-Shing Roger J. (1993), ANFIS: Adaptive-Network-Based Fuzzy Inference System, IEEE Transaction on Systems, Man and Cybernetics, 23, No;3, 665-685 James, D. and Donalt, W., (1999), Fuzzy Number Neural Networks, Fuzzy Sets and Systems, Vol 108 49-58. Lung-Fei L., Robert H.P., (1984), Switching Regression Models With Imperfect Sample Separation Information-With an Application on Cartel Stability, Econometrica, Vol52 391-418 Michel M., (2001), Fuzzy Clustering and Switching Regression Models Using Ambiguity and Distance Rejects, Fuzzy Sets and Systems, 122, 363-399 Rousseeuw, P.J and Leroy, A.M. (1987). Robust regression and outlier detection. John Willey & Son. Richard E.Q., 1972, A New Approach to Estimating Switching Regressions, Journal of the American Statistical Association, 67, No:338, 306-310 Takagi, T., and Sugeno, M., 1985, Fuzzy Identification of Systems and Its Applications to Modeling and Control, IEEE Trans. On Systems, Man and Cybernetics, Vol 15, No 1, 116-132 431 Exponantial-binomial distribution Co kun Ku 16 Selcuk University, Faculty of Sciences, Department of Statistics, Konya, Turkey. Abstract Some probability distributions have been proposed to fit real life data with decreasing failure rates. In this article, a three-parameter distribution with decreasing failure rate is introduced. Various properties of the introduced distribution are discussed. An EM algorithm is used to determine the maximum likelihood estimates when one parameter is given or known. Illustrative examples based on real data are also given. Key words: Compounding, decreasing failure rate, EM algorithm, exponential distribution, lifetime distributions, maximum likelihood estimation, zero truncated binomial distribution 1. Introduction In recent years, some probability distributions have been proposed to fit real life data with decreasing failure rates. Adamidis and Loukas (1998), Ku (2007) and Tahmasbi and Rezaei (2008) provided the Exponential-Geometric, Exponential-Poisson and ExponentialLogarithmic distribution, respectively. There are a number of papers dealing with the models for DFR. The distributions with DFR are discussed in the works of Lomax (1954), Proschan (1963), Barlow et al. (1963), Barlow and Marshall (1964, 1965), Marshall and Proschan (1965), Cozzolino (1968), Dahiya and Gurland (1972), McNolty et al. (1980), Saunders and Myhre (1983), Nassar (1988), Gleser (1989), Gurland and Sethuraman (1994), Adamidis and Loukas (1998), Ku (2007) and Tahmasbi and Rezaei (2008). This paper is organized as follows: In Section 2, a new three parameter DFR distribution is obtained by mixing exponential and zero truncated Binomial distribution where mixing procedure was previously carried out by Adamidis and Loukas (1998) and further discussed in Ku (2007) and Tahmasbi and Rezaei (2008). In Section 3, some properties of the introduced distribution are discussed. In Section 4, the estimation of parameters is studied by the method of maximum likelihood when one parameter is given or known. Finally, in Section 5, illustrative examples based on real data are provided to close the paper. 16 Note that in a recent issue of Computational Statistics and Data Analysis there is a related paper (Chahkandi and Ganjali, 2009) where a general family of power series distributions is considered, which includes the binomial. 432 2. The distribution and its properties Let W1 , W2 ,...,WZ be a random sample from f ( w; truncated Binomial variable with probability function m z m p (1 p ) z P ( z; p ) = where and Z z {1 (1 p) m } 1 )= w e , w, 7 R + , Z is a zero z = 1,..., m, p 7 ( 0,1) , X = min (W1 ,W2 ,...,WZ ) . W s are independent. Let's define Then, f ( x | z; ) = ze zx and marginal probability density function of X obtained as follows: Let us consider the following identity(recall the moment generating function of binomial distribution): m m z m m z m exp ( zx ) p (1 p ) = (1 p + p exp ( x ) ) (1 p ) . " z z =1 (1) If in both sides of the equation (1) derivatives with respect to x are taken, then we obtain: m " z =1 z exp ( zx ) m z m z p (1 p ) = z x ) (1 p + p exp ( pm exp ( x )) m 1 . (2) Hence using equation (2), probability density function of X is introduced by f ( x; m m m ) = " f ( x, z ; m ) = "P ( z ; p ) f ( x | z ; z =1 m = " z exp ( z =1 = pm 1 (1 p) ) z =1 m zx ) exp ( m z m p (1 p ) z z {1 (1 x ) {1 p + p exp ( p) x )} m m 1 } 1 , x 7 R+, (3) p 7 ( 0,1) , where m 7 N + , 7 R + and m = ( p, ) with given or chosen parameter m. Also is obviously a scale parameter. In the sequel, distribution of X will be referred to as the Exponential-Binomial distribution (EB) which is customary for such names to be given to the distributions arising via the operation of compounding (mixing) in the literature (Adamidis and Loukas,1998, Ku , 2007 and Tahmasbi and Rezaei, 2008.). It can be seen that the EB density function is monotone decreasing with modal value { pm 1 (1 p) m } 1 at x = 0 . EB probability density functions are displayed in Fig. 1 and Fig. 2 for selected parameter values. Observing changing parameter because it only shows the well known effect of a scale parameter. 433 is unnecessary The model is obtained under the concept of population heterogeneity (through the process of compounding). An interpretation of the proposed model is as follows: A situation where failure (of a device for example) occurs due to the presence of an unknown number, Z , of initial defects of same kind (a number of semiconductors from a defective lot, for example). The W s represent their lifetimes and each defect can be detected only after causing failure, in which case it is repaired perfectly (Adamidis and Loukas, 1998). Then the distributional assumptions given earlier lead to the EB distribution for modeling the time to the first failure X . 10 9 8 7 f(x) 6 5 4 3 2 1 2,5 2 1,5 1 0,5 0 0 x Fig. 1. Probability density functions of the EB distribution for =1, m =10 and respectively, by the y-axis intercepts appearing in increasing order of magnitude p =0.1,0.5,0.9, identified, 8 7 6 f(x) 5 4 3 2 1 2,5 2 1,5 1 0,5 0 0 x Fig. 2. Probability density functions of the EB distribution for =1, p =0.5 and respectively, by the y-axis intercepts appearing in increasing order of magnitude m =5,10,15, identified, For all values of parameters, the density is strictly decreasing in x and tending to zero as x * +. Its graph resembles those of the EG, EP, Pareto II and exponential distributions. As p approaches zero or m = 1 , the EB leads to exponential distribution with parameter and as m tends to infinity the EB distribution approaches the Exponential Poisson which is introduced by Ku (2007). 434 The distribution function of X is given by F ( x; m )= {1 p (1 1 (1 1 } x )) exp ( p) m m (4) and hence, the median is obtained by 1 / log 0 p 1 ( 1 1 2 ) ; 1 + p <. = 1/ m (1 p )m + 2 For r 7 N + , raw moments are given by + E(X r; r m ) = . x f ( x; m ) dx 0 = = x (1 p ) . = r m 1 x ) {1 p + p exp ( exp ( x )} m 1 dx 0 + pm (1 1 p) m 1 × = + pm m p ) pm i m 1 m 1 m " (1 p ) m 1 { (1 p) m i } + i .x r exp { ( m i ) x} dx 0 m 1 (1 p ) p m i m 1 " r dx (1 p ) p m i i=0 mU ( r + 1) 1 i 1 i 1) x} (m i =0 0 (1 i m 1 x ) " exp { r .x exp ( i i=0 (m i) i , r 7 N+ , r +1 where U ( F) is the gamma function. Hence the mean and variance of the EB distribution are given respectively by E(X; m )= {1 m 1 m (1 p) m " } i=0 m 1 (1 p ) p m 2 i (m i) i i and Var ( X ; m )= m 1 2m {1 (1 / 5 0 51 1 { p) m } 2 p) i=0 m 1 m (1 " m } " i=0 m 1 (1 p ) p m 3 i (m i) i i m 1 (1 p ) p 2 i (m i) i 435 m i 2 ; 5 < . 5 = Using (3) and (4), survival function and failure rate function (hazard function) of the EB distribution are given respectively by s ( x; ) =1 f ( x; s ( x; m pm exp ( )= m) m {1 p (1 (1 1 p) { m p) } m Fig. 3. Hazard functions of the EB distribution for =1, m =10 and y-axis intercepts appearing in increasing order of magnitude p exp ( m , } x ) 1 p (1 exp ( x )) m (1 m 5 )= F ( x; } x )) exp ( 5,5 h ( x; m {1 p (1 )= x )) (1 p) m 1 m . 10 9 8 7 h(x) 6 5 4 3 2 1 8 7,5 7 6,5 6 4,5 4 3,5 3 2 2,5 1,5 1 0,5 0 0 x =0.1,0.5,0.9, identified, respectively, by the Both functions have simple forms in contrast to those of some DFR distributions such as Gamma with DFR. Since m is finite the EB distribution is in fact a finite mixture of exponential distributions. Hazard function is decreasing because of the DFR property arise from the results of Barlow et al. (1963) on mixtures. The initial and long-term hazards are h ( 0; m)= { pm 1 (1 p) m } 1 and h ( +; m )= . They are both finite in contrast to those of Weibull distribution with h ( 0; m ) = + and h ( +; selected parameter values are displayed in Fig. 3. m ) = 0. Hazard functions for 3. Estimation of the parameters 3.1 Estimation by maximum likelihood The log-likelihood function (parameter m is given or known) based on the observed sample size of n , y obs = ( xi ; i = 1, 2,..., n ) , from the EB distribution is given by 436 l( { n m " xi m ; y obs ) = n log ( mp ) n log 1 i =1 (1 p) m } n + ( m 1) " log {exp ( xi )(1 p ) + p} i =1 and subsequently the associated gradients are found to be l( m ; y obs ) = n n n i =1 i =1 m " xi + ( m 1) " (1 p ) xi exp ( xi ) exp ( xi )(1 p ) + p = 0, (5) l( m ; y obs ) p n = p nm (1 p ) 1 (1 m 1 p) m ( m 1) {1 exp ( xi )} = 0. i =1 exp ( x )(1 p) + p i n +" (6) In the following, Theorem 1 expresses when the parameters m and p are given, the MLE of the parameter lies in the specified interval. Theorem 1. Let g ( ; p, y obs ) denote the function on the RHS of the expression in (5) and x = n 1 " in=1xi , where p is the true value of the parameter. Then, for a given p 7 ( 0,1) and m 7 N+ ({ x ( p ( m the root of } 1) + 1) 1 ,x 1 g ( ; p, y obs ) = 0, ) with probability 1. the MLE of lies in the interval 3.2. An EM algorithm Apparently, the solution of the two non-linear normal equations must be attained using a numerical method; this would involve a two-dimensional search using any of the methods of numerical analysis. EM algorithm is a very powerful tool in handling the incomplete data problem (Dempster et al.(1977), McLachlan and Krishnan (1997)). It is an iterative method by repeatedly replacing the missing data with estimated values and updating the parameter estimates. It is especially useful if the complete data set is easy to analyze. As pointed out by Little and Rubin (1983), the EM algorithm will converge reliably but rather slowly (as compared to the Newton--Raphson method) when the amount of information in the missing data is relatively large. Recently, EM algorithm has been used by several authors such as Adamidis and Loukas (1998), Adamidis (1999), Ng et al. (2002), Karlis (2003), Adamidis et al. (2005), Ku and Kaya (2006), Ku (2007) and Tahmasbi and Rezaei (2008). First of all, denote the observed and missing data by X = ( X 1 , X 2 ,K , X n ) and Z = ( Z1 , Z 2 ,K , Z n ) , respectively, where the Z i correspond to the unobserved mixing variables. Combine X and Z to form Y = ( X, Z ) which is the complete data set. This model problem can be viewed as an incomplete data problem and then the EM algorithm is 437 applicable to obtain the maximum likelihood estimators of the parameters. To start the algorithm, hypothetical complete-data distribution is defined with density function f ( y; m z exp ( )= m z m p (1 p ) z zx ) 1 (1 p) m z , x > 0, z = 1,..., m, where y = ( x, z ) . Thus, it is straightforward to verify that the E-step of an EM cycle requires the computation of the conditional expectation of ( h) m ( h) = (p , ( h) P ( z | x; ) is the current estimate of m )= z exp ( zx ) m (Z | X ; (h) m ), where . Using that m z m p (1 p ) z z pm exp ( m x ) {exp ( x )(1 p ) + p} m 1 , z = 1,..., m, this is found to be E Z|X x; exp m 1 x 1 p 1 m exp x exp x 1 p p m 1 1 p 1 exp x m m . The EM cycle is completed with M-step, which is complete data maximum likelihood over m ( , with the missing Z ' s replaced by their conditional expectations si = E Z | X ; (Adamidis and Loukas, 1998). Thus, an EM iteration, taking ( h +1) { } n i =1 n i =1 h +1) { m into ( h +1) m m ) , is given by 1 = n " si xi " si = nmp ( ( h) (h) 1 , ( 1 p( h +1) )} m 1 . It can be seen that only a one-dimensional search such as Newton-Raphson is required for M-step of an EM cycle. Recently, Karlis (2009) has been proposed Nested EM algorithm without Newton-Raphson iteration for the ML estimation of EP distribution which is introduced by Ku (2007). This idea of Karlis (2009) is adapted to our problem. The problem can be solved in closed form expressions as follows. Observe that at the M-step one has to solve the problem of finding the ML estimates from a sample of truncated binomial data with known m . This is exactly the second equation. There is a simple way to do this via an EM algorithm. Consider a sample Z1 , Z 2 ,K , Z n from such a truncated binomial distribution. If we augment the data with some missing data that represent the zero values not observed then ML estimation of p would be extremely simple being just the proportion of successes. Note that the missing values do not contribute to the " in=1Z i . p would be Hence if we had n0 values of zero then the ML estimate of 438 {m ( n + n )} 1 " in=1Z i since now the sample size would be n + n0 . So we just need to estimate the number of zero values expected with given parameter values which is m obviously ( n + n0 )(1 p ) . So the full EM for the exponential binomial would be 0 ( h) Consider the current values , p ( ) , n0( h) h E1-step: Obtain the values si = E ( Z | X ; h m ) , i = 1,..., n and E2-step: Obtain the value n0( h +1) ( = n + n0( h) ) (1 p( h) ) m . M-step: Update the parameters by { } n M1-step: ( h +1) M2-step: p( h +1) = 1 = n " si xi i =1 1 ( n ( h+1) m n + n0 " si . ) i =1 Clearly this approach does not need any NR step and hence deriving derivatives which can be quite slow. Moreover if the initial values belong to the appropriate domain of the parameter values we will never go out of this domain which can happen with the NR approach. 4. Illustrative examples The fit of the EB distribution of real data is examined by graphical methods using MLEs. It is also compared with the EP, EG, Weibull and Gamma models with respective densities f1 ( x; L1 ) = p1 1 e 1 e p1 ( ) f 2 ( x; L 2 ) = p2 (1 f 3 ( x; L 3 ) = 3 2 p3 3 x f 4 ( x; L 4 ) = p4 4 x 4 3 1 e )e 1 e 1 x + p1 exp p1 p2 x (1 ( p3 x ) 3 ( p4 x ) ( 1x 2 ) p2 x e , x > 0, {U ( )} 4 , x, 1 ) 3 2 1 , p1 7 R + , , x > 0, p2 > 0, , p3 > 0, , x > 0, 439 4 , p4 > 0, 2 7 ( 0,1) , where L j = ( p j , j ), j = 1, 2,3, 4. The first set consists of the number of successive failures for the air conditioning system of each member in a fleet of 13 Boeing 720 jet airplanes. The pooled data, yielding a total of 213 observations, were first analyzed by Proschan (1963) and further discussed in Dahiya and Gurland (1972), Gleser (1989), Adamidis and Loukas (1998) and Ku (2007). In the second set, the data are 109 observations on the period between successive coal-mining disasters and can be found in Cox and Lewis (1978) and further discussed in Adamidis and Loukas (1998) and Ku (2007). The third data set includes the time intervals(in days) of the successive earthquakes with magnitudes greater than or equal to 6 Mw (moment magnitude) in North Anatolia Fault Zone between 39.00o 42.00o North latitude and 30.00o 40.00o East longitude and can be found in Ku (2007). Since the is obviously a scale parameter, transformed data are used so as to avoid overflow errors during the EM. For the second data set, the log-likelihood keeps increasing for m < 21 and then decreases so the maximum occurs at m = 21 and for the second data set, the log-likelihood keeps increasing for m < 9 and then decreases so the maximum occurs at m = 9. The loglikelihoods for a wide range of values of m are given in Fig. 4 and Fig. 5. for first and second data sets. For the last data set, running for a wide range of values of m , we found that the loglikelihood still increases even for m = 1000 implying that m * + i.e. the binomial tends to a Poisson distribution and EB distribution tends to the exponential Poisson distribution. The Fig. 6 plots show this. The horizontal line is the log-likelihood value of the EB model. Fig. 6 shows the log-likelihood value for the last data for values from 3 to 1000. One can see that the log-likelihood still increases after 1000 which implies that the value of m tends to + . We have not seen this behavior to the other datasets. -1175,842 -1175,844 0 10 20 30 40 50 60 70 80 90 100 110 log-likelihood -1175,846 -1175,848 -1175,85 -1175,852 -1175,854 -1175,856 -1175,858 -1175,86 m Fig. 4. The log-likelihood for the first data set for values of m from 3 to 100. The horizontal line represents the log-likelihood of the Exponential Binomial distribution 440 -703,28000 -703,30000 0 10 20 30 40 50 60 70 80 90 100 110 log-likelihood -703,32000 -703,34000 -703,36000 -703,38000 -703,40000 -703,42000 -703,44000 m Fig. 5. The log-likelihood for the second data set for values of m from 3 to 100. The horizontal line represents the log-likelihood of the Exponential Binomial distribution -30,95 0 100 200 300 400 500 600 700 800 900 1000 1100 log-likelihood -31 -31,05 -31,1 -31,15 -31,2 m Expected Cumulative Probability Fig. 6. The log-likelihood for the last data set for values of m from 3 to 100. The horizontal line represents the log-likelihood of the Exponential Binomial distribution 0,95 0,9 0,85 0,8 0,75 0,7 0,65 0,6 0,55 0,5 0,45 0,4 0,35 0,3 0,25 0,2 0,15 0,1 0,05 0,02 0,07 0,12 0,17 0,22 0,27 0,32 0,37 0,42 0,47 0,52 0,57 0,62 0,67 0,72 0,77 0,82 0,87 0,92 0,97 Observed Cumulative Probability Fig. 7. EB Probability Plot for the first data set. 441 Expected Cumulative Probability 0,95 0,9 0,85 0,8 0,75 0,7 0,65 0,6 0,55 0,5 0,45 0,4 0,35 0,3 0,25 0,2 0,15 0,1 0,05 0,02 0,07 0,12 0,17 0,22 0,27 0,32 0,37 0,42 0,47 0,52 0,57 0,62 0,67 0,72 0,77 0,82 0,87 0,92 0,97 Observed Cumulative Probability Expected Cumulative Probability Fig. 8. EB Probability Plot for the second data set. 0,95 0,9 0,85 0,8 0,75 0,7 0,65 0,6 0,55 0,5 0,45 0,4 0,35 0,3 0,25 0,2 0,15 0,1 0,05 0,02 0,1 0,15 0,23 0,31 0,4 0,44 0,52 0,6 0,65 0,73 0,81 0,9 Observed Cumulative Probability Fig. 9. EB Probability Plot for the third data set. The PP-Plots are shown in Fig. 7, Fig. 8 and Fig. 9 for the EB distribution. As the figures show, in all cases, EB distribution is very similar and it provides good fits to the data sets. Table 1 Parameter estimates and log-likelihood values obtained from the fit of each of the five distribution for the data set 1,2 and 3 Data Set Distribution EB EP 1 ( n = 213) EG Weibull Gamma 2 ( n = 109 ) EB EP Estimates 21 0. 06536, 7. 47 10 3 LL -1175,8431 3 -1175,8447 8. 01 10 3 , 0. 4276 -1175,9749 3 1. 12 10 2 , 0. 9240 -1177,6372 4 9. 9 9 0. 3153, 1. 83 10 3 -703,3046 1 3. 2148, 1. 67 10 3 -703,3710 1 1. 3321, 7. 51 2 10 -1178,3427 10 3 , 0. 9220 442 EG Weibull Gamma EB n EG 24 Weibull Gamma 3 4. 5 4 3. 44 -703,9165 10 3 ,0. 5599 -704,6367 10 3 , 0. 8650 -705,4496 10 3 , 0. 8280 2. 632 10 3 , 3. 591 10 10 -196,8662 4 -196,8649 4 1 2. 6377, 3. 56 2 3 3 8. 12 10 4 , 0. 7854 -197,0897 4 4. 98 10 4 , 0. 7117 -197,4051 -196,7526 10 4 , 0. 7369 ) ) = ( p, ) for given m which is choosen considering large value of p) ) ) value for the data sets and L j = ( p j , j ), j = 1, 2,3, 4 , log-likelihoods under the EB, EP, EG, Weibull and Gamma models are presented in Table 1. For the first second and third sets of data, the parameter estimates of the EB distribution were obtained, using the EM algorithm, in 2254, 2363 and 1346 iterations, respectively. Looking at the log-likelihoods in Table 1, the proposed model offers an attractive alternative to these three wellestablished models such as Weibull, Gamma, EG and EP as in the analyzed real data sets. The MLEs ) 2. 65 1000 EP 3 2 m Appendix Proof of Theorem 1. Let (1 n w ( ; p, y obs ) = ( m 1) " i =1 p ) xi exp ( xi ) exp ( xi )(1 p ) + p then it is clear that w is strictly increasing in , and n lim w ( ; p, y obs ) = ( m 1)(1 p ) " xi . *0 i =1 It follows that g ( ; p, y obs ) > n 1 n m " xi + lim w ( ; p, y obs ) = n i =1 and, hence, g ( ; p, y obs ) > 0 when 1 *0 { } < x ( p ( m 1) + 1) n { p ( m 1) + 1} " x i =1 1 . On the other hand, lim w ( ; p, y obs ) = ( m 1) " in=1xi *+ so that g ( ; p, y obs ) < n 1 n m " xi + lim w ( ; p, y obs ) = n i =1 *0 443 i 1 n " xi i =1 Hence, g ( ; p, y obs ) < 0 when g ( ; p, y obs ) = 0 in the interval >x 1 ({ x ( p ( m and, therefore, there is at least one root of } 1) + 1) 1 ,x 1 ) ; this proof is analogous to that of Theorem 4.1 in Adamidis and Loukas (1998). References Adamidis, K. and Loukas, S. (1998). A life time distribution with decreasing failure rate. Statist. Probab. Lett., 39, 35-42. Adamidis, K. (1999). An EM algorithm for estimating negative Binomial parameters. Austral. & New Zealand J. Statist., 41 2, 213-221. Adamidis, K., Dimitrakopoulou, T. and Loukas, S. (2005). On an extension of the exponential-geometric distribution. Statist. Probab. Lett., 73, 259-269. Barlow, R. E., Marshall, A. W. and Proschan, F. (1963). Properties of probability distributions with monotone hazard rate, Ann. Math. Statist., 34, 375-389. Barlow, R. E. and Marshall, A. W. (1964). Bounds for distributions with monotone hazard rate I and II. Ann. Math. Statist., 35, 1234-1274. Barlow, R. E. and Marshall, A. W. (1965). Tables of bounds for distributions with monotone hazard rate. J. Amer. Statist. Assoc., 60, 872-890. Cox, D. R. and Lewis, P. A. W. (1978). The Statistical Analysis of Series of Events. Chapman & Hall, London. Chahkandi, M., Ganjali, M. (2009) On some lifetime distributions with decreasing failure rate Computational Statistics and Data Analysis 53 (12), pp. 4433-4440 Cozzolino, J. M. (1968). Probabilistic models of decreasing failure rate processes. Naval Res. Logist. Quart., 15, 361374. Dahiya, R. C. and Gurland, J. (1972). Goodness of fit tests for the gamma and exponential distributions. Technometrics, 14, 791-801. Dempster, A. P., Laird, N. M. and Rubin, D. B. (1977). Maximum likelihood from incomplete data via the EM algorithm (with discussion). J. Roy. Statist. Soc. Ser. B, 39, 1-38. Gleser, L. J. (1989). The gamma distribution as a mixture of exponential distributions. Amer. Statist., 43, 115-117. Gurland, J. and Sethuraman, J. (1994). Reversal of increasing failure rates when pooling failure data. Technometrics, 36, 416-418. Karlis, D. (2003). An EM algorithm for multivariate Poisson distribution and related models. J. App. Statist., 30 1, 63-77. Karlis, D. (2009) A note on the exponential Poisson distribution: A nested EM algorithm, Comp. Statist. Data Analy., 53, 894-899. Ku , C. and Kaya, M. F. (2006). Estimation of parameters of loglogistic distribution based on progressive censoring using em algorithm. Hacettepe J. Math. Statist., 35 2, 203-211. Ku , C. (2007). A new lifetime distribution. Comp. Statist. Data Analy., 51 9, 4497-4509. Little, R. J. A. and Rubin, D. B. (1983). Incomplete Data. In: S. Kotz, N.L. Johnson (Eds.), Encyclopedia of Statistical Sciences. Vol. 4., Wiley, New York. Lomax, K. S. (1954). Business failures: another example of the analysis of failure data. J. Amer. Statist. Assoc., 49, 847852. Marshall, A. W. and Proschan, F. (1965). Maximum likelihood estimates for distributions with monotone failure rate, Ann. Math Statist., 36, 69-77. McLachlan, G. J. and Krishnan, T. (1997). The EM Algorithm and Extension. Wiley, New York. McNolty, F., Doyle, J. and Hansen, E. (1980). Properties of the mixed exponential failure process. Technometrics, 22 555-565. Nassar, M. M. (1988). Two properties of mixtures of exponential distributions. IEEE Trans. Raliab., 37 4, 383-385. Proschan, F. (1963). Theoretical explanation of observed decreasing failure rate. Technometrics, 5, 375-383. Saunders, S.C. and Myhre J.M. (1983). Maximum likelihood estimation for two-parameter decreasing hazard rate distributions using censored data. J. Amer. Statist. Assoc. 78, 664-673. Tahmasbi, R. and Rezaei, S. (2008). A two-parameter lifetime distribution with decreasing failure rate.Comp. Statist. Data Analy., 52 8, 3889-3901. 444 Çok Boyutlu Do<rusal Regresyon Modeli çin LMS Algoritmas ve Uygulamalar Yasemin Kayhan At lgan Derya Ersel Süleyman Günay Hacettepe Üniversitesi Fen Fak. statistik Böl. 06800 Beytepe Ankara, Türkiye ykayhan@hacettepe.edu.tr Hacettepe Üniversitesi Fen Fak. statistik Böl. 06800 Beytepe Ankara, Türkiye dtektas@hacettepe.edu.tr Hacettepe Üniversitesi Fen Fak. statistik Böl. 06800 Beytepe Ankara, Türkiye sgunay@hacettepe.edu.tr Özet ‘En Küçük Ortanca Kareler / Least Median of Squares / LMS’ kestiricisinin PROGRESS algoritmas: kullan:larak orijinden geçen doGrusal regresyon modellerinde, doGru kestirim deGerlerine ula#:lamad:G:, tek deGi#kenli doGrusal regresyon modelleri için gösterilmi# ve daha sonra Kayhan ve Gunay (2008) taraf:ndan iki deGi#kenli modeller için yeni bir algoritma önerilmi#tir. Bu çal:#mada, çok boyutlu modeller için bu algoritman:n genelle#tirilmi# biçimi ve k:saca uygulama ad:mlar: sunulacak, daha sonra da deGi#ik veri kümeleri üzerinden elde edilen sonuçlar tart:#:lacakt:r. Anahtar Kelimeler: En küçük ortanca kareler; Genelle#tirilmi# LMS; Kayhan and Gunay Algoritmas:; PROGRESS. Abstract LMS Algorithm and Its Applications for Multiple Linear Regression Model Via the PROGRESS algorithm, correct LMS estimate can not be reached for the linear regression model through the origin. The basic solution of this problem was illustrated for the univariate regression model and then a different algorithm for the bivariate case was suggested by Kayhan and Gunay (2008). In this study, the generalization of this algorithm (generalized LMS) for the multiple linear regression model will be presented. Moreover, the steps of the generalized LMS will be explained and the results over different data sets will be discussed. Key words: Least Median of Squares; Generalized LMS; Kayhan and Gunay Algorithm; PROGRESS. 1. Genelle!tirilmi! LMS Algoritmas Do!rusal regresyon modeli a a! daki gibi tan mlans n; Y = X +) y1 x11 x12 y2 x 21 M x 22 K x 2p M M x i1 x i2 M M M = yi M yn nx1 x n1 K x1p K e1 2 x ip + M M x n 2 K x np e2 1 p nxp px1 M (1) ei M en nx1 burada y i i = 1, 2,..., n , cevap vektörünün i.sat r , xi nxp boyutlu dizayn matrisinin i. sat r , px1 boyutlu bilinmeyen parametreler vektörü, ei hata vektörünün i. sat r olarak tan mlanmaktad r. Bu model kullan larak elde edilen art klar a a! daki gibi verilebilir: 445 R = Y Xˆ burada ˆ , bilinmeyen parametreler vektörü ’n n kestirimidir. Veri kümesindeki her bir (x i1 , x i2 , …, x ip , yi ) gözlemi için art k kareler a a! daki gibi tan mlanabilir: (x ri2 = yi ˆ + x ˆ + ... + x ˆ i2 2 ip p i1 1 ) 2 (2) E t.2’de tan mlanan art k kare ifadesi, ˆ ’n n bir fonksiyonu olarak dü ünülürse a a! daki gibi verilebilir: ri2 = f i ( ˆ ) (3) E t.3’de tan mlanan fi ( ˆ ) , iki kez türevlenebilen bir fonksiyondur ve Hessian matrisi pozitif yar tan ml d r. Dolay s yla fi ( ˆ ) ’n n ]p üzerinde konveks bir fonksiyon oldu!u gösterilebilir. Tan mlanan fonksiyon, ]p ’nin bo olmayan bir, Pi ,alt kümesi üzerinde, verilen veri kümesi için arad ! m z LMS kestirimini ta yan fonksiyon olarak dü ünülebilir. Bu alt küme ise medyan kestiricinin baya! tan m kullan larak a a! daki gibi ifade edilebilir: { } Mi = k 7 {1, 2,3,..., n} k : i burada Mi , fi ( ˆ ) için tan mlanan ( n 1) (4) ( n 1) elemanl bir indeks kümesi olsun. Bu kümenin tüm 2 elemanl alt kümeleri de Li1 , Li 2 , Li3 ,..., Lit olarak tan mlans n. Daha sonra Uik kümesi Uik = M i \ Lik olarak verilsin ve Pi ^ ]p olacak biçimde bir alt küme a a! daki biçimde ifade edilsin: Pi = Pi1 ? Pi2 ? L ? Pit (5) burada, { Pim = ˆ 7]p f k ( ˆ ) ! f i ( ˆ ) ! f j ( ˆ ), 6k 7 Lim , 6j 7 Uim } (6) olarak tan mlanmaktad r. Lim ve Uim ’deki eleman say lar birbirine e it olaca! için fi ( ˆ ) , Pi üzerinde medyand r denilebilir. E t.6’da verilen ifade a a! daki gibi yaz labilir: Pim = Pim+ ? Pim (7) { Pim+ = ˆ 7]p yi x i ˆ 8 0 , yk { Pim = ˆ 7 ]p yi x i ˆ ! 0 , yk x k ˆ ! yi x i ˆ , yi x i ˆ ! y j x j ˆ , 6k 7 Lim , 6j 7 Uim x k ˆ ! yi + x i ˆ , } yi + x i ˆ ! y j x j ˆ , 6k 7 Lim , 6j 7 Uim 446 (8) } (9) E t.8 a a! daki gibi verilebilir: + + Pim+ = Pim1 ? Pim2 (10) { xi ˆ 8 0 , yi + x i ˆ ! y k x k ˆ ! yi x i ˆ , y j x j ˆ 8 yi { xi ˆ 8 0 , yi + x i ˆ ! y k x k ˆ ! yi x i ˆ , y j x j ˆ ! yi + x i ˆ , 6k 7 Lim , 6j 7 U im + = ˆ 7]p yi Pim1 + Pim2 = ˆ 7 ] p yi x i ˆ , 6k 7 Lim , 6j 7 U im } (11) } (12) + + olmak üzere. E t.11 ve 12’den yararlan larak verilen Pim1 ve Pim2 kümelerinin konveks oldu!u gösterilebilir ve benzer i lemler E t.9 için de gerçekle tirilebilir. Dolay s yla fi ( ˆ ) ’n n medyan oldu!u alt küme, Pi , konveks alt kümelerin birle iminden olu an konveks olmayan bir küme biçiminde elde edilir. Algoritmada LMS çözümü bahsedilen konveks alt kümeler üzerinde ara t r lmaktad r. Dolay s yla kestirim de!eri hesaplama i leminin, bir konveks optimizasyon problemi oldu!u dü ünülerek, algoritma çok boyutlu modellerin çözümü için genelle tirilmi tir. Algoritmada LMS çözümü tüm fi ( ˆ ) , i = 1,..., n ’lar ve bunlar n medyan olabilece!i bölgeler için tek tek ara t r l r. Genelle tirilmi LMS algoritmas n n i leyi i basit bir örnek üzerinden a a! daki gibi aç klanabilir: Veri kümesi a a! daki gibi tan mlans n: 6 1 9 Y= 5 8 3 7 2 1 4 X= 2 7 3 6 1 1 6 7 1 3 6 2 4 2 3 7 9 4 Ad m1: Algoritma ara t rmaya birinci gözlem ile ba lar. f1( ˆ ) , LMS kestirimini verebilecek aday fonksiyon olarak kabul edilir. Bu a amada, fonksiyonun medyan oldu!u bölgenin muhtemel ekstremum noktalar n hesaplamada kullan lacak olan A i ve bi matrisleri olu turulur. E t.11’de verilen ifade a a! daki gibi yaz labilir: { + + ˆ + = ˆ 7]p A im1 ! bim1 Pim1 } (13) + Tan mlanan konveks alt kümenin en az bir tane ektremum noktas olaca! ve bu noktan n A im1 matrisinin pxp rankl alt matrislerinden elde edilebilece!i gösterilebilir (Bertsekas, 2003). Benzer gösterim, elde edilen her bir konveks küme için yaz labilir. Daha sonra, bu gösterimden yararlan larak tan mlanan matrisler birle tirilir ve elde edilen süper matris a a! daki gibi verilebilir: 447 M x + xk Ai = i xi x k M 2(n M y + yk bi = i yi y k M 1)xp 6k 7 {1, 2,..., n} , k : i (14) 2(n 1)x1 A i , b i matrislerinden elde edilecek pxp boyutlu alt matrisler, aran lan çözümü verebilecek olan muhtemel ekstremum noktalar olarak kabul edilir. Algoritman n bu ad mda gerçekle tirdi!i i lemler a a! daki kod ile gösterilebilir: [row_x,col_x]=size(x); for i=1:row_x A_i=[]; for k=1:row_x if k~=i A_i=[A_i;x(i,:)-x(k,:) y(i)-y(k)]; A_i=[A_i;x(i,:)+x(k,:) y(i)+y(k)]; end end Verilen örnek için f1( ˆ ) ’n n medyan oldu!u bölgenin ekstremum noktalar n verecek matrisler a a! daki gibi elde edilir: A = T 1 1 3 2 6 0 4 5 9 1 2 2 0 6 5 4 7 0 8 6 5 1 2 0 9 5 4 2 11 7 b1T = [5 7 3 15 1 11 2 14 3 9 5 4 8 10 8 6 2 1 13] Ad m2: Bu ad mda ekstremum noktalar olu turmak için A i , b i matrislerinden, pxp boyutlu olu turulabilecek tüm alt matrisler hesaplan r. subset=combnk(1:size(A_i,1),col_x); Verilen örnek için algoritma toplamda 220 adet 3x3 lük matris hesaplar. Ad m3: Elde edilen alt matrislerin bir ekstremum nokta olu turup olu turmad ! determinantlar na bak larak kontrol edilir. Olu turulan matrislerden determinant s f rdan farkl olanlar muhtemel çözüm noktalar olarak al n r. for k=1:size(subset,1) % A_i bar matrix is generated coeff_mat=A_i(subset(k,:),1:col_x); % b_i bar matrix is generated const_mat=A_i(subset(k,:),col_x+1); if det(coeff_mat)~=0 % possible extreme point is determined possible_extreme=(inv(coeff_mat)*const_mat)'; 448 Bilgisayar kodunda yer alan ‘possible_extreme’ ifadesi, ara t r lan LMS kestirimini verecek muhtemel bir ekstremum olarak tan mlanm t r. Ancak bunun için noktan n Ad m4’de belirtilen ko ullar da sa!lamas gerekmektedir. Ad m4: Ad m3’de bulunan noktan n çözüm olabilmesi için f1( ˆ ) ’n n tan m bölgesinde yer almas gerekir. Bunun kontrolü ise bilgisayar kodunda a a! daki biçimde yap l r: lms_val=median((y-x*possible_extreme').^2); Bulunan nokta kullan larak art k kareler ortancas hesaplan r. Ancak bu noktan n arad ! m z çözüm olmas için, f1( ˆ ) ’da yerine koyuldu!unda elde edilen sonuç ile lms_val de!erinin birbirine e it olmas gerekir. Dolay s yla, bilgisayar kodunda a a! da verilen ikinci kontrole geçilir: (y(i)-x(i,:)*possible_extreme')^2 if lms_val==(y(i)-x(i,:)*possible_extreme')^2 Hesaplanan iki de!er birbirine e it oldu!unda, bulunan noktan n f1( ˆ ) ’n n medyan oldu!u bölgede tan ml bir ekstremum oldu!u garanti edimi olur ve veri kümesi için muhtemel bir çözümdür. Buraya kadar anlat lanlar verilen veri kümesi için gerçekle tirildi!inde, ilk çözüm noktas na k=12. iterasyonda ula l r. Noktay olu turan alt matrisler, Coeff _ Mat = 1 2 2 2 0 5 8 4 5 5 Const _ Mat = 3 1 olarak belirlenmi tir. Matrisler yard m yla veri kümesi için elde edilen muhtemel ekstremum nokta a a! daki gibi bulunmu tur: possible_extreme = 41.8000 7.0000 -11.4000 Bu nokta kullan larak veri kümesinden hesaplanan LMS de!eri a a! daki gibi elde edilmi tir: lms_val = 8.7236e+003 Daha sonra nokta, f1( ˆ ) ’de yerine yaz lm ve a a! daki de!er elde edilmi tir: ans = 8.7236e+003 ki de!er ayn oldu!u için ˆ T = [ 41.800 7.000 11.400] , f1( ˆ ) ’n n medyan oldu!u bölgede tan ml bir ekstremumdur. Ad m5: Algoritmada hesaplanan LMS de!eri bir önceki iterasyonda bulunan LMS de!eri ile a a! daki biçimde kar la t r l r: 449 if lms_val<min_lms min_lms=lms_val; m=possible_extreme; Yeni hesaplanan de!er daha küçük ise, sonuç güncellenir ve Ad m3’e geri dönülerek A1 matrisinden türetilen tüm alt matrisler için ayn i lemler tekrar edilir. Ad m6: Algoritma birinci ad ma geri dönerek, ikinci gözlem için ayn i lemleri tekrar eder ve veri kümesindeki tüm gözlemler için ara t rma tamamland ktan sonra, min_lms de!erini aran lan çözüm olarak verir. Algoritma verilen örnekteki birinci gözlem için 73 tane ekteremum noktada LMS hesaplamaktad r. Ayn süreç tüm gözlemler için tekrar edildi!inde, veri kümesi kestirim de!erleri a a! daki gibi elde edilmi tir: ndimLMS_kestirim : 0.03363780248279058700, ˆ = [ 0.288210 0.598253 0.017467 ] PROGRESS_kestirim: 1.059688581314882400, ˆ = [1.794118 0.352941 0.147059] Verilen örnekten de aç kca görülebilece!i gibi, PROGRESS algoritmas LMS çözümünü 1.05, genelle tirilmi LMS algoritmas ise 0.03 olarak hesaplamaktad r. 2. Uygulama Bu bölümde genelle tirilmi LMS algoritmas n n, orijinden geçen do!rusal regresyon modelleri için parametre kestirimlerinde, PROGRESS algoritmas na olan üstünlü!ünü göstermek amac yla, iki ayr veri kümesi üzerinden elde edilen sonuçlar verilmi tir. lk örnek için 3 aç klay c de!i ken ve 21 gözlemden olu an veri kümesi kullan lm t r ( Rousseeuw ve Leroy (1987), sayfa 76). Hem genelle tirilmi LMS, hem de PROGRESS algoritmas ile elde edilen sonuçlar a a! daki gibidir: ndimLMS kestirimi : 2.13338943447185430000 ˆ = [1.143873 0.114880 0.576586] PROGRESS kestirimi : 4.08928491843803150000 ˆ = [1.348313 0.184766 0.684004] PROGRESS algoritmas ile kestirim de!eri 4.089, genelle tirilmi LMS algoritmas ile de 2.133 olarak hesaplanm t r. kinci örnekte 5 aç klay c de!i ken ve 19 gözlemden olu an bir veri kümesi için ( Rousseeuw ve Leroy (1987), sayfa 79, ilk 19 gözlem) her iki algoritma ile parametre kestirimleri elde edilmi tir. Sonuçlar a a! daki gibidir: ndimLMS estimate : 0.077979 ˆ = [ 2.395871 0.001209 0.653274 1.423126 0.625495] 450 PROGRESS_kestirimi : 0.244109 ˆ = [ 2.158264 0.017741 0.607261 1.344829 0.746242] Yine bu örnek için de genelle tirilmi LMS algoritmas ile elde edilen kestirim de!eri daha küçük hesaplanm t r. 3. Sonuçlar ve Tart !ma Orijinden geçen do!rusal regresyon modeli için Kayhan ve Günay taraf ndan önerilen algoritman n çok boyutlu modele genelle tirilmi biçimi, ad m ad m bilgisayar kodlar da verilerek aç klanm t r. Önerilen algoritman n üstünlü!ünün ortaya konulmas aç s ndan, uygulama bölümünde farkl veri kümeleri üzerinden elde edilen sonuçlar sunulmu tur. Genelle tirilmi LMS algoritmas ile PROGRESS algoritmas , LMS de!eri ‘0’ oldu!unda, bir ba ka ifade ile veri kümesindeki gözlemlerin yar dan fazlas do!rusal modele tam uyum gösterdi!inde ayn sonucu vermektedir. Bunun d nda, kestirim de!erlerine bak ld ! nda verilen tüm örneklemlerde genelle tirilmi LMS algoritmas n n, PROGRESS algoritmas ndan daha küçük LMS kestirimine ula t ! gösterilmi tir. Ayr ca bulunan bu de!erden daha küçük bir de!ere ula lamayaca! da algoritman n konveks optimizasyon teorisine dayand r larak geli tirilmesi ile garanti alt na al nm t r. Algoritman n zay f kalan noktas , veri kümesindeki toplam gözlem say s n n ‘tek’ olmas ko uludur. Gözlem say s ‘çift’ oldu!unda izlenilecek yol daha sonra ayr ca incelenecektir. Kaynaklar [1] Bertsekas, D. P. Nedic, A. Ozdaglar, A.E, (2003), Convex Analysis and Optimization. Massachusetts: Athena Scientific. [2] Rousseeuw, P.J., (1984), Least Median of Squares Regression, Journal of American Statistical Association, 79,388. [3] Rousseeuw, P.J. Leroy, A.M., (1987), Robust Regression and Outlier Detection, New York: John Wiley & Sons. [4] Kayhan, Y. Gunay, S., (2008), A new approach to Least Median of Squares and Regression Through the Origin, Communications in Statistics Theory and Methods, Volume:37, Issue:5. 451 Türkiye’de sizlik Oran n n Temel Bile enli Regresyon Analizi le Belirlenmesi Öznur çi Atilla Gökta M. Niyazi Çankaya MuGla Üniversitesi FEF statistik Bölümü 48000 MuGla, Türkiye oznur.isci@mu.edu.tr MuGla Üniversitesi FEF statistik Bölümü 48000 MuGla, Türkiye gatilla@mu.edu.tr MuGla Üniversitesi FEF statistik Bölümü 48000 MuGla, Türkiye mehmetn_cankaya@yahoo.com Özet Bugünün dünyas:nda ekonomik ve sosyal etkilerinin yer ald:G: i#sizlik, bir ülkenin çok yönlü problemler ile kar#: kar#:ya kalmas:d:r. Bir ülkedeki i# gücünün durumu ve niteliGi ekonomik geli#imleri göstermektedir. Bu gerçekler :#:G:nda, geli#mekte olan bir ülke i#sizlik probleminin üstesinden gelmesi gerekmektedir. Türkiye statistik Kurumu’na göre, i# gücünü olu#turan 15 ve 60 ya# aras:ndaki aktif bireyler kurumsalla#mam:# nüfustan olu#maktad:r. #sizlik, herhangi bir i#e sahip olmayan ve mevcut ödeme düzeyinde bir i# teklifi arayan bireylerin olu#turduGu bir kavramd:r. #sizliGi etkileyen baz: faktörler, ithalat, ihracat, ithalat ve ihcarat:n dolar kuru, ithalat ve ihracat deGi#im oran:, döviz kuru, nüfus art:# h:z:, GSMH, cari fiyatlarla GSMH büyüme h:z:, sabit fiyatlarla GSMH büyüme h:z:, kamu yat:r:mlar:, özel yat:r:mlar, GSMH deflatörüdür. Çal:#man:n temel amac: i#sizlik oran:n: etkileyen deGi#kenlerdeki var olan çoklu baGlant: sorununu ortadan kald:rmak olup, temel bile#enler kullan:larak bu deGi#kenlerden faktörler elde etmektir. Aç:klay:c: deGi#kenler olan bu yeni deGi#kenler i#sizlik oran: regresyon modelini olu#turmada kullan:lmaktad:r. statistiksel ç:kar:m varsay:mlar: kontrol edildikten sonra, Türkiye’deki i#sizlik oran: öngörüsü yap:lm:#t:r. Anahtar Kelimeler: Ç:kar:m Süreci, #sizlik Oran:, #sizlik Oran:n: Etkileyen Faktörler, Öngörü, Temel Bile#enler Analizi. Abstract Determination of Unemployment Rate in Turkey Using Principal Components Regression Analysis In today’s world, a country with unemployment that is resulted by the effects of economical and social effects comes across multidimensional problems. The condition and qualification of labor force in a country indicate an economical developments. In the light of these facts, a developing country should overcome the problem of unemployment. According to Turkish Statistical Institute, people in working condition in ages of between 15 and 60 that are labor force consist of non-institutionalization population. Unemployment is defined as jobless who are looking for a job that offers the current fee level. Some factors that affect the unemployment are the asset of import and export, dollar price of import and export, exchange rate of import and export, exchange rate, population growth speed, GNP, GNP growth speed in current price, GNP growthspeed in fixed price, public investments, private investments, GNP deflator. The main aim of this study is to remove the existing collinearity inside variables that affect the rate of unemployment and to obtain the factors from these variables via principal components. The new variables that are regressors are used in constructing of unemployment rate regression model. After the assumptions of statistical inference are justified, the unemployment rate for Turkey is forecasted. Keywords: Forecasting, Principal Components, Statistical Inference, The rate of unemployment, The factors of unemployment rate. 1. Giri! sizlik problemi gerek ülkemizde gerekse de dünyada önemli bir sosyal sorun olarak yer almaktad r. Bir ülkedeki i sizlik, çal mak istedi!i halde i bulamayan yeti kinlerin (15 ya 452 ve üstündekiler) olmas halinde, söz konusu ekonomide i!sizlik var demektir. O halde, çal mak istedi!i halde i bulamayan yeti kinlere i!siz denir[1]. sizli!in, ki isel ve topluma dair olmak üzere önemli sonuçlar söz konusudur. Ki isel sonuçlar yönünden bak l rsa; i siz ki iler geçimlerini sa!lamak üzere para kazanamazlar, bunun sonucu olarak ki iler mortgage ev kredilerini veya ev kiralar n ödeyemeyecek duruma dü üp, kald klar mekânlardan ç kmak zorunda kalabilirler. Ayr ca istatistiklere bak ld ! nda i sizli!in yüksek oldu!u dönemlerde suç oranlar n n yükseldi!i gözlemlenmi tir. Sosyal-devlet yap s n n daha geli ti!i ülkelerde i sizlik sigortas uygulamalar görülmektedir. Ayr ca i ini kaybetme korkusu bireylerde psikolojik rahats zl klara yol açabilir. Topluma dair sonuçlar yönünden bak l rsa da; yüksek i sizlik oran na sahip bir ekonomi, sahip oldu!u i gücünün önemli bir k sm n kullanamamaktad r. sizli!in yükselmesi toplumda bencillik ve yabanc dü manl ! na yol açabilir. Az miktarda olan i imkân n di!er ülkelerden gelen yabanc lara kapt rmak istememe istemi yabanc dü manl ! na ve s n rlardaki geçi lerin azalmas na neden olabilir. Ayr ca toplumda bireyler mevcut i i kapabilmek için, ki ilerin sa!l ! n olumsuz etkileyebilecek düzeye ula an bir yar maya dönü ebilir. Di!er taraftan yüksek i sizlik oran i çiyi, patronun kar s nda güçsüz bir duruma dü ürebilir. veren, i çiyi onun yerine ba kalar n alabilece!i telkin ve tehdidinde bulunarak i çinin üzerine bask uygulayabilir[1,13]. Tüm bunlar dikkate al nd ! nda, çal man n Türkiye ekonomisinde uygulanan politikalara belli aç lardan k tutmas hedeflenmi tir. 2. Ekonometrik göstergeler sizlik Oran : arayan, i e dönmeye haz r ya da i bekleyen bireylerin ülke nüfusu i gücüne oran d r. Ekonomik aktivitedeki dü ü ün sonucu i sizli!i meydana getirir. Burada GSMH, GSY H’nin fiyat genel düzeyi ile ilgili olmas i sizli!i etkileyen olarak kar m za ç kacakt r[1]. thalat: Yurt d nda üretilmi mallar n ülkedeki al c lar taraf ndan sat n al nmas d r[13]. thalat De!i im Oran (%): Bir önceki y la göre yüzdesel de!i imidir. hracat:Bir mal n yabanc ülkelere döviz kar l ! yap lan sat d r[13]. Döviz kuru: Bir birim ülke paras n n di!er bir ülke paras cinsinden fiyat na, de!erine denir[13]. gücü nüfus art h z : Bir önceki y la göre 15 ya ve üstündekilerin yüzdesel de!i imidir. GSMH(Gayri Safi milli Has la): Bir ülke vatanda lar n n bir y l için ürettikleri toplam mal ve hizmetlerin, belli bir para birimi kar l ! ndaki de!erinin toplam d r[13].GSY H: Bir ülkenin kendi s n rlar içinde 1 y lda üretilen mal GSY H ve hizmetlerin piyasa fiyatlar cinsinden, toplam parasal de!eridir[1].Mevduat:Bankalara ve benzeri kredi kurumlar na istenildi!inde ya da belli bir vade ya da ihbar süresi sonunda çekilmek üzere yat r lan paralard r. Reeskont:Bankalar n elinde bulundurdu!u senedi, ba ka bir bankaya zaman ndan önce iskonto etmesidir[13]. Deflatör:Parasal de!erleri, enflasyon etkisini gidererek gerçek de!erlere dönü türen bir endekstir. Bu endekste, sektörel deflatörler hesaplan rken, baz durumlarda o sektörün kapsad ! mal ve hizmetlerdeki fiyat de!i ikliklerinin a! rl kl ortalamas al nmakta, baz durumlarda da gösterge niteli!indeki endeksler esas al nmaktad r [2]. Çizelge 1’de çal ma kapsam nda kullan lan de!i kenler verilmektedir. Bu çal mada literatürdeki bilgiler baz al narak 26 de!i ken i sizlik oran n tahmin etmek üzere regresyon modeline dahil edilmi tir. Çal man n birçok de!i ken ile gerçekle tirilmesinin nedeni, i sizlik oran n daha iyi aç klayabilmektir. 453 Çal mada, veriler Türkiye statistik Kurumu’nun “ statistik Göstergeler 1923-2005”, “ statistik Göstergeler 1923-2007”, “Türkiye statistik Y ll ! 2008”, “Ekonomik Göstergeler I 2008”, “Ekonomik Göstergeler II 2008”, “Tar m statistikleri Sorularla Resmi statistikler Dizisi-5” yan s ra devletin di!er kurumlar ndan elde edilmi tir. Çizelge 1’de yer alan birim bazl de!i kenlere ili kin veriler dolar cinsinden Türkiye statistik Kurumu’nun istatistiki göstergelerinden bulunmu tur. Veriler, ait olduklar y la ili kin dolar kuru fiyat ile çarp l p TL birimindeki de!erleri elde edilmi tir. Çizelge 1. t X1 X2 X3 X4 X5 X6 X7 X8 X9 X10 X11 X12 X13 X14 X15 X16 X17 X18 X19 X20 X21 X22 X23 X24 X25 X26 sizli!i etkiledi!i dü ünülen de!i kenler Y l Etkisi thalat De!eri (Bir Trilyon $, TL) thalat De!i im Oran (%) thalat Dolar Kuru TL hracat De!eri (Bir Trilyon $, TL) hracat De!i im Oran (%) hracat Dolar Kuru TL Döviz Kuru (Al ) TL Döviz Kuru (Sat ) TL gücü nüfus art h z (100) GSMH (Trilyon TL) Cari fiyatlarla GSMH büyüme h z TL Sabit fiyatlarla GSMH büyüme h z TL Cari fiyatlarla ki i ba na GSMH TL Sabit fiyatlarla ki i ba na GSMH TL Harcama / GSMH TL Bütçe Aç ! / GSMH TL Toplam Yat r mlar n GSMH‘ ya Oran TL Kamu yat r mlar TL Özel yat r mlar TL Kamu yat r mlar / Toplam Yat r mlar Özel Yat r m / Toplam Yat r m Tasarruf mevduat faiz oran TCMB reeskont faiz oran GSMH deflatörü GSY H TL D ticaret hacmi (Trilyon $, TL) 3. statistiksel yöntemler 3.1. Temel Bile#enler Temel bile enler analizi orijinal de!i kenlerin bir kaç do!rusal kombinasyonlar arac l ! ile varyans-kovaryans yap s n n aç klanmas i lemidir. Genel hedef, de!i ken indirgeme ve yorumlama yapabilmenin yan s ra rank sorununa kar önlem alma ve varyans-kovaryans matrisindeki do!rusal ili kinin kald r lmas d r [7,12]. 454 3.2. Çok DeGi#kenli DoGrusal Regresyon Modeli Regresyon analizi ile ilgili birçok uygulamada birden fazla aç klay c de!i kenin yer ald ! durumlar söz konusudur. Birden fazla aç klay c de!i kenin yer ald ! regresyon modeline çok de!i kenli regresyon modeli denir. sizlik oran n aç klamak için temel bile en sonucu elde edilen bile ke de!i kenler aç klay c de!i ken olarak örnek gösterilebilir[4,5]. 4. Sonuç ve Öneriler Aç klay c de!i kenler aras ndaki korelasyon ili kisi incelendi!inde temel bile enler yap lmas uygundur. F1, F2, F3, F4, F5 ve F6 bile kelerinin aç klay c de!i kenleri çal mada yer almaktad r ve buradaki de!i kenlere ili kin anlams z olan katsay lar n ortadan kald r lmas için geriye do!ru eliminasyon yöntemi yap ld ! nda modelden ç kar lan de!i kenler F1, F4 ve F6 eklindedir. Bu de!i kenler ç kar lm olsa bile çok de!i kenli durumdaki R ili ki de!eri 0.794 olarak yer almaktad r. Elde edilen regresyon modeli ise a a! da verilmektedir. F1, F2, F3, F4, F5 ve F6 de!i kenlerinin tümünün yer ald ! regresyon modelinde R de!eri 0.799 olarak yer almakta ve F1, F4 ve F6 de!i kenlerini ç karm olman n getirdi!i bir dezavantaj söz konusu de!ildir. Ŷi = 8.389600+0.105268t-0.286506F2-0.224856F3-0.322893F5 + )ˆ i (1) Bekil 1. Art klar n da! l m n n sorgulanmas Trend etkisi t, F2, F3 ve F5 bile keleri ve i sizlik oran na göre olu turulmu do!rusal regresyon modeline göre rekil 1’de art klar n da! l m Kolmogorov-Smirnov test istatisti!ine göre normal da! l m göstermektedir. 455 Bekil 2. Tahmin de!erlerine kar art klar rekil 2’ye göre tahmin de!erleri ile art klar aras nda bir ili ki yoktur. Varsay mlar sa!land ! na göre test model ve katsay lar na ili kin ç kar m sürecini gerçekle tirmek uygundur. Buna göre, (1) regresyon modeli p = 0.0 < S = 0.1 oldu!undan regresyon modeli anlaml d r. (1) nolu e itlikle elde edilen regresyon modelinin de!i kenleri olan t, F2, F3 ve F5 için, s ras yla, p = 0.0, 0.001, 0.008, 0.049 < S/2 = 0.05 olmas nedeniyle modele ili kin katsay larda anlaml d r. Yukar daki (1) denkleminde, F2, F3 ve F5 bile kelerinin yerine bile enleri olan X1, …, X26 yaz ld ! nda a a! da verilen i sizlik oran n tahmin eden regresyon modeli (2) yer almaktad r. = 8.389600+0.105268t-0.02441X1+0.048408X2+0.006408X30.00653X4+0.220603X5+0.005861X6-0.00944X7-0.00944X8+0.082747X9+0.026292X100.08902X11+0.005631X12-0.08922X13+0.003696X14-0.10292X15+0.125415X160.15493X17-0.04725X18-0.12901X19+0.040619X20-0.04062X21-0.08723X22-0.20851X230.15386X24-0.11755X25-0.01777X26 + )ˆ i (2) Ŷi (2)’deki regresyon modeline göre; y ldan kaynaklanan etkiyi aç klayabilmek yani verilerde dura!anl ! kazand rabilmek için t de!i keninden yararlan lm t r. Buna göre 1982-2006 y llar aras nda her y la ili kin etki 0.105268’dir. Çizelge 2. sizlik oran n etkileyen de!i kenlere ili kin katsay lar n de!erleri X23 -0.20851 X18 -0.04725 X6 X17 -0.15493 X21 -0.04062 X3 X24 -0.15386 X1 -0.02441 X10 X19 -0.12901 X26 -0.01777 X20 X25 -0.11755 X7 -0.00944 X2 456 X15 -0.10292 X8 -0.00944 X9 X13 -0.08922 X4 -0.00653 X16 X11 -0.08902 X14 0.003696 X5 X22 -0.08723 X12 0.005631 0.005861 0.006408 0.026292 0.040619 0.048408 0.082747 0.125415 0.220603 Çal mada kullan lan X1,…,X26 de!i kenleri negatif katsay l lardan pozitif olanlara do!ru s ralanmaktad r. De!i kenlerden biri ele al n p di!erleri sabit tutuldu!unda i sizlik oran üzerindeki etkileri Çizelge 2’de verilmektedir. Burada de!i kenlerin katsay lar n n negatif olup en küçük olanlar ndaki art i sizlik oran ndaki azal mda en büyük etkiyi yapm oldu!u anlam na gelir. Kaynaklar [1] Anadolu Üniversitesi Yay nlar , (2002), ktisada Giri . [2] http://www.bilgininadresi.net/Madde/14876/Deflat%C3%B6r (09.01.2009) [3] A. M. Sharp, C. A. Register, P.W. Grimes, (2003), Economics of Social Issues, McGraw Hill Professional. [4] John Neter, Michael H. Kutner, Christopher J. Nachtsheim and William Wasserman (1996), Applied Linear Statistical Models, Fourth Edition, Irwin Book Team. [5] Douglas C. Montgomery and Gergo C. Runger, (2002), Applied Statistics And Probability for Engineers, Third Edition, John Wiley & Sons, USA. [6] J.O. Rawlings, D.A. Dickey, S.G. Pantula, (1998), Applied Regression Analysis: A Research Tool, Springer-Verlag, New York, s. 434-444. [7] J. W. Pratt, H. Raiffa, R. Schlaifer, (2001), Introduction to Statistical Decision Theory, MIT Press, London, England. [8] D. N. Gujarati, Çevirenler: Ü. renesen, G.G. renesen, (2006), Temel Ekonometri, Literatür Yay nc l k. [9] B. G. Tabachnick, L. S. Fidell, (2007), Using Multivariate Statistics, Fifth Edition, Pearson International Edition. [10] W. Mendenhall, T. Sincich, (1996), A Second Course in Statistics: Regression Analysis, Fifth Edition, Prentice Hall. [11] R. A. Johnson, D. W. Wichern, (1998), Applied Multivariate Statistical Analysis, Prentice-Hall International Editions, p. 356-357. [12] www.tbb.org.tr/turkce/gruplar/makroekonomik/08112007.ppt (09.01.2009) [13] http://tr.wikipedia.org (07.04.2009) 457 Ya!am Çözümlemesinde Zay fl k Modeli Nihal ATA Durdu KARASOY M. Tekin SÖZER Hacettepe Üniversitesi, Fen Fakültesi, statistik Bölümü, 06800, Beytepe, Ankara (0312) 299 20 16 /141 nihalata@hacettepe.edu.tr Hacettepe Üniversitesi, Fen Fakültesi, statistik Bölümü, 06800, Beytepe, Ankara (0312) 299 20 16 / 122 durdu@hacettepe.edu.tr Hacettepe Üniversitesi, Fen Fakültesi, Aktüerya Bilimleri Bölümü, 06800, Beytepe, Ankara (0312) 297 79 10 sozer@hacettepe.edu.tr Özet Ya#am verileri için en çok kullan:lan regresyon modeli Cox regresyon modelidir ve bu model orant:l: hazardlar varsay:m:na kar#: duyarl:d:r. Bu varsay:m:n saGlanmad:G: durumlarda farkl: ya#am modellerinin kullan:lmas: önerilmektedir. Bu çal:#mada, orant:l: hazardlar varsay:m:n:n saGlanmad:G: durumda zay:fl:k modeli incelenmi# ve mide kanseri hastalar:na ait veri kümesini içeren say:sal bir örnek modeli aç:klamak için kullan:lm:#t:r. Anahtar sözcükler: Cox regresyon modeli, Orant:s:z hazardlar, Parametrik regresyon modelleri, Zay:fl:k modeli Abstract Frailty Model in Survival Analysis The Cox regression model is the most commonly used regression model for survival data and sensitive to proportional hazards. In the violation of proportional hazards, several survival models are suggested. In this study, frailty model was investigated in case of nonproportional hazards and a numerical example which includes a data of stomach cancer patients is done to clarify the model . Keywords: Cox regression model, Nonproportional hazards, Parametric regression models, Frailty model 1. Giri! Ya am verileri için en çok kullan lan ya am modeli Cox regresyon modelidir ve bu modelin temel varsay m orant l hazardlard r. Cox regresyon modelinde orant l hazardlar varsay m sa!lanm yorsa farkl ya am modellerin kullan m önerilmektedir. Bu modeller, tabakaland r lm Cox regresyon modeli, zamana ba!l aç klay c de!i kenli Cox regresyon modeli, parametrik regresyon modelleri ve zay fl k (frailty) modeli biçiminde s ralanabilmektedir. Bu çal mada, orant l hazardlar varsay m n n sa!lanmad ! durumlarda kullan labilen zay fl k modeli incelenmi tir. Orant l hazardlar varsay m n sa!lamayan mide kanseri hastalar na ait veri kümesi kullan larak parametrik ya am modellerinin ve zay fl k modelinin uygulamas yap lm t r. 2. Orant s z Hazardlar ve Zay fl k Modeli 458 2.1. Orant:s:z Hazardlar Cox regresyon modelinin temel varsay m olan orant l hazardlar varsay m , hazard oran n n zamana kar sabit olmas ya da bir bireyin hazard fonksiyonunun di!er bireyin hazard fonksiyonuna orant l olmas anlam na gelmektedir [22]. Bu varsay m n sa!lanmamas durumunda Cox regresyon modeli yerine farkl ya am modelleri kullan lmaktad r. Bu modellerden biri olan zay fl k modeli, orant s z hazardlar için kullan lan modellere e de!er olarak kullan labilmektedir [18]. 2.2. Zay:fl:k Modeli Zay fl k modeli ile ilgili ilk çal malar Vaupel v.d. (1979) taraf ndan yap lm ve “zay fl k” kavram benzer özelliklere bireyler aras nda ya am sürelerindeki farkl l klar aç klamak için kullan lm t r. Vaupel v.d. (1979) mortalite çal malar nda ve Lancaster (1979) i sizlik sürelerinin modellenmesinde zay fl k modelini kullanm t r. Daha sonra zay fl k modeli Andersen v.d. (1993), Aalen (1994), Hougaard (1995), Klein ve Moeschberger (1997), O’Quigley ve Stare (2002) ve Stare ve O’Quigley (2004) taraf ndan incelenmi tir. Zay fl k modeli, payla lm (shared) ve payla lmam (unshared) zay fl k modelleri olmak üzere ikiye ayr lmaktad r. Payla lmam zay fl k modeli bireyler aras ndaki heterojenli!i ve payla lm zay fl k modeli ise gruplar aras heterojenli!i modellemek için kullan lmaktad r. 2.2.1. Payla#:lmam:# Zay:fl:k Modeli Zay fl k modeli, bireyler aras ndaki heterojenli!i aç klamak için ölçülemeyen rasgele etkiyi (unmeasured random effect) hazard fonksiyonuna dahil eden bir modeldir [13]. h(t), t zaman ndaki hazard fonksiyonu ve S ölçülemeyen aç klay c de!i ken (zay fl k) olmak üzere zay fl k modeli, h (t / ) = h (t) (1) biçiminde yaz lmaktad r. Zay fl k teriminin (S) birim ortalamaya ve sonlu varyansa (~) sahip oldu!u varsay lmaktad r. Zay fl k modeli hazard fonksiyonu üzerinde gözlemlenemeyen etkiyi (S) aç klamaktad r ve zay fl k terimi üzerindeki ko ul E itlik 1’deki gibi verilmektedir. S, birim ortalamaya ve ~ varyans na sahip pozitif bir niceliktir. S > 1’e sahip olan bireylerin aç klay c de!i kenler taraf ndan aç klanamayan nedenlerden dolay daha fazla zay f oldu!u ve artan ba ar s zl k riskine sahip oldu!u ifade edilir. S < 1’e sahip olan bireylerin aç klay c de!i kenler taraf ndan aç klanamayan nedenlerden dolay daha az zay f oldu!u ve bu bireylerin daha uzun ya ama e!ilimine sahip oldu!u belirtilir [9]. Payla lmam zay fl k modelinde bireysel ya am fonksiyonu S( t / ) = [S( t )] biçimindedir. Burada S(t) standart ya am modelinin ya am fonksiyonudur. Kitle ya am fonksiyonu ise, gözlemlenemeyen S’lar üzerinden integral al narak hesaplan r. Zay fl k terimi (S), g(S) olas l k yo!unluk fonksiyonuna sahip ise, kitle ya da ko ulsuz ya am fonksiyonu E itlik 2’deki gibi verilir: + S (t ) = . [S( t )] g( )d . (2) 0 Burada verilen ~ alt indisi zay fl k teriminin varyans na ba! ml l ! vurgulamaktad r. Zay fl k modeli ile ilgili çal malar n birço!u zay fl k teriminin da! l m n n seçimini içermektedir [5, 8, 10, 17, 23, 25, 26]. Çal malarda zay fl k terimi için en çok kullan lan da! l m, Gamma ya da 459 ters Gaussian da! l mlar d r. Bu da! l mlar n d nda normal ve lognormal da! l m, bile ik Poisson da! l m kullan labilmektedir [1, 2, 12]. S, birim ortalama ve ~ varyans ile gamma da! l m na sahip ise, olas l k yo!unluk fonksiyonu ve ya am fonksiyonu s ras yla E itlik 3 ve E itlik 4’de verildi!i biçimdedir: 1/ g( ) = 1 exp( / ) , U (1 / ) 1 / S ( t ) = [1 ln S( t )] 1/ (3) . (4) S, birim ortalama ve ~ varyans ile ters Gaussian da! l ma sahip ise, olas l k yo!unluk fonksiyonu ve ya am fonksiyonu s ras yla, 1/ 2 1 g( ) = exp 3 2' 1 2 2+ 1 (5) ve S ( t ) = exp 1 (1 (1 2 ln S( t ) ) 1/ 2 ) (6) biçimindedir [7, 9, 13]. 2.2.1.1. Olabilirlik Fonksiyonu Ya am fonksiyonu ve hazard fonksiyonu aras ndaki ili ki S üzerinde ko ulsuzdur, bu nedenle kitle hazard fonksiyonu, d 1 S ( t )[S ( t )] dt h (t ) = (7) biçimindedir. i.gözlem için zaman aral ! (t 0i , t i ] olsun. ti ba ar s zl k zaman olmak üzere birey ti zaman nda ba ar s z olmu sa di = 1, ti zaman nda durdurulmu ise di = 0 olsun. Buna göre, log-olabilirlik fonksiyonu ln L = ln n i =1 = n [S i (t i )]1 d [f i ( t i )]d i i S i ( t 0i ) [ln S i (t i ) ln S i ( t 0i ) + d i h i ( t i )] , i = 1,..., n i =1 biçimindedir. Burada h i ( t ) = h ( t / x i ) ’dir [7, 9, 13]. 2.2.2. Payla#:lm:# Zay:fl:k Modeli 460 (8) Payla lm zay fl k modelinde, zay fl k teriminin grup içinde sabit oldu!u varsay lmaktad r ve zay fl k grup içi korelasyonu modellemek için kullan lmaktad r. Bu modellerle ilgili ilk çal malar Clayton (1978), Clayton ve Cuzick (1985) taraf ndan yap lm t r. Hougaard (1986a) Weibull bireysel hazardlar ile payla lm zay fl k modelini, Whitmore ve Lee (1991) üstel bireysel hazardlar ile ters Gaussian payla lm zay fl k modelini ve Sahu v.d. (1997) ise Gibbs örneklemesini kullanarak Bayesci payla lm modelini incelemi lerdir. Pickles v.d. (1994) ve Yashin v.d. (1995) ise çal malar nda payla lm zay fl k modelini ayn grup içindeki gözlemler aras nda farkl fakat ili kili zay fl k terimlerine izin verecek biçimde geli tirmi lerdir. Bu model, bireylerin ayn zay fl k terimini payla malar na izin vermektedir. Ayn zay fl k terimini payla mak, bireyler aras ndaki ba! ml l ! ortaya ç karmaktad r. n gruptan olu an bir veri için h ij ( t / i) = , j = 1,2,...n i i h ij ( t ) (9) biçimindedir. ni, i. gruptaki birey say s n göstermekte ve h ij ( t ) = h ( t / x ij ) biçimindedir. i. gruptaki herhangi bir birey için, standart hazard fonksiyonu payla lm zay fl k Si ile çarp lmaktad r. Bu durumda ko ulsuz ya am fonksiyonu ise, Sij ( t / i) [ = Sij ( t ) ] (10) i biçimindedir [7, 9, 13]. 2.2.2.1. Olabilirlik fonksiyonu n grup say s n göstermek üzere her bir gruptaki birey say s ni (j=1,…,ni, i=1,…,n) olmak üzere i. gruptaki j. birey için ba lang ç zaman , biti zaman ve ba ar s z ya da durdurulmu olmas ( t 0ij , t ij , d ij ) ile gösterilsin. Bu durumda olabilirlik fonksiyonu, L ij ( i) = i) Sij ( t 0ij / i biçimindedir. D i = Li ( i) [h ) Sij ( t ij / = Di " ij ( t ij ni j=1 / i) ] d ij = S ij ( t ij ) Sij ( t 0ij ) i [ i h ij ( t ij ) ] d ij (11) d ij olursa, i.grup için olabilirlik fonksiyonu ni Sij ( t ij ) j=1 Sij ( t 0ij ) i [h ij ( t ij ) ] d ij (12) biçimindedir. Si ye göre integral al narak i. grup olabilirlik fonksiyonu + . Li = Li ( i )g ( i )d (13) i 0 biçiminde hesaplan r. Zay fl k terimi Gamma da! l m na sahip ise Li a a! daki gibi hesaplan r: 461 Li = ni j=1 [h ij ( t ij ) ] d ij U(1 / + D i ) U(1 / ) Di 1 ni Sij ( t ij ) " ln S j=1 ij ( t 0ij ) . (14) Zay fl k terimi ters Gaussian da! l m na sahip ise, Li nin hesaplan fonksiyonunu içermektedir) [7, 9, 13]. daha karma kt r (BesselK 3. Say sal örnek Uygulamada, mide kanseri olan 106 hastaya ait bilgiler kullan larak say sal bir örnek yap lm t r. Mide kanseri hastalar n n ya am sürelerini etkileyen faktörler ya am çözümlemesi yöntemleri kullan larak belirlenmeye çal lm t r. Hastalar n ölümü ba ar s zl k olarak ifade edilmi tir. Çal ma süresinin sonunda ba ar s zl k ile kar la mayan hastalar ise durdurulmu olarak tan mlanm t r. Hastalar n ba ar s zl k ya da durdurma süreleri ya am süresi (min=1 ay, max=67 ay) olarak al nm t r. Hastalar n izlenme süresi sona erdi!inde 106 hastadan 67’sinde (%63.2) ba ar s zl k ve 39’unda (%36.8) durdurma gözlenmi tir. Uygulamada ya , kemoterapi, patolojik evre, cinsiyet metastaz, sigara içme, alkol, ülser tedavisi, aile öyküsü, tümör boyutu, kas eksilmesi ve radyoterapi de!i kenleri çözümlemeye al nm t r. Bu de!i kenler ve de!i kenlerin düzeyleri Çizelge 3.1.’de verilmi tir. Çizelge 3.1. Mide kanseri verisi için kullan lan de!i kenler ve düzeyleri De<i!ken Ya Kemoterapi Patolojik Evre Cinsiyet Metastaz Sigara çme Alkol Ülser Tedavisi Aile Öyküsü Tümör Boyutu Kas Eksilmesi Radyoterapi De<i!ken Düzeyleri Toplam Olay Say s (%) Ba!ar s z Olay Say s Durdurulmu! Olay Say s 56.68 ± 1.2 Yok Var 1 2 3 Kad n Erkek Yok Var Yok Var Yok Var Yok Var Yok Var 1 2 Yok Var Yok Var 11 (%10.4) 95 (%89.6) 14 (%13.2) 23 (%21.7) 69 (%65.1) 33 (%31.1) 73 (%68.9) 74 (%69.8) 32 (%30.2) 54 (%50.9) 52 (%49.1) 94 (%88.7) 12 (%11.3) 61 (%57.5) 45 (%42.5) 79 (%74.5) 27 (%25.5) 27 (%25.5) 79 (%74.5) 102 (%96.2) 4 (%3.8) 34 (%32.1) 72 (%67.9) 1 (%2.6) 38 (%97.4) 2 (%5.1) 6 (%15.4) 31 (%79.5) 12 (%30.8) 27 (%69.2) 16 (%41.0) 23 (%59.0) 20 (%51.3) 19 (%48.7) 35 (%89.7) 4 (%10.3) 25 (64.1) 14 (35.9) 27 (%69.2) 12 (%30.8) 5 (%12.8) 34 (%87.2) 37 (%94.9) 2 (%5.1) 14 (%35.9) 25 (%64.1) 10 (14.9) 57 (85.1) 12 (%17.9) 17 (%25.4) 38 (%56.7) 21 (%31.3) 46 (%68.7) 58 (%89.6) 9 (%13.4) 34 (%50.7) 33 (%49.3) 59 (%88.1) 8 (%11.9) 36 (53.7) 31 (46.3) 52 (%77.6) 15 (%22.4) 22 (%32.8) 45 (%67.2) 65 (%97.0) 2 (%3.0) 20 (%29.9) 47 (%70.1) 462 Çal mada SAS 9.1 paket program n n SAS/LIFETEST, SAS/PHREG, SAS/LIFEREG alt modülleri ve STATA 8 paket program kullan lm ve mide kanseri verisi için Cox regresyon modeli, parametrik regresyon modelleri ve zay fl k modeli ile çözümleme yap lm t r. Çal mada öncelikle orant l hazardlar varsay m n n sa!lan p sa!lanmad ! Schoenfeld art klar ile ya am sürelerinin rank aras ndaki korelasyon testi kullan larak incelenmi ve metastaz de!i keni için orant l hazardlar varsay m n n sa!lanmad ! görülmü tür (p= 0.0001). Buna göre klasik Cox regresyon modeli yerine parametrik regresyon modelleri ya da zay fl k modelinin veri için daha uygun olaca! dü ünülerek bu modeller incelenmi tir. Parametrik regresyon modellerinde uyum iyili!i Cox-Snell art klar kullan larak incelenmektedir. Ŝ R (r ) , SR(r)’nin Kaplan-Meier tahmin edicisidir. Cox-Snell art ! ri ve Cox-Snell art ! n n ya am fonksiyonunun Kaplan-Meier tahmin edicisi Ŝ R (r ) olmak üzere ri’nin log Ŝ R (r ) ’ye kar grafi!i bir e!im ve s f r kesi im ile düz bir do!ru ise parametrik modelin ilgilenilen veri kümesi için uygun oldu!u sonucuna ula l r [16]. Mide kanseri verisi için her bir da! l ma ait Cox-Snell art klar elde edilmi ve Cox-Snell art k grafikleri rekil 3.1.’de verilmi tir. 3,00 2,00 2,00 -logS(r) -logS(r) 3,00 1,00 1,00 0,00 0,00 0,00 1,00 2,00 0,00 3,00 1,00 Üstel 3,00 Weibull 2,00 2,00 1,50 1,50 -logS(r) -logS(r) 2,00 r r 1,00 1,00 0,50 0,50 0,00 0,00 0,00 0,50 1,00 1,50 0,00 2,00 0,50 1,00 1,50 2,00 r r Loglojistik Lognormal -logS(r) 3,00 2,00 1,00 0,00 0,00 1,00 2,00 3,00 r Gamma Bekil 3.1. Parametrik ya am modellerinden elde edilen Cox-Snell art k çizimleri 463 Cox-Snell art k grafiklerine göre lognormal regresyon modelinin veri kümesi için uygun oldu!u söylenebilir ancak kesin olarak uygun parametrik regresyon modeline karar verilebilmek için model kar la t rma kriterleri de kullan lm t r. Çal ma kapsam nda Üstel, Weibull, Loglojistik, Lognormal ve Gamma parametrik regresyon modellerine ait -2logL, Akaike bilgi kriteri (AIC) ve Bayesci bilgi kriteri (BIC) elde edilmi tir. Veri kümesi için Gamma regresyon modeli sonuçlar yak nsama sa!lanamad ! ndan elde edilememi tir. Di!er modellere ait sonuçlar Çizelge 3.2’de verilmi tir. Çizelge 3.2. Parametrik regresyon modelleri için model kar la t rma kriterleri Parametrik Regresyon Modeli Üstel Weibull Loglojistik Lognormal -2LogL 168.61 160.64 160.14 158.80 AIC 198.61 192.64 192.14 190.80 BIC 194.94 186.97 186.47 185.13 En küçük -2logL, AIC ya da BIC de!erine sahip model lognormal regresyon modeli oldu!undan veri kümesi için bu modelin kullan lmas n n uygun olaca! görülmektedir. Buna göre lognormal regresyon modeli için elde edilen sonuçlar Çizelge 3.3’te verilmi tir. Çizelge 3.3. Lognormal regresyon çözümlemesinin sonuçlar De<i!ken Sabit Kemoterapi Patolojik Evre Cinsiyet Ya Metastaz Sigara çme Alkol Ülser Tedavisi Aile Öyküsü Tümör Boyutu Kas Eksilmesi Radyoterapi g 5.22 -0.74 -0.17 -0.54 0.18 0.00 -0.60 -0.36 0.17 0.48 -0.63 -0.46 -1.31 0.49 Std. Hata 0.93 0.72 0.68 0.80 0.37 0.01 0.27 0.33 0.44 0.28 0.31 0.56 0.67 0.30 %95 Güven Aral < (3.39. 7.05) (-2.15. 0.67) (-1.50. 1.17) (-2.11. 1.04) (-0.55. 0.90) (-0.03. 0.02) (-1.12. -0.08) (-1.01. 0.28) (-0.69. 1.03) (-0.07. 1.02) (-1.23. -0.02) (-1.57. 0.64) (-2.62. -0.01) (-0.09. 1.08) Ölçek 0.94 0.12 (0.74. 1.20) z 5.60 -1.02 -0.25 -0.67 0.48 -0.32 -2.26 -1.11 0.39 1.72 -2.03 -0.83 -1.97 1.64 p-de<eri 0.000 0.305 0.806 0.504 0.635 0.747 0.024 0.268 0.693 0.085 0.043 0.408 0.049 0.100 Çizelge 3.3’teki p de!erleri incelendi!inde metastaz, aile öyküsü ve kas eksilmesi de!i kenlerinin ba ar s zl ! etkileyen önemli risk faktörleri oldu!u %95 güven düzeyinde söylenebilmektedir. Metastaz olmayan hastalar n ortanca ya am süresi metastaz olan hastalara göre yakla k 1.82 kat (exp(0.60)=1.82) daha fazlad r. Aile öyküsü olmayan hastalar n ortanca ya am süresi aile öyküsü olan hastalara göre 1.88 (exp(0.63)=1.88) kat daha fazlad r. Kas eksilmesi olmayan hastalar n ortanca ya am süresi kas eksilmesi olan hastalara göre 3.71 (exp(1.31)=3.71) kat daha fazlad r. Hazard fonksiyonunda gözlemlenemeyen faktörlerden aç !a ç kan bireysel farkl l klar n orant s z hazardlara neden olabilece!i dü ünülerek zay fl k modeli mide kanseri verisi için kullan labilir. Uygun bulunan lognormal regresyon modeli dikkate al narak ve zay fl k terimi için Ters Gaussian da! l m kullan larak lognormal zay fl k modeli elde edilmi ve sonuçlar Çizelge 3.4’te verilmi tir. 464 Çizelge 3.4. Lognormal zay fl k modeli sonuçlar De<i!ken Sabit Kemoterapi Patolojik Evre Cinsiyet Ya Metastaz Sigara çme Alkol Ülser Tedavisi Aile Öyküsü Tümör Boyutu Kas Eksilmesi Radyoterapi j 4.63 -0.96 0.20 -0.45 0.23 -0.01 -0.15 -0.53 0.44 0.54 -0.46 -0.74 -1.34 0.82 Std. Hata 0.70 0.49 0.50 0.61 0.37 0.01 0.28 0.28 0.36 0.26 0.28 0.47 0.60 0.37 %95 Güven Aral < (3.25, 6.00) (-1.93, 0.00) (-0.77, 1.17) (-1.64, 0.75) (-0.49, 0.95) (-0.03, 0.0) (-0.69, 0.40) (-1.09, 0.03) (-0.27, 1.15) (0.02, 1.05) (-1.00, 0.08) (-1.66, 0.19) (-2.51, -0.16) (0.09, 1.54) z 6.58 -1.95 0.40 -0.73 0.63 -1.77 -0.52 -1.87 1.22 2.02 -1.65 -1.56 -2.23 2.21 p-de<eri 0.00 0.06 0.69 0.46 0.53 0.08 0.60 0.06 0.22 0.04 0.10 0.12 0.03 0.03 ln_p ln_~ -1.18 3.36 0.83 2.15 (-2.81, 0.44) (-0.85, 7.57) -1.43 1.56 0.15 0.12 p ~ 0.31 28.79 0.25 61.81 (0.06, 1.56) (0.43, 1936.11) ~’n n olabilirlik oran testi: p= 0.009 Çizelge 3.4’teki p de!erleri incelendi!inde ülser tedavisi, kas eksilmesi ve radyoterapi de!i kenlerinin ba ar s zl ! etkileyen önemli risk faktörleri oldu!u %95 güven düzeyinde söylenebilmektedir. Ülser tedavisi gören hastalar n ortanca ya am süresi ülser tedavisi görmeyen hastalara göre 1.72 (exp(0.54)=1.72) kat daha fazlad r. Kas eksilmesi olmayan hastalar n ortanca ya am süresi kas eksilmesi olan hastalara göre 3.82 (exp(1.34)=3.82) kat daha fazlad r. Radyoterapi gören hastalar n ortanca ya am süresi radyoterapi görmeyen hastalara göre 2.27 (exp(0.82)=2.27) kat daha fazlad r. Zay fl k terimi ~’n n modele dahil edilip edilmemesine karar vermek için olabilirlik oran testi kullan lm ve ki-kare de!eri 5.64 ve p-de!eri 0.009 bulunmu tur. Buradan zay fl k teriminin model üzerinde etkisi oldu!u ve modele dahil edilmesi gerekti!i sonuçlar na ula lm t r. Buna göre lognormal regresyon modeli yerine lognormal zay fl k modelinin veri kümesi için kullan lmas n n daha uygun oldu!u söylenebilmektedir. Çal mada incelenen mide kanseri verisi için Akaike bilgi kriteri de!erleri kar la t r ld ! nda lognormal zay fl k modelinin (AIC=185.13), lognormal regresyon modeline (AIC=190.80) ve Cox regresyon modeline (AIC=317.68) göre daha uygun oldu!u sonucuna ula lm t r. Orant s z hazardlar n olmas durumunda birimler/bireyler aras ndaki gözlemlenemeyen farkl l klar modele dahil eden zay fl k modelinin Cox regresyon modeline göre daha iyi sonuç verdi!i görülmektedir. 4. Sonuç ve öneriler Bu çal mada orant s z hazardlar durumunda kullan lan zay fl k modeli incelenmi ve mide kanseri hastalar na ait veri kümesi ile parametrik regresyon modelleri ile zay fl k modelinin kullan m ele al nm t r. ncelenen veri kümesi için zay fl k modeli Cox regresyon modeline göre daha uygun sonuçlar vermi tir. Buna göre ya am verilerinin analizinde orant l hazardlar varsay m incelendikten sonra kullan lacak ya am modeline karar verilmelidir. Orant l hazardlar varsay m sa!lan yorsa Cox regresyon modeli, sa!lanm yorsa ve ya am süresinin ya da parametrik regresyon modelinde hata teriminin da! l m na ili kin bilgi olmas durumunda ise da! l ma uygun parametrik 465 regresyon modellerinin ya da birimler/bireyler aras ndaki heterojenli!in önemli olmas durumunda da zay fl k modelinin kullan lmas n n daha uygun sonuçlar verece!i yorumu yap labilmektedir. Kaynaklar [1] O.O. Aalen. (1988). Heterogeneity in Survival Analysis. Statistics in Medicine. 7. 1121 – 1137. [2] O.O. Aalen. (1992). Modelling Heterogeneity in Survival Analysis by the Compound Poisson Distribution. Annals of Applied Probability. 4 (2). 951 – 972. [3] O.O. Aalen. (1994). Effects of Frailty in Survival Analysis. Statistical. Methods in Medica. Research. 3. 227-243. [4] P.K. Andersen. O. Borgan. R.D. Gill. N. Keiding. (1993). Statistical models based on counting processes. Springer Verlag. New York. [5] D. Clayton. (1978). A Model For Association in Bivariate Life Tables and Its Applications in Epidemiological Studies Of Familial Tendency in Chronic Disease Incidence. Biometrika. 65. 141– 151. [6] D. Clayton. J. Cuzick. (1985). Multivariate Generalisations of the Proportional Hazards Model (with discussion). Journal of the Royal Statistical Society. Series A. 148. 82–117. [7] D. Collett (2003). Frailty models. Modelling Survival Data in Medical Research. Chapman&Hall. . New York. s.320-323. [8] P. Congdon. (1995). Modelling Frailty in Area Mortality. Statistics in Medicine.14. 1859-1874. [9] R.G. Gutierrez. (2002). Parametric Frailty and Shared Frailty Survival Models. The Stata Journal. 2(1). 22-44. [10] P. Hougaard. (1984). Life Table Methods for Heterogeneous Populations: Distributions Describing the Heterogeneity. Biometrika. 71. 75–83. [11] P. Hougaard. (1986a). A Class of Multivariate Failure Time Distributions. Biometrika. 73.671–678. [12] P. Hougaard. (1986b). Survival Models for Heterogeneous Populations Derived from Stable Distributions. Biometrika. 73. 387-396. [13] P. Hougaard. (1995). Frailty Models for Survival Data. Lifetime Data Analysis. 1. 255–273. [14] J.P. Klein. M.L. Moeschberger. (1997). Multivariate survival analysis. Survival Analysis Techniques for Censored and Truncated Data. Dietaz. K.. Gail. M.. Krickeberg. K.. Samet. J.. Tsiatis. A. (eds.). Springer. New York. s.405-422. [15] T. Lancaster. (1979). Econometric Methods for the Duration of Unemployment. Econometrica. 47. 939–956. [16] E.T. Lee. J.W. Wang. (2003). Parametric Methods for Regression Model Fitting and Identification of Prognostic Factors. Statistical Methods for Survival Data Analysis. Wiley&Sons. New York. [17] D. Oakes. (1982). A Concordance Test for Independence in the Presence of Censoring. Biometrics. 38. 451-455. [18] J. O’Quigley. J. Stare. (2002). Proportional Hazards Models with Frailties and Random Effects. Statistics in Medicine. 21. 3219-3233. [19] A. Pickles. R. Crouchley. E. Simonoff. L. Eaves. J. Meyer. M. Rutter. J. Hewitt. J. Silberg. (1994). Survival Models for Developmental Genetic Data: Age of Onset of Puberty and Antisocial Behavior in Twins. Genetic Epidemiology. 11. 155 – 170. [20] S.K. Sahu. D. K. Dey. H. Aslanidou. D. Sinha. (1997). A Weibull Regression Model with Gamma Frailties for Multivariate Survival Data. Lifetime Data Analysis. 3. 123–137. [21] J. Stare. J. O’Quigley. (2004). Fit and Frailties in Proportional Hazards Regression. Statistics in Medicine. 21. 3219-3233. [22] T.M. Therneau. P.M. Grambsch.. (2000). Testing proportional hazards. Modelling Survival Data: Extending the Cox Model. Dietaz. K.. Gail. M.. Krickeberg. K.. Samet. J.. Tsiatis. A. (eds.). Springer. New York. s.127-152. [23] J.W. Vaupel. K. Manton. E. Stallard. (1979). The Impact of Heterogeneity in Individual Frailty on The Dynamics of Mortality. Demography. 16. 439–454. [24] G.A. Whitmore. M.L. T. Lee. (1991). A Multivariate Survival Distribution Generated by an Inverse Gaussian Mixture of Exponentials. Technometrics. 33. 39–50. [25] A.I. Yashin. I.A. Iachine. (1995). Genetic Analysis of Durations: Correlated Frailty Model Applied to Survival of Danish Twins. Genetic Epidemiology. 12. 529 – 538. [26] A.I. Yashin. J.W. Vaupel. I.A. Iachine. (1995). Correlated Individual Frailty: An Advantageous Approach to Survival Analysis of Bivariate data. Mathematical Population Studies. 5. 145 – 159. 466 Veri Madencili<i’nde Yap sal Olmayan Verinin Analizi: Metin ve Web Madencili<i M. Özgür Dolgun Tülin Güzel Özdemir Doruk O!uz SPSS, Çankaya Mah. Mahmut Yesari Sk. No:8/5 06550-Çankaya, Ankara, Türkiye odolgun@spss.com.tr SPSS, Zümrütevler Atatürk Cd. Nazmi lker Sk. No:24 34852-Maltepe, stanbul, Türkiye SPSS, Zümrütevler Atatürk Cd. Nazmi lker Sk. No:24 34852-Maltepe, stanbul, Türkiye doguz@spss.comtr Özet Verinin büyük boyutlara ula#mas: ve bilgisayarlar donan:mlar:n:n yüksek kapasitede analiz yapabilecek seviyelere gelmeleri ile birlikte analistler karma#:k ko#ullar ile kar#: kar#:ya kalmaktad:rlar. Bu ko#ullar:n çoGu depolama ayg:tlar:n:n etkinliGi ve yap:sal olmayan verinin analizine baG:ml:d:r. Merrill Lynch’in yapt:G: bir tahminde; potansiyel olarak kullan:lan bütün verilerin yakla#:k %80’inin yap:sal olmayan türde olduGunu ifade etmi#tir. Bu büyük ve karma#:k yap:daki yap:sal olmayan veri analistlere yeni f:rsatlar açmaktad:r. Bu çal:#mada, yap:sal ve yap:sal olmayan veri tek tek ve beraber analiz edilmi#tir. Elde edilen modeller birbirleri ile kar#:la#t:r:lm:# ve en iyi model tespit edilmi#tir. Anahtar sözcükler: Veri madenciliGi; Metin madenciliGi; Web madenciliGi; Model kar#:la#t:rma; Churn analizi. Abstract Unstructured Data Analysis in Data Mining: Text and Web Mining As data becomes large-scale, as megabytes become cheaper, as CPU speed becomes faster, we as analysts will be faced with more complex requirements. Many of these requirements will depend on the efficient storage and analysis of unstructured data. Merrill Lynch has recently estimated that over 80% of all potentially usable business information exists as unstructured data. The huge amount and complexity of unstructured data opens up many new opportunities for the analyst. In this study, we analyze structured and unstructured data both one by one and together. All generated models compare each other and then discovered which one is the best. Keywords: Data mining; Text mining; Web mining; Model comparison; Churn analysis. 1. Giri! Son y llarda bilgi sistemleri ve teknolojinin geli mesi sonucunda; kamu kurum ve kurulu lar , i letmeler ve di!er kurulu lar veritabanlar nda kurulu un amac na ve yap s na ba!l olarak çe itli türlerde veri toplamaktad r. Fakat bu veriler i lenmedi!i sürece anlams z bir veri y ! n olarak veritabanlar nda depolanmaktad r [2]. Uygun yaz l mlar n geli imi ve firmalar n toplad ! veriyi kullan labilir bilgiye çevirme iste!i toplanan bu veriyi i leyerek, verinin içerisindeki kullan labilir ve ilginç ili kilerin, birlikteliklerin ve örüntülerin (patterns) ortaya ç kar lmas n gerekli hale getirmi tir. Günümüzde pek çok kurum verilerini mü teri nitelikleri ve mü terilerin sat n alma örüntülerine ili kin yararl , kullan l bilgiler elde edecek yöntemler ile i lemeye ba lamam t r. Ham veri zengini, nitelikli bilgi (knowledge) fakiri durumunda olan kurumlar n rekabetçi piyasada ba ar l olmalar ve ba ar lar n sürdürmeleri her geçen gün daha da zorla maktad r. Veri toplaman n önemini kavram olan ve geçmi e yönelik sorgularla veriden en üst düzeyde fayda sa!layamayaca! n görmeye ba layan bütün kurumlar n en büyük yard mc s veri madencili!idir [6]. 467 Veri madencili!i mevcut veriden anlaml bilgileri, ili kileri ç karmada kullan lan tekniklere verilen genel isimdir. Veri madencili!i yap sal veriyi analiz edebilmekte iken, metin ve web madencili!i yap sal olmayan veriyi analiz edip verinin yap sal hale dönü türülmesinde kullan lmaktad r. Farkl birçok alanda kullan labilen veri madencili!inin alt alanlar ndan Metin ve Web Madencili!i bu çal mada bir uygulama üzerinden incelenecektir. 2. Veri, Metin ve Web Madencili<i Veri madencili!i büyük veri y ! nlar nda gizli olan örüntüleri ve ili kileri ortaya ç karmak için istatistik ve yapay zeka kökenli çok say da ileri veri çözümleme yönteminin tercihen görsel bir programlama ara yüzü üzerinden kullan ld ! bir süreçtir. Veri madencili!i algoritmalar ; istatistiksel algoritmalar, matematiksel algoritmalar ve yapay zeka algoritmalar n (sinir a!lar , karar a!açlar , kohonen a!lar, birliktelik kurallar vb.) bir arada içerir [6]. Veri madencili!i genel olarak yap sal veriyi analiz edebilmektedir. Veri madencili!i araçlar ve algoritmalar metin (veya web) verisindeki kal plar bulmadan veya model olu turmadan önce metin (veya web) verisinin yap sal olmas gerekmektedir. Metin ve Web madencili!i i lemleri, veri madencili!inde kullan lacak yap sal veriye ula mak için kullan lan araçlar olarak tan mlanabilir. Metin ve web madencili!i son y llarda oldukça fazla çal lan birbiri ile ili kili alanlard r. Metin madencili!i, çok büyük belgelerin analizi ve metin tabanl verinin içerisindeki gizli kal plar n elde edilmesidir. Web madencili!i ise, web içerikleri, sayfa yap lar ve web ba!lant istatistiklerinin de içinde oldu!u web ile ili kili olan verinin analizini içermektedir [8]. 2.1. Yap:sal ve yap:sal olmayan veri Yap sal veri, bir yap içerisinde organize edilebilen ve bundan dolay tan mlanabilen gerçek veri için kullan lan bir terimdir. En s k kullan lan evrensel yap sal veri türü SQL ve Access gibi veri kaynaklar d r. Örne!in SQL (Structured Query Language), kolon (de!i ken) ve sat r (kay t) bazl bilginin seçimine imkan vermektedir. Yap sal veri, içerikteki veri tipine göre organize edilebilen ve arama yap labilen veridir. Buna kar n yap sal olmayan verinin tan mlanabilir bir yap s yoktur. En çok bilinen yap sal olmayan veri türleri; resim dosyalar , pdf, word ve text gibi metin dosyalar , web üzerinde tutulan log dosyalar ve e-postalard r. E-postalar veritabanlar nda Microsoft Outlook gibi araçlar ile organize edilebilmesine ra!men bu tür veriler herhangi bir yap sal veri türü ile e le mediklerinden ham veri olarak dü ünülür. Excel gibi hücre yap s na sahip veri türleri yap sal olmas na ra!men halen yap sal ve yap sal olup olmama konusundaki yeri tart lmaktad r. Birçok kurumun verisinin ço!u yap sal olmayan veri olarak veritabanlar nda tutulmaktad r. Merrill Lynch’in yapt ! bir tahminde; potansiyel olarak kullan lan bütün verilerin yakla k %80’inin yap sal olmayan türde oldu!unu ifade etmi tir [4, 8, 9]. 2.2. Metin madenciliGi Veri farkl ekillerde bulunabilir. Baz lar otomatik veri analizi için üstesinden gelinebilir ve uygun iken baz lar çok daha zordur. Al lm veri analiz yöntemleri verinin de!i ken ve kay t bazl düzenlendi!i varsay m ile i lem yapmaktad r. Buradaki soru, e!er veri metin format nda yani kay tlar n ve de!i kenlerin olmad ! bir yap da ise ne yapmam z gerekti!idir. Metin verisindeki anlam n ortaya ç kar labilmesi için kullan lan yöntem metin madencili!idir. Metin yaz m nda standart kurallar olmad ! ndan dolay bilgisayar bunlar anlayamamaktad r. Her bir metnin dili ve içerdi!i anlam amaca ba!l olarak çe itlilik göstermektedir. Yap sal olmayan bilgiden içerik ç karmak için kullan lan geleneksel yöntemler; anahtar kelimeler veya mant ksal aramalar, istatistiksel veya olas l ksal algoritmalar, sinir a!lar ve kal p ke fedici sistemler gibi dilbilimsel olmayan yöntemlerdir. 468 Bu yöntemler, hem sorgudaki hem de metindeki kelimelerin karakterlerini kar la t ran bir temele dayan r. Bundan dolay içeri!i aç klay c sonuçlar elde edemez. Dili anlam n n temeli dilbilimsel yollara dayan r ve bu ço!unlukla Natural Language Processing (NLP) olarak ifade edilir. NLP’yi içeren bir sistem, karma k ifadelerin bulundu!u terimleri ak ll olarak ç karabilmekte ve terimleri s n flayarak ürünler, organizasyonlar veya ki iler gibi s n flara atamaktad r. Metin madencili!i do!al dil metinlerinden bilgi ve nitelikli bilgi ç kar lmas sürecidir. ki a amada gerçekle ir. • Anahtar içerik/ifadeler metinden ç kar l r, • Ç kar lan içerik/ifadeler, yüksek dereceden ili kili oldu!u kategorilere atan r. Metin madencili!i uygulamalar iki ana s n fta ayr labilir: • Metnin anla lmas /özetlenmesi: Metin madencili!inin amaçlar ndan bir tanesi metinden anlaml nitelikli bilginin ç kar lmas d r. Böylece metnin içerdi!i anahtar içerik anla labilecektir. Örne!in, yava tamir veya sipari lerin gibi sorunlar yüzünden ikayet eden mü terilerin oran n ö!renmek isteyebiliriz. • Metin ile modelleme: Daha yayg n olarak, metin madencili!i terk etme veya ürün alma gibi mü teri davran lar n n tahmin edildi!i bir modelin geli tirilmesi a amas n n bir bölümünü olu turmaktad r. Metinden içerik ç karma i lemi girdi de!i keni gibi kullan l r, di!er bilgiler ile beraber öngörüsel model geli tirilir. Veri madencili!i girdi olarak sadece yap sal veriyi kullanmaktad r. Bundan dolay veri madencili!i çözümleri ve algoritmalar kullan larak metin verisinden kal plar bulunup, modeller kurulmadan metindeki bilgi yap sal olmak zorundad r. Kategorilerin olu turulmas ile yap sal olmayan veri yap sal hale dönü türülerek demografik bilgiler gibi standart bilgi ekline dönü mektedir. Metin madencili!inin uygulama alanlar ndan baz lar ; • CRM: Bütün mü terilerin e-mail, i lem, ça!r merkezi ve anket gibi eri im noktalar ndan elde edilen metinden nitelikli bilgi ç kar l r. Bu nitelikli bilgi mü terinin terk ve çapraz sat lar n tahmin etmek üzere kullan l r. • Fraud (Sahtekarl k) Tespiti: Sa!l k, sigorta ve hükümet taraf nda toplanan büyük çaptaki metin verilerinde kal plar ve anormallikler aranarak sahtekarl klar tespit edilir. • Bilimsel ve Medikal Ara t rmalar: Hasta raporlar , makale ba l klar , yay nlanm ara t rma sonuçlar ve di!er yan nlar gibi metin materyallerinden ç kar m yap l r. • Güvenlik/ stihbarat: Organizasyonlar ve bireyler aras ndaki kal plar ve ba!lant lar, terörist tehlikeleri ve kriminal davran lar tahmin etmek ve engelleyebilmek için büyük çaptaki metin içerisinde aran r. • Pazar Ara t rmas : Yay nlanm belgeler, bas n bültenleri ve web sayfalar Pazar etkisinin ölçülmesi için aran r ve izlenir. Metin madencili!i kantitatif yöntemler ile aç k uçlu anket sorular ve mülakatlar n de!erlendirilmesinde kullan labilmektedir [5]. 2.3. Web madenciliGi Veri madencili!i genel olarak yap sal veriyi analiz edebilmektedir. Web madencili!i i lemleri kullan larak yap sal olmayan web verileri yap sal veriye dönü türülür. 469 Web madencili!i uygulamalar temel olarak üç alt ba l k alt nda toplanabilir; • Web yap madencili!i: Web yap madencili!i ile internetin temel yap s n olu turan web siteleri, web sayfalar aras ya da web sayfas ndaki ba!lant lar aras ndaki ili kiler incelenir. • Web içerik madencili!i: Web içerik madencili!i ile web sayfalar n n içerikleri incelenir ve kullan l bilgi ç kar m sa!lan r. Web içerik madencili!i kullanarak web sayfalar n n ba l klar , içerisinde geçen kelimeler, resimler veya müzik dosyalar incelenir. Bulunan içeriklere göre web siteleri belirli s n flara veya kümelere ayr labilir. • Web kullan m madencili!i: Web kullan m madencili!i ile web sunucular nda tutulan kullan c eri im kay tlar incelenerek anlaml ve faydal kal plar bulunabilir. Web kullan m madencili!i yöntemleri uygulanarak web sitelerini ziyaret eden ki ilerin davran ve tutumlar n belirlenebilir. Web madencili!inin günümüzde birçok alanda kullan lmas n n en önemli sebebi; ki ilerin web sayfalar nda göstermi olduklar davran lar n, hareketlerin ve yapm olduklar i lem bilgilerinin var olan i süreçlerine entegrasyonunu sa!layarak mü terinin en iyi ekilde anla lmas n sa!layan mü teri odakl bir sistem olu turmas d r. Web madencili!i kullan m alanlar a a! daki gibidir; • Web üzerinden ürün sat gerçekle tiren irketler web verilerini analiz ederek mü teri profili ve kümeleri olu turmaktad rlar. • Google vd. di!er arama motorlar web içerik madencili!i uygulayarak aranan anahtar kelimeyi içeren web sitelerini belirlemektedirler. • Web madencili!i uygulanarak web sitelerinin iyile tirilmesi ve güncel kalmas sa!lanmaktad r [1, 6]. 3. Uygulama Uygulamada Clementine 12.0 kullan larak; 2070 mü teriye ait 17 de!i kenden olu an ve yap sal veri olan bir telekomünikasyon kurumuna ait mü terilerin churn ( irketi terk etme) verisi kullan larak, terk eden mü terilere ait karar a!ac ile bir profil çal mas gerçekle tirilerek bir model elde edilmi tir. Ayr ca, web log dosyas (mü terilere ait internet üzerinden elde edilen veri) ve metin dosyas (ça!r merkezlerinden elde edilen mü terilere ait veri) olmak üzere iki tür yap sal olmayan veri kullan larak bir profil çal mas gerçekle tirilerek bir model elde edilmi tir. Buradan elde edilen modeller ve daha önce elde edilen modeller kar la t r lm ve her üç veri türü de kullan larak karma bir model elde edilmi , genel model ba ar s sonucuna ula lm t r. 3.1. Web MadenciliGi Web madencili!i ile ilgili yap lanlar genel hatlar rekil 1-9 ile anlat lmaya çal lm t r. 470 Bekil 1. Log dosyas n n genel görünümü rekil 1’de görülen log dosyalar Web Mining for Clementine 12.0 ile analiz edilmi ve yap sal olmayan log dosyas rekil 2 ve 3’de görüldü!ü gibi kullan labilir olan yap sal ekle dönü türülmü tür. Bekil 2. Yap sal veri-grafiksel gösterim rekil 2’de görüldü!ü gibi log dosyas nda yer alan veriler, olay (event) dosyalar baz al narak çe itli kategorilere dönü türülmü tür. Örne!in, analiz edilen bu log dosyas içerindeki kay tlar n %0,65’inin “About Us” sayfas na giri yapan mü terilerden olu tu!u art k bilinmektedir. 471 Bekil 3. Yap sal veri-de!i ken ve kay t bazl gösterim rekil 3’de ise her bir ID’ye kar l k gelen log dosyalar n n, yap sal ekle nas l dönü tü!ü görülmektedir. 3.2. Metin MadenciliGi Metin madencili!i ile ilgili yap lanlar genel hatlar ile a a! daki ekillerde anlat lmaya çal lm t r. Bekil 4. Metin verisinin genel görünümü rekil 4.’de metin verisi ile ilgili genel görünüm yer almaktad r. Her bir ID’ye ili kin bir metin bilgisi yer almaktad r. 472 Bekil 5. Metin verisinin analiz a amas rekil 5’de metin verisinin analiz a amas ile ilgili ekran görüntüsü yer almaktad r. rekil 5’in sol alt k sm nda yer alan görüntüde metinden elde edilen içerikler yer almaktad r. Bekil 6. Yap sal veri-grafiksel gösterim rekil 6’da terk eden mü teri bilgisine ait de!i ken olan CHURN de!i keninin yap sal hala dönü türülmü metin verisinden elde edilen yeni de!i kenlerle ili kisini gösteren örnek bir grafik yer almaktad r. Bu grafi!e göre CHURN de!i keni; fatura, servis ve yard m ile ilgili telefon aramalar ile ili kilidir. 473 Bekil 7. Yap sal veri-de!i ken ve kay t bazl gösterim rekil 7’de ise her bir ID’ye kar l k gelen metin dosyalar n n, yap sal ekle nas l dönü tü!ü görülmektedir. Yap sal olmayan veri yap sal ve analiz edilebilecek ekle dönü türüldükten sonra; ana veri, web madencili!inden elde edilen veri ve metin madencili!inden elde edilen veri birle tirilerek genel veri elde edilmi tir. Her bir veri tek ba! na ve birlikte analiz edilerek modeller aras kar la t rma gerçekle tirilmi tir. Bekil 8. Modellerin beraber kullan m 474 Bekil 9. Modellerin kar la t r lmas 4. Sonuç ve Öneriler Yap sal veri kullan larak elde edilen model ile yap sal olmayan verinin metin ve web madencili!i yöntemleri kullan larak yap sal hale getirilen ve buradan elde edilen model kar la t r lm t r. Metin ve web madencili!i yöntemleri kullan larak elde edilen modelin sonuçta daha ba ar l oldu!u görülmü tür (rekil 9). Yap sal olmayan verideki nitelikli bilginin ç kar l p modele entegre edilebilmesi ile en son modelin daha ba ar l oldu!u sonucu beklenmeyen bir olgu de!ildir. Dünya üzerindeki potansiyel olarak kullan lan bütün verilerin yakla k %80’inin yap sal olmayan türde oldu!u dü ünüldü!ünde, bu verilerin kullan lmas kesinlikle ara t rmalara katma de!er katacakt r. Kaynaklar [1] Chakrabarti, S. (2003), Mining the Web: Discovering Knowledge from Hypertext Data, Morgan Kaufmann Publishers, San Francisco. [2] Dolgun, M.Ö. (2006), Büyük Al veri Merkezleri çin Veri Madencili!i Uygulamalar , Yüksek Lisans Tezi, Hacettepe Üniversitesi Fen Bilimleri Enstitüsü, Ankara. [3] Han, J., Kamber, M. (2001), Data Mining: Concepts and Techniques, Morgan Kaufmann Publishers, San Francisco. [4] Hearst, M. (2009), What is text mining, http://www.sims.berkeley.edu/~hearst/textmining.html. [5] Introduction to Text Mining (2008), SPSS Inc. [6] Liu, B. (2007), Web Data Mining: Exploring Hyperlinks, Contents and Usage Data, Springer. [7] Özdemir Güzel, T., Dolgun, M.Ö., rat r, U., Delilo!lu, S., Korkmaz, H.E. (2007), 2005 Y l Ö!renci Seçme S nav (ÖSS) Verileri Kullan larak Ö!renci Profilinin Belirlenmesi, 5. statistik Kongresi, Antalya. [8] Tan, A.H., Yu, P.S. (2004), Guest Editorial: Text and Web Mining, Applied Intelligence 18, 239241, Kluwer Academic Publisher. [9] Unstructured data (2009), http://en.wikipedia.org/wiki/Unstructured_data. [10] W. Fan, L. Wallace, S. Rich, Z. Zhang. (2006), Tapping into the power of text mining, Communications of ACM, 49(9), 76-82. 475 Matematikte ba!ar üzerine ö<rencilerin kendileriyle ilgili görü!leri brahim Demir Y:ld:z Teknik Üniversitesi Fen Edebiyat Fakültesi statistik Bölümü 34210-Esenler, stanbul, Türkiye idemir@yildiz.edu.tr Serpil K:l:ç Y:ld:z Teknik Üniversitesi Fen Edebiyat Fakültesi statistik Bölümü 34210-Esenler, stanbul, Türkiye serkilic@yildiz.edu.tr Özet Bu çal:#ma Uluslararas: ÖGrenci DeGerlendirme Program: (PISA) 2003’deki Türkiye verileri kullan:larak matematik ba#ar:s: ile öGrencilerin kendileri ile ilgili görü#leri aras:ndaki ili#kiyi incelemek amac:yla yap:lm:#t:r. Çok a#amal: modele uygun olan veri setimizde 1. a#ama öGrencileri, 2. a#ama ise okullar: temsil etmektedir. 1. a#ama baG:ml: deGi#keni matematik ba#ar:s:, baG:ms:z deGi#kenleri cinsiyet, ekonomik sosyal kültürel statü, öGrencilerin matematikte kendileriyle ilgili görü#leri, 2. a#ama baG:ms:z deGi#kenler ise okul türleri ve okula ayr:lm:# olan kaynaklard:r. Elde ettiGimiz bulgulara göre, erkekler k:zlara göre matematikte daha yüksek performansa sahiptir. Matematik ba#ar:s: deGi#keni üzerinde en fazla okul türleri ve öGrencinin matematikte kendini yeterli görmesi deGi#kenlerinin etkili olduGu görülmektedir. Yani matematikte kendini yeterli gören öGrencinin ba#ar:s: daha yüksektir. Anahtar sözcükler: Öz yeterlik, Matematik Kayg:s:; Matematik Ba#ar:s:, Hiyerar#ik Lineer Modeller, P SA. Abstract Students’ Self-related Cognitions on Mathematics Achievement The purpose of this study was to examine the relationship between mathematics achievement and students’ self-related cognitions in mathematics. The sample was prepared from students who participated in Programme for International Student Assessment (PISA) in Turkey. Analysis was done with multilevel regressions. These clustered data set with a two level hierarchical structure examined students nested within different school types. Findings showed that male students had higher performance than female students. School types and students’ mathematics self-efficacy variables had strong effects on mathematics achievement. In other words, students who have higher self-efficacy had strong positive effects on mathematics achievement. Keywords: Mathematics Self-Efficacy; Mathematics Anxiety; Mathematics Achievement; Hierarchical Linear Models; PISA. 1. Giri! Matematik günlük hayat m zda çok önemli bir yere sahip olmas na ra!men, birçok zorlu!a sahiptir. Bu zorluk sebebiylede ö!rencilerde matematik kayg s olarak adland r lan bir olgu olu maktad r. Literatürde de matematik kayg s ö!rencilerin korkular diye tan mlan r. Kayg ; korku, s k nt ve endi eden olu an psikolojik bir durumdur. Ö!rencilerin matematik kayg s asl nda ilkö!retimin ilk y llar ndan itibaren, ö!renci velilerinin ve ö!retmenlerin matematik dersi ile olumsuz dü ünceler söylemesinin de etkisiyle ortaya ç kabilmektedir (Williams, 1988; Thomas & Furne, 1997). Velilerin ve ö!retmenlerin matematik dersi ile ilgili bu tür olumsuz davran lar söylemesine ra!men, ö!rencilere matemati!in gelecekte de çok önemli oldu!unu vurgulanmaktad r. Bunun sonucu olarak da, ö!rencilerde karma k dü ünceler olu maktad r. Ayn zamanda ö!rencinin özgüveni, ö!renme yöntemi, 476 ailenin ö!renciden yüksek beklentisi, ö!retmen davran lar , matemati!e kar negatif tutumlar ve ö!rencinin matematikteki dü ük ba ar s da matematikte kayg y olu turur (Ma & Xu, 2004; Woodard, 2004). Matematik kayg s olan ö!rencilerin matematik performanslar n n azald ! , yani performans ve kayg n n ili kili oldu!u ortaya ç km t r (Hopko et. al., 2003). Kazelskis (1999) ve Gierl & Bisenz (1995) çal malar nda ö!rencilerin ailelerinin gözünde de!er kaybedecek olmalar “Matemati!i yapam yorum” ve “Matemati!i sevmiyorum” gibi dü üncelerin meydana gelmesine sebep oldu!unu belirtmi lerdir. Ayr ca Marsh (1990) çal mas nda matematik ve fen derslerine kar yeteneklerinin ba ar da pozitif etkisi oldu!u bulmu tur. Erkeklerin k zlardan daha çok özgüvenlerinin oldu!u da Fennema ve Sherman’ n çal mas nda göstermi tir. Matematik kayg s kadar performansta önemli rol oynayan bir di!er olgu ise Öz yeterliktir. Öz yeterlilik kavram , Bandura taraf ndan geli tirilen ve ki ilerin sahip olduklar becerileri etkin ekilde kullanabilmeleri için, önce ilgili alanda özgüven duymalar gerekti!ini savunan sosyal ö!renme kuram n n anahtar kavram d r (Pajares, 2002). Kotaman (2008) ise öz yeterli!i, ki inin belli bir görevi ba arabilece!ine dair inanc olarak tan mlamaktad r. Bu inanç da ki inin göreve ili kin davran a te ebbüs edip etmemesini ve performans n etkiler. Ayr ca özellikle sosyal psikoloji alan nda geli tirilmi bir kavram olan öz yeterli!in pek çok alanda uyguland ! ve farkl disiplinlerde kullan ld ! görülmektedir (Akkoyunlu ve Orhan, 2003; Schunk, 1985). Fen bilimleri, matematik, bilgisayar teknolojileri ö!retimi ve e!itim bilimleri bu alanlardan sadece birkaç d r. E!itim alan nda yap lan ulusal de!erlendirme çal malar n n yan s ra, uluslararas düzeyde konumumuzu belirlemek amac yla e!itim göstergelerine ihtiyaç duyulmaktad r. Bu nedenle belirli referans noktalar na göre ülkemizin e!itim alan nda hangi düzeyde oldu!unun, giderilmesi gereken eksikliklerin ve al nmas gereken tedbirlerin belirlenmesi ve bu sayede de e!itim düzeyinin yükseltilmesi amac yla bir OECD ülkesi olarak ülkemiz Uluslararas Ö!renci De!erlendirme Program (PISA) projesine ilk olarak 2003 y l nda kat lm t r. PISA projesinden elde edilen sonuçlar, e!itim-ö!retim programlar n n geli tirilmesinde, kar la lan eksikliklerin giderilmesinde ve e!itim alan nda yap lan ara t rmalara kaynak olarak kullan labilir. Böylece e!itim sistemimize kazand r lan yeniliklerin ilk sonuçlar n n uluslararas nitelikteki bir perspektiften geçirilmesi imkân n do!uracakt r. Bu sonuçlar e!itim sistemimizde niteli!i artt rmaya yönelik reform çal malar na da katk da bulunacakt r (MEB, 2003). 2. Uygulama PISA endüstrile mi ülkelerdeki 15 ya grubu ö!rencilerinin kazand klar bilgi ve beceriler üzerinde 3’er y l arayla yap lan bir çal mad r. PISA 2003 projesinin test ve anketleri, ülkemizde 2003 y l n n May s ay nda 7 co!rafi bölgeden tesadüfi yöntemle seçilen 12 ilkö!retim okulu ve 147 lisede okumakta olan 1987 do!umlu toplam 4855 ö!renciye yap lm t r. Çal man n amac , matematik ba ar s ile ö!rencilerin kendileri ile ilgili görü leri aras ndaki ili kiyi incelemektir. Çok a amal modele uygun olan veri setimizde 1. a ama ö!rencileri, 2. a ama ise okullar temsil etmektedir. Bu çal mada, 1. a ama ba! ml de!i keni matematik ba ar s , ba! ms z de!i kenleri cinsiyet, ekonomik sosyal kültürel statü, matematik kayg s ve matematikte kendini yeterli görme, 2. a ama ba! ms z 477 de!i kenleri ise okul türleri ve okula ayr lm olan kaynaklard r. Veri SPSS paket program ile analiz edilmi tir. 3.1. ÖGrenci a#amas: deGi#kenleri Matematik Ba#ar:s: (MB), Bir ö!rencinin matematik performans matemati!in 4 alan nda ölçülmü tür ve bu alanlar s ras yla Uzay ve rekil (Geometri), De!i me ve li kiler (Cebir), Say (Aritmetik) ve Belirsizlik (Olas l k)’tir. Testlerde ö!rencilere gerçek ya amlar nda kar abilecekleri tarzda 85 farkl problem sorulmu tur. Genellikle bir yaz veya ema ile ifade edilen bir matematiksel durum ile ilgili olarak birkaç sorunun cevaplanmas istenmi tir (PISA, 2003). Matematikte Kendini Yeterli Görme (MY); Ö!rencilere Matematik alan ndaki yeterliliklerine ili kin dü ünceleri hakk nda sorular sorulmu tur. Bireyin kendi kabiliyeti ile ilgili dü ünceleri ve kendisini herhangi bir konuda yeterli görmesi ba ar yla yak ndan ilgilidir (Marsh, 1986). Ülkemizdeki 15 ya grubu ö!rencilerinin bu gruptaki sorulara vermi olduklar cevaplar Çizelge 1’de cevap yüzdeleri biçiminde gösterilmi tir. Çok Güveniyorum Güveniyorum Çok Az Güveniyorum Hiç Güvenmiyorum Çizelge 1. 15 Ya grubu ö!rencilerimizin Matematikte kendini yeterli görme ile ilgili dü ünceleri aç s ndan cevap seçeneklerine da! l %17,9 %43,6 %30,6 %7,9 %29,9 %42,9 %21,6 %5,6 %25,9 %39,8 %27,0 %7,2 Gazetelerde verilen grafiklerin anla! lmas %25,5 %42,3 %24,9 %7,4 3x+5=17 gibi bir e!itli<in çözümü %54,5 %26,8 %12,9 %5,9 %25,8 %34,8 %29,5 %9,9 %39,2 %31,3 %21,1 %8,4 %18,5 %36,2 %33,2 %12,0 Tren var ! kalk ! çizelgesini kullanarak, bir yerden di<erine ula!man n ne kadar zaman alaca< n n hesaplanmas %30 indirimden sonra bir televizyonun ne kadar ucuzlayaca< n n hesaplanmas Bir zemini kaplamak için kaç metrekare fayansa gereksinim duyulaca< n n hesaplanmas 1:10.000 ölçekli bir haritadan iki yer aras ndaki gerçek uzunlu<un bulunmas A!a< daki türden bir e!itli<in çözümü 2(x+3)=(x+3)(x-3) Bir araban n yak t tüketim oran n n hesaplanmas Matematik Kayg:s: (MK); Ö!rencilerden matematikle u!ra rken kendilerini ne derecede çaresiz ve duygusal stres alt nda hissettikleri sorulmu tur. Ki ini kendi kendisine ili kin bilgileri dikkate al nd ! nda matematikte s k nt içinde olman n ba ar y etkiledi!i görülmektedir (Meece ve ark., 1990). Ülkemizdeki 15 ya grubu ö!rencilerinin bu gruptaki be soruya vermi olduklar cevaplar Çizelge 2’de cevap yüzdeleri biçiminde gösterilmi tir. Bu tabloya göre ö!renciler genel olarak matematikte kayg lanmakta, problem çözerken sinirlenmekte ve çaresiz kald ! n hissetmektedirler. 478 Tamamen Kat l yorum Kat l yorum Kat lm yorum Hiç Kat lm yorum Çizelge 2. 15 Ya grubu ö!rencilerimizin kayg ile ilgili dü ünceleri aç s ndan cevap seçeneklerine da! l Matematikte derslerinde genellikle zorluk çekerim diye kayg lan r m %21,1 %43,4 %25,5 %9,9 Matematik ödevlerini yaparken çok gergin olurum %15,0 %34,5 %35,2 %15,3 Matematik problemlerini çözerken çok sinirlenirim %12,8 %27,3 %43,3 %16,6 Matematik sorunlar n çözerken çaresiz kald < m duygusuna kap l r m %12,6 %33,1 %41,0 %13,1 Matematikte kötü not alaca< m diye endi!elenirim %26,1 %41,8 %21,8 %10,3 Ekonomik, Sosyal Kültürel Statü (ESCS); Bu indeks hesaplan rken aile altyap s n gösteren üç farkl de!i ken kullan lm t r. Bu de!i kenler; en yüksek anne baba e!itim düzeyi, en yüksek anne baba mesleki statüsü ve toplam gelirden olu maktad r. 3.2. Okul a#amas: deGi#kenleri Okula Ayr:lm:# Olan Kaynaklar (OK); Okullara tahsis edilen e!itim kaynaklar n n kalitesi ile ö!renci performans aras nda ili ki kurulur. P SA’da okul müdürlerine, okullar ndaki baz kaynaklar n ne derecede yeterli oldu!una dair sorular sorulmu tur ve bunlara vermi olduklar cevaplar Çizelge 3’te cevap yüzdeleri biçiminde gösterilmi tir. Hiçbir Zaman Çok Az Bir Ölçüye Kadar Çok Çizelge 3. Okul Müdürlerimizin, okuldaki e!itim kaynaklar kalitesindeki eksikliklerin 15 ya ö!rencilerinin ö!renmelerini engelleme derecesi ile ilgili dü ünceleri aç s ndan cevap seçeneklerine da! l E<itim araç gereçleri (örne<in ders kitaplar ) %1,3 %11,4 %34,2 %53,2 Ö<retimde kullan lacak bilgisayarlar %5,7 %14,5 %35,8 %44,0 Ö<retimde kullan lacak bilgisayar programlar %5,7 %16,5 %34,8 %43,0 Ö<retimde kullan lacak hesap makineleri %25,9