9. hafta
Transkript
9. hafta
Veri Eliminasyonu Birçok durumda yapılan ölçümler içinde değişik hatalar nedeniyle gerçeği yansıtmayan az sayıda büyük ölçekli hatalı veri bulunacaktır. Bu tür ölçümlerin veri analizi öncesi eliminasyonu, yapılan istatistiki analizin duyarlılığını arttıracaktır. Bu tür büyük ölçekli hatalı ölçümleri elimine edebilmek amacıyla Chauvenet testi uygulanabilir. Chauvenet kriteri ortalama değerin her iki yanında 2 aralığının dışında kalan ölçüm sonuçlarının elimine edilmesine gerek olup olmadığını belirlemede kullanılır. Buna göre her bir ölçüm için (maksimum sapma/standart sapma oranı) hesaplanmalıdır. Yapılan ölçüm sayısına bağlı olan Chauvenet kriterleri aşağıdaki tabloda verilmiştir. Ölçülen değer Chauvenet kriterinden büyükse o ölçüm analiz dışı tutulmalıdır. Böyle daha güvenilir analiz sonuçları elde edilecektir. Ölçüm sayısı (Chauvenet Kriteri) dmax/ 2 3 4 5 6 7 10 15 25 50 100 300 500 1000 1.15 1.38 1.54 1.65 1.73 1.80 1.96 2.13 2.33 2.57 2.81 3.14 3.29 3.48 Ara ölçüm sayıları için lineer interpolasyon yapılabilir. Örnek : Yapılan bir deneyde 10 okuma sonucu ölçülen uzunluk değerleri aşağıdaki gibidir. 1 2 3 4 5 6 7 8 9 10 5.30 5.73 6.77 5.26 4.33 5.45 6.09 5.64 5.81 5.75 Ölçüm x (m) Bu ölçümleri dikkate alarak hatalı olabileceğini düşündüğünüz ölçümü Chauvenet kriterini kullanarak belirleyin. i x x d xx d2 2 d/ 1 2 3 4 5 6 7 8 9 10 5.30 5.73 6.77 5.26 4.33 5.45 6.09 5.64 5.81 5.75 5.613 5.613 5.613 5.613 5.613 5.613 5.613 5.613 5.613 5.613 -0.313 0.117 1.157 -0.353 -1.283 -0.163 0.477 0.027 0.197 0.137 0.009797 0.01369 1.33864 0.12461 1.64866 0.02657 0.21753 0.000729 0.03881 0.01877 0.595 0.595 0.595 0.595 0.595 0.595 0.595 0.595 0.595 0.595 1.189 1.189 1.189 1.189 1.189 1.189 1.189 1.189 1.189 1.189 0.526 0.197 1.945 0.593 2.156 0.274 0.802 0.045 0.331 0.230 1=56.13 x σ 2=3.536 1 N 1 x i 1 5.613 n i 1 n 1 n 1 1 (x i x) 2 d2 2 0.595 n i 1 n n dmax > 2 olduğu ölçümü kontrol etmek gerekir. d’nin maksimum olduğu ölçüm 5.dir. (dmax =1.283 ) > (2 =1.189) Maksimum sapma, standart sapmanın iki katından büyük, bu yüzden 5. ölçüm için Chauvenet kriteri kontrol edilir. 10 adet ölçüm için Chauvenet kriter değerini tablodan bakalım. Değerin 1.96 olduğu görülmektedir. 5. ölçüm için d/=2.156 dir. (d/=2.156) > 1.96(tablodan Chauvenet kriteri) 5. ölçüm sonucu büyük olduğu için Chauvenet kriterine göre analizden çıkarılmalıdır. Bu nokta ihmal edilerek tekrar standart sapma hesaplanırsa 0.458 bulunur. Bu ilk değer olan 0.595 ile kıyaslanırsa değerin % 25 oranında değiştiği ve daha doğru sonuç verdiği görülür. Bu değerden başka hatalı ölçümler olması mümkün olduğu için aynı işlem bir adım daha devam ettirilir hatalı başka nokta varsa çıkarılır yoksa işlem sonlandırılır. Regresyon ve Korelasyon Regresyon analizi birden fazla değişken ve bunlar arasındaki bağıntıların incelenmesinde kullanılan bir yöntemdir. Elde edilen regresyon denklemi ile değişkenler arasındaki yaklaşık bağıntı bulunur. Elde edilen denklem analizlerde kolaylık sağlar. Bu yüzden genellikle yapılan deneylerde elde edilen değerleri kullanarak regresyon analizi yapılır ve değişkenler arasında bir matematiksel bağıntı oluşturulur. Üzerinde durulan değişkenlerden bağımlı değişken y, bağımsız değişken x dir. İkisi arasındaki ilişkiyi kuran y=f(x) şeklindeki fonksiyona regresyon denklemi denir. f(x) fonksiyonu farklı şekiller alabilir: Doğrusal: y ax b Lineer regresyon Parabolik: Üstsel: y ax b y ab x , y ae x Non-lineer regresyon Non-lineer regresyon Geometrik: Hiperbolik: y ax b log y b log( ax) y=(ax+b)-1 Non-lineer regresyon Non-lineer regresyon 2 Ölçüm sonuçlarının grafik hale dökülmesiyle f(x) fonksiyonunun şekli belirlenir. Lineer Regresyon Şimdi elimizde n adet (x,y) şeklinde iki parametreli ölçümler bulunduğunu varsayalım (Örneğin sıcaklığa karşı basınç, veya voltaja karşı gerilme gibi). Elimizdeki n adet sonlu sayıda ölçüm değerinden yararlanarak bu iki parametre arasında bir ilişki bulmaya çalışalım. Bu amaçla kullanılabilecek en kolay bağıntı lineerdir. y ax b Buradaki a ve b katsayıları doğrunun eğimini ve y eksenini kestiği yeri temsil etmektedir. a ve b katsayılarının en uygun değerlerini bulabilmek üzere her bir noktanın gerçek değerden olan farklarının karesini minimum yapmak gerekecektir. Bu yönteme en küçük kareler yöntemi de denir. n 2 S y i (ax i b) i 1 Her bir noktanın gerçek değerden olan farklarının karesini minimum yapabilmek için bu ifadenin a ve b katsayılarına göre türevi alınarak sıfıra eşitlemek gerekir. S 2 y i (ax i b)(x i ) 0 a S 2 y i (ax i b)(1) 0 b b x i a x i2 x i y i nb a x i y i Bu iki denklemin çözülmesi ile aranan a ve b katsayıları aşağıdaki gibi bulunur a n x i yi x i yi n x i2 ( x i ) 2 y x x y x b n x ( x ) i 2 i 2 i i i i 2 i Bu a ve b katsayılarının y = ax + b denkleminde yerine konması ile denklem elde edilmiş olur ve istenen her bir x değerine karşılık denklemden y değeri bulunabilir. Bundan sonra ölçüm sonuçlarına uygulanan eğrinin uygun olup olmadığının belirlenmesi lazımdır. Ölçüm sonuçlarına uygulanan eğrinin uygunluğunu belirlemek üzere aşağıdaki formüllere göre hesaplanan korelasyon katsayısı (r) kullanılır. yx2 r 1 2 y y2 1 n ( yi y ) 2 n i 1 2 2 yx 1 n yi (axi b) n i 1 Bu formüllere göre hesaplanan r değerinin 1 olması, tüm ölçüm noktalarının doğru üzerinde olduğunu gösterir ve seçilen eğri ile ölçülen deney sonuçlarının birebir uyum sağladığını gösterir. Ölçüm noktalarının doğrudan uzaklaşması ile r değeri sıfıra yaklaşacaktır. r=0 durumu ölçüm noktaları ve bulunan eğri arasında hiçbir korelasyon bulunmadığının göstergesidir. Genellikle edilemez. (r) değerinin 0.90 den küçük olduğu durumlarda iyi bir korelasyondan söz Lineer regresyon tüm ölçüm değerleri için uygun olmayabilir. Aşağıda bazı tipik durumlar görülmektedir. y y y x x x Lineer model uygun Doğrunun eğimi yanlış y Non-lineer model gerekli y y x İki lineer model gerekli x Muhtemel hatalı nokta x Non-lineer model gerekli Örnek 1.(Lineer regresyon). 1900 yılından itibaren yapılan 200 metre olimpiyat koşularında erkek ve kadın atletlerin süreleri aşağıdaki tabloda görülmektedir. Yıl Erkek Koşucu Süre(s) Kadın Koşucu Süre(s) 1900 1904 1908 1912 1920 1924 1928 1932 1936 1948 1952 1956 1960 1964 1968 1972 1976 1980 1984 1988 1992 1996 2000 2004 Walter Tewksbury Archie Hahn Robert Kerr Ralph Craig Allan Woodring Jackson Scholz Percy Williams Eddie Tolan Jesse Owens Mel patton Andrew Stanfield Bobby Marrow Livio Berruti Harry Car Tommie Smith Valeri Borzov Donald Quarrie Pietro Mennes Carl Lewis Joe Deloach Mike Marsh Michael Johnson Konstantinos Kenteris Shawn Crawford 22.2 21.6 22.6 21.7 22.0 21.6 21.6 21.2 20.7 21.1 20.7 20.6 20.5 20.3 19.83 20.00 20.23 20.19 19.80 19.75 20.01 19.32 20.09 19.79 F. Blankers-Koen Marjorie Jackson Betty Cuthbert Wilma Rudolph Edith McGuire Irena Szewinska Reneta Stecher Barbel Eckert Barbel Wockel Valerie Brisco-Hooks Florence Griffith-Joyner Gwen Torrence Marie Jose Perec Marion Jones Veronica Campbell 24.4 23.7 23.4 24.0 23.0 22.5 22.40 22.37 22.03 21.81 21.34 21.81 22.12 21.84 22.05 a) Erkek ve kadın koşucular için yıllara karşılık gelen koşma sürelerinin grafiklerini çizelim. 26 25 Erkek Kadin SURE (S) 24 23 22 21 20 19 YIL En küçük kareler metoduna göre bu datalara ait denklemi bulalım. 2004 2000 1996 1992 1988 1984 1980 1976 1972 1968 1964 1960 1956 1952 1948 1944 1940 1936 1932 1928 1924 1920 1916 1912 1908 1904 1900 18 Erkek koşucular: a b i xi yi xi2 xi yi 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 1900 1904 1908 1912 1920 1924 1928 1932 1936 1948 1952 1956 1960 1964 1968 1972 1976 1980 1984 1988 1992 1996 2000 2004 22.20 21.60 22.60 21.70 22.00 21.60 21.60 21.20 20.70 21.10 20.70 20.60 20.50 20.30 19.83 20.00 20.23 20.19 19.80 19.75 20.01 19.32 20.09 19.79 3610000 3625216 3640464 3655744 3686400 3701776 3717184 3732624 3748096 3794704 3810304 3825936 3841600 3857296 3873024 3888784 3904576 3920400 3936256 3952144 3968064 3984016 4000000 4016016 42180.0 41126.4 43120.8 41490.4 42240.0 41558.4 41644.8 40958.4 40075.2 41102.8 40406.4 40293.6 40180.0 39869.2 39025.4 39440.0 39974.5 39976.2 39283.2 39263.0 39859.9 38562.7 40180 39659.16 = 46904 497.41 91690624 971470.5 n x i yi x i yi n x ( x i ) 2 i 2 24(971470.5) 46904(497.41) 0.02582 24(91690624) (46904) 2 y x x y x n x ( x ) i 2 i 2 i i i 2 i y = -0.02582 x + 71.1815 i (497.41)(91690624) (971470.5)(46904) 71.1815 24(91690624) (46904) 2 Kadın koşucular: a b i xi yi xi2 xi yi 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 1948 1952 1956 1960 1964 1968 1972 1976 1980 1984 1988 1992 1996 2000 2004 24.40 23.70 23.40 24.00 23.00 22.50 22.40 22.37 22.03 21.81 21.34 21.81 22.12 21.84 22.05 3794704 3810304 3825936 3841600 3857296 3873024 3888784 3904576 3920400 3936256 3952144 3968064 3984016 4000000 4016016 47531.2 46262.4 45770.4 47040.0 45172.0 44280.0 44172.8 44203.1 43619.4 43271.0 42423.9 43445.5 44151.5 43680.0 44188.2 = 29640 338.77 58573120 669211.5 n x i yi x i yi n x ( x i ) 2 i 2 15(669211.5) 29640(338.77) 0.0442 15(58573120) (29640) 2 y x x y x n x ( x ) i 2 i 2 i i i 2 i i (338.77)(58573120) (669211.5)(29640) 109.9168 15(58573120) (29640) 2 y = -0.0442 x + 109.9168 b) Erkek ve kadın koşucular için korelasyon katsayılarını bulalım. Erkekler: r 1 2yx 2y 1 n ( y i y) 2 n i 1 2 y 2 2 yx 1 n y i (ax i b) n i 1 Erkekler: r 1 2yx 2y yi - y xi yi 1900 1904 1908 1912 1920 1924 1928 1932 1936 1948 1952 1956 1960 1964 1968 1972 1976 1980 1984 1988 1992 1996 2000 2004 22.20 21.60 22.60 21.70 22.00 21.60 21.60 21.20 20.70 21.10 20.70 20.60 20.50 20.30 19.83 20.00 20.23 20.19 19.80 19.75 20.01 19.32 20.09 19.79 46904 497.41 y 2 1 n ( y i y) 2 n i 1 2 y (yi - y )2 1.475 0.875 1.875 0.975 1.275 0.875 0.875 0.475 -0.025 0.375 -0.025 -0.125 -0.225 -0.425 -0.895 -0.725 -0.495 -0.535 -0.925 -0.975 -0.715 -1.405 -0.635 -0.935 2 yx 1 n y i (ax i b) n i 1 axi + b 2.174 0.765 3.514 0.950 1.625 0.765 0.765 0.225 0.001 0.140 0.001 0.016 0.051 0.181 0.802 0.526 0.245 0.287 0.856 0.951 0.512 1.975 0.404 0.875 yi - (axi + b) [yi - (axi + b)]2 0.072 -0.425 0.678 -0.118 0.388 0.091 0.195 -0.102 -0.499 0.211 -0.086 -0.082 -0.079 -0.176 -0.543 -0.269 0.064 0.127 -0.159 -0.106 0.257 -0.330 0.544 0.347 0.005 0.181 0.460 0.014 0.151 0.008 0.038 0.010 0.249 0.045 0.007 0.007 0.006 0.031 0.294 0.073 0.004 0.016 0.025 0.011 0.066 0.109 0.295 0.120 22.128 22.025 21.922 21.818 21.612 21.509 21.405 21.302 21.199 20.889 20.786 20.682 20.579 20.476 20.373 20.269 20.166 20.063 19.959 19.856 19.753 19.650 19.546 19.443 18.606 2.226 1 n 1 yi 497.41 20.725 s (erkekler için ortalama değer) n i 1 24 σ 2y 1 n 1 ( y i y) 2 18.606 0.775 n i 1 24 2 σ 2 yx 1 n 1 y i (ax i b) 2.226 0.093 n i 1 24 r 1 σ 2yx σ 2 y 1 sınırlar içindedir. 0.093 0.938 0.775 regresyon denklemini korelesyonu kabul edilen Kadınlar: r 1 2yx 1 n ( y i y) 2 n i 1 2 y 2y xi yi - y yi 1948 1952 1956 1960 1964 1968 1972 1976 1980 1984 1988 1992 1996 2000 2004 24.40 23.70 23.40 24.00 23.00 22.50 22.40 22.37 22.03 21.81 21.34 21.81 22.12 21.84 22.05 29640 338.77 1.815 1.115 0.815 1.415 0.415 -0.085 -0.185 -0.215 -0.555 -0.775 -1.245 -0.775 -0.465 -0.745 -0.535 (yi - y )2 3.295 1.244 0.665 2.003 0.173 0.007 0.034 0.046 0.308 0.600 1.549 0.600 0.216 0.555 0.286 2 2 yx 1 n y i (ax i b) n i 1 axi + b 23.822 23.645 23.469 23.292 23.115 22.938 22.761 22.585 22.408 22.231 22.054 21.878 21.701 21.524 21.347 yi - (axi + b) [yi - (axi + b)]2 0.578 0.055 -0.069 0.708 -0.115 -0.438 -0.361 -0.215 -0.378 -0.421 -0.714 -0.068 0.419 0.316 0.703 11.581 0.334 0.003 0.005 0.502 0.013 0.192 0.131 0.046 0.143 0.177 0.510 0.005 0.176 0.100 0.494 2.830 1 n 1 y i 338.77 22.585 s (kadınlar için ortalama değer) n i 1 15 n 1 1 σ 2y ( y i y) 2 11.581 0.772 n i 1 15 y 2 σ 2 yx 1 n 1 y i (ax i b) 2.830 0.189 n i 1 15 r 1 σ 2yx σ 2 y 1 0.189 0.869 yaklaşık 0.9 kabul edebiliriz. Kabul edilebilir. 0.772 c) Artık denklemlerin uygunluğu kanıtlandıktan sonra istenen analizler yapılabilir. Bulunan regresyon denklemlerini kullanarak 2012 Olimpiyat oyunları için kadın ve erkek koşucuların sürelerini tahmin edelim. y = -0.02582 x + 71.1815 (erkek) x = 2012 y = 19.23 s. y = -0.0442 x + 109.9168 (kadın) x = 2012 y = 20.98 s. d) Hangi yılda kadın atletlerin 200 metreyi erkeklerle aynı sürede koşacağını regresyon denklemlerini kullanarak bulalım. -0.02582 x + 71.1815 = -0.0442 x + 109.9168 x = 2107 Kadın koşucuların sürelerine uydurulan eğrinin eğimi erkek koşucularınkinden eğiminden daha dik olarak azaldığı için eğer bu trend değişmezse yaklaşık 100 sene sonra kadınların erkeklerle 200 metreyi aynı sürede koşma imkanı olabileceği matematiksel olarak mümkün görülüyor. Örnek 2. (Lineer regresyon). 1975 yılından itibaren yapılan 50 metre yüzme yarışlarında erkek ve kadın yüzücülerin süreleri aşağıdaki tabloda görülmektedir. Yıl Kadın Yüzücü Süre(s) Erkek Yüzücü Süre(s) 1975 1976 1977 1978 1979 1980 1980 1980 1980 1980 1981 1983 1983 1984 1985 1985 1986 1986 1986 1986 1987 1988 1988 1989 1990 1990 1992 1994 2000 2000 2000 2008 2008 Ender 26.99 Malloy Jardine 26.95 26.74 Woodhead Asplund Sterkel Sterkel 26.61 26.53 26.32 25.96 Sterkel Torres Verstappen Torres 25.79 25.69 25.64 25.62 Torres Costache Costache Costache 25.61 25.34 25.31 25.28 Yang 24.98 Yang Jingyi Le DeBrujin DeBrujin DeBrujin Veldhuis 24.79 24.51 24.48 24.39 24.13 24.09 Skinner Bottom Manganiello Steinbach Cavanaugh Cavanaugh Gaines Stahl Bottom Leamy 23.86 23.74 23.72 23.7 23.66 23.12 22.96 22.83 22.71 22.54 Halsall Jager Biondi 22.52 22.40 22.33 Jager Jager Biondi Jager Jager Jager 22.32 22.23 22.14 22.12 21.98 21.81 Popov 21.64 Sullivan Bernard 21.56 21.50 Erkek ve kadın yüzücüler için yıllara karşılık gelen yüzme rekorlarının grafiklerini çizelim. En küçük kareler metoduna göre bu datalara ait denklemi bulalım. Kadın yüzücüler: i 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 toplam xi yi xi2 xi yi 1975 1977 1978 1980 1980 1980 1980 1981 1983 1983 1983 1984 1986 1986 1986 1988 1992 1994 2000 2000 2000 2008 43704 26.99 26.95 26.74 26.61 26.53 26.32 25.96 25.79 25.69 25.64 25.62 25.61 25.34 25.31 25.28 24.98 24.79 24.51 24.48 24.39 24.13 24.09 561.75 3900625 3908529 3912484 3920400 3920400 3920400 3920400 3924361 3932289 3932289 3932289 3936256 3944196 3944196 3944196 3952144 3968064 3976036 4000000 4000000 4000000 4032064 86821618 53305.25 53280.15 52891.72 52687.8 52529.4 52113.6 51400.8 51089.99 50943.27 50844.12 50804.46 50810.24 50325.24 50265.66 50206.08 49660.24 49381.68 48872.94 48960 48780 48260 48372.72 1115785 a n x i yi x i yi n x ( x i ) 2 i 2 22(1115785) 43704(561.75) 0.096 22(86821618) (43704) 2 y x x y x b n x ( x ) 2 i i i 2 i i 2 i i (561.75)(86821618) (1115785)(43704) 215.69 22(86821618) (43704) 2 y = -0.096 x + 215.69 Erkek yüzücüler: i 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 toplam xi yi xi2 xi yi 1976 1977 1978 1979 1980 1980 1980 1980 1980 1981 1985 1985 1986 1987 1988 1988 1989 1990 1990 2000 2008 2008 43695 23.86 23.74 23.72 23.7 23.66 23.12 22.96 22.83 22.71 22.54 22.52 22.4 22.33 22.32 22.23 22.14 22.12 21.98 21.81 21.64 21.56 21.5 497.39 3904576 3908529 3912484 3916441 3920400 3920400 3920400 3920400 3920400 3924361 3940225 3940225 3944196 3948169 3952144 3952144 3956121 3960100 3960100 4000000 4032064 4032064 86785943 47147.36 46933.98 46918.16 46902.3 46846.8 45777.6 45460.8 45203.4 44965.8 44651.74 44702.2 44464 44347.38 44349.84 44193.24 44014.32 43996.68 43740.2 43401.9 43280 43292.48 43172 987762.18 y = -0.071 x + 164.146 Bulunan regresyon denklemlerini kullanarak 2012 Olimpiyat oyunları için kadın ve erkek yüzücülerin sürelerini tahmin edelim. y = -0.071 x + 164.146 (erkek) x = 2012 y = 21.29 s. y = -0.096 x + 215.69 (kadın) x = 2012 y = 22.54 s. a) Hangi yılda kadın yüzücülerin 50 metreyi erkeklerle aynı sürede yüzeceğini regresyon denklemlerini kullanarak bulalım. -0.071 x + 164.146 = -0.096 x +215.69 x = 2061