Veri madenciliği`nde yapısal olmayan verinin analizi

Transkript

Veri madenciliği`nde yapısal olmayan verinin analizi
statistikçiler
Dergisi
www.istatistikciler.org
statistikçiler Dergisi 2 (2009) 48-58
Veri madencili i’nde yap sal olmayan verinin analizi:
Metin ve web madencili i
M. Özgür Dolgun
Tülin Güzel Özdemir
Doruk O uz
SPSS, Çankaya Mah. Mahmut
Yesari Sk. No:8/5
06550-Çankaya, Ankara, Türkiye
odolgun@spss.com.tr
SPSS, Zümrütevler Atatürk Cd.
Nazmi +lker Sk. No:24
34852-Maltepe, +stanbul, Türkiye
SPSS, Zümrütevler Atatürk Cd.
Nazmi +lker Sk. No:24
34852-Maltepe, +stanbul, Türkiye
doguz@spss.com.tr
Özet
Verinin büyük boyutlara ula$mas ve bilgisayar donan mlar n n bu büyük boyuttaki veriyi depolayarak yüksek
kapasitede analiz yapabilecek seviyelere gelmeleri ile birlikte analistler karma$ k ko$ullar ile kar$ kar$ ya
kalmaktad rlar. Bu karma$ k ko$ullar n ço u yap sal olmayan verinin etkin bir $ekilde saklanmas ve analizi
ile ili$kilidir. Merrill Lynch, potansiyel olarak kullan lan bütün verilerin yakla$ k %80’inin yap sal olmayan
türde oldu unu ifade etmi$tir. Bu büyük ve karma$ k yap daki yap sal olmayan veri analistlere yeni f rsatlar
açmaktad r. Bu çal $mada, yap sal olmayan verinin metin ve web madencili i yöntemleri ile yap sal hale
dönü$türülmesi sonucu modele dahil edilmesinin, model ba$ar s na yapaca katk analiz edilmi$tir. Karar
a ac yöntemlerinden C5.0 algoritmas kullan larak elde edilen modeller birbirleri ile kar$ la$t r lm $ ve en iyi
model tespit edilmi$tir.
Anahtar sözcükler: Veri madencili1i; Metin madencili1i; Web madencili1i; Model kar45la4t5rma; Churn
analizi.
Abstract
Unstructured data analysis in data mining: Text and web mining
As data becomes large-scale, as megabytes become cheaper, as CPU speed becomes faster, we as analysts
will be faced with more complex requirements. Many of these requirements will depend on the efficient
storage and analysis of unstructured data. Merrill Lynch has recently estimated that over 80% of all
potentially usable business information exists as unstructured data. The huge amount and complexity of
unstructured data opens up many new opportunities for the analyst. In this study, we analyzed the
improvement in the model success, which is a result of a extraction process of the useful information from
unstructured data, using the text and the web mining methods. All models that are generated by using C5.0
algorithm are compared each other and then discovered which one is the best.
Keywords: Data mining; Text mining; Web mining; Model comparison; Churn analysis.
1. Giri
Son y llarda bilgi sistemleri ve teknolojinin geli$mesi sonucunda; kamu kurum ve kurulu$lar , i$letmeler
ve di er kurulu$lar veritabanlar nda kurulu$un amac na ve yap s na ba l olarak çe$itli türlerde veri
toplamaktad r. Fakat bu veriler i$lenmedi i sürece anlams z bir y n olarak veritabanlar nda
depolanmaktad r [2, 3].
M. Ö. Dolgun v.d. / statistikçiler Dergisi 2 (2009) 48-58
49
Uygun yaz l mlar n geli$imi ve firmalar n toplad veriyi kullan labilir bilgiye çevirme iste i toplanan bu
veriyi i$leyerek, verinin içerisindeki kullan labilir ve ilginç ili$kilerin, birlikteliklerin ve örüntülerin
(patterns) ortaya ç kar lmas n gerekli hale getirmi$tir. Günümüzde pek çok kurum verilerini mü$teri
nitelikleri ve mü$terilerin sat n alma örüntülerine ili$kin yararl , kullan $l bilgiler elde edecek yöntemler
ile i$lemeye ba$lamam $t r. Ham veri zengini, nitelikli bilgi (knowledge) fakiri durumunda olan
kurumlar n rekabetçi piyasada ba$ar l olmalar ve ba$ar lar n sürdürmeleri her geçen gün daha da
zorla$maktad r. Veri toplaman n önemini kavram $ olan ve geçmi$e yönelik veri taban sorgular yla
sadece sorgu bazl bilginin elde edilece ini, veriden en üst düzeyde fayda sa layamayaca n görmeye
ba$layan bütün kurumlar n en büyük yard mc s veri madencili idir [7].
Veri madencili i mevcut veriden anlaml bilgileri, ili$kileri ç karmada kullan lan tekniklere verilen genel
isimdir. Veri madencili i yap sal veriyi analiz edebilmekte iken; metin ve web madencili i yap sal
olmayan verinin, veri madencili inde kullan lmak üzere, yap sal hale dönü$türülmesinde kullan lmaktad r.
Farkl birçok alanda kullan labilen veri madencili inin alt alanlar ndan Metin ve Web Madencili i bu
çal $mada bir uygulama üzerinden incelenecek ve yap sal olmayan verinin metin ve web madencili i
yöntemleri ile yap sal hale dönü$türülmesi sonucu modele dahil edilmesinin model ba$ar s na yapaca
katk ortaya konulacakt r.
2. Veri, metin ve web madencili%i
Yap sal veri, bir yap içerisinde organize edilebilen ve bundan dolay tan mlanabilen veri için kullan lan
bir terimdir. En yayg n kullan lan yap sal veri kaynaklar SQL (Structured Query Language) ve Access
gibi veri kaynaklar d r. Örne in SQL, kolon (de i$ken) ve sat r (kay t) bazl bilginin seçimine imkan
vermektedir. Yap sal veri, içerikteki veri tipine göre organize edilebilen ve arama yap labilen veridir.
Buna kar$ n yap sal olmayan verinin tan mlanabilir bir yap s yoktur. En çok bilinen yap sal olmayan veri
türleri; resim dosyalar , pdf, word ve text gibi metin dosyalar , web üzerinde tutulan log dosyalar ve epostalard r. E-postalar veritabanlar nda Microsoft Outlook gibi araçlar ile organize edilebilmesine ra men
bu tür veriler herhangi bir yap sal veri türü ile e$le$mediklerinden ham veri olarak dü$ünülür. Excel gibi
hücre yap s na sahip veri türleri yap sal olmas na ra men halen yap sal olma ve olmama konusundaki yeri
tart $ lmaktad r .
Birçok kurumun verisinin ço u yap sal olmayan veri olarak veritabanlar nda tutulmaktad r. Merrill Lynch,
potansiyel olarak kullan lan bütün verilerin yakla$ k %80’inin yap sal olmayan türde oldu unu ifade
etmi$tir. [4, 10, 11].
Veri madencili i büyük veri y nlar nda gizli olan örüntüleri ve ili$kileri ortaya ç karmak için istatistik ve
yapay zeka kökenli çok say da ileri veri çözümleme yönteminin tercihen görsel bir programlama ara yüzü
üzerinden kullan ld bir süreçtir. Veri madencili i algoritmalar ; istatistiksel algoritmalar, matematiksel
algoritmalar ve yapay zeka algoritmalar n (sinir a lar , karar a açlar , kohonen a lar, birliktelik kurallar
vb.) bir arada içerir [7].
Veri madencili i çözümleri ve algoritmalar metin veya web verisindeki kal plar bulmadan veya model
olu$turmadan önce metin veya web verisinin yap sal olmas gerekmektedir. Metin ve Web madencili i
i$lemleri, veri madencili inde kullan lacak yap sal veriye ula$mak için kullan lan araçlar olarak
tan mlanabilir.
Metin ve web madencili i son y llarda oldukça fazla çal $ lan birbiri ile ili$kili alanlard r. Metin
madencili i, çok büyük belgelerin analizi ve metin tabanl verinin içerisindeki gizli kal plar n elde
edilmesidir. Web madencili i ise, web içerikleri, sayfa yap lar ve web ba lant istatistiklerinin de içinde
oldu u web ile ili$kili olan verinin analizini içermektedir [10].
M. Ö. Dolgun v.d. / statistikçiler Dergisi 2 (2009) 48-58
50
2.1. Metin madencili1i
Veri farkl $ekillerde bulunabilir. Baz lar otomatik veri analizi için üstesinden gelinebilir ve uygun iken
baz lar n analizi çok daha zordur. Klasik veri analiz yöntemleri verinin de i$ken ve kay t bazl
düzenlendi i varsay m ile i$lem yapmaktad r. Buradaki soru, e er veri metin format nda yani kay tlar n
ve de i$kenlerin olmad bir yap da ise ne yapmam z gerekti idir. Metin verisindeki anlam n ortaya
ç kar labilmesi için kullan lan yöntem metin madencili idir.
Metin yaz m nda standart kurallar olmad ndan dolay bilgisayar bunlar anlayamamaktad r. Her bir
metnin dili ve içerdi i anlam amaca ba l olarak çe$itlilik göstermektedir. Yap sal olmayan bilgiden içerik
ç karmak için kullan lan geleneksel yöntemler; anahtar kelimeler veya mant ksal aramalar, istatistiksel
veya olas l ksal algoritmalar, sinir a lar ve kal p ke$fedici sistemler gibi dilbilimsel olmayan
yöntemlerdir.
Bu yöntemler, hem sorgudaki hem de metindeki kelimelerin karakterlerini kar$ la$t ran bir temele dayan r.
Bundan dolay içeri i aç klay c sonuçlar elde edemez. Dili anlam n n temeli dilbilimsel yollara dayan r ve
bu ço unlukla Natural Language Processing (NLP) olarak ifade edilir. NLP’yi içeren bir sistemde,
karma$ k yap lar n bulundu u ifadeler (örne in; du$tan akan so uk su ile içilen so uk su aras ndaki fark
gibi) ak ll olarak ç karabilmekte ve terimleri s n flayarak; ürünler, organizasyonlar veya ki$iler gibi
s n flara atamaktad r.
Metin madencili i do al dil metinlerinden bilgi ve nitelikli bilgi elde edilmesi sürecidir. Kki a$amada
gerçekle$ir.
•
Anahtar içerik/ifadeler metinden elde edilir,
•
Elde edilen içerik/ifadeler, yüksek dereceden ili$kili oldu u kategorilere atan r.
Bu a$amalar basit bir örnek üzerinden aç klamak gerekirse;
1. A$ama: “CPU” ve “CD-ROM” ifadeleri metinden elde edilir,
2. A$ama: Bu iki ifade, otomatik olarak “Bilgisayar Donan m ” etiketli kategoriye aktar l r.
Metin madencili i uygulamalar iki ana s n fta ayr labilir:
•
Metnin anla$ lmas /özetlenmesi: Metin madencili inin amaçlar ndan bir tanesi metinden anlaml
nitelikli bilginin ç kar lmas d r. Böylece metnin içerdi i anahtar içerik anla$ labilecektir. Örne in,
yava$ tamir veya sipari$ gibi sorunlar yüzünden $ikayet eden mü$terilerin oran n ö renmek
isteyebiliriz.
•
Metin ile modelleme: Daha yayg n olarak, metin madencili i terk etme veya ürün alma gibi
mü$teri davran $lar n n tahmin edildi i bir modelin geli$tirilmesi a$amas n n bir bölümünü
olu$turmaktad r. Metinden elde edilen içerik girdi de i$keni olarak kullan l r ve di er bilgiler ile
beraber öngörüsel model geli$tirilir.
Veri madencili i girdi olarak sadece yap sal veriyi kulland ndan dolay veri madencili i çözümleri ve
algoritmalar kullan larak metin verisinden kal plar bulunup, modeller kurulmadan önce metinden elde
edilecek bilginin yap sal hale dönü$türülmesi zorunludur. Metin madencili i sonucunda, kategorilerin
olu$turulmas ile yap sal olmayan veri yap sal hale dönü$mektedir [5, 9, 12].
Metin ve veri madencili i aras ndaki ili$ki Pekil 1’de tan mlanm $t r;
M. Ö. Dolgun v.d. / statistikçiler Dergisi 2 (2009) 48-58
51
&ekil 1. Süreçler aras ndaki ili$ki
Pekil 1.’de de görüldü ü gibi, metin ve veri madencili i aras nda interaktif bir ili$ki vard r. Metin
madencili i sonucunda elde edilene yap sal veri, veri madencili i modellerinde kullan lmakta ve elde
edilen sonuçlar daha sonra metnin yap s n n incelenmesinde kullan lmaktad r.
Metin madencili inin uygulama alanlar ndan baz lar ;
•
Mü$teri ili$kileri yönetimi (Customer Relationship Management, CRM): Bütün mü$terilerin email, i$lem, ça r merkezi ve anket gibi eri$im noktalar ndan elde edilen metin bilgilerinden
nitelikli bilgi ç kar l r. Bu nitelikli bilgi mü$terinin terk etme ve çapraz sat $lar n tahmin etmek
üzere kullan l r.
•
Sahtekarl k (Fraud) tespiti: Sa l k, sigorta ve hükümet taraf nda toplanan büyük çaptaki metin
verilerinde kal plar ve anormallikler aranarak sahtekarl klar tespit edilir.
•
Bilimsel ve medikal ara$t rmalar: Hasta raporlar , makale ba$l klar , yay nlanm $ ara$t rma
sonuçlar ve di er yay nlar gibi metin materyallerinden ç kar m yap l r.
•
Güvenlik/istihbarat: Organizasyonlar ve bireyler aras ndaki kal plar ve ba lant lar, terörist
tehlikeleri ve kriminal davran $lar tahmin etmek ve engelleyebilmek için büyük çaptaki metin
içerisinde aran r.
•
Pazar ara$t rmas : Yay nlanm $ belgeler, bas n bültenleri ve web sayfalar pazar etkisinin
ölçülmesi için aran r ve izlenir. Metin madencili i kantitatif yöntemler ile aç k uçlu anket sorular
ve mülakatlar n de erlendirilmesinde kullan labilmektedir [5, 12].
2.2. Web madencili1i
Web madencili i i$lemleri kullan larak yap sal olmayan web verileri yap sal veriye dönü$türülür. Web
madencili i uygulamalar temel olarak üç alt ba$l k alt nda toplanabilir;
•
Web yap madencili i: Web yap madencili i ile internetin temel yap s n olu$turan web siteleri,
web sayfalar aras ya da web sayfas ndaki ba lant lar aras ndaki ili$kiler incelenir.
•
Web içerik madencili i: Web içerik madencili i ile web sayfalar n n içerikleri incelenir ve
kullan $l bilgi ç kar m sa lan r. Web içerik madencili i kullanarak web sayfalar n n ba$l klar ,
içerisinde geçen kelimeler, resimler veya müzik dosyalar incelenir. Bulunan içeriklere göre web
siteleri belirli s n flara veya kümelere ayr labilir.
M. Ö. Dolgun v.d. / statistikçiler Dergisi 2 (2009) 48-58
•
52
Web kullan m madencili i: Web kullan m madencili i ile web sunucular nda tutulan kullan c
eri$im kay tlar incelenerek anlaml ve faydal kal plar bulunabilir. Web kullan m madencili i
yöntemleri uygulanarak web sitelerini ziyaret eden ki$ilerin davran $ ve tutumlar belirlenebilir.
Web madencili inin günümüzde birçok alanda kullan lmas n n en önemli sebebi; ki$ilerin web
sayfalar nda göstermi$ olduklar davran $lar n, hareketlerin ve yapm $ olduklar i$lem bilgilerinin var olan
i$ süreçlerine entegrasyonunu sa layarak mü$terinin en iyi $ekilde anla$ lmas n sa layan mü$teri odakl
bir sistem olu$turmas d r.
Web madencili i kullan m alanlar a$a daki gibidir;
•
Web üzerinden ürün sat $ gerçekle$tiren $irketler web verilerini analiz ederek mü$teri profili ve
kümeleri olu$turmaktad rlar.
•
Google vd. arama motorlar web içerik madencili i uygulayarak aranan anahtar kelimeyi içeren
web sitelerini belirlemektedirler.
•
Web madencili i uygulanarak web sitelerinin iyile$tirilmesi ve güncel kalmas sa lanmaktad r
[1, 6].
Web madencili indeki süreç Pekil 2’de tan mlanm $t r.
&ekil 2. Web madencili i süreci
Pekil 2’de görüldü ü gibi, yap sal olmayan web verisi (log dosyalar , vd) i$ bilgisi bazl bir kategori
i$leminden sonra yap sal hale dönü$mekte ve i$lenebilir duruma gelmektedir.
Metin ve web madencili i hakk ndaki genel süreç uygulaman n yer ald
anlat lacakt r.
Üçüncü Bölümde daha detayl
3. Uygulama
Uygulamada Clementine 12.0 kullan larak bir telekomünikasyon kurumunun 2070 mü$terisine ait 17
de i$kenden olu$an $irketi terk etme (churn) yap sal verisi kullan larak, terk eden mü$terilere ait bir profil
modeli, karar a ac algoritmalar ndan C5.0 kullan larak elde edilmi$tir.
Ayr ca; ça r merkezlerinden elde edilen mü$terilere ait metin dosyas kullan larak elde edilen yap sal veri
var olan yap sal veriye eklenerek ikinci bir veri ve ikinci bir model, mü$terilere ait internet üzerinden elde
edilen web log dosyas kullan larak elde edilen yap sal veri ikinci veriye eklenerek üçüncü bir model elde
edilmi$tir. Bu bölümde, söz edilen üç model kar$ la$t r lm $ ve sonucu aç klanm $t r.
M. Ö. Dolgun v.d. / statistikçiler Dergisi 2 (2009) 48-58
53
3.1. Veri madencili1i
Kurulan ilk model, 2070 mü$teriye ait 17 de i$kenden olu$an ve yap sal veri içeren veri dosyas
kullan larak elde edilmi$tir. Model, karar a ac algoritmalar ndan C5.0 algoritmas kullan larak elde
edilmi$tir.
Pirketi terk etme de i$keni ba ml , $ehir içi görü$me süresi (saniye), $ehirler aras görü$me süresi
(saniye), hatt n kesilme say s , ödeme yöntemi (nakit, kredi kart , otomatik), tarife bilgisi, kullan c n n
cinsiyeti, medeni durumu, ya$ gibi 17 de i$ken ise ba ms z de i$ken olarak seçilerek algoritmada
kullan lm $t r. Pekil 3’de karar a ac n n sonucu verilmi$tir.
&ekil 3. Klk veri için karar a ac sonucu
Pekil 3’deki sonuçlara göre, $irketi terk etmede en önemli de i$ken yurtd $ dolan m (roaming) olarak
bulunmu$tur. Karar a ac modelleri bu çal $man n ana amac olmad ndan detayl olarak anlat lmam $t r.
3.2. Metin madencili1i
Metin madencili i ile ilgili yap lanlar genel hatlar ile a$a daki $ekillerde anlat lmaya çal $ lm $t r.
&ekil 4. Metin verisinin genel görünümü
M. Ö. Dolgun v.d. / statistikçiler Dergisi 2 (2009) 48-58
54
Pekil 4’de metin verisi ile ilgili genel görünüm yer almaktad r. Her bir ID’ye ili$kin bir metin bilgisi
(mü$terilerin yorumlar n içeren metin alan ) ve $irketi terk etme de i$keni (CHURN) yer almaktad r.
&ekil 5. Metin verisinin analiz a$amas
Pekil 5’de metin verisinin analiz a$amas ile ilgili ekran görüntüsü yer almaktad r. Pekil 5’in sol alt
k sm nda yer alan görüntüde metinden elde edilen içerikler yer almaktad r.
&ekil 6. Yap sal veri-de i$ken ve kay t bazl gösterim
Pekil 6’da ise her bir ID’ye kar$ l k gelen metin dosyalar n n, yap sal $ekle nas l dönü$tü ü görülmektedir.
Görüldü ü gibi her bir metnin (yap sal olamayan $ekil) yan nda, O metnin hangi kategoriye atand
bilgisi (yap sal $ekil) yer almaktad r. Her bir metnin hangi kategoriye atand bilgisi, ilgili kategorideki
“T” harfi, hangi kategoride yer almad bilgisi ilgili kategorideki “F” harfi ile kodlanm $t r.
Metin verisinin metin madencili i i$lemi sonucunda yap sal $ekle dönü$türülmesi ile elde edilen verinin,
birinci veri ile birle$tirilmesi ile ikinci veri elde edilmi$tir. Kkinci model, ikinci veri kullan larak elde
edilmi$tir. Bu i$lemin ve asl nda bu makalenin as l amac , yap sal olmayan veri içerisindeki bilginin
modele eklenmesi durumunda model ba$ar s n n artt n n gösterilmesidir.
M. Ö. Dolgun v.d. / statistikçiler Dergisi 2 (2009) 48-58
55
Bir sonraki a$amada, web madencili inden gelen yap sal veride ikinci veriye eklenecek ve elde edilen
yeni veriden yeni bir model olu$turulacakt r.
3.3. Web madencili1i
Web madencili i ile ilgili yap lanlar genel hatlar Pekil 7-9 ile anlat lmaya çal $ lm $t r.
&ekil 7. Log dosyas n n genel görünümü
Pekil 7’deki log dosyalar n n yap sal olmad
görülmektedir. Dosyada s ras yla, hangi tarihte web
sayfas na eri$im sa land , kullan c n n IP adresi, istek tipi (GET veya POST), hangi web sayfas na
eri$im sa land , statü (200 veya 300), boyut (gönderilmi$ olan dosyan n byte cinsinden boyutu) ve hangi
web taray c s n n (Mozilla, Explorer, vd) kullan ld gibi bilgiler yer almaktad r.
Log dosyalar n n incelenerek web sitesinin yap s n n ortaya kondu u tan mlama dosyas , olay dosyas
(event definition)’d r. Web sunucular ndan elde edilen yap sal olmayan log dosyalar olay dosyas nda
yap lan tan mlamalardan yola ç k larak yap sal bir hale getirilir. Web madencili i i$lemcisinin çal $mas
için mecburi bir dosyad r.
Standart bir olay dosyas 4 temel alandan olu$ur:
1.
2.
3.
4.
Olay kategorisi (event category),
Olay ismi (event name),
Olay tan m (event definition),
Olay nitelikleri (event attributes).
Olay kategorisi: Olaylar anlaml gruplar alt nda toplamak için kullan l r. Kstenilen bir ifade tan mlanabilir.
Olay ismi: Olay aç klayan bölümdür. Kstenilen bir ifade tan mlanabilir. Ancak olay isimleri tekil
olmal d r, olay dosyas nda her olay ismi bir kere kullan lmal d r.
Olay tan m : Web madencili i i$lemcisinin log dosyalar nda buldu u sayfalar ile tan mlanan olay dosyas
aras nda e$le$tirme yapmas için kullan lacak aland r.
Olay nitelikleri: Klgili olayla hangi özel parametrenin kullan ld
birden fazla nitelik tan mlanabilir [1, 6, 13].
n gösteren bilgidir. Tek bir olay için
M. Ö. Dolgun v.d. / statistikçiler Dergisi 2 (2009) 48-58
56
Pekil 7’de görülen log dosyalar Web Mining for Clementine 12.0 ile analiz edilmi$ ve yap sal olmayan
log dosyas Pekil 8 ve 9’da görüldü ü gibi kullan labilir olan yap sal $ekle dönü$türülmü$tür.
&ekil 8. Yap sal veri-grafiksel gösterim
Pekil 8’de görüldü ü gibi log dosyas nda yer alan veriler, olay dosyas baz al narak çe$itli kategorilere
dönü$türülmü$tür. Örne in, analiz edilen bu log dosyas içerindeki kay tlar n %0,65’inin “About Us”
sayfas na giri$ yapan mü$terilerden olu$tu u art k bilinmektedir.
&ekil 9. Yap sal veri-de i$ken ve kay t bazl gösterim
Pekil 9’da ise her bir ID’ye kar$ l k gelen log dosyalar n n, web madencili i i$leminden sonra yap sal
$ekle nas l dönü$tü ü görülmektedir. Log dosyalar tan mlanan ilgili olay isimleri kategorilerine atand
(“T” ve “F” harfleri ile) görülmektedir.
Hem metin hem de web madencili i i$lemlerindeki amaç daha öncede aç kland gibi, yap sal olmayan
verinin yap sal $ekle dönü$türülmesidir. Pekil 6 ve Pekil 9’da anlat lmak istenen bu yap aç kça
görülmektedir.
Web verisinin web madencili i i$lemi sonucunda yap sal $ekle dönü$türülmesi ile elde edilen verinin,
ikinci veri ile birle$tirilmesi ile üçüncü veri elde edilmi$tir. Üçüncü model, üçüncü veri kullan larak elde
edilmi$tir.
M. Ö. Dolgun v.d. / statistikçiler Dergisi 2 (2009) 48-58
57
Ba$lang çta var olan yap sal verinin kullan ld Model 1, metin madencili i ile elde edilen yap sal verinin
var olan yap sal veri ile birle$tirilmesinden elde edilen verinin kullan ld
Model 2 ve web
madencili inden elde edilen verinin de eklenmesiyle elde edilen verinin kullan ld
Model 3’ün
kar$ la$t rmas Pekil 10’da verilmi$tir.
Pekil 10’daki grafik, elde edilen üç karar a ac modelini kazanç yüzdesi (gain) ölçütü ile kar$ la$t ran
kazanç grafi ini (gain chart) göstermektedir. Grafikte; Y ekseni kazanç, X ekseni ise eri$ilebilecek
kay tlar (bu uygulamada mü$teriler) göstermektedir.
&ekil 10. Modellerin kar$ la$t r lmas
Karar a açlar ile beraber her bir ad ma ili$kin kazanç (%) de erleri elde edilir. Elde edilen bu de erlerde
kazanç grafi i üzerinde yer al r. Kazanç, ilgili ad mdaki hedef kategori say s n n geneldeki hedef kategori
say s na oran d r. Kö$egendeki do ru (k rm z grafik), hiçbir modelin kullan lmad
durumda tüm
örneklem için beklenen olumlu cevaplar temsil eder.
Uygulamada bu tür bir grafik için beklenen, ilk %20’lik dilimde (X ekseni), model kazanç de erlerinin
yakla$ k %50 ve üzerinde olmas d r. Yani, mevcut verinin %20’sini kullanarak, model kazanc n n yüksek
olmas beklenmektedir [5, 8, 13].
Model 1 için bu grafik yorumland nda; mevcut kay tlar n %20’sine ula$ ld nda model kazanc n n
yakla$ k %30 olmas beklenmektedir. Buna göre, Model 3‘ün kazanc n n yakla$ k %45 ile di er
modellerden fazla oldu u aç kça görülmektedir.
4. Sonuç ve öneriler
Yap sal veri kullan larak elde edilen model ile yap sal olmayan verinin metin ve web madencili i
yöntemleri kullan larak yap sal hale getirilen ve buradan elde edilen model kar$ la$t r lm $t r. Metin ve
web madencili i yöntemleri kullan larak elde edilen modelin sonuçta daha ba$ar l oldu u görülmü$tür
(Pekil 10). Yap sal olmayan verideki nitelikli bilginin ç kar l p modele entegre edilebilmesi ile en son
modelin daha ba$ar l oldu u sonucu beklenmeyen bir olgu de ildir.
Öngörüsel di er model algoritmalar (CHAID, C&RTree, Lojistik Regresyon, vd.) kullan larak yeniden
modelleme yap lmas ve algoritmalar aras nda hangisinin daha ba$ar l oldu u sonucunun tespit edilmesi
di er bir çal $maya b rak lm $t r.
M. Ö. Dolgun v.d. / statistikçiler Dergisi 2 (2009) 48-58
58
Dünya üzerindeki potansiyel olarak kullan lan bütün verilerin yakla$ k %80’inin yap sal olmayan türde
oldu u dü$ünüldü ünde, bu verilerin kullan lmas kesinlikle ara$t rmalara katma de er katacakt r.
Kaynaklar
[1] Chakrabarti, S. (2003), Mining the Web: Discovering Knowledge from Hypertext Data, Morgan Kaufmann
Publishers, San Francisco.
[2] Dolgun, M.Ö. (2006), Büyük Al $veri$ Merkezleri Kçin Veri Madencili i Uygulamalar , Yüksek Lisans Tezi,
Hacettepe Üniversitesi Fen Bilimleri Enstitüsü, Ankara.
[3] Han, J., Kamber, M. (2001), Data Mining: Concepts and Techniques, Morgan Kaufmann Publishers, San
Francisco.
[4] Hearst, M. (2009), What is text mining, http://www.sims.berkeley.edu/~hearst/textmining.html.
[5] Introduction to Text Mining (2008), SPSS Inc.
[6] Liu, B. (2007), Web Data Mining: Exploring Hyperlinks, Contents and Usage Data, Springer.
[7] Özdemir Güzel, T., Dolgun, M.Ö., Pat r, U., Delilo lu, S., Korkmaz, H.E. (2007), 2005 Y l Ö renci Seçme
S nav (ÖSS) Verileri Kullan larak Ö renci Profilinin Belirlenmesi, 5. +statistik Kongresi, Antalya.
[8] Shapiro-Piatetsky, G., Steingold, S. (2000), Measuring Lift Quality in Database Marketing, ACM SIGKDD
Explorations Newsletter, 2(2), 76-80.
[9] Sholom M.W., Indurkhya N., Zhang T., Damerau F. (2004), Text Mining: Predictive Methods for
Analyzing Unstructured Information, Springer.
[10] Tan, A.H., Yu, P.S. (2004), Guest Editorial: Text and Web Mining, Applied Intelligence 18, 239-241,
Kluwer Academic Publisher.
[11] Unstructured data (2009), http://en.wikipedia.org/wiki/Unstructured_data.
[12] W. Fan, L. Wallace, S. Rich, Z. Zhang. (2006), Tapping into the power of text mining, Communications of
ACM, 49(9), 76-82.
[13] Web Mining for Clementine 12.0 User’s Guide (2007), SPSS Inc.