Veri Madenciliği(Data Mining) Nedir?

Veri Madenciliği(Data Mining) Nedir?

Dünya’da en değerli maden nedir diye hiç düşündünüz mü? Altın, elmas, gümüş, petrol… Bunlar insanların kıymetli maden dediğimizde ilk aklına gelen nesnelerdir. Ama bu saydıklarımın hiçbiri en kıymetli maden değildir. En kıymetli maden bilgidir. Çünkü bilgi olmadan bu madenlerin hiçbir kıymeti kalmaz. Bilgi bu madenlerin çıkartılması, işlenmesi ve pazarlanmasında kullanılır.

Bilgiyi, fiziki madenlerden farkı arzının sınırsız olması. Fiziki madenlerin dünyada çıkartılacağı belli bir sınırı vardır ve yalnızca belli bölgelerde çıkartılabilir. Buna karşın bilgi sınırsızdır ve günümüzde teknolojinin gelişmesi sayesinde bir tıkla, dünyanın herhangi bir noktasından bilgiye kolayca ulaşmak mümkün.

İnternet sayesinde bilgiye ulaşmak günümüzde ne kadar kolay olsa da, bir o kadar da zordur çünkü internet bilgi kirliliği ile dolu. Bu kadar bilgi kirliliği içinde istenilen bilgiye ulaşmak için bilgi ayrıştırma yöntemine veri madenciliği denir.

Veri madenciliği…

kaba tabirle bilgi karmaşası içinde istenilen bilgiyi en sade şekilde elde etme yöntemidir. Sistematik çalışma neticesinde yapılan veri madenciliğinin aşamaları şunlardır:

  • Araştırılacak veriye karar verme: Bu aşamada hangi bilginin araştırılıp, ayrıştırılacağına karar verilir ve bu karar doğrultusunda araştırmalara başlanır.
  • Verileri araştırma: Karar verilen konunun araştırılarak bilgi kümesi elde edilmesi.
  • Kaynak çoğaltma: Oluşturulan bilgi kümesi sayısı bu aşamada yeni kaynaklar eklenilerek artırılır. Bu aşamada ne kadar fazla farklı kaynaktan araştırma yapılırsa, çıkacak olan sonucun doğruluk miktarı o kadar fazla olur.
  • Verilerin sadeleştirilmesi: Elde edilen bilgi kümeleri bu aşamada gereksiz bilgilerinden arındırılarak madencilik yapılacak veri sayısının azaltılması aşamasıdır.
  • Verileri uygunlaştırma: Sadeleştirilen veri kümelerinin, madencilik algoritmalarının tanıyacağı formata dönüştürülerek madenciliğe uygun hale getirilmesidir.
  • Veri madenciliğinin yapılması: Veri madenciliğine uygun hale getirilen verilerin, mevcut bulunan madencilik algoritmalarına okutularak istenilen bilgiye ulaşılmasıdır.
  • Verilerin analizi ve yorumlanması: Son aşama olan bu süreçte, istenilen bilgiye madencilik ile ulaşılır, analiz edilir, sonuçların doğruluğu kontrol edilir ve doğruluğu kanıtlanan bilgiler yorumlanarak sonuca ulaşılır.

Analiz sonucu bize istediğimiz bilgilere yakın sonuçlar çıkacaktır. Hiçbir zaman %100 doğru sonuca ulaşmak mümkün değildir. Veri madenciliğinde amacımız en az hata ile en doğru sonuca ulaşmaktır. %1 ve altı hata oranı algoritmayı başarılı olarak tanımlamamız için yeterlidir.

Peki veri madenciliği gerekli midir?

Elbette gereklidir çünkü büyük veri içinden küçük veriyi elde etmek, çölde kum tanesi aramaya benzer. Bunun için insan görevlendirilirse basit bir araştırma veya bilgi alışverişi aylar alabilir. Bu yüzden veri madenciliği tekniklerini kullanıyoruz.

Veri madenciliği algoritmaları şunlardır:

CRIPS-DM: Veri madenciliği denildiği zaman ilk akla gelen ve en çok kullanıla algoritmadır. Temel olarak; Business Understanding(İşi Tanımlama), Data Understanding(Veriyi Anlama), Data Preparation(Veriyi Hazırlama), Modeling(Modelleme), Değerlendirme ve Uygulama olmak üzere 6 aşamadan oluşur. Veri madenciliğinde projeleri planlamak ve yürütmek için kullanılır.

SEMMA Metodolojisi (Sample,Explore, Modify, Model and Assess): SAS Enstitüsü tarafından geliştirilmiş bir sistemdir. CRIPS-DM kadar genel bir sistem değildir. Yalnızca veri madenciliğine özel bir algoritmadır.

Veri madenciliğinin kullanım alanları:

  • Veri madenciliğinin kullanıldığı alanların başında bankacılık gelir. Bankacılıkta kredi kartlarının sahiplerinin ödeyebileceği borç ve buna uygun çekebileceği kredi miktarının belirlenmesinde  ve bu kredileri hangi alanda kullanacağının analiz edilmesinde veri madenciliğinde yararlanılır.
  • Pazarlama ve e-ticaret veri madenciliğinin en çok kullanıldığı alanlardandır. Potansiyel müşterilerin belirlenmesi, hangi ürünün, hangi müşteriye ne kadar fiyata, kaç adet satılacağı. Hangi bölgede hangi ürüne daha fazla talep olduğu ve hangi ürünün hangi bölgede kullanıma daha uygun olduğu gibi verilerin bulunmasında kullanılır.
  • CRM(müşteri hizmetleri): Müşteri ve şirket arasında bilgi alışverişi ve müşterilerin şirketi terk etmemesi için yapılması gerekenlerin analizinde kullanılır.

Son olarak özetlemek gerekirse veriyi adeta bilgi dağından kazarak çıkartan veri madenciliği yöntemleri data ve yapay zekanın bir araya gelmesi ile oluşan tahmin algoritmasıdır.

 

Kaynakça:

Diğer yazılarım için;

Mesajını ilet!


Bu yazı hakkında ne düşünüyorsun?
  • Fascinated
  • Happy
  • Sad
  • Angry
  • Bored
  • Afraid