Veri Bilimi Nedir? (Data Science)

tarafından Mehmetcan Leblebicioğlu
0 yorum 853 görüntüleyenler

Yazılarımızda çokça adı geçen veri, günümüz dünyasında yüksek önem arz ediyor. Verinin ne olduğundan kısaca bahsetmiştik. Peki bu veriler tek başlarına anlamlı mı? Değilse bu veriler nasıl anlamlı hale getirilir? Bu yazıda bu soruların cevaplarını verecek konu Veri Bilimi.


Ne Olacak Bu Kadar Veri?

Gelişen teknoloji sayesinde veri üretimi artık çok daha hızlı ve kolay. Üretilen bu verilerin taşınması da ağ teknolojileriyle yüksek hız kazandı ve depolamada da bir sorun olmaktan çıktı. Sonuç olarak elimizde devasa bir veri var. Peki ne olacak bu kadar veri ? Hangileri bizim işimize yarayacak ? Hangileri depolanmalı, hangileri silinmeli ? İşte bu noktada veri bilimi devreye giriyor. Hemen burada bir sözlük tanımı yapalım: Veri bilimi veriden anlamlı ve değerli bilgi elde etmek üzerine bilimsel yöntem, süreç, algoritma ve sistemleri kullanan bir bilimdir. Veri bilimiyle uğraşan kişiye veri bilimci denir.

Kendisinde çeşitli beceriler (yukarıdaki şema) olması beklenen veri bilimcileri, bir veri bilimi projesine başlayacağı noktayı, izleyeceği adımları, proje aşamalarının çıktıları ve proje süresince ölçülebilir adımları CRISP-DM (Cross-Industry Standard Process for Data Mining)  olarak kısaltılan yöntemle yönetebilmektedir. CRISP-DM temel olarak 6 aşamadan oluşur. Bu 6 adımı şöyle şematize edebiliriz:

 


Şimdi bu aşamaları teker teker inceleyelim:

  • İşin Anlaşılması: Bu aşamada problem tanımı yapılır. Yani probleme neyin sebep olduğu, problem çözümündeki beklentiler, iş sürecinde problemle ilgi olan veriler ve veri akışı tespit edilir. Son olarak problem çözümü sonucunda nasıl bir çıktı beklendiği tanımlanır. Örneğin bir telekom firması için bu problem, hangi müşterinin rakip telekom firmasına geçeceğini önceden tahmin etmek olabilir.

 

  • Verinin Anlaşılması: Bu aşamaya geçmeden önce ilk aşamayı halletmek çok önemlidir. Çünkü gereksiz veri de en az eksik veri kadar sonuçları değiştirebilir. Halihazırda veri mevcutsa kullanabilir, yoksa veri toplanabilir. Daha sonra verideki sorunlar giderilir, veri tipi tespit edilir ve gerek duyulursa ilave veri toplanabilir.

 

  • Veri Ön İşleme: Modelleme yapmadan önce gelen en zahmetli iştir. Çünkü veriyi kullanılabilir hale getirmek gerekir. Bu aşamayı Veri Manipülasyonu ve Veri Temizleme şeklinde 2’ye ayırabiliriz. Temizleme aşaması tutarsız, yanlış yazılmış ve tekrarlı verilerin silinmesidir. Bu veri tiplerini örneklendirelim: kullanıcıların yaşlarını gösteren bir tablo olduğunu ve birkaç kişide sayı yerine K ve E harfleri olduğunu varsayalım. K ve E harflerinin yaş belirtmediği bariz. Dolayısıyla bu tutarsız veridir.

        Veri ve Tutarlılık

Aynı tabloda birkaç kişinin yaşının 180-190 civarında sayılar olduğunu varsayalım. Günümüz şartlarında 180-190 yaşında bir insanın                  olmasının pek mümkün olmadığını biliyoruz. Dolayısıyla bu yanlış veridir. Aynı tabloda birkaç kişinin yaşı olmadığını varsayalım. Bu kayıp          veridir. Aynı tabloda aynı kişiye ait 1’den fazla veri bulunuyorsa, bu tekrarlı veridir.

        Veri Manipülasyonu

Veri manipülasyonu ise veri setindeki bilgileri bozmadan, yapılacak modellemeye ve kullanılacak algoritmaya uygun hale getirme                    işlemidir. Yani aşamaların devamında hangi yöntemlerin kullanılacağına da bu aşamada karar verilmeli.

 

  • Modelleme: Bu aşamada toplanan veriler ve tanımlanan problem üzerinde bir makine öğrenmesi veya istatistiksel model geliştirilir. Bu model problem çözümüne yönelik optimize edilir. Verilerin tekrar düzenlenmesi gerekebilir.

 

  • Değerlendirme: Geliştirilen modelin başarısının ve doğruluğunun test edilmesi gerekir. Örneğin, modele çıktısı bilinen bir girdi verilir ve asıl çıktıyla modelin çıktısı karşılaştırılır. Sapmayı minimuma indirgemek için farklı algoritmalar denenebilir.

 

  • Ürün: Elde edilen çıktılar firmanın çalışma ortamına uygun halde geliştirilmeye başlanır. Örneğin firmada kullanılan programlama dilleri ve veri akışına uygun hale getirilip modelin çalışan bir uygulaması geliştirilir.

 

 

 

 

Kaynak:

https://www.oracle.com/tr/data-science/what-is-data-science/

https://ybsansiklopedi.com/wp-content/uploads/2018/08/crispdm.pdf

https://www.datasciencecentral.com/

https://medium.com/datajarlabs/veri-bilimi-nedir-ve-nas%C4%B1l-%C3%B6%C4%9Frenilebilir-b5ff8c581bbc

 

Diğer yazılarım için;

https://blog.egesavtek.com/author/mehmetcanleblebicioglu

Beğeneceğinizi düşündüğümüz yazılar