Veri Dağılımı
Bu eğitimin başlarında, sadece farklı kavramları anlamak için
örneklerimizde çok az miktarda veri ile çalıştık.
Gerçek dünyada, veri kümeleri çok daha büyüktür, ancak bir projenin erken bir aşamasında gerçek dünya verilerini toplamak zor olabilir.
Büyük Veri Setlerini Nasıl Alabiliriz?
Test için büyük veri setleri oluşturmak için, herhangi bir boyutta rastgele veri setleri oluşturmak için bir dizi yöntemle gelen Python modülü NumPy’yi kullanırız.
Örnek :
0 ile 5 arasında 250 rasgele float içeren bir dizi oluşturalım:
import numpy
x = numpy.random.uniform(0.0, 5.0, 250)
print(x)
(Çıktısını yapmadım çünkü 250 float sayıyı yazdırmak çok kötü bir görüntü oluşturur .İsteyenler python derleyicisinde deneyebilir)
Histogram
Veri kümesini görselleştirmek için topladığımız verilerle bir histogram çizebiliriz.Bir histogram çizmek için MatplotlibPython modülünü kullanacağız:
Örnek :
Bir histogram çizelim:
import numpy
import matplotlib.pyplot as plt
x = numpy.random.uniform(0.0, 5.0, 250)
plt.hist(x, 5)
plt.show()
Sonuç :
Histogram Açıklaması :
Yukarıdaki örnekte yer alan diziyi 5 çubuklu bir histogram çizmek için kullanıyoruz.İlk çubuk dizideki kaç değerin 0 ile 1 arasında olduğunu gösterir. İkinci çubuk 1 ile 2 arasında kaç değer olduğunu gösterir
Bu da bize bu sonucu verir:
·52 değer 0 ile 1 arasındadır
· 48 değer 1 ile 2 arasındadır
· 49 değer 2 ile 3 arasındadır
· 51 değer 3 ile 4 arasındadır
· 50 değer 4 ile 5 arasındadır
Not: Dizi değerleri rasgele sayılardır ve bilgisayarınızda tam olarak aynı sonucu göstermez. Çünkü random fonksiyonu her farklı zamanda farklı değerler üretecektir.
BüyükVeriDağılımları
50 değer içeren bir dizi çok büyük olarak kabul edilmez, ancak şimdi rastgele bir değer kümesinin nasıl oluşturulacağını biliyorsunuz ve parametreleri değiştirerek veri kümesini istediğiniz kadar oluşturabilirsiniz.
Örnek :100000 rasgele sayı içeren bir dizi oluşturalım ve 100 çubuklu bir histogram kullanarak görüntüleyelim:
import numpy
import matplotlib.pyplot as plt
x = numpy.random.uniform(0.0, 5.0, 100000)
plt.hist(x, 100)
plt.show()
Sonuç :
-Burak Can Görgülü