İnternette, kitaplarda yapay zekanın gelecekte hayatlarımızı nasıl etkileyeceği ile ilgili yazılarla karşılaşıyorum. Gelecek yaşantılarımızı çok merak ediyorum fakat günümüze bakacak olursak zaten yapay zekanın hayatımızda oldukça yer edindiğini rahatlıkla söyleyebiliriz.
Bir gün içerisinde ailemizle, arkadaşlarımızla geçirdiğimiz süreden fazlasını yapay zeka modelleri ile geçiriyoruz. Bu yazıyı okumak için kullandığınız tarayıcı sizlerle senelerdir “Bunu mu demek istediniz ?” şeklinde bildirim göstererek etkileşime geçiyor. Bilgisayarınız, akıllı telefonunuz sesli asistanlar aracılığıyla sadece sizinle konuşarak bile görevleri yerine getirebiliyor. Son zamanlarda bununla da yetinmeyip biraz vakit öldürebilmemiz için bizlere diziler, filmler tavsiye eden modelleri de hayatımıza dahil ettik.
Uzun yıllar boyunca Doğal Dil İşleme ( NLP ) ile bilgisayarlar yazıları okuyabildi, Siri, Alexa, Cortana gibi kişisel asistanlar ile bizimle konuşarak iletişime geçebildiler, gelecek tahmininin yanısıra simülasyonlarla evrenin geçmişini de tahmin edebilecek konuma geldiler. Oysaki bu akıllı makinelerin çok büyük bir eksiği vardı. Göremiyorlardı. Bu sorun için de “Computer Vision” ortaya çıktı. Dolayısıyla bilgisayarlar artık görüyor, yüzlerimizi tanıyor hatta mimiklerimizden duygu durumumuzu bile çıkarabiliyorlar.
Computer Vision
Computer Vision ( bilgisayar görüşü ) kavramı, bilgisayarlara bir görüntüyü piksel düzeyinde işlemeyi ve anlamayı öğretmeye dayanır. Makineler, algoritmalar aracılığıyla görsel bilgileri alır, bunları işler ve sonuçları yorumlamaya çalışır.
Şu anda kullanılan bilgisayar görüşü algoritmaları örüntü tanıma mantığına dayanmaktadır. Bilgisayarlar çok büyük miktarlarda görsel verilerle eğitilir. Ardından görüntüler işlenir, nesneler etiketlenir ve bu nesnelerdeki desenler bulunur. Çalışma prensibini anlamak için sistemi bir bebek gibi düşünebilirsiniz. Bir bebek hangisinin top hangisinin araba olduğunu ayırt edemez ilk başlarda. Misal desen benzerliğinden televizyon kumandasını arabaya benzetmesi gayet doğal olarak karşılanabilir. Ancak zaman içerisinde sürekli olarak bu objelerle karşılaşacağı ve kafasında objelerin modellerini oluşturacağı için ayırt etmekte daha az zorlanacaktır.
Modern bilgisayar görüşü derin öğrenmeye dayanır.
Derin Öğrenme Nedir ?
İnsan beyninin yapısından esinlenerek ortaya çıkarılmıştır. Derin öğrenme algoritmaları, verileri belirli bir mantıksal yapı ile analiz ederek benzer sonuçlar çıkarmaya çalışır. Bunun için de, sinir ağları adı verilen çok katmanlı bir algoritma yapısı kullanır. Sinir ağlarının katmanları genelden özele doğru giden bir tür filtre gibi düşünülebilir. İnsan beyni de benzer şekilde, yeni bir bilgi geldiği zaman, beyin onu bilinen nesnelerle karşılaştırmaya ve benzerlik kurmaya çalışır. Günümüzde kullandığımız teknolojilerde sıklıkla karşımıza çıkar.
Derin öğrenme olmasaydı Google birkaç paragraflık bir yazıyı milisaniyeler içerisinde istediğimiz dile çeviremeyecek, sesli asistanlarımız olmayacak ve Netflix, YouTube, Spotify gibi uygulamalar neleri seveceğimize dair öneride bulunamayacaktı.
Bilgisayarlar Görüntüleri Nasıl Algılar ?
Bilgisayarlar görüntüleri her biri kendi renk değerleri kümesine sahip bir dizi piksel olarak yorumlar. Çok sık kullanılan bir örneği vermek istiyorum; aşağıda Abraham Lincoln’ün bir resmi var. Bu görüntüdeki her pikselin parlaklığı, 0 (siyah) ile 255 (beyaz) arasında değişen tek bir 8 bitlik sayı ile temsil edilir. Bu sayılar, bir görüntü girdiğinizde yazılımın gördüğü sayılardır. Veriler, karar vermekten sorumlu olacak bilgisayar görme algoritmasına bir girdi olarak sağlanır. Aslında, piksel değerleri tek boyutlu bir dizide depolanır.
Siyah-beyaz resimlerin dışına çıkıp biraz renk katmak istediğimiz takdirde ise işler daha da karmaşıklaşıyor. Bilgisayarlar genellikle renkleri 0-255 ölçeğinde üç değere ayırır: kırmızı, yeşil, mavi ( Red – Green – Blue ). Burada her piksel, konumuna ek olarak üç değere daha sahiptir.
Bir örnek vererek kafanızda daha iyi yer etmesini sağlayalım. Bilgisayara milyonlarca araba fotoğrafı yüklediğimizi düşünelim. Bilgisayar bu fotoğrafların hepsini öncelikle analiz eder. Ardından arabaların benzerlik gösterdiği bir desen belirleyecek ve sürecin sonunda bir “araba” modeli oluşturacaktır. Böylece model oluştuktan sonra siz bir fotoğraf daha gösterdiğiniz takdirde, veriyi desene göre inceleyecek ve benzerliğine göre araba olup olmadığına karar verecek.
Yüz Tanıma
Bu teknolojiyi bizzat deneyimleme şansını da elde ettim. İlk denediğim yüz tanıma modeli, çeşitli açılarla ve mimiklerle 100 farklı fotoğrafımı çekip öğrenme işlemine koyuldu. Yüz tanıma algoritmasını ve kamerayı çalıştırdığımda %89 doğruluk payı ile tahmin yaptı. İkinci modelde ise gözlerimi de ayırt edebilmesi için uğraştım fakat ilginç bir şekilde burun deliklerimi de göz olarak algıladı. Böylece veri büyüklüğünün önemini kavramış oldum.
Peki bu kadar fazla görsel veriye nasıl ulaşılabilir ? İşte bu noktada ışıkları sosyal medyaya çeviriyoruz. Her gün milyonlarca görsel veri toplanıyor ve görselleri de insanlar tamamen gönüllü olarak algoritmalara sunuyorlar. Fotoğrafa birini etiketlerken uygulamanın daha önce davranıp kişinin kim olduğunu bilmesi de bu sebeptendir. Hatta böylece yüz benzerlikleri karşılaştırılarak akrabalık ilişkileri de ortaya çıkarılabiliyor.
Aynı şekilde bu mantıkla yüz tanıma sistemleri, otonom araçlar, hastalıkların tespiti, tarım ve daha bir çok konu bilgisayarlara emanet edilebilecek hale geliyor.
Kaynakça:
- https://www.ibm.com/topics/computer-vision
- https://openframeworks.cc/ofBook/chapters/image_processing_computer_vision.html
- https://towardsdatascience.com/everything-you-ever-wanted-to-know-about-computer-vision-heres-a-look-why-it-s-so-awesome-e8a58dfb641e
- https://towardsdatascience.com/what-is-deep-learning-and-how-does-it-work-2ce44bb692ac
Daha fazlası için;