2 Ocak 2015 Cuma

BIG DATA NEDİR NE DEĞİLDİR?

Veri kavramının tanımını ilk duyduğumdan beri bu konuya bir gün olsun duyarsız kalamayan ben eğitim hayatım boyunca da hep bu kavram üzerinde durdum, düşündüm ve çalıştım. Veri yapıları, veritabanları, veri ambarı, veri madenciliği, metin madenciliği, veri keşfi ve veri analizi derken son dönemde bir de büyük veri kavramı ortaya çıktı. Bize de doğal olarak onu anlama ve üzerine çalışma görevi düştü.

1993 yılında tanıştığımız veri kavramıyla ilk münasebetimiz program kodları içerisinde doğru değişken tanımını yapmakla başladı. Atomik değişkenler yetmediğinde veri yapılarının nasıl kullanılacağı ve devamında verilerin dosyalarda ve diskte nasıl organize edileceğini öğrendik ve uyguladık. 1995 yılı Veritabanlarına Giriş dersini alıp da bu alanda çalışmaya karar kıldığım yıl oldu. Bitirme çalışmamız bir Veritabanı uygulaması oldu: Dingil 1. 0. Şu an ülkemizin önemli firmalarında mühendis olarak çalışan arkadaşlarla birlikte yaptığımız bu veri yoğun yazılım ilk ciddi veriye dayalı işimiz oldu. Devamında yüksek lisans ve doktorada veri merkezli çalışmalarımız. Yüksek lisansta web üzerinde veritabanı çalışarak INTERNETTE KÜTÜPHANE isimli tezimi yaptım. Doktora konum ise tam anlamıyla bir veri madenciliği çalışmasıydı: KARAKTER TABANLI DOKÜMAN DİLİ TANIMA SİSTEMİ TASARIMI. Eğitim almanın devamında eğitim verme aşamasına geldiğimde de isminde Veri olan bütün dersleri özenle yıllarca ben verdim ve vermeye devam ediyorum.

2005 yılında doktorayı bitirdiğimizde bizim veriye merakımızı gören TÜBİTAK sağ olsun bize veriye dayalı birçok projede hakemlik görevi verdi, vermeye devam ediyor, ben de zevkle görev yapıyorum. Bu görevler sırasında gördüğümüz olumlu, olumsuz örnekler bence çok değerli. Bu örnekler üzerinden halkımızın bu konuları ne denli anlayıp ne denli anlamadığını görme fırsatımız oluyor. Örneğin, 2005 yılında ilk hakemlik yapmaya başladığım yıllarda henüz Big Data konusu yoktu ama o zamanlar Veri Madenciliği gündemdeydi ve alanla ilgili çok sayıda proje önerisi önüme geliyordu. Ben o zaman şunu görmüştüm; firmaların çoğu İstatistik bile yapmadan Veri Madenciliği yaptığını iddia ediyor. Acaba neden insanlar İstatistik bile yapamazken Veri Madenciliği yaptığını iddia eder diye düşünürken aklıma şu geldi; “Veri madenciliği sihirli sözcüktür ve bu sözcükle proje kabul edilebilir”. Kabul edildi mi, en azından bana gelenler edilmedi J

Aradan yıllar geçti ve insanlar sonunda veri madenciliği projeleri yapmayı öğrendiler. Bu sefer de Web Madenciliği, log (günlük) madenciliği gibi konular gündeme geldi. Log kayıtlarının güvenliğini sorduğumuzda çok cevap alamadık genellikle. Log kayıtlarının birleştirilmesi de cevapsız kaldı.

Metin madenciliği kulağa hoş gelmeye başladı. Ben de çok sevindim bu işe, çünkü doktora tezim veri madenciliği kadar metin madenciliği ile de alakalıydı. Doğal dil dedik cevap alamadık, muğlaklık gidermeyi hiç soramadık. O konu kapanmadan bu sefer sentiment analiz. Olumlu ve olumsuz tamam ya nötr durumları nasıl bulursunuz dediğimizde onu bile yapan fazla çıkmadı.


Bütün bunları neye mi anlatıyorum, cevabı basit ve kısa. Yine insanlar moda bir kavram buldular kendilerine ve yine ıskalamaya devam ediyorlar da o yüzden. Sadece proje heveslileri ıskalasa neyse wikilerde bile çok doğru olmayan şeyler var. Diyor ki wiki hazretleri “…yaygın bilişimci inanışına göre, yapısal olmayan veri, değersizdi” ben de diyorum ki hadi oradan. Yapısal olmayan verinin bütün veriler içerisinde %90 gibi bir veri yığını oluşturduğu ve bu verinin değerlendirilmesi için de metin madenciliği yapıldığını sağır bilişimci bile bilir. Yine aynı wiki bir yerlerinde mevcut ilişkisel veritabanları sanki tutarsız veri tutuyormuş da big data tutarlı veri tutuyormuş gibi masal okuyor.

Son dönemde gerek wiki, gerekse konuya balıklama atlayan herkesin iddiası şu “ilişkisel veritabanları yetersiz kaldığı için big data kullanılacak ve ilişkisel veritabanları artık önemsizleşecek”. Big data konusunu yeterince anlamayan kişiler veritabanlarında yıllarca kullanılan özellikleri de big dataya ait gibi göstererek, veri ambarlarında çözülmüş olan farklı veri kaynaklarının birleştirilmesini de big dataya ait gibi göstererek sadece cehaletlerini ortaya koyuyorlar.

Bize göre big data, son dönemde artan veri kaynaklarına paralel olarak bunların entegre edilmesi, toplam veriden ortak bir bilgi çıkarılması ve bu iş yapılırken de bugüne kadar geliştirilmiş bütün veri analiz tekniklerinin birlikte kullanılması sürecidir. Big data eskiyi yıkıp üzerine bir şey inşa etmek değil, sadece yatay giden sorgulamaya dikey özellik katan, toplu işleme mantığı ile işlemleri ele alan, aynı anda paralel işleme ile sonuç elde eden yeni bir veri analiz yöntemidir. Eğer big data yapılacaksa veriyle ilgili olarak verinin farklı formatlarında çalışmış insanların ortaklığı ile yapılabilecektir. Yoksa bugüne kadar veri nedir bilmeyen insanların hemen birkaç ayda içine girip çıkabileceği bir şey değildir. Moda bir tabir olabilir ama moda gibi hafif bir konu değildir.

Hidayet Takcı
Cumhuriyet Üniversitesi Bilgisayar Mühendisliği Bölümü
Yazılım Anabilim Dalı Başkanı

 0 (346) 219 10 10 / 24 62

Hiç yorum yok:

Yorum Gönder

İki yarım bir tam etmez

Bir bütünün iki parçaya ayrılıp sonra bir araya getirilmesi bütünden bir şey eksiltir mi, miktarından bir şey eksiltmez ama bütünlüğünden ek...