Big Data, firmaların müşteri memnuniyetini arttırmaları ve veriyi kullanma şekillerini değiştirmelerini sağlayacak, son zamanların moda tabiri ile en fazla "trend" olmuş konulardan biri. Big Data, aslında sadece tek bir konu başlığı altına toplanacak bir gelişme değildir. Bunun aksine Veri Yönetimi teknolojilerinin yıllar içerisinde gelişerek geldikleri son noktadır ve yazılım, donanım, firma organizasyonu gibi farklı konuları ve konseptleri içerir.
Veri, bilgisayarların kullanılmaya başladığı ilk zamanlardan bugüne her zaman bir firmanın en önemli kaynağı olageldi ve büyümeye de devam etti. Tabii, veri ile birlikte veriyi saklama ve erişim hızı konularında da büyük ilerlemeler kaydedildi. Basitçe aldığımız ilk bilgisayar ile şu an kullanmakta olduğumuz cep telefonlarımızı kıyaslamamız bu gelişimi bize özetleyecektir.
Günümüzde pek çok cihazın internet tabanlı olması ve biz kullanıcıların çok özetle "sosyal medya" olarak özetleyeceğimiz kullanım alışkanlıklarımız nedeni ile veri miktarı her yıl katlanarak artmaktadır. Pek çok seminerde ya da sunumda duymaya çokça aşina olduğumuz rakamları burada da paylaşalım:
• Wallmart'ın 1 saat içerisinde sistemlerine kaydettiği transaction sayısı: 1 milyon
• Facebook'ta yüklenen fotoğraf sayısı: 40 milyar
• 2013 yıl sonunda internet üzerinde dolaşacak bilginin toplam boyutu: 667 exabyte
• 1 trilyon sayfanın endekslendiği Google üzerinde yapılan günlük arama sayısı: 5 milyar
• 2005'te 1.3 milyar RFID etiketi var iken 2010'da bu sayı: 30 milyar
• 2 milyar internet kullanıcısı, 5 milyar mobil telefon ve buna bağlı sayısız transaction
• Twitter günlük işlenen veri hacmi: 7 TB, Facebook'ta ise: 10 TB
Peki Nedir Big Data?
Günümüzde bizler sahip olduğumuz datayı İlişkisel Veritabanlarında (Relational Databases) yapısal (structured) bir şekilde sınıflandırarak ve aralarında ilişkiler kurarak saklıyoruz. Yöneticiler ise bu veritabanları üzerinde çalışan raporlama sistemleri sayesinde üretilen raporlar ile kararlar alıyorlar. Fakat yukarıda da belirttiğimiz üzere artık günümüzde hem firmamıza hem de müşterilerimize ait pek çok data kaynağımız var. Toplumsal medya paylaşımları (Facebook, Twitter, Foursquare vb), bloglar, fotoğraf, video, log dosyaları ve tüm bunlara ek olarak cep telefonları, RFID ve sensörler aracılığı ile trilyonlarca bit veri her an depolanmaya hazır hale gelmekte.
Bugüne kadar tüm bu bilgiler "bilgi çöplüğü" olarak nitelendiriliyordu, çünkü bu datanın mevcut veritabanlarında saklanması ve raporlama sistemlerinde kullanılması imkansızdı. Bunu biraz daha açmak gerekirse, bugüne kadar veriler, daha önceden belirlenen rakamsal ya da sözel veri tipleri şeklinde, önceden tasarlanan tablolarda saklanmaktaydı. Ama bugün bir müşterimizin Facebook üzerindeki izlerini takip etmek istediğimizde işin içine resim, müzik, video gibi bilinen raporlama sistemleri ile ilişkilendiremeyeceğimiz bilgi tipleri dahil olmaktadır. Günümüzde artık tüm bu bilgilerin kullanılması amaçlanmaktadır. Özetle, amaç bilgi çöplüğünden hazine çıkarmaktır.
Big Data Veri Bileşenleri
Büyük veri platformunun oluşumunda beş bileşen vardır. İngilizce karşılıklarından dolayı 5V olarak adlandırılan bu bileşenler: Variety, Velocity, Volume, Verification ve Value.
• Variety (Çeşitlilik): Üretilen verinin yüzde 80’i yapısal veri değildir. Her data kaynağının ürettiği veri farklı teknolojiler içerecektir. Dolayısıyla, "Veri Tipi" problemleri ile uğraşmamız gerekecektir.
• Velocity (Hız): Büyük Veri’nin üretilme hızı çok yüksek ve gittikçe artıyor. Daha hızlı üreyen veri, o veriye muhtaç olan işlem sayısının ve çeşitliliğinin de aynı hızda artması sonucunu doğuruyor.
• Volume (Veri Büyüklüğü): IDC istatistiklerine göre 2020’de ulaşılacak veri miktarı 2009’un 44 katı olacak. Şu anda kullanılan “büyük” diye adlandırdığımız kapasiteleri ve “büyük sistemleri” düşünüp bunların 44 kat büyüklükte verilerle nasıl başa çıkacaklarını hayal etmek gerekiyor! Kurumun veri arşivleme, işleme, bütünleştirme, saklama vb. teknolojilerinin bu büyüklükte veri hacmi ile nasıl başa çıkacağının kurgulanması gerekli; hem de hemen.
• Verification (Doğrulama): Bu bilgi yoğunluğu içinde verinin akışı sırasında “güvenli” olması da bir diğer bileşen. Akış sırasında, doğru katmandan, olması gerektiği güvenlik seviyesinde izlenmesi, doğru kişiler tarafından görünebilir veya gizli kalması gerekiyor.
• Value (Değer): En önemli bileşen ise değer yaratması. Bütün yukarıdaki eforlarla tariflenen Büyük Veri’nin veri üretim ve işleme katmanlarınızdan sonra kurum için bir artı değer yaratıyor olması lazım. Karar veriş süreçlerinize anlık olarak etki etmesi, doğru kararı vermenizde hemen elinizin altında olması gerekiyor.
Big Data – Datawarehouse
Bilgisayar teknolojilerinin kullanılmaya başladığı yıllardan itibaren üretilen tüm veriler, yapısal bir şekilde veritabanlarında saklanıyordu. Fakat bu verilerin birikmiş olması ve farklı kaynaklardan toplanan farklı verilerin tamamının göz önünde tutulması ihtiyacı bizi veri ambarı projelerine yöneltti. Birçoğumuzun bildiği üzere, firmaya ait tüm veriler çeşitli veri aktarımı teknolojileri ile büyük disk alanlarında toplandı ve gene birbirine benzer raporlama sistemleri ile raporlandı. Veri Ambarı projelerine Veri Madenciliği kavramı da eklendi. Veri Ambarı projelerinde de büyük bir data yığını vardı karşımızda. Peki neden "Big Data" kavramı çıktı?
Bunun iki önemli nedeni var: Öncelikle yukarıda da belirttiğimiz üzere şimdiye kadar kullanılan tüm data yapısal (structured) ve veri tipleri tüm dünya veritabanı standartlarında kabul edilen veri tiplerinde idi. İkinci neden ise, Veri Ambarı projelerinde anlık bilgiye erişilemez. Kaldı ki bu da iş dünyasının hızına ayak uydurulmasında karşımıza çıkan büyük bir sorun.
Big Data projeleri ile amaçlanan, şu ana kadar kayda almadığımız datayı da kullanarak, online raporlamalar ile müşteri memnuniyetini arttırarak firmamıza değer ve tabii ki para kazandırmaktır.
ROI
İş sahiplerinin en merak ettiği konu ise Big Data ile neler kazanabilecekleri. Açıkçası şunu belirtmem gerekir ki, yeni bir konu olması ve Big Data platformları konusunda know-how'ın henüz yaygınlaşmamış olması nedeni ile, projelerin çok uzun sürdüğünü kabul etmemiz gerekiyor. Ayrıca, bu kadar fazla data içerisinde en hızlı bir şekilde, en işe yarar bilgileri nasıl seçeceğimiz üzerinde uzun ve dikkatlice düşünmemiz ve analiz etmemiz gerekir.
Sanırım bunu birkaç örnek ile daha iyi anlayabiliriz:
• Örnek olarak finansal bir kurumu ele alalım. Bu kurumun hali hazırda Finansal Yazılımları, Internet Sayfası, Call Center yapıları ve müşteri ses kayıtları ve buna ek olarak tüm bu bilgilerin tek bir havuzda toplandığı Veri Ambarı projesi olması bizi şaşırtmaz. Firma buna ek olarak bu ses kayıtlarındaki sınırsız bir hızla büyüyen bilgiyi, internet sayfasındaki milyonlarca "click" bilgisini de ekleyerek müşterilerin davranışları, istekleri ve memnuniyetsizlikleri üzerine anlık bilgiler toplayabilir. Müşteri memnuniyetinin artması, müşteriye özel çözümler sunulması ya da bazı promosyonların yol yakın iken şekillendirilmesi Big Data projemizin maliyetini geri kazandıracak değerler olacaktır.
• Sadece farklı kaynaklardan farklı tipteki verilerin alınmasının yanı sıra, bilinen tipteki datamızda da online sorgulama yapmak isteyebiliriz. Örneğin, internet sayfalarındaki hit sayılarına göre reklam satan bir firmayı düşünelim. Odaklanması gereken o kadar fazla müşteri ve internet tipleri vardır ki bu da IT olarak bizlerin karşısına çok karışık sorgular biçiminde çıkar. Bu durumda da tipik veri ambarı platformları ile gecikmeli cevaplar üretmektense Big Data platformları ve altyapısı ile anlık raporlar üretilebilir.