Hadoop

Hadoop, verileri işleme ve depolama için geliştirilen açık kaynaklı yazılım araçlarına verilen genel bir terimdir.

Hadoop

Hadoop, verileri işleme ve depolama için geliştirilen açık kaynaklı yazılım araçlarına verilen genel addır. Apache Yazılım Vakfı (Apache Software Foundation) tarafından geliştirilen bu çerçeve büyük hacimli verileri konforlu bir şekilde yönetme amacı taşır. Büyük hacimli verilerin doğru bir şekilde yönetilmesi mevcut bir işletmenin hem operasyonel yapısı hem de gelişim süreci açısından büyük önem taşır. Hadoop tabanlı yazılımlarda değerli verilerin farklı şekillerde kullanılmasına olanak tanır. Bunlara ek olarak yüksek işlem gücü ve efor gerektiren büyük verinin eşzamanlı olarak yönetilmesini de sağlar. Hadoop, veri analizi ve işleme süreçlerinde kullanılan çeşitli bileşenlerden oluşur. En önemli bileşenleri şunlardır:

  • Hadoop Distributed File System (HDFS): HDFS, büyük veri kütlelerinin depolanmasını sağlayan bir dosya sistemdir. Veriler, küçük bloklara bölünerek birden çok nokta üzerinde depolanır ve yüksek veri erişilebilirliği ve dayanıklılığı sağlar.
  • MapReduce: Hadoop programlarının senkronize bir şekilde veri işlemesini sağlar. Bu model büyük veri setlerinin işlenmesi için kullanılır. MapReduce, veri bölümleme, haritalama (map), kümeleme (shuffle) ve azaltma (reduce) aşamalarından oluşur.
  • YARN (Yet Another Resource Negotiator): YARN, Hadoop’un kaynak yönetimi ve küme kaynaklarının yönetimi için kullanılan bir bileşendir. Çeşitli iş yüklerinin aynı kümede çalışmasını ve kaynakların etkin bir şekilde kullanılmasını sağlar. Böylece YARN, genel veri yönetiminin ve tüm kaynakların izlenmesini pratikleştirir.
  • Hadoop Common: Büyük veri işleme modüllerini destekleyen ortak ağdır. Hadoop modüllerinde ihtiyaç duyulan tüm kaynakları ve programları sunar.

 Hadoop ekosisteminin ortaya çıkışı Google’ın dosya sistemi makalesine dayanır. Fakat ilk olarak Yahoo! için geliştirilmiştir. Hadoop’un yaygın kullanım alanları arasında büyük veri analitiği, veri ambarı çözümleri, makine öğrenmesi ve yapay zeka uygulamaları bulunur. Hadoop, açık kaynaklı olması ve geniş bir topluluk tarafından desteklenmesi nedeniyle oldukça popülerdir.

Sözlükte Keşfet

Scrum

Scrum, sıklıkla kullanılan çevik proje yönetim metodolojilerinden biridir.

Veri Analisti

Veri analistleri, üniversitelerin ilgili fakültelerindeki matematik, bilgisayar, istatistik ve ekonomi gibi bölümlerden mezun...

Kirli Veri (Dirty Data)

Kirli veri, işletmeler için hatalı, eksik, tutarsız veya yanlış olan verileri ifade etmektedir....

Yeniliklerden Haberdar Olun!

Dijital pazarlama dünyasını takip etmek için hemen haber bültenimize abone olun!

Arama Sonuçları