Apache Hive, büyük verileri işleme ve analiz etme işlemleri için kullanılan bir açık kaynaklı veri altyapısıdır. Bir veri ambarı altyapısı olan bu sistem büyük miktardaki verilerin hesaplanması ve analiz edilmesinde kullanılan Apache Hadoop açık kaynaklı yazılım araçları topluluğuna mensuptur. Hadoop sistemleri ilk olarak ticari bilgi işlem donanımları için kullanılmıştır. Sonrasında yazılımlar geliştirilerek üst düzey kümeler olarak nitelendirilen veriler için de kullanılabilir konuma gelmiştir. Apache Hadoop kaynağı Hadoop Dağıtılmış Dosya Sistemi (HDFS) ve MapReduce programlama modelinden oluşur. Apache Hive alt yapısı da HDFS sistemini kullanan bir veri altyapısıdır.
Apache Hive veri işleme altyapısı, SQL benzeri bir programlama dili kullanır. HiveQL (HQL) olarak adlandırılan bu dil yapılandırılmış veya yarı yapılandırılmış verilerin yönetilmesini ve sorgulanmasını sağlar. Ayrıca verileri istenen şekilde değerlendirmek de bu program diliyle mümkündür. Apache Hive işlediği verileri Hadoop HDFS (Hadoop Distributed File System) üzerinde depolar. Bu süreç geleneksel SQL diline hakim olan profesyoneller için oldukça kullanışlıdır. Bu sistemin SQL programlama diline yakın bir konumda olması profesyoneller için farklı avantajları da getirir. SQL profesyonelleri Apache Hive altyapısıyla büyük veri kümelerini işleyebilir ve analiz edebilir. Bu durum Apache Hadoop ekosisteminde bulunan diğer yazılımlar konusunda tecrübeli kişilerin Hive altyapısını kullanabilmesi için idealdir. Apache Hive veri altyapısı, ilk olarak Facebook tarafından geliştirilmiştir. Sonrasında proje Apache’ye devredilmiş ve Hadoop kümeleri üzerinde kullanılmaya başlamıştır. Günümüzde veri ambarı uygulamalarını kullanan birçok şirket, verileri Hadoop kümeleri üzerine şekillendirebilmek için Apache Hive altyapısından faydalanır. Apache Hive, veri bilimciler, analistler, veri mühendisleri ve raporlama uzmanları tarafından kullanılabilir. Bu araç ayrıca farklı veri işleme sistemleriyle entegre edilerek kullanılabilir.