Въведение в алтернативите на кошера

Преди да обсъдим алтернативите на HIVE. Нека първо да разберем какво е HIVE? И така, HIVE по същество е инструмент за съхранение на данни, който е разработен на върха на HDFS (разпределена файлова система Hadoop). Използва се за предоставяне на SQL като заявка интерфейс за заявка на данни, които се съхраняват в различни файлове, интегрирани с Hadoop. Той преобразува SQL като заявки в Map Reduce работни места, които помагат за лесното изпълнение на големи обеми данни.

Характеристика

По-долу са някои от характеристиките на Hive:

  • Подобно на SQL, той има свой декларативен език, наречен HiveQL.
  • Той има структура на таблици, подобна на таблиците в базата данни за релации и също така осигурява поддръжка на ETL (извличане / поддръжка / зареждане).
  • Интересна характеристика е, че тя позволява конвертирането на формат в рамките на HIVE.

Ограничаване на алтернативите на кошера

Нека знаем няколко ограничения на Hive:

  • Той не е проектиран за OLTP (онлайн обработка на транзакции), но поддържа OLAP (онлайн аналитична обработка).
  • Едно важно ограничение е, че не поддържа актуализации и изтрива.
  • В Hive подзапитванията също не се поддържат.

5 важни алтернативи на кошера

По-долу ще обсъдим пет важни алтернативи на HIVE, присъстващи на пазара:

1. Apache Impala

Това е отворен код за паралелна обработка на SQL заявка за данни, съхранявани в компютърен клъстер, работещ с Apache Hadoop. Той беше обявен през октомври 2012 г. По-долу са изтъкнатите особености на Apache Impala като алтернатива на HIVE.

  • Impala е добър избор за хора, изпълняващи SQL заявки на Hadoop и Apache HBase, без да трансформира данните, тъй като не е необходимо да трансформирате или премествате данните, за разлика от HIVE.
  • Друга разлика между тези две е генерирането на заявки изрази. Impala ги генерира по време на изпълнение, използвайки llvm, докато HIVE ги генерира по време на компилиране.
  • Hive Queries има проблем със студен старт, който не е случаят с Impala заявки, тъй като в демона Impala процесите се стартират в самото време на стартиране, винаги готово за обработка на заявка, поради което избягва проблема със студен старт.
  • Impala разпознава форматите на Hadoop File, Hadoop сигурност, ODBC драйвер.
  • Основната USP на импала е грубата сила на паралелната обработка. И така, Impala е по-добра алтернатива, ако човек започва нов проект.

2. Presto DB

Presto е друга алтернатива за HIVE, разработена от фейсбук. Нейната USP е, че може дори да запитва данни от множество източници в рамките на една заявка. По-долу са изтъкнатите характеристики на PrestoDB като алтернатива на HIVE.

  • Presto е разпределен в паметта SQL механизъм за заявки, който е и много бърз, тъй като механизмът за заявки на Presto е бърз и подходящ за интерактивен анализ.
  • USP за Presto над другите е неговият plug and play модел с различни източници на данни. Поради този plug and play модел, присъединяването на заявки към различни източници на данни е много лесно с presto.
  • В Presto с малки размери присъединителните таблици са направени по-бързо. Presto се отличава с повечето други двигатели за разпространение на заявки.
  • Presto не е подходящ за присъединяване на големи факти, тъй като не използва дискове и не използва памет за обработка.
  • Друг важен момент за Presto е разпределението на ресурсите му. Има разпределение на ресурсите, базирани на приоритетна опашка.
  • Една компромис за добро представяне в Presto е, че поддръжката на СДС не е налична в Presto, поради което човек трябва да напише собствена функция, която увеличава режийните разходи, тъй като трябва да бъде изградена изключително за presto и затруднява оперативната съвместимост.

3. Spark SQL

Това е модул за също структурирана обработка на данни и също с отворен код. Той също така може да действа като разпределен SQL механизъм за заявки, а също така една уникална част от това е, че осигурява програмна абстракция, известна като рамки от данни. За първи път излиза през 2014 г., разработена от Apache Software Foundation. По-долу са някои от важните функции на Spark SQL като алтернатива на HIVE.

  • Хубавото на Spark SQL е, че той може да се реализира на Java, Scala, Python и R език, докато HIVE може да бъде реализиран на Java език.
  • Има пълно сходство в основния модел на база данни между HIVE и Spark, тъй като и за двата основни модела на базата данни е Relational DBMS.
  • Той също е подобен на HIVE, тъй като и двамата поддържат магазина Key-Value като допълнителен модел на база данни.
  • Той има предварително дефинирани типове данни като float и дата.
  • Той поддържа SQL, тъй като притежава DML и DDL изрази.
  • За разлика от HIVE, който поддържа JDBC, ODBC и Thrift, Spark SQL поддържа само JDBC и ODBC.
  • Spark SQL използва искра ядро ​​за съхранение на данни в различни възли.
  • Друга основна разлика между искрата и HIVE са методите на репликация: В HIVE има селективен фактор на репликация за съхранение на излишни данни на множество възли, но в Spark SQL не е наличен фактор на репликация.
  • В Spark SQL няма права за достъп за потребителите, докато в Apache Hive имаме права за достъп за потребители, групи.
  • Той не поддържа транзакционна таблица и няма поддръжка за тип char.

4. Акула

Това е SQL заявка с отворен код, която е написана на Scala. Интересният факт на Shark е вместо да използва Map-Reduce за изпълнение на своите заявки, той използва свои собствени набори работни възли. По-долу са някои от характеристиките на Shark:

  • Той използва клиент от командния ред.
  • Той предлага оперативна съвместимост с Hive за споделяне на схеми.
  • Той осигурява поддръжка на съществуващи разширения на кошери като UDF.

Все още не е много известен, но предлага алтернатива на HIVE.

5. BigSQL от IBM

Тя се предоставя от Big Blue (IBM). IBM има собствена дистрибуция на Hadoop, наречена Big Insights. И така, Big SQL се предлага като част от него. Той не е с отворен код, тъй като е предоставен от IBM. Някои от нещата, които предоставят, са както следва:

  • Те поддържат както JDBC, така и OJDBC драйвери.
  • Те осигуряват поддръжка на SQL
  • Те могат да бъдат използвани за търсене на данни от HDFS.

Препоръчителни статии

Това е ръководство за алтернативите на кошера. Тук обсъждаме функции, ограничение и 5 важни алтернативи на кошера. Можете също да разгледате и другите ни свързани статии, за да научите повече-

  1. Hadoop Алтернативи
  2. Алтернативи на Tableau
  3. Алтернативи на Google Analytics
  4. Hadoop Streaming
  5. Поръчка на кошера от
  6. Инсталация на кошера
  7. Рамки за данни в R

Категория: