Алтернативи на кошера - Характеристики, ограничение и 5 важни алтернативи на кошера

Въведение в алтернативите на кошера

Преди да обсъдим алтернативите на HIVE. Нека първо да разберем какво е HIVE? И така, HIVE по същество е инструмент за съхранение на данни, който е разработен на върха на HDFS (разпределена файлова система Hadoop). Използва се за предоставяне на SQL като заявка интерфейс за заявка на данни, които се съхраняват в различни файлове, интегрирани с Hadoop. Той преобразува SQL като заявки в Map Reduce работни места, които помагат за лесното изпълнение на големи обеми данни.

Характеристика

По-долу са някои от характеристиките на Hive:

Подобно на SQL, той има свой декларативен език, наречен HiveQL.
Той има структура на таблици, подобна на таблиците в базата данни за релации и също така осигурява поддръжка на ETL (извличане / поддръжка / зареждане).
Интересна характеристика е, че тя позволява конвертирането на формат в рамките на HIVE.

Ограничаване на алтернативите на кошера

Нека знаем няколко ограничения на Hive:

Той не е проектиран за OLTP (онлайн обработка на транзакции), но поддържа OLAP (онлайн аналитична обработка).
Едно важно ограничение е, че не поддържа актуализации и изтрива.
В Hive подзапитванията също не се поддържат.

5 важни алтернативи на кошера

По-долу ще обсъдим пет важни алтернативи на HIVE, присъстващи на пазара:

1. Apache Impala

Това е отворен код за паралелна обработка на SQL заявка за данни, съхранявани в компютърен клъстер, работещ с Apache Hadoop. Той беше обявен през октомври 2012 г. По-долу са изтъкнатите особености на Apache Impala като алтернатива на HIVE.

Impala е добър избор за хора, изпълняващи SQL заявки на Hadoop и Apache HBase, без да трансформира данните, тъй като не е необходимо да трансформирате или премествате данните, за разлика от HIVE.
Друга разлика между тези две е генерирането на заявки изрази. Impala ги генерира по време на изпълнение, използвайки llvm, докато HIVE ги генерира по време на компилиране.
Hive Queries има проблем със студен старт, който не е случаят с Impala заявки, тъй като в демона Impala процесите се стартират в самото време на стартиране, винаги готово за обработка на заявка, поради което избягва проблема със студен старт.
Impala разпознава форматите на Hadoop File, Hadoop сигурност, ODBC драйвер.
Основната USP на импала е грубата сила на паралелната обработка. И така, Impala е по-добра алтернатива, ако човек започва нов проект.

2. Presto DB

Presto е друга алтернатива за HIVE, разработена от фейсбук. Нейната USP е, че може дори да запитва данни от множество източници в рамките на една заявка. По-долу са изтъкнатите характеристики на PrestoDB като алтернатива на HIVE.

Presto е разпределен в паметта SQL механизъм за заявки, който е и много бърз, тъй като механизмът за заявки на Presto е бърз и подходящ за интерактивен анализ.
USP за Presto над другите е неговият plug and play модел с различни източници на данни. Поради този plug and play модел, присъединяването на заявки към различни източници на данни е много лесно с presto.
В Presto с малки размери присъединителните таблици са направени по-бързо. Presto се отличава с повечето други двигатели за разпространение на заявки.
Presto не е подходящ за присъединяване на големи факти, тъй като не използва дискове и не използва памет за обработка.
Друг важен момент за Presto е разпределението на ресурсите му. Има разпределение на ресурсите, базирани на приоритетна опашка.
Една компромис за добро представяне в Presto е, че поддръжката на СДС не е налична в Presto, поради което човек трябва да напише собствена функция, която увеличава режийните разходи, тъй като трябва да бъде изградена изключително за presto и затруднява оперативната съвместимост.

3. Spark SQL

Това е модул за също структурирана обработка на данни и също с отворен код. Той също така може да действа като разпределен SQL механизъм за заявки, а също така една уникална част от това е, че осигурява програмна абстракция, известна като рамки от данни. За първи път излиза през 2014 г., разработена от Apache Software Foundation. По-долу са някои от важните функции на Spark SQL като алтернатива на HIVE.

Хубавото на Spark SQL е, че той може да се реализира на Java, Scala, Python и R език, докато HIVE може да бъде реализиран на Java език.
Има пълно сходство в основния модел на база данни между HIVE и Spark, тъй като и за двата основни модела на базата данни е Relational DBMS.
Той също е подобен на HIVE, тъй като и двамата поддържат магазина Key-Value като допълнителен модел на база данни.
Той има предварително дефинирани типове данни като float и дата.
Той поддържа SQL, тъй като притежава DML и DDL изрази.
За разлика от HIVE, който поддържа JDBC, ODBC и Thrift, Spark SQL поддържа само JDBC и ODBC.
Spark SQL използва искра ядро за съхранение на данни в различни възли.
Друга основна разлика между искрата и HIVE са методите на репликация: В HIVE има селективен фактор на репликация за съхранение на излишни данни на множество възли, но в Spark SQL не е наличен фактор на репликация.
В Spark SQL няма права за достъп за потребителите, докато в Apache Hive имаме права за достъп за потребители, групи.
Той не поддържа транзакционна таблица и няма поддръжка за тип char.

4. Акула

Това е SQL заявка с отворен код, която е написана на Scala. Интересният факт на Shark е вместо да използва Map-Reduce за изпълнение на своите заявки, той използва свои собствени набори работни възли. По-долу са някои от характеристиките на Shark:

Той използва клиент от командния ред.
Той предлага оперативна съвместимост с Hive за споделяне на схеми.
Той осигурява поддръжка на съществуващи разширения на кошери като UDF.

Все още не е много известен, но предлага алтернатива на HIVE.

5. BigSQL от IBM

Тя се предоставя от Big Blue (IBM). IBM има собствена дистрибуция на Hadoop, наречена Big Insights. И така, Big SQL се предлага като част от него. Той не е с отворен код, тъй като е предоставен от IBM. Някои от нещата, които предоставят, са както следва:

Те поддържат както JDBC, така и OJDBC драйвери.
Те осигуряват поддръжка на SQL
Те могат да бъдат използвани за търсене на данни от HDFS.

Препоръчителни статии

Това е ръководство за алтернативите на кошера. Тук обсъждаме функции, ограничение и 5 важни алтернативи на кошера. Можете също да разгледате и другите ни свързани статии, за да научите повече-

Hadoop Алтернативи
Алтернативи на Tableau
Алтернативи на Google Analytics
Hadoop Streaming
Поръчка на кошера от
Инсталация на кошера
Рамки за данни в R

Алтернативи на кошера - Характеристики, ограничение и 5 важни алтернативи на кошера

Съдържание:

Въведение в алтернативите на кошера

Характеристика

Ограничаване на алтернативите на кошера

5 важни алтернативи на кошера

1. Apache Impala

2. Presto DB

3. Spark SQL

4. Акула

5. BigSQL от IBM

Препоръчителни статии

Скачане на работа - 7 най-добри начина за скачане на работа може да ви помогне да спечелите повече пари

Статистика на пазара на труда - 10 най-добри инструменти за марката

Предложение за работа - 10 най-добри неща, които трябва да погледнете, преди да приемете

Процес на ротация на работата - Видове, приложения, 10 причини за ротация на работата

Стратегии за търсене на работа - Топ 10 успешни стратегии за търсене на работа

VBA Square Root - Как да използвате функцията за квадратни корени в Excel VBA?

VBA Изпращане на имейл от Excel - Как да изпращам имейли с помощта на Excel VBA?

VBA под - Как да използвате VBA подфункция в Excel с примери

VBA StrComp - Как да използвате VBA StrComp функция в Excel?

VBA функция за сортиране - Как да използвате функция за сортиране на Excel VBA?

SQL Ключови думи - Научете Топ 36 ключови думи в SQL с примери

Топ 5 въпроси и отговори за интервюта за SSIS (Актуализирано за 2019 г.)

Квадратно коренче в PHP - Намиране на квадратен корен на дадено число с примери

Квадрати в Java - Примери за квадратите в Java

SSH срещу SSL - Топ 8 разлики и сравнения, които трябва да научите