Hive vs Impala - 20 най-полезни неща, които трябва да знаете

Разлика между Hive и Impala

Hive е софтуер за проект за съхранение на данни, създаден на базата на APACHE HADOOP, разработен от екипа на Джеф във Facebook с актуална стабилна версия 2.3.0. Използва се за обобщаване на големи данни и прави лесно запитванията и анализа. Apache Hive е ефективен стандарт за SQL в Hadoop. Impala е двигател за паралелни обработки на SQL заявки, който работи на Apache Hadoop и използва за обработка на данните, които се съхраняват в HBase (Hadoop Database) и разпределена файлова система Hadoop. Impala е продукт с отворен код за паралелна обработка (MPP) SQL механизъм за заявки за данни, съхранявани в локален системен клъстер, работещ на Apache Hadoop. Apache Hive и Impala и двете са ключови части от системата Hadoop.

Затова нека проучим подробно и Hive, и Impala:

HIVE

Apache Hive помага при анализа на огромния набор от данни, съхраняван във файловата система Hadoop (HDFS) и други съвместими файлови системи.
Hive QL - За заявки за данни, съхранявани в Hadoop Cluster .
Използва мащабируемостта на Hadoop чрез превод .
Hive НЕ е пълна база данни .
Не предоставя актуализации на ниво запис .
Hadoop е пакетно ориентирана система .
Заявките за кошери имат висока латентност поради MapReduce .
Кошера не предоставя функции на Той е близък до OLAP .
Най-подходящ за приложения за съхранение на данни .
Изпълнение на заявка чрез MapReduce .
езикът на заявките може да се използва с персонализирани скаларни функции (UDF), агрегации (UDAF's) и функции на таблици (UDTF) .
Hive също така осигурява индексиране, за да се ускори, тип индекс, включително уплътняване и растерна индекс към 0, 10, се планират повече видове индекс.
Видовете съхранение, поддържани от Hive, са RCfile, HBase, ORC и обикновен текст .
SQL-подобни заявки (Hive QL), които имплицитно се преобразуват в задания MapReduce или Tez или Spark .
По подразбиране Hive съхранява метаданните във вградена база данни на Apache Derby .

ИМПАЛА

Impala е машина за заявки, която работи на Hadoop . Публичното разпространение на бета тестове бе обявено през октомври 2012 г. и стана общо достъпно на май 2013 г.
Той поддържа HDFS Apache HBase съхранение и Amazon S3 .
Чете Hadoop файлови формати, включително файл с текст, паркет, Avro, RCFile, LZO и последователност .
Поддържа Hadoop Security (удостоверяване на Kerberos) .
Използва метаданни, ODBC драйвер и SQL синтаксис от Apache Hive .
Той поддържа множество кодеци за компресия:

а) Snappy (препоръчва се за ефективния му баланс между съотношението на компресия и скоростта на декомпресия),

(b) Gzip (препоръчва се при постигане на най-високо ниво на компресия),

Тя ви позволява да задавате заявки по вложени структури, включително карти, структури и масиви.
Той позволява еднопосочни заявки на много потребители и също така позволява контрол на приемането въз основа на приоритизиране и опашка на заявките.

Сравнения между главата на Hive vs Impala (Инфографика)

По-долу е топ 20 сравнението между Hive vs Impala

Ключова разлика между Hive vs Impala

Разликите между Hive срещу Impala са обяснени в точки, представени по-долу:

Hive е разработен от екипа на Джеф във Facebook, но Impala е разработен от Apache Software Foundation .
Hive поддържа файлов формат на оптимизиран колонен формат (ORC) с компресия Zlib, но Impala поддържа формата на паркет с бързо компресиране .
Hive е написан на Java, но Impala е написан на C ++.
Скоростта на обработка на заявките в Hive е бавна, но Impala е 6-69 пъти по-бърза от Hive .
В Hive Latency е висока, но в Impala Latency е ниска .
Hive поддържа съхранение на RC файл и ORC, но поддържането на Impala е Hadoop и Apache HBase .
Hive генерира заявка за изразяване по време на компилиране, но при генерирането на код на Impala за '' големи цикли '' се случва по време на изпълнение .
Hive не поддържа паралелна обработка, но Impala поддържа паралелна обработка.
Hive поддържа MapReduce, но Impala не поддържа MapReduce .
В Hive няма функция за защита, но Impala поддържа Kerberos Authentication .
В надграждане на всеки проект, където съвместимостта и бързината и двете са важни Hive е идеален избор, но за нов проект Impala е идеалният избор .
Кошера е толерантен, но Impala не поддържа толерантност .
Кошера поддържа сложен тип, но Impala не поддържа сложни типове .
Hive е пакетно базирана Hadoop MapReduce, но Impala е MPP база данни .
Hive не поддържа интерактивни изчисления, но Impala поддържа интерактивни изчисления .
Въпросът с кошера има проблем с "студения старт", но в процеса на демон Impala се стартира по време на самото зареждане .
Мениджърът на ресурси на кошера е YARN (още един преговарящ ресурс), но в Impala ресурсният мениджър е роден * YARN .
Разпределенията на кошерите са всички разпределения на Hadoop, Hortonworks (Tez, LLAP), но в разпределението на Impala са Cloudera MapR (* Amazon EMR) .
Аудиторията на кошерите е инженерите на данни, но в аудиторията на Impala са анализатори на данни / учени.
Пропускливостта на кошера е висока, но при Impala пропускливостта е ниска .

Hive vs Impala сравнителна таблица

Сериен номер.	Основа за сравнение	кошер	Impala
1.	Разработено от	Facebook	Софтуер Apache фундамент
2.	Файлов формат	Пореден файл. Текстов файл. Оптимизиран колонен колонен (ORC) формат с компресия Zlib. RC файл формат.	Формат на паркет с бърза компресия. Avro LZO Пореден файл.
3.	език	Написано в JAVA	Написано на C ++
4.	Скорост на обработка	Кошера е бавен	Импала е бърз
5.	латентност	Високо	ниско
6.	Поддръжка за съхранение	RC файл, ORC	Hadoop, Apache HBase
7.	Преобразуване на код	Генерира израз на заявка по време на компилиране	Генерирането на код се случва по време на изпълнение.
8.	Поддържа паралелна обработка	Не	да
9.	Поддръжка на MapReduce	да	Не
10.	Hadoop Security	Не	Поддържа удостоверяване на Kerberos.
11.	употреба	Идеален за надграждане на проекти	Идеален за стартиране на нов проект.
12.	Устойчиви на отказ	Кошера е толерантен по вина.	Не поддържа отклонение.
13.	Сложни типове	Кошера поддържа сложни видове.	Impala не поддържа сложни типове.
14.	Тип база данни	Hive е базова Hadoop MapReduce.	Това е MPP база данни
15.	Интерактивни изчисления	Не поддържа интерактивни изчисления.	Поддържа интерактивни компютри.
16.	Екзекуция	Въпросът с кошера има проблем с „Cold Start“	Процесът на Impala винаги започва в момента на зареждане на демони.
17.	Управление на ресурси	прежди	Роден * ПРЪЖДА
18.	Разпределенията	HIVE - всички Hadoop дистрибуции, Hortonworks (Tez, LLAP)	Cloudera MapR, (* EMR на Amazon)
19.	Публика	Инженери на данни	Data Analyst / Data Scientist
20.	магистрала	Висока производителност	Ниска пропускателна способност

Заключение - Hive vs Impala

В тази статия ние се опитахме да покажем, че това, което са две технологии, а именно Hive и Impala, са и основната разлика между тези технологии. На практика можем да кажем, че Hive и Impala не са конкурентите, тъй като и двете принадлежат на една и съща основа, която е известна като MapReduce за изпълнение на заявките, използването на двете може да създаде разлика. Според нашите нужди можем да го използваме заедно или най-добре според съвместимостта, нуждата и производителността. Езикът на заявките на Hive е Hive QL, който е много универсален и универсален език, докато Impala е интензивно памет и не работи добре за обработка на тежки операции с данни, пример за заявки за присъединяване. Ако във вашия проект работата е свързана с пакетна обработка на голям обем данни, кошера ще е по-добър в този случай и ако работата ви е свързана с процеса в реално време на ad-hoc запитване на данни, тогава Impala ще бъде по-добре в този случай.

Препоръчителен член

Това е ръководство за Hive Vs Impala, тяхното значение, сравнение между главата, ключови разлики, таблица на сравнението и заключение. Можете също да разгледате следните статии, за да научите повече -