Разлика между Hive и Impala
Hive е софтуер за проект за съхранение на данни, създаден на базата на APACHE HADOOP, разработен от екипа на Джеф във Facebook с актуална стабилна версия 2.3.0. Използва се за обобщаване на големи данни и прави лесно запитванията и анализа. Apache Hive е ефективен стандарт за SQL в Hadoop. Impala е двигател за паралелни обработки на SQL заявки, който работи на Apache Hadoop и използва за обработка на данните, които се съхраняват в HBase (Hadoop Database) и разпределена файлова система Hadoop. Impala е продукт с отворен код за паралелна обработка (MPP) SQL механизъм за заявки за данни, съхранявани в локален системен клъстер, работещ на Apache Hadoop. Apache Hive и Impala и двете са ключови части от системата Hadoop.
Затова нека проучим подробно и Hive, и Impala:
HIVE
- Apache Hive помага при анализа на огромния набор от данни, съхраняван във файловата система Hadoop (HDFS) и други съвместими файлови системи.
- Hive QL - За заявки за данни, съхранявани в Hadoop Cluster .
- Използва мащабируемостта на Hadoop чрез превод .
- Hive НЕ е пълна база данни .
- Не предоставя актуализации на ниво запис .
- Hadoop е пакетно ориентирана система .
- Заявките за кошери имат висока латентност поради MapReduce .
- Кошера не предоставя функции на Той е близък до OLAP .
- Най-подходящ за приложения за съхранение на данни .
- Изпълнение на заявка чрез MapReduce .
- езикът на заявките може да се използва с персонализирани скаларни функции (UDF), агрегации (UDAF's) и функции на таблици (UDTF) .
- Hive също така осигурява индексиране, за да се ускори, тип индекс, включително уплътняване и растерна индекс към 0, 10, се планират повече видове индекс.
- Видовете съхранение, поддържани от Hive, са RCfile, HBase, ORC и обикновен текст .
- SQL-подобни заявки (Hive QL), които имплицитно се преобразуват в задания MapReduce или Tez или Spark .
- По подразбиране Hive съхранява метаданните във вградена база данни на Apache Derby .
ИМПАЛА
- Impala е машина за заявки, която работи на Hadoop . Публичното разпространение на бета тестове бе обявено през октомври 2012 г. и стана общо достъпно на май 2013 г.
- Той поддържа HDFS Apache HBase съхранение и Amazon S3 .
- Чете Hadoop файлови формати, включително файл с текст, паркет, Avro, RCFile, LZO и последователност .
- Поддържа Hadoop Security (удостоверяване на Kerberos) .
- Използва метаданни, ODBC драйвер и SQL синтаксис от Apache Hive .
- Той поддържа множество кодеци за компресия:
а) Snappy (препоръчва се за ефективния му баланс между съотношението на компресия и скоростта на декомпресия),
(b) Gzip (препоръчва се при постигане на най-високо ниво на компресия),
(c) Изпускане (не се поддържа за текстови файлове), Bzip2, LZO (само за текстови файлове);
- Тя ви позволява да задавате заявки по вложени структури, включително карти, структури и масиви.
- Той позволява еднопосочни заявки на много потребители и също така позволява контрол на приемането въз основа на приоритизиране и опашка на заявките.
Сравнения между главата на Hive vs Impala (Инфографика)
По-долу е топ 20 сравнението между Hive vs Impala
Ключова разлика между Hive vs Impala
Разликите между Hive срещу Impala са обяснени в точки, представени по-долу:
- Hive е разработен от екипа на Джеф във Facebook, но Impala е разработен от Apache Software Foundation .
- Hive поддържа файлов формат на оптимизиран колонен формат (ORC) с компресия Zlib, но Impala поддържа формата на паркет с бързо компресиране .
- Hive е написан на Java, но Impala е написан на C ++.
- Скоростта на обработка на заявките в Hive е бавна, но Impala е 6-69 пъти по-бърза от Hive .
- В Hive Latency е висока, но в Impala Latency е ниска .
- Hive поддържа съхранение на RC файл и ORC, но поддържането на Impala е Hadoop и Apache HBase .
- Hive генерира заявка за изразяване по време на компилиране, но при генерирането на код на Impala за '' големи цикли '' се случва по време на изпълнение .
- Hive не поддържа паралелна обработка, но Impala поддържа паралелна обработка.
- Hive поддържа MapReduce, но Impala не поддържа MapReduce .
- В Hive няма функция за защита, но Impala поддържа Kerberos Authentication .
- В надграждане на всеки проект, където съвместимостта и бързината и двете са важни Hive е идеален избор, но за нов проект Impala е идеалният избор .
- Кошера е толерантен, но Impala не поддържа толерантност .
- Кошера поддържа сложен тип, но Impala не поддържа сложни типове .
- Hive е пакетно базирана Hadoop MapReduce, но Impala е MPP база данни .
- Hive не поддържа интерактивни изчисления, но Impala поддържа интерактивни изчисления .
- Въпросът с кошера има проблем с "студения старт", но в процеса на демон Impala се стартира по време на самото зареждане .
- Мениджърът на ресурси на кошера е YARN (още един преговарящ ресурс), но в Impala ресурсният мениджър е роден * YARN .
- Разпределенията на кошерите са всички разпределения на Hadoop, Hortonworks (Tez, LLAP), но в разпределението на Impala са Cloudera MapR (* Amazon EMR) .
- Аудиторията на кошерите е инженерите на данни, но в аудиторията на Impala са анализатори на данни / учени.
- Пропускливостта на кошера е висока, но при Impala пропускливостта е ниска .
Hive vs Impala сравнителна таблица
Сериен номер. | Основа за сравнение | кошер | Impala |
1. | Разработено от | Софтуер Apache фундамент |
|
2. | Файлов формат |
|
|
3. | език | Написано в JAVA | Написано на C ++ |
4. | Скорост на обработка | Кошера е бавен | Импала е бърз |
5. | латентност | Високо | ниско |
6. | Поддръжка за съхранение | RC файл, ORC | Hadoop, Apache HBase |
7. | Преобразуване на код | Генерира израз на заявка по време на компилиране | Генерирането на код се случва по време на изпълнение. |
8. | Поддържа паралелна обработка | Не | да |
9. | Поддръжка на MapReduce | да | Не |
10. | Hadoop Security | Не | Поддържа удостоверяване на Kerberos. |
11. | употреба | Идеален за надграждане на проекти | Идеален за стартиране на нов проект. |
12. | Устойчиви на отказ | Кошера е толерантен по вина. | Не поддържа отклонение. |
13. | Сложни типове | Кошера поддържа сложни видове. | Impala не поддържа сложни типове. |
14. | Тип база данни | Hive е базова Hadoop MapReduce. | Това е MPP база данни |
15. | Интерактивни изчисления | Не поддържа интерактивни изчисления. | Поддържа интерактивни компютри. |
16. | Екзекуция | Въпросът с кошера има проблем с „Cold Start“ | Процесът на Impala винаги започва в момента на зареждане на демони. |
17. | Управление на ресурси | прежди | Роден * ПРЪЖДА |
18. | Разпределенията | HIVE - всички Hadoop дистрибуции, Hortonworks (Tez, LLAP) | Cloudera MapR, (* EMR на Amazon) |
19. | Публика | Инженери на данни | Data Analyst / Data Scientist |
20. | магистрала | Висока производителност | Ниска пропускателна способност |
Заключение - Hive vs Impala
В тази статия ние се опитахме да покажем, че това, което са две технологии, а именно Hive и Impala, са и основната разлика между тези технологии. На практика можем да кажем, че Hive и Impala не са конкурентите, тъй като и двете принадлежат на една и съща основа, която е известна като MapReduce за изпълнение на заявките, използването на двете може да създаде разлика. Според нашите нужди можем да го използваме заедно или най-добре според съвместимостта, нуждата и производителността. Езикът на заявките на Hive е Hive QL, който е много универсален и универсален език, докато Impala е интензивно памет и не работи добре за обработка на тежки операции с данни, пример за заявки за присъединяване. Ако във вашия проект работата е свързана с пакетна обработка на голям обем данни, кошера ще е по-добър в този случай и ако работата ви е свързана с процеса в реално време на ad-hoc запитване на данни, тогава Impala ще бъде по-добре в този случай.
Препоръчителен член
Това е ръководство за Hive Vs Impala, тяхното значение, сравнение между главата, ключови разлики, таблица на сравнението и заключение. Можете също да разгледате следните статии, за да научите повече -
- Apache Hive срещу Apache Spark SQL - 13 невероятни разлики
- Hive VS HUE - Топ 6 полезни сравнения за научаване
- Apache Pig vs Apache Hive - Топ 12 полезни разлики
- Hadoop срещу кошера - открийте най-добрите разлики
- Използване на ПОРЪЧКА ПО функция в кошер