Разлика между Hive и Impala

Hive е софтуер за проект за съхранение на данни, създаден на базата на APACHE HADOOP, разработен от екипа на Джеф във Facebook с актуална стабилна версия 2.3.0. Използва се за обобщаване на големи данни и прави лесно запитванията и анализа. Apache Hive е ефективен стандарт за SQL в Hadoop. Impala е двигател за паралелни обработки на SQL заявки, който работи на Apache Hadoop и използва за обработка на данните, които се съхраняват в HBase (Hadoop Database) и разпределена файлова система Hadoop. Impala е продукт с отворен код за паралелна обработка (MPP) SQL механизъм за заявки за данни, съхранявани в локален системен клъстер, работещ на Apache Hadoop. Apache Hive и Impala и двете са ключови части от системата Hadoop.

Затова нека проучим подробно и Hive, и Impala:

HIVE

  • Apache Hive помага при анализа на огромния набор от данни, съхраняван във файловата система Hadoop (HDFS) и други съвместими файлови системи.
  • Hive QL - За заявки за данни, съхранявани в Hadoop Cluster .
  • Използва мащабируемостта на Hadoop чрез превод .
  • Hive НЕ е пълна база данни .
  • Не предоставя актуализации на ниво запис .
  • Hadoop е пакетно ориентирана система .
  • Заявките за кошери имат висока латентност поради MapReduce .
  • Кошера не предоставя функции на Той е близък до OLAP .
  • Най-подходящ за приложения за съхранение на данни .
  • Изпълнение на заявка чрез MapReduce .
  • езикът на заявките може да се използва с персонализирани скаларни функции (UDF), агрегации (UDAF's) и функции на таблици (UDTF) .
  • Hive също така осигурява индексиране, за да се ускори, тип индекс, включително уплътняване и растерна индекс към 0, 10, се планират повече видове индекс.
  • Видовете съхранение, поддържани от Hive, са RCfile, HBase, ORC и обикновен текст .
  • SQL-подобни заявки (Hive QL), които имплицитно се преобразуват в задания MapReduce или Tez или Spark .
  • По подразбиране Hive съхранява метаданните във вградена база данни на Apache Derby .

ИМПАЛА

  • Impala е машина за заявки, която работи на Hadoop . Публичното разпространение на бета тестове бе обявено през октомври 2012 г. и стана общо достъпно на май 2013 г.
  • Той поддържа HDFS Apache HBase съхранение и Amazon S3 .
  • Чете Hadoop файлови формати, включително файл с текст, паркет, Avro, RCFile, LZO и последователност .
  • Поддържа Hadoop Security (удостоверяване на Kerberos) .
  • Използва метаданни, ODBC драйвер и SQL синтаксис от Apache Hive .
  • Той поддържа множество кодеци за компресия:

а) Snappy (препоръчва се за ефективния му баланс между съотношението на компресия и скоростта на декомпресия),

(b) Gzip (препоръчва се при постигане на най-високо ниво на компресия),

(c) Изпускане (не се поддържа за текстови файлове), Bzip2, LZO (само за текстови файлове);

  • Тя ви позволява да задавате заявки по вложени структури, включително карти, структури и масиви.
  • Той позволява еднопосочни заявки на много потребители и също така позволява контрол на приемането въз основа на приоритизиране и опашка на заявките.

Сравнения между главата на Hive vs Impala (Инфографика)

По-долу е топ 20 сравнението между Hive vs Impala

Ключова разлика между Hive vs Impala

Разликите между Hive срещу Impala са обяснени в точки, представени по-долу:

  • Hive е разработен от екипа на Джеф във Facebook, но Impala е разработен от Apache Software Foundation .
  • Hive поддържа файлов формат на оптимизиран колонен формат (ORC) с компресия Zlib, но Impala поддържа формата на паркет с бързо компресиране .
  • Hive е написан на Java, но Impala е написан на C ++.
  • Скоростта на обработка на заявките в Hive е бавна, но Impala е 6-69 пъти по-бърза от Hive .
  • В Hive Latency е висока, но в Impala Latency е ниска .
  • Hive поддържа съхранение на RC файл и ORC, но поддържането на Impala е Hadoop и Apache HBase .
  • Hive генерира заявка за изразяване по време на компилиране, но при генерирането на код на Impala за '' големи цикли '' се случва по време на изпълнение .
  • Hive не поддържа паралелна обработка, но Impala поддържа паралелна обработка.
  • Hive поддържа MapReduce, но Impala не поддържа MapReduce .
  • В Hive няма функция за защита, но Impala поддържа Kerberos Authentication .
  • В надграждане на всеки проект, където съвместимостта и бързината и двете са важни Hive е идеален избор, но за нов проект Impala е идеалният избор .
  • Кошера е толерантен, но Impala не поддържа толерантност .
  • Кошера поддържа сложен тип, но Impala не поддържа сложни типове .
  • Hive е пакетно базирана Hadoop MapReduce, но Impala е MPP база данни .
  • Hive не поддържа интерактивни изчисления, но Impala поддържа интерактивни изчисления .
  • Въпросът с кошера има проблем с "студения старт", но в процеса на демон Impala се стартира по време на самото зареждане .
  • Мениджърът на ресурси на кошера е YARN (още един преговарящ ресурс), но в Impala ресурсният мениджър е роден * YARN .
  • Разпределенията на кошерите са всички разпределения на Hadoop, Hortonworks (Tez, LLAP), но в разпределението на Impala са Cloudera MapR (* Amazon EMR) .
  • Аудиторията на кошерите е инженерите на данни, но в аудиторията на Impala са анализатори на данни / учени.
  • Пропускливостта на кошера е висока, но при Impala пропускливостта е ниска .

Hive vs Impala сравнителна таблица

Сериен номер.Основа за сравнениекошерImpala
1.Разработено отFacebookСофтуер Apache
фундамент
2.Файлов формат
  • Пореден файл.
  • Текстов файл.
  • Оптимизиран колонен колонен (ORC) формат с компресия Zlib.
  • RC файл формат.
  • Формат на паркет с бърза компресия.
  • Avro
  • LZO
  • Пореден файл.
3.езикНаписано в JAVAНаписано на C ++
4.Скорост на обработкаКошера е бавенИмпала е бърз
5.латентностВисокониско
6.Поддръжка за съхранениеRC файл, ORCHadoop, Apache HBase
7.Преобразуване на кодГенерира израз на заявка по време на компилиранеГенерирането на код се случва по време на изпълнение.
8.Поддържа паралелна обработкаНеда
9.Поддръжка на MapReduceдаНе
10.Hadoop SecurityНеПоддържа удостоверяване на Kerberos.
11.употребаИдеален за надграждане на проектиИдеален за стартиране на нов проект.
12.Устойчиви на отказКошера е толерантен по вина.Не поддържа отклонение.
13.Сложни типовеКошера поддържа сложни видове.Impala не поддържа сложни типове.
14.Тип база данниHive е базова Hadoop MapReduce.Това е MPP база данни
15.Интерактивни изчисленияНе поддържа интерактивни изчисления.Поддържа интерактивни компютри.
16.ЕкзекуцияВъпросът с кошера има проблем с „Cold Start“Процесът на Impala винаги започва в момента на зареждане на демони.
17.Управление на ресурсипреждиРоден * ПРЪЖДА
18.РазпределениятаHIVE - всички Hadoop дистрибуции, Hortonworks (Tez, LLAP)Cloudera MapR,
(* EMR на Amazon)
19.ПубликаИнженери на данниData Analyst / Data Scientist
20.магистралаВисока производителностНиска пропускателна способност

Заключение - Hive vs Impala

В тази статия ние се опитахме да покажем, че това, което са две технологии, а именно Hive и Impala, са и основната разлика между тези технологии. На практика можем да кажем, че Hive и Impala не са конкурентите, тъй като и двете принадлежат на една и съща основа, която е известна като MapReduce за изпълнение на заявките, използването на двете може да създаде разлика. Според нашите нужди можем да го използваме заедно или най-добре според съвместимостта, нуждата и производителността. Езикът на заявките на Hive е Hive QL, който е много универсален и универсален език, докато Impala е интензивно памет и не работи добре за обработка на тежки операции с данни, пример за заявки за присъединяване. Ако във вашия проект работата е свързана с пакетна обработка на голям обем данни, кошера ще е по-добър в този случай и ако работата ви е свързана с процеса в реално време на ad-hoc запитване на данни, тогава Impala ще бъде по-добре в този случай.

Препоръчителен член

Това е ръководство за Hive Vs Impala, тяхното значение, сравнение между главата, ключови разлики, таблица на сравнението и заключение. Можете също да разгледате следните статии, за да научите повече -

  1. Apache Hive срещу Apache Spark SQL - 13 невероятни разлики
  2. Hive VS HUE - Топ 6 полезни сравнения за научаване
  3. Apache Pig vs Apache Hive - Топ 12 полезни разлики
  4. Hadoop срещу кошера - открийте най-добрите разлики
  5. Използване на ПОРЪЧКА ПО функция в кошер

Категория: