Въведение в въпросите и отговорите на Hive Interview

В новата ера на данни Hive е петабайтна скала с отворен код на инфраструктура и пакет от инструменти за съхранение на данни за съхраняване на структурирани и неструктурирани данни, изградени при разпределена файлова система (HDFS)
за анализ, заявка и извличане на масиви от данни за огромни обеми чрез активиране на SQL-подобен език, наречен HiveQL (HQL) и лесно изпълнение на заявки чрез планиране на Hadoop MapReduce.

Hive е изграден на върха на Hadoop за обработка и анализ на Big Data и прави лесно запитванията.
Първоначално кошерът е създаден от Facebook, по-късно е допълнително подобрен и развит като отворен код от Apache Software Foundation и го нарече Apache Hive. Вече има много компании, които използват Apache Hive за своите решения за големи данни.

Ако търсите работа, свързана с Hive, трябва да се подготвите за въпросите за интервю за кошера 2018. Въпреки че всяко интервю е различно и обхватът на работата също е различен, ние можем да ви помогнем с топ въпросите и отговорите за интервю на кошера 2018, които ще ви помогнат да направите скока и да получите успех в интервюто.

По-долу е горният списък с въпроси за интервю на кошера, които се задават най-вече в интервю. Тези въпроси са разделени на две части, както следва:

Част 1 - Въпроси за интервю на кошера (основни)

Тази първа част обхваща основните въпроси и отговори за интервю на кошера.

1. Избройте различните компоненти на архитектурата на кошера?

Отговор:
Има пет основни компонента в архитектурата на Hive са изброени по-долу:
• Потребителски интерфейс (UI): Той действа като комуникатор между потребители и драйвери, когато потребителят напише заявките, който потребителският интерфейс го приема и го изпълнява на драйвера, налични са два типа интерфейс, те са команден ред и интерфейс GUI.
• Драйвер: Поддържа жизнения цикъл на заявката HiveQL. Той получава заявките от потребителския интерфейс и създава сесията за обработка на заявката.
• Компилатор: Той получава плановете за заявки от драйвера и получава необходимата информация от Metastore, за да изпълни плана.
• Metastore: Съхранява информацията за данните като таблица; може да бъде от вътрешна или външна таблица. Той изпраща информацията за метаданните на компилатора, за да изпълни заявката.
• Execute Engine: Hive service ще изпълни резултата в изпълнение на двигателя; тя изпълнява заявката в MapReduce за обработка на данните. Той е отговорен за контрола на всеки етап за всички тези компоненти.

2. Кои са различните видове режими, с които Hive може да работи?

Отговор:
Това са често срещаните въпроси за интервю на кошера, зададени в интервю. Hive може да работи в два режима въз основа на размера на данните,
Тези режими са:
• Режим на намаляване на картата
•Местен режим

3. Кои са сценариите, при които Hive може да се използва и не може да се използва?

Отговор :
Когато създавате приложения за съхранение на данни, когато вашите данни са статични, когато приложението ви не се нуждае от високо време за реакция, когато обемът на данните е огромен, когато данните не се променят бързо и когато използвате заявки вместо скриптове. Hive поддържа само OLAP транзакция, тя не е подходяща за транзакции в OLTP.

Нека преминем към следващите въпроси за интервю на кошера.

4. Какви файлови формати поддържа Hive? Избройте типа приложения, които се поддържат от HIVE?

Отговор:
По подразбиране Hive поддържа формат на текстови файлове и също така поддържа двоичен формат на файлове като последователност файл, ORC файлове, паркет файлове, файлове с данни на Avro.
• Пореден файл: Обикновено файл с двоен формат, който може да се компресира и да се разделя.
• ORC файл: Оптимизиран файл с колонна колона се записва на база колона и ориентиран към колона файл за съхранение.
• Паркет файл: Това е колонен ориентиран двоичен файл, който е високоефективен за мащабни заявки.
• Файл с данни на Avro: Същият е като форматния файл с последователност, който е разделим, сгъваем и ориентиран към реда файл.
Максималният размер на низовите данни, разрешен в Hive, е 2 GB.

Hive е рамка за съхранение на данни, която е подходяща за тези приложения, които са написани на Java, C ++, PHP, Python или Ruby.

5. Какви са различните видове таблици, които се предлагат в кошер?

Отговор:
Има два типа таблица в приложението Hive, те са:
• Управлявани таблици: Данните и схемата контролират Hive.
• Външни таблици: Само схемата контролира кошера.

Част 2 - Въпроси за интервю с кошера (разширено)

Нека сега да разгледаме разширените въпроси за интервю на кошера.

6. Какво е Metastore в кошера? Избройте и обяснете различните видове конфигурация на Hive Metastores?

Отговор:
Metastore в Hive се използва за съхраняване на информацията за метаданните, тя е централно хранилище в Hive. Тя позволява съхраняването на информацията за метаданните във външна база данни. По подразбиране Hive съхранява информация за метаданни в базата данни на Derby, но може да се съхранява и в други бази данни като Oracle, MySql и т.н.
Има три типа конфигурация на Metastore, те са:
• Вградена метастора: Това е режим по подразбиране; може да получи локален достъп до библиотеката Hive, всички операции на командния ред се извършват в вграден режим. Услугата Hive, услугата metastore и базата данни работят в същия JVM.
• Локална метастара: Съхранява данни във външна база данни като MySql или Oracle. Услугата Hive и metastore работи в същия JVM, тя се свързва към базата данни, която работи в отделен JVM.
• Отдалечена метастара: Използва дистанционния режим за изпълнение на заявки, тук услугата metastore и кошера работи в отделен JVM. Можете да имате множество сървъри за метастара, за да увеличите наличността.

7. Какво е процесор за запитване на кошери? Какви са различните компоненти на процесора за запитване на кошери?

Отговор:
Това са често задаваните въпроси за интервю на кошера в интервю. Hive Query Processor се използва за преобразуване на SQL в MapReduce задания. Въз основа на реда на зависимостите задачите се изпълняват.
Компонентите на Hive Query Processor са изброени по-долу:
• Семантичен анализатор
• СДС и UDAF
• Optimizer
•Оператор
• синтактичен анализ
• Двигател за изпълнение
• Проверка на типа
• Генериране на логически план
• Генериране на физически план

8. Каква е функционалността на обект-инспектор в кошера?

Отговор:
Той е съставен от кошер, който се използва за идентифициране на структурата на отделните колони и вътрешната структура на редови обекти. Сложните обекти, които се съхраняват в множество формати, могат да бъдат достъпни с помощта на Object-Inspector в кошер.
Object-Inspector ще идентифицира структурата на обект и начините за достъп до вътрешните полета вътре в обекта.

Нека преминем към следващите въпроси за интервю на кошера.

9. Какви са различните начини за свързване на приложенията към Hive Server?

Отговор:
Има три начина за свързване на приложенията към Hive сървъра, те са:
• Клиент на икономия: Използва се за изпълнение на всички команди на кошера, използвайки различен език за програмиране като Java, C ++, PHP, Python или Ruby.
• ODBC драйвер: Това ще поддържа ODBC протокола
• JDBC драйвер: Това ще поддържа JDBC протокола

10. Какво са класовете за четене и писане по подразбиране в Hive?

Отговор:
По-долу са достъпни класовете за четене и писане в кошер:
• TextInputFormat - Този клас се използва за четене на данни в обикновен текстов формат.
• HiveIgnoreKeyTextOutputFormat - Този клас се използва за запис на данни в обикновен текстов формат.
• SequenceFileInputFormat - Този клас се използва за четене на данни във формат на файла Hadoop Sequence.
• SequenceFileOutputFormat - Този клас се използва за записване на данни във формат на файла Hadoop Sequence.

Препоръчителен член

Това е ръководство за списъка с въпроси за интервю на кошера и отговорите, така че кандидатът да може лесно да преодолее тези въпроси за интервю. Можете също да разгледате следните статии, за да научите повече -

  1. Топ 5 полезни въпроса и отговор за интервю за DBA
  2. 12 най-страхотни въпроса и отговор за интервю на GitHub
  3. 15 най-важни Ruby интервю въпроси и отговор
  4. Топ 10 най-полезни въпроса за интервю за HBase