Въведение в командите на кошера

Командата Hive е инструмент за инфраструктура за съхранение на данни, който седи на върха на Hadoop, за да обобщи Big data. Обработва структурирани данни. Улеснява търсенето и анализирането на данни. Командата Hive също се нарича „схема при четене;“ Hive не проверява данните при зареждането й, проверката се случва само при издаване на заявка. Това свойство на Hive го прави бързо за първоначално зареждане. Това е като копиране или просто преместване на файл, без да се поставят ограничения или проверки. Кошера е разработен за първи път от Facebook. Apache Software Foundation го пое по-късно и го доразви.

Ето компонентите на командата Hive:

Фигура 1. Компоненти на кошер

https://www.developer.com/

Ето функциите на командата Hive, изброени по-долу:

  1. Магазините за кошери са суров и обработен набор от данни в Hadoop.
  2. Той е предназначен за OnLine обработка на транзакции (OLTP). OLTP е системите, които улесняват данните с голям обем за много по-малко време, без да разчитат на единствения сървър.
  3. Той е бърз, мащабируем и надежден.
  4. Предоставеният тук език за SQL тип заявка се нарича HiveQL или HQL. Това улеснява задачите на ETL и други анализи.

Фиг 2. Свойства на кошера

Изображения на източници: - Google

Има и малко ограничения на командата Hive, които са изброени по-долу:

  1. Hive не поддържа подзапроси.
  2. Hive със сигурност поддържа презаписване, но за съжаление не поддържа изтриване и актуализации.
  3. Кошера не е предназначен за OLTP, но се използва за него.

За да влезете в интерактивната обвивка на Кошера:

$ HIVE_HOME / хамбар / кошер

Основни команди на кошера

  1. създавам

Това ще създаде новата база данни в Hive.

  1. Изпускайте

Капката ще премахне маса от кошер

  1. Alter

Командата Alter ще ви помогне да преименувате таблицата или колоните на таблицата.

Например:

кошер> НАПРАВЕТЕ ТАБЛИЦАТА НАГЛЯД на служителя1 на служителя1;

  1. шоу

Командата Show ще покаже всички бази данни, пребиваващи в Hive.

  1. Описвам

Командата Describe ще ви помогне с информацията за схемата на таблицата.

Междинни команди на кошера

Hive разделя таблица на различни свързани дялове на базата на колони. С помощта на тези дялове става по-лесно да се заявяват данни. Тези дялове допълнително се разделят на кофи, за да изпълняват ефективно запитване към данните.

С други думи, кофите разпределят данните в набора от клъстери чрез изчисляване на хеш-код на ключ, споменат в заявката.

  1. Добавяне на дял

Добавянето на дял може да се извърши чрез промяна на таблицата. Кажете, че имате таблица „EMP“ с полета като Id, Име, Заплата, Отдел, Обозначение и yoj.

кошер> СЛЕД ТАБЛИЦА служител

> ДОБАВЕТЕ ДЯЛ (година = '2012')

местоположение '/ 2012 / част2012';

  1. Преименуване на дял

кошер> СЛЕД СТОЛНОТО РАЗДЕЛ на служителите (година = '1203')

НАГЛЕЖДАНЕ НА ДЕЙСТВИЕ (Yoj = '1203');

  1. Пуснете дял

кошер> СЛЕД СЛЕДВАЩА ТАБЛИЦА ДРОП (ако има)

> УЧАСТИЕ (година = '1203');

  1. Релационни оператори

Релационните оператори се състоят от определен набор от оператори, който помага при извличането на съответната информация.

Например: Кажете таблицата си „EMP“ да изглежда така:

Нека изпълним запитване на Hive, което ще ни донесе служителя, чиято заплата е по-голяма от 30000.

кошер> ИЗБЕРЕТЕ * ОТ EMP, КЪДЕ Заплащане> = 40000;

  1. Аритметични оператори

Това са оператори, които помагат в помощ при извършване на аритметични операции върху операндите и от своя страна винаги връщат типове числа.

Например: За да добавите две числа като 22 и 33

кошер> ИЗБЕРЕТЕ 22 + 33 ДОБАВЕТЕ ОТ темп;

  1. Логически оператор

Тези оператори трябва да изпълняват логически операции, които в замяна винаги връщат True / False.

кошер> ИЗБЕРЕТЕ * ОТ EMP, КЪДЕ Заплащане> 40000 && Dept = TP;

Разширени команди на кошера

  1. изглед

Концепцията на View в Hive е подобна като в SQL. Изгледът може да бъде създаден в момента на изпълнение на оператор SELECT.

Пример:

кошер> СЪЗДАВАНЕ ВИЖТЕ EMP_30000 AS

ИЗБЕРЕТЕ * ОТ ЕМП

КЪДЕ заплата> 30000;

  1. Зареждане на данни в таблица

Hive> Заредете данни локални inpath '/home/hduser/Desktop/AllStates.csv' в състоянията на таблицата;

Тук „Щатите“ е вече създадената таблица в Hive.

https://www.tutorialspoint.com/hive/

Hive има някои вградени функции, които ви помагат да постигнете по-добър резултат.

Като кръгла, под, BIGINT и т.н.

  1. Присъединяване

Клаузата за присъединяване може да помогне при обединяването на две таблици въз основа на едно и също име на колона.

Пример:

кошер> ИЗБЕРЕТЕ c.ID, c.NAME, c.AGE, o.AMOUNT

ОТ ПОТРЕБИТЕЛИ c ПРИСЪЕДИНЕТЕ ПОРЪЧКИ o

ON (c.ID = o.CUSTOMER_ID);

Всички видове съединения се поддържат от Hive: Ляво външно съединение, дясно външно съединение, пълно външно съединение.

Съвети и трикове за използване на команди на кошера

Hive прави обработката на данни толкова лесна, ясна и разширяваща се, че потребителят обръща по-малко внимание за оптимизиране на заявките на Hive. Но като обърнете внимание на няколко неща, докато пишете заявка на Hive, със сигурност ще донесе голям успех в управлението на натовареността и спестяването на пари. По-долу са няколко съвета относно това:

  1. Дялове и кофи: Hive е голям инструмент за данни, който може да прави заявки при големи набори от данни. Въпреки това, написването на заявката без разбиране на домейна може да донесе страхотни дялове в Hive.

Ако потребителят е запознат с набора от данни, тогава съответните и високо използвани колони могат да бъдат групирани в един и същ дял. Това ще помогне за бързото и неефективно изпълнение на заявката.

В крайна сметка не. на операциите на картографиране и извеждане на данни също ще бъдат намалени.

Фиг. 3. Разделяне

Изображения на източници: изображение на Google

Фиг. 4 Копане

Изображения на източници: - изображение на Google

  1. Паралелно изпълнение: Hive изпълнява заявката на няколко етапа. В някои случаи тези етапи могат да зависят от други етапи, следователно не може да започне, след като предишният етап е завършен. Независимите задачи обаче могат да се изпълняват паралелно, за да се спести общото време на изпълнение. За да активирате паралелното изпълнение в Hive:

set hive.exec.parallel = true;

Следователно, това ще увеличи използването на клъстера.

  1. Блокова извадка: Избор на данни от таблица ще позволи проучване на заявки към данни.

Въпреки букирането, ние по-скоро искаме да извадим набор от данни по-случайно. Блокът за вземане на проби се предлага с различни мощен синтаксис, който помага при вземане на извадки по различен начин.

Вземането на проби може да се използва за намиране на ок. информация от набора от данни като средното разстояние между произход и дестинация.

Запитване на 1% от големите данни ще даде близо до перфектния отговор. Проучването става по-лесно и ефективно.

Заключение - командите на кошера

Hive е абстракция на по-високо ниво върху HDFS, която осигурява гъвкав език за заявки. Помага при по-лесен начин на запитване и обработка на данни.

Кошера може да се използва с помощта на други елементи с големи данни, за да се използва функционалността му по пълноценен начин.

Препоръчителни статии

Това е ръководство за командите на кошера. Тук сме обсъдили основни, както и усъвършенствани Hive Commands и някои непосредствени команди Hive. Можете също да разгледате следната статия, за да научите повече -

  1. Въпроси за интервю на кошера
  2. Hive VS Hue - Топ 6 полезни сравнения
  3. Команди на Табау
  4. Команди на Adobe Photoshop
  5. Използване на ПОРЪЧКА ПО функция в кошер
  6. Изтеглете и инсталирайте кошер стъпка по стъпка

Категория: