Какво е кошер?

Apache Hive е система за съхранение на данни, проектирана върху платформата Hadoop с отворен код и се използва за обобщаване на данни, заявки за големи данни, анализ на данни и др.

Кошера е разработен от Facebook и в по-късен момент той е поет от Apache Software Foundation, който допълнително го разработва като отворен код под името Apache Hive.

Определение:

Не е релационна база данни и затова не е подходяща за онлайн обработка на транзакции и заявки в реално време с актуализации на ниво ред. Кошера е предназначен за онлайн аналитична обработка или OLAP. Той също така осигурява език за заявки, наречен HiveQL. Той е мащабируем, бърз и разтегателен. Той преобразува заявките, изглеждащи почти като SQL, в задания на MapReduce за лесно изпълнение и обработка на голямо количество данни. Кошера Apache е един от компонентите на Hadoop, които обикновено се използват от анализатори на данни, докато апаш свинята също се използва за същата задача, но се използва повече от изследователи и програмисти. Кошера Apache като система за съхранение на данни с отворен код се използва за търсене и анализ на огромни набори от данни, съхранявани в хранилището на Hadoop. Кошера е най-подходящ за партидни задачи, а не за видове онлайн операции за обработка на транзакциите. Освен това не поддържа заявки в реално време. Hive използва SQL като език на заявките и се използва главно за създаване на отчети. Обикновено Hive се разполага от страна на сървъра и поддържа структурирани данни. Hive също поддържа интеграция с JDBC и BI инструменти.

Разбиране на кошер:

По-долу са основните компоненти на кошера:

Мета Магазин:

Хранилището, в което се съхраняват метаданните, се нарича hive meta store. Метаданните се състоят от различни данни за таблиците като неговото местоположение, схема, информация за дяловете, която помага да се следи различно разпределения напредък на данните в клъстера. Той също така следи данните и копира данните, които осигуряват резервно копие в случай на спешни случаи като загуба на данни. Информацията за метаданните присъства в релационни бази данни, а не във файловата система Hadoop.

Шофьор:

При изпълнение на оператора за език на запитване Hive, драйверът получава изявлението и го контролира за целия цикъл на изпълнение. Заедно с изпълнението на оператора, драйверът съхранява и метаданните, генерирани от изпълнението. Той също така създава сесии, за да следи напредъка и жизнения цикъл на различните екзекуции. След приключване на операцията по намаляване на заданието MapReduce, водачът събира всички данни и резултати от заявката

Съставител:

Използва се за превод на езика на запитване на Hive във входа на MapReduce. Той извиква метод, който изпълнява стъпките и задачите, необходими за четене на изхода HiveQL, както е необходимо от MapReduce.

Optimizer:

Основната задача на оптимизатора е да подобри ефективността и мащабируемостта, създавайки задача, докато трансформира данните преди операцията за намаляване. Той също така извършва трансформации като агрегация, конверсия на тръбопровод чрез едно присъединяване за множество съединения.

Изпълнител:

След компилиране и стъпка за оптимизация основната задача на изпълнителя е да изпълни задачите. Основната задача на изпълнителя е да взаимодейства с Hadoop за проследяване на задачи за планиране на задачи, готови за изпълнение.

UI, Thrift сървър и CLI:

Thrift сървърът се използва от други клиенти за взаимодействие с двигателя на Hive. Потребителският интерфейс и интерфейсът на командния ред помагат за подаване на заявките, както и за наблюдение на процесите и инструкции, така че външните потребители да могат да взаимодействат с кошера.

По-долу са стъпките, показващи взаимодействието на кошера с рамката на Hadoop:

Изпълнение на заявката:

Заявката се изпраща на драйвера от интерфейси на кошера, като команден ред или уеб интерфейс. Драйвер може да бъде всеки драйвер на база данни като JDB или ODBC и т.н.

Получаване на плана:

Синтаксисът за изискването на заявката или плана за заявки може да се провери с помощта на съставителя на заявките, който преминава през заявката и се извиква от водача.

Получаване на метаданните:

Мета магазина може да се намира във всяка база данни и компилаторът отправя заявка за достъп до метаданните.

Изпращане на метаданните:

По искане на компилатора, мета магазина изпраща метаданните.

Изпращане на плана:

Компилаторът изпраща плана на драйвера за проверка на изпратените от компилатора изисквания. Тази стъпка завършва анализа и компилирането на заявка.

Изпълнение на плана:

Планът за изпълнение се изпраща към двигателя за изпълнение от водача.

Изпълнение на работата:

Изпълнението на заданието е задача на MapReduce, която работи в задния ред. След това следва нормалната конвенция на Hadoop Framework - механизмът за изпълнение ще изпрати задача към инструмента за проследяване на задачи, който се намира на възела с име, а именният възел от своя страна ще присвои заданието на инструмента за проследяване на задачи, който е в бележката за данни. Тук се изпълнява заданието MapReduce.

Опции за метаданни:

Докато изпълнява задачата, механизмът за изпълнение може да изпълнява операции с метаданни с мета магазина.

Извличане на резултата:

Възлите за данни след завършване на обработката предават резултата на машината за изпълнение.

Изпращане на резултата

Водачът получава резултата от двигателя за изпълнение.

Изпращане на резултат:

Накрая интерфейсите на Hive получават резултата от драйвера.

По този начин чрез изпълнението на горните стъпки се извършва цялостно изпълнение на заявките в Hive.

Как кошерът прави работата толкова лесна?

Hive е рамка за съхранение на данни, изградена на върха на Hadoop, която помага на потребителя за извършване на анализ на данни, заявки за данни и обобщаване на данни при големи обеми от набори от данни. HiveQL е уникална функция, която изглежда като SQL данни, съхранявани в базата данни и извършва обширен анализ. Бях способен да чета данни с много висока скорост и да записвам данните в хранилищата на данни, както и да мога да управлявам големи масиви от данни, разпределени в множество места. Заедно с този кошер също осигурява структура на данните, които се съхраняват в базата данни и потребителите са в състояние да се свържат с кошера, използвайки инструмента за команден ред или драйвер JDBC.

Топ компании:

Основните организации, работещи с големи данни, използват кошера - като фейсбук, Amazon, Walmart и много други.

Какво можете да направите с Hive?

Има много функции на кошера като запитване на данни, обобщаване на данни и анализ на данни. Hive поддържа заявителен език, наречен HiveQL или Hive Query Language. Езикови заявки за запитване на Hive се превеждат в заданието MapReduce, което се обработва в клъстера Hadoop. Отделно от това, Hiveql намалява и скрипта, който може да бъде добавен в заявките. По този начин HiveQL увеличава гъвкавостта на дизайна на схемата, която също поддържа десериализация на данни и сериализация на данни.

Работа с кошер:

По-долу са някои от оперативните детайли в Hive. Данните на кошера са класифицирани в четири типа, както са дадени по-долу:

  • Видове колони
  • Литерали
  • Нулеви стойности
  • Сложни типове

1. Видове колони:

Това са типовете данни на колоните на кошера. Те са класифицирани по-долу:

  • Интегрални типове: Целите данни се представят с помощта на интегрален тип данни. Символът е INT. Всички данни, надвишаващи горната граница на INT, трябва да бъдат назначени тип данни от BIGINT. По същия начин всички данни под долната граница на INT трябва да бъдат присвоени SMALLINT. Има още един тип данни, наречен TINYINT, който дори е по-малък от SMALLINT.
  • Типове низове: Типът на низовите данни се представя в кошера с един цитат („) или двойни кавички (“). Тя може да бъде от два вида - VARCHAR или CHAR.
  • Времева марка: Временната марка на кошера поддържа java.sql.Timetamp формат „гггг-мм-дд чч: мм: ss.ffffffffff“ и формат „ГГГГ-ММ-DD НН: MM: SS.fffffffff“.
  • Дата: Датата е представена в кошера във формат ГГГГ-ММ-ДД, представляващ ден-месец-месец.
  • Десетични знаци : десетичните знаци в кошера са представени в големия десетичен формат java и се използват за представяне на неизменна произволна точност. Представя се във формат Десетичен (прецизност, мащаб).
  • Типове съюз: Union се използва в кошера, за да създаде колекция от хетерогенен тип данни. Тя може да бъде създадена с помощта на създаване на съюз.

По-долу е даден пример:

UNIONTYPE
(0:1)
(1:2.0)
(2:("three", "four"))
(3:("a":5, "b":"five"))
(2:("six", "seven"))
(3:("a":8, "b":"eight"))
(0:9)
(1:10.0)
UNIONTYPE
(0:1)
(1:2.0)
(2:("three", "four"))
(3:("a":5, "b":"five"))
(2:("six", "seven"))
(3:("a":8, "b":"eight"))
(0:9)
(1:10.0)

2. Литература:

Има малко литерали, използвани в кошера. Те са както по-долу:

  • Тип с плаваща запетая : Те са представени като числа с десетична запетая. Те са доста подобни на двойния тип данни.
  • Десетичен тип : Този тип данни съдържа само данни от десетичен тип, но с по-голям диапазон на стойност с плаваща запетая от двойния тип данни. Диапазонът на десетичния тип е приблизително от -10 -308 до 10 308.

3. Нулева стойност:

Специалната стойност NULL представлява липсващи стойности в кошера.

4. Комплексни типове:

По-долу са описани различните сложни типове в кошера:

  • Масиви : Масивите са представени в кошер в същата форма като на java. Синтаксисът е като ARRAY.
  • Карти : Картите са представени в кошера в същата форма като на java. Синтаксисът е като MAP
  • ,
  • Структури : Структурите в кошера са представени като сложни данни с коментари. Синтаксисът е като STRUCT.

Освен всичко това, можем да създадем бази данни, таблици, да ги разделим и много други функции.

  • Бази данни: Те са пространствата с имена, съдържащи колекция от таблици. По-долу е синтаксисът за създаване на база данни в кошер.

CREATE DATABASE (IF NOT EXISTS) sampled;

Базите данни могат също да бъдат изпуснати, ако вече не са необходими. По-долу е синтаксисът за пускане на база данни.

DROP DATABASE (IF EXISTS) sampled;

  • Таблици: Те също могат да бъдат създадени в кошера за съхранение на данни. По-долу е синтаксисът за създаване на таблица.

CREATE (TEMPORARY) (EXTERNAL) TABLE (IF NOT EXISTS) (db_name.) table_nam
((col_name data_type (COMMENT col_comment), …)) (COMMENT table_comment
(ROW FORMAT row_format) (STORED AS file_format)

Може да се изпусне и таблица, ако вече не е необходима. По-долу е синтаксисът за пускане на таблица.

DROP TABLE (IF EXISTS) table_name;

Предимства

Основното предимство на Apache Hive е за запитване, обобщаване и анализ на данни. Hive е проектиран за по-добра производителност на разработчика, а също така идва с цената на увеличаване на латентността и намаляване на ефективността. Apache Hive осигурява широк спектър от дефинирани от потребителя функции, които могат да бъдат взаимосвързани с други Hadoop пакети като RHipe, Apache Mahout и др. Помага на разработчиците до голяма степен при работа със сложна аналитична обработка и множество формати на данни. Използва се главно за съхранение на данни, което означава система, използвана за отчитане и анализ на данни.

Тя включва почистване, преобразуване и моделиране на данни, за да предостави полезна информация за различни бизнес аспекти, която ще помогне за създаването на полза за една организация. Анализът на данни има много различни аспекти и подходи, които обхващат разнообразни техники с разнообразни имена в различни бизнес модели, социални научни области и др. Hive е много удобен за потребителите и позволява на потребителите едновременно да получават данни, увеличавайки времето за реакция. В сравнение с другия тип заявки за огромни набори от данни, времето за отговор на кошера е много по-бързо от другите. Освен това е много гъвкава по отношение на производителността при добавяне на повече данни и чрез увеличаване на броя на възлите в клъстера.

Защо трябва да използваме Кошера?

Заедно с кошера за анализ на данни предоставя широк набор от възможности за съхраняване на данните в HDFS. Hive поддържа различни файлови системи като плосък или текстов файл, последователен файл, състоящ се от двойки двойки ключ-стойност, RC файлове, които съхраняват колона на таблица в колонна база данни. В наши дни файлът, който е най-подходящ с Hive, е известен като ORC файлове или оптимизирани файлове с колонна колона.

Защо се нуждаем от кошер?

В днешния свят Hadoop се свързва с най-разпространените технологии, които се използват за обработка на големи данни. Много богатата колекция от инструменти и технологии, които се използват за анализ на данни и други големи обработки на данни.

Коя е подходящата аудитория за изучаване на Hive технологии?

Основно хората, които имат опит като разработчици, Hadoop анализи, системни администратори, съхранение на данни, SQL професионалист и Hadoop администрация могат да овладеят кошера.

Как тази технология ще ви помогне в кариерния растеж?

Hive е едно от най-горещите умения на пазара в наши дни и е един от най-добрите инструменти за анализ на данни в света на големи данни Hadoop. Големите предприятия, които правят анализ на големи масиви от данни, винаги търсят хора с правата на умения, така че да могат да управляват и да заявяват огромни обеми от данни. Hive е един от най-добрите инструменти, предлагани на пазара за технологии за големи данни през последните дни, който може да помогне на организация по целия свят за техния анализ на данни.

Заключение:

Освен горепосочените функции кошерът има много по-модерни възможности. Силата на кошера да обработва голям брой набори от данни с голяма точност прави кошера един от най-добрите инструменти, използвани за анализ в голямата платформа за данни. Освен това, той също има голям потенциал да се превърне в един от водещите инструменти за анализиране на големи данни през следващите дни поради периодично подобрение и лекота на използване за крайния потребител.

Препоръчителни статии

Това е ръководство за Какво е кошер. Тук обсъдихме работата, уменията, кариерния растеж, предимствата на Hive и топ компаниите, които прилагат тази технология. Можете да разгледате и другите ни предложени статии, за да научите повече -

  1. Команди на кошера
  2. Въпроси за интервю на кошера
  3. Какво е Azure?
  4. Какво е Big Data Technology?
  5. Архитектура на кошери | дефиниция
  6. Използване на ПОРЪЧКА ПО функция в кошер

Категория: