Въведение в екосистемата Hadoop

Apache Hadoop е система с отворен код за надеждно съхраняване и обработка на много информация на много стокови компютри. Hadoop за първи път е написан на хартия и публикуван през октомври 2013 г. като „Google File System“. Дъг Кътинг, който по това време работеше в Yahoo, въведе името като Hadoop Ecosystem въз основа на името на играчката слон на сина си. Ако разгледаме основното ядро ​​на Apache Hadoop, тогава първо може да се разгледа частта за съхранение, известна като Hadoop разпределена файлова система (HDFS), и второ, обработваща част, която е известна като модул за намаляване на програмиране на карта. Hadoop всъщност разделя един огромен файл и ги съхранява в множество възли в клъстера.

Концепцията за Hadoop Ecosystem

Рамката Apache Hadoop се държи основно под модули:

  1. Hadoop Common: съдържа всички библиотеки и помощни програми, необходими за използване на Hadoop модул.
  2. Hadoop разпределена файлова система (HDFS): Това е една от разпределените файлови системи, която помага да се съхраняват огромни данни в множество или стокови машини. Освен това, осигурете голяма полезност в случай на честотна лента, тя обикновено осигурява много висока честотна лента във вид на агрегат на клъстер.
  3. Прежда Hadoop: Въведена през 2012 г. Тя се въвежда главно за управление на ресурсите по цялата система в стоките, дори и в клъстер. Въз основа на способността на ресурсите тя разпространява или планира приложението на потребителя според изискванията.
  4. Hadoop MapReduce: Основно помага за обработване на мащабни данни чрез методология за програмиране с намаляване на карти.

Apache Hadoop винаги помага за намаляване на разходите за ИТ по отношение на обработката и съхранението на огромни данни интелигентно. Тъй като Apache Hadoop е с отворен код и хардуерът е много често достъпен, той винаги ни помага да се справим с правилното намаляване на ИТ разходите.

Софтуер с отворен код + стоков хардуер = намаление на ИТ разходи

Например, ако ще обмисляме ежедневно получаване на 942787 файлове и директории, които изискват 4077936 блока, общо 5020723 блока. Така че, ако сме конфигурирали поне 1, 46 PB капацитет, тогава за обработка над натоварването разпределената файлова система ще използва 1, 09 PB, това означава почти 74, 85% от общия конфигуриран капацитет, докато имаме предвид 178 живи възли и 24 мъртви възли.

Екосистема Hadoop основно проектирана за съхранение и обработка на големи данни, които обикновено имат някои ключови характеристики като по-долу:

  • Сила на звука

Обемът означава размера на данните, които действително се съхраняват и генерират. Зависи от размера на данните, които са били определени, наборът от данни е голям или не.

  • разнообразие

Разнообразието означава природа, структура и вид на данните, които се използват.

  • скорост

Скоростта означава скоростта на данните, които са били съхранени и генерирани в определен процес на развитие.

  • истинност

Верочността означава качеството на данните, които са били заснети, а също така помага на анализа на данните да достигнат предвидената цел.

HDFS е проектиран главно за съхраняване на много голям обем информация (терабайти или петабайти) в голям брой машини в клъстер. Той винаги поддържа някои общи характеристики, като надеждност на данните, работи на стоков хардуер, използва блокове за съхранение на файл или част от този файл, използва модела „запис веднъж прочетени много“.

HDFS, следваща по-долу архитектура с концепцията за име Node и Data Node.

Отговорността на Името Възел (Главен):

- управлява пространството от имена на файловата система

- поддържа конфигурация на клъстера

- Отговорен за управление на репликациите

Отговорността на Data Node (Slaves):

- Съхранявайте данни в локалната файлова система

- Периодично се отчитайте във възловия име с помощта на пулс

Операция за запис на HDFS:

Hadoop следва стъпките по-долу за писане на голям файл:

  1. Създайте файл и актуализирайте FS изображението, след като получите една заявка за запис на файл от всеки клиент в HDFS
  2. Получете информация за местоположението на блока или за възела с данни от възела с име.
  3. Напишете пакета по отделни възли за данни паралелно.
  4. Потвърдете завършване или приемане на писане на пакет и изпратете обратно информация на клиента Hadoop.

HDFS блоков репликационен тръбопровод:

  1. Клиентът извлича списък от Datanodes от Namenode, който ще бъде домакин на реплика на този блок
  2. След това клиентът изпраща блока данни към първата Датанода
  3. Първият Datanode получава блок, записва го и го прехвърля в следващия възел от данни в тръбопровода
  4. Когато всички реплики са написани, клиентът преминава към следващия блок във файла

Толерантност на грешки в HDFS:

Един възел от данни е изпаднал внезапно, в този случай HDFS има възможност да управлява автоматично този сценарий. Първо, всички възлови имена винаги получават по един сърдечен пулс от всеки възел на данни, ако по някакъв начин е загубил сърцебиене от един възел на данни, като се има предвид същия възел на данни като надолу, незабавно предприемете действия, за да репликирате автоматично всички блокове на останалите възли незабавно, за да задоволите репликацията фактор.

Ако възелът с име открие един нов възел на данни, наличен в клъстера, той незабавно балансира всички блокове, включително добавения възел от данни.

Сега по някакъв начин загуба на име на възел или неуспех, в този случай също така резервен възел, който държи едно FS изображение на възел с име, преиграва незабавно цялата FS операция и нагоре именния възел според изискването. Но в такъв случай е необходима ръчна намеса и цялата рамка на екосистемата на Hadoop ще бъде срината няколко пъти, за да настрои отново нов възел на име. Така че в този случай възелът с име може да бъде срив с една точка, за да се избегне този сценарий HDFS Федерация, въвеждаща множество клъстери, създадени от имен възел, и ZooKeeper може да управлява незабавно един алтернативен възел на име според изискването.

Примери за Hadoop Ecosystem

Пълният пример за екосистема Hadoop може да бъде обяснен правилно на фигурата по-долу:

Данните могат да идват от всякакъв вид източници, като хранилище на данни, хранилище на управлявани документи, файлови споделяния, обичайна база данни RDMS или облачни или външни източници. Всички тези данни стигнаха до HDFS по структура или неструктура или полуструктуриран начин. HDFS съхранява всички тези данни като разпределен начин, означава съхраняването в разпределената стокова система много интелигентно.

заключение

Екосистемата Hadoop основно предназначена за съхранение и обработка на огромни данни, които би трябвало да представят всеки от двата фактора между обем, скорост и разнообразие. Той съхранява данни в разпределена система за обработка, която работи на стоков хардуер. Имайки предвид пълния процес на екосистемата на Hadoop, HDFS разпространява блоковете с данни, а Map Reduce предоставя рамката за програмиране за четене на данни от файл, съхраняван в HDFS.

Препоръчани статии:

Това е ръководство за Hadoop Ecosystem. Тук сме обсъдили основната концепция за Hadoop Ecosystem, нейната архитектура, HDFS операции, примери, HDFS отказоустойчивост и др. Можете също да разгледате следните статии, за да научите повече -

  1. Използване на Hadoop в реалния свят
  2. Hadoop срещу Splunk
  3. Кариера в Хадоп
  4. Hadoop срещу SQL производителност

Категория: