Въведение в екосистемата Hadoop

Екосистемата Hadoop е рамка, която помага при решаването на проблеми с големи данни. Основният компонент на екосистемата Hadoop е разпределената файлова система (HDFS) на Hadoop. HDFS е разпределената файлова система, която има възможност да съхранява голям набор от масиви данни. С помощта на командни черупки HADOOP интерактивен с HDFS. Hadoop Разбива неструктурирани данни и разпространява в различни секции за анализ на данни. Екосистемата осигурява много компоненти и технологии имат възможност за решаване на сложни бизнес задачи. Екосистемата включва проекти и примери с отворен код

Преглед на екосистемата Hadoop

Както всички знаем, че Интернет играе жизненоважна роля в електронната индустрия и количеството данни, генерирани чрез възли, е много голямо и води до революция на данните. Данните са огромни по обем, така че има нужда от платформа, която да се грижи за нея. Архитектурата на Hadoop минимизира работна ръка и помага при планиране на работа. За да обработим тези данни, имаме нужда от силна изчислителна способност, за да се справим с тях. Тъй като данните нарастват драстично, това изисква големи обеми памет и по-бърза скорост за обработка на терабайти от данни, за да се отговори на предизвикателствата се използва разпределената система, която използва множество компютри за синхронизиране на данните. За справяне с тази система за обработка е задължително да се открие софтуерна платформа за справяне с проблеми, свързани с данни. Там се развива Hadoop за решаване на проблеми с големи данни.

Компоненти на екосистемата Hadoop

Тъй като видяхме преглед на Hadoop Ecosystem и добре известни примери с отворен код, сега ще обсъдим задълбочено списъка на Hadoop Components поотделно и техните специфични роли в обработката на големи данни. Компонентите на екосистемите на Hadoop са:

  1. HDFS:

Hadoop Разпределената файлова система е основата на Hadoop, която работи на езика Java и съхранява данни в Hadoop приложения. Те действат като команден интерфейс за взаимодействие с Hadoop. двата компонента на HDFS - възел за данни, име на възел. Възел с име Основният възел управлява файловите системи и оперира всички възли с данни и поддържа записи на актуализиране на метаданни. В случай на изтриване на данни, те автоматично го записват в Edit Log. Data Node (Slave Node) изисква огромно пространство за съхранение поради изпълнението на операции за четене и запис. Те работят в съответствие с инструкциите на Името възел. Възлите за данни са хардуер в разпределената система.

  1. HBASE:

Това е рамка с отворен код, съхраняваща всички видове данни и не поддържа SQL базата данни. Те работят над HDFS и са написани на java език. Повечето компании ги използват за своите функции като поддържане на всички видове данни, висока сигурност, използване на таблици HBase. Те играят жизненоважна роля в аналитичната обработка. Двата основни компонента на HBase са HBase master, Regional Server. Майсторът на HBase е отговорен за балансирането на натоварването в клъстер Hadoop и контролира аварийната промяна. Те са отговорни за изпълнението на административната роля. Ролята на регионалния сървър ще бъде работен възел и отговорен за четенето, записването на данни в кеша.

  1. прежди:

Това е важен компонент в екосистемата и се нарича операционна система в Hadoop, която осигурява управление на ресурсите и задача за планиране на работни места. Компонентите са Resource и Node manager, Мениджър на приложения и контейнер. Те също действат като пазачи в групите Hadoop. Те помагат за динамичното разпределение на ресурсите на клъстери, увеличаване на процеса в центъра за данни и позволява на двигатели с множество достъп.

  1. Sqoop:

Това е инструмент, който помага при прехвърляне на данни между HDFS и MySQL и дава ръка за импортиране и експортиране на данни, те имат конектор за извличане и свързване на данни.

  1. Apache Spark:

Това е рамка на изчислителната рамка с отворен код за анализиране на данни и основна машина за обработка на данни. Написана е на Scala и се предлага с пакетирани стандартни библиотеки. Те се използват от много компании за тяхната висока скорост на обработка и обработка на потоци.

  1. Apache Flume:

Това е разпределена услуга, която събира голямо количество данни от източника (уеб сървър) и се връща към своя произход и се прехвърля към HDFS. Трите компонента са източник, мивка и канал.

  1. Hadoop карта Намаляване:

Той отговаря за обработката на данни и действа като основен компонент на Hadoop. Map Reduce е процесор, който прави паралелна обработка в множество системи от един и същ клъстер. Тази техника се основава на метода разделяне и завладяване и е написана в java програмиране. Благодарение на паралелната обработка, той помага в бързия процес за избягване на задръствания трафик и ефективно подобрява обработката на данни.

  1. Apache Pig:

Манипулирането на данни на Hadoop се извършва от Apache Pig и използва Pig Latin Language. Помага при повторна употреба на код и лесен за четене и писане код.

  1. Hive:

Това е софтуер с платформа с отворен код за изпълнение на концепции за съхранение на данни, той успява да запитва големи масиви от данни, съхранявани в HDFS. Той е изграден на върха на екосистемата Hadoop. езикът, използван от Hive, е езикът на заявките на Hive. Потребителят изпраща заявките на кошера с метаданни, които преобразуват SQL в задачи за намаляване на Map и се предоставят на клъстера Hadoop, който се състои от един главен и многобройни роби.

  1. Apache бормашина:

Apache Drill е SQL двигател с отворен код, който обработва нерелационни бази данни и файлова система. Те са проектирани да поддържат полуструктурирани бази данни, открити в облачно хранилище. Те имат добри възможности за управление на паметта за поддържане на сметосъбирането. Добавените функции включват Columnar представителство и използване на разпределени присъединения.

  1. Apache Zookeeper:

Това е API, който помага при разпределената координация. Тук възел, наречен Znode, се създава от приложение в кластера Hadoop. Правят услуги като синхронизация, конфигурация. Той подрежда отнемащата време координация в екосистемата Hadoop.

  1. Oozie:

Oozie е уеб приложение на Java, което поддържа много работни процеси в клъстер Hadoop. Контролът върху API на уеб услугите над дадена работа се извършва навсякъде. Той е популярен за ефективно справяне с няколко работни места.

Примери за Hadoop Ecosystem

По отношение на намаляването на картата можем да видим пример и случай на използване. един такъв случай е Skybox, който използва Hadoop за анализ на огромен обем от данни. Hive може да намери простотата във Facebook. Честота на броя на думите в изречение с помощта на намаление на картата. MAP изпълнява, като приема броя като вход и изпълнява функции като Филтриране и сортиране и намалението () консолидира резултата. Дайте пример за вземане на студенти от различни състояния от студентски бази с помощта на различни DML команди

заключение

Това завършва кратка уводна бележка за Hadoop Ecosystem. Apache Hadoop придоби популярност благодарение на своите функции като анализиране на стек от данни, паралелна обработка и помощ при отказ на грешки. Основните компоненти на екосистемите включват Hadoop common, HDFS, Map-redu и Прежди. За изграждане на ефективно решение. Необходимо е да научите набор от компоненти, всеки компонент върши своята уникална работа, тъй като са Hadoop функционалност.

Препоръчителни статии

Това е ръководство за компонентите на Hadoop Ecosystem. Тук обсъдихме подробно компонентите на Hadoop Ecosystem. Можете да разгледате и другите ни предложени статии, за да научите повече -

  1. Обхват на кариера в Хадоп
  2. Какви са употребите на Hadoop?
  3. Какво е AWT в Java?
  4. Научете склад за данни срещу Hadoop

Категория: