Какво представлява Hadoop Streaming?

Hadoop стрийминг е помощна програма, която идва с разпространението на Hadoop, която може да се използва за изпълнение на програми за анализ на големи данни. Има няколко езика, които могат да се използват за изпълнение на това като Java, Scala, Unix, Perl, Python и много други. Помощната програма ни помага да създадем и работим с карта за намаляване на работни места, като всеки изпълним или скрипт е картографиращ и / или редуктор.

дефиниция

Това е разпространение на Hadoop с полезност. Помощната програма ни помага да създаваме и изпълняваме специфични задания на MapReduce с изпълним файл или скрипт като картограф и / или редуктор.

разбиране

Има Java комунални услуги, предоставени от разпространението на Hadoop, които се наричат ​​Hadoop streaming. Помощната програма е пакетирана във файл JAR. С помощта на полезността можем да създаваме и стартираме задания MapReduce с изпълним скрипт. Нещо повече, можем да създадем изпълними скриптове за изпълнение на функции за картографиране и редуктор. Изпълнимите скриптове се предават на Hadoop streaming с помощта на команда. След като скриптовете бъдат предадени на потока Hadoop, полезната програма Hadoop създава карта и намалява заданията и ги изпраща в клъстера. Тези работни места също могат да бъдат наблюдавани с тази помощна програма.

Как работи?

Скриптът, посочен за картографиране и редуктор, работи по-долу-

След пълната инициализация на скрипта за картографиране, той ще стартира инстанцията на скрипта с различни идентификатори на процеса. Задачата за картографиране, докато работи, взема входните линии и го предава на стандартния вход. В същото време изходът от стандартния изход на процеса се събира от картографиращия. Той преобразува всеки ред в двойка ключ-стойност. Наборът от двойки ключ-стойност след това се събира като изход от картографиращия. Двойката ключови стойности се избира въз основа на символа на първия раздел. Частта от реда до първоначалния раздел е избрана като ключова, а останалата част от реда е избрана като ценна част. В случай, че разделът не присъства в ред, тогава общият ред е избран като ключ и няма стойностна част за реда. Това може да се коригира според нуждите на бизнеса.

Цел на използването на Hadoop Streaming

Използва се за поглъщане на данни в реално време, които могат да се използват в различни приложения в реално време. Има различни приложения в реално време като гледане на портфейли от акции, анализ на пазара на акции, разказване на прогноза за времето, сигнали за трафика, които се правят с помощта на стрийминг на Hadoop.

Работа на Hadoop Streaming

По-долу е прост пример за това как работи стрийминг на Hadoop:

$HADOOP_HOME/bin/hadoop jar $HADOOP_HOME/hadoop-streaming.jar \
-input myInputDirs \
-output myOutputDir \
-mapper org.apache.hadoop.mapred.lib.IdentityMapper \
-reducer /bin/wc

Командата за въвеждане се използва за предоставяне на входната директория, докато командата за изход се използва за предоставяне на изходната директория. Командата mapper се използва за определяне на класа на изпълним mapper, докато командата reducer се използва за определяне на изпълним клас редуктор.

Предимства на Hadoop Streaming

По-долу са предимствата на потока Hadoop:

1. Наличност

Това не изисква инсталиране и управление на допълнителен отделен софтуер. Има и други инструменти като прасе, кошер, които могат да бъдат инсталирани, което трябва да се управлява отделно.

2. Учене

Не е необходимо да се учат нови технологии. Потокът на Hadoop може да се използва с минимални умения на Unix за анализ на данни.

3. Намалете времето за развитие

Необходимо е да се напише код за картографиране и редуктор, докато се разработват поточни приложения в Unix, докато извършването на същата работа, използвайки приложението Java MapReduce, е по-сложно и трябва първо да се компилира, след това да се тества, след това да се пакетира, следва експорт на JAR файл и след това да се стартира.

4. По-бързо преобразуване

Отнема много малко време за преобразуване на данни от един формат в друг с помощта на поточно предаване на Hadoop. Можем да го използваме за преобразуване на данни от текстов файл в файл с последователност и след това отново от последователен файл в текстов файл и много други. Това може да се постигне с помощта на входния формат и опциите за формат на изхода в потока на Hadoop.

5. Тестване

Входните и изходните данни могат бързо да бъдат тествани с помощта на потока на Hadoop с Unix или Shell Script.

6. Изискване за бизнеса

За прости бизнес изисквания като прости операции за филтриране и проста операция за агрегиране можем да използваме това с Unix.

7. Изпълнение

Използвайки Hadoop поточно, можем да постигнем по-добра производителност по време на работа с поточни данни. Има и няколко недостатъка на потока на Hadoop, които се решават чрез използване на други инструменти в пакета Hadoop като Kafka, flume, искра.

Защо имаме нужда от Hadoop Streaming?

Той помага при анализ на данни в реално време, който е много по-бърз с помощта на програмиране MapReduce, работещо на много възелен клъстер. Има различни технологии като искра Kafka и други, които помагат в реално време Hadoop стрийминг.

Как тази технология ще ви помогне в кариерния растеж?

В наши дни всички големи предприятия се преместват в Hadoop за анализ на техните данни и много от тях може да изискват анализ на данните в реално време. Търсенето на използване на данни в реално време и обработка на един и същи ден за ден и тази технология създава много възможности за индивидуален растеж в кариерата.

заключение

Той предлага огромен набор от предимства за различни обработки на данни в реално време, използвайки поточни данни.

Препоръчителни статии

Това е ръководство за Hadoop Streaming. Тук обсъждаме дефиницията, концепцията, предимствата и недостатъците на Hadoop Streaming. Можете също да прегледате и другите ни предложени статии, за да научите повече-

  1. Какво е клъстер Hadoop?
  2. Какво представлява извличането на данни?
  3. Какво е визуализация на данни
  4. Какво е моделиране на данни?
  5. Пълно ръководство за Kafka Tools

Категория: