Какво представлява MapReduce в Hadoop? - Как работи - Умения и кариерен растеж

Какво представлява MapReduce в Hadoop

MapReduce е рамка на Hadoop, която се използва за надеждна обработка на паралелни огромни количества данни за големи клъстери от стоков хардуер. Hadoop е проект с отворен код, осигурен от софтуерната фондация Apache. Hadoop използва за бърз и надежден анализ както на структурирани данни, така и на неструктурирани данни. Hadoop може да се справи с много големи масиви от данни и които могат да бъдат както структурирани данни, така и неструктурирани данни, което всъщност е свързано с големи данни. Рамка Hadoop, която позволява на приложението да съхранява данните в разпределен вид и да обработва големи набори от данни в клъстери от компютри, използвайки опростен модел на програмиране, това е, което намалява картата, така че с други думи можем да наречем Map Reduce като модел на програмиране, използван за обработка огромно количество данни, разпределени върху броя на клъстерите. Hadoop може да мащабира от единични сървъри до хиляди изчислителни възли или машини, които се използват за изчисляване и съхранение.

Проектът Apache Hadoop съдържа редица подпроекти като:

Hadoop Common: Hadoop Common има помощни програми, които поддържат другите подпроекти на Hadoop.
Hadoop разпределена файлова система (HDFS): Разпределената файлова система Hadoop осигурява достъп до разпределения файл до данните на приложението.
Hadoop MapReduce: Hadoop MapReduce е софтуерна рамка за обработка на големи разпределени набори от данни в изчислителни клъстери.
Hadoop ПРЪЖДА: Hadoop ПРЕЖДА е рамка за управление на ресурсите и планиране на работа.

Как MapReduce в Hadoop прави работата толкова лесна?

MapReduce улеснява мащабирането на обработката на данни в стотици или хиляди клъстер машини. Моделът MapReduce всъщност работи в две стъпки, наречени карта и редукция, и обработката, наречена съответно като картограф и редуктор. След като напишем MapReduce за приложение, приложението за мащабиране, за да се изпълни на множество или дори множество от хиляди клъстери, е просто промяна в конфигурацията. Тази функция на модела MapReduce привлече много програмисти да го използват.

Как работи MapReduce в Hadoop?

Програмата MapReduce се изпълнява главно в четири стъпки:

Входни разделяния
карта
разбъркване
Намалете

Сега ще виждаме всяка стъпка как работят.

1. Стъпка на картата-

Тази стъпка е комбинацията от стъпка на разделяне на входа и стъпка Map. В стъпка Map, изходният файл се предава като ред по ред. Преди входът да премине към функцията Map Map, входът се разделя на малкия фиксиран размер, наречен Input splits. Разделянето на входа е част от входа, който може да бъде консумиран от една карта. В стъпка Map, всички разделени данни се предават на функцията Mapper, след това функцията mapper обработва данните и след това изходните стойности. Обикновено данните за въвеждане на работа на карта или картограф са под формата на файл или директория, които се съхраняват във файловата система Hadoop (HDFS).

2. Намалете стъпката-

Тази стъпка е комбинацията от стъпка на разбъркване и намаляване. Функцията за намаляване или работата на редуктора взема данните, които са резултат от функцията на картата. След обработка чрез намаляване на функцията се произвежда нов набор от резултати, които отново се съхраняват обратно в HDFS.

В рамка на Hadoop не е сигурно, че всеки клъстер изпълнява коя задача или Map или Reduce, или и Map и Reduce. Така че заявката на задачите Map and Reduce трябва да бъде изпратена до съответните сървъри в клъстера. Самата рамка Hadoop управлява всички задачи по издаване, проверка на приключване на работата, извличане на данни от HDFS, копиране на данни в клъстера на възлите и така нататък. В Hadoop най-вече изчисленията се извършват на възли, заедно с данни в самите възли, което намалява мрежовия трафик.

Така че рамката MapReduce е много полезна в рамката на Hadoop.

Предимства на MapReduce

Мащабируемост - MapReduce прави Hadoop високо мащабируем, тъй като дава възможност за съхраняване на големи масиви от данни в разпространителна форма на множество сървъри. Тъй като е разпределен в множество, така може да работи паралелно.
Икономично решение - MapReduce предоставя много рентабилно решение за бизнеса, който трябва да съхранява нарастващите данни и да ги обработва по много рентабилен начин, какъвто е днешната потребност на бизнеса.
Гъвкавост - MapReduce прави Hadoop много гъвкав за различни източници на данни и дори за различни видове данни, като структурирани или неструктурирани данни. Затова прави много гъвкав достъп до структурирани или неструктурирани данни и ги обработва.
Бързо - като данни за съхранение на Hadoop в разпределената файлова система, чрез която съхраняването на данните на локалния диск на клъстер и програмите MapReduce обикновено са разположени на същите сървъри, което позволява по-бърза обработка на данни без нужда от достъп данните от други сървъри.
Паралелна обработка - Тъй като данните за съхранение на Hadoop в разпределената файлова система и работата на програмата MapReduce е такава, че тя разделя картата на задачите и намалява и може да се изпълнява паралелно. И отново поради паралелното изпълнение намалява цялото време на изпълнение.

умения

Необходимите умения за MapReduce в Hadoop са с добро познаване на програмирането на Java (задължително), операционна система Linux и познаване на SQL заявки.

Обхватът на MapReduce в Hadoop

MapReduce в Hadoop е бързоразвиващо се поле, тъй като полето с големи данни се разраства, така че обхватът на MapReduce в Hadoop е много обещаващ в бъдеще, тъй като количеството на структурираните и неструктурирани данни нараства експоненциално от ден на ден. Платформите за социални медии генерират много неструктурирани данни, които могат да бъдат извлечени, за да получите реална представа за различни домейни.

заключение

MapReduce е рамка на Hadoop, която се използва за надеждна обработка на паралелни огромни количества данни за големи клъстери от стоков хардуер.
Проектът Apache Hadoop съдържа редица подпроекти като Hadoop Common, Hadoop Distributed File System (HDFS), Hadoop MapReduce, Hadoop YARN.
В стъпката на картата всеки разделен данни се предава на функцията за картографиране, след това функцията за картографиране обработва данните и след това изходните стойности.
Функцията за намаляване или работата на редуктора взема данните, които са резултат от функцията на картата.
Преимуществата на MapReduce, изброени като мащабируемост, икономично решение, гъвкавост, бърза, паралелна обработка.

Препоръчителни статии

Това е ръководство за Какво е MapReduce в Хадооп. Тук обсъдихме компонентите, работата, уменията, кариерния растеж и предимствата на MapReduce в Hadoop. Можете също да прегледате и другите ни предложени статии, за да научите повече

Какво е алгоритъм?
Разлики между Hadoop срещу MapReduce
Какво е Azure?
Какво е Big Data Technology?
Как работи MapReduce

Какво представлява MapReduce в Hadoop? - Как работи - Умения и кариерен растеж

Съдържание:

Какво представлява MapReduce в Hadoop

Как MapReduce в Hadoop прави работата толкова лесна?

Как работи MapReduce в Hadoop?

Предимства на MapReduce

умения

Обхватът на MapReduce в Hadoop

заключение

Препоръчителни статии

HBase срещу HDFS - Топ 4 сравнения на HBase с HDFS - Инфографика

HDFS Архитектура - Характеристики и видове HDFS архитектура

HBase срещу Cassandra - кой е по-добър (Инфографика)

HDFS команда - Основни за разширена команда със съвети и трикове

HBAse Команди - Основни команди със съвети и трикове

Топ 10 въпроса и отговори за интервю за PLC (Актуализирано за 2019 г.)

Филтър на въртящата се маса - Как да филтрирате данните в оборотна таблица с примери

PL / SQL колекции - Синтаксис, типове, изключения, методи и предимства

Формула на оборотна таблица в Excel - Стъпки за използване на формулата на оборотна таблица в Excel

Оборотна таблица с няколко листа в Excel - Комбиниране на няколко информационни листа

Боядисани ръбове Фото рамка с Photoshop CS6

Как да завъртите и изправите изображения във Photoshop CC

Как да нарисувате векторни форми във Photoshop CS6

Съвет за фото ефекти - Възстановете липсващите филтри във Photoshop CS6

Ефект от радиално замъгляване във Photoshop