Какво представлява MapReduce в Hadoop
MapReduce е рамка на Hadoop, която се използва за надеждна обработка на паралелни огромни количества данни за големи клъстери от стоков хардуер. Hadoop е проект с отворен код, осигурен от софтуерната фондация Apache. Hadoop използва за бърз и надежден анализ както на структурирани данни, така и на неструктурирани данни. Hadoop може да се справи с много големи масиви от данни и които могат да бъдат както структурирани данни, така и неструктурирани данни, което всъщност е свързано с големи данни. Рамка Hadoop, която позволява на приложението да съхранява данните в разпределен вид и да обработва големи набори от данни в клъстери от компютри, използвайки опростен модел на програмиране, това е, което намалява картата, така че с други думи можем да наречем Map Reduce като модел на програмиране, използван за обработка огромно количество данни, разпределени върху броя на клъстерите. Hadoop може да мащабира от единични сървъри до хиляди изчислителни възли или машини, които се използват за изчисляване и съхранение.
Проектът Apache Hadoop съдържа редица подпроекти като:
- Hadoop Common: Hadoop Common има помощни програми, които поддържат другите подпроекти на Hadoop.
- Hadoop разпределена файлова система (HDFS): Разпределената файлова система Hadoop осигурява достъп до разпределения файл до данните на приложението.
- Hadoop MapReduce: Hadoop MapReduce е софтуерна рамка за обработка на големи разпределени набори от данни в изчислителни клъстери.
- Hadoop ПРЪЖДА: Hadoop ПРЕЖДА е рамка за управление на ресурсите и планиране на работа.
Как MapReduce в Hadoop прави работата толкова лесна?
MapReduce улеснява мащабирането на обработката на данни в стотици или хиляди клъстер машини. Моделът MapReduce всъщност работи в две стъпки, наречени карта и редукция, и обработката, наречена съответно като картограф и редуктор. След като напишем MapReduce за приложение, приложението за мащабиране, за да се изпълни на множество или дори множество от хиляди клъстери, е просто промяна в конфигурацията. Тази функция на модела MapReduce привлече много програмисти да го използват.
Как работи MapReduce в Hadoop?
Програмата MapReduce се изпълнява главно в четири стъпки:
- Входни разделяния
- карта
- разбъркване
- Намалете
Сега ще виждаме всяка стъпка как работят.
1. Стъпка на картата-
Тази стъпка е комбинацията от стъпка на разделяне на входа и стъпка Map. В стъпка Map, изходният файл се предава като ред по ред. Преди входът да премине към функцията Map Map, входът се разделя на малкия фиксиран размер, наречен Input splits. Разделянето на входа е част от входа, който може да бъде консумиран от една карта. В стъпка Map, всички разделени данни се предават на функцията Mapper, след това функцията mapper обработва данните и след това изходните стойности. Обикновено данните за въвеждане на работа на карта или картограф са под формата на файл или директория, които се съхраняват във файловата система Hadoop (HDFS).
2. Намалете стъпката-
Тази стъпка е комбинацията от стъпка на разбъркване и намаляване. Функцията за намаляване или работата на редуктора взема данните, които са резултат от функцията на картата. След обработка чрез намаляване на функцията се произвежда нов набор от резултати, които отново се съхраняват обратно в HDFS.
В рамка на Hadoop не е сигурно, че всеки клъстер изпълнява коя задача или Map или Reduce, или и Map и Reduce. Така че заявката на задачите Map and Reduce трябва да бъде изпратена до съответните сървъри в клъстера. Самата рамка Hadoop управлява всички задачи по издаване, проверка на приключване на работата, извличане на данни от HDFS, копиране на данни в клъстера на възлите и така нататък. В Hadoop най-вече изчисленията се извършват на възли, заедно с данни в самите възли, което намалява мрежовия трафик.
Така че рамката MapReduce е много полезна в рамката на Hadoop.
Предимства на MapReduce
- Мащабируемост - MapReduce прави Hadoop високо мащабируем, тъй като дава възможност за съхраняване на големи масиви от данни в разпространителна форма на множество сървъри. Тъй като е разпределен в множество, така може да работи паралелно.
- Икономично решение - MapReduce предоставя много рентабилно решение за бизнеса, който трябва да съхранява нарастващите данни и да ги обработва по много рентабилен начин, какъвто е днешната потребност на бизнеса.
- Гъвкавост - MapReduce прави Hadoop много гъвкав за различни източници на данни и дори за различни видове данни, като структурирани или неструктурирани данни. Затова прави много гъвкав достъп до структурирани или неструктурирани данни и ги обработва.
- Бързо - като данни за съхранение на Hadoop в разпределената файлова система, чрез която съхраняването на данните на локалния диск на клъстер и програмите MapReduce обикновено са разположени на същите сървъри, което позволява по-бърза обработка на данни без нужда от достъп данните от други сървъри.
- Паралелна обработка - Тъй като данните за съхранение на Hadoop в разпределената файлова система и работата на програмата MapReduce е такава, че тя разделя картата на задачите и намалява и може да се изпълнява паралелно. И отново поради паралелното изпълнение намалява цялото време на изпълнение.
умения
Необходимите умения за MapReduce в Hadoop са с добро познаване на програмирането на Java (задължително), операционна система Linux и познаване на SQL заявки.
Обхватът на MapReduce в Hadoop
MapReduce в Hadoop е бързоразвиващо се поле, тъй като полето с големи данни се разраства, така че обхватът на MapReduce в Hadoop е много обещаващ в бъдеще, тъй като количеството на структурираните и неструктурирани данни нараства експоненциално от ден на ден. Платформите за социални медии генерират много неструктурирани данни, които могат да бъдат извлечени, за да получите реална представа за различни домейни.
заключение
- MapReduce е рамка на Hadoop, която се използва за надеждна обработка на паралелни огромни количества данни за големи клъстери от стоков хардуер.
- Проектът Apache Hadoop съдържа редица подпроекти като Hadoop Common, Hadoop Distributed File System (HDFS), Hadoop MapReduce, Hadoop YARN.
- В стъпката на картата всеки разделен данни се предава на функцията за картографиране, след това функцията за картографиране обработва данните и след това изходните стойности.
- Функцията за намаляване или работата на редуктора взема данните, които са резултат от функцията на картата.
- Преимуществата на MapReduce, изброени като мащабируемост, икономично решение, гъвкавост, бърза, паралелна обработка.
Препоръчителни статии
Това е ръководство за Какво е MapReduce в Хадооп. Тук обсъдихме компонентите, работата, уменията, кариерния растеж и предимствата на MapReduce в Hadoop. Можете също да прегледате и другите ни предложени статии, за да научите повече
- Какво е алгоритъм?
- Разлики между Hadoop срещу MapReduce
- Какво е Azure?
- Какво е Big Data Technology?
- Как работи MapReduce