Въведение в Въпроси и отговори за интервю на MapReduce
MapReduce е прост паралелен модел за програмиране на данни, създаден за мащабируемост и отказоустойчивост. Можем да кажем, че MapReduce е рамка, която използва концепцията на възлите, за да паралелизира проблемите, възникващи в големи масиви от данни, ако те са локална мрежа, той използва същия хардуер и ако MapReduce е географски разпределен, той използва съответно хардуер. MapReduce по същество се състои от Map () функция и функция Reduce (). Той беше популярен от проекта Hadoop с отворен код.
По-долу са 9-те важни въпроса и отговори за интервю за MapReduce за 2019 г.:
Ако търсите работа, свързана с MapReduce, трябва да се подготвите за въпросите за интервю за MapReduce 2019. Въпреки че всяко интервю с MapReduce е различно и обхватът на работата също е различен, ние можем да ви помогнем с най-добрите въпроси за интервю с MapReduce с отговори, които ще ви помогнат да направите скока и да постигнете успеха си в интервюто.
Тези въпроси са разделени на две части, както следва:
Част 1 - Въпроси за интервю с MapReduce (основни)
Тази първа част обхваща основните въпроси и отговори за интервю на MapReduce.
1. Какво е MapReduce?
Отговор:
MapReduce е прост паралелен модел за програмиране на данни, създаден за мащабируемост и отказоустойчивост. С други думи, това е рамка, която обработва паралелизиращи се проблеми в големи масиви от данни, използвайки концепцията за възли (броя на компютрите), които от своя страна са класифицирани като клъстери, ако това е локална мрежа и използва същия хардуер или мрежи, ако са географски разпределени и използват различни хардуер. MapReduce се състои основно от Map () функция и функция Reduce (). Той бе пионер от Google и обработва много петабайта данни всеки ден. Той беше популярен от проекта Hadoop с отворен код и се използва в Yahoo, Facebook и Amazon, за да назовем няколко.
2. За какво се използва MapReduce за компания?
Отговор:
Google
• Изграждане на индекс за Google Търсене
Процесът на изграждане на позиционен или непозиционен индекс се нарича изграждане на индекс или индексиране. Ролята на MapReduce е Index Construction и е предназначена за големи компютърни клъстери. Целта на клъстера е да решава изчислителни проблеми за възли или компютри, които са изградени със стандартни части, а не суперкомпютър.
• Клъстериране на статии за Google News
За клъстеризиране на статии първо страниците се класифицират според това дали са необходими за клъстеризиране. Страниците включват много информация, която не е необходима за клъстеризирането. След това статията се довежда до нейната векторна форма въз основа на ключовите думи и тежестта, която е дадена. Тогава те са групирани с помощта на алгоритми.
• Статистически машинен превод
Преводът на двуезични текстови корпуси чрез анализ генерира статистически модели, които превеждат един език на друг с помощта на тегла и се свежда до най-вероятния превод.
Yahoo
• „Уеб карта“ захранва Yahoo! Търсене
Подобно на групирането на статии за Google News, MapReduce се използва за клъстериране на резултати от търсенето в Yahoo! Platform.
• Откриване на спам за Yahoo! поща
Facebook
•Извличане на данни
Неотдавнашната тенденция на експлозия на данни доведе до необходимостта от усъвършенствани методи за разделяне на данните на парчета, които лесно могат да бъдат използвани за следващата стъпка на анализиране.
• d Оптимизиране
• Откриване на спам
Нека преминем към следващите въпроси за интервю на MapReduce.
3. Какви са целите на дизайна на MapReduce
Отговор:
• Мащабируемост до големи обеми данни
Тъй като MapReduce е рамка, която е насочена към работа с паралелизиращи се данни, използвайки концепцията за възли, които са броят на компютрите или като клъстери или мрежи, е мащабируем до n брой компютърни машини. Така че една от изтъкнатите дизайнерски цели на MapReduce е, че тя е мащабируема до 1000-те машини и така 10 000-те диска.
• Ефективност на разходите
Тъй като MapReduce работи с паралелизиране на данни на възлите или броя на компютрите, следните са причините, които го правят икономически ефективен:
-Прочетете стокови машини, вместо суперкомпютър. Макар и евтини, те са ненадеждни.
-Мощност на мрежата
-Изисква се автоматична толерантност, т.е. по-малко администратори.
-Лесен е за използване т.е. изисква по-малко програмисти.
4. Какви са предизвикателствата на MapReduce?
Отговор:
Това са често срещаните въпроси за интервю MapReduce, зададени в интервю. Основните предизвикателства на MapReduce са следните:
-Cheap Възлите се провалят, особено ако имате много
Средното време между отказите за 1 възел е равно на 3 години. Средното време между отказите за 1000 възли е равно на 1 ден. Решението е да се изгради отказоустойчивост в самата система.
-Можата за съвместимост е равна или предполага ниска честотна лента
Решението за ниска честотна лента е да изтласка изчисленията към данните.
-Програмирането на разпределените системи е трудно
Решението за това е, че според модела за програмиране на паралелни данни, потребителите пишат функции „карта“ и „намаляване“. Системата разпределя работата и се справя с неизправностите.
5. Какъв е моделът за програмиране MapReduce?
Отговор:
Моделът на програмиране MapReduce се основава на концепция, наречена записи от ключова стойност. Той също така предоставя парадигми за паралелна обработка на данни. За обработка на данните в MapReduce, и входните данни, и изходните данни трябва да бъдат картографирани във формата на множество двойки ключ-стойност. Единичната двойка ключ-стойност също се нарича запис. Моделът за програмиране MapReduce се състои от Map () функция и функция Reduce. Моделът за тях е следният.
Функция Map (): (K in, V in) list (K inter, V inter)
Намаляване () функция: (K inter, list (V inter)) list (K out, V out)
Част 2 - Въпроси за интервю с MapReduce (разширено)
Нека сега да разгледаме разширените въпроси за интервю на MapReduce.
6. Какви са данните за изпълнение на MapReduce?
Отговор:
В случай на изпълнение на MapReduce, един главен контролира изпълнението на задачи на множество подчинени. За предпочитане е картографите да бъдат поставени на същия възел или същата стойка като входния им блок, така че да се сведе до минимум използването на мрежа. Също така, картографите запазват изходите на локалния диск, преди да ги сервират на редуктори. Това позволява възстановяване, ако редукторът се срине и позволява повече редуктори от възлите.
7. Какво е комбайнер?
Отговор:
Комбинаторът, известен още като полуредуктор, работи, като приема входни данни от класа Map и предава двойките на изходните ключове и стойности на класа редуктор. Основната функция на комбайнера е да обобщава изходните записи на картата със същия ключ. С други думи, комбинатор е локална функция за агрегиране на повтарящи се ключове, произведени от една и съща карта. Работи за асоциативни функции като SUM, COUNT и MAX. Той намалява размера на междинните данни, тъй като представлява обобщение на агрегирането на стойности за всички повтарящи се ключове.
Нека преминем към следващите въпроси за интервю на MapReduce.
8.Защо прасето? Защо не MapReduce?
Отговор:
• MapReduce позволява на програмиста да изпълни карта функция, последвана от функция за намаляване, но работата по това как да приспособи обработката на вашите данни в този модел, който често изисква множество етапи на MapReduce, може да бъде предизвикателство.
• При Pig структурите от данни са много по-богати, тъй като са многозначни и вложени, а наборът от трансформации, които можете да приложите към данните, е много по-мощен. Например те включват съединения, които не са възможни в MapReduce.
• Също така, Pig е една програма, която превръща трансформацията в серия MapReduce Jobs.
9.Карта на намаление
Отговор:
Една видна критика на MapReduce е, че цикълът на развитие е много дълъг. Писането на картографи и редуктори, компилирането и опаковането на кода, подаването на заданието и извличането на резултатите отнема много време. Дори при стрийминг, който премахва стъпката на компилиране и пакетиране, опитът все още отнема много време.
Препоръчителен член
Това е ръководство за списък с въпроси и отговори за интервю на MapReduce, така че кандидатът да може лесно да разруши тези въпроси за интервю с MapReduce. Можете също да разгледате следните статии, за да научите повече -
- Важни въпроси за интервю за анализи на данни
- 10 най-добри въпроси за интервю за дизайн
- Въпроси за интервю за Elasticsearch
- Най-полезни въпроси за интервю за Ruby
- Как работи MapReduce