Въпроси и отговори за интервю на Hadoop Cluster

Целта на тази статия е да помогне на всички кандидатки за големи данни да отговорят на всички въпроси за интервю Hadoop Cluster Intervju, свързани с настройката на Big Data Environment в организация. Този въпросник ще ви помогне при настройката на възли за данни, име на възел и определянето на капацитета на хоствания сървър на демони на Big Data.

Така че, ако най-накрая сте намерили мечтаната си работа в Hadoop Cluster, но се чудите как да разбиете интервюто с Hadoop Cluster и какви биха могли да бъдат вероятните въпроси за интервю с Hadoop Cluster. Всяко интервю е различно и обхватът на работата също е различен. Имайки това предвид, ние разработихме най-често срещаните въпроси и отговори на Hadoop Cluster Interview, за да ви помогнем да постигнете успех в интервюто си.

Някои от най-важните въпроси за интервю с Hadoop Cluster, които често се задават в интервю са, както следва:

1.Кои са основните компоненти на Hadoop в клъстера Hadoop?

Отговор :
Hadoop е рамка, в която обработваме големи данни или Hadoop е платформата, където човек може да обработва огромното количество данни на стоковите сървъри. Hadoop е комбинацията от много компоненти. Следват основните компоненти в Hadoop среда.
Име на възела : Главният възел се грижи за цялата информация на възлите за данни и за съхранение на данни във формат на метаданни.
Вторичен име на възел : Той работи като основен възел с име, ако основният възел с име отиде надолу.
HDFS (разпределена файлова система на Hadoop) : Тя се грижи за цялото съхранение на клъстер Hadoop.
Данни възли : Данните възли са подчинени възли. Действителните данни се записват на Slave Nodes за обработка.
ПРЕЖДА (още един преговарящ ресурс) : Софтуерна рамка за писане на приложения и за обработка на огромно количество данни. Той осигурява същите функции като MapReduce, освен това ще позволи всяка партидна задача да се изпълнява паралелно в клъстер Hadoop.

2.Как да планирам съхранение на данни в клъстер Hadoop?

Отговор :
Съхранението се основава на формула (Storage = Ежедневно приемане на данни * Репликация).
Ако клъстерът Hadoop получава данни 120 TB ежедневно и имаме фактор на репликация по подразбиране, така че дневното изискване за съхранение на данни би било
Изискване за съхранение = 120 TB (ежедневно поглъщане на данни) * 3 (репликация по подразбиране) => 360 TB
В резултат на това трябва да създадем поне 360 TB клъстера данни за ежедневно изискване за приемане на данни.
Съхранението също зависи от изискването за запазване на данни. В случай, че искаме данните да се съхраняват в продължение на 2 години в един и същ клъстер, трябва да подредим възли за данни според изискването за запазване.

3. Изчислете числата на възела за данни.

Отговор :
Трябва да изчислим редица възли от данни, необходими за клъстер Hadoop. Да предположим, че имаме сървъри с JBOD от 10 диска и всеки диск има 4 TB размер за съхранение, така че всеки сървър има 40 TB съхранение. Hadoop клъстерът получава данни 120 TB на ден и 360 TB след прилагане на фактор на репликация по подразбиране.
No of Data Nodes = Ежедневно поглъщане на данни / капацитет на възела на данни
Брой възли за данни = 360/40 => 9 възли за данни
Следователно, за клъстера Hadoop, който получава 120 TB данни с по-горе конфигурация, трябва да настроите само 9 възли с данни.

4.Как да промените репликационния фактор в клъстер Hadoop?

Отговор :
Редактирайте hdfs-site.xml файл. Пътят по подразбиране е под conf / папка на инсталационната директория на Hadoop. промяна / добавяне на следното свойство в hdfs-site.xml:
dfs.replication
3
Блокова репликация
Не е задължително да има репликационен фактор 3. Може да бъде зададен и като 1. Коефициент 5 на репликация също работи в клъстер Hadoop. Настройката по подразбиране прави клъстера по-ефективен и се изисква минимален хардуер.
Увеличаването на коефициента на репликация би увеличило изискването за хардуер, защото съхранението на данни се умножава по фактор на репликация.

5.Какъв е размерът на блока с данни по подразбиране в Hadoop и как да го промените?

Отговор :
Размерът на блока намалява / разделя данните на блокове и ги записва на различни различни възли за данни.
По подразбиране размерът на блока е 128 MB (в Apache Hadoop) и можем да променим размера на блока по подразбиране.
Редактирайте hdfs-site.xml файл. Пътят по подразбиране е под conf / папка на инсталационната директория на Hadoop. промяна / добавяне на следното свойство в hdfs-site.xml:
dfs.block.size
134217728
Размер на блока
Размерът на блока в байтове е 134, 217, 728 или 128MB. Също така, укажете размера с наставка (нечувствителен към регистър), като k (kilo-), m (mega-), g (giga-) или t (tera-), за да зададете размера на блока в KB, MB, TB и т.н. …

6. Колко дълго клъстерът Hadoop трябва да съхранява изтрит HDFS файл в директорията изтриване / боклук?

Отговор :
„Fs.trash.interval“ е параметърът, който определя колко дълго HDFS може да запази всеки изтрит файл в Hadoop среда, за да извлече изтрития файл.
Интервалният период може да бъде определен само в минути. За 2-дневен интервал на извличане трябва да определим свойството в течащ формат.
Редактирайте файла core-site.xml и го добавете / модифицирайте, като използвате следното свойство
fs.trash.interval
2880
По подразбиране интервалът за извличане е 0, но Hadoop Administrator може да добави / модифицира по-горе свойството според изискването.

7.Кои са основните команди за стартиране и спиране на демони на Hadoop?

Отговор :
Всички команди за стартиране и спиране на демоните, съхранявани в sbin / папка.
./sbin/stop-all.sh - За да спрете всички демони наведнъж.
hadoop-daemon.sh начален име възел
Възел за стартиране на данни Hadoop-daemon.sh
yarn-daemon.sh, стартирайте мениджъра на ресурси
yarn-daemon.sh, стартирайте мениджъра на възлите
mr-jobhistory-daemon.sh старт сървър за история

8.Какво е свойството да определя разпределението на паметта за задачи, управлявани от YARN?

Отговор :
Свойството „yarn.nodemanager.resource.memory-mb“ трябва да бъде променено / добавено, за да промени разпределението на паметта за всички задачи, управлявани от YARN.
Той определя размера на RAM в MB. Data Nodes отнема 70% от действителната RAM памет, за да се използва за YARN. Възелът за данни с 96 GB ще използва 68 GB за YARN, останалата част от RAM паметта се използва от демона на Data Node за „Non-YARN-Work“
Редактирайте файла „yarn.xml file“ и добавете / модифицирайте следното свойство.
yarn.nodemanager.resource.memory-МВ
68608
yarn.nodemanager.resource.memory-mb стойността по подразбиране е 8, 192MB (8GB). Ако възлите с данни имат голям капацитет на RAM паметта, трябва да променим до стойност до 70%, ще загубим паметта си.

9. Какви са препоръките за оразмеряване на именния възел?

Отговор :
Следните подробности се препоръчват за настройка на Главния възел на много начален етап.
Процесори: За процесите е достатъчен един процесор с 6-8 ядра.
RAM памет: За сървър за обработка на данни и задачи трябва да има поне 24-96 GB RAM.
Съхранение: Тъй като в главния възел не се съхраняват HDFS данни. Можете да 1-2TB като местно хранилище
Тъй като е трудно да решите бъдещите натоварвания, така че проектирайте своя клъстер, като изберете хардуер като процесор, оперативна памет и памет, която лесно се надгражда във времето.

10. Какви са портовете по подразбиране в клъстер Hadoop?

Отговор :

Име на ДемонПорт по подразбиране No
Име възел50070
Възли за данни.50075
Възел на вторичното име50090
Възел за резервна / контролна точка.50105
Проследяващ работа.50030
Проследяващи задачи.50060

Препоръчителни статии

Това е ръководство за списък с въпроси и отговори за интервю на Hadoop Cluster, така че кандидатът да може лесно да разруши тези въпроси за интервю с Hadoop. Можете също да разгледате следните статии, за да научите повече -

  1. Въпроси за интервю за Elasticsearch и отговори отгоре и най-полезни
  2. 9 Невероятни въпроси и отговори за интервю на MapReduce
  3. 8 Най-полезно ръководство за въпроси за интервю с Big Data
  4. Въпроси за интервю за ETL и отговор, който трябва да знаете