Въведение в Hadoop Admin Интервю въпроси и отговори

Така че най-накрая сте намерили мечтаната си работа в Hadoop Admin, но се чудите как да разбиете интервюто с Hadoop Admin и какви биха могли да бъдат вероятните въпроси за интервю с Hadoop Admin. Всяко интервю е различно и обхватът на работата също е различен. Имайки това предвид, ние разработихме най-често срещаните въпроси и отговори за интервю за Hadoop, за да ви помогнем да постигнете успех в интервюто си.

Следват въпроси за интервю с Hadoop Admin, които ще ви помогнат при пропукване на интервю с Hadoop.

1. Какво е информираността на багажника? И защо е необходимо?

Отговор:
Информираността на стелажите е свързана с разпределяне на възли за данни в множество стелажи. Поставката съдържа няколко сървъра. А за клъстер може да има няколко стелажа. Да кажем, че има създаден Hadoop клъстер с 12 възли. Може да има 3 стелажа с по 4 сървъра на всеки. Всички 3 стелажа са свързани така, че всички 12 възли са свързани и образуват клъстер. Докато решавате броя на багажниците, важният момент, който трябва да вземете предвид, е репликационният фактор. Ако има 100 GB данни, които ще се предават всеки ден с репликационен фактор 3. Тогава 300GB данни ще трябва да пребивават в клъстера. По-добър вариант е данните да се репликират в стелажите. Дори ако някой възел падне, репликата ще бъде в друг багажник.

2. Какъв е размерът на блока по подразбиране и как се определя?

Отговор:
128MB и тя е дефинирана в hdfs-site.xml и също така това е персонализирано в зависимост от обема на данните и нивото на достъп. Кажете, 100 GB данни, които текат за ден, данните се отделят и съхраняват в клъстера. Какъв ще бъде броят на файловете? 800 файла. (1024 * 100/128) (1024 à конвертира GB в MB.) Има два начина да настроите персонализирания размер на блока с данни.

  1. hadoop fs -D fs.local.block.size = 134217728 (в битове)
  2. В hdfs-site.xml добавете това свойство à block.size с размера на битовете.

Ако промените размера по подразбиране на 512MB, тъй като размерът на данните е огромен, генерираните файлове no.of ще бъдат 200. (1024 * 100/512)

3. Как получавате отчета на файловата система hdfs? За наличността на диска и няма активните възли?

Отговор:
Команда: sudo -u hdfs dfsadmin – отчет

Това е списъкът на информацията, която показва,

  1. Конфигуриран капацитет - Общият капацитет на разположение в hdfs
  2. Настоящ капацитет - Това е общото количество пространство, отредено за ресурсите, които да пребивават в метастара и използването на пространството.
  3. Остава DFS - Това е количеството пространство за съхранение, което все още е на разположение на HDFS, за да съхранява повече файлове
  4. Използван DFS - Това е пространството за съхранение, което е използвано от HDFS.
  5. Използван DFS% - в процент
  6. Под репликирани блокове - Брой блокове
  7. Блокове с покварени реплики - Ако има повредени блокове
  8. Липсващи блокове
  9. Липсващи блокове (с репликационен фактор 1)

4. Какво е балансиращо устройство Hadoop и защо е необходимо?

Отговор:
Данните, разпространени по възлите, не се разпределят в правилната пропорция, което означава, че използването на всеки възел може да не е балансирано. Единият възел може да бъде прекалено използван, а другият да бъде недостатъчно използван. Това води до оскъпяващ ефект по време на изпълнение на всеки процес и в крайна сметка би работило при силно използване на тези възли. За да се реши това, се използва балансира Hadoop, който ще балансира използването на данните в възлите. Така че, когато се изпълни балансиращо устройство, данните се преместват навсякъде, където недостатъчно използваните възли се пълнят и прекалено използваните възли ще бъдат освободени.

5. Разлика между Cloudera и Ambari?

Отговор:

Cloudera ManagerAmbari
Инструмент за администриране на ClouderaИнструмент за администриране на Horton работи
Наблюдава и управлява целия клъстер и отчита използването и всички проблемиНаблюдава и управлява целия клъстер и отчита използването и всички проблеми
Предлага се с платната услуга ClouderaОтворен код

6. Кои са основните действия, изпълнявани от администратора на Hadoop?

Отговор:
Следете здравето на клъстера - Има много страници на приложения, които трябва да бъдат наблюдавани, ако се стартират някакви процеси. (Сървър за история на работата, мениджър на ресурси на YARN, мениджър / амбирия на Cloudera в зависимост от дистрибуцията)

включете сигурността - SSL или Kerberos

Изпълнение на мелодия - Hadoop балансьор

Добавете нови възли за данни според нуждите - промени в инфраструктурата и конфигурации

Незадължително да включите MapReduce Job History Tracking Server à Понякога рестартирането на услугите би помогнало за освобождаване на кеш паметта. Това е, когато клъстерът с празен процес.

7. Какво е Kerberos?

Отговор:
Това е удостоверяване, необходимо за всяка услуга за синхронизиране, за да стартира процеса. Препоръчва се активирането на Kerberos. Тъй като имаме работа с разпределените изчисления, винаги е добра практика да има криптиране, докато достъпът до данните и обработката им. Тъй като всеки възел е свързан и всеки информационен пропуск е през мрежа. Тъй като Hadoop използва Kerberos, паролите не се изпращат в мрежите. Вместо това паролите се използват за изчисляване на ключовете за криптиране. Съобщенията се обменят между клиента и сървъра. Най-просто казано, Kerberos предоставя идентичност помежду си (възли) по защитен начин с криптирането.

Конфигурация в core-site.xml
Hadoop.security.authentication: Kerberos

8. Какъв е важният списък на hdfs команди?

Отговор:

командиПредназначение
hdfs dfs –lsЗа да изброите файловете от hdfs файловата система.
Hdfs dfs - входКопирайте файла от локалната система във файловата система hdfs
Hdfs dfs –chmod 777Дайте разрешение за четене, запис, изпълнение на файла
Hdfs dfs - запомнетеКопирайте файла от hdfs файлова система в локалната файлова система
Hdfs dfs –catПреглед на съдържанието на файла от файловата система hdfs
Hdfs dfs –rmИзвадете файла от hdfs файловата система. Но той ще бъде преместен в пътеката с файлове за боклук (това е като кошче за отпадъци в Windows)
Hdfs dfs –rm –skipTrashПремахва файла за постоянно от клъстера.
Hdfs dfs -touchzСъздайте файл във hdfs файловата система

9. Как да проверите регистрационните файлове на Hadoop задача, изпратени в клъстера и как да прекратите вече стартиращия процес?

Отговор:
прежда logs –applicationId - Главният елемент на приложението генерира регистрационни файлове в контейнера си и той ще бъде добавен с идентификатора, който генерира. Това ще бъде полезно за наблюдение на състоянието на процеса и информацията в дневника.

приложение на прежда –kill - Ако съществуващ процес, който се изпълнява в клъстера, трябва да бъде прекратен, командата kill се използва там, където идентификаторът на приложението се използва за прекратяване на задачата в клъстера.

Препоръчителен член

Това е ръководство за списък с въпроси и отговори за интервю за Hadoop Admin, така че кандидатът да може лесно да преодолее тези въпроси за интервю от Hadoop. Можете също да разгледате следните статии, за да научите повече

  1. Въпроси и отговор за интервю на Hadoop Cluster - Топ 10 най-полезни
  2. Въпроси за интервю за моделиране на данни - 10 важни въпроса
  3. Въпроси за интервю на системата SAS - Топ 10 полезни въпроса