Въведение в Hadoop Admin Интервю въпроси и отговори
Така че най-накрая сте намерили мечтаната си работа в Hadoop Admin, но се чудите как да разбиете интервюто с Hadoop Admin и какви биха могли да бъдат вероятните въпроси за интервю с Hadoop Admin. Всяко интервю е различно и обхватът на работата също е различен. Имайки това предвид, ние разработихме най-често срещаните въпроси и отговори за интервю за Hadoop, за да ви помогнем да постигнете успех в интервюто си.
Следват въпроси за интервю с Hadoop Admin, които ще ви помогнат при пропукване на интервю с Hadoop.
1. Какво е информираността на багажника? И защо е необходимо?
Отговор:
Информираността на стелажите е свързана с разпределяне на възли за данни в множество стелажи. Поставката съдържа няколко сървъра. А за клъстер може да има няколко стелажа. Да кажем, че има създаден Hadoop клъстер с 12 възли. Може да има 3 стелажа с по 4 сървъра на всеки. Всички 3 стелажа са свързани така, че всички 12 възли са свързани и образуват клъстер. Докато решавате броя на багажниците, важният момент, който трябва да вземете предвид, е репликационният фактор. Ако има 100 GB данни, които ще се предават всеки ден с репликационен фактор 3. Тогава 300GB данни ще трябва да пребивават в клъстера. По-добър вариант е данните да се репликират в стелажите. Дори ако някой възел падне, репликата ще бъде в друг багажник.
2. Какъв е размерът на блока по подразбиране и как се определя?
Отговор:
128MB и тя е дефинирана в hdfs-site.xml и също така това е персонализирано в зависимост от обема на данните и нивото на достъп. Кажете, 100 GB данни, които текат за ден, данните се отделят и съхраняват в клъстера. Какъв ще бъде броят на файловете? 800 файла. (1024 * 100/128) (1024 à конвертира GB в MB.) Има два начина да настроите персонализирания размер на блока с данни.
- hadoop fs -D fs.local.block.size = 134217728 (в битове)
- В hdfs-site.xml добавете това свойство à block.size с размера на битовете.
Ако промените размера по подразбиране на 512MB, тъй като размерът на данните е огромен, генерираните файлове no.of ще бъдат 200. (1024 * 100/512)
3. Как получавате отчета на файловата система hdfs? За наличността на диска и няма активните възли?
Отговор:
Команда: sudo -u hdfs dfsadmin – отчет
Това е списъкът на информацията, която показва,
- Конфигуриран капацитет - Общият капацитет на разположение в hdfs
- Настоящ капацитет - Това е общото количество пространство, отредено за ресурсите, които да пребивават в метастара и използването на пространството.
- Остава DFS - Това е количеството пространство за съхранение, което все още е на разположение на HDFS, за да съхранява повече файлове
- Използван DFS - Това е пространството за съхранение, което е използвано от HDFS.
- Използван DFS% - в процент
- Под репликирани блокове - Брой блокове
- Блокове с покварени реплики - Ако има повредени блокове
- Липсващи блокове
- Липсващи блокове (с репликационен фактор 1)
4. Какво е балансиращо устройство Hadoop и защо е необходимо?
Отговор:
Данните, разпространени по възлите, не се разпределят в правилната пропорция, което означава, че използването на всеки възел може да не е балансирано. Единият възел може да бъде прекалено използван, а другият да бъде недостатъчно използван. Това води до оскъпяващ ефект по време на изпълнение на всеки процес и в крайна сметка би работило при силно използване на тези възли. За да се реши това, се използва балансира Hadoop, който ще балансира използването на данните в възлите. Така че, когато се изпълни балансиращо устройство, данните се преместват навсякъде, където недостатъчно използваните възли се пълнят и прекалено използваните възли ще бъдат освободени.
5. Разлика между Cloudera и Ambari?
Отговор:
Cloudera Manager | Ambari |
Инструмент за администриране на Cloudera | Инструмент за администриране на Horton работи |
Наблюдава и управлява целия клъстер и отчита използването и всички проблеми | Наблюдава и управлява целия клъстер и отчита използването и всички проблеми |
Предлага се с платната услуга Cloudera | Отворен код |
6. Кои са основните действия, изпълнявани от администратора на Hadoop?
Отговор:
Следете здравето на клъстера - Има много страници на приложения, които трябва да бъдат наблюдавани, ако се стартират някакви процеси. (Сървър за история на работата, мениджър на ресурси на YARN, мениджър / амбирия на Cloudera в зависимост от дистрибуцията)
включете сигурността - SSL или Kerberos
Изпълнение на мелодия - Hadoop балансьор
Добавете нови възли за данни според нуждите - промени в инфраструктурата и конфигурации
Незадължително да включите MapReduce Job History Tracking Server à Понякога рестартирането на услугите би помогнало за освобождаване на кеш паметта. Това е, когато клъстерът с празен процес.
7. Какво е Kerberos?
Отговор:
Това е удостоверяване, необходимо за всяка услуга за синхронизиране, за да стартира процеса. Препоръчва се активирането на Kerberos. Тъй като имаме работа с разпределените изчисления, винаги е добра практика да има криптиране, докато достъпът до данните и обработката им. Тъй като всеки възел е свързан и всеки информационен пропуск е през мрежа. Тъй като Hadoop използва Kerberos, паролите не се изпращат в мрежите. Вместо това паролите се използват за изчисляване на ключовете за криптиране. Съобщенията се обменят между клиента и сървъра. Най-просто казано, Kerberos предоставя идентичност помежду си (възли) по защитен начин с криптирането.
Конфигурация в core-site.xml
Hadoop.security.authentication: Kerberos
8. Какъв е важният списък на hdfs команди?
Отговор:
команди | Предназначение |
hdfs dfs –ls | За да изброите файловете от hdfs файловата система. |
Hdfs dfs - вход | Копирайте файла от локалната система във файловата система hdfs |
Hdfs dfs –chmod 777 | Дайте разрешение за четене, запис, изпълнение на файла |
Hdfs dfs - запомнете | Копирайте файла от hdfs файлова система в локалната файлова система |
Hdfs dfs –cat | Преглед на съдържанието на файла от файловата система hdfs |
Hdfs dfs –rm | Извадете файла от hdfs файловата система. Но той ще бъде преместен в пътеката с файлове за боклук (това е като кошче за отпадъци в Windows) |
Hdfs dfs –rm –skipTrash | Премахва файла за постоянно от клъстера. |
Hdfs dfs -touchz | Създайте файл във hdfs файловата система |
9. Как да проверите регистрационните файлове на Hadoop задача, изпратени в клъстера и как да прекратите вече стартиращия процес?
Отговор:
прежда logs –applicationId - Главният елемент на приложението генерира регистрационни файлове в контейнера си и той ще бъде добавен с идентификатора, който генерира. Това ще бъде полезно за наблюдение на състоянието на процеса и информацията в дневника.
приложение на прежда –kill - Ако съществуващ процес, който се изпълнява в клъстера, трябва да бъде прекратен, командата kill се използва там, където идентификаторът на приложението се използва за прекратяване на задачата в клъстера.
Препоръчителен член
Това е ръководство за списък с въпроси и отговори за интервю за Hadoop Admin, така че кандидатът да може лесно да преодолее тези въпроси за интервю от Hadoop. Можете също да разгледате следните статии, за да научите повече
- Въпроси и отговор за интервю на Hadoop Cluster - Топ 10 най-полезни
- Въпроси за интервю за моделиране на данни - 10 важни въпроса
- Въпроси за интервю на системата SAS - Топ 10 полезни въпроса