Въведение в HDFS команди
Големите данни са дума за масиви от данни, които са толкова огромни или сложни, че конвенционалният софтуер за обработка на данни не е достатъчен, за да се сключи с тях. Hadoop е отворен код, базирана на Java основа за програмиране, който веригира пространството за обработка и съхранение на огромно обемисти набори от данни в разпространена изчислителна среда. Основата на софтуера на Apache е инсталирането на Hadoop
Характеристики на HDFS:
- HDFS работи на Master / slave архитектура
- Файловете се използват от HDFS за съхранение на свързани с потребителя данни
- съдържа огромен набор от директории и файлове, които се съхраняват в йерархичен формат.
- От вътрешната страна файл се разделя на по-малки блокове и тези блокове се съхраняват в набор от Датаноди.
- Namenode и Datanode са частта от софтуера, предназначена да работи на продуктови машини, които класически работят на GNU / Linux OS.
Наменод:
- Тук файловата система се поддържа от име възел
- Namenode е отговорен и за регистрирането на всички промени в файловата система, освен това поддържа изображение на цялостно пространство от имена на файловата система и файл Blockmap в паметта
- Контролната точка се извършва периодично. по този начин лесно се възстановява до етапа, преди да може да се постигне мястото на катастрофата тук.
Датанода:
- A Datanode предоставя данни във файлове в своята локална файлова система
- За да интимира за своето съществуване, възелът на данни изпраща сърдечния ритъм към наменода
- Ще бъде генериран блок-отчет за всеки 10-ти получен пулс
- Репликацията се подразбира върху данните, съхранявани в тези възли
Репликация на данни:
- Тук последователността на блоковете образува файл с размер на блока по подразбиране 128 MB
- Всички блокове във файла освен финала са с подобен размер.
- От всеки възел на данни в клъстера елементът Namodeode получава пулс
- BlockReport съдържа всички блокове на Datanode.
- съдържа огромен набор от директории и файлове, които се съхраняват в йерархичен формат.
- От вътрешната страна файл се разделя на по-малки блокове и тези блокове се съхраняват в набор от Датаноди.
- Namenode и Datanode са частта от софтуера, предназначена да работи на продуктови машини, които класически работят на GNU / Linux OS.
Проследяване на работа: JobTracker дебат към NameNode, за да се заключи позицията на данните. Също така, намерете най-добрите TaskTracker възли за изпълнение на задачи въз основа на локацията на данните
Проследяващ задачи: TaskTracker е възел в клъстера, който приема задачи - Операции с карти, намаляване и разбъркване - от JobTracker.
Възел на контролна точка на вторичен име (или): Получава EditLog от възела с име на редовни интервали и се прилага към FS изображението му. И копира обратно завършено FS изображение в възела с име по време на неговото рестартиране. Цялата цел на възела за вторично име е да има контролна точка в HDFS.
ПРЕЖДА:
- YARN има централен компонент за управление на ресурси, който управлява ресурси и присвоява ресурсите на всяко приложение.
- Тук Мениджърът на ресурси е главният, който присвоява ресурсите, свързани с клъстера, мениджърът на ресурси е навити от два компонента, мениджъра на приложения и планировчик, тези два компонента заедно управляват задачите в клъстерните системи. друг компонент се обажда на Node Manager (NM), който е отговорен за управлението на задачите и работния процес на потребителите в даден възел.
- Точната репликация на данните в активния Namode се държи от StandN NameNode. Той действа като роб, поддържа достатъчно състояние, за да осигури бързо отказ, ако е от съществено значение.
Основни HDFS команди:
Основни HDFS команди |
||
Sr.No | HDFS командна собственост | HDFS команда |
1 | Версия за печат на hadoop | $ hadoop версия |
2 | Списък на съдържанието на главната директория в HDFS | $ hadoop fs -ls |
3 | Отчетете количеството използвано и налично пространство в текущо монтирана файлова система | $ hadoop fs -df hdfs: / |
4 | HDFS балансьорът пребалансира данните през DataNodes, премествайки блокове от преизползвани към недостатъчно използвани възли. | $ hadoop балансьор |
5 | Помощна команда | $ hadoop fs -help |
Междинни HDFS команди:
Междинни HDFS команди |
||
Sr.No | HDFS командна собственост | HDFS команда |
6 | създава директория на определеното HDFS местоположение | $ hadoop fs -mkdir / потребител / cloudera / |
7 | Копира данни от едно място на друго | $ hadoop fs - въвеждане на данни / sample.txt / потребител / обучение / hadoop |
8 | Вижте пространството, заето от определена директория в HDFS | $ hadoop fs -du -s -h / потребител / cloudera / |
9 | Премахнете директория в Hadoop | $ hadoop fs -rm -r / потребител / cloudera / pigjobs / |
10 | Премахва всички файлове в дадената директория | $ hadoop fs -rm -skipTrash hadoop / дребно / * |
11 | За изпразване на кошчето | $ hadoop fs -expunge |
12 | копира данни от и в локален към HDFS | $ hadoop fs -copyFromLocal / начало / cloudera / проба / / потребител / cloudera / flume /
$ hadoop fs -copyToLocal / потребител / cloudera / pigjobs / * / home / cloudera / oozie / |
Разширени HDFS команди:
Междинни HDFS команди |
||
Sr.No | HDFS командна собственост | HDFS команда |
13 | промяна на разрешенията за файлове | $ sudo -u hdfs hadoop fs -chmod 777 / потребител / cloudera / flume / |
14 | задайте коефициент на репликация на данни за файл | $ hadoop fs -setrep -w 5 / потребител / cloudera / pigjobs / |
15 | Пребройте броя на директории, файлове и байтове под hdfs | $ hadoop fs -count hdfs: / |
16 | направи намерението да съществува в безопасен режим | $ sudo -u hdfs hdfs dfsadmin -safemode отпуск |
17 | Hadoop форматира намендод | $ hadoop namenode -формат |
HDFS Съвети и трикове:
1) Можем да постигнем по-бързо възстановяване, когато броят на клъстерните възли е по-голям.
2) Увеличението на съхранението за единица време увеличава времето за възстановяване.
3) Хардуерът на Namenode трябва да бъде много надежден.
4) Сложният мониторинг може да се постигне чрез амбари.
5) Гладът в системата може да бъде намален чрез увеличаване на броя на редукторите.
Препоръчителни статии
Това е ръководство за HDFS командите. Тук обсъдихме HDFS команди, функции, основните му, междинни и разширени команди с изобразително представяне, съвети и трикове за командите. Можете да разгледате и другите ни предложени статии, за да научите повече -
- Команди на възел
- Команди на Matlab
- Предимства на СУБД
- Екосистема Hadoop
- Hadoop fs Команди