HDFS команда - Основни за разширена команда със съвети и трикове

Съдържание:

Anonim

Въведение в HDFS команди

Големите данни са дума за масиви от данни, които са толкова огромни или сложни, че конвенционалният софтуер за обработка на данни не е достатъчен, за да се сключи с тях. Hadoop е отворен код, базирана на Java основа за програмиране, който веригира пространството за обработка и съхранение на огромно обемисти набори от данни в разпространена изчислителна среда. Основата на софтуера на Apache е инсталирането на Hadoop

Характеристики на HDFS:

  • HDFS работи на Master / slave архитектура
  • Файловете се използват от HDFS за съхранение на свързани с потребителя данни
  • съдържа огромен набор от директории и файлове, които се съхраняват в йерархичен формат.
  • От вътрешната страна файл се разделя на по-малки блокове и тези блокове се съхраняват в набор от Датаноди.
  • Namenode и Datanode са частта от софтуера, предназначена да работи на продуктови машини, които класически работят на GNU / Linux OS.

Наменод:

  • Тук файловата система се поддържа от име възел
  • Namenode е отговорен и за регистрирането на всички промени в файловата система, освен това поддържа изображение на цялостно пространство от имена на файловата система и файл Blockmap в паметта
  • Контролната точка се извършва периодично. по този начин лесно се възстановява до етапа, преди да може да се постигне мястото на катастрофата тук.

Датанода:

  • A Datanode предоставя данни във файлове в своята локална файлова система
  • За да интимира за своето съществуване, възелът на данни изпраща сърдечния ритъм към наменода
  • Ще бъде генериран блок-отчет за всеки 10-ти получен пулс
  • Репликацията се подразбира върху данните, съхранявани в тези възли

Репликация на данни:

  • Тук последователността на блоковете образува файл с размер на блока по подразбиране 128 MB
  • Всички блокове във файла освен финала са с подобен размер.
  • От всеки възел на данни в клъстера елементът Namodeode получава пулс
  • BlockReport съдържа всички блокове на Datanode.
  • съдържа огромен набор от директории и файлове, които се съхраняват в йерархичен формат.
  • От вътрешната страна файл се разделя на по-малки блокове и тези блокове се съхраняват в набор от Датаноди.
  • Namenode и Datanode са частта от софтуера, предназначена да работи на продуктови машини, които класически работят на GNU / Linux OS.

Проследяване на работа: JobTracker дебат към NameNode, за да се заключи позицията на данните. Също така, намерете най-добрите TaskTracker възли за изпълнение на задачи въз основа на локацията на данните

Проследяващ задачи: TaskTracker е възел в клъстера, който приема задачи - Операции с карти, намаляване и разбъркване - от JobTracker.

Възел на контролна точка на вторичен име (или): Получава EditLog от възела с име на редовни интервали и се прилага към FS изображението му. И копира обратно завършено FS изображение в възела с име по време на неговото рестартиране. Цялата цел на възела за вторично име е да има контролна точка в HDFS.

ПРЕЖДА:

  • YARN има централен компонент за управление на ресурси, който управлява ресурси и присвоява ресурсите на всяко приложение.
  • Тук Мениджърът на ресурси е главният, който присвоява ресурсите, свързани с клъстера, мениджърът на ресурси е навити от два компонента, мениджъра на приложения и планировчик, тези два компонента заедно управляват задачите в клъстерните системи. друг компонент се обажда на Node Manager (NM), който е отговорен за управлението на задачите и работния процес на потребителите в даден възел.
  • Точната репликация на данните в активния Namode се държи от StandN NameNode. Той действа като роб, поддържа достатъчно състояние, за да осигури бързо отказ, ако е от съществено значение.

Основни HDFS команди:

Основни HDFS команди

Sr.NoHDFS командна собственостHDFS команда
1Версия за печат на hadoop$ hadoop версия
2Списък на съдържанието на главната директория в HDFS$ hadoop fs -ls
3Отчетете количеството използвано и налично пространство в текущо монтирана файлова система$ hadoop fs -df hdfs: /
4HDFS балансьорът пребалансира данните през DataNodes, премествайки блокове от преизползвани към недостатъчно използвани възли.$ hadoop балансьор
5Помощна команда$ hadoop fs -help

Междинни HDFS команди:

Междинни HDFS команди

Sr.NoHDFS командна собственостHDFS команда
6създава директория на определеното HDFS местоположение$ hadoop fs -mkdir / потребител / cloudera /
7Копира данни от едно място на друго$ hadoop fs - въвеждане на данни / sample.txt / потребител / обучение / hadoop
8Вижте пространството, заето от определена директория в HDFS$ hadoop fs -du -s -h / потребител / cloudera /
9Премахнете директория в Hadoop$ hadoop fs -rm -r / потребител / cloudera / pigjobs /
10Премахва всички файлове в дадената директория$ hadoop fs -rm -skipTrash hadoop / дребно / *
11За изпразване на кошчето$ hadoop fs -expunge
12копира данни от и в локален към HDFS$ hadoop fs -copyFromLocal / начало / cloudera / проба / / потребител / cloudera / flume /

$ hadoop fs -copyToLocal / потребител / cloudera / pigjobs / * / home / cloudera / oozie /

Разширени HDFS команди:

Междинни HDFS команди

Sr.NoHDFS командна собственостHDFS команда
13промяна на разрешенията за файлове$ sudo -u hdfs hadoop fs -chmod 777 / потребител / cloudera / flume /
14задайте коефициент на репликация на данни за файл$ hadoop fs -setrep -w 5 / потребител / cloudera / pigjobs /
15Пребройте броя на директории, файлове и байтове под hdfs$ hadoop fs -count hdfs: /
16направи намерението да съществува в безопасен режим$ sudo -u hdfs hdfs dfsadmin -safemode отпуск
17Hadoop форматира намендод$ hadoop namenode -формат

HDFS Съвети и трикове:

1) Можем да постигнем по-бързо възстановяване, когато броят на клъстерните възли е по-голям.

2) Увеличението на съхранението за единица време увеличава времето за възстановяване.

3) Хардуерът на Namenode трябва да бъде много надежден.

4) Сложният мониторинг може да се постигне чрез амбари.

5) Гладът в системата може да бъде намален чрез увеличаване на броя на редукторите.

Препоръчителни статии

Това е ръководство за HDFS командите. Тук обсъдихме HDFS команди, функции, основните му, междинни и разширени команди с изобразително представяне, съвети и трикове за командите. Можете да разгледате и другите ни предложени статии, за да научите повече -

  1. Команди на възел
  2. Команди на Matlab
  3. Предимства на СУБД
  4. Екосистема Hadoop
  5. Hadoop fs Команди