Въведение в отворен код на Hadoop?
Hadoop официално наречен Apache Hadoop. Apache Hadoop е проект от най-високо ниво на общността Apache. Apache Hadoop е проект на Apache Software Foundation и софтуерна платформа с отворен код. Apache Hadoop е проектиран за мащабируемост, поносимост на грешки и разпределени изчисления. Hadoop може да осигури бърз и надежден анализ както на структурирани данни, така и на неструктурирани данни. Софтуерът с отворен код е софтуер с изходен код, който всеки може да проверява, променя и подобрява. Open Source е сертификационен стандарт, издаден от инициативата за отворен код (OSI), който показва, че изходният код на компютърна програма се предоставя безплатно за широката публика. Софтуерът с отворен код обикновено се разпространява с изходния код под лиценз за отворен код. Кодът с отворен код обикновено се създава като съвместни усилия, при които програмистите се подобряват върху кода и споделят промените в общността. Софтуерът се актуализира много бързо в рамките на общността Apache. Всеки програмист или компания може да променя изходния код според своите изисквания и може да пусне нова версия на софтуера на платформата Apache Community.
Характеристики на Hadoop
Както по-горе проучихме за въвеждането в отворен код Is Hadoop, сега научаваме характеристиките на Hadoop:
-
Отворен код -
Най-атрактивната особеност на Apache Hadoop е, че той е с отворен код. Това означава, че Hadoop open source е безплатен. Всеки може да го изтегли и използва лично или професионално. Ако въобще възникнат каквито и да било разходи, вероятно това ще бъде стоков хардуер за съхранение на огромни количества данни. Но това все още прави Hadoop евтин.
-
Стоков хардуер -
Apache Hadoop работи със стоков хардуер. Товарен хардуер означава, че не се придържате към нито един доставчик на вашата инфраструктура. Всяка компания, предоставяща хардуерни ресурси като Storage Unit, CPU на по-ниска цена. Определено можете да се преместите в такива компании.
-
Ниска цена -
Тъй като Hadoop Framework се основава на стоков хардуер и софтуерна рамка с отворен код. Той намалява разходите, докато го приемате в организацията или нова инвестиция за вашия проект.
-
Мащабируемост -
Това е свойство на система или приложение да се справя с по-голям обем работа или да се разширява лесно в отговор на увеличеното търсене на мрежа, обработка, достъп до бази данни или ресурси на файловата система. Hadoop е силно мащабируема платформа за съхранение. Мащабируемостта е способността на нещо да се адаптира във времето към промените. Модификациите обикновено включват растеж, така че голяма конотация е, че адаптацията ще бъде някакъв вид разширение или надграждане. Hadoop е хоризонтално мащабируем. Това означава, че можете да добавите произволен брой възли или машини към съществуващата си инфраструктура. Да приемем, че работите върху 15 TB данни и 8 машини във вашия клъстер. Очаквате 6 TB данни през следващия месец. Но вашият клъстер може да се справи само с 3 TB повече. Hadoop ви предоставя функцията на хоризонтално мащабиране - това означава, че можете да добавите произволен брой на системата според вашето клъстерно изискване.
-
Силно здрав-
Характеристиката на отказоустойчивостта на Hadoop го прави наистина популярен. Hadoop ви предоставя функция като репликационен фактор. Това означава, че вашите данни се репликират в други възли, както са дефинирани от репликационния фактор. Вашите данни са безопасни и защитени за други възли. Ако някога се случи неуспех на клъстер, данните автоматично ще бъдат прехвърлени на друго място. Това ще гарантира, че обработката на данни продължава без никакви закачки.
-
Разнообразие от данни-
Рамката Apache Hadoop ви позволява да се справяте с всякакъв размер на данни и всякакъв вид данни. Рамката Apache Hadoop ви помага да работите върху Big Data. Ще можете да съхранявате и обработвате структурирани данни, полуструктурирани и неструктурирани данни. Не сте ограничени до формати на данни. Не сте ограничени до никакъв обем данни.
-
Множество рамки за големи данни -
Има различни инструменти за различни цели. Рамката на Hadoop разполага с голямо разнообразие от инструменти. Рамката на Hadoop е разделена на два слоя. Слой за съхранение и слой за обработка. Слоят за съхранение се нарича разпределена файлова система на Hadoop, а слоят за обработка се нарича намаляване на картата. Отгоре на HDFS можете да се интегрирате във всякакъв вид инструменти, поддържани от Hadoop Cluster. Hadoop може да бъде интегриран с множество аналитични инструменти, за да извлечете най-доброто от него, като Mahout за машинно обучение, R и Python за анализи и визуализация, Python, Spark за обработка в реално време, MongoDB и HBase за база данни NoSQL, Pentaho за BI Може да се интегрира в инструменти за обработка на данни като Apache Hive и Apache Pig. Може да се интегрира с инструменти за извличане на данни като Apache Sqoop и Apache Flume.
-
Бърза обработка -
Докато традиционните ETL и пакетни процеси могат да отнемат часове, дни или дори седмици за зареждане на големи количества данни, необходимостта от анализиране на тези данни в реално време става критична ден след ден. Hadoop е изключително добър при обработката на партиди с голям обем поради способността си да прави паралелна обработка. Hadoop може да изпълнява пакетни процеси 10 пъти по-бързо, отколкото на сървър с една нишка или на мейнфрейм. Инструментите за обработка на данни често са на същите сървъри, на които се намират данните, което води до много по-бърза обработка на данни. Ако имате работа с големи обеми от неструктурирани данни, Hadoop е в състояние ефективно да обработва терабайти от данни само за минути, а петабайти за часове.
-
Лесен за използване -
Рамката на Hadoop се базира на Java API. Няма голяма технологична разлика като разработчик, докато приема Hadoop. Рамка за намаляване на картата се основава на Java API. Имате нужда от код и напишете алгоритъма върху самия JAVA. Ако работите върху инструменти като Apache Hive. Той се базира на SQL. Всеки разработчик, който има предисторията на базата данни, може лесно да приеме Hadoop и може да работи върху Hive като инструмент.
Заключение: Hadoop с отворен код?
2.7 Зета байтове данни съществуват в дигиталната вселена днес. Big Data ще доминира през следващото десетилетие в средата за съхранение и обработка на данни. Данните ще бъдат централен модел за растеж на бизнеса. Има изискване за инструмент, който ще отговаря на всички тях. Hadoop е подходящ за съхранение и обработка на големи данни. Всички по-горе характеристики на Big Data Hadoop го правят мощен за широко приемащия Hadoop. Big Data ще бъде центърът на всички инструменти. Hadoop е едно от решенията за работа върху Big Data.
Препоръчителен член
Това е ръководство за отворен код Is Hadoop. Тук също обсъждаме основните концепции и характеристики на Hadoop. Може да разгледате и следните статии, за да научите повече-
- Използване на Hadoop
- Hadoop срещу Spark
- Кариера в Spark
- Работа на администратор на Hadoop
- Hadoop Administrator | Път за умения и кариера