Какво е Hadoop?
Пет показателя на Hadoop са обем, разнообразие, скорост, достоверност и стойност. Данните се увеличават бързо и се предлагат в структуриран, неструктуриран и полуструктуриран формат. Данните се увеличават с висока скорост и трябва да получим някакво смислено разбиране от данните. Данните трябва да имат някаква стойност, но има някои несъответствия и несигурност в данните. Традиционните системи, които съхраняват данни, не могат да съхраняват тези бързо увеличаващи се данни поради пространство за съхранение. Традиционната система не е в състояние да обработва данни идва в сложна структура на данни и отнема огромно време, за да обработи данните. Hadoop ще реши проблема с традиционната система от бази данни. Hadoop е рамка, която обработва огромно количество данни паралелно и ги съхранява в разпределена среда. Hadoop има два компонента 1) HDFS (съхранява данни в клъстер) 2) MapReduce (обработва данни паралелно). HDFS ще съхранява данни под формата на различни блокове. Основният размер на блока е 128MB.
Приложения на Hadoop
Приложенията на Hadoop са обяснени по-долу:
а. Проследяване на уебсайтове
Да предположим, че сте създали уебсайт, искате да знаете подробности за посетителите. Hadoop ще събере огромно количество данни за това. Той ще даде информация за местоположението на посетителя, кой посетител на страницата е посетил първо и най-много, колко време е прекарал на уебсайта и на коя страница, колко пъти е посетил страницата, какъв посетител харесва най-много. Това ще предостави прогнозен анализ на интереса на посетителите, ефективността на уебсайта ще предскаже какво би представлявало интереса на потребителите. Hadoop приема данни в множество формати от множество източници. Apache HIVE ще бъде използван за обработка на милиони данни.
б. Географски данни
Когато купуваме продукти от уебсайт за електронна търговия. Уебсайтът ще проследява местоположението на потребителя, ще предвижда покупки на клиенти, използвайки смартфони, таблети. Hadoop клъстер ще ви помогне да разберете бизнеса в геолокацията. Това ще помогне на индустриите да показват графиката на бизнеса във всяка област (положителна или отрицателна).
° С. Индустрията на дребно
Търговците на дребно ще използват данни на клиенти, които присъстват в структуриран и неструктуриран формат, за да разберат и анализират данните. Това ще помогне на потребителя да разбере изискванията на клиентите и ще им послужи с по-добри ползи и подобрени услуги.
д. Финансова индустрия
Финансовата индустрия и финансовите компании ще оценят финансовия риск, пазарната стойност и ще изградят модела, който ще даде на клиентите и индустрията по-добри резултати по отношение на инвестициите като фондовия пазар, FD и др. Разберете алгоритъма за търговия. Hadoop ще управлява модела на изграждане.
д. Здравеопазване
Hadoop може да съхранява големи количества данни. Медицинските данни се представят в неструктуриран формат. Това ще помогне на лекаря за по-добра диагноза. Hadoop ще съхранява историята на пациента повече от 1 година, ще анализира симптомите на заболяването.
е. Дигитален маркетинг
Намираме се в ерата на 20-те, всеки един човек е свързан цифрово. Информацията се достига до потребителя чрез мобилни телефони или лаптопи и хората се запознават с всеки един детайл за новини, продукти и др. Hadoop ще съхранява масово генерирани онлайн данни, ще съхранява, анализира и предоставя резултата на компаниите за дигитален маркетинг.
Характеристики на Hadoop
Дадени по-долу са Характеристиките на Hadoop:
1. Ефективна цена: Hadoop не изисква специализиран или ефективен хардуер за прилагането му. Може да се реализира на прост хардуер, известен като хардуер на общността.
2. Големият клъстер от възли: Клъстерът може да се състои от 100 или 1000 на възли. Ползата от наличието на голям клъстер е, че предлага повече изчислителна мощност и огромна система за съхранение на клиентите.
3. Паралелна обработка: Данните могат да се обработват едновременно във всички клъстери и този процес ще спести много време. Традиционната система не беше в състояние да се справи с тази задача.
4. Разпределени данни: Hadoop Framework се грижи за разделянето и разпространението на данните във всички възли в клъстера. Той репликира данни във всички клъстери. Коефициентът на репликация е 3.
5. Автоматично управление на отказите : Да предположим, че ако някой от възлите в клъстера не успее, рамката Hadoop ще замени машината за отказ с нова машина. Настройките за репликация на старата машина се прехвърлят автоматично към новата машина. Администраторът няма нужда да се тревожи за това.
6. Оптимизация на местоположението на данни: Да предположим, че програмистът има нужда от данни от възел от база данни, която е разположена на друго място, програмистът ще изпрати байт код в базата данни. Това ще спести честотна лента и време.
7. Хетерогенен клъстер: Той има различен възел, поддържащ различни машини с различни версии. IBM машина поддържа Red hat Linux.
8. Мащабируемост: Добавяне или премахване на възли и добавяне или премахване на хардуерни компоненти към или от клъстера. Можем да изпълним тази задача, без да нарушаваме работата на клъстера. RAM или твърд диск могат да бъдат добавени или премахнати от клъстера.
Предимства на Hadoop
Предимствата на Hadoop са обяснени по-долу:
- Hadoop може да борави с голям обем данни и да може да мащабира данните въз основа на изискването на данните. Сега данните за един ден присъстват в 1 до 100 терабайта.
- Той ще мащабира огромен обем от данни, без да има много предизвикателства. Да вземем пример за Facebook - милиони хора се свързват, споделят мисли, коментари и т.н. Той може да се справя безпроблемно със софтуер и хардуер.
- Ако една система се провали, данните няма да бъдат загубени или няма загуба на информация, защото коефициентът на репликация е 3, Данните се копират 3 пъти и Hadoop ще премества данни от една система в друга. Той може да обработва различни видове данни като структурирани, неструктурирани или полуструктурирани.
- Структурни данни като таблица (можем лесно да извлечем стойности на редове или колони), неструктурирани данни като видеоклипове и снимки и полуструктурирани данни като комбинация от структурирани и полуструктурирани.
- Цената за внедряване на Hadoop с проекта bigdata е ниска, тъй като компаниите купуват услуги за съхранение и обработка от доставчици на облачни услуги, тъй като цената на байтово съхранение е ниска.
- Той осигурява гъвкавост, като същевременно генерира стойност от данните като структурирани и неструктурирани. Можем да извлечем ценни данни от източници на данни като социални медии, развлекателни канали, уебсайтове за пазаруване.
- Hadoop може да обработва данни с CSV файлове, XML файлове и др. Данните се обработват паралелно в дистрибуторската среда, можем да картографираме данните, когато се намират в клъстера. Сървърът и данните са разположени на едно и също място, така че обработката на данни е по-бърза.
- Ако имаме огромен набор от неструктурирани данни, можем да пристъпим към терабайти данни в рамките на минута. Разработчиците могат да кодират Hadoop, използвайки различни езици за програмиране като python, C, C ++. Това е технология с отворен код. Изходният код е лесно достъпен онлайн. Ако данните се увеличават с всеки изминал ден, можем да добавим възли към клъстера. Не е необходимо да добавяме повече клъстери. Всеки възел изпълнява задачата си, използвайки собствените си ресурси.
заключение
Hadoop може да извършва големи изчисления на данни. За да обработи това, Google е разработил алгоритъм за намаляване на картата, Hadoop ще изпълни алгоритъма. Това ще играе основна роля в статистическия анализ, бизнес разузнаването и обработката на ETL. Лесен за използване и по-евтин на разположение. Той може да обработва терабайтови данни, да ги анализира и да предоставя стойност от данните без никакви затруднения, без загуба на информация.
Препоръчителни статии
Това е ръководство за това какво е Hadoop ?. Тук обсъждаме приложението на Hadoop и функции, заедно с предимствата. Можете също да прегледате и другите ни предложени статии, за да научите повече -
- Методи на клъстериране
- Софтуер IoT
- Hadoop FS Команден списък
- Предимства на Hadoop
- Как работят коментарите в PHP?