Преглед на Data Lake
Езерото с данни е хранилище, в което можем да съхраняваме голямо количество полуструктурирани, структурирани и неструктурирани данни. Уникален идентификатор с набор от разширени маркери на метаданни е присвоен на всички елементи от данни в езерото от данни. Когато възникне бизнес въпрос, можете да поискате съответните данни и след това да анализирате по-малки данни, за да помогнете да отговорите на въпроса. Езерото има плоска архитектура, за разлика от йерархичен склад за данни, където данните се съхраняват във файлове и папки. Без първо структуриране на данни, можете да съхранявате информацията си такава, каквато е и можем да изпълняваме различни видове анализ, като табла за управление и визуализации, до голяма обработка на данни, анализи в реално време и машинно обучение за информиране на по-добри решения.
Езерото се използва от професионалисти като учени за данни, разработчици на данни и бизнес анализатори за съхранение на голямо количество данни.
Използваното в езерото е нерелационно и релационно от IoT устройства, уебсайтове, мобилни приложения и др. В схемата е написано по време на анализ, т.е. схема при четене. Резултатът след изпълнение на заявката е по-бърз.
Защо имаме нужда от езеро с данни?
Изграждайки езеро, учените по данни могат да видят нерафинирания изглед на данните.
Причините за използването му са следните:
Корпорацията, която произвежда бизнес ползи от своите данни, успешно надвишава връстниците си. В проучване в Абърдийн корпорацията, която създаде Data Lake, беше с 9% над резултатите от растежа на органичните приходи на подобни компании. Тези лидери успяха да извършат нови видове анализи като машинно обучение чрез нови източници като лог файлове, клик-данни, социални медии и интернет свързаност в езерото.
Той поддържа импортирането на данни, които идват в реално време. Данните се събират от множество ресурси и след това се преместват в езерото в оригиналния формат. Езерото осигурява по-голяма мащабируемост на данните. Също така можете да знаете какъв тип данни има в езерото чрез индексиране, обхождане, каталогизиране на данните.
Той поддържа управление на данните, което управлява достъпността, използваемостта, сигурността и целостта на данните.
Тя може да помогне на екипите за изследвания и развитие да тестват своята хипотеза, да прецизират предположенията и оценката на резултатите.
Няма налична структура на силози.
Той предлага на клиентите 360-градусов изглед и стабилен анализ.
Качеството на анализа също се увеличава с увеличаването на обема на данни, качеството на данните и метаданните.
- Двигателите за съхранение като Hadoop улесниха съхранението на различна информация. Не е необходимо да се моделират данни с езерото в схема за цялата компания.
- Качеството на анализите също се увеличава с увеличаването на обема на данните, качеството на данните и метаданните.
- Предлага бизнес ловкост
- Възможно е да се използва машинно обучение и изкуствен интелект, за да се правят печеливши прогнози.
Data Lake Architecture за Hadoop, AWS и Azure
Езерото с данни има два компонента: съхранение и изчисление. Съхранението и изчисленията могат да бъдат разположени на място или в облака. Това води до дизайна на архитектура на езерото за данни в множество възможни комбинации.
1. Хадоп
Разпределен сървър Hadoop клъстер решава проблема за съхранение на големи данни. MapReduce е моделът за програмиране Hadoop, използван за разделяне и обработка на информация на по-малки подмножества в сървърния клъстер.
2. AWS
Продуктовата гама на AWS за своето решение за езеро с данни е пълна. Amazon S3 е в центъра на решението за съхранение. Тези инструменти за поглъщане на данни, които ни позволяват да прехвърляме огромни количества данни в S3 са Kinesis Stream, Kinesis Firehose, Snowball и Direct Connect.
В допълнение към Amazon S3, базата данни NoSQL, Dynamo DB и Elastic Search предлагат опростен процес на запитвания. AWS предлага широка гама от продукти със стръмна начална крива на обучение. Всеобхватните характеристики на решението обаче се използват широко в приложения за търговско разузнаване.
3. Azure
Micro-soft предложи езерото с данни. Езерото с данни на Azure има слой за анализ и съхранение се нарича Azure Store (ADLS) и двата компонента, които аналитичният слой има Azure Analytics и HDInsight. Стандартът ADLS е вграден в HDFS и може да бъде съхранен без ограничения. Той може да запише трилиони файлове с размер по-голям от петабайт с един файл. Azure Store прави възможно съхраняването и защитата на данните и мащабирането им във всеки формат.
Ползи
Някои важни точки са показани по-долу
- Осигурява неограничена стойност на типа данни
- Адаптира се бързо към промените
- Дългосрочните разходи за собственост са намалени
- Основното му предимство е централизирането на различни източници на съдържание
- Потребителите от различни отдели по света могат да имат гъвкав достъп до данни
- Осигурява икономична мащабируемост и гъвкавост
риск
- Тя може да загуби актуалност и инерция след известно време.
- По-голям риск има при проектирането
- Освен това увеличава разходите за съхранение и продукти
- Контролът на сигурността и достъпа е най-големият риск. Понякога данните могат да бъдат поставени в езеро без надзор, тъй като някои от данните може да се наложи да бъдат защитени и регулирани.
Препоръчителни статии
Това е ръководство за Какво е езеро с данни ?. Тук обсъдихме концепцията, защо се нуждаем от Data Lake, заедно с техните предимства и рискове. Можете също да разгледате и другите ни предложени статии, за да научите повече-
- Съвременна интеграция на данни
- Какво е Анализ на данни
- Какво е нарушение на данните?
- Data Scientist срещу Big Data
- Data Lake vs Data Warehouse | Различията