Какво е езеро с данни? - Нуждаете се от данни, заедно с техните предимства и риск

Преглед на Data Lake

Езерото с данни е хранилище, в което можем да съхраняваме голямо количество полуструктурирани, структурирани и неструктурирани данни. Уникален идентификатор с набор от разширени маркери на метаданни е присвоен на всички елементи от данни в езерото от данни. Когато възникне бизнес въпрос, можете да поискате съответните данни и след това да анализирате по-малки данни, за да помогнете да отговорите на въпроса. Езерото има плоска архитектура, за разлика от йерархичен склад за данни, където данните се съхраняват във файлове и папки. Без първо структуриране на данни, можете да съхранявате информацията си такава, каквато е и можем да изпълняваме различни видове анализ, като табла за управление и визуализации, до голяма обработка на данни, анализи в реално време и машинно обучение за информиране на по-добри решения.

Езерото се използва от професионалисти като учени за данни, разработчици на данни и бизнес анализатори за съхранение на голямо количество данни.

Използваното в езерото е нерелационно и релационно от IoT устройства, уебсайтове, мобилни приложения и др. В схемата е написано по време на анализ, т.е. схема при четене. Резултатът след изпълнение на заявката е по-бърз.

Защо имаме нужда от езеро с данни?

Изграждайки езеро, учените по данни могат да видят нерафинирания изглед на данните.

Причините за използването му са следните:

Корпорацията, която произвежда бизнес ползи от своите данни, успешно надвишава връстниците си. В проучване в Абърдийн корпорацията, която създаде Data Lake, беше с 9% над резултатите от растежа на органичните приходи на подобни компании. Тези лидери успяха да извършат нови видове анализи като машинно обучение чрез нови източници като лог файлове, клик-данни, социални медии и интернет свързаност в езерото.

Той поддържа импортирането на данни, които идват в реално време. Данните се събират от множество ресурси и след това се преместват в езерото в оригиналния формат. Езерото осигурява по-голяма мащабируемост на данните. Също така можете да знаете какъв тип данни има в езерото чрез индексиране, обхождане, каталогизиране на данните.

Той поддържа управление на данните, което управлява достъпността, използваемостта, сигурността и целостта на данните.

Тя може да помогне на екипите за изследвания и развитие да тестват своята хипотеза, да прецизират предположенията и оценката на резултатите.

Няма налична структура на силози.

Той предлага на клиентите 360-градусов изглед и стабилен анализ.

Качеството на анализа също се увеличава с увеличаването на обема на данни, качеството на данните и метаданните.

Двигателите за съхранение като Hadoop улесниха съхранението на различна информация. Не е необходимо да се моделират данни с езерото в схема за цялата компания.
Качеството на анализите също се увеличава с увеличаването на обема на данните, качеството на данните и метаданните.
Предлага бизнес ловкост
Възможно е да се използва машинно обучение и изкуствен интелект, за да се правят печеливши прогнози.

Data Lake Architecture за Hadoop, AWS и Azure

Езерото с данни има два компонента: съхранение и изчисление. Съхранението и изчисленията могат да бъдат разположени на място или в облака. Това води до дизайна на архитектура на езерото за данни в множество възможни комбинации.

1. Хадоп

Разпределен сървър Hadoop клъстер решава проблема за съхранение на големи данни. MapReduce е моделът за програмиране Hadoop, използван за разделяне и обработка на информация на по-малки подмножества в сървърния клъстер.

2. AWS

Продуктовата гама на AWS за своето решение за езеро с данни е пълна. Amazon S3 е в центъра на решението за съхранение. Тези инструменти за поглъщане на данни, които ни позволяват да прехвърляме огромни количества данни в S3 са Kinesis Stream, Kinesis Firehose, Snowball и Direct Connect.

В допълнение към Amazon S3, базата данни NoSQL, Dynamo DB и Elastic Search предлагат опростен процес на запитвания. AWS предлага широка гама от продукти със стръмна начална крива на обучение. Всеобхватните характеристики на решението обаче се използват широко в приложения за търговско разузнаване.

3. Azure

Micro-soft предложи езерото с данни. Езерото с данни на Azure има слой за анализ и съхранение се нарича Azure Store (ADLS) и двата компонента, които аналитичният слой има Azure Analytics и HDInsight. Стандартът ADLS е вграден в HDFS и може да бъде съхранен без ограничения. Той може да запише трилиони файлове с размер по-голям от петабайт с един файл. Azure Store прави възможно съхраняването и защитата на данните и мащабирането им във всеки формат.

Ползи

Някои важни точки са показани по-долу

Осигурява неограничена стойност на типа данни
Адаптира се бързо към промените
Дългосрочните разходи за собственост са намалени
Основното му предимство е централизирането на различни източници на съдържание
Потребителите от различни отдели по света могат да имат гъвкав достъп до данни
Осигурява икономична мащабируемост и гъвкавост

риск

Тя може да загуби актуалност и инерция след известно време.
По-голям риск има при проектирането
Освен това увеличава разходите за съхранение и продукти
Контролът на сигурността и достъпа е най-големият риск. Понякога данните могат да бъдат поставени в езеро без надзор, тъй като някои от данните може да се наложи да бъдат защитени и регулирани.

Препоръчителни статии

Това е ръководство за Какво е езеро с данни ?. Тук обсъдихме концепцията, защо се нуждаем от Data Lake, заедно с техните предимства и рискове. Можете също да разгледате и другите ни предложени статии, за да научите повече-

Съвременна интеграция на данни
Какво е Анализ на данни
Какво е нарушение на данните?
Data Scientist срещу Big Data
Data Lake vs Data Warehouse | Различията

Какво е езеро с данни? - Нуждаете се от данни, заедно с техните предимства и риск

Съдържание:

Преглед на Data Lake

Защо имаме нужда от езеро с данни?

Data Lake Architecture за Hadoop, AWS и Azure

1. Хадоп

2. AWS

3. Azure

Ползи

риск

Препоръчителни статии

Роля на ръководителя на проекта - Роли и отговорности на ръководителя на проекта

Лента в Excel - Как да използвате лентата в Excel? (с примери)

ROLAP срещу MOLAP срещу HOLAP - Топ 8 разлики, които трябва да знаете

R Оператори - Концепция и различни оператори на R с примери

10 Предимства и недостатъци на Rooting Android устройства

10 основни въпроса за интервю на уеб услугите SOAP (актуализирано за 2019 г.)

SOA тестване - Как работи - Използване и предимства на SOA тестване

SOA инструменти за тестване - Разгледайте най-добрите 14 инструмента за тестване на SOA

SOA срещу CAS - Познайте топ 6 най-невероятни разлики

Топ 10 въпроса за интервю за социални медии (Актуализирано за 2019 г.)

Принц2 в управлението на проекти - Основни характеристики и предимства на Prince2

Принципи Prin2 - Научете топ 7 принципа на Prince2

Основен номер в C ++ - Намерете основните числа с помощта на различни методи

Принципи на манифеста на Agile - Открийте 12-те принципа на пъргавия манифест

Принципи на анимацията - Прекратяване на първите дванадесет основни принципа