Преглед на Data Lake

Езерото с данни е хранилище, в което можем да съхраняваме голямо количество полуструктурирани, структурирани и неструктурирани данни. Уникален идентификатор с набор от разширени маркери на метаданни е присвоен на всички елементи от данни в езерото от данни. Когато възникне бизнес въпрос, можете да поискате съответните данни и след това да анализирате по-малки данни, за да помогнете да отговорите на въпроса. Езерото има плоска архитектура, за разлика от йерархичен склад за данни, където данните се съхраняват във файлове и папки. Без първо структуриране на данни, можете да съхранявате информацията си такава, каквато е и можем да изпълняваме различни видове анализ, като табла за управление и визуализации, до голяма обработка на данни, анализи в реално време и машинно обучение за информиране на по-добри решения.

Езерото се използва от професионалисти като учени за данни, разработчици на данни и бизнес анализатори за съхранение на голямо количество данни.

Използваното в езерото е нерелационно и релационно от IoT устройства, уебсайтове, мобилни приложения и др. В схемата е написано по време на анализ, т.е. схема при четене. Резултатът след изпълнение на заявката е по-бърз.

Защо имаме нужда от езеро с данни?

Изграждайки езеро, учените по данни могат да видят нерафинирания изглед на данните.

Причините за използването му са следните:

Корпорацията, която произвежда бизнес ползи от своите данни, успешно надвишава връстниците си. В проучване в Абърдийн корпорацията, която създаде Data Lake, беше с 9% над резултатите от растежа на органичните приходи на подобни компании. Тези лидери успяха да извършат нови видове анализи като машинно обучение чрез нови източници като лог файлове, клик-данни, социални медии и интернет свързаност в езерото.

Той поддържа импортирането на данни, които идват в реално време. Данните се събират от множество ресурси и след това се преместват в езерото в оригиналния формат. Езерото осигурява по-голяма мащабируемост на данните. Също така можете да знаете какъв тип данни има в езерото чрез индексиране, обхождане, каталогизиране на данните.

Той поддържа управление на данните, което управлява достъпността, използваемостта, сигурността и целостта на данните.

Тя може да помогне на екипите за изследвания и развитие да тестват своята хипотеза, да прецизират предположенията и оценката на резултатите.

Няма налична структура на силози.

Той предлага на клиентите 360-градусов изглед и стабилен анализ.

Качеството на анализа също се увеличава с увеличаването на обема на данни, качеството на данните и метаданните.

  • Двигателите за съхранение като Hadoop улесниха съхранението на различна информация. Не е необходимо да се моделират данни с езерото в схема за цялата компания.
  • Качеството на анализите също се увеличава с увеличаването на обема на данните, качеството на данните и метаданните.
  • Предлага бизнес ловкост
  • Възможно е да се използва машинно обучение и изкуствен интелект, за да се правят печеливши прогнози.

Data Lake Architecture за Hadoop, AWS и Azure

Езерото с данни има два компонента: съхранение и изчисление. Съхранението и изчисленията могат да бъдат разположени на място или в облака. Това води до дизайна на архитектура на езерото за данни в множество възможни комбинации.

1. Хадоп

Разпределен сървър Hadoop клъстер решава проблема за съхранение на големи данни. MapReduce е моделът за програмиране Hadoop, използван за разделяне и обработка на информация на по-малки подмножества в сървърния клъстер.

2. AWS

Продуктовата гама на AWS за своето решение за езеро с данни е пълна. Amazon S3 е в центъра на решението за съхранение. Тези инструменти за поглъщане на данни, които ни позволяват да прехвърляме огромни количества данни в S3 са Kinesis Stream, Kinesis Firehose, Snowball и Direct Connect.

В допълнение към Amazon S3, базата данни NoSQL, Dynamo DB и Elastic Search предлагат опростен процес на запитвания. AWS предлага широка гама от продукти със стръмна начална крива на обучение. Всеобхватните характеристики на решението обаче се използват широко в приложения за търговско разузнаване.

3. Azure

Micro-soft предложи езерото с данни. Езерото с данни на Azure има слой за анализ и съхранение се нарича Azure Store (ADLS) и двата компонента, които аналитичният слой има Azure Analytics и HDInsight. Стандартът ADLS е вграден в HDFS и може да бъде съхранен без ограничения. Той може да запише трилиони файлове с размер по-голям от петабайт с един файл. Azure Store прави възможно съхраняването и защитата на данните и мащабирането им във всеки формат.

Ползи

Някои важни точки са показани по-долу

  • Осигурява неограничена стойност на типа данни
  • Адаптира се бързо към промените
  • Дългосрочните разходи за собственост са намалени
  • Основното му предимство е централизирането на различни източници на съдържание
  • Потребителите от различни отдели по света могат да имат гъвкав достъп до данни
  • Осигурява икономична мащабируемост и гъвкавост

риск

  • Тя може да загуби актуалност и инерция след известно време.
  • По-голям риск има при проектирането
  • Освен това увеличава разходите за съхранение и продукти
  • Контролът на сигурността и достъпа е най-големият риск. Понякога данните могат да бъдат поставени в езеро без надзор, тъй като някои от данните може да се наложи да бъдат защитени и регулирани.

Препоръчителни статии

Това е ръководство за Какво е езеро с данни ?. Тук обсъдихме концепцията, защо се нуждаем от Data Lake, заедно с техните предимства и рискове. Можете също да разгледате и другите ни предложени статии, за да научите повече-

  1. Съвременна интеграция на данни
  2. Какво е Анализ на данни
  3. Какво е нарушение на данните?
  4. Data Scientist срещу Big Data
  5. Data Lake vs Data Warehouse | Различията

Категория: