Въведение в тръбопровода за данни AWS

Данните нарастват експоненциално от ден на ден и стават трудни за управление в сравнение с миналото. Нуждаем се от инструменти и услуги, за да управляваме нашите данни ефективно и на по-евтини разходи, там има предвид AWS Data Pipeline. Не става въпрос само за съхраняване на данни, но трябва да анализирате, обработвате, трансформирате данните в желаната форма на едно и също място, всичко това може да бъде постигнато с AWS Data Pipeline.

Необходимост от тръбопровод за данни

Нека се опитаме да разберем необходимостта от тръбопровода за данни с примера:

Пример №1

Имаме уебсайт, който показва изображения и gifs на базата на потребителски търсения или филтри. Основният ни фокус е да се сервира съдържание. Има някои цели за постигане, които са следните: -

  • Подобряване на доставката на съдържание: Обслужване на това, което потребителите искат достатъчно ефективно и бързо.
  • Ефективно управление на приложението: Съхраняване на потребителските данни, както и регистрационни файлове на уебсайтове за по-късни аналитични цели.
  • Подобрете бизнеса: Използвайки съхранените данни и анализа, взема решение да подобрите бизнеса на по-евтини разходи.

Пример №2

За постигането на целите трябва да се погрижат някои Bottlenecks:

  • Огромното количество данни в различни формати и на различни места, което прави обработката, съхраняването и мигрирането на данни сложна задача.

Различни компоненти за съхранение на данни за различни видове данни:

  • Възможни данни в реално време за регистрираните потребители: Dynamo DB .
  • Регистрация на уеб-сървър за потенциални потребители: Amazon S3 .
  • Демографски данни и идентификационни данни за вход: Amazon RDS.
  • Данни за сензори и набор от данни на трети страни: Amazon S3.

Solutions

  • Изпълнимо решение: Виждаме, че трябва да се справим с различни видове инструменти за преобразуване на данни от неструктурирани в структурирани за анализ. Тук трябва да използваме различни инструменти за съхранение на данни и отново за преобразуване, анализ и съхраняване на обработени данни. Не е рентабилно решение.
  • Оптимално решение: Използвайте тръбопровод за данни, който обработва обработка, визуализация и миграция. Конвейерът за данни може да бъде полезен при миграцията на данни от различни места, също така и при анализиране на данни и обработка на едно и също място от ваше име.

Какво представлява тръбопроводът за данни AWS?

AWS Data Pipeline е основно уеб услуга, предлагана от Amazon, която ви помага да трансформирате, обработвате и анализирате данните си по мащабируем и надежден начин, както и да съхранявате обработени данни в S3, DynamoDb или локалната база данни.

  • С AWS Data Pipeline можете лесно да получите достъп до данни от различни източници.
  • Преобразувайте и обработвайте тези данни в мащаб.
  • Прехвърлете ефективно резултатите на други услуги като S3, DynamoDb таблица или локален магазин за данни.

Основен пример за използване на тръбопровода за данни

  • Можем да имаме уебсайт, разположен над EC2, който генерира дневници всеки ден.
  • Една проста ежедневна задача би могла да копира лог файлове от E2 и да ги постигне в кофата S3.
  • Седмичната задача би могла да бъде обработка на данните и стартиране на анализ на данни през Amazon EMR за генериране на седмични отчети на базата на всички събрани данни.

Стартиране на анализ на данни с AWS Data Pipeline

  • Събиране на данните от различни източници на данни като - S3, Dynamodb, локални данни, сензорни данни и т.н.
  • Извършване на трансформация, обработка и анализиране на AWS EMR за генериране на седмични отчети.
  • Седмичен отчет, запазен в Redshift, S3 или локална база данни.

Предимства на AWS Data Pipeline

По-долу точките обясняват предимствата на AWS Data Pipeline:

  • Плъзнете и пуснете конзолата, която е лесна за разбиране и използване.
  • Разпределена и надеждна инфраструктура: Трубопроводите за данни работят на мащабируеми услуги и са надеждни, ако някоя грешка или задача не успее, могат да бъдат настроени за повторен опит.
  • Поддържа планиране и проследяване на грешки: Можете да планирате задачите си и да ги проследявате какво има неуспех и успех.
  • Разпределен: Може да се работи паралелно на множество машини или линеен начин.
  • Пълен контрол върху изчислителните ресурси като EC2, EMR клъстери.

AWS Компоненти на тръбопровода за данни

По-долу са компонентите на AWS Data Pipeline:

1. Определение на тръбопровода

Преобразувайте вашата бизнес логика в тръбопровода за данни AWS.

  • Възли за данни : Съдържа името, местоположението, формата на източника на данни, който би могъл да бъде (S3, dynamodb, локално)
  • Дейности : Премествайте, преобразувайте или изпълнявайте заявки по вашите данни.
  • График : Планирайте ежедневните или седмичните си дейности.
  • Предварително условие : Условия като стартиране на проверка на планиращия наличност на данните в източника.
  • Ресурси : Изчисляване на ресурси EC2, EMR.
  • Действия : Актуализация за тръбопровода за данни, Изпращане на известия, Аларма за задействане.

2. Тръбопроводи

Тук планирате и изпълнявате задачите за изпълнение на определени дейности.

  • Компоненти на тръбопровода C : Компонентите на тръбопровода са същите като компонентите на дефиницията на тръбопровода.
  • Примери: Докато изпълнявате задачи, AWS компилира всички компоненти, за да създаде определени изпълними екземпляри. В такива случаи има цялата информация за конкретни задачи.
  • Опити: Вече обсъдихме колко надежден е тръбопроводът за данни с неговите повторни механизми. Тук задавате колко пъти искате да опитате отново, в случай че не успее.

3. Задача Runner

Поиска или анкети за задачи от AWS Data Pipeline и след това изпълнява тези задачи.

AWS Ценови тръбопроводни данни

По-долу точките обясняват цените на тръбопровода AWS Data:

1. Безплатно ниво

Можете да започнете безплатно с AWS Data Pipeline като част от безплатния слой за използване на AWS. Новите клиенти, които се регистрират, получават всеки месец някои безплатни ползи за една година:

  • 3 Предварителни условия за работа на ниска честота на AWS без никакво зареждане.
  • 5 Дейности на ниска честота на AWS без никакво зареждане.

2. Ниска честота

С ниска честота се разбира да се изпълнява един път на ден или по-малко. Data Pipeline следва същата стратегия за фактуриране като другите уеб услуги на AWS, т.е. таксувани за вашето използване. Тя се таксува по това колко често вашите задачи, дейности и предпоставки се изпълняват всеки ден и къде се изпълняват (AWS или локално). Планирано е провеждането на високочестотни дейности повече от веднъж на ден.

Пример: Можем да насрочим дейност, която да се изпълнява на всеки час и да обработваме регистрационните файлове на уебсайта или може да е на всеки 12 часа. Като има предвид, че нискочестотните дейности са тези, които се изпълняват веднъж на ден или по-малко, ако предпоставките не са изпълнени. Неактивните тръбопроводи имат състояния НЕАКТИВНО, ПЕЧАЩАЩИ И ЗАВЪРШЕНИ.

3. Ценообразуване на тръбопровода за данни AWS, показано в региона

Регион №1: Изток на САЩ (N.Virginia), САЩ Запад (Орегон), Азиатско-Тихоокеанският регион (Сидни), ЕС (Ирландия)

Висока честотаНиска честота
Дейности или предпоставки, изпълнявани над AWS $ 1, 00 на месец $ 0, 06 на месец
Дейности или предпоставки, които се изпълняват на място 2, 50 долара на месец 1, 50 долара на месец
Неактивни тръбопроводи: 1, 00 долара на месец

Регион №2: Азиатско-тихоокеанският регион (Токио)

Висока честотаНиска честота
Дейности или предпоставки, изпълнявани над AWS $ 0.9524 на месец $ 0, 5715 на месец
Дейности или предпоставки, които се изпълняват на място 2.381 долара на месец 1.4286 долара на месец
Неактивни тръбопроводи: $ 0.9524 на месец

Разработването на ежедневна работа, т.е. нискочестотна активност на AWS за преместване на данни от DynamoDB таблицата в Amazon S3, ще струва $ 0, 60 на месец. Ако добавим EC2 за изготвяне на доклад въз основа на данните на Amazon S3, общата цена на тръбопровода би била 1, 20 долара на месец. Ако извършваме тази дейност на всеки 6 часа, тя би струвала $ 2, 00 на месец, защото тогава това ще бъде високочестотна дейност.

заключение

AWS Data Pipeline е много удобно решение за управление на експоненциално нарастващите данни на по-евтини разходи. Той е много надежден и мащабируем според вашата употреба. За всяка бизнес нужда, когато се занимава с голямо количество данни, AWS Data Pipeline е много добър избор за постигане на всички наши бизнес цели.

Препоръчителни статии

Това е ръководство за тръбопровода за данни AWS. Тук обсъждаме нуждите на тръбопровода за данни, какво е тръбопроводът за данни на AWS, той е компонент и подробности за цените. Можете също да прегледате и другите ни свързани статии, за да научите повече -

  1. AWS EBS
  2. AWS Бази данни
  3. Какво е AWS EC2?
  4. Предимства на визуализацията на данни
  5. Топ 7 състезатели на AWS с функции
  6. Научете списъка с функциите на уеб услугите на Amazon

Категория: