Въведение в моделирането на данни на Касандра
За да се противопоставят на огромно количество информация, се появиха нови технологии за управление на данни. Тези техники са различни от традиционните релационни подходи към базата данни. Те колективно се наричат NoSQL. Касандра е една от широко известните бази данни NoSQL. Други популярни продукти на базата данни на NoSQL включват MongoDB, Riak, Redis, Neo4j и т.н. В тази тема ще научим за Cassandra Data Modeling.
Тези бази данни NoSQL побеждават откритите недостатъци от релационната база данни, като включват огромен обем, който съдържа организирана, полуорганизирана и неструктурирана информация. Мащабируемост и производителност за уеб приложения, по-ниска цена и поддръжка за гъвкава разработка на софтуер са някои от неговите предимства. Cassandra е функционираща платформа с отворен код в Apache Software Foundation и следователно е известна също като Apache Cassandra. Касандра може да наблюдава огромен обем от организирани, полуорганизирани и неструктурирани данни в голям разпределен клъстер в множество центрове. Той осигурява висока мащабируемост, висока производителност и поддържа гъвкав модел.
Моделирането на данни е разбиране на потока и структурата, които трябва да бъдат използвани за разработването на софтуера. Той идентифицира основните обекти, техните характеристики и връзката с други обекти. Това често е първата стъпка и най-съществената стъпка в създаването на всеки софтуер. Точно както дизайнът на проекта е за архитект, Моделът с данни е за разработчик на софтуер. Това не само помага да се анализира структурата, но също така ви позволява да предвидите всички функционални или технически затруднения, които могат да възникнат по-късно.
Традиционният поток за моделиране на данни започва с концептуално моделиране на данни. Този модел на концептуални данни след това се картографира на модел на релационни данни, който накрая създава схема на релационна база данни. В този процес основното нещо е сортирането на данни, което се извършва въз основа на корелацията чрез разбирането и заявяването му.
Моделирането на данни в Касандра се различава от моделирането на данни в релационната база данни. Релационното моделиране на данни се основава само на концептуалния модел на данни. Което използва SQL за извличане и изпълнение на действия. Cassandra използва CQL (Cassandra Query Language) със SQL като синтаксис. Моделирането на данни в Касандра започва с организиране на данните и разбиране на връзката му с нейните обекти. Тук пространството на клавишите е аналогично на база данни, която съдържа различни записи и таблици. Клъстерът може да има няколко пространства от клавиши. Различните възли се свързват, за да създадат един клъстер. На ниво клавишно пространство можем да определим атрибути като репликационния фактор.
Модел на таблицата
Разбирането на таблица в Касандра е напълно различно от съществуващо понятие. CQL таблицата може да се разглежда като група от дялове, наречена фамилия колони, която съдържа редове със същата структура. Всеки дял съдържа уникален ключ за дял и всеки ред съдържа незадължителен ключ за единствен клъстер. Комбинацията от дял и клъстер ключ се нарича първичен ключ, който се използва за идентифициране на ред в таблицата. Таблица с кластерен ключ ще има многоредови дялове, докато таблица без кластериран ключ ще има само един ред дял.
Модел на заявка
Касандра поток започва от концептуален модел на данни заедно с работния процес на приложението, който се дава като вход за получаване на логическия модел на данни и накрая за получаване на физически модел на данни.
Потребителските заявки са дефинирани в работния процес на приложението. Концептуалното моделиране на данни се използва за улавяне на връзката между различни образувания и техните атрибути. Оттук и името ER модел.
Логическо моделиране на данни
Ядрото на методологията за моделиране на данни на Касандра е логическото моделиране на данни. Концептуалният модел на данните се картографира на логически модел на данни въз основа на заявки, дефинирани в работния процес на приложението. Това насочено към заявката концептуално към логическото картографиране е дефинирано от принципите за моделиране на данни, правилата за картографиране и моделите на картографиране.
Принципи за моделиране на данни
Следващите четири принципа дават основа за картографиране на концептуални и логически модели данни.
- Познайте данните си: За да организирате правилно данните, субектите, атрибутите и техните взаимоотношения трябва да са добре познати, за да се разработи концептуален модел на данни.
- Познайте вашите заявки: За да организирате данните ефективно, се използват заявки. Най-добрият вариант за изпълнение е дял по заявка.
- Влагане на данни: За да се организират множество единици от един и същ тип по известен критерий, се използват вложени данни. Използва се за извличане на няколко обекта от един дял.
- Дублиране на данни: Винаги е по-добре дублирането на данни при присъединяването в Касандра, тъй като това помага ефективно да се поддържат различни заявки за едни и същи данни.
Въз основа на принципите за моделиране на данни се дефинират правилата за картографиране, които извършват прехода от концептуален модел на данни към логически модел на данни
Правила за картографиране:
- Субекти и взаимоотношения: Единиците и връзките се съпоставят с таблици, а субектите и отношенията се съпоставят в редовете на таблицата.
- Атрибути за търсене на равенство : Атрибутите за търсене на равенство се използват в колоните, съдържащи първичния ключ за участие в търсенето на равенство.
- Атрибути за търсене на неравенство : Атрибутите за търсене на неравенство се използват също в колоните, съдържащи основния ключ за генериране на различни резултати от търсенето.
- Атрибут за поръчка: Атрибутът за поръчка се използва за групиране по данни в конкретен ред
- Ключов атрибут: Тази характеристика помага да се идентифицират уникалните редове
Въз основа на горните правила за картографиране ние проектираме модели за картографиране, които служат като основа за автоматизиране на дизайна на базата данни. Чрез дадения модел на запитване и концептуални данни, всеки модел определя крайната схема на дизайна на схемата.
Физически модел
След като логичният модел е разработен, физическият модел е сравнително лесен. Физическият модел на данни представлява данни в базата данни. След присвояване на типове данни се изчислява размерът на дяла и се извършва тестване за анализ на модела за по-добра оптимизация.
В заключение можем да кажем, че когато има на разположение огромен обем и разнообразие от данни, които трябва да бъдат анализирани и обработени. Необходимо е да се избере подход, който може ефективно да извлече данните, които трябва да бъдат анализирани. Касандра със своята висока мащабируемост и способност да съхранява масивни данни предлага бързо извличане на информация за проектиране на модели данни за сложни структури. Моделирането на данни от Касандра и цялата й функционалност могат да бъдат обхванати по следните начини. Тук създаваме заявен дизайн на концептуални данни и с помощта на очертани правила за картографиране и картографски модели той дава възможност за преминаване от концептуален модел към логическия модел. След това описваме физически модел, за да получим напълно уникален ментален образ на дизайна.
Препоръчителни статии
Това е ръководство за моделиране на данни на Касандра. Тук обсъждаме модела на таблицата, модела на заявки, логическото моделиране на данни и принципите за моделиране на данни. Може да разгледате и следните статии, за да научите повече -
- Модели на данни в СУБД
- Какво е моделиране на данни?
- Моделиране на хранилища на данни
- Въпроси за интервю за анализ на данни
- Топ 6 вида съединения в MySQL с примери