Материал: Базы данных. учебное пособие. Бокарев Д.И

Внимание! Если размещение файла нарушает Ваши авторские права, то обязательно сообщите нам

4.2. Проектирование реляционных баз данных

При проектировании реляционной базы данных разработчику необходимо решить вопрос о наиболее эффективной структуре данных. Дублирование данных называется избыточностью данных. Избыточность данных вызывает нежелательные явления, возникающие в процессе работы с базой данных, называемые аномалиями.

Ситуация, при которой изменение значения одного данного, может повлечь за собой просмотр и редактирование нескольких строк таблицы, называется аномалией модификации (редактирования).

При удалении каких-либо данных из таблицы может исчезнуть и информация, напрямую не связанная с удаляемой, возникает аномалия удаления.

Аномалия при которой невозможно ввести одни данные из-за отсутствия других данных, называется аномалией ввода.

Избавится от избыточности данных позволяет нормализация базы данных. Нормализация – это процесс преобразования отношения путем декомпозиции (разбиения) его на два или более отношений, имеющих лучшие свойства. Окончательная цель нормализации сводится к получению такого проекта базы данных, в котором каждый факт появляется лишь в одном месте, т.е. исключена избыточность информации.

Нормализации – это классический метод проектирования реляционной базы данных. Исходной точкой здесь является представление предметной области в виде одного или нескольких отношений, и на каждом шаге проектирования производится некоторый набор схем отношений, обладающих лучшими свойствами. Процесс проектирования представляет собой процесс нормализации схем отношений, причем каждая следующая нормальная форма обладает лучшими свойствами по сравнению с предыдущей.

Каждой нормальной форме соответствует некоторый набор ограничений. Отношение находится в определенной нормальной форме, если оно удовлетворяет набору ограничений этой формы. Основные свойства нормальных форм:

- каждая следующая нормальная форма в некотором смысле лучше предыдущей;

- при переходе к следующей нормальной форме свойства предыдущих нормальных форм сохраняются.

В теории реляционных баз данных обычно выделяется следующая последовательность нормальных форм:

- первая нормальная форма (1NF);

- вторая нормальная форма (2NF);

- третья нормальная форма (3NF);

- нормальная форма Бойса-Кодда (BCNF);

- четвертая нормальная форма (4NF);

- пятая нормальная форма, или нормальная форма проекции-соединения (5NF или PJ/NF).

Процесс нормализации основан на понятии функциональной зависимости. Функциональные зависимости позволяют накладывать определенные ограничения на реляционную схему. Идея состоит в том, что значение одного атрибута в кортеже определяет значение другого атрибута.

Пусть A и B – атрибуты в отношении R. Атрибут В функционально зависит от атрибута А, если в любой момент времени каждому значению атрибута А соответствует в точности одно значение атрибута В. Функциональная зависимость записывается следующим образом: AB. Данная запись означает, что если два кортежа в таблице R имеют одно и тоже значение атрибута A, то они имеют одно и тоже значение атрибута B. Атрибут в левой части называется детерминантом, т.к. его значение определяет значение атрибута в правой части. Ключи таблицы являются детерминантами.

Неключевым атрибутом называется любой атрибут отношения, не входящий в состав первичного ключа

Функциональная зависимость называется полной, если неключевой атрибут зависит от всего составного ключа и не зависит от его частей.

Если атрибут B функционально зависит от атрибута A (AB), а атрибут C функционально зависит от атрибута B (BC), но обратная зависимость отсутствует, то говорят, что атрибут С зависит от А транзитивно.

Два или более атрибута взаимно независимы, если ни один из этих атрибутов не является функционально зависимым от других.

Отношение находится в первой нормальной форме (1NF), если значения его атрибутов атомарны. Исходное отношение строится таким образом, чтобы оно было в 1NF.

Отношение находится во второй нормальной форме (2NF), если выполняются ограничения первой нормальной формы и каждый неключевой атрибут функционально полно зависит от всего первичного ключа.

Отношение находится в третьей нормальной форме (3NF), если выполняются ограничения второй нормальной формы и все неключевые атрибуты взаимно независимы и полностью зависят от первичного ключа (т.е. в отношении отсутствуют транзитивные зависимости неключевых атрибутов от первичного ключа).

5. Реляционная алгебра

И РЕЛЯЦИОННОЕ ИСЧИСЛЕНИЕ

И реляционная алгебра и реляционное исчисление являются теоретическими языками. Выражения реляционной алгебры и формулы реляционного исчисления выполняются над отношениями реляционных БД, т.е. операнды и результаты всех действий являются отношениями. Языки реляционной алгебры являются процедурными, так как отношение, являющееся результатом запроса к реляционной БД, вычисляется при пошаговом выполнении последовательности реляционных операторов, применяемым к отношениям. Операторы состоят из операндов, в роли которых выступают отношения, и реляционных операций. Результатом реляционной операции является отношение.

Языки исчислений, в отличие от реляционной алгебры, являются непроцедурными (описательными, или декларативными) и позволяют выражать запросы с помощью предиката первого порядка (высказывания в виде функции), которому должны удовлетворять кортежи или домены отношений. Запрос к БД, выполненный с использованием подобного языка, содержит лишь информацию о желаемом результате. Для этих языков характерно наличие наборов правил для записи запросов. Непроцедурные языки формулируют, что нужно делать, а не как этого добиться.

Механизмы реляционной алгебры и реляционного исчисления эквивалентны. Это означает, что для любого допустимого выражения реляционной алгебры можно построить эквивалентную (производящую такой же результат) формулу реляционного исчисления и наоборот.

Основные операции реляционной алгебры, предложенные Е.Ф. Коддом, следующие: объединение, разность (вычитание), пересечение, декартово (прямое) произведение (или произведение), выборка (селекция, ограничение), проекция, деление и соединение.

К. Дж. Дейт расширил этот набор, включив операции: переименования атрибутов, образования новых вычисляемых атрибутов, вычисления итоговых функций, построения сложных алгебраических выражений, присвоения, сравнения и т. д.

Операции реляционной алгебры Кодда можно разделить на две группы: множественные (объединение, разность, пересечение и произведение) и специальные реляционные (проекция, выборка, деление и соединение).

Операции реляционной алгебры могут выполняться над одним отношением (унарная операция) или над двумя отношениями (бинарная операция). При выполнении бинарной операции отношения, участвующие в операциях, должны быть совместимы по структуре. Для этого, во-первых, отношения должны иметь одинаковое количество атрибутов. Во-вторых, атрибуты должны иметь одинаковые имена. В-третьих, атрибуты должны быть определены на одном домене. Структура результирующего отношения по определенным правилам наследует свойства структур исходных отношений. Некоторые отношения не являются совместимыми по структуре, но становятся таковыми после переименования атрибутов.

Объединением двух совместимых отношений R1 и R2 одинаковой размерности (R1 UNION R2) является отношение R, содержащее все кортежи, которые принадлежат исходным отношениям (за исключением повторяющихся).

Вычитанием совместимых отношений R1 и R2 одинаковой размерности (R1 MINUS R2) является отношение, тело которого состоит из множества всех кортежей, принадлежащих отношению R1, но не принадлежащих отношению R2.

Пересечением двух совместимых отношений R1 и R2 одинаковой размерности (R1 INTERSECT R2) является отношение R с телом, включающим в себя кортежи, одновременно принадлежащие обоим отношениям.

Произведением отношения R1 степени k1 (степень отношения – количество атрибутов в отношении) и отношения R2 степени k2 (R1 ТIМЕS R2), которые не имеют одинаковых имен атрибутов, является такое отношение R степени (k1+k2), заголовок которого представляет сцепление заголовков отношений R1 и R2, а тело – имеет кортежи, такие, что первые k1 элементов кортежей принадлежат множеству R1, а последние k2 элементов – множеству R2. Т.е. можно отметить, что произведение возвращает отношение, содержащее всевозможные кортежи, которые являются сочетанием двух кортежей, принадлежащих соответственно двум определенным отношениям.

При необходимости получить произведение двух отношений, имеющих одинаковые имена одного или нескольких атрибутов, применяется операция переименования RENAME.

Выборка возвращает отношение, содержащее все кортежи из определенного отношения, которые удовлетворяют определенным условиям. Выборка (R WHERE f) отношения R по формуле f представляет собой новое отношение с заголовком отношения R и телом, состоящим из таких кортежей отношения R, которые удовлетворяют истинности логического выражения, заданного формулой f.

Для записи формулы f используются имена атрибутов, константы, логические операции (AND – И, OR – ИЛИ, NOT – НЕ), операции отношения между величинами и скобки.

Проекция возвращает отношение, содержащее все кортежи определенного отношения после исключения из него некоторых атрибутов.

Проекция отношения R на атрибуты X, У,..., Z (R [X, Y,..., Z]), где множество (X, У,..., Z) является подмножеством полного списка атрибутов заголовка отношения R, представляет собой отношение с заголовком X, Y,..., Z и телом, содержащим кортежи отношения R, за исключением повторяющихся кортежей. Повторение одинаковых атрибутов в списке X, Y,..., Z запрещается.

Операция проекции допускает следующие дополнительные варианты записи.

  1. Отсутствие списка атрибутов подразумевает указание всех атрибутов (операция тождественной проекции);

  2. Выражение вида R[ ] означает пустую проекцию, результатом которой является пустое множество;

  3. Операция проекции может применяться к произвольному отношению, в том числе и к результату выборки.

Деление для двух отношений (бинарного и унарного), возвращает отношение, содержащее все значения одного атрибута бинарного отношения, которое соответствует (в другом атрибуте) всем значениям в унарном отношении.

Результатом деления отношения R1 с атрибутами А и В на отношение R2 с атрибутом В (R1 DIVIDEBY R2), где А и В простые или составные атрибуты, причем атрибут В – общий атрибут, определенный на одном и том же домене (множестве доменов составного атрибута), является отношение R с заголовком А и телом, состоящим из кортежей r таких, что в отношении R1 имеются кортежи (r, s), причем множество значений s включает множество значений атрибута В отношения R2.

Соединение возвращает отношение, кортежи которого – это сочетание двух кортежей, имеющих общее значения для одного или нескольких общих атрибутов этих двух отношений. Операция соединения имеет несколько разновидностей. Наиболее важным является естественное соединение.

Операция естественного соединения (операция JOIN) применяется к двум отношениям, имеющим общий атрибут. Этот атрибут в отношениях имеет одно и то же имя и определен на одном и том же домене.

Пусть отношения R1 и R2 имеют заголовки {X1, X2,… ,XM, Y1,Y2,..,YN} и {Y1,Y2,..,YN, Z1, Z2, ZP} соответственно; т.е. атрибуты Y1,Y2,..,YN – общие атрибуты для двух отношений. Можно рассматривать выражения {X1, X2,… ,XM}, {Y1,Y2,..,YN}, {Z1, Z2, ZP} как три составных атрибута X, Y, Z соответственно. Тогда естественным соединением отношений R1 и R2 (R1 JOIN R2) является отношение с заголовком {X, Y, Z} и телом, содержащим множество всех кортежей таких, для которых в отношении R1 значение атрибута X равно x, атрибута Y равно y, в отношении R2 значение атрибута Y равно y, значение атрибута Z равно z.

Соединение Сf(R1, R2) отношений R1 и R2 по условию, заданному формулой f ( – соединение), представляет собой отношение R, которое можно получить путем произведения отношений R1 и R2 с последующим применением к результату операции выборки по формуле f. Правила записи формулы f такие же, как и для операции выборки.

Другими словами, соединением отношения R1 по атрибуту А с отношением R2 по атрибуту В (отношения не имеют общих имен атрибутов) является результат выполнения операции вида:

(R1 Т1МЕS R2) WHERE А В,

где – логическое выражение над атрибутами, определенными на одном (нескольких – для составного атрибута) домене.

Оператор переименования позволяет изменить имя атрибута отношения и имеет следующий синтаксис:

<отношение> RENAME <исходное имя атрибута> АS <новое имя атрибута>,

где <отношение> задается именем отношения либо выражением реляционной алгебры. В последнем случае выражение заключают в круглые скобки.

Допустим, необходимо изменить несколько имен атрибутов. Для такого случая Дейт вводит оператор множественного переименования, синтаксис которого приведен ниже:

<отн.> RENAME <исх_имя_атр.1> АS

<нов_имя_атр.1>,

<исх_имя_атр.2>АS <нов_имя_атр.2>,...,

<исх_имя_атр.NS <нов_имя_атр.N>.

Оператор расширения позволяет добавить в отношение дополнительный атрибут, значения которого вычисляются посредством некоторых скалярных вычислений. Оператор расширения имеет вид:

EXTEND <отношение> АDD <выражение>АS

<нов_атрибут>,

где к исходному отношению добавляется (ключевое слово АDD) новый атрибут с именем <нов_атрибут>, значения которого подсчитываются по правилам, заданным <выражением>. Исходное отношение может быть задано именем отношения или с помощью выражения реляционной алгебры, заключенного в круглые скобки. При этом имя нового атрибута не должно входить в заголовок исходного отношения и не может использоваться в <выражении>.

Помимо обычных арифметических операций и операций сравнения в выражении можно использовать итоговые функции, такие как, COUNT (количество), SUM (сумма), AVG (среднее), МАХ, МIN.

Оператор множественного расширения имеет следующую синтаксическую конструкцию:

EXTEND <отношение> АDD <выр_1> АS <атр_1>,

<выр_2> АS <атр_2>,...,

<выр_NS <атр_N>.

Операция подведения итогов SUMMARIZE выполняет "вертикальные" или групповые вычисления и имеет следующий формат:

SUMMARIZE <отношение> ВY (<список атрибутов>) АDD <выражение> АS <новый атри6ут>,