Материал: LS-Sb89574

Внимание! Если размещение файла нарушает Ваши авторские права, то обязательно сообщите нам
ColumnNumber
Рис. 2.5

Риски отстоят от коробочек на наиболее экстремальное значение в пре-

пределах whis*iqr, где whis – значение параметра 'whisker', а iqr – межквартильный размах данной выборки.

Пример 2.3

Данный пример показывает boxplots с зазубринами для двух групп выборочных данных (рис. 2.5).

88

77

66

Values55

44

33

1

22

R = normrnd(MU,SIGMA,m,n) вы-

дает значения (здесь – 100 шт.) нор-

мального распределения со средним MU, дисперсией SIGMA. R имеет размерность m × n, где m – число строк, а n – число столбцов.

x1 = normrnd(5,1,100,1);

x2 = normrnd(6,1,100,1); boxplot([x1,x2],'notch','on')

Разница между медианами этих двух групп составляет примерно 1. Так как зазубрины на этих коробочках не перекрываются, можно заключить, что со значимостью 95 % истинные медианы различаются.

Пример 2.4

Используя массив a из примера 1.1, построим boxplot для 1-го призна-

ка по 3 классам: A, B, C (рис. 2.6).

Values

88

7

6

5

4

3

2

1

0

-11

+

A B C

Рис. 2.6

gg=['A'; 'A'; 'A'; 'A'; 'A'; 'A'; 'A'; 'A'; 'A'; 'A'; 'B'; 'B'; 'B'; 'B'; 'B'; 'B'; 'B'; 'B'; 'B'; 'B'; 'C';'C'; 'C'; 'C'; 'C'; 'C'; 'C'; 'C'; 'C'; 'C']

11

7

6.5

6

5.5

Values

5

 

4.5

4

3.5

3

%gg – символьная матрица g=cellstr(gg)

%cellstr – функция преобразующая символьную матрицу в

%матрицу строк

%g – матрица элементов (строк); ее размерность равна 30х1;

 

 

 

 

 

 

 

% первые 10 строк матрицы g равны

 

 

 

 

 

 

 

‘A’, вторые – ‘B’, третьи –

 

 

 

 

 

 

 

% ‘C’

 

 

 

 

 

 

 

boxplot(a(:,1),g)

 

 

 

 

 

 

 

Пример 2.5

 

 

 

 

 

 

 

 

 

 

 

 

 

 

В этом примере сравнивается дли-

 

 

 

 

 

 

 

на лепестков в выборках двух видов

 

 

 

 

 

 

 

 

 

 

 

 

 

 

ирисов (рис. 2.7):

 

 

 

 

 

 

 

load fisheriris

+

 

 

 

 

 

 

 

 

 

 

 

s1 = meas(51:100,3);

versicolor

virginica

 

 

 

Рис. 2.7

 

 

 

s2 = meas(101:150,3);

 

 

 

 

 

 

boxplot([s1 s2],'notch','on',

 

 

 

 

 

 

 

'labels',{'versicolor','virginica'})

Данный график имеет следующие свойства:

Верх и низ каждой «коробочки» – это 25-й и 75-й процентили данной выборки соответственно. Расстояния между верхушками и нижними гранями – это межквартильные диапазоны.

Линия в середине каждой коробочки – это медиана выборки. Если медиана не находится в центре коробочки, она указывает на асимметрию выборки.

Риски это линии, находящиеся над и под каждой коробочкой. Риски наносятся от концов межквартильных диапазонов до наиболее дальних наблюдений в пределах рисочной длины (регулируемые значения).

Наблюдения за пределами рисочной длины маркируются как выбросы. По умолчанию, выброс это значение, которое больше 1.5 межквартильного диапазона от верхушки или низа коробочки, но эта величина может регулироваться с помощью дополнительных входных аргументов. Выбросы отображаются с помощью красного значка «+».

Зазубрины показывают вариабильность медианы между выборками. Ширина зазубрины вычисляется, поэтому те коробочки, чьи зазубрины не перекрываются (как изображено выше) имеют различные медианы при уровне значимости 5 %. Уровень значимости основан на допущении нормальности распределений, но сравнение медиан достаточно робастно и для других распределений. Сравнение boxplot-медиан похоже на визуальную проверку гипотез, аналогичную t-тесту, используемому для средних.

12

Задание

1.Освоить методы графического вывода групп одномерных данных с помощью функций hist и boxplot.

2.Освоить методы сравнение групп одномерных данных.

3.Оценить различия групп одномерных данных с помощью функций

hist и boxplot.

Порядок выполнения работы

1.Запустите систему MATLAB.

2.Постройте диаграммы hist и plot по 3-му признаку (длина лепест-

ка) для двух классов ирисов Фишера: setosa и versicolor.

3. Постройте диаграмму boxplot по 2-му признаку (ширина чашели-

стика) для двух классов ирисов Фишера: setosa и versicolor.

4. Создайте 2 массива (для каждой бригады – своих) из 10 случайных чисел каждый по нормальному закону с параметрами из табл. 2.2.

Таблица 2.2

Массив

V1

V2

V3

V4

V5

V6

V7

V8

V9

V10

1

m = 2

m = 3

m = 4

m = 5

m = 6

m = 3

m = 5

m = 6

m = 7

m = 8

σ = 1

σ = 1

σ = 1

σ = 2

σ = 2

σ = 2

σ = 1

σ = 1

σ = 2

σ = 3

 

2

m = 6

m = 8

m = 7

m = 2

m = 2

m = 7

m = 2

m = 7

m = 3

m = 4

σ = 2

σ = 4

σ = 3

σ = 1

σ = 1

σ = 4

σ = 1

σ = 1

σ = 2

σ = 2

 

5. Для полученных массивов постройте диаграмму boxplot с зазубринами. Дайте анализ различия между этими массивами.

Содержание отчета

1.Название, цель и задачи работы.

2.Тексты программ и изображения графических окон, которые требо-

валось сохранять в ходе выполнения работы.

3. Объяснение полученных результатов и выводы.

3. СРАВНЕНИЕ ДВУМЕРНЫХ ДАННЫХ

Цели работы: получение навыков работы по отображению двумерных данных в системе MATLAB.

13

Основные положения

Диаграмма рассеяния scatter

Для визуального отображения одной группы двумерных данных на плоскости используется функция scatter(x,y). Она отображает кружочки (маркеры) в местах расположения, заданных векторами x и y (которые долж-

ны быть одного и того же размера). scatter(x,y) рисует маркеры, имеющие размер и цвет по умолчанию. С помощью дополнительных параметров можно задавать различные типы, размеры и цвета маркеров.

Диаграмма рассеяния по группам gscatter

Для целей визуального сравнения данных нескольких групп объектов по 2 признакам используется диаграмма рассеяния по группам (функция gscatter). Она определяется следующим образом.

gscatter(x,y,group) создает график рассеяния на плоскости двух пере-

менных x и y, отображаемых по группам. x и y являются векторами одинакового размера. group – это переменная группировки в виде строкового массива. Точки одной группы отображаются на графике одинаковыми маркерами и цветом.

gscatter(x,y,group,clr,sym,siz) также как и в функции plot назна-

чает цвет, тип и размер маркера для каждой группы. clr это строковый мас-

сив цветов (по умолчанию 'bgrcmyk') sym это строковый массив типа мар-

кера (по умолчанию '.'. siz – это вектор размеров маркеров.

 

4.5

 

 

 

 

 

9

 

 

 

 

 

 

 

 

 

 

 

 

 

setosa

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

A

 

 

 

 

 

versicolor

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

8

 

 

 

 

 

 

 

B

 

4

 

 

 

virginica

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

C

чашелистикаШирина

 

 

 

 

 

-2признакй

 

 

 

 

 

 

 

 

 

 

 

 

 

7

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

3.5

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

6

 

 

 

 

 

 

 

 

 

3

 

 

 

 

 

5

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

4

 

 

 

 

 

 

 

 

 

2.5

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

3

 

 

 

 

 

 

 

 

 

2

 

 

 

 

 

2

 

 

 

 

 

 

 

 

 

4

5

6

7

8

 

2

3

4

5

6

7

8

9

 

 

1

 

 

 

Длина чашелистика

 

 

 

 

 

 

1-й признак

 

 

 

 

 

 

Рис. 3.1

 

 

 

 

 

 

 

Рис. 3.2

 

 

 

 

Пример 3.1 (рис. 3.1)

 

 

 

 

 

 

 

 

 

 

 

 

load fisheriris

gscatter(meas(:,1),meas(:,2),species,'','xos')

14

Пример 3.2 (рис. 3.2)

Используя массив a из примера 1.1, построим gscatter для 3 классов: A,

B, C по 1-му и 2-му признакам.

gscatter(a(:,1),a(:,2),g,'','xos')

Задание

1.Освоить методы графического вывода групп двухмерных данных с помощью функции gscatter.

2.Изучить методы сравнение групп двухмерных данных.

Порядок выполнения работы

1.Загрузите данные по ирисам Фишера.

2.Отобразите в пространстве двух признаков: 3-го (длина лепестка) и 4-го (ширина лепестка) все три класса ирисов.

3.Создайте 2 группы (класса) двумерных данных, состоящих из 10 отсчетов каждая. Данные – это векторы, каждый из которых состоит из 2 компонент. Компоненты векторов представляют собой выборку случайных чисел из нормального закона с параметрами, указанными в таблице.

Номер группы

Вариант 1

Вариант 2

Вариант 3

Вариант 4

Вариант 5

(класса)

Пр. 1

Пр. 2

Пр. 1

Пр. 2

Пр. 1

Пр. 2

Пр. 1

Пр. 2

Пр. 1

Пр. 2

1

m=2

m=7

m=3

m=5

m=4

m=6

m=8

m=5

m=3

m=6

σ=1

σ=2

σ=1

σ=2

σ=1

σ=2

σ=3

σ=1

σ=2

σ=1

 

2

m=6

m=3

m=8

m=2

m=7

m=2

m=4

m=2

m=7

m=7

σ=2

σ=2

σ=4

σ=1

σ=3

σ=1

σ=2

σ=1

σ=4

σ=1

 

4. Отобразите в пространстве полученных двух признаков данные классы. Сделайте вывод о сходстве ваших классов.

Содержание отчета

1.Название, цель и задачи работы.

2.Тексты программ, которые требовалось сохранять в ходе выполнения работы.

3.Объяснение полученных результатов и выводы.

4. МЕТОД ГЛАВНЫХ КОМПОНЕНТ (ПРИВЕДЕНИЕ ДАННЫХ К ДВУМЕРНОМУ ВИДУ)

Цели работы: получение навыков работы с методом главных компонент в системе MATLAB; вычисление главных компонент для биомедицинских данных.

15