Риски отстоят от коробочек на наиболее экстремальное значение в пре-
пределах whis*iqr, где whis – значение параметра 'whisker', а iqr – межквартильный размах данной выборки.
Пример 2.3
Данный пример показывает boxplots с зазубринами для двух групп выборочных данных (рис. 2.5).
88
77
66
Values55
44
33
1 |
22 |
R = normrnd(MU,SIGMA,m,n) вы-
дает значения (здесь – 100 шт.) нор-
мального распределения со средним MU, дисперсией SIGMA. R имеет размерность m × n, где m – число строк, а n – число столбцов.
x1 = normrnd(5,1,100,1);
x2 = normrnd(6,1,100,1); boxplot([x1,x2],'notch','on')
Разница между медианами этих двух групп составляет примерно 1. Так как зазубрины на этих коробочках не перекрываются, можно заключить, что со значимостью 95 % истинные медианы различаются.
Пример 2.4
Используя массив a из примера 1.1, построим boxplot для 1-го призна-
ка по 3 классам: A, B, C (рис. 2.6).
Values
88
7
6
5
4
3
2
1
0
–-11
+
A B C
Рис. 2.6
gg=['A'; 'A'; 'A'; 'A'; 'A'; 'A'; 'A'; 'A'; 'A'; 'A'; 'B'; 'B'; 'B'; 'B'; 'B'; 'B'; 'B'; 'B'; 'B'; 'B'; 'C';'C'; 'C'; 'C'; 'C'; 'C'; 'C'; 'C'; 'C'; 'C']
11
7
6.5
6
5.5
Values |
5 |
|
4.5
4
3.5
3
%gg – символьная матрица g=cellstr(gg)
%cellstr – функция преобразующая символьную матрицу в
%матрицу строк
%g – матрица элементов (строк); ее размерность равна 30х1;
|
|
|
|
|
|
|
% первые 10 строк матрицы g равны |
|
|
|
|
|
|
|
‘A’, вторые – ‘B’, третьи – |
|
|
|
|
|
|
|
% ‘C’ |
|
|
|
|
|
|
|
boxplot(a(:,1),g) |
|
|
|
|
|
|
|
Пример 2.5 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
В этом примере сравнивается дли- |
|
|
|
|
|
|
|
на лепестков в выборках двух видов |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
ирисов (рис. 2.7): |
|
|
|
|
|
|
|
load fisheriris |
+ |
|
|
|
|
|||
|
|
|
|
|
|
|
s1 = meas(51:100,3); |
versicolor |
virginica |
||||||
|
|
|
Рис. 2.7 |
|
|
|
s2 = meas(101:150,3); |
|
|
|
|
|
|
boxplot([s1 s2],'notch','on', |
|
|
|
|
|
|
|
|
|
'labels',{'versicolor','virginica'})
Данный график имеет следующие свойства:
∙Верх и низ каждой «коробочки» – это 25-й и 75-й процентили данной выборки соответственно. Расстояния между верхушками и нижними гранями – это межквартильные диапазоны.
∙Линия в середине каждой коробочки – это медиана выборки. Если медиана не находится в центре коробочки, она указывает на асимметрию выборки.
∙Риски это линии, находящиеся над и под каждой коробочкой. Риски наносятся от концов межквартильных диапазонов до наиболее дальних наблюдений в пределах рисочной длины (регулируемые значения).
∙Наблюдения за пределами рисочной длины маркируются как выбросы. По умолчанию, выброс это значение, которое больше 1.5 межквартильного диапазона от верхушки или низа коробочки, но эта величина может регулироваться с помощью дополнительных входных аргументов. Выбросы отображаются с помощью красного значка «+».
∙Зазубрины показывают вариабильность медианы между выборками. Ширина зазубрины вычисляется, поэтому те коробочки, чьи зазубрины не перекрываются (как изображено выше) имеют различные медианы при уровне значимости 5 %. Уровень значимости основан на допущении нормальности распределений, но сравнение медиан достаточно робастно и для других распределений. Сравнение boxplot-медиан похоже на визуальную проверку гипотез, аналогичную t-тесту, используемому для средних.
12
Задание
1.Освоить методы графического вывода групп одномерных данных с помощью функций hist и boxplot.
2.Освоить методы сравнение групп одномерных данных.
3.Оценить различия групп одномерных данных с помощью функций
hist и boxplot.
Порядок выполнения работы
1.Запустите систему MATLAB.
2.Постройте диаграммы hist и plot по 3-му признаку (длина лепест-
ка) для двух классов ирисов Фишера: setosa и versicolor.
3. Постройте диаграмму boxplot по 2-му признаку (ширина чашели-
стика) для двух классов ирисов Фишера: setosa и versicolor.
4. Создайте 2 массива (для каждой бригады – своих) из 10 случайных чисел каждый по нормальному закону с параметрами из табл. 2.2.
Таблица 2.2
Массив |
V1 |
V2 |
V3 |
V4 |
V5 |
V6 |
V7 |
V8 |
V9 |
V10 |
|
1 |
m = 2 |
m = 3 |
m = 4 |
m = 5 |
m = 6 |
m = 3 |
m = 5 |
m = 6 |
m = 7 |
m = 8 |
|
σ = 1 |
σ = 1 |
σ = 1 |
σ = 2 |
σ = 2 |
σ = 2 |
σ = 1 |
σ = 1 |
σ = 2 |
σ = 3 |
||
|
|||||||||||
2 |
m = 6 |
m = 8 |
m = 7 |
m = 2 |
m = 2 |
m = 7 |
m = 2 |
m = 7 |
m = 3 |
m = 4 |
|
σ = 2 |
σ = 4 |
σ = 3 |
σ = 1 |
σ = 1 |
σ = 4 |
σ = 1 |
σ = 1 |
σ = 2 |
σ = 2 |
||
|
5. Для полученных массивов постройте диаграмму boxplot с зазубринами. Дайте анализ различия между этими массивами.
Содержание отчета
1.Название, цель и задачи работы.
2.Тексты программ и изображения графических окон, которые требо-
валось сохранять в ходе выполнения работы.
3. Объяснение полученных результатов и выводы.
3. СРАВНЕНИЕ ДВУМЕРНЫХ ДАННЫХ
Цели работы: получение навыков работы по отображению двумерных данных в системе MATLAB.
13
Основные положения
Диаграмма рассеяния scatter
Для визуального отображения одной группы двумерных данных на плоскости используется функция scatter(x,y). Она отображает кружочки (маркеры) в местах расположения, заданных векторами x и y (которые долж-
ны быть одного и того же размера). scatter(x,y) рисует маркеры, имеющие размер и цвет по умолчанию. С помощью дополнительных параметров можно задавать различные типы, размеры и цвета маркеров.
Диаграмма рассеяния по группам gscatter
Для целей визуального сравнения данных нескольких групп объектов по 2 признакам используется диаграмма рассеяния по группам (функция gscatter). Она определяется следующим образом.
gscatter(x,y,group) создает график рассеяния на плоскости двух пере-
менных x и y, отображаемых по группам. x и y являются векторами одинакового размера. group – это переменная группировки в виде строкового массива. Точки одной группы отображаются на графике одинаковыми маркерами и цветом.
gscatter(x,y,group,clr,sym,siz) также как и в функции plot назна-
чает цвет, тип и размер маркера для каждой группы. clr это строковый мас-
сив цветов (по умолчанию 'bgrcmyk') sym это строковый массив типа мар-
кера (по умолчанию '.'. siz – это вектор размеров маркеров.
|
4.5 |
|
|
|
|
|
9 |
|
|
|
|
|
|
|
|
|
|
|
|
|
setosa |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
A |
|
|
|
|
|
|
versicolor |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
8 |
|
|
|
|
|
|
|
B |
|
|
4 |
|
|
|
virginica |
|
|
|
|
|
|
|
|
||
|
|
|
|
|
|
|
|
|
|
|
|
C |
|||
чашелистикаШирина |
|
|
|
|
|
-2признакй |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
7 |
|
|
|
|
|
|
|
|
||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
3.5 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
6 |
|
|
|
|
|
|
|
|
|
3 |
|
|
|
|
|
5 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
4 |
|
|
|
|
|
|
|
|
|
2.5 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
3 |
|
|
|
|
|
|
|
|
|
2 |
|
|
|
|
|
2 |
|
|
|
|
|
|
|
|
|
4 |
5 |
6 |
7 |
8 |
|
2 |
3 |
4 |
5 |
6 |
7 |
8 |
9 |
|
|
|
1 |
|||||||||||||
|
|
|
Длина чашелистика |
|
|
|
|
|
|
1-й признак |
|
|
|
|
|
|
|
Рис. 3.1 |
|
|
|
|
|
|
|
Рис. 3.2 |
|
|
|
||
|
Пример 3.1 (рис. 3.1) |
|
|
|
|
|
|
|
|
|
|
|
|
||
load fisheriris
gscatter(meas(:,1),meas(:,2),species,'','xos')
14
Пример 3.2 (рис. 3.2)
Используя массив a из примера 1.1, построим gscatter для 3 классов: A,
B, C по 1-му и 2-му признакам.
gscatter(a(:,1),a(:,2),g,'','xos')
Задание
1.Освоить методы графического вывода групп двухмерных данных с помощью функции gscatter.
2.Изучить методы сравнение групп двухмерных данных.
Порядок выполнения работы
1.Загрузите данные по ирисам Фишера.
2.Отобразите в пространстве двух признаков: 3-го (длина лепестка) и 4-го (ширина лепестка) все три класса ирисов.
3.Создайте 2 группы (класса) двумерных данных, состоящих из 10 отсчетов каждая. Данные – это векторы, каждый из которых состоит из 2 компонент. Компоненты векторов представляют собой выборку случайных чисел из нормального закона с параметрами, указанными в таблице.
Номер группы |
Вариант 1 |
Вариант 2 |
Вариант 3 |
Вариант 4 |
Вариант 5 |
||||||
(класса) |
Пр. 1 |
Пр. 2 |
Пр. 1 |
Пр. 2 |
Пр. 1 |
Пр. 2 |
Пр. 1 |
Пр. 2 |
Пр. 1 |
Пр. 2 |
|
1 |
m=2 |
m=7 |
m=3 |
m=5 |
m=4 |
m=6 |
m=8 |
m=5 |
m=3 |
m=6 |
|
σ=1 |
σ=2 |
σ=1 |
σ=2 |
σ=1 |
σ=2 |
σ=3 |
σ=1 |
σ=2 |
σ=1 |
||
|
|||||||||||
2 |
m=6 |
m=3 |
m=8 |
m=2 |
m=7 |
m=2 |
m=4 |
m=2 |
m=7 |
m=7 |
|
σ=2 |
σ=2 |
σ=4 |
σ=1 |
σ=3 |
σ=1 |
σ=2 |
σ=1 |
σ=4 |
σ=1 |
||
|
|||||||||||
4. Отобразите в пространстве полученных двух признаков данные классы. Сделайте вывод о сходстве ваших классов.
Содержание отчета
1.Название, цель и задачи работы.
2.Тексты программ, которые требовалось сохранять в ходе выполнения работы.
3.Объяснение полученных результатов и выводы.
4. МЕТОД ГЛАВНЫХ КОМПОНЕНТ (ПРИВЕДЕНИЕ ДАННЫХ К ДВУМЕРНОМУ ВИДУ)
Цели работы: получение навыков работы с методом главных компонент в системе MATLAB; вычисление главных компонент для биомедицинских данных.
15