Материал: Сравнительный анализ методов кластерного анализа в решении задач группировки

Внимание! Если размещение файла нарушает Ваши авторские права, то обязательно сообщите нам

)        расстояние до ближайшей станции метро (pts_subway_station_d01_distance);

)        расстояние до ближайшей остановки наземного общественного транспорта (pts_city_d01_distance);

)        расстояние до ближайшей торговой точки не KA-сети (tt_to_tt_d001_distance);

)        расстояние до ближайшей торговой точки KA-сети (ka_d01_distance);

3.5 Выявление однородных по местоположению точек


В рамках подготовки данных было проведено деление всех данных на однородные страты по численности населения. Это необходимо для выполнения в дальнейшем качественной кластеризации. При делении на страты был применён метод сравнения средних. Качество разбиения проверялось по степени различия между стратами на основании непараметрического дисперсионного анализа. Результаты применения приведены ниже:

1. Доход населения. Гипотеза о равенстве дохода для 4 страт отвергалась (смотри таблицу 1).

 

Таблица 1 Гипотеза о доходе населения


Как видно из рисунка 20 заметна разница в среднем значение дохода. В первой страте существенно выше, чем в остальных. Наименьший доход отмечен в четвертой страте.

Рисунок 20 Сравнения между стратами (доход населения)

2. Средняя стоимость одного квадратного метра жилья. Гипотеза о равенстве стоимости 1 кв. метра жилья для 4 страт отвергалась (смотри таблицу 2).

Таблица 2. Гипотеза о средней стоимости 1кв.метра жилья


Как видно из рисунка 21 заметна разница в среднем значение стоимости 1 кв. метра жилья. В первой страте существенно выше, чем в остальных. Наименьшее значение во второй страте. В 3 и 4 страте примерно одинаковая стоимость.

Рисунок 21 Сравнения между стратами (стоимость 1кв.метра жилья)

3. Средняя стоимость аренды однокомнатной квартиры. Гипотеза о равенстве стоимости аренды для 4 страт отвергалась (смотри таблицу 3).

Таблица 3 Гипотеза о средней стоимости аренды


Как видно из рисунка 22 заметна разница в среднем значение стоимости аренды жилья. В первой страте существенно выше, чем в остальных. Наименьшее значение во второй страте.

Рисунок 22 Сравнения между стратами (средней стоимость аренды жилья)

4. Количество МПН произвольного типа в радиусе 1000 метров. Гипотеза для 4 страт отвергалась (смотри таблицу 4).

 

Таблица 4 Гипотеза о количестве МПН


Как видно из рисунка 23 заметна разница в среднем значение количества МПН. В первой страте существенно выше, чем в остальных. Наименьшее количество МПН в четвертой страте.

Рисунок 23 Сравнения между стратами (количество МПН)

 

5. Количество торговых точек не KA-сетей в радиусе 1000 метров. Гипотеза для 4 страт отвергалась (смотри таблицу 5).

Таблица 5 Гипотеза о количестве торговых точек не КА-сетей


Как видно из рисунка 24 заметна разница в средних значениях. Во второй страте среднее значение существенно выше, чем в остальных. Наименьшее значение в четвертой страте.

Рисунок 24 Сравнения между стратами (Количество ТТ не KA-сетей)

6. Количество торговых точек KA-сетей в радиусе 1000 метров. Гипотеза для 4 страт отвергалась (смотри таблицу 6).

Таблица 6 Гипотеза о количестве торговых точек КА-сетей


Как видно из рисунка 25 заметна разница в средних значениях.

Во второй страте среднее значение выше, чем в остальных, а наименьшее в четвертой страте.

Рисунок 25 Сравнения между стратами (Количество ТТ KA-сетей)

 

. Количество ж/д станций в радиусе 1000 метров. Гипотеза для 4 страт отвергалась (смотри таблицу 7).

 

Таблица 7 Гипотеза о количестве ж/д станций


Как видно из рисунка 26 заметна разница в средних значениях.

В первой страте среднее значение выше, чем в остальных.

Наименьшее количество ж/д станций в третьей и четвертой страте.


8. Количество остановок наземного общественного транспорта в радиусе 1000 метров. Гипотеза для 4 страт отвергалась (смотри таблицу 8).

 

Таблица 8 Гипотеза о количестве остановок наземного транспорта


Как видно из рисунка 27 заметна разница в средних значениях. В первой страте среднее значение выше, чем в остальных, наименьшее значение в 4 страте.

Рисунок 27 Сравнения между стратами (количестве остановок наземного транспорта)

 

9. Расстояние до ближайшего МПН произвольного типа. Гипотеза для 4 страт отвергалась (смотри таблицу 9).

 

Таблица 9 Гипотеза о расстоянии до ближайшего МПН


Как видно из рисунка 28, заметна разница в средних значениях. В четвертой страте среднее значение выше, чем в остальных. Наименьшее значение отмечено в первой и второй страте.

Рисунок 28 Сравнения между стратами (количестве остановок наземного транспорта)

 

. Расстояние до ближайшей ж/д станции. Гипотеза для 4 страт отвергалась (смотри таблицу 10).

Таблица 10 Гипотеза о расстоянии до ближайшей ж/д станции


Как видно из рисунка 29 заметна разница в средних значениях. В четвертой страте среднее значение выше, чем в остальных. Наименьшее значение отмечено в первой страте.

Рисунок 29 Сравнения между стратами (расстояние до ближайшей ж/д станции)

11. Расстояние до ближайшей станции метро. Гипотеза для 4 страт отвергалась (смотри таблицу 11).

 

Таблица 11 Гипотеза о расстоянии до станции метро


Как видно из рисунка 30, заметна разница в средних значениях. Во второй, третье и четвертой страте среднее значение выше, а наименьшее значение отмечено в первой страте.

Рисунок 30 Сравнения между стратами (расстояние до ближайшей станции метро)

12. Расстояние до ближайшей остановки наземного общественного транспорта. Гипотеза для 4 страт отвергалась (смотри таблицу 12).

Таблица 12 Гипотеза о расстоянии до ближайшей останове наземного транспорта


Как видно из рисунка 31 заметна разница в средних значениях. В четвертой страте среднее значение выше, а наименьшее значение отмечено в 1 страте.

Рисунок 31 Сравнения между стратами (расстояние до ближайшей останове наземного транспорта)

 

13. Расстояние до ближайшей торговой точки не KA-сети. Гипотеза для 4 страт отвергалась (смотри таблицу 12).

 

Таблица 13 Гипотеза о расстоянии до ближайшей торговой точки не КА-сети


Как видно из рисунка 32 заметна разница в средних значениях. В третьей страте среднее значение выше, а наименьшее значение отмечено в первой, второй и третьей страте.

Рисунок 32 Сравнения между стратами (расстоянии до ближайшей торговой точки не КА-сети)

14. Расстояние до ближайшей торговой точки KA-сети

 

Таблица 14 Гипотеза о расстоянии до ближайшей торговой точки КА-сети


Как видно из рисунка 33 заметна разница в средних значениях. В третьей страте среднее значение выше, а наименьшее значение отмечено в первой, второй и третьей страте.

Рисунок 33 Сравнения между стратами (расстояние до ближайшей торговой точки КА-сети)

Таким образом, в итоге были получены результаты схожести страт (см. таблицу 15).

Таблица 15 Сравнение между стратами

.5.1Итоговое деление на страты

В итоге было выбрано разбиение на 4 страты с отнесением городов сателлитов к основным городам. Страту (поле pop_strata) определяем мы по численности населения в населённом пункте, в котором находится торговая точка.

·    1 страта - крупные города, с численностью населения более 1 миллиона человек;

·        2 страта - города, с численностью населения более 250 тысяч человек и до 1 миллиона человек;

·        3 страта - города, с численностью населения более 100 тысяч человек и менее 250 тысяч человек;

·        4 страта - города, с численностью населения менее 100 тысяч человек.

.6 Кластеризация объектов на однородные группы


Для выделения ТТ со схожим местоположением проведем кластеризацию объектов (для каждой из страт). Перед применение кластеризации необходимо выделить более однородные торговые точки по местоположению. Для определения качества разбиения на кластеры был использован показатель вариации. В результате 36 651 торговых точек были поделены на 15 кластеров (36 598 торговых точек) + 16-ый кластер состоит из 53 аномальных точек . Под аномальными подразумеваем точки с очень высокими продажами.

Для характеристики кластеров использовались следующие 7 показателей из описательной статистики:

·    Минимум, наименьшее значение продаж;

·        Процентиль 5%;

·        Процентиль 25%;

·        Медиана, это точка на шкале измеренных значений продаж, выше и ниже которой лежит по половине всех измеренных значений продаж;

·        Процентиль 75%;

·        Процентиль 95%;

·        Максимум, наибольшее значение продаж.

 

 

Таблица 16 Итоговое разбиение на кластеры


В таблице 1 можно наглядно увидеть итоговое распределение кластеров внутри страт. Самое большое количество торговых точек относятся к четвертой страте, а самое маленькое к третей страте.

·    Страта 1. Для первой страты (4402 торговых точек) путем применения метода к-средних (глава 2 пункт 2.3) было получено оптимальное разбиение на 4 кластера по 15 признакам. Количество кластеров выбрано на основании оптимизации критерия Акаике.

·    1-й кластер - включает в себя такие торговые точки, чьи районы близки к центру крупных городов, или точки, находящиеся в торговых центрах.

Профиль кластера: Данный кластер характеризует значительное количество мест притяжения населения (МПН), высокая концентрация торговых зон и развитая инфраструктура.

Рисунок 34 Доля кластеров в первой страте

Основные количественные и качественные характеристики кластера: Составляет 61,5% процент от общей реализации страты. В кластере 2708 торговых точек. Среднемесячные продажи в торговых точках данного кластера оцениваются в диапазоне от 3 до 7 тысяч рублей. Усредненный показатель дохода населения равен 34-36 тысячам рублей, что является выше среднего и опережает большую часть остальных кластеров по данному показателю.

Средняя стоимость 1 квадратного метра жилья будет равняться 63 - 64 тысячам рублей, что можно назвать средним показателем. Средняя стоимость аренды однокомнатной квартиры оценивается в 14 - 15 тысяч рублей, что так же можно охарактеризовать как средний показатель в сравнении с другими кластерами.

Количество мест притяжения населения произвольного типа в радиусе 1000 метров составляет от 32 до 47 -показатель выше среднего, а количество торговых точек не KA-сетей в радиусе 1000 метров около 40 - 53, что также является показателем выше среднего. Торговые точки KA-сетей в радиусе 1000 метров представлены в среднем - 10 единицами. Наличие железнодорожных станций в радиусе 1000 метров оценивается как не более двух.

Данный кластер характеризуется полным отсутствием станций метро в радиусе 1000 метров. Количество остановок наземного общественного транспорта в радиусе 1000 метров составляет 13-20 единиц.

Географические характеристики кластера: Расстояние до ближайшего места притяжения населения произвольного типа минимальное - рядом. Охарактеризовать расстояние до ближайшей ж/д станции можно как высокое - далеко. Расстояние до ближайшей станции метро - нет в округе. Удаленность от ближайшей остановки наземного общественного транспорта будет невысокой, характеристика - рядом. Расстояние до ближайшей торговой точки не KA-сети минимальное - рядом, а удаленность от ближайшей торговой точки KA-сети чуть больше, но также невелико, характеристика - близко.

·    2-й кластер - это жилые (спальные) районы крупных городов.

Профиль кластера: Незначительное количество МПН, низкая концентрация человеко-потока, торговых зон.

Основные количественные и качественные характеристики кластера: Составляет 12,2% процента от количества торговых точек в страте. В кластере 539 торговых точек. Среднемесячные продажи оцениваются в диапазоне от 3 до 8 тысяч рублей. Средний доход населения около оценен в 34 тысячи рублей, что является похожим на показатели 1-го и 3-го кластера данной страты, но выше показателей большинства кластеров других страт.

Средняя стоимость 1 квадратного метра жилья составляет 61 - 63 тысяч рублей, а средняя стоимость аренды однокомнатной квартиры будет равняться 14 - 15 тысячам рублей, как и в первом кластере. Количество мест притяжения населения произвольного типа в радиусе 1000 метров составляет 7-8 единиц, а торговых точек не KA-сетей в радиусе 1000 метров оценивается в диапазоне от 24 до 43 единиц. Количество торговых точек KA-сетей в радиусе 1000 метров будет равняться 2. Не более двух железнодорожных станций в радиусе 1000 метров. Важной характеристикой является отсутствие станций метро в радиусе 1000 метров. Количество остановок наземного общественного транспорта в радиусе 1000 метров в среднем равняется 3-4.