ПРИМЕНЕНИЕ МЕТОДОВ МАШИННОГО ОБУЧЕНИЯ В АНАЛИЗЕ ПОЧЕРКА ДЛЯ ВЫЯВЛЕНИЯ ПСИХОФИЗИОЛОГИЧЕСКИХ СВОЙСТВ ЛИЧНОСТИ
Дружинина Н.А.,
Репинский В.Н.
В статье проводится исследование системы, которая предназначена для решения задач, связанных с графологическим анализом для предсказания и прогнозирования характеристик личности. Основное внимание уделяется признакам, таким как размер букв, наклон букв и слов, базовая линия и их классификация. Работа выполнена в рамках курсового проекта по дисциплине «Machine learning».
Анализ почерка - это трудоемкий и сложный процесс, предназначен для определения психофизиологических свойств личности и прогнозирования его поведения. Может потребоваться несколько часов или даже дней, чтобы проанализировать страницу рукописного текста, в зависимости от детализации и полноты требуемого отчета. Для каждого почерка необходимо провести серию различных оценок, которые включают в себя такие факторы как размер букв, наклон букв и слов, исходный уровень, давление пера, расстояние между буквами и расстояние между словами в документе, в связи с этим возникла необходимость компьютеризации анализа почерка.
По сравнению с методом ручного анализа рукописного текста, автоматический анализ почерка более быстрый и точный. Уровень точности анализа почерка полностью зависит от знаний и опыта графолога, в автоматическом методе прогнозирования анализа почерка применяют три основных этапа: предварительная обработка, извлечение объектов и классификация.
Детально опишем этапы и их последовательность действий:
1. получение рукописных изображений
2. предварительная обработка почерка изображения
3. сегментация почерка изображения
4. выделение признаков
5. обучение и тестирование
6. результаты и обсуждение
Этап 1. Получение базы данных изображений рукописного текста
В этом исследовании используются 100 образцов изображений рукописных текстов разных людей. Каждому человеку было предложено написать текстовый документ из простых 70-80 слов, образцы были написаны на обычной нелинованной бумаге без каких-либо полей, далее были собраны в базу данных путем сканирования.
Этап 2. Предварительная обработка почерка изображения
На этапе предварительной обработки изображения рукописного текста происходит удаление шума путем применения локального порога и последующего изменения размера выборки до правильной ориентации. Предварительная обработка включает в себя открытие цифрового изображения, а затем его сглаживание. Открытие удаляет ненужные символы, знаки в цифровом документе. Следующий процесс заключается в сегментировании цифрового документа, таких как сегменты слов, сегменты букв и сегменты линий. На рис. 1 показана сегментация слов в документе.
Рис. 1 - Сегментация слов в документе
Этап 3. Сегментация почерка изображений
В сегментировании изображения рукописного текста почерк сегментируется на три разных типа: сегментация слов, сегментация букв и сегментация строк, каждая из которых используется для различной обработки.
1. Сегментация слов
Этот процесс используется для сегментации слов в цифровом документе рукописного текста для расчета функций, связанных со словами, указывающими на склонность к критике и аргументации.
2. Сегментация букв
Здесь сегментация выполняется на каждой букве слова в цифровом документе рукописного текста каждого человека. Эта сегментация используется при вычислении признаков, связанных с буквой для прогнозирования личности. Сегментация букв используется для вычисления различных наклонов в буквах, указывающих на открытость чувств.
3. Сегментация строк
Сегментация линии используется для определения исходных характеристик, чтобы судить об эмоциональной стабильности и диспозициях личности в начале письма. Затем сегментированное изображение обрабатывается для математического вычисления численных значений для классификации личности по психологическим факторам.
Этап 4. Выделение признаков
Извлечение функций - это метод уменьшения размерности из высокоразмерных входных данных. Эти уменьшенные выходные данные представляют собой преобразование входных данных с высоким размером, представленных как вектор признаков.
Признак 1. Размер букв
Размер букв в документе представляет собой желание автора быть замеченным. Крупный почерк указывает на то, что автор хочет сказать «заметьте меня», в случае размера мелкого почерка автор менее желателен, чтобы его заметили. Средний размер почерка указывает на желание быть вписанным в окружающий мир. Буквы делятся на три зоны: нижний регистр или зона (например, д, y), верхний регистр или зона (например, б, в), средний регистр или зона (например, a, c, e). Рис 2, объясняет это более наглядно.
Рис. 2 - Структурные элементы почерка [2, 18 c.] а - нижняя зона; б - средняя зона; в - верхняя зона; г - верхняя петля; д - начальный штрих; е - конечный штрих; ж - нижняя граница строки; з - интервал между словами; и - база строки; к - межбуквенный интервал; л - нижняя петля
Признак 2. Наклон слов и букв
Наклон в почерке указывает на эмоциональные взаимодействия личности. Существует три класса наклона: правый наклон, левый наклон и вертикальный.
Рис. 3 - определение наклона букв
Признак 3. Базовая линия
Базовая линия - это функция, которая раскрывает большое количество информации относительно характера личности. Базовая линия в почерке - это воображаемая линия, вдоль которой человек выравнивает написанные им буквы и слова. Базовая линия отвечает за эмоциональную стабильность, личность оценивают по исходному уровню в почерке, как показано на рис.4
Рис. 4 - определение базовой линии
Этап 5. Обучение и тестирование
Используемый в исследовании классификатор - метод опорных векторов, позволяет добиться высоких результатов с большей точностью при помощи анализа данных и распознавания шаблонов.
Для оценки эффективности используется тестовая выборка, состоящая из 30% от исходной, примеры из тестовой выборки не пересекаются с примерами из обучающей выборки. Для определения точности классификации, необходимо выполнить сравнение полученного значения класса нейронной сети с тестовым набором. Для тестирования классификации используется функция «predict»[2].
На рис. 5 изображен образец исследуемого почерка по признакам (размер букв, наклон и базовая линия).
Рис. 5 - Образец исследуемого почерка
В проведенном эксперименте использовались две трети образцов данных почерка и их психологические результаты для изучения системы, оставшаяся третья часть образцов данных почерка проверялась на точность. В таблице 1 показаны критерии классификации стилей написания, точность обучения и полученное значение по признакам исследуемого образца.
Таблица 1 - результаты работы
|
№ |
Признаки |
Критерии классификации |
Полученное значение |
Точность |
|
|
1. |
Размер букв |
очень большой; большой; средний; маленький; очень маленький. |
3, 4152 мм большой |
74, 8% |
|
|
2. |
Наклон букв |
правый наклон: и > и0 левый наклон: и < и0 вертикальный почерк: и = и0 |
109є правый наклон |
68, 3% |
|
|
3. |
Базовая линия |
строка, поднимается вверх: и > 0 строка, спускается вниз: и < 0 прямая линия: и = 0 |
Строка, спускается вниз |
71, 9% |
В общем случае точность классификации может повыситься с помощью увеличения размера обучающей выборки. Рассматриваемая автоматическая система может быть расширена дополнительными признаками и использоваться для обнаружения заболеваний, таких как болезнь Паркинсона, через изменение характеристик, полученных в течение определенного периода времени. Кроме того, система может использоваться в аутентичности документа и выявлении подделки, так как фальсификатор никогда не сможет полностью воспроизвести все оригинальные черты личности.
буква личность графологический