3. Обсуждение результатов
Таким образом, мы видим, что в целом наш подход к моделированию текстов подтвердил свою эффективность. Получены модели, дающие вполне точные результаты, за исключением логистической регрессии (диагностирование пола автора), что, возможно, связано с тем, что выборка по полу была недостаточно сбалансирована. Наша гипотеза о значимости служебных слов и местоимений для моделирования личности по полу также подтвердилась: для определения большинства параметров личности полезными оказываются те или соотношения этих частей речи.
Значимым является также анализ синтаксического уровня текстов, в частности, структуры предложений, однако в настоящее время он недостаточно поддается автоматизации, в связи с чем было взято ограниченное число параметров текстов на синтаксическом уровне: количество простых предложений; количество сложных предложений; количество простых предложений в составе сложных; количество сложных предложений по типам связи между частями (бессоюзное; сложносочиненное, сложноподчиненное). Все эти параметры также оказываются значимыми для моделирования личности по тексту.
Отметим, что мы намеренно не проводили контент-анализ указанных текстов, так как нашей целью был поиск формально-грамматических параметров текстов, коррелирующих с характеристиками личности. Наше исследование показало, что такая корреляция действительно существует, и исследования в этом направлении должны быть продолжены; в частности, необходимо выработать единую теоретическую концепцию с привлечением данных не только лингвистики, но и психологии, объясняющую эффективность тех или иных формально-грамматических параметров для диагностирования по тексту того или иного свойства личности. Построение такой концепции неизбежно приведет к выявлению новых релевантных параметров текстов и, следовательно, к повышению эффективности построенных моделей.
Выводы
Отметим, что данное исследование является пилотным и лишь намечает направления поиска в области моделирования личности по тексту на основе формализуемых, неподконтрольных сознанию пишущего параметров текста. В дальнейшем необходимы более релевантная и корректная выборка по логистической регрессии, анализ поведения отдельного параметра текста как коррелирующего с той или иной характеристикой его продуцента, исследования на большом корпусном материале. Однако уже сейчас нам удалось подтвердить выдвинутую гипотезу о том, что наиболее релевантными параметрами для автоматизированного моделирования личности по тексту являются показатели частотности служебных слов и местоимений.
1. Загоровская О. В., Литвинова Т. А., Литвинова О. А. Электронный корпус студенческих эссе на русском языке и его возможности для современных гуманитарных исследований // Мир науки, культуры и образования. 2012. № 3 (34). С. 387-389.
2. Литвинова Т. А. Установление характеристик (профилирование) автора письменного текста // Филологические науки. Вопросы теории и практики. 2012. № 2 (13). C. 90-94.
3. Литвинова Т. А. Языковые корреляты личностных особенностей автора письменного текста: алгоритм исследования // В мире научных открытий. Серия: Проблемы науки и образования. 2012. № 9.3 (33). С. 236-255.
4. Литвинова Т. А., Загоровская О. В., Середин П. В., Лантюхова Н. Н., Шевченко И. С. Профилирование автора письменного текста: подходы, методы и их оптимизация // Филология, искусствоведение и культурология: актуальные вопросы и тенденции развития: материалы международной заочной научно-практической конференции (13 мая 2013 г.). Новосибирск: Изд. «СибАК», 2013. С. 69-79.
5. Фомина Н. А. Свойства личности и особенности речевой деятельности. Рязань: Узорочье, 2002. 412 с.
6. Lyons J. Linguistic Semantics. Cambridge: Cambridge University Press, 1995. 376 p.
7. Argamon Sh., Koppel M., Pennebaker James W., Schler J. Automatically profiling the author of an anonymous text // Communications of the ACM (Association for Computing Machinery). 2009. Vol. 52 (2). P. 119-123.