Отграничение криминалистики от иных наук методами информационного анализа текста
К.В. Бугаев
Для выделения тематически близких к криминалистике дисциплин из ряда иных наук, возможно использовать методы информационного анализ текста, применяя названия авторефератов диссертаций (АРД). Так установлена близость к криминалистике ряда юридических наук «криминального блока» по некоторым аспектам рядов динамики количества тем АРД, дескрипторов, информационной плотности названий АРД.
Ключевые слова. Криминалистика, наукометрия, информация, методы анализа текста, семантика, дескриптор, статистика, информационная плотность текста.
For demarcation of criminalistics from other sciences it is possible to use the information analysis of texts of names (headings) of author's abstracts of dissertations. Quantitative methods find out affinity to criminalistics of some legal sciences on parameters: dynamics of quantity of author's abstracts of dissertations, descriptors, information density of names of texts.
Keywords. Criminalistics, Scientometrics, the information, methods of the analysis of the text, semantics, a descriptor, statistics, information density of the text.
Развитие любой науки начинается, прежде всего, с осознания научным сообществом, что определенная область научного знания существует как реальность - т.е. она достаточно обширная, методологически зрелая, имеет развитую теоретическую базу. При этом часто возникает и проблема разграничения наук Проблему разграничения наук К.Поппер называл демаркацией - см. Поппер К. Логика научного исследования: Пер. с англ. / Под общ. ред. В.Н. Садовского. - М.: Республика, 2004, С.30., особенно смежных. Данную проблему возможно решать различными методами - например, посредством использования в качестве критерия различия в объекте, предмете исследования, целях и задачах научной области, методах исследования и т.д. Но, кроме того, возможно использовать и методы информационного анализа текста, которые широко применяются в науковедении. Так, В.В. Нали-мов и 3.М. Мульченко пишут: «Особый интерес представляет статистическое изуче-ние языка научных публикаций... Такой анализ позволяет оценить не только ши-роту, но и глубину проникновения новых идей и методов. Последняя будет задаваться частотой появления слов, которыми кодируются сложные концепции. Этим спосо-бом, видимо, удастся следить и за развитием отдельных идей или научных школ в пределах одной области знаний» См.: Нали-мов В.В., Мульченко 3.М. Наукометрия. Изучение развития науки как информационного процесса. Физико-математическая библиотека инженера. Изд. «Наука», Главн. ред. физ.-мат. литер., 1969, С.15.. С.Д. Хайтун поясняет: «В числе наукометрических оказываются: стати-стический метод (измерители - число открытий, число журналов, число организаций, число премий, число ученых, частота соавтор-ства и некоторые другие); метод подсчета числа публикаций (измеритель - число научных продуктов); цитат-индекс (измери-тель - число ссылок); контент-анализ (измеритель - число так называемых символов); тезаурусный метод (измеритель - число терминов); сленговый метод (измеритель - число так называемых сленговых слов)» См.: Хайтун С.Д. Наукометрия. Состояние и перспективы. - М.: Изд. «Наука», 1983, С.8.. А.И. Яблонский указывает: «Представляя собой дискретный на-бор текстов, массив публикаций поддается количественному описанию и отражает в определенном смысле эффективность научной деятельности. Поэтому информационный массив до сих пор остается - при всех недостатках - наиболее под-ходящим «измерителем» научного выхода» См.: Яблонский А.И. Модели и методы исследования науки. - М.: Эдиториал УРСС, 2001, С.63..
Криминалистика, имея обширные междисциплинарные связи, также, на наш взгляд, нуждается в более четком определении современного состояния её развития, установлении близких научных областей и степени такой близости, нахождении границ её интересов - Е.П. Ищенко совершенно справедливо полагает: «Современное состояние отечественной криминалистики нуждается в научном ос-мыслении, поскольку это позволит не только обозначить достигнутые успехи, но и ука-зать на имеющиеся недоработки, глубже понять тенденции ее развития» См.: Ищенко Е.П. Российская криминалистика сегодня // Вестник криминалистики / Отв. ред. А.Г. Филиппов. Вып. 4 (20). - М.: Спарк. - 2006, С.4..
Попытаемся изучить массив публикаций отечественной криминалистики, который ограничим названиями авторефератов диссертаций (АРД), что достаточно адекватно отражает главное направление работы конкретного автора, и в целом позволит охватить весь спектр интересов научного сообщества данной предметной области за весь доступный для изучения временной интервал. Данное исследование проведем в сравнении с аналогичными параметрами иных научных областей. Нашей целью является, таким образом, отграничение криминалистки от иных дисциплин методами информационно-количественного анализа текста, что достигается решением задач нахождения индикаторов такого отграничения.
Для целей исследования был произведен отбор доступных для изучения массивов данных об авторефератах диссертаций из каталогов Российской Государственной библиотеки с распределением их по годам начиная с 1986 по 2010 гг. Принципы отбора дисциплин для сравнительного анализа с криминалистикой следующие: во-первых - необходимо исследовать близкие к криминалистике отрасли юридического знания - уголовный процесс Анализировались названия трудов в рамках специальности 12.00.09. При этом к работам по криминалистике нами относились те, которые имеют техническую и тактическую компоненту в названии и значимы с точки зрения методики расследования преступлений. Теория оперативно-розыскной деятельности нами не рассматривалась по той причине, что большая часть работ по данной дисциплине носит закрытый характер., уголовное право, криминология, уголовно-исполнительное право; во-вторых - целесообразно изучить и отдаленные от криминалистики по своим принципам и научным подходам дисциплины из области технических и медицинских наук; и в-третьих полезно провести сравнительный анализ криминалистики и с абсолютно иной по своим подходам сферой - например, с искусствоведением (области технических, медицинских наук и искусствоведения подбирались по принципу сопоставимости количества АРД за исследуемый период, хотя, разумеется, можно попытаться выбрать области гипотетически более «близкие» или, напротив, «далекие» от криминалистики При этом определение степени «близости» или «отдаленности» дисциплин составляет отдельную непростую задачу.. Однако, мы исходим из предположения, что образ мышления ученых, методология научного творчества, и, соответственно, принципы построения названий научных работ и организация их текстов у близких дисциплин сходны). Результаты подбора дисциплин и количества АРД - см. таблицу 1.
Таблица 1. Количество исследованных АРД.
|
Дисциплина |
Количество изученных АРД (единиц) |
|
|
Криминалистика. 12.00.09 - в дальнейшем обозначается КТ |
1737 |
|
|
Уголовный процесс. 12.00.09 - в дальнейшем обозначается УПр |
1549 |
|
|
Уголовное право и криминология; уголовно-исполнительное право. 12.00.08 - в дальнейшем обозначается УПиК |
4220 |
|
|
Техника. Строительные материалы и изделия. 05.23.05 - в дальнейшем обозначается Тхн |
2045 |
|
|
Медицина. Инфекционные болезни. 14.00.10 - в дальнейшем обозначается Мдц |
1274 |
|
|
Искусствоведение. Музыкальное искусство. 17.00.02 - в дальнейшем обозначается Иск |
1767 |
Прежде всего, нами проводилось исследование соотношения семантической близости названий АРД по криминалистике с другими дисциплинами Для анализа текстов здесь и далее использовались компьютерные программы: для выделения дескрипторов из текста - TextAnalyst v.2.01; для сравнения идентичности текстов - Shingles Expert v.1.1.. Результаты отражены в таблице 2.
Таблица 2. Соотношение семантической близости (идентичности В данном и аналогичных следующих ниже по тексту случаях имеется в виду степень сходства. Термин «идентичность» употребляется в смысле программы Shingles Expert.) названий АРД по криминалистике с другими дисциплинами.
|
УПр |
УПиК |
Тхн |
Мдц |
Иск |
||
|
Лемматизация проводилась Лемматизамция - процесс привода словоформы к лемме - её нормальной (словарной) форме. В русском языке нормальными формами считаются следующие морфологические формы: для существительных - именительный падеж, единственное число; для прилагательных - именительный падеж, единственное число, мужской род; для глаголов, причастий, деепричастий - глагол в инфинитиве. |
91% |
91% |
52% |
50% |
53% |
|
|
Лемматизация не проводилась |
80% |
77% |
35% |
36% |
37% |
Мы наблюдаем, что юридические науки оказались заметно более близкими к криминалистике по изучаемому параметру. При этом интересно отметить, что отсутствие при исследовании лемматизации несколько снижает показатели сходства дисциплин, что, видимо, объясняется специфическим употреблением морфологических форм слов в каждой науке.
В продолжении данного исследования нами проведено изучение соотношение идентичности дескрипторов Здесь и далее: дескримптор - лексическая единица (слово, словосочетание) языка, выражающая основное смысловое содержание какого-либо текста. названий АРД по криминалистике с другими дисциплинами. Результаты отражены в таблице 3.
Таблица 3. Соотношение семантической близости дескрипторов названий АРД по криминалистике с другими дисциплинами.
|
УПр |
УПиК |
Тхн |
Мдц |
Иск |
||
|
Лемматизация проводилась |
75% |
77% |
19% |
22% |
21% |
|
|
Лемматизация не проводилась |
60% |
56% |
12% |
14% |
13% |
Мы наблюдаем, что тенденции, указанные нами выше при изучении соотношения идентичности названий АРД, также сохраняются.
Следовательно, анализ идентичности названий АРД и их дескрипторов по различным наукам может служить индикатором для выделения тематически близких дисциплин. Однако, уверенное разделение с помощью данного индикатора близких наук остается проблематичным.
Далее, нами проводился анализ количества тем АРД а также дескрипторов (динамика по годам). Результаты отражены в таблицах 4 и 5.
Таблица 4. Статистические показатели рядов динамики количества тем АРД. криминалистика наука автореферат диссертация
|
Дисциплина |
Дисперсия выборки |
Среднеквад-ратичное отклонение |
Медиана |
Мода |
Среднее значение |
Эксцесс |
Асимметрия относительно среднего |
Корреляция исследуемых данных по КТ с… |
|
|
КТ |
3412,332 |
58,41517 |
53 |
27 |
72,375 |
-1,27355 |
0,386228 |
||
|
УПр |
2783,911 |
52,76278 |
48,5 |
22 |
64,54167 |
-1,10912 |
0,61231 |
0,909475 |
|
|
УПиК |
19083,19 |
138,1419 |
119,5 |
нет данных |
175,8333 |
-1,18132 |
0,516566 |
0,967851 |
|
|
Тхн |
701,9167 |
26,49371 |
84 |
89 |
81,8 |
1,670209 |
0,204747 |
-0,01855 |
|
|
Мдц |
606,3733 |
24,62465 |
56 |
62 |
50,96 |
-0,29077 |
-0,33217 |
0,093864 |
|
|
Иск |
558,2267 |
23,62682 |
74 |
64 |
70,68 |
1,822962 |
-0,74731 |
0,064069 |
Таблица 5. Статистические показатели рядов динамики дескрипторов названий АРД.
|
Дисциплина |
Дисперсия выборки |
Среднеквад-ратичное отклонение |
Медиана |
Мода |
Среднее значение |
Эксцесс |
Асимметрия относительно среднего |
Корреляция исследуемых данных по КТ с… |
|
|
КТ |
2592,926 |
50,92079 |
44,5 |
19 |
60,45455 |
-1,5945 |
0,348927 |
||
|
УПр |
1943,419 |
44,08423 |
38 |
3 |
46,34783 |
-1,1593 |
1,194564 |
0,885274 |
|
|
УПиК |
11986,54 |
109,4831 |
94 |
нет данных |
137,2174 |
-1,3452 |
0,463453 |
0,952286 |
|
|
Тхн |
481,7067 |
21,94782 |
50 |
42 |
47,04 |
1,178481 |
0,285607 |
-0,12275 |
|
|
Мдц |
799,9112 |
28,2827 |
64 |
73 |
61,20833 |
-0,10775 |
-0,13076 |
0,098991 |
|
|
Иск |
313,8841 |
17,71677 |
52,5 |
47 |
52,33333 |
3,4476 |
0,069545 |
-0,20973 |
Анализ данных из таблиц 4 и 5 дает возможность выделить из общего ряда юридические дисциплины на основании показателей эксцесса Эксцесс характеризует относительную остроконечность или сглаженность распределения по сравнению с нормальным распределением. Положительный эксцесс обозначает относительно остроконечное распределение. Отрицательный эксцесс обозначает относительно сглаженное распределение. и корреляции динамики количества работ. Указанные индикаторы достаточно отчетливо выделяют юридические науки и могут служить соответствующими индикаторами. В какой-то степени отличие данных по юридическим дисциплинам выражено и в показателях дисперсии Дисперсия - в математической статистике и теории вероятностей, мера рассеивания (отклонения от среднего). (что, видимо, указывает на относительно больший тематический разброс названий в юридических науках вообще) и, из данных таблицы 4, также асимметрии относительно среднего Асимметрия характеризует степень несимметричности распределения относительно его среднего. Положительная асимметрия указывает на отклонение распределения в сторону положительных значений. Отрицательная асимметрия указывает на отклонение распределения в сторону отрицательных значений.. В то же время, разница внутри юридических дисциплин по данным параметрам несущественна.