При выборе программного инструментария для ИА встает вопрос определения «тактического» пути: «Какой подход использовать -- аналитико-статистический или нейросетевой?». По ряду соображений выбран первый. Для использования нейро- сетевого варианта требуется большой объем данных. Он более эффективен, если требуется работать с небольшим количеством параметров, определенных на дейтасете с большим количеством информационных срезов, и который можно разделить на обучающую, тестовую и рабочую выборки. В данном случае иная ситуация. Количество первичных документов, формирующих дейтасет относительно невелико -- максимум десятки. Наоборот, количество параметров, определяющих искомую природу компетентностной модели, потенциально может быть большим: от нескольких десятков, до сотен. Второй аргумент -- результаты аналитического подхода легче интерпретировать. Методы машинного обучения, реализующие аналитический подход, например, -- деревья решений, в отличие от нейросетей, представляют правила прогнозирования в явной форме. Ну и наконец, чисто технологически развертывание нейросетевого инструментария в общем случае может быть более трудоемко и требует больших вычислительных ресурсов.
В качестве основного инструмента выбрана аналитическая платформа KNIME. Основной механизм разработки алгоритмов обработки в KNIME реализуется в форме визуальной компоновки готовых элементов (node, узлы) алгоритма обработки.
Решение поставленных задач укладывается в область компьютерной обработки и машинного обучения, связанную с обработкой естественного языка (NLP). Технологии NLP достигли практического уровня развития (актуальный обзор здесь [1]). KNIME содержит ряд встроенных средств такого рода. Дополнительно может быть использован библиотеки обработки текста на языке Python и других языковых сред, которые легко интегрируются в KNIME в виде узлов, содержащих фрагменты кода.
Общий алгоритм обработки текстов с помощью узлов KNIME Text Processing предусматривает выполнение следующих шагов: 1) импорт данных, формирование дейтасета; 2) обогащение -- фильтрация шума (стоп-слов), семантическое обогащение; 3) препроцессинг -- распознавание сущностей (например, имен собственных), токенизация, POS-теги, выделение N-gram, коллокаций; 4) преобразование -- преобразование в «мешок» слов, векторное представление; 5) первичная аналитика -- подсчет частотности ключевых слов, основная статистика; 6) кластеризация, тематическое моделирование, собственно машинное обучение и другие продвинутые методы интеллектуального анализа данных. Реализованная в проекте процедура в целом следовала описанной выше логике.
Результаты исследования и обсуждение
В ходе исследования были реализованы следующие шаги и получены следующие результаты.
На этапе выявления и импорта данных был сформирован первичный дейтасет, вобравший в себя подходящий набор документов из образовательной системы и рынка труда, содержащих данные компетентностной модели.
В качестве опорного документа использовалась актуальная версия описания основной образовательной программы магистратуры «Управление проектами и программами», реализуемой в СЗИУ РАНХиГС. Данные магистерских программ других вузов собирались в разрезе любых отраслей деятельности и/или отдельных функциональных срезов проектного менеджмента. Примеры подходящих тематик программ: управление проектами, управление проектами в международной деятельности, менеджмент креативных проектов. В основном эти программы реализуются в рамках направления 38.04.02 «Менеджмент», но возможны и другие направления. Не рассматривались программы, связанные с подготовкой в области проектирования в технико-технологическом смысле. Примеры неподходящих тематик: автоматизированное проектирование конструкций, художественное проектирование швейных изделий, архитектурное проектирование.
В табл. 2 представлен использованный набор программ.
Структура этих документов более или менее стандартизована. Тем не менее с использованием предварительной ручной подготовки были удалены лишние разделы -- служебные элементы текста, не имеющие прямого отношения к компетентностной модели: титульный лист, нормативные ссылки, требования к материальному обеспечению учебного процесса и другое. Оставлены в том виде как есть разделы:
* области и (или) сферы профессиональной деятельности выпускника;
* объект(ы) профессиональной деятельности выпускника;
* универсальные компетенции выпускников и индикаторы их достижения;
* общепрофессиональные компетенции выпускников и индикаторы их достижения;
* профессиональные компетенции выпускников.
В части формирования дейтасета требований рынка труда были отобраны профстандарты в сфере управления проектами (в скобках -- число организаций разработчиков):
* 06.016 Руководитель проектов в области информационных технологий (14);
* 08.036 Специалист по работе с инвестиционными проектами (2);
* 10.015 Специалист по организации архитектурно-строительного проектирования (2);
* 24.005 Специалист по управлению проектами и программами в области атомного флота (1);
* 24.009 Специалист по управлению проектами и программами в области производства электроэнергии атомными электростанциями (1);
* 24.093 Специалист по календарно-сетевому планированию проектов сооружения объектов использования атомной энергии (1);
* 40.034 Специалист по проектному управлению в области разработки и постановки производства полупроводниковых приборов и систем с использованием нанотехнологий (1).
Структура этих документов тоже более или менее стандартизована. Так же, как и с ОП и по тем же причинам, документы подверглись ручной обработке с удалением служебной нерелевантной информации. Были оставлены только разделы: «Описание трудовых функций, входящих в профессиональный стандарт (функциональная карта вида профессиональной деятельности)» и подразделы «Трудовая функция» в разделах «Характеристика обобщенных трудовых функций».
Таблица 2. Состав дейтасета образовательных программ
Table 2. The composition of the dataset of educational programs
|
Наименование |
Направление подготовки |
ВУЗ |
Год |
|
|
Управление проектами и программами |
38.04.02 Менеджмент |
ФГБОУ Северо-Западный институт управления РАНХиГС |
2021 |
|
|
Управление проектами |
38.04.02 Менеджмент |
ФГБОУ НИУ «МЭИ» Инженерноэкономический институт |
2020 |
|
|
Маркетинг и управление проектом |
38.04.02 Менеджмент |
ФГБОУ Уральский федеральный университет имени первого Президента России Б. Н. Ельцина |
2020 |
|
|
Управление инновационными проектами и целевыми программами |
38.04.04 Государственное н муниципальное управление |
ФГБОУ «Российский государственный университет правосудия» |
2021 |
Информация о требованиях к работникам, непосредственно предъявляемых на рынке труда, была получена на основе анализа вакансий, размещенных на портале Head Hunter. Отбирались вакансии работников, принимаемых на позиции: руководитель проекта, project manager, проект-менеджер, специалист управления проектами, координатор проекта, администратор проекта. Для извлечения информации использовался механизм API. Всего получено информации по 5788 открытым вакансиям в разных регионах.
Наконец, в состав дейтасета была включена информация из набора документов сертификационных систем, стандартов и руководящих материалов профессиональных ассоциаций и институтов. В частности, были использованы рабочие материалы российской Ассоциации управления проектами СОВНЕТ по подготовке национального профессионального стандарта «Специалист по управлению проектом» [11]. А также требования к компетентности профессионалов в управлении проектами, программами и портфелями, разработанные международной ассоциацией управления проектами IPMA: на уровне организации -- Organizational Competence Baseline IPMA OCB, Organizational Competence Baseline / Требования к компетентности организа-ции в области управления проектами. М.: ОЧУ «УКЦ «Проектная ПРАКТИКА», 2014. 137 с. и на индивидуальном уровне -- Individual Competence Baseline IPMA ICB, Individual Competence Baseline, version 4 -- IPMA, 2015..
На этапе предварительной обработки и фильтрации и для повышения возможности соотнесения текстов проведена лемматизация. Здесь использовалась подключенная к KNIME библиотека текстового анализа pymorphy2 [Электронный ресурс]. URL: pymorphy2 https://pymorphy2.readthedocs.io/en/0.2/index.html (дата обращения: 13.08.2022)., написанная на язы- ке Python, а также Python-библиотека Pandas [Электронный ресурс]. URL: https://pandas.pydata.org (дата обращения: 13.08.2022).. Текст был также приведен к единому регистру и очищен от слов, не несущих содержательной информации (стоп-слова).
На этапе предварительного анализа с использованием имеющихся узлов KNIME: N-Gram Creator, Term Co-Occurrence Counter проведен частотный анализ изучаемых текстов, а также совместное использование терминов. В табл. 3 представлен фрагмент устойчивых словосочетаний, выявленных на материалах требований работодателей и в описании ОП «Управление проектами и программами».
Эти результаты позволяют сделать предварительный вывод о том, что наиболее часто употребляемые элементы формулировок требований к компетенциям, представленных в вакансиях Head Hunter, с одной стороны, и в исследуемом образце ОП, с другой, имеют мало совпадений. Работодатели и разработчики ОП делают разные акценты в контексте компетентностной модели. Отметим, однако, что в данном случае речь о «средней температуре по больнице» -- частотность терминов в описаниях вакансий определялась на всем их массиве, без какой-либо структуризации этой профессиональной деятельности. Вполне возможно, что рассматриваемая магистерская программа соответствует какой-то конкретной разновидности профессии. Для уточнения ситуации необходимо реализовать ряд последующих шагов.
Первый из них -- выделение характерных укрупненных трудовых функций на материале требований, которые выставляют работодатели. Для этого использовались методы машинного обучения. В частности, на начальной фазе использован узел KNIME: Topic Extractor (Parallel LDA). Алгоритм опирается на библиотеку моделирования тем MALLET: A Machine Learning for Language Toolkit [Электронный ресурс]. URL: https://mimno. github.io/Mallet/index (дата обращения: 13.08.2022).. Результат обработки массива требований вакансий Head Hunter представлен в табл. 4.
Метод Parallel LDA выделяет характерные части текстов: темы (topic), опираясь на логическую увязку используемой в них терминологии. Дальнейшая экспертная оценка позволяет предложить, например, следующую смысловую интерпретацию таким образом автоматически выявленных тем (см. соответствующую графу в табл. 4):
Таблица 3
Совместное появление терминов в описаниях вакансий работодателей и образовательной программы (фрагмент, словосочетания отсортированы по мере убывания частоты появления)
Table 3. The joint appearance of terms in the descriptions of vacancies of employers and the educational program (fragment, phrases are sorted as the frequency of appearance decreases)
|
Вакансии Head Hunter |
|||
|
Term1 |
Term2 |
SC* |
|
|
ведение |
проект |
300 |
|
|
покупатель |
тайный |
240 |
|
|
бизнес |
лицо |
226 |
|
|
Магистерская программа «Управление проектами и программами» |
|||
|
Term1 |
Term2 |
SC |
|
|
исследовательский |
научно |
8 |
|
|
государственный |
организация |
6 |
|
|
организационно |
управленческий |
6 |
|
|
4 |
* SC (Sentence cooccurrence) -- количество предложений, содержащих сочетание терминов.
Таблица 4. Темы укрупненных трудовых функций, выделенные из требований работодателей (источник Head Hunter)
Table 4. Topics of enlarged labor functions, separated from the requirements of employers
|
Topic id |
Concatenate (Term) |
Интерпретация |
|||||
|
1 |
2 |
3 |
4 |
5 |
|||
|
topic_5 |
разработка, сайт, интернет, проект |
* |
|||||
|
topic_4 |
процесс, бизнес, компания, оптимизация |
* |
|||||
|
topic_8 |
проект, ведение, организация, руководитель |
* |
|||||
|
topic_12 |
проект, управление, разработка, внедрение |
* |
|||||
|
topic_10 |
технический, разработка, требование, задание |
* |
|||||
|
topic_7 |
проект, контроль, работа, персонал |
* |
|||||
|
topic_13 |
проект, контроль, управление, срок |
* |
|||||
|
topic_3 |
работа, контроль, организация, строительство |
* |
* |
||||
|
topic_0 |
заказчик, проект, потребность, организация |
* |
|||||
|
topic_11 |
подготовка, коммерческий, договор, предложение |
* |
* |
||||
|
topic_1 |
клиент, поиск, новый, база |
* |
* |
||||
|
topic_9 |
покупатель, поиск, работа, тайный |
* |
* |
||||
|
topic_2 |
проект, команда, управлять, клиент |
* |
* |
||||
|
topic_6 |
продажа, курс, клиент, продукт |
* |