Модуль «Обработка естественного языка интеллектуальными системами» в общеобразовательном курсе информатики
И.В. Левченко
Д.Б. Абушкин
П.А. Меренкова
Аннотация
В статье предложен авторский подход к изложению учебного материала при рассмотрении на уроках информатики возможностей обработки естественного языка интеллектуальными системами.
Ключевые слова: методика обучения; общеобразовательный курс информатики; искусственный интеллект; обработка естественного языка; чат-бот; голосовой помощник.
Abstract
I.V. Levchenko,
D.B. Abushkin,
P.A. Merenkova
Module «Natural Language Processing by Intelligent Systems» in the General Education Course of Informatics
The article proposes a definite presentation of educational material when considering the possibilities of natural language processing by intelligent systems.
Keywords: methodic of teaching; general education course of informatics; artificial intelligence; natural language processing; chat bot; voice assistant.
Основная часть
учебный информатика интеллектуальный
В данной статье описана методика преподавания модуля «Обработка естественного языка интеллектуальными системами», который необходимо изучать после освоения учащимися модулей «Введение в искусственный интеллект», «Нисходящее моделирование интеллектуальной деятельности», «Восходящее моделирование интеллектуальной деятельности», «Машинное обучение систем искусственного интеллекта», «Распознавание образов интеллектуальными системами» [6; 7].
Рассмотрим подход к реализации модуля «Обработка естественного языка интеллектуальными системами» [5], при изложении содержания которого следует опираться на сформированные у учащихся знания и умения [4], опыт их работы с информационными технологиями [3], систематически использовать технические средства и предлагать задания по поиску информации в сети Интернет [2].
В рамках изучения данного модуля предлагается рассмотреть три темы: «Анализ элементов естественного языка», «Методы обработки естественного языка», «Применение методов обработки естественного языка».
Выделим предметные, метапредметные и личностные результаты обучения [1].
Предметные результаты обучения:
* иметь представление о возможностях и перспективах развития искусственного интеллекта в области обработки естественного языка интеллектуальными системами;
• уметь приводить примеры решения различных задач с использованием систем искусственного интеллекта при распознавании и синтезе речи;
• иметь представление о проблемах обучения интеллектуальных систем распознаванию и синтезу речи;
• уметь разрабатывать некоторые программные средства по тематике обработки естественного языка.
Метапредметные результаты обучения:
• формирование универсальных учебных действий (познавательных, регулятивных, коммуникативных), обобщенных способов информационной деятельности при использовании технологий искусственного интеллекта, предназначенных для обработки естественного языка;
• развить познавательные интересы, интеллектуальные и творческие способности при разработке программных средств по тематике распознавания и синтеза речи;
• приобрести опыт использования средств распознавания и синтеза речи в индивидуальной, групповой и коллективной учебно-познавательной деятельности.
Личностные результаты обучения:
• личностное и предпрофессиональное самоопределение через познавательную мотивацию к получению профессий, связанных с искусственным интеллектом, и через познавательный интерес - к достижениям в области распознавания и синтеза речи;
• построение дальнейшей индивидуальной образовательной траектории через получение представления о перспективных направлениях развития технологий в области обработки естественного языка;
• осознание особой важности для государства, общества и своего личного будущего развития технологий распознавания и синтеза речи.
Базовыми понятиями для изучения модуля будут являться следующие: информация и ее виды, виды данных и их кодирование, язык и его виды, объект и его характеристики, система и ее элементы, структура, виды информационных моделей и информационное моделирование, модели представления знаний, файл и файловая система, компьютерные сети, сервисы сети Интернет, искусственный интеллект и интеллектуальные системы, датасет, экспертная система, многослойная и сверточная нейронная сеть, виды машинного обучения.
Дидактические элементы, которые осваиваются при изучении модуля: естественный и искусственный языки; обработка речи и текста; процесс восприятия, понимания и реагирования; морфологический, синтаксический, семантический и прагматический анализ текста; формальный и статистический метод разбора текста; применение нейронных сетей; семантическая свертка; разреженное распределенное представление; лоскут; семантическая карта; таблица семантических отпечатков; машинный перевод; компьютерные переводчики; чат-боты и голосовые помощники.
Остановимся на рассмотрении методики преподавания темы «Анализ элементов естественного языка», являющейся первой в модуле.
Цель: дать представление о процессе обработки естественного языка интеллектуальными системами.
Контрольные вопросы:
1. Что понимается под языком? В чем отличие символа и знака?
2. Какие бывают языки по своей природе? В чем их отличие?
3. С чем связаны проблемы обработки естественного языка?
4. С каким процессом связана обработка речи? В чем его суть?
5. С какими процессами связана обработка текста? В чем их суть?
6. Для чего используется морфологический, синтаксический, семантический и прагматический анализ при обработке текста?
Вопросы для обсуждения:
1. В чем отличие процессов восприятия и понимания, свойственных человеку и протекающих в вычислительных системах?
2. Какие задачи, связанные с обработкой естественного языка, можно решать с помощью интеллектуальных систем? Какие существуют проблемы в этой области?
Методические рекомендации
Первое, необходимо обсудить с учащимися, что одной из важнейших задач искусственного интеллекта является обучение интеллектуальной системы обработке естественного языка (письменного и устного), что может позволить ей «понимать» человеческую речь, а человеку - управлять системой на естественном языке.
Второе, напомним учащимся определение понятий «язык», «символ», «знак», а затем и классификацию языков, подкрепляя ее примерами. Упоминаем языки естественные, сложившиеся в процессе развития человеческой цивилизации и использующиеся для общения (например, итальянский), и искусственные, созданные для применения в какой-либо области человеческой деятельности (например, ноты).
Обращаем внимание учащихся на то, что среди искусственных языков выделяют формальные языки, каждое слово которых имеет единственный смысл, а правила формирования и записи этих слов соблюдаются без исключений.
Третье, отмечаем, что вопросы обработки естественного языка изучаются с середины ХХ века, но серьезные успехи были достигнуты лишь в последнее время. Попытки создать универсальную математическую модель естественного языка для автоматизации его обработки показали, что при общении на естественном языке используются не только формальные правила образования слов и построения предложений. Корректируя ответы учащихся относительно факторов, влияющих на результат естественного общения, делаем вывод, что должна учитываться интонация и другие особенности, которые достаточно сложно формализовать.
Обращаем внимание учащихся, что исследования возможностей обработки естественных языков с применением интеллектуальных систем позволили научить их выполнять распознавание речи, машинный перевод текста, компьютерный синтез речи и ряд других задач, решением которых занимается компьютерная лингвистика.
Четвертое, рассмотрение обработки естественного языка и задач обработки речи и текста можно построить по аналогии с осуществлением их человеком. Обработка речи связана с процессом восприятия. Внешний сигнал, воспринимаемый системой искусственного интеллекта, может быть разной природы и вводиться с помощью устройств, примеры которых учащиеся могут привести самостоятельно.
Руководствуясь знаниями учащихся о видах информации, различающихся по способу восприятия информации и форме ее представления, уточняем, что человек для восприятия устной и письменной речи может задействовать разные чувства: слух, зрение, осязание, но в любом случае в результате восприятия внешний сигнал должен быть преобразован в последовательность символов.
Далее обсуждаем, что обработка текста связана с процессами понимания и реагирования. Совместно с учащимися приводим примеры ситуаций, когда процесс понимания заканчивается неудачно, даже если информацию обрабатывает человек. Приходим к выводу, что при таких условиях еще сложнее научить систему искусственного интеллекта верно понимать воспринятое сообщение.
Пятое, вспоминаем с учащимися, что существуют формальные исполнители алгоритмов, для которых не требуется осмысленной обработки текста, а достаточно лишь формы его представления. Для осмысленной же обработки необходимо, чтобы система искусственного интеллекта понимала текст.
Предложите учащимся порассуждать на тему «понимания», его определения, ключевых особенностей, возникающих при общении людей, а затем уточните, что сам человек интуитивно может определить, понимает ли он, например, текст.
Переходя к рассмотрению возможности автоматизации процесса понимания, обсуждаем с учащимися, что термин «понимать» связан с терминами «объяснять», «различать», «интерпретировать». В полной мере система искусственного интеллекта умениями, отвечающими этим терминам, не обладает.
Шестое, обращаем внимание учащихся на то, что процесс понимания связан со стадиями обработки текста. В диалоге выявляем четыре стадии обработки текста:
1. Морфологический анализ. Напоминаем учащимся или предлагаем им самостоятельно найти информацию о морфологии как разделе грамматики (основными ее объектами являются слова естественных языков). На этом шаге набор символов преобразуется в текст, состоящий из слов, для чего применяется словарный метод, когда используются словари основ, окончаний слов, словоформ. Однако может быть применен и бессловарный метод, когда имеется только словарь окончаний.
2. Синтаксический анализ. Аналогично предыдущему этапу, опираясь на то, что синтаксис изучает строение и функциональное взаимодействие различных частей речи в языковых единицах, уточняем, что синтаксический анализ текста сводится к установлению связей между словами и выявлению того, правильно ли составлены предложения с точки зрения конкретного естественного языка. Отмечаем, что особенно хорошо эта задача решена для английского языка, в котором предложения имеют достаточно четкую структуру, а потому легче поддаются обработке.
3. Семантический анализ. Учитывая, что семантика является разделом лингвистики, изучающим смысловое значение единиц языка, приходим к тому, что семантический анализ текста нужен для извлечения из текста его смысловой составляющей. Усложняют задачу слова естественного языка, имеющие разные значения, что необходимо учитывать для более точного понимания смысла текста.
Обсуждаем с учащимися, что семантический анализ хорошо работает с формальными языками, а анализ естественной речи человека до сих пор вызывает сложности. Например, голосовые помощники «Алиса» и Siri, которые наверняка известны учащимся, могут неправильно воспринять контекст, некоторые фразы и выражения, а автоматизированные системы перевода текста с одного естественного языка на другой допускают некачественный перевод, например, художественной литературы. Поэтому специалистам в области искусственного интеллекта предстоит еще решить проблемы, связанные с качественным переводом любых текстов.
4. Прагматический анализ. Выясняем, что прагматика изучает отношения знаков к субъектам, которые их производят и интерпретируют. Уточняем, что интеллектуальная система должна сопоставить выделенный смысл определенному действию или просто никак не реагировать, что в этом случае тоже является реакцией.
Важно, чтобы учащиеся поняли, что обработка текста завершается процессом реагирования, когда система искусственного интеллекта принимает решение и показывает определенную реакцию на воспринятое сообщение.
Остановимся на рассмотрении методики преподавания темы «Методы обработки естественного языка», которая является второй и центральной в модуле.
Цель: дать представление о методах обработки естественного языка и возможностях использования сверточных нейросетей для решения задач распознавания.
Контрольные вопросы:
1. В чем сущность формального и статистического методов разбора текста?
2. Каковы возможности нейронных сетей для обработки естественного языка?