Статья: Выделение и распознавание текстовой информации на топографическом плане

Внимание! Если размещение файла нарушает Ваши авторские права, то обязательно сообщите нам

Рис. 5. У гол поворота по меньшей средней.

Для того, чтобы получить эту минимальную среднюю линию, необходимо описать вокруг символа прямоугольник меньшей площади. Его размеры и угол относительно осей дают представление о том, как расположен символ.

Распознавание текста

После определения угла между надписью и горизонтальной стороной изображения может быть выполнен поворот каждого символа на найденный угол. Однако поворот должен осуществляться таким образом, чтобы в дальнейшем была возможность сравнения символа с эталоном. Для чего необходимо преобразование каждой точки эталона к точке символа. Это будет осуществляться с помощью матричных преобразований (масштабирование, перемещение и поворот).

Поместим некоторый эталонный символ в начало координат таким образом, чтобы его левый нижний угол совпадал с началом координат. Тогда, чтобы сопоставить любую точку эталона с координатами x и у, с точкой распознаваемого символа, необходимо выполнить следующее преобразование (1):

где Sx, Sy - коэффициенты масштабирования; a - угол поворота символа; Tx и Ty образуют вектор на который смещен символ (2).

где Rmin, Rmax - соответственно длина минимальной и максимальной средней линии описанного около символа прямоугольника минимальной площади; Ew, Eh - соответственно ширина и высота эталонного символа (рис. 6).

Рис. 6. Преобразование перед сопоставновлением изображений.

Каждая точка эталона проходит через преобразование (2). Все точки можно представить в виде некоторой матрицы A, а все точки символа на изображении - в виде матрицы B. Между двумя матрицами находится коэффициент корреляции (3). В качестве искомого выберем символ, получивший максимальное значение

Анализ синтаксиса

Служебная информация внутри зданий на рассмотренных выше топо- планах имеет строгую структуру. В начале текста находятся цифры, указывающие число этажей. Если здание имеет переменную этажность, то после цифр ставится символ «/», а затем пишется другое число этажей. Далее записывается буквенная информация о типе здания, т.е. является ли он жилым, нежилым, кирпичным и т.д. Возможны несколько комбинаций: «КЖ», «КН», «Н», «К», «СМЖ».

Целью распознавания текста является определение числа этажей в здании, а также его тип. Будем анализировать найденную надпись по каждому символу, используя следующие критерии:

если число этажей здания равно 1, то единица не наносится на топо- план и далее пишутся буквы. Следовательно, если первый символ является буквой, то число этажей равно 1 ;

если до появления букв не встречается символ «/», то число этажей равно тому числу, что записано перед буквами;

если до появления букв символ «/» встречается, то число этажей равно числу, записанному до этого символа;

если в строке содержится один символ, то им может быть либо «К», либо «Н»; если распознанный символ не является ни одним из перечисленных, то в зависимости от процентного сходства тип здания устанавливается как «К» или «Н»;

если последний символ распознан как «Ж», то может быть два варианта: «КЖ» или «СМЖ». Тогда тип здания выбирается исходя из числа символов в строке, без учета тех, которые определяют число этажей;

если символ «/» распознан как «1» и с двух его сторон находятся числа, то число этажей не вписывается в реальные параметры здания. В таком случает в исходной строке «1» заменяется на «/» и происходит повторный анализ;

когда распознанная надпись не подходит ни под один из описанных критериев, тип здания устанавливается как «КЖ».

Пример обработки служебной информации

Предложенный алгоритм был применен к нескольким контурам на то- поплане (рис. 1). Анализ синтаксиса распознанного текста представлен в таблице.

Номер

здания

Реальная

надпись

Распознано

№ критерия

Число

этажей

Тип здания

1

1/2КЖ

1/2КЖ

3, 5

1

КЖ

2

3КЖ

3КЖ

2, 5

3

КЖ

3

1/2КЖ

1/2КЖ

3, 5

1

КЖ

4

2КЖ

2НЖ

2, 5

2

КЖ

5

КЖ

НЖ

1, 5

1

КЖ

6

3КЖ

3КЖ

2, 5

3

КЖ

7

2КЖ

2КЖ

2, 5

2

КЖ

8

КН

КН

1

2

КН

9

4КЖ

4КЖ

2, 5

4

КЖ

10

3/4КЖ

314КЖ

3, 5, 6

3

КЖ

11

3СМЖ

3СМЖ

2, 5

3

СМЖ

12

Н

Н

1, 4

1

Н

При таком подходе более 95% текстовой информации распознается верно. Время выделения и распознавания текста на топографическом плане с размерами 7800x7800 пикселей составляет 2 мин.

Заключение

Предложен метод распознавания текста на топоплане с использованием волнового алгоритма. Метод позволяет эффективно распознавать текст благодаря разделению алгоритмов на анализ однобуквенной и многобуквенной надписи. Для каждого типа надписи производится определение угла наклона. Непосредственная идентификация символов осуществляется с помощью метода корреляции изображений. После определения побуквенной надписи осуществляется ее синтаксический анализ в целом. После ее корректировки определяется число этажей и тип строения. Совокупность этих решений дает надежные результаты при выделении текста внутри зданий.

Метод использует контурные особенности эталонных обозначений и корреляционное сравнение с эталоном. Использование контурного анализа позволяет отсеять случаи перед сравнением изображений, когда заранее известно, что рассматриваемый контур не являются каким-либо объектом. Это дает возможность применять метод эффективно, что особенно полезно при работе с топопланами больших размеров.

Литература

Canny J. A computational approach to edge detection // IEEE Transactions on Pattern Analysis and Machine Intelligence. - 1986. - № 8(6). - P. 679-698

Lee C.Y. An Algorithm for Path Connections and Its Applications // IRE Transactions on Electronic Computers. - 1961. - Vol. EC-10, № 2. - P. 346-365.

Моругов А.М., Волков С.В. Методы распознавания символов // Труды международного симпозиума «Надежность и качество». - 2017. - Т. 1. - С.157-160.

Афонасенко А.В., Елизаров А.И. Обзор методов распознавания структурированных символов // Доклады ТУСУР. - 2008. - № 2(18). - Ч. 1. - С. 83-88.

Лапаев О.Н. Современные компьютерные методы распознавания печатного текста // Молодежная наука в развитии регионов. - 2019. - Т. 1. - С.55-58.

Васин Д., Ершов М. Распознавание символов на базе низкоуровневых моделей описания графических изображений // Графикон. Международная конференция по компьютерной графике и зрению. - 2014. - С. 62.

Тимофеева Н.Е., Гераськин А.С. Распознавание рукописных отдельных символов русского алфавита с применением метода выявления «характеристик» символа // Вестник Воронежского государственного университета. Серия «Системный анализ и информационные технологии». - 2016. - С.159-165.

Кулакович А.Ю. Программная реализация однослойной нейронной сети для распознавания цифровых символов // ИВД. - 2018. - №3 (50). - С.58-72.

Кудряшов А.П., Соловьев И.В. Распознавание контуров зданий на топографическом плане для реконструкций городских сцен // Вестник компьютерных и информационных технологий. - 2015. - № 2. - С. 3-8.

Кудряшов А.П., Соловьев И.В. Реконструкция трехмерной модели городского пространства на основе топографического плана // Вестник Амурского государственного университета. - 2016. - № 73. - С. 58-66.

Кудряшов А.П., Соловьев И.В. Реконструкция городской обстановки с учетом рельефа местности, используя топографический план и сервисы Google Maps. // Информационные технологии. - 2017. - Т. 23, №5. - С.382-387.