Рис. 5. У гол поворота по меньшей средней.
Для того, чтобы получить эту минимальную среднюю линию, необходимо описать вокруг символа прямоугольник меньшей площади. Его размеры и угол относительно осей дают представление о том, как расположен символ.
Распознавание текста
После определения угла между надписью и горизонтальной стороной изображения может быть выполнен поворот каждого символа на найденный угол. Однако поворот должен осуществляться таким образом, чтобы в дальнейшем была возможность сравнения символа с эталоном. Для чего необходимо преобразование каждой точки эталона к точке символа. Это будет осуществляться с помощью матричных преобразований (масштабирование, перемещение и поворот).
Поместим некоторый эталонный символ в начало координат таким образом, чтобы его левый нижний угол совпадал с началом координат. Тогда, чтобы сопоставить любую точку эталона с координатами x и у, с точкой распознаваемого символа, необходимо выполнить следующее преобразование (1):
где Sx, Sy - коэффициенты масштабирования; a - угол поворота символа; Tx и Ty образуют вектор на который смещен символ (2).
где Rmin, Rmax - соответственно длина минимальной и максимальной средней линии описанного около символа прямоугольника минимальной площади; Ew, Eh - соответственно ширина и высота эталонного символа (рис. 6).
Рис. 6. Преобразование перед сопоставновлением изображений.
Каждая точка эталона проходит через преобразование (2). Все точки можно представить в виде некоторой матрицы A, а все точки символа на изображении - в виде матрицы B. Между двумя матрицами находится коэффициент корреляции (3). В качестве искомого выберем символ, получивший максимальное значение
Анализ синтаксиса
Служебная информация внутри зданий на рассмотренных выше топо- планах имеет строгую структуру. В начале текста находятся цифры, указывающие число этажей. Если здание имеет переменную этажность, то после цифр ставится символ «/», а затем пишется другое число этажей. Далее записывается буквенная информация о типе здания, т.е. является ли он жилым, нежилым, кирпичным и т.д. Возможны несколько комбинаций: «КЖ», «КН», «Н», «К», «СМЖ».
Целью распознавания текста является определение числа этажей в здании, а также его тип. Будем анализировать найденную надпись по каждому символу, используя следующие критерии:
если число этажей здания равно 1, то единица не наносится на топо- план и далее пишутся буквы. Следовательно, если первый символ является буквой, то число этажей равно 1 ;
если до появления букв не встречается символ «/», то число этажей равно тому числу, что записано перед буквами;
если до появления букв символ «/» встречается, то число этажей равно числу, записанному до этого символа;
если в строке содержится один символ, то им может быть либо «К», либо «Н»; если распознанный символ не является ни одним из перечисленных, то в зависимости от процентного сходства тип здания устанавливается как «К» или «Н»;
если последний символ распознан как «Ж», то может быть два варианта: «КЖ» или «СМЖ». Тогда тип здания выбирается исходя из числа символов в строке, без учета тех, которые определяют число этажей;
если символ «/» распознан как «1» и с двух его сторон находятся числа, то число этажей не вписывается в реальные параметры здания. В таком случает в исходной строке «1» заменяется на «/» и происходит повторный анализ;
когда распознанная надпись не подходит ни под один из описанных критериев, тип здания устанавливается как «КЖ».
Пример обработки служебной информации
Предложенный алгоритм был применен к нескольким контурам на то- поплане (рис. 1). Анализ синтаксиса распознанного текста представлен в таблице.
|
Номер здания |
Реальная надпись |
Распознано |
№ критерия |
Число этажей |
Тип здания |
|
|
1 |
1/2КЖ |
1/2КЖ |
3, 5 |
1 |
КЖ |
|
|
2 |
3КЖ |
3КЖ |
2, 5 |
3 |
КЖ |
|
|
3 |
1/2КЖ |
1/2КЖ |
3, 5 |
1 |
КЖ |
|
|
4 |
2КЖ |
2НЖ |
2, 5 |
2 |
КЖ |
|
|
5 |
КЖ |
НЖ |
1, 5 |
1 |
КЖ |
|
|
6 |
3КЖ |
3КЖ |
2, 5 |
3 |
КЖ |
|
|
7 |
2КЖ |
2КЖ |
2, 5 |
2 |
КЖ |
|
|
8 |
КН |
КН |
1 |
2 |
КН |
|
|
9 |
4КЖ |
4КЖ |
2, 5 |
4 |
КЖ |
|
|
10 |
3/4КЖ |
314КЖ |
3, 5, 6 |
3 |
КЖ |
|
|
11 |
3СМЖ |
3СМЖ |
2, 5 |
3 |
СМЖ |
|
|
12 |
Н |
Н |
1, 4 |
1 |
Н |
При таком подходе более 95% текстовой информации распознается верно. Время выделения и распознавания текста на топографическом плане с размерами 7800x7800 пикселей составляет 2 мин.
Заключение
Предложен метод распознавания текста на топоплане с использованием волнового алгоритма. Метод позволяет эффективно распознавать текст благодаря разделению алгоритмов на анализ однобуквенной и многобуквенной надписи. Для каждого типа надписи производится определение угла наклона. Непосредственная идентификация символов осуществляется с помощью метода корреляции изображений. После определения побуквенной надписи осуществляется ее синтаксический анализ в целом. После ее корректировки определяется число этажей и тип строения. Совокупность этих решений дает надежные результаты при выделении текста внутри зданий.
Метод использует контурные особенности эталонных обозначений и корреляционное сравнение с эталоном. Использование контурного анализа позволяет отсеять случаи перед сравнением изображений, когда заранее известно, что рассматриваемый контур не являются каким-либо объектом. Это дает возможность применять метод эффективно, что особенно полезно при работе с топопланами больших размеров.
Литература
Canny J. A computational approach to edge detection // IEEE Transactions on Pattern Analysis and Machine Intelligence. - 1986. - № 8(6). - P. 679-698
Lee C.Y. An Algorithm for Path Connections and Its Applications // IRE Transactions on Electronic Computers. - 1961. - Vol. EC-10, № 2. - P. 346-365.
Моругов А.М., Волков С.В. Методы распознавания символов // Труды международного симпозиума «Надежность и качество». - 2017. - Т. 1. - С.157-160.
Афонасенко А.В., Елизаров А.И. Обзор методов распознавания структурированных символов // Доклады ТУСУР. - 2008. - № 2(18). - Ч. 1. - С. 83-88.
Лапаев О.Н. Современные компьютерные методы распознавания печатного текста // Молодежная наука в развитии регионов. - 2019. - Т. 1. - С.55-58.
Васин Д., Ершов М. Распознавание символов на базе низкоуровневых моделей описания графических изображений // Графикон. Международная конференция по компьютерной графике и зрению. - 2014. - С. 62.
Тимофеева Н.Е., Гераськин А.С. Распознавание рукописных отдельных символов русского алфавита с применением метода выявления «характеристик» символа // Вестник Воронежского государственного университета. Серия «Системный анализ и информационные технологии». - 2016. - С.159-165.
Кулакович А.Ю. Программная реализация однослойной нейронной сети для распознавания цифровых символов // ИВД. - 2018. - №3 (50). - С.58-72.
Кудряшов А.П., Соловьев И.В. Распознавание контуров зданий на топографическом плане для реконструкций городских сцен // Вестник компьютерных и информационных технологий. - 2015. - № 2. - С. 3-8.
Кудряшов А.П., Соловьев И.В. Реконструкция трехмерной модели городского пространства на основе топографического плана // Вестник Амурского государственного университета. - 2016. - № 73. - С. 58-66.
Кудряшов А.П., Соловьев И.В. Реконструкция городской обстановки с учетом рельефа местности, используя топографический план и сервисы Google Maps. // Информационные технологии. - 2017. - Т. 23, №5. - С.382-387.