.3 Автоматическое распознавание текстов
После обработки документа сканером получается графическое изображение документа (графический образ). Но графический образ еще не является текстовым документом. Человеку достаточно взглянуть на лист бумаги с текстом, чтобы понять, что на нем написано. С точки зрения компьютера, документ после сканирования превращается в набор разноцветных точек, а вовсе не в текстовый документ.
Проблема распознавания текста в составе точечного графического изображения является весьма сложной. Подобные задачи решают с помощью специальных программных средств, называемых средствами распознавания образов. Реальный технический прорыв в этой области произошел лишь в последние годы. До этого распознавание текста было возможно только путем сравнения обнаруженных конфигураций точек со стандартным образцом (эталоном, хранящимся в памяти компьютера). Авторы программ задавали критерий «похожести», используемый при идентификации символов [11].
Подобные системы назывались OCR (Optical Character Recognition - оптическое распознавание символов) и опирались на специально разработанные шрифты, облегчавшие такой подход. Если приходилось сталкиваться с произвольным и, тем более, сложным шрифтом, программы такого рода начинали давать серьезные сбои.
Современные научные достижения в области
распознавания образов буквально перевернули представление об оптическом
распознавании символов. Современные программы вполне могут справляться с различными
(и весьма вычурными) шрифтами без перенастройки. Многие распознают даже
рукописный текст.
.4 Автоматический перевод документов
Идея автоматического перевода текстов с одного языка на другой витает в воздухе со времени появления самых первых компьютеров. Если бы полноценный перевод был возможен, значительно упростилось бы общение между народами и обмен документами, но это очень сложная задача, о полном решении которой пока не приходится говорить.
Все упирается в объем переводимого текста. Компьютеризованный словарь вполне может справиться с переводом отдельных слов, особенно если он способен предложить несколько значений на выбор. Однако ситуация заметно усложняется, когда мы переходим к переводу целых фраз и, тем более, абзацев связного текста.
Для таких случаев надежного алгоритма перевода с одного языка на другой не существует. Это связано с тем, что каждая фраза языка имеет два уровня: синтаксический и смысловой. Синтаксический уровень определяет построение предложения, а смысловой - его содержание. Для правильного смыслового перевода необходимо принимать во внимание не только конкретную фразу, но и абзац или даже целую главу текста. Таким образом, рассчитывать на то, что при автоматическом переводе получится полноценный документ, нельзя [12].
Программы автоматического перевода рассчитаны, в первую очередь, на тех, кто совсем не знает соответствующего иностранного языка, но должен ознакомиться с содержанием документа хотя бы приблизительно. Кроме того, подобные программы позволяют готовить короткие сообщения электронной почты на иностранном языке. Такие сообщения трудно считать грамотными, но, скорее всего, корреспондент сумеет понять, что ему хотели сообщить.
Если нет никаких требований к качеству перевода
текста с иностранного языка на русский, то программы автоматического перевода
можно рассматривать как удобные средства получения простейшего черновика. Если
подобные требования есть, то использовать подобные программы не рекомендуется.
Квалифицированное редактирование текста, полученного автоматическим путем,
обходится в несколько раз дороже, чем услуги специалистов-переводчиков.
.5 Microsoft Office ХР
Office ХР - пакет программ, предназначенных для выполнения различных функций по работе с документами. В отличие от других, программ, выполняющих аналогичные функции, программы, входящие в Microsoft Office, отличаются широкой интеграцией между собой, что обеспечивает эффективную работу с документами, включающими различные по типу части (например, документ Word может содержать таблицу Excel и часть базы данных Access).
В Microsoft Office входит:2007 - мощная программа для работы с текстовыми документами.2007 - программа, предоставляющая широкие функции для работы с электронными таблицами.2007 - сильнейшее средство для работы с базами данных.2007 - позволяет легко и быстро создать качественные, красиво оформленные электронные презентации (в виде набора слайдов).- программа для объединения разных документов Office в одно целое.2007 - представляет собой почтового клиента и электронную версию органайзера, причем Outlook может автоматически отвечать на различные приглашения, исходя из вашей занятости в тот или иной момент времени.Editor - приложение Office, обрабатывающее растровые изображения.
Различные вспомогательные программы, работающие вместе с основными приложениями Office: Graph (программа для построения диаграмм и графиков), Equation (программа для вставки в документ математических и других видов формул) и множество других полезных программ [13].Word - мощная программа обработки текстовых документов, имеющая сотни функций, и являющаяся одной из ведущих систем обработки текстовых документов. Word был первым текстовым процессором, совмещавшим себе широкий спектр мощнейших средств редактирования, форматирования и публикации документов с интерфейсом, который новичок мог освоить за считанные минуты. За последние 20 лет Word приобрел новый интерфейс, новые средства автоматизации, новые функции, помогающие пользователю создавать любые документы быстро и просто.
Любой текстовый процессор позволяет хранить текстовую информацию в документе и распечатывать ее на бумаге, однако Word может делать гораздо больше этого. На протяжении последних лет компьютерные сети и мощность вычислительных систем постоянно росли; определение понятия «документ» расширялось, и совершенствовался вместе с ним. В настоящее Время Word представляет собой полнофункциональную программу редактирования текстовой и графической информации, создания Web-страниц и обработки документов.
При помощи Word можно создавать практически любые документы и публиковать в электронном виде или в виде печатных копий. Основные возможности Word можно разделить на несколько категорий [14]:
Редактирование текста. Текст может быть введен в документ посредством набора на клавиатуре. Кроме того, можно вставить в документ определенные текстовые фрагменты или даже целые файлы. Word предоставляет множество функций, позволяющих выполнять корректорскую правку, редактирование и изменение текстовой информации наиболее удобным способом. Так, функция автотекста позволяет вставлять в документы, часто используемые фразы при наборе лишь нескольких первых букв этих. Функция автокоррекции автоматически исправляет наиболее распространенные опечатки, орфографические и грамматические ошибки, освобождая пользователя от необходимости заниматься их исправлением.
. Форматирование текста. Word позволяет устанавливать межстрочный интервал, характер выравнивания и размер отступов, выбирать гарнитуру и размер шрифта, а также его начертание. Пользователь может определять стили, включающие в себя несколько параметров форматирования, и применять все эти параметры одновременно или использовать темы для оформления Web-страниц в едином ключе при настраиваемых стилях, графике и фоновых рисунках. Текстовая информация может быть представлена в виде таблиц, в документах могут быть определены колонтитулы, простые и концевые сноски, подписи или текстовые рамки к рисункам и таблицам.
. Графика. В Word имеется набор встроенных средств для создания геометрических фигур, линий, прямоугольников, овалов и других простых графических объектов. Кроме того, имеется возможность выбирать и вставлять в документы десятки предопределенных фигур и готовых рисунков. Word позволяет импортировать в документы графику из форматов, поддерживаемых большинством других приложений Windows, а программа Word Photo Editor может быть использована для просмотра и изменения цифровых фотографий и электронных изображений других типов.
Верстка. Word предоставляет всевозможные функции верстки, позволяющие размещать текстовую и графическую информацию на странице для подготовки практически любой полиграфической продукции, от указателей и бюллетеней до книг и журналов. Например, можно форматировать текст в виде нескольких колонок, дополнять его графикой, задавать обтекание текста вокруг врезок и иллюстраций, определять чередующиеся верхние и нижние колонтитулы (различные для четных и нечетных страниц), создавать предметный указатель, оглавление и перекрестные ссылки. Совместно с Word поставляется несколько предопределенных шаблонов для создания различных видов печатной продукции, которые нетрудно изменить (или создать новые) для соответствия каким-либо конкретным задачам.
Обработка данных и средства автоматизации. Функция слияния позволяет извлекать информацию из файла базы данных и создавать на основе этой информации письма или почтовые наклейки. Используя этот же основной принцип, можно включать содержимое любого из полей базы данных в любое место документа и при печати автоматически обновлять содержащуюся в этих полях информацию. Для автоматизации тех или иных процедур также могут быть использованы макросы, благодаря чему определенный набор задач может быть выполнен посредством нажатия всего нескольких кнопок. Кроме того, имеется возможность, создавать программы на языке Microsoft Visual Basic for Applications, которые могут выполняться автоматически при запуске Word.публикации. Расширенный набор средств Word 2002 для публикации документов в Web позволяет определять формат документов, предназначенных для такой публикации, в точном соответствии с замыслом пользователя. Word может быть использован для создания Web-страниц, включающих формы, таблицы, электронные таблицы Microsoft Excel, графику, аудио- и видеоклипы, звуки, анимацию и прочие компоненты. Новый редактор сценариев позволяет создавать и включать в Web-страницы HTML-сценарии. Доступ к ресурсам Web может быть осуществлен непосредственно из Word, и любой документ может быть дополнен гипертекстовыми ссылками.
Коллективная работа. Во многих организациях работа над документами ведется целыми коллективами. В состав Word входят ряд функций, направленных на облегчение процесса управления коллективной обработкой документов. В документы Word могут быть включены текстовые и речевые комментарии; Word позволяет синхронизировать различные версии и варианты документов и направлять документы группе рецензентов по маршруту. Кроме того, имеется возможность вставлять комментарии рецензентов в Web-страницы и планировать конференции средствами Microsoft NetMeeting.
Интеграция. Word поддерживает разработанный Microsoft механизм связывания и внедрения объектов OLE, что обеспечивает возможность разделения данных и функций с любыми программами, для которых реализована поддержка OLE. Являясь частью Microsoft Office, Word может использовать данные совместно с Microsoft Excel, Microsoft PowerPoint, Microsoft Access и Microsoft Outlook, а также с Microsoft Internet Explorer.
В Word 2007 компания Microsoft реализовала десятки новых функций. Некоторые из них направлены на облегчение работы администраторов вычислительных сетей, которые должны контролировать работу большого количества пользователей Word, однако большая часть новых функций призвана улучшить условия работы индивидуальных пользователей.
В состав Microsoft Office включена значительно усовершенствованная версия языка Visual Basic 6.0 for Applications (VBA), дополненного новыми функциями, облегчающими квалифицированную разработку макросов и приложений:
В настоящее время VBA находится на одном уровне с Visual Basic.позволяет создавать интегрированные решения, включающие в себя любые приложения Microsoft Office, благодаря использованию элементов управления ActiveX.
Интегрированная автоматическая проверка на вирусы может быть включена в любой макрос, написанный на Visual Basic for Applications. Реализован новый интерфейс API с поддержкой функций защиты от вирусов для окна диалога «Открытия документа» (Open), позволяющий разработчикам задавать режим автоматической проверки на наличие вирусов в любом открываемом документе.
Макросам могут быть присвоены цифровые подписи, подтверждающие отсутствие вирусов в макросах [13].Excel - мощная программа для работы с электронными таблицами, являющаяся, также как и Word, частью пакета Microsoft Office. Обладая достаточно широкими возможностями и высокой степенью интеграции с другими приложениями Office и Windows вообще, Excel стала наиболее популярной программой среди людей, постоянно имеющих дело с огромными массивами чисел [14].обладает всеми необходимыми возможностями для обработки электронных таблиц: от простых арифметических действий с несколькими ячейками таблицы до статистической обработки огромных массивов данных.
Информация в Excel представляется в виде таблицы, и может быть записана в ячейки этой таблицы. Остановимся подробнее на некоторых основных возможностях Excel [14]:
Редактирование и форматирование данных. Данные могут быть введены в таблицу посредством набора на клавиатуре. Кроме того, можно вставить в таблицу определенные фрагменты или целые файлы Excel. Также Excel может открывать файлы других распространенных редакторов электронных таблиц (например, Lotus 1-2-3). Excel, как и Word, имеет функцию проверки орфографии (причем он использует общий со всеми приложениями Office словарь), поиска и замены фрагментов данных.
В Excel имеется возможность изменять шрифт, его размер, цвет, начертание для данных каждой ячейки таблицы в отдельности; изменять формат представления данных в ячейке (например, текстовый, числовой, финансовый и др.); изменять направление текста, горизонтальное и вертикальное выравнивание данных в ячейке. Могут быть изменены и размеры самих ячеек, их границы и заливка; имеется возможность объединения и разбиения ячеек, добавление и удаление целых строк и столбцов.
Графика. В Excel, как и в Word, имеется набор встроенных средств для создания геометрических фигур, линий, прямоугольников, овалов и других простых графических объектов. Кроме того, имеется возможность выбирать и вставлять в документы десятки предопределенных фигур и готовых рисунков. Excel позволяет импортировать в документы графику из форматов, поддерживаемых большинством других приложений Windows.
Одной из самых популярных возможностей Excel является его способность автоматически строить практически любые виды диаграмм и графиков на основе данных электронной таблицы, причем процесс построения диаграммы или графика использующей десятки и сотни значений может занять всего лишь несколько минут.
Также Excel может вставлять в свои таблицы географические карты, используя встроенную в Office программу Microsoft Map, причем коллекцию карт, поставляемую вместе с Office, нельзя назвать маленькой.
Настройка параметров. Параметры Excel могут быть
настроены в соответствии с любыми конкретными требованиями рабочей среды. Excel
имеет те же основные функции настройки рабочей среды, что и Word [14].
2.6 Другие программы
Архиваторы. Архиваторы - программы, которые собирают файлы, выбранные пользователем, в один файл-архив с заданным именем, причем размер этого файла обычно в несколько раз (зависит от способа упаковки и типов архивируемых файлов) меньше, чем сумма объемов всех собранных в него файлов. Хотя упакованные файлы нельзя использовать, пока они находятся в архиве, такой способ хранение долгое время не используемых файлов выглядит рациональнее. Наиболее распространены архиваторы ZIP и RAR - почти на любом компьютере можно встретить один из этих упаковщиков [15].
Антивирусы. Эти программы призваны очищать и
защищать систему от компьютерных вирусов. Вирус - программа-паразит, названный
так за сходство в поведении со своим биологическим «предком». Вирус, проникая в
систему вместе с файлами, начинает «размножаться» и поражает другие файлы,
находящиеся на носителях, последствия такого «вторжения» могут бить различными:
от безобидных шуток (например, существует вирус, выдающий через определенный
момент времени сообщение типа: «Хочу печенья!» и т.п.), до непоправимого ущерба
всей системе (например, как вам понравится то, что в один прекрасный день
файловая система вашего HDD окажется полностью неработоспособной). Существует
огромное количество различных как вирусов, так и антивирусов, применяющих
различные средства борьбы с вирусами, но можно выделить из них три типа
антивирусов: сканеры - программы, обнаруживающие вирусы, доктора, занимающиеся
удалением вирусов и фильтры или, как их часто называют, вотчеры (от английского
watcher - наблюдатель, страж), которые постоянно находятся в памяти и
просматривают потоки информации на предмет вирусов. Среди антивирусов можно
отметить Antiviral Toolkit Pro (AVP), совмещающий в себе функции сканера и
доктора, а более поздние версии имеют и встроенный вотчер, Dr. Web, также
являющийся и сканером, и доктором, Norton Antivirus - многофункциональный пакет
по борьбе с вирусами, включающий кроме сканера, доктора и вотчера еще ряд
антивирусных средств [15].