Автоматическое распознавание текстов
Поможем в ✍️ написании учебной работы
Поможем с курсовой, контрольной, дипломной, рефератом, отчетом по практике, научно-исследовательской и любой другой работой

 

После обработки документа сканером получается графическое изображение документа (графический образ). Но графический образ еще не является текстовым документом. Человеку достаточно взглянуть на лист бумаги с текстом, чтобы понять, что на нем написано. С точки зрения компьютера, документ после сканирования превращается в набор разноцветных точек, а вовсе не в текстовый документ.

Проблема распознавания текста в составе точечного графического изображения является весьма сложной. Подобные задачи решают с помощью специальных программных средств, называемых средствами распознавания образов. Реальный технический прорыв в этой области произошел лишь в последние годы. До этого распознавание текста было возможно только путем сравнения обнаруженных конфигураций точек со стандартным образцом (эталоном, хранящимся в памяти компьютера). Авторы программ задавали критерий «похожести», используемый при идентификации символов.[17]

Подобные системы назывались OCR (Optical Character Recognition – оптическое распознавание символов) и опирались на специально разработанные шрифты, облегчавшие такой подход. Если приходилось сталкиваться с произвольным и, тем более, сложным шрифтом, программы такого рода начинали давать серьезные сбои.

Современные научные достижения в области распознавания образов буквально перевернули представление об оптическом распознавании символов. Современные программы вполне могут справляться с различными (и весьма вычурными) шрифтами без перенастройки. Многие распознают даже рукописный текст.

 

Автоматический перевод документов

 

Идея автоматического перевода текстов с одного языка на другой витает в воздухе со времени появления самых первых компьютеров. Если бы полноценный перевод был возможен, значительно упростилось бы общение между народами и обмен документами, но это очень сложная задача, о полном решении которой пока не приходится говорить.

Все упирается в объем переводимого текста. Компьютеризованный словарь вполне может справиться с переводом отдельных слов, особенно если он способен предложить несколько значений на выбор. Однако ситуация заметно усложняется, когда мы переходим к переводу целых фраз и, тем более, абзацев связного текста.

Для таких случаев надежного алгоритма перевода с одного языка на другой не существует. Это связано с тем, что каждая фраза языка имеет два уровня: синтаксический и смысловой. Синтаксический уровень определяет построение предложения, а смысловой – его содержание. Для правильного смыслового перевода необходимо принимать во внимание не только конкретную фразу, но и абзац или даже целую главу текста. Таким образом, рассчитывать на то, что при автоматическом переводе получится полноценный документ, нельзя.

Программы автоматического перевода рассчитаны, в первую очередь, на тех, кто совсем не знает соответствующего иностранного языка, но должен ознакомиться с содержанием документа хотя бы приблизительно. Кроме того, подобные программы позволяют готовить короткие сообщения электронной почты на иностранном языке. Такие сообщения трудно считать грамотными, но, скорее всего, корреспондент сумеет понять, что ему хотели сообщить.

Если нет никаких требований к качеству перевода текста с иностранного языка на русский, то программы автоматического перевода можно рассматривать как удобные средства получения простейшего черновика. Если подобные требования есть, то использовать подобные программы не рекомендуется. Квалифицированное редактирование текста, полученного автоматическим путем, обходится в несколько раз дороже, чем услуги специалистов-переводчиков.

 

Microsoft Office ХР

 

Microsoft Office ХР – пакет программ, предназначенных для выполнения различных функций по работе с документами. В отличие от других, программ, выполняющих аналогичные функции, программы, входящие в Microsoft Office, отличаются широкой интеграцией между собой, что обеспечивает эффективную работу с документами, включающими различные по типу части (например, документ Word может содержать таблицу Excel и часть базы данных Access).

В Microsoft Office входит:

· Word 2007 – мощная программа для работы с текстовыми документами.

· Excel 2007 – программа, предоставляющая широкие функции для работы с электронными таблицами.

· Access 2007 – сильнейшее средство для работы с базами данных.

· PowerPoint 2007 - позволяет легко и быстро создать качественные, красиво оформленные электронные презентации (в виде набора слайдов).

· Binder – программа для объединения разных документов Office в одно целое.

· Outlook 2007 - представляет собой почтового клиента и электронную версию органайзера, причем Outlook может автоматически отвечать на различные приглашения, исходя из вашей занятости в тот или иной момент времени.

· Photo Editor – приложение Office, обрабатывающее растровые изображения.

· Различные вспомогательные программы, работающие вместе с основными приложениями Office: Graph (программа для построения диаграмм и графиков), Equation (программа для вставки в документ математических и других видов формул) и множество других полезных программ.[18]

 

Microsoft Word

 

Microsoft Word — мощная программа обработки текстовых документов, имеющая сотни функций, и являющаяся одной из ведущих систем обработки текстовых документов. Word был первым текстовым процессором, совмещавшим себе широкий спектр мощнейших средств редактирования, форматирования и публикации документов с интерфейсом, который новичок мог освоить за считанные минуты. За последние 20 лет Word приобрел новый интерфейс, новые средства автоматизации, новые функции, помогающие пользователю создавать любые документы быстро и просто.

Любой текстовый процессор позволяет хранить текстовую информацию в документе и распечатывать ее на бумаге, однако Word может делать гораздо больше этого. На протяжении последних лет компьютерные сети и мощность вычислительных систем постоянно росли; определение понятия «документ» расширялось, и совершенствовался вместе с ним. В настоящее Время Word представляет собой полнофункциональную программу редактирования текстовой и графической информации, создания Web-страниц и обработки документов.

При помощи Word можно создавать практически любые документы и публиковать в электронном виде или в виде печатных копий. Основные возможности Word можно разделить на несколько категорий:

1. Редактирование текста. Текст может быть введен в документ посредством набора на клавиатуре. Кроме того, можно вставить в документ определенные текстовые фрагменты или даже целые файлы. Word предоставляет множество функций, позволяющих выполнять корректорскую правку, редактирование и изменение текстовой информации наиболее удобным способом. Так, функция автотекста позволяет вставлять в документы, часто используемые фразы при наборе лишь нескольких первых букв этих. Функция автокоррекции автоматически исправляет наиболее распространенные опечатки, орфографические и грамматические ошибки, освобождая пользователя от необходимости заниматься их исправлением.

2. Форматирование текста. Word позволяет устанавливать межстрочный интервал, характер выравнивания и размер отступов, выбирать гарнитуру и размер шрифта, а также его начертание. Пользователь может определять стили, включающие в себя несколько параметров форматирования, и применять все эти параметры одновременно или использовать темы для оформления Web-страниц в едином ключе при настраиваемых стилях, графике и фоновых рисунках. Текстовая информация может быть представлена в виде таблиц, в документах могут быть определены колонтитулы, простые и концевые сноски, подписи или текстовые рамки к рисункам и таблицам.

3. Графика. В Word имеется набор встроенных средств для создания геометрических фигур, линий, прямоугольников, овалов и других простых графических объектов. Кроме того, имеется возможность выбирать и вставлять в документы десятки предопределенных фигур и готовых рисунков. Word позволяет импортировать в документы графику из форматов, поддерживаемых большинством других приложений Windows, а программа Word Photo Editor может быть использована для просмотра и изменения цифровых фотографий и электронных изображений других типов.

4. Верстка. Word предоставляет всевозможные функции верстки, позволяющие размещать текстовую и графическую информацию на странице для подготовки практически любой полиграфической продукции, от указателей и бюллетеней до книг и журналов. Например, можно форматировать текст в виде нескольких колонок, дополнять его графикой, задавать обтекание текста вокруг врезок и иллюстраций, определять чередующиеся верхние и нижние колонтитулы (различные для четных и нечетных страниц), создавать предметный указатель, оглавление и перекрестные ссылки. Совместно с Word поставляется несколько предопределенных шаблонов для создания различных видов печатной продукции, которые нетрудно изменить (или создать новые) для соответствия каким-либо конкретным задачам.

5. Обработка данных и средства автоматизации. Функция слияния позволяет извлекать информацию из файла базы данных и создавать на основе этой информации письма или почтовые наклейки. Используя этот же основной принцип, можно включать содержимое любого из полей базы данных в любое место документа и при печати автоматически обновлять содержащуюся в этих полях информацию. Для автоматизации тех или иных процедур также могут быть использованы макросы, благодаря чему определенный набор задач может быть выполнен посредством нажатия всего нескольких кнопок. Кроме того, имеется возможность, создавать программы на языке Microsoft Visual Basic for Applications, которые могут выполняться автоматически при запуске Word.

6. Web-публикации. Расширенный набор средств Word 2002 для публикации документов в Web позволяет определять формат документов, предназначенных для такой публикации, в точном соответствии с замыслом пользователя. Word может быть использован для создания Web-страниц, включающих формы, таблицы, электронные таблицы Microsoft Excel, графику, аудио- и видеоклипы, звуки, анимацию и прочие компоненты. Новый редактор сценариев позволяет создавать и включать в Web-страницы HTML-сценарии. Доступ к ресурсам Web может быть осуществлен непосредственно из Word, и любой документ может быть дополнен гипертекстовыми ссылками.

7. Коллективная работа. Во многих организациях работа над документами ведется целыми коллективами. В состав Word входят ряд функций, направленных на облегчение процесса управления коллективной обработкой документов. В документы Word могут быть включены текстовые и речевые комментарии; Word позволяет синхронизировать различные версии и варианты документов и направлять документы группе рецензентов по маршруту. Кроме того, имеется возможность вставлять комментарии рецензентов в Web-страницы и планировать конференции средствами Microsoft NetMeeting.

8. Интеграция. Word поддерживает разработанный Microsoft механизм связывания и внедрения объектов OLE, что обеспечивает возможность разделения данных и функций с любыми программами, для которых реализована поддержка OLE. Являясь частью Microsoft Office, Word может использовать данные совместно с Microsoft Excel, Microsoft PowerPoint, Microsoft Access и Microsoft Outlook, а также с Microsoft Internet Explorer.

В Word 2007 компания Microsoft реализовала десятки новых функций. Некоторые из них направлены на облегчение работы администраторов вычислительных сетей, которые должны контролировать работу большого количества пользователей Word, однако большая часть новых функций призвана улучшить условия работы индивидуальных пользователей.

Программирование и безопасность. В состав Microsoft Office включена значительно усовершенствованная версия языка Visual Basic 6.0 for Applications (VBA), дополненного новыми функциями, облегчающими квалифицированную разработку макросов и приложений:

1) В настоящее время VBA находится на одном уровне с Visual Basic.

2) VBA позволяет создавать интегрированные решения, включающие в себя любые приложения Microsoft Office, благодаря использованию элементов управления ActiveX.

3) Интегрированная автоматическая проверка на вирусы может быть включена в любой макрос, написанный на Visual Basic for Applications. Реализован новый интерфейс API с поддержкой функций защиты от вирусов для окна диалога «Открытия документа» (Open), позволяющий разработчикам задавать режим автоматической проверки на наличие вирусов в любом открываемом документе.

4) Макросам могут быть присвоены цифровые подписи, подтверждающие отсутствие вирусов в макросах.[19]

 

Excel

Microsoft Excel – мощная программа для работы с электронными таблицами, являющаяся, также как и Word, частью пакета Microsoft Office. Обладая достаточно широкими возможностями и высокой степенью интеграции с другими приложениями Office и Windows вообще, Excel стала наиболее популярной программой среди людей, постоянно имеющих дело с огромными массивами чисел.

Excel обладает всеми необходимыми возможностями для обработки электронных таблиц: от простых арифметических действий с несколькими ячейками таблицы до статистической обработки огромных массивов данных.

Информация в Excel представляется в виде таблицы, и может быть записана в ячейки этой таблицы. Остановимся подробнее на некоторых основных возможностях Excel:

1. Редактирование и форматирование данных. Данные могут быть введены в таблицу посредством набора на клавиатуре. Кроме того, можно вставить в таблицу определенные фрагменты или целые файлы Excel. Также Excel может открывать файлы других распространенных редакторов электронных таблиц (например, Lotus 1-2-3). Excel, как и Word, имеет функцию проверки орфографии (причем он использует общий со всеми приложениями Office словарь), поиска и замены фрагментов данных.

В Excel имеется возможность изменять шрифт, его размер, цвет, начертание для данных каждой ячейки таблицы в отдельности; изменять формат представления данных в ячейке (например, текстовый, числовой, финансовый и др.); изменять направление текста, горизонтальное и вертикальное выравнивание данных в ячейке. Могут быть изменены и размеры самих ячеек, их границы и заливка; имеется возможность объединения и разбиения ячеек, добавление и удаление целых строк и столбцов.

2. Графика. В Excel, как и в Word, имеется набор встроенных средств для создания геометрических фигур, линий, прямоугольников, овалов и других простых графических объектов. Кроме того, имеется возможность выбирать и вставлять в документы десятки предопределенных фигур и готовых рисунков. Excel позволяет импортировать в документы графику из форматов, поддерживаемых большинством других приложений Windows.

Одной из самых популярных возможностей Excel является его способность автоматически строить практически любые виды диаграмм и графиков на основе данных электронной таблицы, причем процесс построения диаграммы или графика использующей десятки и сотни значений может занять всего лишь несколько минут.

Также Excel может вставлять в свои таблицы географические карты, используя встроенную в Office программу Microsoft Map, причем коллекцию карт, поставляемую вместе с Office, нельзя назвать маленькой.

3. Настройка параметров

Параметры Excel могут быть настроены в соответствии с любыми конкретными требованиями рабочей среды. Excel имеет те же основные функции настройки рабочей среды, что и Word.[20]

 

Другие программы

Графические редакторы . Графический редактор – программа, предназначенная для создания и редактирования графических файлов. Существует множество различных форматов графических файлов, и, соответственно, графических редакторов, работающих с этими форматами. Все графические форматы делятся на две большие группы: форматы растровой и форматы векторной графики.

В файле, содержащем в растровую графику, содержится информация о цвете каждого пикселя (от английского pixel – Picture Element) и общий размер картинки. Из достоинств растровой графики можно отметить большую точность изображения, а, следовательно, и возможность сохранить в этом формате любую графическую информацию, возможность изменять яркость, контрастность, количество допустимых цветов, размер, размытость, четкость и множество других параметров, определяемых возможностями графического редактора. Самым же большим недостатком растровых изображений является объем места, занимаемого ими на носителе. Например, фотография  см, т.е. в пикселях , учитывая, что каждый пиксель занимает 24 байта (что соответствует 16777216 цветам, а именно столько необходимо для качественного отображения фотографий), будет занимать . Хотя и существуют форматы растровой графики, использующие сжатие (например, JPEG), все равно не рационально хранить изображение, состоящее из нескольких геометрических фигур, в растровых форматах, так как при этом даже незначащие пиксели (например, пиксели фона) также занимают место. Наиболее распространенными растровыми редакторами являются Paint – графический редактор, поставляющийся вместе с Windows, ACDSee – программа, предназначенная в основном для просмотра, хотя и имеет редактор, предоставляющий основные функции для обработки растровых изображений, PhotoShop – мощный графический редактор с огромным набором средств редактирования растровых изображений, предназначенный скорее для профессионального использования.

Файлы векторных изображений содержат, в отличие от растровых, информацию не о каждом пикселе, а только о координатах, необходимых для построения геометрических фигур. Преимуществами векторной графики являются простота создания и редактирования изображений и малое занимаемое ими место на носителе. С векторной графикой могут работать приложения Office (например, таблица является векторным изображением), наиболее известным редактором векторной графики является Corel Draw, представляющий собой мощное средство обработки векторной графики для профессионального использования.

Архиваторы . Архиваторы – программы, которые собирают файлы, выбранные пользователем, в один файл-архив с заданным именем, причем размер этого файла обычно в несколько раз (зависит от способа упаковки и типов архивируемых файлов) меньше, чем сумма объемов всех собранных в него файлов. Хотя упакованные файлы нельзя использовать, пока они находятся в архиве, такой способ хранение долгое время не используемых файлов выглядит рациональнее. Наиболее распространены архиваторы ZIP и RAR – почти на любом компьютере можно встретить один из этих упаковщиков.

     Антивирусы . Эти программы призваны очищать и защищать систему от компьютерных вирусов. Вирус – программа-паразит, названный так за сходство в поведении со своим биологическим «предком». Вирус, проникая в систему вместе с файлами, начинает «размножаться» и поражает другие файлы, находящиеся на носителях, последствия такого «вторжения» могут бить различными: от безобидных шуток (например, существует вирус, выдающий через определенный момент времени сообщение типа: «Хочу печенья!» и т.п.), до непоправимого ущерба всей системе (например, как вам понравится то, что в один прекрасный день файловая система вашего HDD окажется полностью неработоспособной). Существует огромное количество различных как вирусов, так и антивирусов, применяющих различные средства борьбы с вирусами, но можно выделить из них три типа антивирусов: сканеры – программы, обнаруживающие вирусы, доктора, занимающиеся удалением вирусов и фильтры или, как их часто называют, вотчеры (от английского watcher – наблюдатель, страж), которые постоянно находятся в памяти и просматривают потоки информации на предмет вирусов. Среди антивирусов можно отметить Antiviral Toolkit Pro (AVP), совмещающий в себе функции сканера и доктора, а более поздние версии имеют и встроенный вотчер, Dr. Web, также являющийся и сканером, и доктором, Norton Antivirus – многофункциональный пакет по борьбе с вирусами, включающий кроме сканера, доктора и вотчера еще ряд антивирусных средств.

AutoFileMove 1.0. Программа, которая поможет автоматизировать работу с большим количеством файлов. Она может следить за определенными папками и автоматически перемещать или копировать файлы заданных типов в указанные директории, а также распечатывать файлы без вашего вмешательства. Таким образом, AutoFileMove упрощает работу и экономит ваше время.[21]

FileMonkey 9.75. Программа для автоматизации некоторых операций с файлами, забирающими много времени. Среди ее возможностей — поиск и замена содержимого файла, названия файла или папки; резка и сборка файлов; изменение атрибутов файлов и папок; изменение регистра букв в названиях файлов и папок; сохранение списка файлов в текстовом файле.

Event Manager 2.54. Программа для запуска разнообразных программ, автоматизации и планирования заданий. Event Manager позволит вам запустить любое количество приложений одновременно. Можно не просто составлять списки программ для одновременного запуска, но и указывать время для запуска и прекращения работы. Кроме этого, Event Manager позволяет писать макросы и указывать в них условия запуска тех или иных приложений, а также управлять перезагрузкой и выключением компьютера.

TaskForce 2.0. Эта программа предназначена для автоматизации выполнения некоторых действий на компьютере. С ее помощью можно устанавливать время начала закачки файлов, выключения компьютера, запуска приложений, проигрывания аудиофайлов. В Task Force также есть функция напоминания о заданных событиях. Каждое задание может быть выполнено благодаря имитации нажатия кнопок (клавиш), которые вызывают выполнение одного из действий — открытие или закрытие окна, проверка доступности интернет-соединения, установка определенного времени и пр.

Automize 6.21. Программа для планирования и автоматизации заданий. Automize может выполнять многие задания на компьютере автоматически — выполнять загрузку на FTP-серверы, производить мониторинг FTP, скачивать файлы из Интернета, проверять и отправлять почту, пинговать серверы, следить за указанными папками и многое другое. Задания могут выполняться в заданное время, а также периодически: каждый день, неделю, месяц и т.д. Программа содержит заготовки для выполнения наиболее распространенных заданий, остальные настраиваются вручную.

Macro Mania 9.5. Утилита для создания различных макросов. С ее помощью можно запускать программы, переключаться между уже работающими приложениями, давать команды для выполнения любым программам и т.д. Программа имеет мастер команд, который поможет неопытным пользователям быстро создать массу полезных макросов. В Macro Mania встроен планировщик, который позволяет запускать макросы в определенное время.[22]

Shudly 1.0. Данная программа представляет собой многофункциональное решение, с помощью которого можно осуществлять поиск информации посредством Google, просматривать веб-страницы и отсылать электронную почту. Уникальность этой утилиты в том, что для общения с программой используется интерактивный помощник наподобие того, который присутствует в Microsoft Office. Shudly может использоваться как планировщик заданий — в этом случае интерактивный персонаж напомнит о приближающемся важном событии.

SmartMOUSE 2.2. Программа для увеличения функциональности мыши. Она помогает делать мышью меньше движений, а также позволяет выполнять некоторые операции более быстро. Среди ее возможностей — автоматическое перемещение курсора в центр диалогового окна; исчезновение курсора при наборе текста; слежение за вашими действиями пользователя и напоминание о перерыве в работе; наличие некоторых макросов для выполнения частых действий — работы с браузером, переключения между окнами и пр.

Keep - It 3.0. Иногда, на протяжении длительного времени работая с одними и теми же документами, вы жалеете о том, что старые версии не были сохранены. Те данные, которые кажутся ненужными, позже могут пригодиться. При этом, если документы достаточно велики, хранить все их версии не очень удобно, так как они требуют мноо места на жестком диске. Бесплатная программа Keep-It поможет решить эту проблему. Во-первых, она сохраняет старые версии файлов в сжатом виде, а во-вторых, использует не весь файл, а только выбранную его часть. Например, если у вас есть документ Word, в котором изменяется только текст, а картинки остаются неизменными, Keep-It сохраняет только текстовую часть файла.[23]

 

Дата: 2019-12-22, просмотров: 249.