Задача оптического распознавания
Поможем в ✍️ написании учебной работы
Поможем с курсовой, контрольной, дипломной, рефератом, отчетом по практике, научно-исследовательской и любой другой работой

- Перевод документов, научных публикаций, социальной информации, исторических изданий в электронный вид.

- Классификация документов.

- Накопление и хранение электронных документов.

История

· 1929 году - Густав Таушек (Gustav Tauschek) получил патент на метод оптического распознавания текста в Германии;

· 1933 год - Гендель (Paul W. Handel) получил патент на свой метод в США ;

· 1935 год – Г. Таушек также получил патент США на свой метод;

· 1950 год - Дэвид Х. Шепард (David H. Shepard) - построил машину, решающую задачу преобразования печатных сообщений в машинный язык для обработки компьютером.

· 1955 год - Первая коммерческая система была установлена на «Ридерс Дайджест»

· 1965 год - «Ридерс Дайджест» и «Ар-Си-Эй» начали сотрудничество с целью создать машину для чтения документов, использующую оптическое распознавание текста, предназначенную для оцифровки серийных номеров купонов «Ридерс Дайджест», вернувшихся из рекламных объявлений.

· 1965 год - Почтовая служба Соединённых Штатов для сортировки почты использует машины, работающие по принципу оптического распознавания текста, созданные на основе технологий, разработанных исследователем Яковом Рабиновым.

· 1971 год - Почта Канады использует системы оптического распознавания символов

· 1974 год - Рэй Курцвейл создал компанию «Курцвейл Компьютер Продактс», и начал работать над развитием первой системы оптического распознавания символов, способной распознать текст, напечатанный любым шрифтом.

· 1978 год - Компания «Курцвейл Компьютер Продактс» начала продажи коммерческой версии компьютерной программы оптического распознавания символов.

· 1992 год – Начало продажи первой коммерчески успешной программой, распознающей кириллицу, «AutoR» российской компании «ОКРУС» (ОС DOS).

· Конец 60-х годов – разработка и испытание шрифтонезависимого алгоритма распознования текста выпускниками МФТИ, биофизиками: Г. М. Зенкиным и А. П. Петровым

При создании электронных библиотек и архивов путем перевода книг и документов в цифровой компьютерный формат, при переходе предприятий от бумажного к электронному документообороту, при необходимости отредактировать полученный по факсу документ используются системы оптического распознавания символов.

С помощью сканера несложно получить изображение страницы текста в графическом файле.

Однако для получения документа в формате текстового файла необходимо провести распознавание текста, т. е. преобразовать элементы графического изображения в последовательности текстовых символов.

-Сначала необходимо распознать структуру размещения текста на странице: выделить колонки, таблицы, изображения и т. д.

-Далее выделенные текстовые фрагменты графического изображения страницы необходимо преобразовать в текст.

5. Системы машинного перевода

«Машинный перевод – выполняемое на компьютере действие по преобразованию текста на одном естественном языке в эквивалентный по содержанию текст на другом языке, а также результат такого действия». Авторы статьи подчеркивают, что при нынешнем уровне машинного перевода без участия человека не обойтись. Чтобы компьютер мог перевести текст, ему нужна помощь предредактора, который тем или иным образом предварительно обрабатывает подлежащий переводу текст, интерредактора, который участвует в процессе перевода, и постредактора, который исправляет ошибки и недочеты в переведенном машиной тексте.

В основе работы программы-переводчика лежит алгоритм перевода – последовательность однозначно и строго определенных действий над текстом для нахождения соответствий в данной паре языков L1 – L2 при заданном направлении перевода (с одного конкретного языка на другой). Обычные словари и грамматики разных языков не применимы для машинного перевода, так как описывают значения слов и грамматические закономерности в нестрогой форме, никак не приемлемой для «машинного» использования. Следовательно, нужна формальная грамматика языка, т.е. логически непротиворечивая и явно выраженная (безо всяких подразумеваний и недомолвок). Как только начали появляться формальные описания различных областей языка – прежде всего морфологии и синтаксиса, – наметился прогресс и в разработке систем автоматического перевода. Чтобы успешно работать, система машинного перевода включает в себя, во-первых, двуязычные словари, снабженные необходимой информацией (морфологической, относящейся к формам слова, синтаксической, описывающей способы сочетания слов в предложении, и семантической, т.е. отвечающей за смысл), а во-вторых – средства грамматического анализа, в основе которых лежит какая-нибудь из формальных, т.е. строгих, грамматик. Наиболее распространенной является следующая последовательность формальных операций, обеспечивающих анализ и синтез в системе машинного перевода.

1. На первом этапе осуществляется ввод текста и поиск входных словоформ (слов в конкретной грамматической форме, например дательного падежа множественного числа) во входном словаре (словаре языка, с которого производится перевод) с сопутствующим морфологическим анализом, в ходе которого устанавливается принадлежность данной словоформы к определенной лексеме (слову как единице словаря). В процессе анализа из формы слова могут быть получены также сведения, относящиеся к другим уровням организации языковой системы, например, каким членом предложения может быть данное слово.

2. Следующий этап включает в себя перевод идиоматических словосочетаний, фразеологических единств или штампов данной предметной области (например, при англо-русском переводе обороты типа in case of, in accordance with получают единый цифровой эквивалент и исключаются из дальнейшего грамматического анализа); определение основных грамматических (морфологических, синтаксических, семантических и лексических) характеристик элементов входного текста (например, числа существительных, времени глагола, их роли в данном предложении и пр.), производимое в рамках входного языка; разрешение неоднозначности (скажем, англ. round может быть существительным, прилагательным, наречием, глаголом или же предлогом); анализ и перевод слов. Обычно на этом этапе однозначные слова отделяются от многозначных (имеющих более одного переводного эквивалента в выходном языке), после чего однозначные слова переводятся по спискам эквивалентов, а для перевода многозначных слов используются так называемые контекстологические словари, словарные статьи которых представляют собой алгоритмы запроса к контексту на наличие/отсутствие контекстных определителей значения.

3. Окончательный грамматический анализ, в ходе которого доопределяется необходимая грамматическая информация с учетом данных выходного языка (например, при русских существительных типа сани, ножницы глагол должен стоять в форме множественного числа, притом, что в оригинале может быть и единственное число).

4. Синтез выходных словоформ и предложения в целом на выходном языке. Здесь не получится обойтись простым переводом «узлов» дерева на другой язык. Синтаксис каждого языка устроен на свой лад: то, что в русском предложении – подлежащее, в другом языке может (или должно) быть выражено дополнением, а дополнение, наоборот, должно преобразоваться в подлежащее; то, что в одном языке обозначается группой слов, переводится на другой всего одним словом и т. д. В связи с этим в машинную память помимо наборов синтаксических правил для каждого языка «вкладывают» и правила преобразования синтаксических структур. К этому добавляют правила перехода от уже преобразованной структуры к предложению того языка, на который делается перевод. Такой переход от структуры к реальному предложению называется синтаксическим синтезом.

В зависимости от особенностей морфологии, синтаксиса и семантики конкретной языковой пары, а также направления перевода общий алгоритм перевода может включать и другие этапы, а также модификации названных этапов или порядка их следования, но вариации такого рода в современных системах, как правило, незначительны. Анализ и синтез могут производиться как пофразно, так и для всего текста, введенного в память компьютера; в последнем случае алгоритм перевода предусматривает определение так называемых анафорических связей (такова, например, связь местоимения с замещаемым им существительным – скажем, местоимения им со словом местоимения в самом этом пояснении в скобках).

Для решения проблемы многозначности слова используется анализ контекста. Дело в том, что каждое из нескольких значений многозначного слова в большинстве случаев реализуются в своем наборе контекстов. То есть у каждого из «конкурирующих» (при интерпретации) значений – свой набор контекстов. И именно вот эта зависимость значения от окружения позволяет слушающему понять высказывание правильно. Для правильного понимания высказывания необходимо в полной мере учитывать также правила обусловленности выбранного значения лексическим окружением (действующие при «фразеологической» интерпретации слова), правила обусловленности выбранного значения семантическим контекстом (так называемые законы семантического согласования) и правила обусловленности выбранного значения грамматическим (морфолого-синтаксическим) контекстом. То есть для решения проблемы «моносемизации» слов при автоматическом переводе основой служит изучение и тщательное описание закономерностей лексической, семантической и грамматической сочетаемости. При этом правила такой сочетаемости достаточно подробно описываются в словарях – а именно, (а) с мощным охватом лексики, но весьма бегло и нетщательно, а также весьма имплицитно это делается в традиционной лексикографии; и, с другой стороны, (б) в выборочном порядке (со слабым охватом лексики), но зато весьма аккуратно и тщательно, и довольно-таки эксплицитно это делается в работах по «толково-комбинаторной» лексикографии (последних сорока лет).

Действующие системы машинного перевода, как правило, ориентированы на конкретные пары языков (например, французский и русский или японский и английский) и используют, как правило, переводные соответствия либо на поверхностном уровне, либо на некотором промежуточном уровне между входным и выходным языком. Качество машинного перевода зависит от объема словаря, объема информации, приписываемой лексическим единицам, от тщательности составления и проверки работы алгоритмов анализа и синтеза, от эффективности программного обеспечения. Современные аппаратные и программные средства допускают использование словарей большого объема, содержащих подробную грамматическую информацию. Информация может быть представлена как в декларативной (описательной), так и в процедурной (учитывающей потребности алгоритма) форме.

В практике переводческой деятельности и в информационной технологии различаются два основных подхода к машинному переводу. С одной стороны, результаты машинного перевода могут быть использованы для поверхностного ознакомления с содержанием документа на незнакомом языке. В этом случае он может использоваться как сигнальная информация и не требует тщательного редактирования. Другой подход предполагает использование машинного перевода вместо обычного «человеческого». Это предполагает тщательное редактирование и настройку системы перевода на определенную предметную область. Здесь играют роль полнота словаря, ориентированность его на содержание и набор языковых средств переводимых текстов, эффективность способов разрешения лексической многозначности, результативность работы алгоритмов извлечения грамматической информации, нахождения переводных соответствий и алгоритмов синтеза. На практике перевод такого типа становится экономически выгодным, если объем переводимых текстов достаточно велик (не менее нескольких десятков тысяч страниц в год), если тексты достаточно однородны, словари системы полны и допускают дальнейшее расширение, а программное обеспечение удобно для постредактирования.

 

6. Электронные словари

Современный переводчик не может конкурировать на рынке переводческих услуг без овладения информационными технологиями перевода. Перевод с помощью компьютера (Computer Aided Translation – CAT) включает следующие основные компьютерные технологии.

Установленные на компьютере (офлайновые) общелингвистические и специализированные электронные словари.

Системы автоматизированного перевода.

Системы переводческой памяти.

Онлайновые (сетевые) специализированные и толковые словари.

Лингвистический поиск в сети Интернет.

Современные электронные словари позволяют не только быстро найти перевод слова или выражения на различные языки, но и отыскать примеры его употребления, грамматические формы и устойчивые словосочетания, в которых это слово используется. Среди офлайновых словарей, которые нужны для каждодневной работы профессиональному переводчику, следует выделить в первую очередь Lingvo и Multitran. Это наиболее полные профессиональные многоязычные словари, включающие большое количество узкоспециализированных тематик.

Если офлайновые словари не позволяют найти приемлемого перевода терминов и выражений, то следует обратиться к поиску в сети Интернет. В Интернете можно найти перевод терминов и словосочетаний, сокращений и названий, материалы по теме перевода на русском языке и на языке перевода, а также вспомогательные для переводчика материалы (нормативные документы, обсуждения сложных тем и опыта перевода на форумах переводчиков и др.).

Системы автоматизированного (машинного) перевода (Machine Translation, MT) могут быть использованы для быстрого перевода с различных языком больших объемов текста по специальным тематикам с учетом их специфики. После редактирования такой перевод приближается по качеству к ручному переводу. Машинный перевод является одной из технологий перевода с помощью компьютера (CAT). При машинном переводе приложение осуществляет автоматический связный перевод текста на другой естественный язык с использованием словарей и набора правил перевода с учетом морфологии, синтаксиса и семантических связей без участия человека или при его минимальном участии.

Существуют следующие виды систем машинного перевода.

FAMT (Fully-automatedmachine translation) – полностью автоматизированный машинный перевод (автоматический);

HAMT (Human-assistedmachine translation) – машинный перевод при участии человека

(автоматизированный в интерактивном режиме);

MAHT (Machine-assistedhuman translation) – перевод, осуществляемый человеком с использованием компьютера.

Автоматизированный перевод типа HAMT рассматривается в пособии на примере системы

PROMT.

CAT перевод типа MAHT реализуется в виде систем переводческой памяти (Translation Memory), которые используют для перевода переведенные ранее фрагменты текста, что существенно

повышает производительность переводчика без потери качества. При командной работе над проектом, такие системы позволяют использовать коллективный опыт переводчиков и обеспечивают единство терминологии, что значительно повышает единообразие перевода различными переводчиками и скорость перевода. В пособии подробно рассмотрена работа с программой памяти переводов memoQ.

1 СЛОВАРЬ LINGVO

1.1 Основные функции словаря Lingvo

Электронный словарь ABBYY Lingvo x5 (www.lingvo.ru) – это словарь с большой и современной словарной базой, который включает около 220 общелексических, тематических, лингвострановедческих и толковых словарей (профессиональная версия):

20 языков: английский, русский, немецкий, французский, испанский, итальянский,

португальский, греческий, финский, китайский, латинский, турецкий, украинский,

казахский, татарский, польский, венгерский, датский, нидерландский, норвежский, 220

словарей, более 12 миллионов словарных статей.

Толковые словари английского языка: Oxford English Dictionary, Oxford American Dictionary, Collins Cobuild Dictionary. Словарь New Oxford American Dictionary содержит более 1000

иллюстраций.

Толковые словари русского языка: словарь Даля, словарьОжегова-Шведовой,Большая Советская энциклоперия, Большой энциклопедический словарь, Толковый словарь и др.

Около 76 000 слов и фраз в словарях общей лексики и разговорниках на английском,

немецком, французском, итальянском, испанском и китайском озвучены дикторами-

носителями этих языков.

Для тех, кто изучает английский язык, в программу включены всемирно известный учебный словарь Collins Cobuild Advanced Learner’s English Dictionary ивидео-словарьWord Express

компании English Club TV. В освоении английского помогут занимательные ситуативные видео-диалогиFull Contact, иллюстрированный толковый словарь английского языка New Oxford American Dictionary иангло-русскийграмматический словарь.

Приложение Lingvo Tutor для изучения иностранных языков, содержит комплекс упражнений для расширения словарного запаса и повышения грамотности при изучении языков. Эти упражнения включают такие разделы, как “Знакомство”, “Мозаика”,

“Варианты”, “Написание” и “Самопроверка”.

Видеоуроки предназначены для совершенствования речевого общения. В Lingvo x5 входит коллекция развлекательных и познавательных сюжетов с погружением в языковую среду.

Lingvo обеспечивает пользователям доступ к словарям через лингвистический онлайн-порталLingvo.Pro. Портал позволяет обращаться к базе переводов, дополнять ее и взаимодействовать с другими пользователями. Используя этот портал, компания ABBYY развивает модель SaaS(Software-as-a-Service),позволяющую расширить доступность своих продуктов для пользователей.

Перевод слова и словосочетания в Lingvo отображается в виде карточки перевода, в которой показывается начало словарных статей из всех словарей с заголовком, совпадающим с заданным словом или словосочетанием.

Всплывающий перевод при наведении курсора мыши на слово помогает при чтении текста в программе Word, WordPad, Excel. PDF-файлов,в браузере Explorer,интернет-страниц,ICQ, Flash-

роликов и субтитров к фильмам.

В программу Lingvo включены примеры писем на английском, немецком, французском и испанском языках по материалам двуязычных словарей Oxford Concise. Примеры описывают самые распространенные жизненные ситуации и полезны для ведения переписки.

При наличии интернет-подключения,Lingvo обеспечивает доступ конлайн-базепамяти переводов (ТМ – translation memory) для английского, немецкого и французского языков. Программа показывает примеры современного употребления слов и словосочетаний в предложениях из художественной и технической литературы, законодательных и юридических документов, синтернет-сайтов.С помощью этой базы пользователь может подобрать точный перевод слова, определить, действительно ли употребляется в речи данный оборот, найти новые варианты перевода и примеры их использования. База памяти переводов содержит более миллиона предложений. Чтобы получить примеры из памяти переводов в карточке наведите курсор мыши на интересующий перевод и после появления рамки вокруг слова нажмите на него левой кнопкой мыши.

8. ИПС (информационно-поисковая система)

ИПС (информационно-поисковая система) – это система, обеспечивающая поиск и отбор необходимых данных в специальной базе с описаниями источников информации (индексе) на основе информационно-поискового языка и соответствующих правил поиска.

Главной задачей любой ИПС является поиск информации релевантной информационным потребностям пользователя. Очень важно в результате проведенного поиска ничего не потерять, то есть найти все документы, относящиеся к запросу, и не найти ничего лишнего. Поэтому вводится качественная характеристика процедуры поиска – релевантность.

Релевантность – это соответствие результатов поиска сформулированному запросу.

Далее мы будем, в основном, рассматривать ИПС для всемирной паутины (WWW). Основными показателями ИПС для WWW являются пространственный масштаб и специализация.

По пространственному масштабу ИПС можно разделить на локальные, глобальные, региональные и специализированные. Локальные поисковые системы могут быть разработаны для быстрого поиска страниц в масштабе отдельного сервера.

Региональные ИПС описывают информационные ресурсы определенного региона, например, русскоязычные страницы в Интернете. Глобальные поисковые системы в отличие от локальных стремятся объять необъятное – по возможности наиболее полно описать ресурсы всего информационного пространства сети Интернет.

Кроме того, ИПС также могут специализироваться по поиску различных источников информации, например, документов WWW, файлов, адресов и т.д.

Рассмотрим подробнее основные задачи, которые должны решить разработчики ИПС. Как следует из определения, ИПС для WWW проводят поиск в собственной базе (индексе) с описанием распределенных источников информации.

Следовательно, сначала нужно описать информационные ресурсы и создать индекс. Построение индекса начинается с определения начального набора URL источников информации. Затем проводится процедура индексирования.

Индексирование – описание источников информации и построение специальной базы данных (индекса) для эффективного поиска.

В некоторых информационно-поисковых системах описание источников информации проводится персоналом ИПС, то есть, людьми, которые составляют краткую аннотацию на каждый ресурс. Затем, как правило, проводится сортировка аннотаций по темам (составление тематического каталога). Конечно, описание, составленное человеком, будет совершенно адекватно источнику. Правда, в этом случае процедура описания занимает значительный период времени, поэтому формируемый индекс имеет, как правило, ограниченный объем. Зато поиск в подобной системе можно будет проводить так же легко, как в тематических каталогах библиотек.

В ИПС второго типа процедура описания информационных ресурсов автоматизирована. Для этого разрабатывается специальная программа-робот, которая по определенной технологии обходит ресурсы, описывает их (проводит индексирование) и анализирует ссылки с текущей страницы для расширения области поиска. Как может описать документ программа? Чаще всего просто составляется список слов, которые встречаются в тексте и других частях документа, при этом учитывается частота повторения и местоположение слова, то есть, слову приписывается своеобразный весовой коэффициент в зависимости от его значимости. Например, если слово находится в названии Web-страницы, робот пометит этот факт для себя. Поскольку описание автоматизировано, затраты времени невелики, и индекс может оказаться очень большим по размеру.

Следовательно, следующей задачей для ИПС второго типа является разработка робота-индексировщика. Для поиска в системах данного типа пользователю придется научиться составлять запросы, в простейшем случае состоящие из нескольких слов. Тогда ИПС будет искать в своем индексе документы, в описаниях которых встречаются слова из запроса. Для проведения более качественного поиска необходимо разрабатывать специальный язык запросов для пользователя. В зависимости от особенностей построения модели индекса и поддерживаемого языка запросов разрабатывается механизм поиска и алгоритм сортировки результатов поиска. Поскольку индекс имеет значительный объем, количество найденных документов может оказаться достаточно большим. Следовательно, чрезвычайно важно, как поисковая машина проведет поиск и отсортирует его результаты.

Не последнее значение имеет внешний вид поисковой системы, предстающий перед пользователем, поэтому одной из задач является разработка удобного и красивого интерфейса. Наконец, исключительно важна форма представления результатов поиска, поскольку пользователю необходимо узнать как можно больше о найденном источнике информации, чтобы принять правильное решение о необходимости его посещения.

Для обращения к поисковому серверу пользователь использует стандартную программу-клиент для всемирной паутины, то есть браузер. По адресу домашней страницы ИПС пользователь работает с интерфейсом поисковой системы, который служит для общения пользователя с поисковым аппаратом системы (системой формирования запросов и просмотра результатов поиска).

Дата: 2019-03-06, просмотров: 253.