Популярные программные системы ПП
Поможем в ✍️ написании учебной работы
Поможем с курсовой, контрольной, дипломной, рефератом, отчетом по практике, научно-исследовательской и любой другой работой

В соответствии с недавними обзорами использования систем ПП к наиболее популярным системам относятся:

  • DejaVu (бесплатная система, распространяемая по лицензии )
  • StarTransit
  • Trados
  • MemoQ

(реализована как набор макросов для MS Word)

 

9 Лингвоанализаторы. Парсеры. Лексико-грамматические анализаторы .

 

Так как экспертный анализ авторского стиля является трудоемким процессом, появляется потребность в создании формальных методов ее решения. Идентифицировать автора неизвестного текста или определить принадлежность произведения другому автору при помощи характерных языковых особенностей, стилистических приемов. С развитием вычислительной техники появилась возможность реализовать методы, требующие огромных вычислений, чтобы облегчить работу эксперов. Существующие программные продукты позволяют учитывать и варьировать различные лингвостатистическиепараметры, характеризующие текст с разных сторон.

Методы формализации текста, реализуемы с помощью компьютерных программ,основаны на поиске и анализе атруботов. Данный процесс называется атрибуцией. Атрибуция текста – исследование текста с целью установления авторства или получения

каких-либо сведений об авторе и условиях создания текстового документа. Задачи атрибуции

можно разделить на идентификационные и диагностические. 

Идентификационные задачи позволяют осуществить проверку авторства:

 подтвердить авторство определенного лица;

 исключить авторство определенного лица;

 проверить тот факт, что автором всего текста был один и тот же человек;

 проверить тот факт, что написавший текст является при этом его настоящим автором.

Идентификационные задачи решаются из предположения, что автор текста известен.

Диагностические задачи позволяют определить личностные характеристики автора (образовательный уровень, родной язык, знание иностранных языков, происхождение, место постоянного проживания и др.) и / или факт сознательного искажения письменной речи. Диагностические задачи решаются из предположения, что автор текста неизвестен. В этихслучаях обычно невозможно сопоставить исследуемый текст с текстами автора.

Методы атрибуциипозволяют исследовать текст на пяти уровнях: пунктуационном, орфографическом, синтаксическом, лексико-фразеологическом, стилистическом.

Пунктуационный уровень помогает выявить особенности употребления автором знаковпрепинания, характерные ошибки.

Орфографический уровень выявляет характерные ошибки в написании слов.

Синтаксический уровень позволяет определить особенности построения предложений,предпочтение тех или иных языковых конструкций, употребление времен, активного илипассивного залога, порядок слов, характерные синтаксические ошибки.

Лексико-фразеологический уровень определяет словарный запас автора, особенности использования слов и выражений, склонность к употреблению редких и иностранных слов,диалектизмов, архаизмов, неологизмов, профессионализмов, арготизмов, навыки употребления фразеологизмов, пословиц, поговорок, «крылатых выражений» и т. д.

Стилистический уровень позволяет определить жанр, общую структуру текста, для литературных произведений – сюжет, характерные изобразительные средства (метафора, ирония,аллегория, гипербола, сравнение), стилистические фигуры (градация, антитеза, риторическийвопрос и т. д.), другие характерные речевые приемы.

 

Под «авторским стилем» обычно понимаются последние три уровня. Анализ именно синтаксического, лексико-фразеологического и стилистического уровней представляет наибОльший интерес и наибольшую сложность.

Существует довольно много методов анализа стиля. В целом можно разделить их на две

большие группы – экспертные и формальные. Экспертные методы предполагают исследование текста профессиональным лингвистом-экспертом. К формальным относятся приемы из

теории вероятностей и математической статистики, алгоритмы кластерного анализа и нейронных сетей. Формальные методы чаще всего основаны на сравнении вычислимых характеристик текстов, как в теории распознавания образов.

Вычислительная техника может работать с текстами, написанными с применением привычных для человека конструкций, только используя определенную математическую модель. Синтаксический анализ, написанный на каком-либо языке программирования, принято называть парсингом, от английского parsing (пер. - разбор, анализ).

В некоторой мере парсинг можно приравнять к чтению человеком текста. Человек в таком случае тоже проводит синтаксический анализ, сравнивая прочитанные слова и словесные конструкции с тем словарным запасом, которым он обладает. Естественно, что парсер (программа для парсинга) не в состоянии в настоящее время обрабатывать тексты на столь высоком уровне, как человеческий мозг. Но парсеры, во-первых, становятся более совершенными, и во-вторых, они в основном предназначены для решения узкого круга задач.

В большинстве случаев в качестве характеризующих параметров текста выбираются те

или иные его статистические характеристики: количество использования определенных частей речи, некоторых конкретных слов, знаков препинания, фразеологизмов, архаизмов, редких и иностранных слов, количество и длина предложений (измеренная в словах, слогах,

знаках), объем словаря, количество полнозначных и служебных слов, средняя длина предложения, отношение числа глаголов к общему количеству словоупотреблений в тексте и т. д.

Основная проблема формальных методов анализа авторства состоит как раз в выборе па-

раметров. Существует целый ряд формальных статистических характеристик текстов, непригодных для определения авторства. Параметры, осложняющие процесс определения авторства:

Отсутствие устойчивости. Разброс значений параметра для текстов одного и того же

автора настолько велик, что диапазоны возможных значений для разных авторов перекрываются. Очевидно, данный параметр не поможет различать авторов, а при использовании в составе группы параметров лишь сыграет роль дополнительного шума.

Отсутствие различающей способности. Параметр может принимать близкие значения

для всех или большинства авторов, поскольку его значение определяются свойствами языка,

на котором написаны тексты, а не индивидуальными особенностями создателя текста. По-

этому параметры, используемые в формальных методиках определения авторства, должны

предварительно исследоваться на устойчивость и различающую способность, желательно на

текстах большого количества различных авторов.

Массовость. Параметр должен опираться на те характеристики текста, которые слабо

контролируются автором на сознательном уровне. Это необходимо, чтобы устранить возможность сознательного искажения автором характерного для него стиля или имитации стиля другого автора.

Устойчивость.Параметр должен сохранять постоянное значение для одного автора. Естественно, в силу случайных причин некоторое отклонение значений от среднего неизбежно,но оно должно быть достаточно мало.

Различающая способность. В идеале параметр должен принимать существенно различные значения (превышающие колебания, возможные для одного автора) для разных авторов.Необходимо отметить, что выбрать параметры, которые гарантированно разделяют двух любых авторов, очень трудно. Какими бы ни были параметры, всегда существует вероятностьтого, что два или более автора окажутся по данным параметрам близки в силу случайногосовпадения. Поэтому на практике считается достаточным, чтобы параметр позволял уверенно различать между собой разные группы авторов, т. е. существовало достаточно большоеколичество групп авторов, для которых средние значения параметра значительно различаются. Параметр, очевидно, не поможет различить тексты авторов из одной группы, но позволитуверенно различать тексты авторов, попавших в разные группы. Различать тексты автороводной группы можно за счет использования одновременно достаточно большого вектораразличных по характеру параметров – в этом случае вероятность случайного совпадения станет заметно меньше. Для уверенного вывода в отношении текстов, для которых формальновычисленное параметрическое расстояние мало, требуется дополнительное исследованиеэкспертными методами.

Система «Лингвоанализатор» - алгоритмы сжатия данных для задачи определения авторства, простейший подход с использованием цепей Маркова первого порядка показывает хорошие результаты на файлах большого объема и плохие по сравнению с другими методами на отрывках длиной в 2 000–5 000 символов. Этот метод был реализован в системе «Лингвоанализатор» (http://www.rusf.ru/books/analysis).

Применение методов из теории вероятностейи математической статистики для атрибуции текстов. Данный метод основан на учете статистики употребления пар элементов любой природы, идущих друг за другом в тексте (букв, морфем, словоформ и т. п.), т. е. на формальной математической модели последовательности букв (и любых других элементов) текста как реализации цепи Маркова. По тем произведениям автора, которые достоверно им созданы, вычислялась матрица переходных частот употребления пар элементов (букв, грамматических классов слов и т. п.). Она служила оценкой матрицы вероятности перехода из элемента в элемент. Для каждого автора строилась матрица переходных частот и оценивалась вероятность того, что именно он написал анонимный текст (или фрагмент текста). Автором анонимного текста считался тот, для кого вычисленная оценка вероятности больше.

Система «Атрибутор» - развитие подхода, использующего в качестве стилевых признаков бинарные буквосочетания, трехбуквенные сочетания –триады. При таком методе анализу поддаются однобуквенные и двухбуквенные служебныеслова, а это значительная часть наиболее частотных предлогов, союзов, частиц и междометий, которые традиционно считаются значимыми стилеметрическими показателями. По этойпричине двухбуквенные, четырех- и более буквенные цепочки менее показательны, что ибыло доказано в процессе исследования.

На основе данных рассуждений был создан программный продукт для автоматическогосравнения и классификации текстов по параметрам индивидуального авторского стиля подназванием «Атрибутор» (http://www.textology.ru/web.htm).

 

Система «СМАЛТ» -  подход, основанный на изучении особенностей синтаксических структуртекста: зависимостей и типов связей, зависимостей и мер сложности. Кроме того, были проведены исследования, результатом которых явилась реализация системы атрибуции текстов «СМАЛТ» (Статистические методы анализа литературного текста), основанная на алгоритмах автоматизации морфологического и синтаксического анализа. Обработка текстов в этой системе производилась в несколько этапов. На первом шаге выполнялось автоматизированное разбиение исходного текста на лексические единицы, среди которых выделялась часть (или раздел), абзац, предложение, слово. На втором этапе осуществлялась автоматическая обработка текста и его морфологический разбор. На базе построенного морфологического разбора производилась третья стадия обработки текста – синтаксический анализ.

Система «Антиплагиат»

Среди программных продуктов для определения авторства текстов можно выделить систему «Антиплагиат» (http://www.antiplagiat.ru). Этот интернет-сервис предлагает осуществить проверку текстовых документов на наличие заимствований из общедоступных сетевых источников. Система позволяет проводить атрибуцию текстов на различных языках. На первом этапе система собирает информацию из различных источников: загружает из Интернета и обрабатывает сайты, находящиеся в открытом доступе, базы научных статей и рефератов. Загруженные документы проходят процедуру фильтрации, в результате которой отбрасывается бесполезная с точки зрения потенциального цитирования информация (например, HTML-страницы с большим количеством рекламы, новостные заголовки и т. д.). На следующем этапе каждый из полученных таким образом текстов определенным образом форматируется и заносится в системную базу данных. Кроме того, в общую базу текстов поступают документы, загруженные на проверку пользователем, если такая возможность была разрешена им во время процедуры загрузки. Все пользовательские документы, загружаемые для проверки, ставятся в очередь на обработку. Поиск совпадений осуществляется методом сравнения последовательностей символов без учета языковых особенностей и речевых взаимосвязей. За счет этого достигается высокая, в несколько секунд, скорость поиска совпадений. Проверка документа, например, реферата среднего размера, занимает несколько секунд. После проверки документа пользователь получает отчет, в котором представляются результаты. Структура отчета позволяет выделять в проверяемом тексте заимствованные части как по всем источникам, так и по их любому подмножеству.

Все программные алгоритмы, используемые в «Антиплагиате», являются коммерческойтайной компании «Форексис», и открытого доступа к ним нет. К недостаткам системы можно отнести невозможность «отлавливать» заимствованный текст при условии, что в каждом из предложений текста добавлено или убрано всего лишь одно слово. На данный момент существуют программы, например «Антиплагиат киллер» (http://otlichnik.biz/publ/antiplagiat_killer_2_0/1-1-0-4), позволяющие «обходить» систему «Антиплагиат».

Авторский инвариант и лингвистические спектры

В рамках относительно небольшого текста значения большинства формальных характеристик не позволяют установить авторский стиль. Кроме того, на коротких текстах часто не проявляются и другие характеристики, например, особенности использования авторской фразеологии и идиоматики, а также метафорической системы, системы эпитетов и т. д. С другой стороны, грамматические особенности авторского стиля – частота употребления неполнозначных, служебных слов (частиц, союзов, предлогов, некоторых модальных слов, вводных выражений) – для текстов порядка 1 000–2 000 слов сохраняются. Такой метод определения авторства текста иногда называют лингвостатистическим анализом неполнозначной лексики.

Система «Стилеанализатор»

Проблему атрибуции текстов в работах [8; 13] предлагается решать при помощи нейронных сетей и методов иерархической кластеризации. предложены подходы для сравнения стилей текстов по частотным признакам с использованием гипергеометрического критерия (двустороннего точного критерия Фишера) и критерия хи-квадрат. Под частотным признаком понимается любой признак стиля текста, допускающий возможность нахождения частоты его появления в тексте (например, число появления абзацев в тексте). На основе проведенных исследований разработан программный комплекс «Стилеанализатор». Он позволил провести исследования зависимости от объемов текстовых фрагментов качества классификации текстов по авторству, по жанровым типам и источникам.

Система «Авторовед»

Еслизадачу определения авторства сформулировать как задачу классификации, то одним из широко применяемых выходов является построение бинарного классификатора. Все тексты,включая обучающую часть выборки, разворачиваются в очень большой вектор, индексируемый словами. После этого имеется два множества точек из обучающей выборки в многомерном пространстве: принадлежащие данному автору и не принадлежащие автору.

 

ИТАК, в основе формальных методов атрибуции текстов лежит представление о том, что с возрастанием объема текста параметры, характеризующие авторский стиль, становятся устойчивыми с вероятностной точки зрения, что позволяет устанавливать авторство по стабильноповторяющимся формальным характеристикам текста. Поэтому более высокое качество атрибуции достигается для текстов большого объема, и менее точный результат получается длятекстов маленького объема.

Открытым остается вопрос о выборе авторского инварианта (набора формальных параметров текста). Часто на практике решается ограниченный круг задач для предварительнозаданного набора текстов. Настройка, тестирование и демонстрация инструментов анализаориентирована только на эти тексты, и нет никакой гарантии, что методы будут эффективносправляться с задачей на других данных. Иными словами, для построения универсального инезависящего от текстов авторского инварианта необходимо искать новые пути формирования характеристик.

Установив набор характеристик, исследователь сталкивается с проблемой их структуризации, в чем существенную помощь могут оказать классические статистические методы.С помощью факторного анализа и анализа главных компонент можно установить вклад тойили иной характеристики в процесс распознавания автора, иерархический кластерный анализпозволит сделать объединение отдельных характеристик в подгруппы, подгрупп в группыи т. д. Немалую помощь можно получить от нейронных сетей прямого распространения, еслипопытаться обучить сеть на наборе примеров, взяв в качестве входов отдельные характеристики, а затем оценивать, какое влияние оказывает тот или иной вход на систему выходов.

Недостаочно исследованы зависимости качества классификации различными методамиот объемов фрагментов и от числа классов. Наконец, имеющиеся программы анализа текстовне ориентированы на комплексное исследование и сравнение стилей текстов (для разных задач анализа стилей текстов с использованием различных методов их решения, различныхчастотных признаков, различного текстового материала и т. д.).

К проблемам, затрудняющим исследования в области атрибуции текстов, относится такжепроблема составления выборки эталонных текстов. Желательно, чтобы произведения былиподобраны следующим образом: тексты разных писателей в максимальной степени различались друг от друга, а тексты одного писателя были максимально близки. Но существует немало случаев, когда известный писатель в какой-то период своего творчества менял стильизложения, или произведения были написаны в соавторстве. Эти факты создают дополнительные сложности при решении задачи установления авторства.

Необходимо проводить дальнейшие исследования, направленные на поиск новых или совершенствование уже имеющихся методов атрибуции текстов, а также на проведение экспериментов, целью которых является поиск характеристик, позволяющих четко разделять стили авторов, в том числе и на малых объемах выборки.

 

 

Парсеры

Интернет – практически безграничное хранилище информации. Найти и обработать необходимые тексты в большом объеме за короткое время человек или даже группа людей не в состоянии. А качественно написанный парсер справляется с такого рода работой эффективно, быстро, и работать он может круглосуточно.

Интернет-магазины – это, в первую очередь, информация о тысячах товарных позиций. Написать вручную все описания сложно, а порой и невозможно физически. Тут на помощь приходит парсер, который найдет нужные описания в Сети. Так, многие интернет-магазины занимаются парсингом цен с интернет-каталогов, чтобы держаться на конкуретном уровне. Агрегаторы новостей работают на основе парсинга, отыскивая нужную информацию, но уже не во всей Сети, а на определенных новостных сайтах. Зачастую парсеры используют в качестве средства для наполнения сайта, отыскивая необходимые информационные материалы.

Наиболее известный пример парсера – это роботы поисковиков, обрабатывающие тексты по определенному принципу и составляющие список ответов на поисковые запросы. Программы для проверки уникальности текста также являются парсерами. Они ищут похожие на проверяемый тексты, и если находят совпадения, дают на них ссылку. Парсеры также могут использоваться и для более узких целей.

Алгоритм, по которому работает парсер:

1. Поиск в Интернете нужных текстов и скачивание их.

2. Обработка текстов.

3. Оформление результатов работы в файл (текстовый, табличный, базы данных и т.п.).

Парсер в основном работает на компьютере, на котором он установлен, не блуждая по просторам Всемирной сети.

В основе парсинга – использование регулярных выражений. Это конструкция, задающая принципы поиска и обработки информации. Парсеры пишутся на языках программирования, в которых предусмотрена возможность обработки строк.

Регулярные выражения, или, как их еще называют на профессиональном сленге, маски, шаблоны, представляют собой набор определенных знаков, позволяющих описать ту информацию, которую необходимо найти. Например, можно задать поиск по определенному слову, по набору слов, по принципу их размещения, по дате и по каким угодно другим параметрам.

Дата: 2019-03-06, просмотров: 359.