Электронные корпуса текстов. Национальный корпус русского языка
Поможем в ✍️ написании учебной работы
Поможем с курсовой, контрольной, дипломной, рефератом, отчетом по практике, научно-исследовательской и любой другой работой

Корпусная лингвистика – раздел языкознания, занимающийся разработкой, созданием и использованием текстовых (лингвистических) корпусов.

Лингвистическим корпусом называют совокупность текстов, собранных в соответствии с определёнными принципами, размеченных по определённому стандарту и обеспеченных специализированной поисковой системой. Иногда корпусом («корпус первого порядка») называют просто любое собрание текстов, объединённых каким-то общим признаком (языком, жанром, автором, периодом создания текстов).

Целесообразность создания текстовых корпусов объясняется:

1) представлением лингвистических данных в реальном контексте;

2) достаточно большой репрезентативностью данных (при большом объёме корпуса);

3) возможностью многократного использования единожды созданного корпуса для решения различных лингвистических задач. Среди них можно выделить следующие:

1) в лексикографии и лексикологии – для составления различных словарей, определения значений многозначных слов, выявления ассоциативных связей слов в тексте и т.д.,

2) в грамматике – для определения частоты употребления грамматических морфем в Различных текстах, выявления наиболее употребляемых типов словосочетаний и предложений, частоты употребления классов слов;

3) в лингвистике текста – для дифференциации типов текста, выявления связей между предложениями в абзацах, между абзацами и т.д.,

4) при автоматическом переводе текстов – для поиска контекстов слов, имеющих несколько переводных эквивалентов, поиска переводных эквивалентов в параллельных текстах и т.д.,

5) в учебных целях – для выбора цитат, отдельных фрагментов произведений, примеров, при создании учебников и учебных пособий и т.д.;

6) к корпусам текстов также обращаются программисты, занимающиеся разработкой систем автоматической обработки текстов. Для них корпус служит своеобразным «полигоном», на котором проверяется эффективность работы компьютерных программ.

Первым большим компьютерным корпусом считается Брауновский корпус американского варианта английского языка, который был создан в 1962-63 гг. под руководством У. Фрэнсиса в Университете Брауна и содержал 500 фрагментов текстов по 2 тысячи слов в каждом. В результате он задал стандарт в 1 млн словоупотреблений для создания представительных корпусов на других языках. По модели близкой к БК в 1970-е годы был создан частотный словарь русского языка Л.Н. Засориной, построенный на основе корпуса текстов объемом также в 1 миллион слов и включавший примерно в равной пропорции общественно-политические тексты, художественную литературу, научные и научно-популярные тексты из разных областей и драматургию. По аналогичной модели был построен и русский корпус, созданный в 1980-е годы в Университете Уппсалы, Швеция.

 

Размер в один миллион слов достаточен для лексикографического описания только самых частотных слов, поскольку слова и грамматические конструкции средней частоты встречаются по несколько раз на миллион слов (со статистической точки зрения язык является большим набором редких событий). Так, каждое из таких обыденных слов, как, н-р, англ. polite ‘вежливый’ или англ. sunshine ‘солнечный свет’ встречается в БК всего 7 раз, выражение англ. polite letter лишь один раз, а такие устойчивые выражения как англ. polite conversation, smile, request ни разу.

По этим причинам, а также в связи с ростом компьютерных мощностей, способных работать с большими объемами текстов, в 1980-е годы в мире было предпринято несколько попыток создать корпуса большего размера. В Великобритании такими проектами были Банк английского языка (Bank of English) и Британский Национальный Корпус (British National Corpus, BNC). В СССР таким проектом был Машинный Фонд русского языка, создававшийся по инициативе А. П. Ершова.

В настоящее время представительные корпуса существуют (или разрабатываются) для немецкого, польского, чешского, словенского, финского, новогреческого, армянского, китайского, японского и других языков. Национальный корпус русского языка, создаваемый при РАН, содержит на сегодняшний день более 149 млн словоупотреблений.

оздание корпусов включает в себя отбор текстов, разработку средств кодирования и средств поиска внутри базы данных. Подбор текстов осуществляется на основе четко сформулированных критериев (жанровая принадлежность текста, время его создания и др.).

Поскольку собрать все тексты языка практически невозможно (исключение составляют лишь мертвые языки), при отборе текстов необходимо следить за тем, чтобы были равномерно представлены все стили языка, чтобы в корпус были включены примеры употребления низкочастотной лексики. Считается, что для национального корпуса, который достоверно описывает некоторый язык, размер базы данных должен быть не менее 100 миллионов словоупотреблений. О таком корпусе принято говорить как о достаточно репрезентативном. Репрезентативность корпуса – одно из важнейших условий его использования. Поскольку от того, насколько корпус является репрезентативным, зависит достоверность результатом исследований, которые проводятся на материале этого корпуса.

В корпус могут включаться тексты самых разных жанров: произведения художественной литературы, публикации СМИ, деловые документы, записи диалогов, телевизионных ток-шоу, переписка по электронной почте и т.д. Такой подбор обеспечивает репрезентативность, т.е. показывает, как на самом деле функционирует язык в обществе. Иногда оказывается, что языковое употребление значительно расходится с нормой, представленной в грамматиках и словарях. Необходимо также отметить, что включение в корпус текстов, отражающих реальный процесс использования языка в определенных коммуникативных контекстах, контрастирует с подходом генеративной лингвистики, где порождение высказываний – это результат размышлений лингвиста об использовании языка, т.е. высказывания порождаются вне контекста на основе строгих правил.

Включенные в корпус тексты получают морфологическую и синтаксическую разметку (или аннотацию), которая необходима для того, чтобы пользователь мог осуществлять поиск необходимых фрагментов по заданным параметрам. Разметка – это приписывание грамматической информации о входящих в тексты словоформах. Наличие такой информации значительно обогащает корпус и облегчает процедуру поиска. Другие преимущества разметки заключаются в ее эксплицитности (т.е. информация о грамматических свойствах словоформ дается в явном виде), а также многофункциональности (аннотированный корпус может быть использован в различных исследовательских целях).

Разметка может осуществляться как вручную, так и в автоматическом режиме. Для того чтобы аннотирование происходило автоматически, специалисты по корпусной лингвистике используют специальные программы: лемматизаторы (т.е. программы, функция которых – приведение словоформы к начальной форме), программы, расставляющие указатели частей речи (part-of-speech taggers) и др.

Кроме того, в больших корпусах возникает проблема, которая ранее была неактуальной: поиск по запросу может выдавать сотни и даже тысячи результатов (контекстов употребления), которые просто физически невозможно просмотреть в ограниченное время. Для решения этой проблемы разрабатываются системы, позволяющие группировать результаты поиска и автоматически разбивать их на подмножества (кластеризация результатов поиска), либо выдающие наиболее устойчивые словосочетания (коллокации) со статистической оценкой их значимости.

Типы корпусов

Существуют различные подходы к классификации корпусов текстов в зависимости от типа текстов, способов их организации, языка и т.д.

С точки зрения их использования лингвистами наиболее значимы следующие виды корпусов:

1) исследовательские – создаются с целью изучения различных аспектов функционирования языка;

2) иллюстративные – служат для выделения в них лингвистических примеров, подтверждающих те или иные языковые факты, обнаруженные иными лингвистическими приемами;

3) статические – содержат тексты какого-то небольшого временного промежутка;

4) в динамические корпуса включают письменные источники большого временного периода, они предназначены для проведения различных диахронических исследований.

Если в корпус включены тексты только на одном языке, то это одноязычный корпус. Существуют также многоязычные корпуса, которые объединяют несколько одноязычных корпусов с приблизительно одинаковой выборкой текстов и репрезентативностью. Также разрабатываются корпуса параллельных текстов: в них включаются тексты с их переводами на другой язык (или языки).

Корпусная лингвистика в России развивается с некоторым отставанием. Первые электронные корпуса РЯ начали появляться не в России, а в Европе. Самым известным из таких корпусов является Упсальский корпус русского языка, созданный в Швеции. Сегодня этот корпус хранится на сервере Тюбингенского университета в Германии.

Национальный корпус русского языка (http://www.ruscorpora.ru/) – общедоступный для поиска электронный онлайновый корпус русских текстов – был создан недавно (2004 г.) и находится в стации разработки.

В Корпус входят как письменные тексты (художественные, мемуары, публицистика, научная, религиозная литература, повседневная печатная продукция), так и записи устных текстов (публичной речи и частных бесед). В корпус также входят подкорпуса поэтических и диалектных текстов, русско-английский, англо-русский и немецко-русский корпуса параллельных текстов, синтаксический, акцентологический и обучающий подкорпуса. Объём Национального корпуса русского языка составляет свыше 70 тыс. текстов общим объемом свыше 150 млн словоупотреблений. На сегодняшний день в корпусе используется четыре типа разметки: метатекстовая, морфологическая, акцентная и семантическая. Поиск можно осуществлять как во всем массиве текстов, так и в текстах, отобранных по определенному критерию (жанр, автор, время написания и др.).

 

 

11. Поисковые системы. Контекстный поиск. Язык поискового запроса.

Дата: 2019-03-06, просмотров: 300.