Как развивается Национальный корпус?
Поможем в ✍️ написании учебной работы
Поможем с курсовой, контрольной, дипломной, рефератом, отчетом по практике, научно-исследовательской и любой другой работой

Национальный корпус русского языка охватывает, прежде всего, период от середины XVIII до начала XXI века: этот период представляет как язык предшествующих эпох, так и современный, в разных социолингвистических вариантах — литературном, разговорном, просторечном, отчасти диалектном. В корпус включаются оригинальные (непереводные) произведения художественной литературы (проза и драматургия, в дальнейшем также поэзия), имеющие культурную значимость, а также представляющие интерес с точки зрения языка. Но Национальный корпус ни в коей мере не является только корпусом языка художественной литературы. Помимо художественных текстов, в корпус в большом количестве включаются и другие образцы письменного (а для современного этапа — и устного) языка: мемуары, эссеистика, публицистика, научно-популярная и научная литература, публичные выступления, частная переписка, дневники, документы и т. п.

Именно поэтому Национальный корпус русского языка не ограничивается, например, только произведениями художественной литературы, сколь бы важны они ни были для изучения русского языка. Он содержит и газетные, и журнальные статьи разной тематики (от общественно-политических до спортивных), и специальные тексты (научные, научно-популярные и учебные по разным отраслям знания), и рекламу, и частную переписку, и дневники. В корпус попадают образцы практически любого существующего в русском языке письменного дискурса: от статьи современного музыкального критика до инструкции по уходу за кактусами. Более того, составители корпуса хорошо понимали, что для полного и адекватного представления о том, что происходит в современном русском языке необходимо еще в большей степени расширить рамки корпуса и включить в него, наряду с письменными текстами, также и записи устной речи. В настоящее время эта работа ведется.

Здесь нельзя не сказать еще об одном типе текстов, активно используемых в Корпусе уже на данном этапе работы. Это тексты так называемой «электронной коммуникации»: переписка по электронной почте, а также всевозможные чаты, форумы, общедоступные электронные дневники и др. В такого рода текстах мы имеем дело фактически со спонтанным письменным самовыражением, дающим очень своеобразный гибрид устной и письменной речи. Конечно, даже в форумах и блогах люди продолжают писать не совсем так, как говорят, но дистанция между письменной и устной речью здесь во много раз меньше. Этим электронная коммуникация и привлекательна для лингвистов: какие-то языковые явления встречаются только или преимущественно в данных текстах. Впрочем, нельзя не заметить, что тексты электронной коммуникации наиболее сложны для обработки и разметки, потому что пишущие в сетевой среде чувствуют себя более свободно не только в отношении языка, но и в отношении норм общепринятой орфографии. Орфографическая вариативность электронных текстов возрастает на порядок, в них широким потоком вливаются разговорные дублеты, произносимые на месте литературных, но обычно не отражаемые на письме — такие, как ща (и щас), сёдни, чё, тока, ваще, кто-нить — и многое другое (русистам давно известное). Интересно, что пишущие часто прибегают к искажению орфографии сознательно, в целях языковой игры. Более того, кажется, что массовые игры с орфографией (которые заслуживали бы отдельного обстоятельного рассказа) как раз и возникли именно в электронной среде как специфическое средство выразительности — если угодно, художественный прием. Существует даже специальная мода, вышедшая из нескольких сетевых сообществ и распространившаяся по всему русскому Интернету (например, орфографические клише типа пеши исчо или аффтар) — своеобразный код, по которому посвященные узнают друг друга. Но, конечно, привлекают электронные тексты далеко не только своей орфографией и раскованным синтаксисом, но и лексикой. Это (если не считать некоторых молодежных периодических изданий) один из самых надежных источников для изучения современного сленга. Где еще можно в таком количестве (и в таких естественных контекстах) встретить всевозможные рулит, зажигает, не катит, колбасит, тащится и т. д.

Из сказанного выше видно, что национальные корпусы активно используют электронные тексты. Это также одна из причин того, почему в Национальном корпусе русского языка художественные тексты представлены в большом количестве, но не доминируют. Интересно, что в корпусах европейских языков эта доля еще более низкая и, как правило, не превышает 20 процентов, так что Национальный корпус русского языка все равно остается одним из самых «литературоцентричных».

Все это позволяет любому человеку искать любые слова или сочетания слов в определенной грамматической форме или просто определенные грамматические формы. Говоря техническим языком, возможен поиск по морфологическим параметрам. Кроме того, поиск возможен не только по всему корпусу, но и по определенному подмножеству текстов, выбранному пользователем: например, тексты определенного автора, определенного периода, определенного жанра и т. п. (в любых комбинациях: например, тексты о спорте, написанные женщинами после 1995 года).

 

Национальный корпус русского языка в настоящее время включает следующие подкорпуса:

· глубоко аннотированный корпус, в котором для каждого предложения построена полная морфологическая и синтаксическая структура (дерево зависимостей);

· параллельный русско-английский корпус текстов, в котором можно найти все переводы для определенного русского или английского слова или словосочетания;

· корпус диалектных текстов, включающий запись диалектной речи различных регионов России с сохранением их грамматической специфики; предусмотрен специальный поиск с учётом диалектной морфологии;

· корпус поэтических текстов, в котором возможен поиск не только по лексическим и грамматическим, но и по специфическим для стиха признакам (поиск определённого сочетания в сонетах, в эпиграммах, в стихотворениях, написанных амфибрахием, с определённым типом рифмовки и т. п.);

· обучающий корпус русского языка — корпус со снятой омонимией, разметка которого ориентирована на школьную программу русского языка;

· корпус устной речи - включает расшифровки магнитофонных записей публичной и частной устной речи, а также транскрипты кинофильмов 1930-2000-х годов.

Дата: 2019-12-22, просмотров: 226.