Зачем нужен национальный корпус?
Поможем в ✍️ написании учебной работы
Поможем с курсовой, контрольной, дипломной, рефератом, отчетом по практике, научно-исследовательской и любой другой работой

Прежде всего, необходимо пояснить, что такое корпус вообще и Национальный корпус в частности.

 Корпус некоторого языка — это, в первом приближении, собрание текстов на данном языке, представленное в электронной форме и снабженное научным аппаратом. Аппарат, «встроенный» в корпус, обычно называется «разметкой», или «аннотацией», корпуса. Корпус тем лучше, чем полнее и совершеннее его аннотация. Собственно, наука о корпусах — это прежде всего наука о том, как сделать хорошую разметку корпуса.

Хорошая разметка, в частности, позволяет быстро и эффективно найти в корпусе те слова, формы и конструкции, которые нужны исследователю. Ведь в обычном тексте нет никаких сведений, например, о грамматической характеристике входящих в него слов. Если нам нужно найти просто слово (например, слово диван во всех его формах), то с этой задачей неплохо справится и обычный текстовый редактор: достаточно написать в окне поиска цепочку букв ДИВАН, и результат окажется вполне приемлемым. Несколько хуже, правда, дело будет обстоять в том случае, если мы захотим искать, например, все формы русского слова рожь. У этого слова есть беглая гласная, поэтому в некоторых формах его основа выглядит как РОЖ-, а в некоторых — как РЖ-. Но если мы напишем в окне поиска только эти две буквы (РЖ), результат окажется неприемлемым: слишком много других русских слов тоже начинаются на РЖ- (ржавый, ржаветь, ржать, Ржев и т. п.). Стало быть, программа поиска должна понимать как минимум то, какие формы в тексте относятся к одному и тому же слову (например, ржи и рожью, но не ржал и Ржев), т. е. хотя бы частично «понимать» грамматическую структуру данного языка.

Тем более это понимание необходимо, если мы хотим искать не слова, а формы. Представим себе такую задачу: найти в достаточно длинном тексте все формы дательного падежа единственного числа. Текстовый редактор с этой задачей вряд ли справится. Для того чтобы грамматические формы можно было автоматически найти в тексте, этот текст как раз и необходимо предварительно разметить. Иначе поиск возможен только вручную, а это процедура долгая и трудоемкая.

Это только один, самый простой пример, который показывает, для чего может быть нужна разметка. На самом деле, хорошо размеченный текст оказывается бесценным для специалиста. Ведь в своей исследовательской работе лингвисты зависят, прежде всего, от количества и качества собранного материала. У многих еще свежи в памяти те времена, когда примеры выписывались из текста и заносились на карточки. Сейчас карточки ушли в прошлое, но сама процедура выбора примеров из текста делается человеком и с трудом поддается автоматизации. Размеченные корпуса — первый серьезный инструмент, позволяющий существенно ускорить и упростить эту процедуру. Иными словами, то, на что у исследователей предшествующих поколений уходили недели, а то и месяцы напряженного труда, с помощью корпуса можно сделать за минуты.

 

 

Национальный корпус предназначен в первую очередь для обеспечения научных исследований лексики и грамматики языка, а также тонких, но непрерывных процессов языковых изменений, происходящих в языке на протяжении сравнительно небольших периодов — от одного до двух столетий. Другая задача корпуса — предоставление всевозможных справок, относящихся к указанным областям (лексика, грамматика, акцентология, история языка). Современные компьютерные технологии многократно упрощают и ускоряют процедуры лингвистической обработки больших массивов текстов. Раньше исследователь мог лишь просматривать тексты и вручную выписывать из них нужные примеры; эта предварительная (но абсолютно неизбежная) деятельность была очень трудоемкой и не позволяла обрабатывать большие массивы материала. Теперь ограничений на объем анализируемого материала и скорость поиска информации в нем по существу нет, а это означает, что в распоряжении исследователя оказываются колоссальные массивы текстов самого разного типа. Это не замедлило сказаться на развитии наших знаний о языке: возможность массовой — в том числе статистической — обработки текстов, недоступная прежде, позволила обнаружить в структуре и развитии языка такие закономерности, о существовании которых наука раньше или не подозревала, или лишь смутно догадывалась, но не могла строго обосновать. Теперь подлинно научные описания грамматического строя языков, а также авторитетные академические словари — практически все без исключений — должны составляться на основе корпусов этих языков. Учет корпусных данных оказывается крайне желательным (если не строго обязательным) и при многих других более специальных научных исследованиях.

 

С этой точки зрения основными потребителями национальных корпусов являются, конечно, исследователи-лингвисты самого разного профиля. Однако круг пользователей корпуса вовсе не ограничивается профессиональными исследователями языка. Надежные статистические данные о языке определенной эпохи или определенного автора могут интересовать литературоведов, историков и представителей многих других областей гуманитарного знания. Важное значение национальные корпуса имеют и для преподавания языка в качестве родного или иностранного; всё больше учебников и учебных программ в наше время оказываются ориентированы на корпус. Быстро и эффективно проверить с помощью корпуса особенности употребления незнакомого слова или грамматической формы у авторитетных авторов сможет и иностранец, и школьник, и учитель, и журналист, и редактор, и писатель. Таким образом, национальный корпус обращен ко всем, кто в силу профессии, по необходимости или из простой любознательности ищет ответ на вопросы об устройстве и функционировании языка, то есть фактически к большинству образованных носителей этого языка и ко всем, изучающим его в качестве иностранного.

Дата: 2019-12-22, просмотров: 225.