Ст. преподаватель Кожич П.П.
Поможем в ✍️ написании учебной работы
Поможем с курсовой, контрольной, дипломной, рефератом, отчетом по практике, научно-исследовательской и любой другой работой

Ст. преподаватель Громко Н.И

Минск – 2009 г.

 

Оглавление

Оглавление. 2

Список обозначений ко всей выпускной работе. 3

Реферат на тему «Использование ИТ в корпусных исследованиях». 4

Введение. 4

Глава 1. О содержании корпусов и возможностях использования материалов корпусов. 6

Зачем нужен национальный корпус?. 6

Как развивается Национальный корпус?. 8

Области применения корпусов. 10

Глава 2. Программные средства. 13

Программные средства. 13

О программе Mystem... 13

AOT – Автоматическая обработка текста. 13

Заключение. 14

Интернет ресурсы в предметной области исследования. 15

Действующий личный сайт в WWW (гиперссылка). 16

 

 

Список обозначений ко всей выпускной работе

НКРЯ – Национальный корпус русского языка

Реферат на тему «Использование ИТ в корпусных исследованиях»

Введение

В данной работе мы рассмотрим возможности использования национальных корпусов языков в различных исследованиях. Актуальность данной темы обусловлена стремительным развитием такой дисциплины, как корпусная лингвистика, и разработкой новых сфер её применения.

 Корпусная лингвистика — раздел языкознания, занимающийся разработкой, созданием и использованием текстовых (лингвистических) корпусов. Термин введён в употребление в 60-х годах XX века в связи с развитием практики создания корпусов, которому, начиная с 80-х, способствовало развитие вычислительной техники.

 

Лингвистическим корпусом называют собрание текстов, собранных в соответствии с определёнными принципами, размеченных по определённому стандарту и обеспеченных специализированной поисковой системой. Иногда корпусом («корпус первого порядка») называют просто любое собрание текстов, объединённых каким-то общим признаком (языком, жанром, автором, периодом создания текстов).

 

Целесообразность создания текстовых корпусов объясняется:

представлением лингвистических данных в реальном контексте;

достаточно большой представительностью данных (при большом объёме корпуса);

возможностью многократного использования единожды созданного корпуса для решения различных лингвистических задач.

 

Первым большим компьютерным корпусом считается Брауновский корпус (БК, англ. Brown Corpus, BC), который был создан в 1960-е годов в Университете Брауна и содержал 500 фрагментов текстов по 2 тысячи слов в каждом, которые были опубликованы на английском языке в США в 1961 году. В результате он задал стандарт в 1 млн словоупотреблений для создания представительных корпусов на других языках. По модели близкой к БК в 1970-е годы был создан частотный словарь русского языка Засориной, построенный на основе корпуса текстов объемом также в 1 миллион слов и включавший примерно в равной пропорции общественно-политические тексты, художественную литературу, научные и научно-популярные тексты из разных областей и драматургию. По аналогичной модели был построен и русский корпус, созданный в 1980-е годы в Университете Уппсалы, Швеция.

 

Размер в один миллион слов достаточен для лексикографического описания только самых частотных слов, поскольку слова и грамматические конструкции средней частоты встречаются по несколько раз на миллион слов (со статистической точки зрения язык является большим набором редких событий). Так, каждое из таких обыденных слов, как англ. polite (вежливый) или англ. sunshine (солнечный свет) встречается в БК всего 7 раз, выражение англ. polite letter лишь один раз, а такие устойчивые выражения как англ. polite conversation, smile, request ни разу.

 

По этим причинам, а также в связи с ростом компьютерных мощностей, способных работать с большими объемами текстов, в 1980-е годы в мире было предпринято несколько попыток создать корпуса большего размера. В Великобритании такими проектами были Банк Английского (Bank of English) и Британский Национальный Корпус (British National Corpus, BNC). В СССР таким проектом был Машинный Фонд русского языка, создававшийся по инициативе А. П. Ершова.

 

Наличие большого количества текстов в электронной форме существенно облегчило задачу создания больших представительных корпусов размером в десятки и сотни миллионов слов, но не ликвидировало проблем: сбор тысяч текстов, снятие проблем с авторскими правами, приведение всех текстов в единую форму, балансировка корпуса по темам и жанрам отнимают много времени. Представительные корпуса существуют (или разрабатываются) для немецкого, польского, чешского, словенского, финского, новогреческого, армянского, китайского, японского и других языков.

 

Национальный корпус русского языка (НКРЯ), создаваемый при РАН, содержит на сегодняшний день более 140 млн. словоупотреблений.

 

Наряду с представительными корпусами, которые охватывают большой набор жанров и функциональных стилей, в лингвистических исследованиях часто используются и оппортунистические коллекции текстов, например, газеты (часто Wall Street Journal и New York Times), новостные ленты (Рейтер), коллекции художественной литературы (Библиотека Мошкова или Проект Гутенберг).

В данной работе мы рассмотрим следующие вопросы.

1. Принципы создания корпусов, используемые в них программные средства.

2.  Возможности использования материалов корпусов в лингвистических исследованиях и в учебном процессе.

 



Дата: 2019-12-22, просмотров: 226.