Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Глазачев Дипломная Коряжма 2010.docx
Скачиваний:
19
Добавлен:
27.09.2019
Размер:
1.12 Mб
Скачать

3.1. Приемы составления частотных словарей лексики русских текстов

Составление частотных словарей требует специальной разработки методики отбора материала, наблюдения и упорядочения его по определенным исследуемым признакам.

В нашей стране и за рубежом накоплен большой опыт по ручному и автоматическому составлению частотных словарей индоевропейских и тюркских языков. Частотные словари, составленные по русскому языку, охватывают тексты общим объемом около полутора миллиона словоупотреблений.

При составлении русских частотных словарей использованы два вида организации статистического эксперимента — сплошное и выборочное исследование текста.

Сплошное обследование используется в лингвостатистике тогда, когда, во-первых, генеральная совокупность хотя и велика, но все же обозрима, во-вторых, когда необходимо учесть все употребления интересующих нас лингвистических единиц, например слов. Такая ситуация имеет место при статистическом описании языка писателя или при исследовании языка отдельного художественного произведения.

Выборочный метод инвентаризации лексических единиц текста характеризуется тем, что анализируется не весь текст, а определенная совокупность текстов, имеющая суженную тематическую направленность (подъязык). Минимальной выборкой из текстов определенного подъязыка является отрезок текста объемом в 1000 словоупотреблений. Дозировка материала для наблюдений устанавливается заранее с помощью специи листов исследуемой отрасли знания. По этой методике составлен частотный словарь современных русских газетных текстов (150 тыс. словоупотреблений), детской литературы (100 тыс. словоупотреблений), русских сказок (100 тыс. словоупотреблений), русских математических текстов (20 тыс. словоупотреблений), а также частотные словари текстов других тюркских языков.

3.2. Оценка надежности частотного словаря.

Как уже было сказано, частотные словари строятся либо на сплошном, либо на выборочном исследовании текста. Если частотный словарь построен выборочным путем, возникает вопрос, насколько получаемая статистическая я модель отражает свойства своего оригинала — в нашем случае распределены вероятностей исследуемых лексических единиц.

Ответ на этот вопрос можно получить, оценив надежность нашей модели, для чего используются не только математические, но и чист лингвистические приемы.

В частности, встает вопрос о качестве организации выборки текстов, т. е. о том, насколько стиль и тематика отобранных для статистического исследования текстов отвечают стилистика - тематическом своеобразию исследуемой разновидности языка.

Если тематические пропорции выборки соответствуют пропорциям тем в оригинале, то выборку можно считать репрезентативной. Это означает, что выборочное распределение изучаемого лингвистического признака будет достаточно близко к его распределению в генеральной (гипотетической, теоретической) совокупности. В качестве иллюстрации рассмотрим организацию выборочного отбора текстов для составления частотного словаря лексики русских газет.

Сначала весь газетный материал, включающий 500 номеров четырех газет, был распределен по жанрово-тематическим разделам. Из этих разделов было отобрано произвольно около 1090 статей, которые образовали экспериментальную выборку.

Эта выборка была разбита на 150 порций по 1000 словоупотреблений. В свою очередь, каждая из этих порций была разбита на 10 мелких выборок по 100 словоупотреблений каждая с учетом удельного веса каждого жанра и тематики.

Другой простой способ оценки качества составленного частотного словаря состоит в установлении того, насколько часто слова (словоформы) полученной списка встречаются в новых, неисследованных текстах, относящихся к той же тематике, что и ранее обследованные тексты. При этом важно определить, какой процент этих новых текстов будет покрывать единицы частотного словаря. Хотя оба эти подхода являются чисто эмпирическими и математически не строгими приемами, в целом они позволяют оценить качество частотного словаря.

С другой стороны, существуют чисто математические приемы, при помощи которых можно достаточно строго оценить достоверность полученных результатов.

К таким приемам, прежде всего можно отнести:

а) определение объема выборки и нижнего порога достоверности частот единиц частотного словаря;

б) определение доверительных интервалов вероятностей или математических ожиданий частот для слов (словоформ).