Глава 3. Частотные словари

Для нужд лексико-статистических исследований используются частотные словари. В качестве единиц этих словарей могут быть использованы либо словоформы (агглютинативные конструкции), либо исходные формы слов.

Различаются следующие типы частотных словарей:

1) алфавитно - частотный словарь словоформ и слов;

2) обратно - частотный словарь словоформ и слов;

3) ранговый частотный словарь словоформ и слов.

Алфавитно-частотные словари можно разделить на три вида.

В словаре первого вида при каждом слове может указываться только суммарная частота встречаемости слова или словоформы в исследуемом тексте. Такой частотный словарь будем именовать алфавитно-частотным словарем слов (словоформ).

В словаре второго вида при каждом слове или словоформе могут даваться номера страниц и источников. Такой вид словаря будем называть алфавитно-частотным словарем-словоуказателем (конкордансом).

В словаре третьего вида помимо указания на суммарную частоту и ее распределение по источникам (или страницам) приводится толкование слова. Такой частотный словарь будем называть алфавитно-частотным толковым словарем. К этому виду относятся частотные словари, составленные по произведениям отдельных авторов.

Последние два вида словарей составляются обычно относительно слов.

Частотный словарь, построенный по алфавиту концов слов или словоформ, будем называть обратно - частотным словарем.

Частотный словарь, упорядоченный по убыванию или по возрастанию частот, назовем ранговым частотным словарем слов (словоформ). В дальнейшем вместо термина ранговый частотный словарь будем употреблять термин частотный словарь.

Можно использовать и другие приемы упорядочения лексики, например, упорядочение по длине словоформ или слов.

Основным объектом нашего анализа выступает частотный словарь лексики, который является той статистической моделью, с помощью которой описываются распределения вероятностей отдельных лексических единиц.

В частотных словарях рядом с лексической единицей обычно даются и квантитативные характеристики.

Для исследования статистической структуры текста особо важную роль играет рассмотрение вместо самого частотного словаря лексики его спектров, в которых указаны статистические и информационные характеристики:

1) абсолютная частота ( ),