Добавил:

Wehif Опубликованный материал нарушает ваши авторские права? Сообщите нам.

Вуз:

Белорусский государственный университет информатики и радиоэлектроники

Предмет:

[НЕСОРТИРОВАННОЕ]

Файл:

dissa2 old.docx

Скачиваний:

Добавлен:

12.06.2018

Размер:

790.09 Кб

Скачать

☆

<<< < Предыдущая 1 2 3 4 56 / 176 7 8 9 10 11 12 13 14 15 16 17 > Следующая >>>

3.3.3 Взвешивание термов с использованием статистических мер

Один из популярных методов представить вес терма – метод TF-IDF. Вес вычисляется специальной весовой функцией. Ниже приведены возможные её варианты:

TF (term frequency – частота терма)– отношение числа вхождения некоторого терма к общему количеству термов документа. Таким образом, оценивается важность термав пределах отдельного документа. [14]

Пусть – число вхождений термав документ. Тогда частота терма определяется как:

где.

IDF (inverse document frequency –обратная частота документа)– инверсия частоты, с которой некоторое слово встречается в документах коллекции. Учёт IDF уменьшает вес широкоупотребительных слов. Для каждого уникального слова в пределах конкретной коллекции документов существует только одно значение IDF. [14]

где |D|– количество документов в коллекции,– количество документов, в которых встречается(когда) ,.

TF-IDF– статистическая мера, используемая для оценки важности слова в контексте документа, являющегося частью коллекции документов или корпуса. Вес некоторого слова пропорционален количеству употребления этого слова в документе и обратно пропорционален частоте употребления слова в других документах коллекции. [14]

3.3.4 Перевод текста в векторное представление

Большинство современных алгоритмов машинного обучения ориентированы на признаковое описание объектов, поэтому все документы обычно переводят в вещественное пространство признаков. Для этого используют идею о том, что за принадлежность документа к некоторому классу отвечают слова, а тексты из одного класса будут использовать много схожих слов.

Наиболее известные способы, позволяющие осуществить перевод текста в пространство признаков, основаны на статистической информации о словах. При их использовании каждый объект переводится в вектор, длина которого равна количеству используемых слов во всех текстах выборки

Bag of Words

Bag of Words [3](мешок слов) – модель перевода текста в векторное представление. Основное предположение данного метода – порядок слов в документе не важен, а коллекцию документов можно рассматривать как простую выборку пар «документ–слово» , где. В Bag of Words все документы представляются в виде матрицы, каждая строка в которой соответствует отдельному документу или тексту, а каждый столбец – определенному слову. Элементсоответствует количество вхождений словаwв документd.

Bag of Words & TF IDF

Это наиболее популярный способ перевода текста в векторное представление. Как и в методе Bag of Words все документы представляются в виде матрицы T = (t)d;w, но элемент td;w соответствует функции TF-IDF(w; d; D) слова w 2 Wd в документе d 2 D.

Bag of Ngrams & TF IDF

Часто информацию в тексте несут не только отдельные слова, но и некоторая последовательность слов. Например, фразеологизмы – устойчивые сочетание слов значение которых не определяется значением входящих в них слов, взятых по отдельности. Например, речевой оборот «Как рыба в воде» означает чувствовать себя уверенно, очень хорошо в чем-либо разбираться. Смысл данного выражения будет передан неверно, если учитывать его слова по отдельности.

Для того чтобы учесть такие особенности языка предлагается при переводе текстов в векторное представление учитывать помимо слов, N-граммы.

N-граммы[1] – это последовательности из N слов. К примеру, для текста «мама мыла раму» получаем биграммы «мама мыла» и «мыла раму». В задаче классификации текстов N-граммы являются индикаторами того, что данные N слов встретились рядом

Метод Bag of Ngrams & TF IDF аналогичен методу Bag of Words & TF IDF, только вектор признаков для каждого документа помимо TF IDF слов содержит TF IDF всех последовательностей из N слов.

Проблемы традиционного метода классификации текстов

1. Необходимо выбрать метод перевода текста в векторное представление, ведь обычно для различных задач наилучшее качество классификации показывают различные методы.

2. Полученное признаковое пространство будет иметь высокую размерность, а так же будет сильно разряженным.

3. Чаще всего для улучшения качества классификации необходимо удалить из текста стоп-слова. При удалении различного набора стоп-слов получается разный результат работы алгоритма.

4. Для применения данного метода необходимо применения стемминга или лемматизации, так как слова имеющие разное склонение несут один и тот же смысл.

В веб-иерархии документы связаны гиперссылками. Каждая категория обозначается ключевыми словами, которые указывают на пути от корня дерева к узлу, представляющего категорию. Более конкретные категории названы иными ключевыми словами с именем более общей категории, непосредственно подключенными к нему (на один уровень выше в дереве). Некоторые узлы в нижней части дерева содержат в основном гиперссылки на фактические веб-документы, в то время как другие узлы в основном содержат только ссылки на другие узлы в иерархии.

Цель иерархии - это назначение произвольному текстовому документу правильную категорию в пределах данной иерархии, как точно и как можно быстрее. Оценка системы проводится на основе списка категорий и ключевых слов, которые относятся с наибольшей вероятностью. Для обработки используется векторное представление документа, где каждая функция представляет собой последовательность слов, а не единое слово. Этот подход не ограничивается веб-иерархией и может быть применен в других иерархиях.

<<< < Предыдущая 1 2 3 4 56 / 176 7 8 9 10 11 12 13 14 15 16 17 > Следующая >>>

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]

#
05.06.20182.07 Mб2201803.pdf
#
12.06.201815.92 Кб23.docx
#
05.06.201822.78 Mб1budg_konsolid_2018_1.pdf
#
27.12.2018724.95 Кб3Crack.7z2w
#
12.06.2018790.09 Кб27dissa2 old.docx
#
12.06.2018896.17 Кб57dissa2.docx
#
14.06.2018904.56 Кб40dissa3.docx
#
19.06.2018909.94 Кб21dissa4.docx
#
19.06.2018912.16 Кб22dissa5.docx
#
20.06.2018906.83 Кб47dissa6.docx