Технология машинного обучения как основа современной лингвистической технологии. Технология автоматического извлечения данных и ее разновидности

Машинное обучение — обширный подраздел искусственного интеллекта, изучающий методы построения алгоритмов, способных обучаться. Различают два типа обучения. Обучение по прецедентам, или индуктивное обучение, основано на выявлении закономерностей в эмпирических данных. Дедуктивное обучение предполагает формализацию знаний экспертов и их перенос в компьютер в виде базы знаний. Дедуктивное обучение принято относить к области экспертных систем, поэтому термины машинное обучение и обучение по прецедентам можно считать синонимами.

Машинное обучение находится на стыке математической статистики, методов оптимизации и дискретной математики, но имеет также и собственную специфику, связанную с проблемами вычислительной эффективности и переобучения. Многие методы индуктивного обучения разрабатывались как альтернатива классическим статистическим подходам. Многие методы тесно связаны с извлечением информации, интеллектуальным анализом данных (Data Mining).

Способы машинного обучения

Так как раздел машинного обучения, с одной стороны, образовался в результате разделения науки о нейросетях на методы обучения сетей и виды топологий архитектуры сетей, а с другой, вобрал в себя методы математической статистики, то указанные ниже способы машинного обучения исходят из нейросетей. То есть базовые виды нейросетей, такие как перцептрон имногослойный перцептрон (а также их модификации) могут обучаться как с учителем, без учителя, с подкреплением, и активно. Но некоторые нейросети и большинство статистических методов можно отнести только к одному из способов обучения. Поэтому если нужно классифицировать методы машинного обучения в зависимости от способа обучения, то, касательно нейросетей, не корректно их относить к определенному виду, а правильнее классифицировать алгоритмы обучения нейронных сетей.

Обучение с учителем — для каждого прецедента задаётся пара «ситуация, требуемое решение»:

Метод коррекции ошибки
Метод обратного распространения ошибки

Обучение без учителя — для каждого прецедента задаётся только «ситуация», требуется сгруппировать объекты в кластеры, используя данные о попарном сходстве объектов, и/или понизить размерность данных:

Альфа-система подкрепления
Гамма-система подкрепления
Метод ближайших соседей

Обучение с подкреплением — для каждого прецедента имеется пара «ситуация, принятое решение»:

Генетический алгоритм.

Активное обучение — отличается тем, что обучаемый алгоритм имеет возможность самостоятельно назначать следующую исследуемую ситуацию, на которой станет известен верный ответ:
Обучение с частичным привлечением учителя (semi-supervised learning) — для части прецедентов задается пара «ситуация, требуемое решение», а для части — только «ситуация»
Трансдуктивное обучение (transduction) — обучение с частичным привлечением учителя, когда прогноз предполагается делать только для прецедентов из тестовой выборки
Многозадачное обучение (multi-task learning) — одновременное обучение группе взаимосвязанных задач, для каждой из которых задаются свои пары «ситуация, требуемое решение»
Многовариантное обучение (multiple-instance learning) — обучение, когда прецеденты могут быть объединены в группы, в каждой из которых для всех прецедентов имеется «ситуация», но только для одного из них (причем, неизвестно какого) имеется пара «ситуация, требуемое решение»

Классические задачи решаемые с помощью машинного обучения

Классификация как правило, выполняется с помощью обучения с учителем на этапе собственно обучения.
Кластеризация как правило, выполняется с помощью обучения без учителя
Регрессия как правило, выполняется с помощью обучения с учителем на этапе тестирования, является частным случаемзадач прогнозирования.
Понижение размерности данных и их визуализация выполняется с помощью обучения без учителя
Восстановление плотности распределения вероятности по набору данных
Одноклассовая классификация и выявление новизны
Построение ранговых зависимостей

Типы входных данных при обучении

Признаковое описание объектов — наиболее распространённый случай.
Описание взаимоотношений между объектами, чаще всего отношения попарного сходства, выражаемые при помощи матрицы расстояний, ядер либо графа данных
Временной ряд или сигнал.
Изображение или видеоряд.

Кореференция – соотнесенность (компьютер и ЭВМ – кооферентные понятия)

Автоматическое извлечение данных – это процедура получения из массива какой-либо информации каких-либо данных.

Биоинформатика (NLP – изучение структуры ДНК с целью нахождения рака; автоматическое построение тезаурусов по медицинской тематике).

Автоматическое извлечение мнений занимается определением отношения автора текста к описываемой в тексте проблеме, явлению или событию.

Анализ субъективности; используется термин в общей теории искусственного интеллекта; сентимент – анализ, термин из области обработки естественного языка NLP; opinion mining – термин из области информационного поиска.

Области применения: 1) информационный поиск 2) технология detection 3) борьба со спамом 4) анализ качества продукции

5) government intelligence (службы, близкие к разведке).

2. Кластеризация документов – это процесс обнаружения естественных групп в коллекции документов/автоматическое разбиение элементов некоторого множества из группы в зависимости от их схожести. Такие группы называются кластерами. Применяется для анализа данных, извлечения и поиска информации и для группировки и распознавания объектов.

Типы кластеризации:

Восходящая/нисходящая кластеризации (hierarcical / partitional)
- Исключающая, перекрывающая и нечеткая кластеризации (exclusive / overlapping)
- Полная и частичная кластеризации (complete / partial clustering)

Восходящая/нисходящая кластеризация

Иерархическая кластеризация (восходящая) - допускаем наличие подкластеров, осуществляется в несколько приемов, в результате образуется в иерархическое дерево (дендрограмму).
Нисходящая (плоская) кластеризация - предполагает разделение на кластеры сразу, причем один объект относится только к одному кластеру.

Исключающая, перекрывающая и нечеткая кластеризации

Исключающая – каждый объект может быть отнесен только к одному кластеру
Перекрывающая - используется, если объект принадлежит к нескольким группам или находится между двумя кластерами.
Нечеткая или вероятностные кластеризации являются частными случаями перекрывающей кластеризации. Тогда каждый объект относится к кластеру с определенным весом или вероятностью. Например, вес от 0 до1, где 0 – абсолютно не принадлежит, 1 – полностью принадлежит.

Полная и частичная кластеризации (complete/ partial)

Метод полной кластеризации - каждый объект обязательно относится к кластеру
Частичная кластеризация –некоторые объекты не принадлежат к четко определенным группам, поскольку могут являться выбросами, шумами и т.п.

<<< < Предыдущая 1 23 / 43 4 > Следующая >>>

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]

#
03.08.2019116.7 Кб67The Word-Group.rtf
#
14.09.201970.19 Кб17trening_-put_k_garmonii.docx
#
23.09.201931.33 Кб7VED_32_33.docx
#
24.03.2015693.41 Кб124Verbals.pdf
#
14.11.2019391.68 Кб106Vocab in Use 1 term.doc
#
24.09.201944.41 Кб37vopros1-5.docx
#
24.09.20192.83 Mб6Voprosy_30_32_36_38_40.docx
#
26.11.2019326.14 Кб5Voprosy_ekonomika_organizatsii.doc
#
08.03.2016128.42 Кб136Voprosy_po_gos-vu.docx
#
25.09.2019470.02 Кб46Voprosy_po_IGPZS.doc
#
30.07.2019271.87 Кб11Voprosy_po_kursu_obshaya_psihologia.doc