- •Компьютерная лингвистика, ее разделы и направления. Структура кл. Кл и аот
- •Автоматическое аннотирование и реферирование текстов. Формулировка задачи автоматического реферирования и аннотирования
- •Технология машинного обучения как основа современной лингвистической технологии. Технология автоматического извлечения данных и ее разновидности
- •Структура системы распознавания речевого сигнала. Лингвистическое обеспечение системы распознавания речи
- •Синтез речи. Лингвистическое обеспечение систем синтеза речи
Технология машинного обучения как основа современной лингвистической технологии. Технология автоматического извлечения данных и ее разновидности
Машинное обучение — обширный подраздел искусственного интеллекта, изучающий методы построения алгоритмов, способных обучаться. Различают два типа обучения. Обучение по прецедентам, или индуктивное обучение, основано на выявлении закономерностей в эмпирических данных. Дедуктивное обучение предполагает формализацию знаний экспертов и их перенос в компьютер в виде базы знаний. Дедуктивное обучение принято относить к области экспертных систем, поэтому термины машинное обучение и обучение по прецедентам можно считать синонимами.
Машинное обучение находится на стыке математической статистики, методов оптимизации и дискретной математики, но имеет также и собственную специфику, связанную с проблемами вычислительной эффективности и переобучения. Многие методы индуктивного обучения разрабатывались как альтернатива классическим статистическим подходам. Многие методы тесно связаны с извлечением информации, интеллектуальным анализом данных (Data Mining).
Способы машинного обучения
Так как раздел машинного обучения, с одной стороны, образовался в результате разделения науки о нейросетях на методы обучения сетей и виды топологий архитектуры сетей, а с другой, вобрал в себя методы математической статистики, то указанные ниже способы машинного обучения исходят из нейросетей. То есть базовые виды нейросетей, такие как перцептрон имногослойный перцептрон (а также их модификации) могут обучаться как с учителем, без учителя, с подкреплением, и активно. Но некоторые нейросети и большинство статистических методов можно отнести только к одному из способов обучения. Поэтому если нужно классифицировать методы машинного обучения в зависимости от способа обучения, то, касательно нейросетей, не корректно их относить к определенному виду, а правильнее классифицировать алгоритмы обучения нейронных сетей.
Обучение с учителем — для каждого прецедента задаётся пара «ситуация, требуемое решение»:
Метод коррекции ошибки
Метод обратного распространения ошибки
Обучение без учителя — для каждого прецедента задаётся только «ситуация», требуется сгруппировать объекты в кластеры, используя данные о попарном сходстве объектов, и/или понизить размерность данных:
Альфа-система подкрепления
Гамма-система подкрепления
Метод ближайших соседей
Обучение с подкреплением — для каждого прецедента имеется пара «ситуация, принятое решение»:
Генетический алгоритм.
Активное обучение — отличается тем, что обучаемый алгоритм имеет возможность самостоятельно назначать следующую исследуемую ситуацию, на которой станет известен верный ответ:
Обучение с частичным привлечением учителя (semi-supervised learning) — для части прецедентов задается пара «ситуация, требуемое решение», а для части — только «ситуация»
Трансдуктивное обучение (transduction) — обучение с частичным привлечением учителя, когда прогноз предполагается делать только для прецедентов из тестовой выборки
Многозадачное обучение (multi-task learning) — одновременное обучение группе взаимосвязанных задач, для каждой из которых задаются свои пары «ситуация, требуемое решение»
Многовариантное обучение (multiple-instance learning) — обучение, когда прецеденты могут быть объединены в группы, в каждой из которых для всех прецедентов имеется «ситуация», но только для одного из них (причем, неизвестно какого) имеется пара «ситуация, требуемое решение»
Классические задачи решаемые с помощью машинного обучения
Классификация как правило, выполняется с помощью обучения с учителем на этапе собственно обучения.
Кластеризация как правило, выполняется с помощью обучения без учителя
Регрессия как правило, выполняется с помощью обучения с учителем на этапе тестирования, является частным случаемзадач прогнозирования.
Понижение размерности данных и их визуализация выполняется с помощью обучения без учителя
Восстановление плотности распределения вероятности по набору данных
Одноклассовая классификация и выявление новизны
Построение ранговых зависимостей
Типы входных данных при обучении
Признаковое описание объектов — наиболее распространённый случай.
Описание взаимоотношений между объектами, чаще всего отношения попарного сходства, выражаемые при помощи матрицы расстояний, ядер либо графа данных
Временной ряд или сигнал.
Изображение или видеоряд.
Кореференция – соотнесенность (компьютер и ЭВМ – кооферентные понятия)
Автоматическое извлечение данных – это процедура получения из массива какой-либо информации каких-либо данных.
Биоинформатика (NLP – изучение структуры ДНК с целью нахождения рака; автоматическое построение тезаурусов по медицинской тематике).
Автоматическое извлечение мнений занимается определением отношения автора текста к описываемой в тексте проблеме, явлению или событию.
Анализ субъективности; используется термин в общей теории искусственного интеллекта; сентимент – анализ, термин из области обработки естественного языка NLP; opinion mining – термин из области информационного поиска.
Области применения: 1) информационный поиск 2) технология detection 3) борьба со спамом 4) анализ качества продукции
5) government intelligence (службы, близкие к разведке).
2. Кластеризация документов – это процесс обнаружения естественных групп в коллекции документов/автоматическое разбиение элементов некоторого множества из группы в зависимости от их схожести. Такие группы называются кластерами. Применяется для анализа данных, извлечения и поиска информации и для группировки и распознавания объектов.
Типы кластеризации:
Восходящая/нисходящая кластеризации (hierarcical / partitional)
Исключающая, перекрывающая и нечеткая кластеризации (exclusive / overlapping)
Полная и частичная кластеризации (complete / partial clustering)
Восходящая/нисходящая кластеризация
Иерархическая кластеризация (восходящая) - допускаем наличие подкластеров, осуществляется в несколько приемов, в результате образуется в иерархическое дерево (дендрограмму).
Нисходящая (плоская) кластеризация - предполагает разделение на кластеры сразу, причем один объект относится только к одному кластеру.
Исключающая, перекрывающая и нечеткая кластеризации
Исключающая – каждый объект может быть отнесен только к одному кластеру
Перекрывающая - используется, если объект принадлежит к нескольким группам или находится между двумя кластерами.
Нечеткая или вероятностные кластеризации являются частными случаями перекрывающей кластеризации. Тогда каждый объект относится к кластеру с определенным весом или вероятностью. Например, вес от 0 до1, где 0 – абсолютно не принадлежит, 1 – полностью принадлежит.
Полная и частичная кластеризации (complete/ partial)
Метод полной кластеризации - каждый объект обязательно относится к кластеру
Частичная кластеризация –некоторые объекты не принадлежат к четко определенным группам, поскольку могут являться выбросами, шумами и т.п.