- •Линейные пространства векторов. Скалярное произведение. Понятие базиса и линейной независимости элементов линейного пространства. Преобразования базиса.
- •Определение матрицы. Операции с матрицами (умножение на скаляр, сложение, умножение матриц, транспонирование матриц). Обратная матрица и методы ее получения. Функции от матриц.
- •Производные. Необходимое и достаточное условие дифференцируемости функции. Частные производные. Полный дифференциал. Производная и дифференциал сложной функции.
- •Градиент функции. Производные по направлению. Необходимые и достаточные условия экстремума функции многих переменных. Условные экстремумы. Метод множителей Лагранжа.
- •Задачи аппроксимации функций (интерполяция, экстраполяция, приближение в среднем). Способы построения интерполяционного полинома. Аппроксимации на основе ортогональных базисов. Понятие сплайна.
- •Численные методы оптимизации: методы Ньютона и секущей, методы покоординатного и градиентного спуска. Улучшение сходимости градиентных методов.
- •Численные методы оптимизации, основанные на случайных числах. Метод Монте-Карло, линейный случайный поиск, метод оптимизации отжигом.
- •Прямые и итерационные методы решения систем линейных алгебраических уравнений. Методы для систем с матрицами специального вида (ленточные, треугольные, положительно-определенные).
- •Линейные пространства функций (примеры). Скалярное произведение и норма. Операторы над линейными пространствами функций. Функционалы. Собственные числа и функции оператора в пространстве l2.
- •Определение вероятности. Вероятностная модель и вероятностное пространство. Вероятность случайного события и методы ее статистического оценивания по выборке.
- •Модель случайной величины. Закон, функция, плотность распределения. Квантили и моменты распределений, методы их статистического оценивания по выборке.
- •Вероятностные и толерантные интервалы: сходства и различия. Понятия точечного и интервального оценивания. Доверительные интервалы. Несмещенные и эффективные оценки.
- •Параметрическое оценивание распределений случайной величины. Метод моментов. Метод наибольшего правдоподобия и его численная реализация. Способы проверки качества параметрического оценивания.
- •Статистические гипотезы и статистические критерии. Односторонние и двусторонние критерии. Критерии согласия. Параметрические критерии. Ошибки первого и второго рода. Мощность критерия.
- •Модель многомерной случайной величины. Совместные и условные распределения. Условные моменты распределений и их оценивание по выборке. Многомерное распределение Гаусса и его свойства.
- •Случайные процессы и временные ряды. Понятие стационарности. Ковариационная (корреляционная функция). Теорема Карунена-Лоэва. Спектральная плотность случайных процессов.
- •Алгоритмы на графах. Алгоритмы обхода (поиска на) графах. Обнаружение кратчайшего пути и минимального цикла в графе. Построение остовного дерева.
- •Основные понятия машинного обучения. Отличие машинного обучения от статистики. Методы на обучении с учителем. Методы на обучении без учителя. Метрики качества алгоритмов машинного обучения.
- •Цикл обучения. Понятия обучающей и тестовой выборки. Отложенная выборка. Кросс-валидация. Понятия недообучения и переобучения. Дилемма смещения и разброса. Размерность Вапника-Червоненкиса.
- •Понятия классификации и кластеризации. Метрические, иерархические, вероятностные методы классификации и кластеризации. Dbscan и kNn. Оценка качества классификации и кластеризации.
- •Понятие искусственной нейронной сети. Типы нейронных сетей. Понятие стохастического градиента для обучения нейронной сети. Многослойный перцептрон. Сверточные нейронные сети.
- •Методы снижения размерности данных. Метод главных компонент. Метод канонических корреляций. Методы факторного анализа. Нелинейные методы снижения размерности.
- •Принцип повышения размерности пространства. Метод опорных векторов. Понятие и свойства ядра. Метод Kernel-Trick.
- •Построение списка решений и дерева решений. Редукция деревьев решений. Понятие бэггинга и бустинга для деревьев решений. Случайный лес и способы его построения.
- •Обучение с подкреплением. Модели агентов и отклика среды. Задачи, решаемые обучением с подкреплением.
- •Ассоциативный анализ и задача о "покупательской корзине". Алгоритмы аprior и fp-Growth.
- •Способы представления знаний. Модели графов знаний. Полнота графов знаний. Методы прямого и обратного вывода по графам знаний. Онтологическая модель и средства ее реализации.
- •Экспертные методы в принятии решений. Принятие решений при многих критериях. Множество Парето. Экспертные системы поддержки принятия решений.
- •Методы машинного обучения для анализа текстовой информации. Понятие эмбеддинга. Методы построения и использования эмбеддингов при работе с текстом.
- •Генеративные методы машинного обучения. Генеративно-состязательные сети. Вариационные автокодировщики. Байесовские сети. Принципы работы, оценка качества.
Ассоциативный анализ и задача о "покупательской корзине". Алгоритмы аprior и fp-Growth.
Ассоциативный анализ и задача о "покупательской корзине".
Ассоциативный анализ – это метод анализа данных, который позволяет исследовать связи между различными элементами или событиями. Он основан на концепции ассоциативных правил, которые определяют частоту появления одних элементов вместе с другими.
Задача "покупательской корзины" является одной из наиболее распространенных задач ассоциативного анализа. Она заключается в исследовании покупок клиентов в магазине для выявления ассоциаций между товарами.
Процесс анализа покупательской корзины обычно включает следующие шаги:
Подготовка данных. Сначала необходимо собрать данные о покупках клиентов, включая информацию о товарах, которые они купили. Данные могут быть представлены в виде таблицы, где каждая строка соответствует отдельной покупке, а столбцы содержат информацию о товарах.
Поиск частых наборов товаров. Затем проводится поиск частых наборов товаров, то есть комбинаций товаров, которые часто покупаются вместе. Для этого используется алгоритм под названием Apriori или FP-Growth. Частые наборы товаров могут быть представлены в виде ассоциативных правил.
Выявление ассоциативных правил. После нахождения частых наборов товаров можно выявить ассоциативные правила, которые показывают связь между товарами. Ассоциативное правило обычно имеет вид "Если покупают товар A, то часто покупают товар B". Ассоциативные правила могут быть оценены по метрикам, таким как поддержка (частота появления правила в данных) и достоверность (вероятность, что правило соблюдается).
Интерпретация результатов. Последний шаг заключается в интерпретации результатов анализа. Найденные ассоциативные правила могут быть использованы для различных целей, таких как рекомендации покупателям, оптимизация размещения товаров на полках или планирование акций и скидок.
Алгоритм Aprior и алгоритм FP-Growth являются двумя основными алгоритмами, используемыми в ассоциативном анализе для поиска частых наборов товаров.
Алгоритм Aprior:
Алгоритм начинает с поиска всех одноэлементных наборов товаров, которые часто встречаются в данных.
Затем происходит поиск двухэлементных наборов, состоящих из комбинаций одноэлементных наборов, найденных на предыдущем шаге.
Процесс продолжается, пока не будут найдены все частые наборы товаров заданной минимальной поддержки.
После этого генерируются ассоциативные правила на основе найденных частых наборов товаров.
Алгоритм Aprior имеет некоторые ограничения, такие как высокая вычислительная сложность из-за большого количества комбинаций, которые нужно проверить. Однако, он все равно широко используется в практике из-за своей простоты и понятности.
Алгоритм FP-Growth:
Алгоритм строит структуру данных, называемую FP-деревом (Frequent Pattern tree), которая представляет все частые наборы товаров в данных.
Затем происходит построение условного FP-дерева для каждого товара, чтобы найти все его частые наборы товаров.
Процесс повторяется рекурсивно, пока не будут найдены все частые наборы товаров заданной минимальной поддержки.
После этого генерируются ассоциативные правила на основе найденных частых наборов товаров.
Алгоритм FP-Growth имеет преимущество перед алгоритмом Apriori в том, что он требует меньше вычислительных ресурсов и времени, так как не требует генерации всех возможных комбинаций наборов товаров. Он основан на принципе конденсации (преобразовании данных в компактную форму), что делает его более эффективным для больших наборов данных.
Оба алгоритма могут быть расширены для работы с различными типами данных, такими как числа или текстовые данные. Например, можно использовать методы кодирования, такие как one-hot encoding или TF-IDF, для преобразования текстовых данных в числовой формат перед применением алгоритмов.