Buffl

ТОИ

DA
by David A.

1.  Общая схема процесса обработки информации. Основные процедуры обработки информации.

1.  Общая схема процесса обработки информации. Основные процедуры обработки информации.

Схема процесса обработки информации

Данные – факты, характеризующие объекты, явления или процессы некоторой предметной области и зафиксированные на каком-либо материальном (физическом) носителе в виде необработанных результатов измерений и наблюдений

Информация – сведения об объектах, явлениях или процессах некоторой предметной области, получаемые путем анализа и обработки данных и пригодные для принятия решений потребителем

Наблюдения – первичные данные, отражающие характеристики объектов, получаемые в процессе измерения и регистрации параметров сигналов

Признаки (дескрипторы) – особым образом отобранные первичные данные (наблюдения) или данные, полученные в результате их преобразования, которые используются для составления информативного описания объекта с точки зрения решения конкретной задачи обработки информации

Обучение — процедура получения эталонных описаний классов в рамках системы выбранных признаков, основанная на использовании совокупности обучающих (опытных) данных и априорных сведений относительно физической природы анализируемых объектов.

Состояния ­– совокупность непосредственно не наблюдаемых параметров объекта, характеризующих интересующие нас существенные свойства объекта, присущие ему в текущий момент времени и, возможно, изменяющиеся в другие моменты времени

Целевое назначение СОИ(Система обработки информации) — проведение анализа и обобщения большого объема данных, получаемых от источника, на основе решения вычислительной задачи, либо задачи принятия информационных решений.

В результате решения задачи формируется новая информация относительно прошлого, текущего или будущего состояния объекта, которая интересует потребителя.


Основные процедуры обработки информации отличаются как по функциям, так и по времени их выполнения:

  • Сбор и регистрация информации;

  • Передача информации к месту обработки;

  • Машинное кодирование информации;

  • Хранение и поиск информации;

  • Вычислительная обработка;

  • Размножение информации;

  • Принятие решений и выработка управляющих воздействий.

Образ – формализованное описание конкретного объекта в пространстве используемых признаков

Класс образов – совокупность объектов, имеющих определенное сходство, общие свойства, проявляющееся при их описании в виде образов и, соответственно, отличающихся по эти свойствам от объектов, включаемых в другие классы.

Множество классов обозначается:

Принятие решения — процедура отнесения объекта, представленного своим образом, к заданному классу или процедура определения неизвестных параметров объекта (состояний), представленного наблюдениями, основанная на использовании ранее полученной математической модели объекта или класса объектов в контексте решаемой задачи обработки информации.

2.  Классификация базовых подходов к обработке информации. Типовые задачи обработки информации и их описание.

2.  Классификация базовых подходов к обработке информации. Типовые задачи обработки информации и их описание.

2 базовых подхода, статистический и детерминистский:

Статистический подход основан на использовании для анализируемых объектов и процессов, вероятностные модели данных: плотности и функции распределения вероятностей, моменты распределений, достаточные статистики.

[В общем, если простыми словами, то статический подход использует статические модели для распознавания объектов(неожиданно, да?). Но что все-таки такое это статическая модель? Ну, это набор вероятностных характеристик. Допустим перед вами стоит задача определить изображения с кошками. Вы заранее знаете, что у кошки есть точно уши, есть хвост, есть усы и прочие атрибуты. Также коты обычно серые, рыжие и черные. Все эти характеристики по сути вероятностные. То есть с 80% допустим у кошки имеется хвост, с 90% у кошки еще будут и уши и с 1% что у неё будет красный окрас. Отлично, мы теперь можем угадывать кошек с каким-то процентом вероятности. По сути эти сведения мы получаем в результате анализа модели и тем самым строим эту статическую модель]

Детерминистский подход определяет группу разнообразных подходов и методов, в основе которых лежит отказ от использования вероятностных моделей данных. К ним можно отнести: метрический подход, нейросетевой подход, структурно-лингвистический подход и др.

[Вот читающий сидит и думает, не, это конечно все круто, а если я вообще не знаю, что такое это ваша кошка и какие у неё есть вероятностные характеристики, я что теперь задачу не решу? Не боись, разберемся. Для таких случаев есть детерминистский подход, где челы просто взяли и сказали нафиг нам ваши вероятности, мы будем юзать нейросети и метрические подходы. То есть, вместо того, чтобы строить статическую модель, вы строите нейросеть или что еще, чтобы эта приблуда училась на собственных ошибках отличать кошек]

Метрический подход базируется на использовании при построении алгоритмов АД различных метрик (функций расстояния), определяющих степень «близости» и «различия» анализируемых данных в многомерных пространствах, а также – на выдвижении определенных гипотез относительно свойств анализируемых объектов, представленных точками в многомерных пространствах

[Что можно сказать про этот подход, ну, во-первых он чать детерминистского о чем было сказано ранее, то есть мы не используем никакие вероятности и прочую теорверскую чухню, только чистые данные и только хардкор! Вместо этого мы используем так называемые меры близости. К примеру когда ты еще был мелким и твои родители решали на кого ты больше похож на маму или папу или на соседа Толика, сравнивая ширину глаз, длину носа и прочие характеристики они как раз юзали ту самую степень близости. В таком подходе запоминаются все данные и все они непосредственно используются, за примером далеко идти не надо, метод k ближайших соседей.]

Нейросетевой подход предполагает представление алгоритма АД в виде универсального преобразователя информации «вход» – «выход». Применение нейросетевых методов и алгоритмов анализа данных в СОИ предполагает обучение (тренировку) некоторой универсальной вычислительной среды для решения поставленной задачи

[Казалось бы а в чем разница между этим подходом и предыдущим. Ну, разница в том, что этот агрегат надо обучать и от этого данных подход может быть более гигачадским, что тут у нас не просто умная приблуда, а супер умная. Но ты губу не раскатывай, всему своя цена, такому типу чтобы раскрыться нужно и слоев больше(имитация работы нейронов, да да как у человека, тобишь тебя), но и данных она запросит от тебя очень и очень немало. И вот ты послушал меня и скажешь, ну даже при таких вещах мощная вещь и метрический подход теперь не нужен. Не совсем. Нейросетевой обычно используется, когда нет понятных метрик, по которым можно было бы классифицировать объекты как в предыдущем подходе, поэтому нейронка сама их ищет и подбирает их под себя и плюс не вся предоставленная информация в этом подходе имеет значение]

Структурно-лингвистический подход основан на использовании так называемых непроизводных элементов (подобразов) в качестве признаков (наблюдений) и анализе их отношений. Для этого формируется «грамматика» образов в виде иерархической структуры подобразов как лингвистических элементов.

[Открывая товар на Ozon или WB мы всегда смотрим отзывы на него. Рассмотрим абстрактный отзыв. Каждый отзыв представляет собой текст, который состоит из абзацев, предложений, слов. Этот отзыв можно синтаксически проанализировать, для определения структуры предложений и выделения ключевых фраз. Как формально можно представить этот текст? В виде дерева. Его узлами будут выступать предложения, а листьями - слова. Можно создать правило для извлечения информации, например, выделение ключевых слов ("достоинства", "недостатки", "цена", "качество"). Анализ этого отзыва можно разделить на модули. Один занимается анализом синтаксиса, другой - извлечением ключевых слов. Что может быть результатом такого подхода? Выделение общих тем, проблем, выделение часто употребляемых слов, выделение основных аспектов, которые влияют на удовлетворённость клиентов.]

Типовые задачи обработки информации:

Анализ данных (АД) — более узкое понятие, отражающее такие преобразования, которые непосредственно направлены на интеллектуальную обработку первичных данных в интересах извлечения знаний об объектах и формирования информации (вторичных обработанных данных), пригодной для принятия решений.

Основные задачи Анализа Данных при ОИ: 

  • Распознавания;

  • Кластеризации;

  • Оценивания;

  • Регрессии;

  • Установления ассоциаций.

Вспомогательные задачи АД при ОИ:

  • Отбора информативных признаков;

  • Визуализации.

Классификация задач:

  • Описательные (descriptive) – (кластеризация, ассоциация) основное внимание уделяют пониманию обрабатываемых данных. Данные удобно воспринимать человеку;

  • Предсказательные (predictive) – (классификация, регрессия и оценивание) направлены на предсказание состояний объектов. Два этапа:

    1 - на основании набора данных с известными результатами строится модель анализируемого процесса или явления.

    2 - она используется для предсказания результатов на основании новых наборов данных.

Также задачи АД делят на:

  • Обучение с учителем (supervised learning);

  • Обучение без учителя или самообучение (unsupervised learning).

Задача распознавания (классификации, различения, узнавания) состоит в отнесении некоторого объекта, описываемого совокупностью характеристик, или признаков, определяющих «образ» этого объекта, к одному из ранее выделенных классов.

[Короче говоря. В этой задаче мы соотносим объекты к уже известным классам, количество которых либо известно, либо определится в процессе обучения.Эталонное описание классов может быть получено на основе какой-то базированной мат.модели (например, вероятностной).Перед выполнением системой функций, предполагается её обучение на множестве записей обучающей выборки, а потом в результате формируются эталонные описания.Задача распознавания - задача классификации с обучением (с учителем). За примером далеко ходить не нужно, эту задачу решает ваш кент, который пересмотрел слово пацана и теперь решает в своей компании кто пацан, а кто чушпан. И перед таким индивидом стоит вопрос, а как вообще понять кто есть кто? Ну, тут все просто, либо к нему подошел какой-то старший, который детально объяснил как отличать своих от чужих, тобишь предоставил эталонные описания классов. Либо старичок уже сам должен в реальных условиях разобраться и определить эти самые эталонные описания]

Задача кластеризации состоит в разбиении некоторого множества объектов, представленных своими образами, на классы (кластеры, группы), в каждый из которых помещаются в известном смысле (по степени сходства) «близкие» образы, в то время как образы, помещаемые в различные классы, имеют существенные «отличия».

[Принципиальное отличие этой задачи от предыдущей в том, что мы мало того, что не знаем теперь на какие классы можно разбивать объекты, но мы в частых случаях не знаем, а сколько их вообще должно хотя бы быть. Но не беда, включаем еще раз пока еще не успевшие загнить мозги и понимаем, что у всех данных образов есть как и сходства, так и отличия, ну, и замечательно. Остается только отделить объекты так, чтобы те образы, которые не похожи друг на друга были бы максимально удалены, а те кто очень похож был максимально близок, чтобы можно было увидеть этакие кучки из образов. Возвращаясь к аналогии из слова чушпана здесь задача состоит в том, чтобы разделить всех беспризорников по разным группировкам и сделать так, чтобы не было ситуации, когда один образ относится к двум разным районам, за такое и избить могут]

Задача оценивания состоит в определении неизвестных характеристик объекта на основе анализа (обработки) совокупности первичных данных, представленных либо непосредственно как наблюдения, либо в виде признаков (отобранных наблюдений).

[Это тоже не менее интересная задача, как ни странно в ней вы должны ~оценивать~ данные, которые вам представленные. Прямой иллюстрацией этого процесса является анекдот про украденную корову и апельсин. А вообще эту задачу решает каждый человек и довольно часто, например когда вы летом покупаете арбуз, то постукиваете его, чтобы понять испорчен он или нет. Отличие параметрического от непараметрического оценивания в том, что в первом случае мы строим свои предположения исходя из математических распределений(например нормальное распределение), обычное такая информация дана заранее или она логично подвязана к задаче, в ином случае мы используем другие законы распределения]

Задача регрессии состоит в установлении функциональной зависимости между ожидаемыми значениями зависимых (выходных) переменных и значениями независимых (входных) переменных.

[Суть этой задачи в нахождение гигачадской формулы, которая может объяснить все. Ну, все в рамках конкретной задачи, эт ж вам не ответ аля "42" на вопрос о вселенной. Формула это в целом может быть любая как формула успеха, формула как подкатить к девушке или же формула как сдать экзамен по ТОИ, но ты губу не раскатывай, чтобы создать такие формулы нужны данные и желательно много. Поэтому обычно эти задачи актуальны как раз в тех, которые перечислила Полина, рост цен, доходов и прочей денежной волокиты, основывается это все на разных параметрах, которые изменяют коэффициенты в нашей предположенной формуле. Так что разного рода прогнозы всего, что вы когда-либо встречали это либо скам и надувательство, либо там челы реально старались и анализировали все что можно и нельзя]

Задача ассоциаций состоит в нахождении значимых связей (ассоциаций) между объектами или событиями.

Ассоциации представляются в виде определенных правил, которые могут быть использованы для объяснения природы анализируемых процессов и предсказания появления новых событий.

[Наглядный пример это умные подборки и рекомендации в разных сервисах. Если вы выбираете купить телевизор, то умная подборка даст вам ассоциацию еще к различным приблудам. То есть в этой задачи смысл в том, чтобы выстроить цепочки связей между объектами. Здесь если что мы не пытаемся отнести объект к какому-то набору(классу) уже имеющихся, чтобы потом внутри этой бригады наш объект варился. Нет, нам нужно именно создать ассоциации]

3.  Байесовская теория решений. Решающее правило на основе минимума условного риска.

3.  Байесовская теория решений. Решающее правило на основе минимума условного риска.

Байесовская теория решений

Априорная вероятность - вероятность события до наблюдения.

Априорные вероятности(до опыта) задаются для описания классов

Для описания вектора признаков каждого класса x есть функции правдоподобия классов

В соответствии с формулой Байеса

Г_i - области решений

Решающее правило на основе минимума условного риска

В процессе любых решений возникают ошибки. Они ведут к потерям, которые называются риском R

Потери задаются штрафными функциями. Это плата за принятие решений альфа_i, если класс w_j.

Лямбда - потеря или штраф за принятие правильного или неправильного решения

Вводится функция условного риска(ФУР)

Условный риск - риск который возникает при получении на вход конкретного образа, который приводит к решению альфа_i

Полученное решающее правило называется правилом минимума условного риска (МУР).

[Итог этого всего, что мы должны найти такую ситуацию для x, при которой риск потери будет наименьший. То есть ошибка при классификации у нас должна быть минимальной]


4.  Байесовская теория решений. Решающие правила на основе максимума апостериорной вероятности и функции правдоподобия.

4.  Байесовская теория решений. Решающие правила на основе максимума апостериорной вероятности и функции правдоподобия.

Байесовская теория решений

Априорные вероятности(до опыта) задаются для описания классов

Для описания вектора признаков каждого класса x есть функции правдоподобия классов

В соответствии с формулой Байеса

Г_i - области решений

Решающие правила на основе максимума апостериорной вероятности и функции правдоподобия

Важным частным случаем является использование симметричных штрафных функций с нулевой платой за правильное решение:

Тут нет рекомендаций как ошибки могут повлиять на потери, поэтому все ошибки приравниваются к 1, а плата за верное решение к 0.

Тогда выражение условного риска будет таким

Принимаем решение в пользу того класса у которого максимальная апостериорная вероятность по результатам наблюдений:

В виде системы неравенств для отношений правдоподобия:

В случае 2х классов:

l(x)-отношение ф-ций правдоподобия l_0 - некий порог

Полученные решающие правила будем называть правилами максимума апостериорной вероятности (МАВ).

Если кроме симметричности штрафных ф-ций, еще и априорные вероятности одинаковы или нам неизвестны. В этом случае правила преобразуются к виду:

Для 2х классов:

Эти алгоритмы реализуют критерий максимума правдоподобия (МП).

5.  Понятие разделяющей функции. Обобщенная структура решающего правила. Оценка ошибок.

5.  Понятие разделяющей функции. Обобщенная структура решающего правила. Оценка ошибок.

Понятие разделяющей функции.

В качестве разделяющих функций будем рассматривать набор функций

на основе которых может быть определено соответствие вектора признаков одному из классов по правилу

т.е. отнесение образа объекта к тому или иному классу осуществляются на основе выбора максимума среди соответствующих значений разделяющих функций.

Вычисляется разделяющая функция у всех классов, решение принимается в пользу того класса, у которого разделяющая функция больше, для данного образа x.

Обобщенная структура решающего правила:

В качестве разделяющей функции может использоваться:

условный риск, апостериорная вероятность, функция правдоподобия

Также разделяющей будет любая монотонно-возрастающая ф-ция

В случае 2х классов

Общий вид алгоритма классификации

Оценка ошибок

Базовыми показателями являются вероятности:

правильного распознавания объектов класса

и вероятности ошибки при распознавании класса

их связь

На их основе можем рассчитать общую суммарную ошибку распознавания

Еще можно посчитать матрицу ошибок распознавания классов

(по диагонали правильное распознавание, а в других местах перепутывание)

Если класса 2, то существуют ошибки 1го и 2го рода

Пример “разделяющие ф-ции для МАВ“

Конкретное определение представленных показателей

1ый способ:

Прямое интегрирование плотностей

на основе

и

по областям решений

Но когда размер признакового пространства больше 1, это затруднительно

2ой способ:

Проведение анализа одномерных распределений разделяющих функций

и использования приближений для построения этих распределений. Распределения используются для расчета ошибок. Для 2х классов вероятности ошибок определяются как одномерные интегралы вида:

3ий способ:

Использование принципа гарантированного результата(использование различного рода верхних границ для вероятностей ошибок)

Граница Чернова(для каждого класса в отдельности и суммарной ошибки)

t-скаляр 0<t<1

Оптимальное значение t удовлетворяет

Оценка верхней границы E_s для случая многих классов с использованием границы Чернова

4ый способ:

Проведение оценки вероятностей ошибок путем прямого статистического имитационного моделирования алгоритма распознавания, в ходе которого проводится подсчет количества возникающих ошибок и усреднение результатов по числу K выполненных реализаций моделирования.

При оценке ошибок в ходе статистического моделирования используют метод доверительных интервалов. Требуется найти число испытаний, при котором


6.  Распознавание образов, описываемых гауссовскими векторами с одинаковыми матрицами ковариации ожиданиями. Оценка ошибок.

6.  Распознавание образов, описываемых гауссовскими векторами с одинаковыми матрицами ковариации ожиданиями. Оценка ошибок.

Распознавание образов, описываемых гауссовскими векторами с одинаковыми матрицами ковариации ожиданиями.

Решающее правило

Преобразуем для логарифма отношения правдоподобия(ЛОП)

Мы видим что ЛОП у нас сводится к линейной ф-ции относительно x(x участвует 1 раз). То есть решающее правило является линейным и граница между областями решений является линейной. В многомерном пространстве - гиперплоскостью

Оценка ошибок.

В данном случае можно абсолютно точно рассчитать вероятности ошибок, используя выражение для g’’(x), так как она является линейной комбинацией ГСВ, то и имеет распределения для двух гипотез

Определим мат. ожидания и дисперсии

для второй гипотезы также, только перед 1/2 -.

Видим что плотность распределения ЛОП имеет мат ожидания h и -h имеет одинаковы дисперсии, и расположены симметрично от начала координат.

Порог l0’, определяет как принимаются решения

Из этих графиков, в частности видно, что, если априорные вероятности классов одинаковы, то, соответственно,

и имеется полная симметрия расположения плотностей распределений относительно порога.

Расчета вероятностей ошибок первого и второго рода:

синий и зеленый это ошибки 1го и 2го рода

Теперь считаем ошибки

Чем больше Махаланобисово* расстояние между классами, тем ошибка будет меньше.

Использование такой оценки допустимо при достаточно малых ошибках двухальтернативного распознавания, так как в противном случае может быть получен результат, при котором вероятности

будут иметь отрицательную нижнюю границу.

Рисунки для доп вопроса

для 3х и 4х классов


*Расстояние Махаланобиса — мера расстояния между векторами случайных величин, обобщающая понятие евклидова расстояния.

*Расстояние Махаланобиса — это просто расстояние между заданной точкой и центром масс, делённое на ширину эллипсоида в направлении заданной точки.

7.  Распознавание образов, описываемых гауссовскими векторами с различными ковариационными матрицами. Оценка ошибок.

7.  Распознавание образов, описываемых гауссовскими векторами с различными ковариационными матрицами. Оценка ошибок.

Предполагаем что матрицы ковариации различны.

Опять решающее правило

Преобразуем для логарифма отношения правдоподобия(ЛОП)

Видим что вектор признаков x, фигурирует в квадратичной форме

Значит решающее правило разделяющей ф-ции у нас уже нелинейно. Значит границы областей решений будут нелинейны.

Если попросит нарисовать

Области локализации для 2х классов и разделяющие границы между ними

а) m и C разные

б) m одинаковые, D разные

в) m одинаковые, C разные

д) m и C разные

Для 3х классов

Оценка ошибок

Возникают сложности, поскольку g’’(x) не является линейной, значит и не является гауссовской. Поэтому используются большие методы расчёта плотностей.

Но гауссовская аппроксимация в определенных случаях работает.

Считаем ЛОП

Теперь можно проводить расчеты вероятностей ошибок альфа, бета, подставляя выражения для моментов в качестве параметров соответствующих распределений g’’(x).

Второй способ оценить ошибки для 2х классов это использование верхней границы Чернова с расстоянием Бхаттачария.

И последний способ. это метод статистического моделирования. т.е. генерация большого числа примеров данных дает наиболее точный результат.

8.  Распознавание образов, описываемых произвольными законами распределения. Оценка ошибок.

8.  Распознавание образов, описываемых произвольными законами распределения. Оценка ошибок.

Случай когда распределения

не гауссовские

Предполагаем что вектор x, имеет компоненты, которые статистически независимы. Как только мы предположили эту независимость, мы получаем решающее правило, которое называется - Наивный байесовский классификатор.

Предположение о статистической независимости признаков даёт нам то, что мы эту плотность многомерную, можем представить в виде произведения одномерных плотностей

Признаки должны быть независимы или почти независимы

Главное преимущество Байесовского наивного классификатора это возможность записи в аналитическом виде произвольной одномерной плотности

описывающей поведение конкретного признака, используемого в качестве компонента вектора x.

Логарифмируем отношнение правдоподобия

и получаем отношения правдоподобия для каждого признака

Это и есть решающее правило. Наивный Байесовский классификатор.

Оценка ошибок

Предположим, что у нас g’’(x) подчиняется гауссовскому распределению и оценить моменты

Здесь сумма большого числа независимых величин, поэтому можно предполагать, что распределения гауссовское.

Теперь надо для каждого класса посчитать моменты, 1ый, 2ой(m, D для каждого ЛОП)

Пример(когда каждый признак 1го класса, имеет показательное распределение)

Известно что для таких распределений m и D

Тогда

Соответственно для каждого класса(индекс класса у нас i)

Ошибки 1го и 2го рода определяются соответствующим соотношением

Если классов много. Нужно написать разделяющие ф-ции для каждого класса и посмотреть какая из них победила(будет максимальной) в пользу того класса и принимаем решение

Может спросить на экзамене

Какие допущения/ограничения используются при синтезе, анализе наивного баейсовского классификатора

  1. независимость

  2. то что у нас ЛОП имеет гауссовское распределение, с различными параметрами для каждого класса


9.  Распознавание образов, описываемых бинарными признаками. Оценка ошибок.

9.  Распознавание образов, описываемых бинарными признаками. Оценка ошибок.

Бинарные признаки

представление дельта-функцией Дирака

дельта-функцией Кронекера

Рассмотрим задачу распознавания классов с использованием независимых бинарных признаков, принимающих значения с вероятностью 0 и 1. Такая модель подразумевает, что каждый из признаков несёт ответ типа «да» или «нет». При описании каждого класса и каждого признака в нем используются только две вероятности

Оценка ошибок

Из выражения

следует:

На рисунке представлены зависимости для теоретических вероятностей ошибок и их экспериментальных оценок, полученных в ходе статистического моделирования:

Пример:

Модель распознавания бинарных изображений в условиях воздействия помех, которые приводят к инвертированию отдельных элементов (пикселей) изображения, изменяя их значения на противоположные с одинаковой вероятностью


10.  Параметрическое обучение в задачах распознавания. Метод максимума правдоподобия для оценки неизвестных параметров распределений. Подстановочные алгоритмы.

10.  Параметрическое обучение в задачах распознавания. Метод максимума правдоподобия для оценки неизвестных параметров распределений. Подстановочные алгоритмы.

Параметрическое обучение в задачах распознавания.

параметры в виде оценок

являющихся функциями полученных наблюдений

Свойства оценок: несмещённость, состоятельность, эффективность и робастность, они анализируются при построении алгоритмов оценивания.

Метод максимума правдоподобия для оценки неизвестных параметров распределений.

Подстановочные алгоритмы

Идея этих алгоритмов достаточно проста: полученные оценки подставляются в выражения для плотностей распределения вместо неизвестных параметров

которые затем и используются при получении алгоритмов принятия решения известного вида или других его разновидностей.

Из всех этих соображений следует, что принципиальным вопросом для подстановочных алгоритмов является анализ вероятностей ошибок в зависимости от объема обучающих данных. При этом могут использоваться как ранее полученные аналитические соотношения с использованием полученных оценок параметров, которые в этом случае уже будут давать случайные результаты как функции выборки.

11.  Непараметрическое обучение в задачах распознавания. Метод Парзена.

11.  Непараметрическое обучение в задачах распознавания. Метод Парзена.

Задача непараметрического оценивания - задача, в которой неизвестными являются не только параметры распределения, но сам вид плотности или функции.

Разделяют:

  • Методы локального оценивания, при реализации которых оценка ищется в отдельных точках на основе хранения всей обучающей выборки.

  • Методы аппроксимации плотности распределения вероятностей во всей возможной области значений.

Метод Парзена

Предположим, что оценку плотности распределени можно записать:

где h положительная скалярная величина, определяющая размер ячейки (2h), в пределах которой истинная плотность меняется предположительно незначительно.

Величина, определяющая вероятность попадания в ячейку

При обосновании метода Парзена выполняются следующие преобразования:

Оценка плотности в методе Парзена обладает свойством асимптотической несмещённости, если для ядра и функции h(N) выполняются следующие условия:

Дополнение: Использование оценок на основе метода Парзена в задачах распознавания


12.  Непараметрическое обучение в задачах распознавания. Метод К-ближайших соседей.

12.  Непараметрическое обучение в задачах распознавания. Метод К-ближайших соседей.

Задача непараметрического оценивания - задача, в которой неизвестными являются не только параметры распределения, но сам вид плотности или функции.

Разделяют:

  • Методы локального оценивания, при реализации которых оценка ищется в отдельных точках на основе хранения всей обучающей выборки.

  • Методы аппроксимации плотности распределения вероятностей во всей возможной области значений.

Метод К-ближайших соседей.

  • Подход, направленный на сокращение объема вычислений

  • Данный метод свободен от необходимости подбора ядер и их параметров (размера ячеек) в зависимости объема обучающих данных и их локализации.

Одна из возможных идей в этой ситуации состоит в том, чтобы сделать объем ячеек переменным, т.е. сделать его функцией данных, а не их количества.

Точность оценки будет невелика при небольших объемах обучающей выборки N

Мы будем пользоваться евклидовой метрикой. Тогда оценка плотности распределения в этой точке определяется как

При использования евклидовой метрики этот объем определяется соотношением для гипершара

где (n / 2) – гипергеометрическая функция, которая при любом натуральном m равна

Блок-схемы


13.  Распознавание образов с помощью функций расстояния (мер близости).

13.  Распознавание образов с помощью функций расстояния (мер близости).

Этот метод основан на предположении о том, что образы в пределах каждого класса имеют разумную степень изменчивости, при этом между собой классы образов пересекаются слабо.

Для построения алгоритмов, основанных на прямом использовании метрик или функция расстояния (метрических алгоритмов) в каждом классе задается один или несколько эталонных образов:

Решающее правила для одного эталонного описания в каждом классе

Анализ последнего выражения показывает, что выбор наименьшего расстояния в правиле (1) эквивалентен выбору максимального значения функций:

Ниже на рисунках примеры построения для двух, четырёх, шести классов соответственно:

Блок-схема

Решающее правило при нескольких эталонных описаний в каждом классе

Еще одна ситуация возникает, когда описание каждого класса включает конечное и для определенности одинаковое количество эталонных образов в виде множества

Блок-схемы


14.  Метод опорных векторов. Случай линейно разделимых классов.

14.  Метод опорных векторов. Случай линейно разделимых классов.

Метод опорных векторов

Случай линейно разделимых классов образов

Рассмотрим, первоначально, реализацию метода для случая распознавания двух классов, обладающих свойством линейной разделимости. Тогда задача сводится к задаче поиска оптимальной разделяющей гиперплоскости. Ищется разделяющая гиперплоскость, поверхность которой находится на максимальном расстоянии от ближайших к ней граничных точек обоих классов из обучающей выборки. Такая гиперплоскость и является в данном случае оптимальной.

называется отступом (margin)

Функция потерь, которую нужно минимизировать, с использованием понятия отступа записывается в виде:

Заменим на H(M), получим:

Выберем нормировку, которая не изменит результат классификации:

В соответствии с теоремой Куна – Таккера задача эквивалентна двойственной задаче поиска седловой точки функции Лагранжа:

Необходимым условием седловой точки функции Лагранжа является равенство нулю её производных:

Вектор весовых коэффициентов является линейной комбинацией элементов обучающей выборки, причем тех,

Таким образом, окончательное решение задачи нахождения классификатора, оптимального в рамках идеологии SVM:


Случай линейной разделимости классов образов с ошибками

В данном случае ищется седловая точка для следующей задачи:

Необходимым условием седловой точки функции Лагранжа является равенство нулю её производных

На практике для повышения устойчивости рекомендуется брать медиану множества значений b0, вычисленных по всем граничным опорным векторам

Таким образом, мы видим, что в полученных выражениях реализуется разделяющей функции реализуется вычисление взвешенной скалярных произведений классифицируемого вектора x и опорных векторов, причем, в данном случае, не только граничных, но и нарушителей




15.Метод опорных векторов. Случай линейно не разделимых классов.

15.Метод опорных векторов. Случай линейно не разделимых классов.

Метод опорных векторов

Случай линейно не разделимых классов.

Метод SVM может эффективно использоваться и в ситуациях, когда классы образов принципиально линейно не разделимы и разделяющая функция должны быть нелинейной.

В подобных ситуациях применяют представленный в предыдущей лекции прием kernel trick, в основе которого лежит использование ядра скалярного произведения для перехода в спрямляющее пространство. Именно при реализации метода SVM данный прием получил наиболее яркое воплощение.

В качестве ядер могут быть использованы любые функции, подходящие по своим свойствам, например, функции, представленные ранее.

В случае наличия нескольких классов образов метод опорных векторов применяют путем перехода от задачи классификации на два классов к множественной задаче разбиения на два класса. При этом реализуется два подхода.

Первый предполагает построение бинарных классификаторов, которые различают один класс от остальных (один – против – всех), как это, например, продемонстрировано в первом примере. Количество вычисляемых разделяющих функций в этом случае равно M . Принятие решения осуществляется по принципу максимума значения разделяющей функции для всех возможных сочетаний (победитель получает все). При этом выход функций должен быть прокалиброван для получения сопоставимых оценок. 

Второй подход реализует традиционную схему попарного различения классов. Количество вычисляемых разделяющих функций в этом случае равно M(M-1)/2 . При этом решение принимается в пользу класса, набравшего наибольшее количество голосов при проведении попарного распознавания образа на основе полученной системы разделяющих функций.

Недостатки SVM: Неустойчивость к шумовым искажениям обучающих данных, необходимость подбора параметра С , необходимость обоснования или подбора вида ядра.

16.  Нелинейные преобразования и спрямляющие пространства. Трюк с ядром.

16.  Нелинейные преобразования и спрямляющие пространства. Трюк с ядром.

Нелинейные преобразования

Теоретические обоснования подобного подхода заложены классической теоремой Ковера. 

Теорема Ковера

Нелинейное преобразование сложной задачи классификации образов в пространство более высокой размерности повышает вероятность линейной разделимости образов.

Можно доказать, что для любой локализации образов двух классов, входящих в состав обучающей выборки образов можно построить такое нелинейное преобразование, которое позволяет однозначно разделить эти образы в новом пространстве на основе линейной функции.

Получение преобразования:

Таким образом, полученные линейно разделяющие границы в новом пространстве. Такой подход и называется спрямляющим.

Ядро скалярных произведений

Проблема заключается в том, что на практике заранее нельзя сказать, какие именно базисные функции нужно взять, чтобы добиться линейной разделимости, поэтому приходится брать сразу большой набор таких функций. В этом случае число признаков оказывается очень большим, из-за чего процесс обучения становится чрезмерно ресурсоемким.

Практически все линейные правила принятия решений после перехода в спрямляющее пространство, имеют вид

Использовать вместо прямого скалярного произведения образов – нелинейную функцию так называемого ядра скалярного произведения, в которой подобные скалярные произведения фигурировали бы в неявном виде, и настраивать классификатор в новом признаковом пространстве, подбирая весовые коэффициенты уже для функций ядра.

Данный прием, позволяющий строить нелинейные разделители, получил в англоязычной литературе название kernel trick. Результирующий алгоритм похож на алгоритм линейной классификации, с той лишь разницей, что каждое скалярное произведение заменяется нелинейной функцией ядра (реализующей скалярное произведением в пространстве с большей размерностью).

Ядром скалярного произведения здесь и далее мы будем называть функцию, представимую в виде скалярного произведения в некотором пространстве:

Чтобы убедится, что используемая функция K(x,z) определяет скалярное произведение в некотором пространстве, используется теорема Мерсера


17.  Алгоритмы распознавания на основе деревьев решений.

17.  Алгоритмы распознавания на основе деревьев решений.

Деревья решения являются одним из достаточно часто используемых способов построения алгоритмов распознавания в современных системах обработки информации.

Достоинства:

  1. Возможность работы с вещественнозначными признаками и с категориальными(качеcтвенными) признаками.

  2. Хорошая устойчивость к аномальным наблюдениям.

  3. Возможность наглядной интерпретации получаемого решающего правила.

  4. Объяснение исследуемой закономерности в данных для их применения в экспертных системах.

Случайный лес представляет собой композицию ансамбля деревьев, которая может формироваться различным образом, — в стандартном варианте на основе баггинга.

Деревья решений

Идея, лежащая в основе деревьев решений, состоит в разбиении множества возможных значений вектора признаков на непересекающиеся множества и настройке простой модели решений для каждого такого множества. 

Деревья решений применяются как в задачах распознавания, так и в задачах регрессии.

Понятие «дерева решений» отвечает понятию «дерева» из теории графов. Дерево представляет собой ориентированный связный граф без циклов (без обратных связей). 

Корневое дерево - это дерево, в котором одна вершина выделена и называется корнем.

В качестве деревьев решений рассматриваются только ориентированные корневые деревья, в которых дуги (ориентированные ребра) направлены от корня к вершинам. 

Деревья удовлетворяют следующим условиям: 

  1. Существует только одна вершина, называемая корнем, в которую не ведет ни одна дуга

  2. В каждую вершину (исключая корень) ведет только одна дуга

  3. Существует единственный путь от корня к любой вершине.

  4. Если (v, w) — некоторая дуга, то вершина v называется родителем w , а вершина w — потомком вершины v.

Вершина, не имеющая потомков, называется терминальной вершиной, или листом. Дерево называется бинарным, если каждая его вершина (за исключением терминальных вершин) имеет ровно двух потомков.

Формирование дерева решений на основе смешанной проиндексированной обучающей выборки происходит следующим образом:

Цель построения дерева решений

Цель состоит в распознавании нового вектора x либо в определении значения регрессии при том или ином значении входной переменной x. Процесс принятия решений начинается с корневой вершины и состоит в последовательном применении правил, связанных с вершинами. Результатом этого процесса является определение терминальной вершины.

Алгоритм CART

Широкое применение деревьев решений началось с разработки алгоритма CART (Classification And Regression Trees). Алгоритм CART является базовым алгоритмом, на базе которого может быть построено множество конкретных алгоритмов, приводящих к получению различных видов деревьев решений. Алгоритм основан на идее рекурсивного разбиения обучающей выборки на две более однородные подвыборки с помощью одного из признаков. Для реализации этой идеи необходимо определить понятие однородности, которая обычно рассчитывается на основе показателей, характеризующей степень загрязненности подвыборок при выполнении разбиения.

Показатель загрязненности

Общая идея определения показателя загрязненности состоит в следующем:

Индекс Джини отображает частоту ошибочной классификации при случайном назначении меток классов образам подвыборки XDt.

Мера загрязненности, основанная на частоте ошибочной классификации

Расщепление деревьев

Правило разбиения множества X, связанное с каждой вершиной дерева решений, называется расщеплением (split). Количество подмножеств, на которые разбивается X , может быть разным для разных вершин, однако большинство алгоритмов основано на построении бинарных деревьев (в которых расщепление осуществляется на два подмножества). Это связано с тем, что для любого не бинарного дерева можно построить эквивалентное ему бинарное дерево.

Функция расщепления задается

Важным вопросом является задание критерия остановки расщепления. Процесс расщепления вершин имеет предел, когда становится невозможно уменьшить загрязненность очередной вершины.

Существует несколько способов принятия решения об остановке расщепления:

  1. Задание минимального числа для количества наблюдений в подвыборках, соответствующих терминальным вершинам (или минимальной доли наблюдений обучающей выборки)

  2. Установление верхнего порога для загрязненности вершины (расщепление вершины не происходит, если уменьшение загрязненности при этом не превышает δ)

  3. Применение проверки: сравнивание количества ошибочно классифицированных наблюдений до и после расщепления вершины, и если сокращения ошибок не происходит, то вершина не расщепляется

  4. Применение статистики хи-квадрат, которая рассчитывается для значений количества образов каждого класса, отнесенных в результате расщепления в левую подвыборку, по отношению к ожидаемому количеству наблюдений в левой подвыборке при случайном расщеплении вершины. Если максимальное значение статистики не превышает критического значения, соответствующего выбранному уровню значимости, то расщепления не происходит, и вершина объявляется терминальной.

Усечение деревьев

Недостатком подхода, основанного на способах остановки расщепления вершин для предотвращения построения больших деревьев, является то, что решение об остановке принимается без учета ситуации, которая могла бы сложиться при продолжении расщепления. Другими словами, не исключено, что дальнейшее расщепление потомков некоторой вершины могло бы существенно повысить точность классификации. В связи с этим ключевое значение приобрел альтернативный подход, основанный на построении полных деревьев и их дальнейшем усечении (pruning).

Усечение означает процедуру замены в построенном полном дереве некоторой вершины и связанного с ней поддерева терминальной вершиной. Большинство методов усечения основано на оценке чувствительности поддеревьев по отношению к некоторой мере и удалению поддеревьев, которые оказывают минимальное влияние на эту меру. Общим недостатком всех методов усечения является то, что они не могут гарантировать нахождение оптимального решения, а также их высокая вычислительная сложность.

Алгоритм ID3

В анализе данных и машинном обучении ID3 — это один из наиболее популярных алгоритмов обучения деревьев решений. В основе идеи алгоритма лежит рекурсивное разбиение обучающего множества, размещаемого в корневом узле дерева решений, на подмножества с помощью решающих правил.

Разбиение продолжается до тех пор, пока в результирующих подмножествах не останутся примеры только одного класса, после чего процесс обучения остановится, а подмножества будут объявлены листами дерева, содержащими решения.

Каждый атрибут обучающего множества отражает некоторое свойство классифицируемых объектов. При этом атрибуты могут иметь разную значимость с точки зрения классификации. Например, атрибут, все значения которого одинаковы, вообще бесполезен для различия классов.

Классифицирующая сила других атрибутов может быть разной. Целью алгоритма является выбор атрибутов для разбиения таким образом, чтобы полученное дерево было компактным, простым для понимания и при этом достаточно точным.

Алгоритм начинает работу с корневого узла дерева, который содержит все примеры обучающего множества. На каждой итерации алгоритма выбирается один из атрибутов, по которому производится разбиение множества примеров в узле на подмножества. При этом для дискретных и непрерывных атрибутов процесс отличается.

Дискретный атрибут

Пусть атрибут X принимает три значения: A, B и C. Тогда при разбиении исходного множества T по атрибуту X алгоритм сформирует три узла-потомка T1(A), T2(B) и T3(C), в первом из которых будут содержаться все примеры, в которых атрибут X принимает значение A, во втором — значение B, и в третьем — C. Процесс рекурсивно повторяется до тех пор, пока не будут сформированы подмножества, содержащие примеры только одного класса.

Выбор атрибута на каждом разбиении производится с помощью критерия прироста информации:

Непрерывный атрибут

Если атрибут, по которому производится разбиение, непрерывный, то его сначала преобразуют в дискретный вид, например, с помощью операции квантования. Затем значения ранжируются и ищется среднее, которое используется для выбора порога. Все примеры, имеющие значения атрибута выше порогового, помещаются в один узел-потомок, а те, которые ниже — в другой.

Таким образом, при использовании непрерывного атрибута узлы дерева имеют по два потомка.

Недостатком алгоритма является склонность к переобучению, особенно в случае, когда разнообразие значений атрибута велико. В пределе, если все значения атрибута уникальны, мы можем получить дерево с числом узлов, равным числу примеров. Кроме этого, алгоритм не предусматривает возможности работы с пропусками в данных

Алгоритм C4.5

В каждом узле дерева решений производится выбор атрибута, который позволяет разбить множество попавших в него примеров на подмножества, максимально «чистые» по классовому составу. Чем однороднее полученные подмножества, тем больше их информация и меньше энтропия.

Следовательно, атрибут, выбираемый для разбиения в узле, должен обеспечивать максимальный прирост информации, или уменьшение энтропии, в результирующих подмножествах. Алгоритм рекурсивно продолжает процедуру разбиения до тех пор, пока в листьях не останутся примеры одного класса. Затем производится упрощение дерева решений путем отсечения ветвей.

Gradient Boosting Trees

Gradient Boosting Trees (GBT) — это мощный алгоритм машинного обучения, который объединяет в себе две ключевые концепции: бустинг и деревья решений. Этот метод позволяет строить ансамбль слабых моделей (обычно деревьев решений), пошагово улучшая их качество.

Вот общий алгоритм Gradient Boosting Trees:

  1. Инициализация:

  • Начинаем с базовой модели, часто выбираются простые модели, такие как одноуровневые деревья решений (деревья решений с одним узлом).

  • Вычисляем начальные предсказания модели. Обычно это среднее значение целевой переменной для задачи регрессии или логарифм отношения шансов (log-odds) для задачи классификации.

  1. Построение дерева решений:

  • Считаем остатки между текущими предсказаниями и фактическими значениями (разницу между предсказаниями и истинными значениями).

  • Строим дерево решений, которое предсказывает остатки. Это дерево становится новым базовым алгоритмом в ансамбле.

  1. Оптимизация:

  • Определяем коэффициент (learning rate), который управляет величиной обновления предсказаний ансамбля на каждом этапе.

  • Вычисляем оптимальный коэффициент для нового базового алгоритма (дерева) путем минимизации функции потерь.

  1. Обновление предсказаний:

  • Обновляем предсказания ансамбля, добавляя к ним новые предсказания, взвешенные на оптимальный коэффициент.

  1. Повторение:

  • Повторяем шаги 2-4 заданное количество раз или до достижения определенного критерия останова (например, достижение определенного числа базовых моделей или сходимость).

  1. Финальное предсказание:

  • Суммируем предсказания всех базовых моделей с учетом их весов, полученных на шаге оптимизации.


18.  Композиционные алгоритмы, описание и базовые подходы. Композиции на основе баггинга (алгоритм случайный лес).

18.  Композиционные алгоритмы, описание и базовые подходы. Композиции на основе баггинга (алгоритм случайный лес).

Композиционные (комитетные) алгоритмы (КА) основаны на объединении ансамбля из нескольких классификаторов (распознающих алгоритмов), каждый из которых дает свою оценку ситуации, пригодную для принятия решения. На основе совокупности результатов, полученных от всех классификаторов, выдается итоговый общий результат в виде окончательного решения.

Основная идея – ансамбль классификаторов может обеспечить существенно более высокую достоверность распознавания, чем каждый из них в отдельности.

Композиции на основе баггинга

Бэггинг (bagging) – сокращение от bootstrap aggregating – агрегированный бутстреп.

Bootstrap – подход к увеличению репрезентативности обучающей выборки, основанный на случайном извлечении (с последующим возвращением) из исходной обучающей выборки нескольких подмножеств примеров с целью получения устойчивых оценок.

Общая идея бэггинга – снижение зависимости «экспертов» – базовых классификаторов ансамбля друг от друга.

Случайный лес (Random Forest) на основе бэггинга.

Случайные леса реализуют подходы к построению ансамбля классификаторов в виде ДР, основанные на манипулировании с обучающими данными и манипулировании с признаками с включением в эти процессы элементов случайности.

«Cлучайный лес», основан на формировании бутстреп - обучающей выборки для каждого классификатора ансамбля путем случайной выборки с возвращением из исходной обучающей выборки. При этом каждый раз получается подвыборка того же объема, что и исходная обучающая выборка.

Каждая бутстреп - выборка содержит в среднем примерно 63% наблюдений исходной обучающей выборки: поскольку выборка с возвращением, то некоторые наблюдения в нее не попадают, а некоторые попадают несколько раз.

В качестве ансамбля БА в случайном лесе рассматривается ансамбль ДР, каждое из которых строится на основе бутстреп-подвыборки из исходной обучающей, причем для расщепления вершин используется только доля случайно отбираемых признаков. Кроме того, строится полное дерево (без усечения). При объединении, или агрегирования решений отдельных классификаторов используется метод голосования.

Стандартный алгоритм построения случайного леса.

Первый этап. На этапе обучения реализуется индукция леса.

Второй этап.

Случайные леса обладают рядом привлекательных свойств:

  • повышение достоверности распознавания за счет слабой зависимости деревьев вследствие двойной инъекции случайности (бэггинг и случайный набор признаков при расщеплении каждой вершины);

  • сложная задача усечения полного дерева решений снимается, поскольку деревья в случайном лесу не усекаются (это также приводит к высокой вычислительной эффективности).

  • проблема переобучения не стоит так остро, поскольку ансамбль ДР уже не является единственным детально настроенным алгоритмом;

  • простота настройки алгоритма: единственными параметрами являются количество деревьев и количество признаков, случайно отбираемых для расщепления в каждой вершине.




19.  Композиционные алгоритмы, описание и базовые подходы. Композиции на основе бустинга (алгоритм adaboost).

19.  Композиционные алгоритмы, описание и базовые подходы. Композиции на основе бустинга (алгоритм adaboost).

Композиционные (комитетные) алгоритмы (КА) основаны на объединении ансамбля из нескольких классификаторов (распознающих алгоритмов), каждый из которых дает свою оценку ситуации, пригодную для принятия решения. На основе совокупности результатов, полученных от всех классификаторов, выдается итоговый общий результат в виде окончательного решения.

Основная идея – ансамбль классификаторов может обеспечить существенно более высокую достоверность распознавания, чем каждый из них в отдельности.

Композиции на основе бустинга

Бустинг (boosting – улучшение) – процедура итеративного последовательного построения композиций базовых алгоритмов. Каждая следующая композиция включает большее количество БА, стремясь при этом компенсировать недостатки предыдущей композиции.

На каждой итерации осуществляется перевзвешивание наблюдений, добавление и коррекция весов базовых алгоритмов. В итоге происходит «усиление» слабых классификаторов и повышение результирующей эффективности распознавания.

Общая идея бустинга – «эксперты» (базовые классификаторы) учатся на ранее допущенных ошибках других классификаторов.

Композиции, формируемые на основе бустинга, обладают следующими особенностями:

- реализация последовательного процесса обучения за несколько итераций;

- учет предыдущих результатов классификации образов из обучающей выборки при выполнении каждой итераций в плане допущенных на них ошибках;

- учет результатов работы ранее используемых базовых классификаторов в плане допущенных ими ошибок.

Цель подобной обработки состоит в том, чтобы усилить слабые классификаторы

Алгоритм adaboost

Описание стандартного алгоритма AdaBoost (adaptive boosting). Пусть на входе имеется

Для каждого произвольного БА вводится взвешенное число допущенных ошибок

Блок-схема

При перевзвешивании наблюдений усиливается роль тех из них, на которых допущены ошибки. Большие веса получают те объекты, которые «плохо» классифицировались на предыдущих шагах.

При перевзвешивании весовых коэффициенов БА учитываются ранее допущенные ими ошибки как напрямую, так и косвенно, через веса обучающих образов.

Таким образом, на каждом последующем шаге новый классификатор приспосабливается исправить ранее допущенные ошибки предыдущих классификаторов.

20.  Кластеризация образов. Критерии эффективности. Алгоритм К-средних.

20.  Кластеризация образов. Критерии эффективности. Алгоритм К-средних.

Задача кластеризации состоит в разбиении множества объектов, представленных своими образами, на кластеры, в каждом из которых объединяются в известном смысле «близкие» образы, в то время как образы, помещаемые в различные кластеры, имеют существенные «отличия».

  • Кластер — группа однотипных объектов, имеющих определенную степень близость в пространстве используемых для их описания признаков.

Кластеризация по определению осуществляется в режиме самообучения (без учителя). В лучшем случае, изначально может быть задано количество кластеров, на которые следует разделить образы. Но часто и подобная информация отсутствует.

Существенно, что каждая группа должна содержать образы с такими общими признаками, которые позволяет рассматривать их как принадлежащие некоторому порождающему классу образов. Иными словами кластеры должны отражать сущности, обладающие общими категориальными свойствами. Поэтому эту задачу еще называют задачей классификацией без обучения

Задача обучения без учителя в интересах кластерного анализа данных, особенно в ситуации отсутствия априорной информации о числе кластеров, является, безусловно, сложнейшей в ряду всех рассмотренных. Она может решаться как в рамках статистического, так и в рамках детерминистского подходов.

Постановка задачи кластеризации в рамках статистического подхода:

Постановка задачи кластеризации в рамках детерминисткого подхода:

Критерии эффективности

Алгоритм  K-средних

Далее имеется в виду, что K = M – заданное число кластеров. Идея алгоритма состоит в нахождении некоторого приемлемого начального разбиения данных на группы и выполнении нескольких итераций, на каждой из которых производится передвижение образов из одной группы в другую с одновременным пересчетом функции критерия и проведением контроля за изменениями ее значения. При этом на каждом шаге сохраняются такие перемещения, которые приводят к уменьшению значения  BP.

Шаги стандартного алгоритма KMeans:

Блок-схема


21.  Кластеризация образов. Критерии эффективности. Иерархические процедуры группирования.

21.  Кластеризация образов. Критерии эффективности. Иерархические процедуры группирования.

Кластеризация образов. Критерии эффективности - это подробно расписано в предыдущем вопросе (впадлу писать ещё раз)

Иерархические процедуры группирования.

Общая идея этих алгоритмов состоит в последовательном объединении или разъединении групп образов, для которых установлены определенные правила слияния групп или, соответственно, правила расщепления. При достижении заданного количества групп (или необходимого уровня другого критерия) процесс останавливают. При объединении групп процесс называется агломеративной кластеризацией, а при разъединениидивизимной кластеризацией.

Особенностью иерархических алгоритмов является то, что при их реализации обычно строят полное дерево вложенных кластеров – дендрограмму.

Алгоритм агломеративной кластеризации (стандартной):

Этапы алгоритма

Значение для подобных алгоритмов имеет выбор функции расстояния для определения близости:


24.  Основы и постановка задачи регрессионного анализа данных.  Нелинейная регрессия.

24.  Основы и постановка задачи регрессионного анализа данных.  Нелинейная регрессия.

Основы

Задача регрессии является одной из задач анализа данных и относится к классу предсказательных (predictive) задач. Предсказательные задачи осуществляются в два этапа.

Первый этап: построение модели анализируемого объекта (процесса) путем обработки данных – получаемых в ходе экспериментов наблюдений, в той или иной степени, его характеризующих.

Второй этап: модель используется для предсказания результатов по отношению к новым наборам данных.

При решении задачи регрессии модель объекта строится в виде функциональной зависимости набора непрерывных выходных переменных от заданного набора входных, а второй этап направлен на определение значений выходных переменных при появлении новых значений входных.

зависимой переменной для любых значений независимых, входных переменных). Приближение должно удовлетворять некоторому критерию качества.

Постановка и решение задачи регрессии в рамках статистического подхода

Задача может решаться как в статистической, так и в детерминистской постановке.

В первом случае x и y рассматриваются как значения случайных величин или случайных векторов. При этом считается, что известны полные статистические описания этих величин (векторов) в виде совместной плотности распределения вероятностей p(x, y).

На практике чаще все-таки возникает ситуация, когда статистические описания переменных неизвестны или их не интерпретируют как случайные величины. В то же время, имеются обучающие наборы измеряемых (наблюдаемых) данных, характеризующие реализации (выборочные значения) этих величин.

При этом точная функциональная зависимость не может быть получена, поскольку эти величины либо являются СВ, между которыми существует статистическая связь и на измерения накладываются случайные ошибки, либо между этими величинами существует функциональная связь, но наблюдения не в полной мере достоверны из-за ошибок измерения.

Тогда задача регрессии решается в рамках детерминистского подхода на основе метода наименьших квадратов.

Постановка и решение задачи регрессии в рамках детерминистского подхода по методу наименьших квадратов

 Нелинейная регрессия.





Author

David A.

Information

Last changed