Контролируемые и неконтролируемые методы машинного обучения – PromptCloud
Опубликовано: 2017-10-21Контролируемое и неконтролируемое обучение:
Обнаружение шаблонов из данных с использованием интеллектуальных алгоритмов обычно является основной концепцией машинного обучения. Эти открытия часто приводят к практическим выводам, предсказанию различных тенденций и помогают компаниям получить конкурентное преимущество, а иногда даже создавать новые и инновационные продукты. Недавно мы объясняли концепцию машинного обучения и способы обучения алгоритма машинного обучения в этом сообщении блога . Поскольку мы не углублялись в различные типы алгоритмов машинного обучения и то, как они работают, мы создали этот пост, в котором объясним классификации алгоритмов машинного обучения на основе того, как они «учатся» делать прогнозы.

На высоком уровне существует два основных типа методов машинного обучения — с учителем и без учителя. Давайте посмотрим, чем они отличаются друг от друга.
Методы контролируемого и неконтролируемого машинного обучения
Как мы упоминали ранее, контролируемые и неконтролируемые методы машинного обучения представляют собой «способ», которым алгоритм машинного обучения учится делать прогнозы.
При обучении с учителем создатель алгоритма машинного обучения получает четко определенный результат, ожидаемый от машины. Вход и соответствующий выход предопределены, и алгоритм ML только учится совершенствовать искусство предоставления вывода на основе ввода с более высокой точностью с течением времени.
Обучение под наблюдением также похоже на обучение с учителем. Учитель в данном случае — это набор обучающих данных, предоставленный системе машинного обучения.
Во время обучения с учителем ученику говорят, что представляет что. Например, вы можете научить ребенка отличительным характеристикам собаки, которые помогут отличить ее от других животных, например:
- Форма их лиц (длинная)
- Как они звучат (лай)
- Размер тела (от маленького до среднего)
- Другие специфические черты (Собаки часто виляют хвостом)
С помощью этих данных малыш должен уметь определять различные породы собак. Каждый раз, когда он/она замечает новую и неизвестную породу собак, поисковые признаки обновляются новыми данными. Например, у мопса нет длинной морды, как у большинства других пород собак, но это собака. Это контролируемое обучение, поскольку сначала мы дали ребенку набор характеристик, которые он должен искать, и он просто усовершенствовал его с опытом.
Однако в случае неконтролируемого обучения малыш оказывается сам по себе. Ему просто представлены различные животные без каких-либо намеков на то, что к чему. Он учится идентифицировать разных животных, группируя их на основе наблюдаемых признаков. Короче говоря, это неконтролируемое машинное обучение.
Проще говоря, обучение с учителем — это машинное обучение, основанное на данных с ожидаемыми результатами, тогда как в случае машинного обучения без учителя система машинного обучения учится выявлять закономерности на основе данных самостоятельно.
Контролируемое машинное обучение
В большинстве практических приложений машинного обучения используется обучение с учителем. В обучении с учителем вы определяете входную переменную (x) и выходную переменную (Y) и включаете алгоритм, чтобы научиться преобразовывать входные данные в выходные.
Это можно определить как Y = f (X)
Идея состоит в том, чтобы сделать машину идеальной в этом отображении, чтобы она могла точно предсказывать выходные переменные (Y) для любых новых входных данных, которые вы ей подбрасываете. Алгоритм замедляет учебную деятельность, когда достигает приемлемого уровня точности.
Обучение под наблюдением можно далее сгруппировать в задачи классификации и регрессии:
Классификация : проблема классификации будет иметь выходную переменную, которая является категорией, такой как большой, маленький, средний или «красный» или «зеленый».
Регрессия : в задаче регрессии выходная переменная представляет собой фактическое значение, например «килограммы» или «доллары».
Некоторые из популярных алгоритмов контролируемого машинного обучения:
Линейная регрессия
Алгоритмы регрессии в первую очередь предназначены для обнаружения статистических зависимостей между числовыми переменными. Модель линейной регрессии в основном пытается найти наилучшее линейное приближение для вашего представления данных. Когда эта аппроксимация успешна, вы можете легко предсказать значения зависимой переменной для любого значения независимой. Таким образом, алгоритм можно использовать для определения зависимости между любыми двумя числовыми столбцами в вашем наборе входных данных. Например, вы можете использовать линейную регрессию для прогнозирования продаж в следующем году, используя исторические данные в качестве входных данных, или спрогнозировать количество людей, которые посетят ваш веб-сайт, исходя из сезонных тенденций.

Случайный лес
Random Forest очень похож на швейцарский армейский нож среди всех алгоритмов обработки данных. На более легкой ноте, когда вы не можете придумать конкретный алгоритм для своей проблемы, используйте случайный лес. Случайный лес — еще один пример контролируемого алгоритма машинного обучения, используемого для кластеризации точек данных в функциональные группы. Это особенно полезно для больших наборов данных с большим количеством переменных, поскольку вручную кластеризовать данные, принимая во внимание все переменные, становится сложно.
Благодаря своей универсальности этот алгоритм машинного обучения можно использовать как для задач регрессии, так и для задач классификации. Он также может обрабатывать методы уменьшения размеров, обрабатывать пропущенные значения, значения выбросов и многие другие методы исследования данных. Случайный лес — это ансамблевый метод обучения, в котором группа слабых моделей объединяется, чтобы действовать как сильная модель.
Машины опорных векторов
Машины опорных векторов — это еще один контролируемый алгоритм машинного обучения, который можно использовать для задач регрессии или классификации. В SVM каждый элемент данных отображается как точка в n-мерном пространстве (n — это количество имеющихся у вас объектов), при этом значение каждого объекта является значением конкретной координаты. Затем выполняется классификация путем определения гиперплоскости, которая наилучшим образом различает два класса.
SVM обычно используется для задач, связанных с классификацией текста, таких как обнаружение спама, анализ настроений и присвоение категорий. Это также полезно в проектах распознавания изображений, где классификация на основе цвета и распознавание на основе аспектов являются жизненно важными аспектами. Еще одно известное приложение — распознавание рукописных цифр, которое полезно для автоматизации почтовых служб.
Неконтролируемое машинное обучение
В неконтролируемом машинном обучении есть только входные данные (X), и соответствующие выходные переменные не определены. Идея здесь состоит в том, чтобы выявить основное распределение или структуру данных, не накладывая ограничений на модель. В неконтролируемых моделях машинного обучения нет правильных ответов, как нет учителя. Алгоритмы предоставлены сами себе для обнаружения и представления интересных структур в данных.
Неконтролируемое обучение можно далее сгруппировать в проблемы кластеризации и ассоциации:
Кластеризация : в задаче кластеризации вы в основном пытаетесь обнаружить базовые группы в данных, например группировать клиентов по их покупательскому поведению.
Ассоциация . Целью задачи ассоциации является определение правил, определяющих большие части данных, например, люди, которые купили iPhone, также склонны покупать аккумуляторы.
Популярными примерами неконтролируемых алгоритмов являются:
Кластеризация K-средних
Кластеризация K-средних — это неконтролируемый алгоритм машинного обучения, который используется в ситуациях, когда имеющиеся у вас данные не размечены (данные с неопределенными группами или категориями). Алгоритм предназначен для идентификации групп в данных, где количество групп обозначается переменной K. K-means работает, назначая каждую точку данных одной из K групп на основе предоставленных функций. Затем он переходит к кластеризации точек данных на основе сходства их признаков.
Проще говоря, кластеризация K-средних выявляет неопределенные группы из немаркированных данных. Это особенно полезно для подтверждения бизнес-предположений на основе больших и сложных наборов данных. После запуска алгоритма и определения групп новые точки данных можно легко добавить в нужную группу.
Априорный алгоритм
Apriori — это классический неконтролируемый машинный алгоритм, используемый для извлечения соответствующих правил ассоциации и наборов элементов. Идеально подходит для развертывания в базе данных с большим количеством транзакций, таких как товары, купленные покупателями в магазине.
Априорный принцип сократит количество наборов элементов, которые необходимо изучить. Принцип гласит, что если набор элементов не является частым, ни одно из его подмножеств также не будет частым. Априорный алгоритм, который исключительно хорош для машинного обучения на основе ассоциативных правил, широко используется розничными компаниями.
Интересные результаты обучения, основанного на ассоциативных правилах, можно понять из истории с пивом и подгузниками. Розничный магазин проанализировал их данные и обнаружил, что молодые американцы, купившие подгузники в пятницу днем, также склонны покупать пиво. Затем они пошли дальше и разместили пивной островок рядом с островком подгузников, и, как и ожидалось, продажи пива выросли.
Это, вероятно, указывает на то, что воспитание детей может быть изнурительным, и родители неосторожно обратились к пиву, чтобы снять стресс. В любом случае, эта история — прекрасный пример ассоциативных правил в машинном обучении.
Вывод
Машинное обучение помогает компаниям достигать небывалых уровней эффективности и прокладывает путь для новых технологических инноваций. Поскольку количество и качество данных, доступных в Интернете, растет с каждой минутой, технологиям машинного обучения можно доверять в раскрытии новаторских идей из этих наборов данных. Если вы хотите раскрыть истинный потенциал данных, находящихся в вашем распоряжении, знакомство с этими методами машинного обучения окажется обязательным.
