Как специальный алгоритм определяет, является ли письмо спамом? Чем задачи классификации отличаются от задач регрессии? Как машины выявляют нетипичные предметы из массы? На эти и другие вопросы отвечает доктор физико-математических наук Александр Дьяконов.

Обучение — это приобретение нужной функциональности посредством опыта. Например, когда мы учимся ездить на велосипеде, сначала мы не умеем этого делать, но потом мы каждый раз садимся, пытаемся проехать и в конце концов учимся этому, то есть мы приобретаем нужную функциональность. Аналогично, как ни странно, действуют алгоритмы. Например, есть так называемые спам-фильтры — это программы, которые смотрят, что вы делаете с почтой. К вам приходит почта, какую-то почту вы помечаете как спамовую, кладете в соответствующую папочку, алгоритм смотрит за вашими действиями и учится. В конце концов он сам начинает некоторые письма отправлять в эту папку, и таким образом он автоматизирует эту работу. Некоторые алгоритмы уже предобучены, и поэтому они уже как-то функционируют и таким образом лишают вас этой рутинной процедуры.

Основные виды машинного обучения — это обучение с учителем и обучение без учителя. На самом деле машинное обучение (в английском это называется machine learning) разделяется на обучение с учителем (supervised learning) и без учителя (unsupervised learning). Наверное, английская терминология более адекватна в данном случае. Они достаточно похожи, но более популярно обучение с учителем, здесь есть так называемое множество объектов и множество меток. Считается, что есть некая функциональная зависимость, некая функция, действующая из множества объектов во множестве меток. Но мы эту функцию не знаем, мы знаем ее лишь частично, то есть на конечном множестве точек.