Откуда появилось понятие регрессии? Может ли коэффициент корреляции характеризовать рост и вес человека? Если два признака некоррелированны, значит ли это, что они не связаны никакой зависимостью? На эти и другие вопросы отвечает доктор технических наук Борис Миркин.

Корреляция — это, конечно, латинское слово, но оно пришло к нам из английского языка примерно 120–130 лет назад в связи с работой одного из последних ученых-дилетантов Фрэнсиса Голтона, или, как мы его называем, Фрэнсиса Гальтона. Он был одержим идеей, что талант, гений наследуется, и пытался это доказать. Но он понимал, что талант нельзя измерить, и он хотел найти какие-то признаки, которые бы позволяли этот талант померить. И он обнаружил, что какие-то признаки человека более-менее коррелируют, они связаны, например рост и вес: обычно чем выше рост, тем больше вес и так далее.

Очень легко получить коэффициент корреляции, равный нулю, при ситуации, когда признаки связаны квадратичной зависимостью, когда они не линейные, а образуют такую параболу, тогда вполне нормально коэффициент будет равен нулю. То есть понятие некоррелированности соответствует тому, что нет линейной связи, а есть связь или нет — трудно сказать без дальнейших исследований. Вообще в этом анализе данных люди никогда не говорят о зависимости. В данном случае, например, вес и рост. Вес вроде действительно зависит от роста, потому что рост как бы дается от рождения, а вес меняется путем наедания. Но есть такие характеристики, например длина и радиус окружности, и известно какое-то соотношение, которое их связывает, но что из них — радиус или окружность — является ведущим? Поэтому это понятие о зависимости лучше не использовать в данном вопросе.