Giới thiệu
Covariance ( Hiệp phương sai ) và Correlation ( Hệ số đối sánh tương quan ) là hai khái niệm trong nghành nghề dịch vụ Tỷ Lệ thống kê. Cả hai khái niệm này đều nói về mối quan hệ giữa hai biến với nhau, hay nói cách khác hai chỉ số này dùng để biểu lộ sự nhờ vào giữa hai biến .Bạn đang xem : Correlation là gì
Covariance là gì?
Covariance bộc lộ mối quan hệ giữa hai biến với nhau, hoàn toàn có thể là đồng biến ( positive covariance ) hoặc nghịch biến ( negative covariance ) .
Định nghĩa : Cho 2 biến ngẫu nhiên X, Y với kì vọng \mu_{X} và \mu_{Y} covariance của X, Y được tính bằng công thức :
Cov ( X, Y ) = E ( ( X – \ mu_X ) ( Y – \ mu_Y ) )Các đặc thù của Covariance :Cov(aX + b, cY + d) = acCov(X,Y) với a, b, c, d cho trướcCov(X_1 + X_2, Y) = Cov(X_1, Y) + Cov(X_2, Y)Cov(X, X) = Var(X)Cov(X, Y) = E(XY) – \mu_X\mu_YVar(X, Y) = Var(X) + Var(Y) + 2Cov(X, Y)Nếu X, Y độc lập thì Cov(X, Y) = 0.Cov ( aX + b, cY + d ) = acCov ( X, Y ) với a, b, c, d cho trướcCov ( X_1 + X_2, Y ) = Cov ( X_1, Y ) + Cov ( X_2, Y ) Cov ( X, X ) = Var ( X ) Cov ( X, Y ) = E ( XY ) – \ mu_X \ mu_YVar ( X, Y ) = Var ( X ) + Var ( Y ) + 2C ov ( X, Y ) Nếu X, Y độc lập thì Cov ( X, Y ) = 0 .Xem thêm : Tìm Hiểu Bí Mật Ngành Hr Dept Là Gì ? Bộ Phận Hr Trong Ngành Nhà Hàng
Lưu ý :
Từ 3 và 4 ta có Var ( X ) = E ( X ^ 2 ) – \ mu ^ 2 _x. Nếu X, Y độc lập từ 5 hoàn toàn có thể suy ra được Var ( X, Y ) = Var ( X ) + Var ( Y ). Với 6, điều ngược lại không đúng, nghĩa là Cov ( X, Y ) = 0 không có nghĩa là X, Y độc lập với nhau. Ví dụ X = và Y = X ^ 2 = < 4, 1, 1, 4 > khi đó Cov ( X, Y ) = 0
Correlation là gì?
Để bộc lộ mối quan hệ giữa 2 biến là “ mạnh ” hay “ yếu ”, tất cả chúng ta sử dụng correlation thay cho covariance .
Định nghĩa : Correlation coefficient của hai biến X và Y được tính theo công thức
Cor ( X, Y ) = \ rho = \ frac { Cov ( X, Y ) } { \ sigma_X \ sigma_Y }
Các tính chất của Corelation :
Correlation là Covariance được chuẩn hóa của hai biến X, YCorrelation thể hiện một tỉ lệ, do đó nó không có đơn vị đo-1 \leq \rho \leq 1\rho = -1 khi và chỉ khi Y = aX + b và a và \rho = 1 khi và chỉ khi Y = aX + b và a > 0Correlation là Covariance được chuẩn hóa của hai biến X, YCorrelation bộc lộ một tỉ lệ, do đó nó không có đơn vị chức năng đo-1 \ leq \ rho \ leq 1 \ rho = – 1 khi và chỉ khi Y = aX + b và a và \ rho = 1 khi và chỉ khi Y = aX + b và a > 0Chứng minh đặc thù 3 :0 \ leq Var ( \ frac { X } { \ sigma_X } – \ frac { Y } { \ sigma_Y } ) = Var ( \ frac { X } { \ sigma_X } ) + Var ( \ frac { Y } { \ sigma_Y } ) – 2C ov ( \ frac { X } { \ sigma_X }, \ frac { Y } { \ sigma_Y } ) = 2 – 2 \ rho \ Rightarrow \ rho \ leq 1 .Tương tự 0 \ leq Var ( \ frac { X } { \ sigma_X } + \ frac { Y } { \ sigma_Y } ) \ Rightarrow \ rho \ geqslant – 1Biểu diễn mối quan hệ X, và Y với giá trị rho ( correlation )
So sánh giữa covariance và correlation
Cả covariance và correlation đều thể hiện mối quan hệ giữa hai biến.Covariance có range từ -\infty đến +\infty. Correlation nằm trong khoảng từ – 1 đến 1.Covariance thể hiện mối quan hệ giữa hai biến, correlation thể hiện được mối quan hệ giữa hai hoặc nhiều biến.
Ví dụ
Cả covariance và correlation đều biểu lộ mối quan hệ giữa hai biến. Covariance có range từ – \ infty đến + \ infty. Correlation nằm trong khoảng chừng từ – 1 đến 1. Covariance bộc lộ mối quan hệ giữa hai biến, correlation biểu lộ được mối quan hệ giữa hai hoặc nhiều biến .Tập dữ liệu view của 2 kênh truyền hình tại 1 thời gian ( 20 h – 21 h thứ năm mỗi tuần ) trong 1 tháng làX = (50772, 73756, 74251, 77601)Y = (102492, 100406, 97762, 98191)X = ( 50772, 73756, 74251, 77601 ) Y = ( 102492, 100406, 97762, 98191 )
Ta tiến hành tính các thông số cơ bản
Mean_X = (50772 + 73756 + 74251 + 77601)/ 4 = 69095.00Mean Y = 99712.75std_X^2 = ((50772 – Mean_X)^2 +(73756 – Mean_X)^2 +… ) / 4 = 114098405.5 => std_X = 10681.69std_Y = 1892.48Mean_X = ( 50772 + 73756 + 74251 + 77601 ) / 4 = 69095.00 Mean Y = 99712.75 std_X ^ 2 = ( ( 50772 – Mean_X ) ^ 2 + ( 73756 – Mean_X ) ^ 2 + … ) / 4 = 114098405.5 => std_X = 10681.69 std_Y = 1892.48Từ đó ta tính covariance và correlationCov(X, Y) = ((50772 – 69095.00) * (102492 – 99712.75) + (73756 – 69095.00) * (100406 – 99712.75) + …) / 4 = -17673758.0Corr (X,Y ) = Cov(X, Y) / (std_X * std_Y) = -17673758.0 / ( 10681.69 * 1892.48) = -0.87
Cov ( X, Y ) = ( ( 50772 – 69095.00 ) * ( 102492 – 99712.75 ) + ( 73756 – 69095.00 ) * ( 100406 – 99712.75 ) + … ) / 4 = – 17673758.0 Corr ( X, Y ) = Cov ( X, Y ) / ( std_X * std_Y ) = – 17673758.0 / ( 10681.69 * 1892.48 ) = – 0.87