X

Duas retas dos Mínimos Quadrados no mesmo conjunto de pontos?

Caro Professor,
eu estava olhando a apresentação chamada “Métodos quantitativos aplicados à pesquisa em ensino – Seminário 3“. Os primeiros slides são muito informativos! Mas eu queria falar do slide 22 Nele é mostrado que existe uma assimetria da regressão linear frente a escolha da variável “independente”. Parece que devo deduzir disso que a regressão linear é portanto uma metodologia imprópria para informar a respeito de relações matemáticas entre as duas variáveis? Deveria ser encontrar uma função tendo como requisito mínimo uma invariância frente a troca das “funções” das duas variáveis envolvidas. Será que tem algo elementar que eu não entendi?

Respondido por: Prof. Fernando Lang da Silveira - IF-UFRGS

Quando se ajusta uma reta a um conjunto de pontos (pares ordenados) pelo Método do Mínimos Quadrados (MMQ)  deve-se escolher qual é a variável independente. O ajuste  determina os dois parâmetros da reta que permite estimar valores para a variável dependente a partir de valores da variável independente (também chamada reta de regressão da variável dependente contra a variável independente) . A equação assim obtida não é adequada para estimar valores da variável independente a partir de valores da variável dependente conforme discutido a seguir.

A reta de regressão de Y contra X

Uma forma de se expressar a equação da reta obtida pelo MMQ (Ghiselli, 1964; Guilford e Fruchter, 1973), sendo X a variável independente e Y a variável dependente é a seguinte:

\hat{Y} = r_{XY}.\frac{S_{Y}}{S_{X}}.X + \left ( \bar{Y} - r_{XY}.\frac{S_{Y}}{S_{X}}.\bar{X} \right ) ,         (1)

onde \hat{Y} é o valor estimado de Y a partir de X , \bar{X} \bar{Y} são os valores médios das duas variáveis, S_{X} e S_{Y} são os desvios padrão das duas variáveis e r_{XY} é o coeficiente de correlação linear – ou coeficiente de correlação de Pearson  -, dado por

r_{XY} \equiv \frac{\bar{X.Y} - \bar{X}.\bar{Y}}{S_{X}.S_{Y}},         (2)

onde \bar{X.Y} é o valor médio do produto das duas variáveis.

O coeficiente de correlação de Pearson assume os valores extremos +1 ou -1 quando a reta se ajusta perfeitamente ao conjunto de pontos. O valor +1 ocorre quando a declividade da reta é positiva e o valor -1 quando a declividade da reta é negativa. Quanto maior em valor absoluto é o coeficiente de Pearson, tanto mais intensa é a relação entre as duas variáveis; o quadrado do coeficiente de correlação (denominado coeficiente de determinação) é a proporção da variância compartilhada entre as duas variáveis. A Figura 1 apresenta alguns diagramas de dispersão, obtidos por simulação pelo método de Monte Carlo, nos quais  consta a reta de regressão e o coeficiente de correlação.

A reta de regressão de X contra Y

A equação que permite estimar valores deX a partir de Y é a seguinte:

\hat{X} = r_{XY}.\frac{S_{X}}{S_{Y}}.Y + \left ( \bar{X} - r_{XY}.\frac{S_{X}}{S_{Y}}.\bar{Y} \right ) .            (2)

Propriedade das duas retas

Duas propriedades importantes das equações 1 e 2:

– As duas retas sempre se interceptam no centroide dos pares ordenados, isto é, no ponto (\bar{X} , \bar{Y} ).

– A declividade da reta 2 em relação ao eixo dos Y é r_{XY}.\frac{S_{X}}{S_{Y}.  O inverso dessa declividade fornece a declividade da reta 2 em relação ao eixo X , sendo portanto \frac{S_{Y}}{r_{XY}.S_{X}.  Nota-se que esta declividade difere da declividade que consta na equação 1 pelo fato de que o coeficiente de correlação estava no numerador agora aparece no denominador. Desta forma a reta 2 possui declividade igual ou maior (em valor absoluto) do que a da reta 1 em relação ao eixo X . As duas retas somente apresentam a mesma de declividade se o coeficiente correlação é igual a +1 ou a -1, isto é, quando os pontos se encontram perfeitamente sobre uma reta.

Na Figura 2 ambas as retas de regressão estão representadas. Nota-se que as duas retas, que sempre se interceptam no centroide da distribuição de pontos, são mais discrepantes entre si conforme diminui em valor absoluto o coeficiente de correlação.

A seguir são apresentados dois exemplos com dados reais.

Primeiro exemplo: Escolas brasileira no ENEM-2013

Na  Figura 3 cada ponto do diagrama de dispersão representa uma de 14715 escolas brasileiras. As medidas que correspondem a cada ponto são as médias dos alunos da escola que realizaram a prova de Redação e de Matemática no ENEM de 2013. Estão indicadas também as duas retas de regressão e suas equações, o coeficiente de correlação, o ponto de intersecção das retas (centroide da distribuição dos pontos).

 

Segundo exemplo: Determinação da força eletromotriz e da resistência interna de uma fonte

A Figura 4 apresenta os resultados experimentais para a diferença de potencial elétrico (V) entre os terminais de uma fonte CC em função da intensidade da corrente elétrica (i) demandada. O coeficiente de correlação entre as duas variáveis também está na figura.

A ddp (V) está relacionada com a intensidade da corrente (i), com a força eletromotriz (fem) e com a resistência interna (r) à fonte pela seguinte equação:

  V = fem - r.i.      (3)

Ou então,

i= \frac{fem}{r} - \frac{1}{r}.V.      (4)

Cada uma das equações leva a uma reta de regressão e, portanto, resulta em duas determinações dos parâmetros força eletromotriz (fem) e resistência interna (r).

A discrepância entre as duas retas de regressão é pequena, quase imperceptível (há duas retas, uma vermelha e outra azul na Figura 4, quase idênticas), pois o coeficiente de correlação é muito próximo de -1. Abaixo encontram-se os valores dos parâmetros obtidos quando

–  a variável independente é i: r = 1,889 k\Omega  e  fem=1,544V;

– a variável independente é V: r = 1,904 k\Omega  e  fem=1,550V.

 

Conclusão

Quando há forte correlação entre as variáveis (situação usualmente encontrada com medidas em laboratórios de Física), as duas retas de regressão são quase idênticas, levando a resultados semelhantes, conforme o segundo exemplo evidenciou.

Em estudos correlacionais que buscam investigar a existência de relação entre variáveis nas ciências sociais ou psicológicas, de um modo geral, não ocorrem coeficientes de correlação próximos da unidade. Correlações fracas, embora estatisticamente significativas, muitas vezes são importantes teoricamente e também permitem, com uma margem grande de incerteza, a predição de valores de uma delas a partir do conhecimento da outra. Nestes casos as duas equações de regressão se diferenciam de maneira notória e cada uma das equações serve a objetivos diferentes conforme destacado no primeiro parágrafo.

REFERÊNCIAS.

Ghiselli, E. E. Theory of psychological measurement. Tata MeGraw-Hill, Bombay, 1964.

Guilford, J. P. E Fruchter, B. Fundamental statistics in psychology  and education. McGraw-Hill, New York, 1973.

OBSERVAÇÃO: como este questionamento foi feito no Research Gate, lá também se encontra em documento pdf esta resposta. Vide Duas retas dos Mínimos Quadrados no mesmo conjunto de pontos?

 

Comentários aditados em 09/08/2022:

– O coeficiente de correlação de Pearson é invariante frente a troca de uma variável pela outra, assim como também é invariante frente a mudanças de escala em qualquer uma das variáveis. Ele é a declividade da reta de regressão de Y contra X ou de X contra Y quando as variáveis estão padronizadas, isto é, possuem médias nulas e variâncias unitárias.

–  Sobre relação de causalidade. Mesmo quando a correlação é extremamente forte, a relação de causalidade não está garantida. A correlação ou variação concomitante entre duas variáveis é apenas uma das três condições para se estabelecer uma relação causal. As outras duas são: a prova da relação temporal (efeito não antecede a causa no tempo); a prova da exclusão de outras variáveis explicando a variação concomitante.

– Quando  teoricamente é esperada uma correlação perfeita entre duas variáveis (por exemplo, no caso da relação entre temperatura e volume em um gás ideal sob pressão constante), as medidas dessas duas variáveis em laboratório não resultarão em um coeficiente de correlação igual +1 por causa dos erros de medida. A propósito veja Sobre a determinação do zero absoluto.

“Docendo discimus.” (Sêneca)

 


2 comentários em “Duas retas dos Mínimos Quadrados no mesmo conjunto de pontos?

  1. Professor, A Análise de Regressão não tem por objetivo estabelecer uma Relação de Causa e Efeito. E no cálculo do Coeficiente Correlação podemos ver que tanto faz falar Y está ou não relacionada com X ou falar X está ou não relacionada a Y. Isto pode ver visto na Tabela do Cálculo do Coeficiente de Relação de Pearson onde podemos trocar as duas Colunas de Y e de X que o Resultado numérico do Coeficiente de Correlação de Pearson é o mesmo. É claro que se um fenômeno Físico tipo X=Temperatura e y=Pressão vai mostra uma relação Forte ou seja Coeficiente de Correlação exatamente igual a 1 (Relação extremamente Forte), pois neste caso a Correção entre X e Y (ou entre X e Y) já é uma Correlação de Causa e Efeito. A Curva de Regressão é a que estudamos em Física na parte de Termodinâmica uma Equação mostrando que quando A Temperatura aumenta a Pressão aumenta também.

    • Fernando Lang disse:

      – O coeficiente de correlação de Pearson é invariante frente a troca de uma variável pela outra, assim como também é invariante frente a mudanças de escala em qualquer uma das variáveis. Ele é a declividade da reta de regressão de Y contra X ou de X contra Y quando as variáveis estão padronizadas, isto é, possuem médias nulas e variâncias unitárias.

      – Mesmo quando a correlação é extremamente forte, a relação de causalidade não está garantida. A correlação ou variação concomitante entre duas variáveis é apenas uma das três condições para se estabelecer uma relação causal. As outras duas são: a prova da relação temporal (efeito não antece a causa no tempo); a prova da exclusão de outras variáveis explicando a variação concomitante.

      – Mesmo quando esperamos teoricamente que a correlação entre duas variáveis seja perfeita (por exemplo, no caso da relação entre temperatura e volume em um gás ideal sob pressão constante), as medidas dessas duas variáveis em laboratório não resultarão em um coeficiente de correlação igual +1 por causa dos erros de medida. A propósito veja Sobre a determinação do zero absoluto.

Deixe um comentário para Fernando Lang Cancelar resposta

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *