Foros-FIUBA :: Ver tema - regresion multiple

FAQ • Buscar • Wiki • Apuntes • Planet • Mapa • Eyeon • Chat
Preferencias • Grupos de Usuarios
Registrarse • Perfil • Entrá para ver tus mensajes privados • Login

regresion multiple

Ver tema siguiente
Ver tema anterior

Foros-FIUBA Foros » Académico » Materias » 71. Economía, Organización y Legal » 71.03 Estadística Técnica » regresion multiple

Autor

Mensaje

nicord
Nivel 5

Registrado: 25 Jun 2009
Mensajes: 127

Carrera: Industrial

Publicado: Mar Abr 26, 2011 8:54 pm Asunto: regresion multiple


buenas, tengo una gran duda con este tema aver si me pueden ayudar te dan una tabla de analisis de regresion hecha por el excel que le faltan datos y te piden que lo completes. supongamos una Y=f(X1;X2,X3), toman una muestra de 30 cosas, te dan como dato los coeficiones de regresion de cada variable (b1,b2,b3) y los errores tipicos, es decir sus desvios (estimados), entonces te piden que calcules los estadisticos t y que INTERPRETES la NO significatividad de la variable X2, en este caso al calcular los estadisticos (es decir hacer para cada variable b/s con los datos que me dan ...tira como resultado.. para X1 = -9.328 para X2= -1.2 para X3 = 5.68 , ahora vienen las dudas... 1) que significan los signos?, ¿hay que ponerlos? 2) en la tabla de formulas oficial. hay una formula dando vueltas para hacer inferencia en regresion multiple igualan los estadisticos de cada variable a una t-student de n-p grados de libertad, esa seria la condicion de rechazo?? 3) lo que se ve claramente es que para una t-student de 26 grados de libertad los estadisticos para x1 y x3 son fuertemente significativos (osea si agarro la tabla ninguno cumpliria la condicion de rechazo para valores razonables de alfa, en cambio el estadistico x2 esta cerca de los valores de la tabla, ahora la gran duda no entiendo porque igualan (en la tabla de formulas) la t-student con el estadistico, si partimos de la base de que estamos ensayando como hipotesis nula que los beta (coef de regresion) de cada variable son iguales a cero, entonces si rechazo esa hipotesis nula deberia haceptar el modelo, y deberia escribir como condicion de rechazo que los estadisticos sean mayores a la t-student, en este caso particular, los estadisticos son mayores a la t-student , por lo que se cumple condicion de rechazo entonces aceptaria el modelo, pero para el caso en el que el estadistico es igual (o aproximadamente igual)a la t-student (como pasa con la variable x2) no se comple la condicion de rechazo y podria aceptar la hipotesis nula de que el beta de esa variable es cero?? disculpen si no se entiende nada, trate de explicar lo mejor que pude.pero agradeceria alguna idea

pankreas
Nivel 9

Edad: 33
Registrado: 24 Feb 2009
Mensajes: 1513
Ubicación: The Ballesfield
Carrera: Industrial

Publicado: Mie Abr 27, 2011 12:30 pm Asunto: (Sin Asunto)


Hola nico, te respondo en base a las preguntas que formulaste: 1) Los signos son importantes. Al calcular bi/si estás calculando valores del dominio de la distribución t de student, que tiene media y mediana cero, es decir la mitad de sus valores son positivos y la mitad son negativos (imaginate a la t de student siempre como algo muy parecido a la normal estándar, de hecho para grados de libertad mayores a 20 son prácticamente iguales). 2) Supongamos que todos tus ensayos de validación son bilaterales (es decir no podés incorporar nada de información previa a los datos sobre la característica de tus variables). En la tabla igualan el estadístico bi/si a una t de student porque ES una t de student . Así como la normal estándar es un estimador menos su media, todo sobre el desvío del estimador; la t de student es el estimador menos su media, todo sobre la estimación del desvío del estimador (desvío desconocido, entonces se estima). Los S1, S2, S3 que te da la tabla del excel o que podrías calcular vos, son estimadores del desvío de cada uno de los estimadores de las pendientes de cuadrados mínimos (suena rebuscado pero es así). Con los valores calculados de b1, b2, b3 y sus respectivos S, te vas a ubicar en distintos lugares de la distribución t de student (acordate que estamos suponiendo que los parámetros reales valen 0, es decir la media de los estimadores es cero según la hipótesis). Ahora tu región crítica viene dada justamente por la tabla de fractiles y por tu nivel de significación. Suponete alfa=0,1, entonces tu intervalo de NO significatividad (es decir aquellos valores t obs que NO rechazan hipotesis) van a estar comprendidos entre un valor positivo (fractil 0,95) y un valor negativo (fractil 0,05) de la t de student. No tengo presente ahora bien los numeros, pero como dijiste vos, b1 y b3 son fuertemente significativos, es decir que es absurdo proponer como hipótesis que su valor es cero. En cambio el t obs correspondiente a b2 cae dentro del rango que no era crítico (comprendido entre los fractiles 0,05 y 0,95), entonces no podés afirmar que el parámetro beta2 es distinto de cero, por lo que esa variable podría jugarle en contra al modelo y tendrías que revisar el análisis exploratorio. Cualquier cosa que no te quede bien clara no dudes en contestar... Este cuatrimestre dieron poco y nada de tiempo para consultas pre-parcial porque la clase de multiple se extendió mucho asi que usen todo recurso virtual que encuentren. Saludos!

_________________
ñsdlgkfjdñflgjañdlfga

nicord
Nivel 5

Registrado: 25 Jun 2009
Mensajes: 127

Carrera: Industrial

Publicado: Mie Abr 27, 2011 6:51 pm Asunto: (Sin Asunto)


gracias!!, la verdad me quedo mucho mas claro, entonces en el ejercicio siguiente (3) te pide analizar justamente esto.... otra vez te dan una tabla con datos incompletos y te piden completarlos, entre ellos los limites inferior y superior de un intervalo de confianza para los bi (coef de regresion), 1) complete los valores de la tabla e indique si el modelo puede o no ser valido. puedo llegar a completar los valores de la tabla, pero para analizar si el modelo es valido o no tendria que ver el R2 que me da un valor de 0.982, pero no puedo decidir a partir del R2 si el modelo es valido o no, deberia ver tambien el S2 (o error tipico del excel al cuadrado), en este caso no tengo forma de comparar usando el S2, para ver si es el que tiene menos s2, con un buen R2 (para ver si es el mejor modelo de todos los posibles), otra punto es ver los estadisticos, que si no entendi mal usando las herramientas que me diste, puedo concluir que el intercepto y b3 caen dentro de la zona de no significatividad, por lo que no puedo afirmar que el parametro beta 0 y beta3 son distintos de cero, por lo que la variable x3 podria jugarle en contra al modelo, (pero que hay del intercepto???) preguntan) b)"interprete los coeficientes de regresion, indique si puede haber multicolinealidad y si puede considerarse quitar alguna variable, cual y porque" estamos en el mismo asunto, lo que usaria en este caso, son los valores del intervalo de confianza para los bi , tengo como dato los limites inferior y superior, como dijo el Ing. Gil "miren los intervalos de confianza, si cambian de signo entonces es porque el cero esta incluido dentro del intervalo", pero este no es, en definitiva el mismo analisis que hice en el punto anterior??, mirando los intervalos de confianza, llego a que para el intercepto y el b3 los limites cambian de signo, es decir que el cero es un valor posible para estos valores de b, por lo que la variable x3 podria estar jugandole en contra al modelo y es la principal candidata a ser eliminada, ahora, puede haber multicolinealidad??, que criterio uso?? puedo decir que en este caso puede llegar a haber multicolinealidad porque hay una variable que esta "de mas" y que al agregarla indefectiblemente me aumenta el R2, si tuviera los datos, correria en el excel el mismo modelo pero sin la variable X3, para tener un valor de S2 y poder compararlo con el S2 del modelo completo y a partir de ahi decidir... (ademas, si hubiera habido multicolinealidad esta planilla de excel no se hubiera corrido, pero creo que no es una buena justificacion teorica, ja) gracias otra vez

nicord
Nivel 5

Registrado: 25 Jun 2009
Mensajes: 127

Carrera: Industrial

Publicado: Mie Abr 27, 2011 7:00 pm Asunto: (Sin Asunto)


y sobre el intercepto, que tiene un estadistico no significativo contra una t-student de 6 grados de libertad , puede que el b0 sea positivo en vez de negativo??, digo, como no puedo afirmar nada sobre b0, entonces este podria tomar valores tanto positivos como negativos, y supongamos que el paramtro (el beta0 sea negativo),, el modelo que tengo me estima ese parametro con valores positivos para beta0, lo que seria una consecuencia de la multicolinealidad, que da signos cambiados para los coeficientes de regresion, esto podria pasar con estos datos, pero puedo usar este razonamiento para decidir si hay o no multicolinealidad????

pankreas
Nivel 9

Edad: 33
Registrado: 24 Feb 2009
Mensajes: 1513
Ubicación: The Ballesfield
Carrera: Industrial

Publicado: Mie Abr 27, 2011 9:21 pm Asunto: (Sin Asunto)

nicord escribió:

puedo llegar a completar los valores de la tabla, pero para analizar si el modelo es valido o no tendria que ver el R2 que me da un valor de 0.982, pero no puedo decidir a partir del R2 si el modelo es valido o no, deberia ver tambien el S2 (o error tipico del excel al cuadrado), en este caso no tengo forma de comparar usando el S2, para ver si es el que tiene menos s2, con un buen R2 (para ver si es el mejor modelo de todos los posibles),

Esto que decís vos corresponde al análisis exploratorio y no al confirmatorio. En el análisis exploratorio vos enlistás todos los modelos candidatos incluyendo las variables que tomaste datos, y ahí comparás todos los modelos ordenándolos en primera instancia según estimadores de varianza S cuadrado (fijate el Macro García para regresión que está colgado en el Campus, que es el que ordena modelos automáticamente que Gil mostró en la clase). Una vez que elegiste con qué modelo te vas a quedar teniendo en cuenta los indicadores que creas necesarios además del estimador de varianza (PRESS, Cp/p, etcétera), hacés el análisis confirmatorio que incluye la tabla de regresión y ANOVA que te da el excel, donde completás todos los coeficientes, evaluás la significatividad de las pendientes estimadas, etcétera. Para que ese modelo sea válido, TODOS los coeficientes de regresión tienen que ser significativos (hablo de las pendientes, vos no hacés ensayo sobre el intercepto ya que su valor te es indistinto, en cambio si no podés probar que las pendientes difieren de cero, cagaste).
Es decir, todos los ensayos de hipótesis sobre los bi los hacés una vez que ya hayas elegido tu modelo. En este ejercicio está puesto a propósito un modelo malo, para que pueda verse qué consecuencias trae.

Que un coeficiente no sea significativo directamente te liquida la variable, tenés que sacarla, no hay vuelta que darle porque es evidente que te está haciendo ruido (seguramente la causa es la multicolinealidad).

La matriz de coeficientes de correlación es la forma de poner en claro la multicolinealidad, ahí vos detectás de una qué variables te están molestando, aquellas que tienen un R mutuo cercano a 1.

Olvidate del intercepto porque los ensayos de validación se hacen sobre las pendientes estimadas. Que sus intervalos de confianza incluyan al cero puede ser claro sintoma de multicolinealidad porque la naturaleza de la variable se ve alterada (el sistema es únicamente confiable en predicciones en un entorno cercano a la recta de correlación de las variables, eso que Gil explicó con la analogía de la loza que se tambalea).

Creo que mezclando todas estas justificaciones recontra alcanza.

Suerte!

_________________
ñsdlgkfjdñflgjañdlfga

nicord
Nivel 5

Registrado: 25 Jun 2009
Mensajes: 127

Carrera: Industrial

Publicado: Sab Abr 30, 2011 3:19 pm Asunto: (Sin Asunto)


gracias che , la verdad ,muy claro

nicord
Nivel 5

Registrado: 25 Jun 2009
Mensajes: 127

Carrera: Industrial

Publicado: Sab Abr 30, 2011 4:58 pm Asunto: (Sin Asunto)


duda flash... como puedo identificar si lo que me piden son intervalos de confianza o intervalos de prediccion?? tengo entendido de que si te hablan de un valor puntual, es un intervalo de prediccion, pero si hablan de un promedio seria un intervalo de confianza, pero por ej en este caso, como dato tengo la funcion predictoria Y=f(x1,x2) y me dan tambien la matriz (xtx)-1 , y el valor puntual x=(1,8,70) " Para un cemento con una concentración del 8% del compuesto x1 y 70% del x2 ¿Cuál será el valor del calor desprendido(variable Y) promedio superado con un 95% de probabilidad? ", no entiendo, me estan pidiendo el de prediccion o el de confianza?, porque hablan de estimar un parametro para un valor puntual, pero subrayan que se debe estimar el valor de Y promedio...........???

lukegna
Nivel 6

Registrado: 14 Dic 2005
Mensajes: 298

Carrera: Industrial

Publicado: Mie Jun 01, 2011 4:39 pm Asunto: (Sin Asunto)


gente, tengo una duda existencial (y a la vez creo q fatal a esta altura..) como se calcula el nivel de significacion alfa* en una regresion lineal simple y/o multiple?? veo q calculan los estadisticos, y a mi entender con eso bastaría, pero el garcía siempre te da los alfa* y no te muestra su calculo. slds

_________________
Nuestro presidente ha sido derrocado y reemplazado por el benévolo general Kroll.
Todos amamos a Kroll y a su glorioso regimen.
Con amor, niñita

lukegna
Nivel 6

Registrado: 14 Dic 2005
Mensajes: 298

Carrera: Industrial

Publicado: Mie Jun 01, 2011 8:15 pm Asunto: (Sin Asunto)


3) Se estudia el calor desprendido durante la fase de fraguado de un cemento Portland en función de su composición. Para ello se tomaron 13 muestras con distinta concentración de 2 compuestos (A y B). El ingeniero a cargo del estudio aplicó un modelo de regresión lineal y obtuvo la siguiente ecuación: Y = 52.3773 + 1.4683xa + 0.6622xb Donde el calor desprendido se mide en Cal/gr de cemento y las concentraciones se expresan en %. Información útil: 0.9026 -0.0084 -0.0158 (x´x)^-1 = -0.0084 0.0025 -0.0002 -0.0158 -0.0002 0.0004 Suma de cuadrados de los residuos = 57.9 Suma de cuadrados total = 2715.76 Coeficiente de correlación entre las concentraciones = 0.2286 a) Investigue la validez del modelo y evalúe la multicolinealidad. b) Para un cemento con una concentración del 8% de A y 70% de B ¿Cuál será el valor de calor desprendido promedio superado con un 95% de probabilidad? en la parte a) utilizo Q= 57.9 y T= 2715.76 y con eso saco R^2; con Q y N-P saco S^2; despues con Rab=0.2286 armo la matriz de correlacion, saco su determinante y me dice si hay multicolinealidad o no.. el tema pasa cuando quiero sacar los estadisticos t1 y t2. segun la definicion, t1= b1/D(b1) y D(b1) = S^2*C11; donde C11 es el primer valor de la diagonal de la matriz (x´x)^-1; ahora bien, como tengo b1 = 1.4683 y b2 = 0.6622; le corresponden los valores C11 y C22 de la diagonal de (x´x)^-1 para calcular los estadisticos, no? entonces por q la matriz (x´x)^-1 es de 3x3??? tambien calculo el estadistico sobre b0?? esta parte no la entiendo.. muchas gracias.

_________________
Nuestro presidente ha sido derrocado y reemplazado por el benévolo general Kroll.
Todos amamos a Kroll y a su glorioso regimen.
Con amor, niñita

pankreas
Nivel 9

Edad: 33
Registrado: 24 Feb 2009
Mensajes: 1513
Ubicación: The Ballesfield
Carrera: Industrial

Publicado: Mie Jun 01, 2011 9:15 pm Asunto: (Sin Asunto)


Lukegna, dos cosas 1) El alfa asterisco en ejercicios de regresión múltple, donde se usa la t de Student, no se puede calcular con las herramientas que te dan en la clase (requiere calcularse una probabilidad con la distribución t de Student, cuya función de densidad es medio pesadita). García en su libro pone los resultados hechos en Excel o algun programa apropiado. Vos a modo comparativo resolvé el ejercicio normalmente y fijate si tu 't' observado está muy cerca o muy lejos del 't' crítico; que debería estar asociado a si el alfa asterisco está muy lejos o muy cerca del alfa del ensayo. 2) En el ejercicio que planteaste la matriz está dada con las variables no centradas, lo que le agrega una fila y una columna más. García en su libro usa variables centradas y en la práctica al menos los Lunes se dio todo con variables no centradas. De todas formas el ejercicio está bien resuelto así. Y ojo que es un error conceptual importante plantear un ensayo sobre el intercepto b0, por las dudas. Ya que lo que a vos te interesa saber es si son significativas las pendientes. Cualquier cosa chiflá

_________________
ñsdlgkfjdñflgjañdlfga

lukegna
Nivel 6

Registrado: 14 Dic 2005
Mensajes: 298

Carrera: Industrial

Publicado: Mie Jun 01, 2011 10:57 pm Asunto: (Sin Asunto)


buenisimo, me quedo mas tranquilo.. en la parte b) pide calcular un intervalo de prediccion, si no me equivoco. para eso tomo esa matriz y hago lo siguiente: Xo (x´x)^-1 Xo´, y luego continuo con el calculo de D^2(Yo) y el intervalo.. supuestamente sería Xo = (0.08 - Media Xa; 0.7 - Media Xb). pero me queda q Xo es un vector de 2 coordenadas, con lo cual no podria hacer el producto con la matriz.. como hago aca? desde ya te agradezco un monton. slds

_________________
Nuestro presidente ha sido derrocado y reemplazado por el benévolo general Kroll.
Todos amamos a Kroll y a su glorioso regimen.
Con amor, niñita

lukegna
Nivel 6

Registrado: 14 Dic 2005
Mensajes: 298

Carrera: Industrial

Publicado: Jue Jun 02, 2011 12:02 pm Asunto: (Sin Asunto)


una ultima pregunta.. como calculo el error tipico S y el intervalo de confianza de cada bi??? no lo encuentro.. muchas gracias.

_________________
Nuestro presidente ha sido derrocado y reemplazado por el benévolo general Kroll.
Todos amamos a Kroll y a su glorioso regimen.
Con amor, niñita

rafa_ruiz_17
Nivel 4

Registrado: 10 Dic 2010
Mensajes: 62

Publicado: Lun Oct 31, 2011 10:55 am Asunto: (Sin Asunto)


Tengo dudas sobre el mismo ejercicio (EJ 4 Practica 7). Si la matriz que esta expresada es la inversa de los valores no centrados (por eso es de 3x3), se supone que al hacerle la inversa el valor ubicado en aii deberia ser igual a n (observaciones, muestras), o sea, igual a 13 no?. Pero cuando calculo la inversa me da cualquier cosa la matriz XtxX especificamente: 5,95962355 40,47577661 255,6430185 40,47577661 691,5646495 1944,575501 255,6430185 1944,575501 13570,18698 Ojala alguno pueda darme una mano. Y me explique si pudo resolver este ejercicio.

Foros-FIUBA Foros » Académico » Materias » 71. Economía, Organización y Legal » 71.03 Estadística Técnica » regresion multiple

Cambiar a:

Ver tema siguiente
Ver tema anterior
Podés publicar nuevos temas en este foro
No podés responder a temas en este foro
No podés editar tus mensajes en este foro
No podés borrar tus mensajes en este foro
No podés votar en encuestas en este foro
No Podéspostear archivos en este foro
No Podés bajar archivos de este foro

Todas las horas son ART, ARST (GMT - 3, GMT - 2 Horas)
Protected by CBACK CrackerTracker
365 Attacks blocked.

Foros-FIUBA está hosteado en Neolo.com Cloud Hosting

[ Tiempo: 0.4305s ][ Pedidos: 20 (0.3516s) ]