TeX 容量超出,抱歉 [参数堆栈大小=10000]。 \textbf\documentclass

TeX 容量超出,抱歉 [参数堆栈大小=10000]。 \textbf\documentclass

尝试运行我的 latex 文件时出现此错误。序言是这样的,我不知道您是否可以帮我解决这个问题,或者我是否必须复制整个文件(共 378 行)。它有用于表格的 R 代码,我使用 Windows。

\documentclass[11pt]{article}
\usepackage{booktabs}
\usepackage{dcolumn}
\usepackage{listings}
\setlength{\pdfpagewidth}{8.5in} \setlength{\pdfpageheight}{11in}
\usepackage[spanish]{babel}
\usepackage[latin1]{inputenc}
\usepackage[pdftex]{graphicx} % LaTeX
\usepackage{rotating, hyperref, float}
\usepackage{anysize}
\marginsize{3cm}{3cm}{2.5cm}{2.5cm}
\title{Guía N°2 Análisis de Datos Categóricos}
\author{Camila Barraza}

\begin{document}
    \maketitle
    \section{Ejercicio 1}
    \noindent Para encontrar la probabilidad de que cada equipo gane a partir de las odds, primero es necesario despejar la fórmula de las odds.\\
    $$ Odds = \frac{\pi}{1-\pi} $$
    $$ Odds (1-\pi) = \pi $$
    $$ Odds - Odds\pi = \pi $$
    $$ Odds = Odds\pi + \pi$$
    $$ Odds = \pi(Odds + 1)$$
    $$ \pi = \frac{Odds}{Odds + 1} $$\\
    \noindent Con la fórmula para $\pi$ ya es posible calcular las probabilidades de que cada equipo gane, simplemente remplazando las odds de Italia.\\
    $$\pi = \frac{1.1}{1.1 + 1} $$
    $$\pi = \frac{1.1}{2.1}$$
    $$\pi = 0.52$$\\ 
    \noindent Las probabilidades de que Italia gane y clasifique son de 0.52, o 52\%.\\
    \noindent Al calcular de la misma manera las probabilidades de Bulgaria, se obtiene como resultados que las probabilidades de que este equipo gane y clasifique son de 0.23 o 23\%.\\
    $$\pi = \frac{0.3}{0.3 + 1} $$
    $$\pi = \frac{0.3}{1.3}$$
    $$\pi = 0.23$$ 
    \section{Ejercicio 2}
    \noindent De la fórmula del modelo logit es posible llegar a la fórmula de $\pi$, siguiendo los siguientes pasos:\\
    $$\log\frac{\pi}{1-\pi} = \eta i$$
    $$\frac{\pi}{1-\pi} = \exp(\eta i)$$
    $$\pi = \exp(\eta i) (1-\pi)$$
    $$\pi = \exp(\eta i) - \exp(\eta i) \pi$$
    $$\pi + \exp(\eta i) \pi = \exp (\eta i)$$
    $$\pi (1 + \exp (\eta i)) = \exp (\eta i)$$
    $$\pi = \frac{\exp (\eta i)}{1 + \exp (\eta i)}$$\\
    \section{Ejercicio 3}
    \subsection{Modelo probabilidad lineal}
    \noindent El modelo 0 tiene como variable de respuesta la frecuencia de asistencia a servicios religiosos, y como predictores el sexo, la edad, el estado civil, la educación, la religión y la zona.\\ 
    \noindent La variable original para edad tiene valores entre 18 y 96, por lo que se decidió centrarla restándole el valor mínimo con el objetivo de que facilitar la interpretación de los coeficientes.\\
    \begin{lstlisting}[language=R]
    > summary (edadc)
    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
    0.00   14.00   28.00   28.86   42.00   78.00 
    \end{lstlisting}
    % Table created by stargazer v.5.2 by Marek Hlavac, Harvard University. E-mail: hlavac at fas.harvard.edu
    % Table created by stargazer v.5.2 by Marek Hlavac, Harvard University. E-mail: hlavac at fas.harvard.edu
    % Date and time: sáb, sep 26, 2015 - 13:14:50
    \begin{table}[htbp!] \centering 
        \caption{Tabla1. Modelo regresión lineal} 
        \label{} 
        \begin{tabular}{@{\extracolsep{5pt}}lc} 
            \\[-1.8ex]\hline 
            \hline \\[-1.8ex] 
            & \multicolumn{1}{c}{\textit{Dependent variable:}} \\ 
            \cline{2-2} 
            \\[-1.8ex] & frecsevrel \\ 
            \hline \\[-1.8ex] 
            hombre & $-$0.047$^{**}$ \\ 
            & (0.024) \\ 
            & \\ 
            edadc & 0.003$^{***}$ \\ 
            & (0.001) \\ 
            & \\ 
            estcivilCasado & 0.087$^{***}$ \\ 
            & (0.029) \\ 
            & \\ 
            estcivilVuido & 0.049 \\ 
            & (0.051) \\ 
            & \\ 
            estcivilSepa/Divo/Anu & 0.079$^{*}$ \\ 
            & (0.042) \\ 
            & \\ 
            educa & 0.002 \\ 
            & (0.006) \\ 
            & \\ 
            religidEvangélico & 0.245$^{***}$ \\ 
            & (0.030) \\ 
            & \\ 
            religidOtra Rel. & 0.151$^{**}$ \\ 
            & (0.072) \\ 
            & \\ 
            religidIrreligioso & $-$0.303$^{***}$ \\ 
            & (0.033) \\ 
            & \\ 
            urbano & $-$0.072$^{**}$ \\ 
            & (0.032) \\ 
            & \\ 
            Constant & 0.290$^{***}$ \\ 
            & (0.045) \\ 
            & \\ 
            \hline \\[-1.8ex] 
            Observations & 1,480 \\ 
            R$^{2}$ & 0.167 \\ 
            Adjusted R$^{2}$ & 0.161 \\ 
            Residual Std. Error & 0.439 (df = 1469) \\ 
            F Statistic & 29.373$^{***}$ (df = 10; 1469) \\ 
            \hline 
            \hline \\[-1.8ex] 
            \textit{Note:}  & \multicolumn{1}{r}{$^{*}$p$<$0.1; $^{**}$p$<$0.05; $^{***}$p$<$0.01} \\ 
        \end{tabular} 
    \end{table}
    \noindent\textit{a) Efecto marginal del nivel educacional}\\
    \noindent El efecto marginal del nivel educacional, una variable que no está incluida como interacción con otros predictores corresponde al coeficiente de regresión $\beta$. Para el caso del nivel educacional, el efecto que produce en la frecuencia de asistencia a servicios religiosos cuando el resto de las variables es constante, es positivo con una magnitud 0.002, aunque no es estadísticamente significativo.\\
    \noindent\textit{b) Valores predichos del modelo}\\
    \noindent La siguiente tabla muestra los valores predichos para el modelo 0 (V1). Considerando que la variable dependiente es de carácter categórico con opciones de respuesta que solo pueden tomar valores 0 y 1, la probabilidad de ocurrencia de la asistencia a servicios religiosos debe tener también valores restringidos entre 0 y 1, o 0\% a 100\% de probabilidades. Sin embargo, la tabla muestra valores que escapan a este rango (mín. -0.12; máx. 0.81), por lo que se concluye que un modelo de probabilidades lineales no es la mejor herramienta para predecir este tipo de variables.\\
    % latex table generated in R 3.2.1 by xtable 1.7-4 package
    % Sat Sep 26 13:37:30 2015
    \begin{table}[ht!]
        \centering
        \begin{tabular}{rll}
            \hline
            &       V1 &       V2 \\ 
            \hline
            1 & Min.   :-0.1228   & Min.   :-0.7396   \\ 
            2 & 1st Qu.: 0.2495   & 1st Qu.:-0.3841   \\ 
            3 & Median : 0.3884   & Median :-0.1249   \\ 
            4 & Mean   : 0.3588   & Mean   : 0.0000   \\ 
            5 & 3rd Qu.: 0.4723   & 3rd Qu.: 0.4602   \\ 
            6 & Max.   : 0.8118   & Max.   : 1.0376   \\ 
            \hline
        \end{tabular}
    \end{table}
    \subsection{Estimación de modelos logit}
    \noindent M1: hombre, edadc, educación, religión (católicos como referencia) y posición política (derecha como referencia).\\
    \noindent M1: hombre, edadc, educación, religión (católicos como referencia), posición política (derecha como referencia) y estado civil (solteros como referencia).\\
    \noindent M1: hombre, edadc, educación, religión (católicos como referencia), posición política (derecha como referencia), estado civil (solteros como referencia) y urbano.\\
    \begin{table}[htbp!]
        \caption{Tabla2. Modelos logit}
        \begin{center}
            \begin{tabular}{l c c c }
                \hline
                & Modelo 1 & Modelo 2 & Modelo 3 \\
                \hline
                (Intercept)           & $-1.15^{***}$ & $-1.30^{***}$ & $-1.10^{***}$ \\
                & $(0.26)$      & $(0.27)$      & $(0.28)$      \\
                hombre                & $-0.22$       & $-0.22$       & $-0.23$       \\
                & $(0.12)$      & $(0.12)$      & $(0.13)$      \\
                edadc                 & $0.02^{***}$  & $0.01^{**}$   & $0.02^{***}$  \\
                & $(0.00)$      & $(0.00)$      & $(0.00)$      \\
                educa                 & $0.00$        & $-0.00$       & $0.02$        \\
                & $(0.03)$      & $(0.03)$      & $(0.03)$      \\
                religidEvangélico     & $1.06^{***}$  & $1.05^{***}$  & $1.06^{***}$  \\
                & $(0.14)$      & $(0.15)$      & $(0.15)$      \\
                religidOtra Rel.      & $0.63$        & $0.59$        & $0.62$        \\
                & $(0.33)$      & $(0.34)$      & $(0.34)$      \\
                religidIrreligioso    & $-3.35^{***}$ & $-3.33^{***}$ & $-3.34^{***}$ \\
                & $(0.51)$      & $(0.51)$      & $(0.51)$      \\
                pospolCentro          & $0.11$        & $0.10$        & $0.13$        \\
                & $(0.24)$      & $(0.24)$      & $(0.24)$      \\
                pospolIzquierda       & $-0.21$       & $-0.21$       & $-0.20$       \\
                & $(0.21)$      & $(0.21)$      & $(0.21)$      \\
                pospolNinguna/Ns      & $0.15$        & $0.15$        & $0.18$        \\
                & $(0.17)$      & $(0.17)$      & $(0.17)$      \\
                estcivilCasado        &               & $0.51^{***}$  & $0.49^{**}$   \\
                &               & $(0.15)$      & $(0.15)$      \\
                estcivilVuido         &               & $0.28$        & $0.28$        \\
                &               & $(0.26)$      & $(0.26)$      \\
                estcivilSepa/Divo/Anu &               & $0.46^{*}$    & $0.48^{*}$    \\
                &               & $(0.22)$      & $(0.22)$      \\
                urbano                &               &               & $-0.38^{*}$   \\
                &               &               & $(0.17)$      \\
                \hline
                AIC                   & 1659.06       & 1652.76       & 1649.50       \\
                BIC                   & 1712.06       & 1721.66       & 1723.70       \\
                Log Likelihood        & -819.53       & -813.38       & -810.75       \\
                Deviance              & 1639.06       & 1626.76       & 1621.50       \\
                R2 McFadden           & 0.15          & 0.16          & 0.16          \\
                Num. obs.             & 1480          & 1480          & 1480          \\
                \hline
                \multicolumn{4}{l}{\scriptsize{$^{***}p<0.001$, $^{**}p<0.01$, $^*p<0.05$}}
            \end{tabular}
            \label{table:coefficients}
        \end{center}
    \end{table}
    \subsection{Evaluación de hipótesis nula sobre posición política}
    \noindent La hipótesis nula "la posición política de los entrevistados no afecta la frecuencia con que asisten a servicios religiosos" puede expresarse formalmente de la siguiente manera:\\
    $H0 = \beta centro = \beta izquierda = \beta ninguna = 0$\\
    \noindent\textit{Test de Wald}\\
    \noindent El test de Wald compara los efectos de las categorías de posición política centro, izquierda y ninguna sobre la variable dependiente, bajo una distribución chi^{2}, teniendo como hipótesis nula que los efectos deberían ser iguales a 0.\\
    \begin{lstlisting}[language=R]
    > wald.test(b=coef(m2), Sigma=vcov(m2), Terms=7:9)
    Wald test:
    ----------
    Chi-squared test:
    X2 = 45.0, df = 3, P(> X2) = 9.2e-10
    \end{lstlisting}
    \noindent El valor crítico $P(> X2) = 9.2e-10$ es menor que el $\alpha$ = 0.1 definido para un 90\% de confianza, por lo que habría evidencia suficiente para rechazar la hipótesis nula.\\
    \noindent\textit{Máxima Verosimilitud}\\
    \noindent Para evaluar el efecto de la posición política con un test de Máxima Verosimilitud se construyó un cuarto modelo restringido sin esta variable, siendo posible compararlo con el modelo 2.\\
    \begin{lstlisting}[language=R]
    > m4 = glm(frecsevrel~hombre+edadc+educa+religid+estcivil, family=binomial(link="logit"))
    > xtable(anova(m4,m2, test="LRT"))
    \end{lstlisting}
    % latex table generated in R 3.2.1 by xtable 1.7-4 package
    % Sat Sep 26 13:52:33 2015
    \begin{table}[ht!]
        \centering
        \begin{tabular}{lrrrrr}
            \hline
            & Resid. Df & Resid. Dev & Df & Deviance & Pr($>$Chi) \\ 
            \hline
            1 & 1470 & 1632.00 &  &  &  \\ 
            2 & 1467 & 1626.76 & 3 & 5.24 & 0.1549 \\ 
            \hline
        \end{tabular}
    \end{table}
    \noindent La tabla muestra un valor crítico de 0.15 para el test de máxima verosimilitud, lo que considerando un $\alpha$ = 0.1, o 90\% de confianza, indica que no existe evidencia suficiente para rechazar la hipótesis nula. Se puede obtener el mismo valor haciendo el cálculo de manera manual\\
    \begin{lstlisting}[language=R]
    > trv = -2 *(logLik(m4)[1] - logLik(m2)[1])
    > trv
    [1] 5.242383
    > 1-pchisq(trv,df=3)
    [1] 0.1548851
    \end{lstlisting}
    \subsection{Evaluación de hipótesis nula sobre diferencias entre estar casado y separado, separado o anulado}
    \noindent La afirmación "comparado con estar soltero, el efecto de estar casado sobre la frecuencia con que las personas asisten a servicios religiosos es igual al efecto de ser separado/divorciado/anulado" puede formalizarse en la siguiente hipótesis nula:\\
    $H0 = \beta casado = \beta separado/divorciado/anulado$\\
    \noindent\textit{Test de Wald}\\
    \noindent Para evaluar esta hipótesis nula ser realizó nuevamente un test de Wald, esta vez calculado manualmente en base a los resultados del modelo 2.\\
    \begin{lstlisting}[language=R]
    > nume.w = (m2$coef["estcivilCasado"] - m2$coef["estcivilSepa/Divo/Anu"])^2
    > deno.w = vcov(m2)["estcivilCasado","estcivilCasado"] +
    +   vcov(m2)["estcivilSepa/Divo/Anu","estcivilSepa/Divo/Anu"] -
    +   2*vcov(m2)["estcivilCasado","estcivilSepa/Divo/Anu"]
    > w = nume.w/deno.w
    > w
    estcivilCasado 
    0.0674213 
    > 1-pchisq(w,1)
    estcivilCasado 
    0.795129
    \end{lstlisting}
    \noindent El test de Wald da como resultado un valor crítico de 0.79, lo que considerando un $\alpha = 0.05$, no entrega evidencia suficiente para rechazar la hipótesis nula. En términos sustantivos, pudiera afirmarse que no existirían diferencias entre estar casado y estar separado, divorciado o anulado en la asistencia a servicios religiosos.\\
    \subsection{Comparación de devianzas entre M2 y M3}
    \noindent La comparación de modelos mediante la comparación de Devianzas $G^{2}$ puede formalizarse de la siguiente manera:\\
    $\bigtriangleup G^{2} = Gr^{2} - Gc^{2}$\\
    \noindent En este caso, el modelo 2 es el restringido y el modelo 3 es el completo, existiendo entre ambos una diferencia de 1 parámetro (ser urbano), lo que informa de los grados de libertad necesarios para hacer el cálculo.\\
    \begin{lstlisting}[language=R]
    > compdev=1626.76 - 1621.50
    > compdev
    [1] 5.26
    > 1-pchisq(compdev,df=1)
    [1] 0.02182102
    \end{lstlisting}
    \noindent El resultado de la diferencia de Devianzas da como resultado 0.02, lo que considerando un 95\% de confianza indicaría que existen diferencias significativas entre ambos modelos, ya que el valor es menor que el $\alpha = 0.05$ correspondiente, justificando optar por el modelo más complejo. Sin embargo, al considerar como suficiente un 99\% de confianza el valor debería ser menor que $\alpha$ = 0.01, lo que estadísticamente no significaría una justificación inmediata del modelo más complejo, o en otras palabras, la inclusión de la variable urbano.\\
    \noindent También es posible llegar al mismo resultado de la diferencia de devianzas al observar la siguiente tabla:\\

    % latex table generated in R 3.2.1 by xtable 1.7-4 package
    % Sat Sep 26 13:55:58 2015
    \begin{table}[ht!]
        \centering
        \begin{tabular}{lrrrr}
            \hline
            & Resid. Df & Resid. Dev & Df & Deviance \\ 
            \hline
            1 & 1467 & 1626.76 &  &  \\ 
            2 & 1466 & 1621.50 & 1 & 5.26 \\ 
            \hline
        \end{tabular}
    \end{table}
    \noindent Y repetir el cálculo:\\
    \begin{lstlisting}[language=R]
    > 1-pchisq(5.26,df=1)
    [1] 0.02182102
    \end{lstlisting}
    \subsection{Bondad de ajuste M1, M2 y M3}
    \noindent Para evaluar la bondad de ajuste de los tres modelos logit estimados es necesario recordar la tabla 2. Por una parte, el estadístico AIC desciende presenta una disminución de 10 puntos aproximadamente entre el primero y el tercero, lo que podría indicar un mejor ajuste de los modelos más complejos. Sin embargo, la mayor diferencia se presenta entre el modelo 1 y el modelo 2 (cerca de 7 puntos), mientras que entre éste y el tercero había una diferencia de 3 puntos aproximados solamente. El estadístico BIC es más exigente que AIC en la justificación de modelos más complejos para muestras grandes como la utilizada, esta característica se hace evidente en los valores, que contradicen a AIC. En este caso, el estadístico aumenta en casi 10 puntos entre M1 y M2, y en 3 puntos entre éste y M3.\\
    \noindent Hasta el momento la información sobre la bondad de ajuste no es concluyente sino que de hecho, contradictoria. Por esto, se analizará la Devianza y el Pseudo R^{2} de McFadden. El primer estadístico disminuye en más de 10 puntos entre M1 y M2, y en menor magnitud entre éste y M3, lo que parecería seguir la dirección de AIC con respecto al ajuste de los modelos, justificando estadísticamente la adopción de modelos más complejos, aunque favoreciendo a M2 sobre M3. El R^{2} de McFadden tenderá a 1 en la medida en que los modelos tienen mejor ajuste. En general los valores para los modelos son pequeños, y aunque hay un aumento entre M1 y M2 éste es menor (y no-existente entre M2 y M3).\\
    \noindent En base a esta información se podría afirmar que habrían más razones estadísticas para preferir el modelo 2 entre los tres, ya que tres de los cuatro indicadores analizados parecen apuntar en aquella dirección. Sin embargo, esto no quiere decir que teóricamente no habrían razones para justificar la elección del modelo más complejo, si es que existiera un interés específico o literatura que informara de una relación entre la zona (urbana o rural) y la asistencia a servicios religiosos.\\
    \subsection{R^{2} de Recuento y R^{2} de Recuento Ajustado}
    \noindent Otra forma de evaluar la bondad de ajuste de los modelos estimados es considerar el R^{2} de Recuento y el R^{2} de Recuento Ajustado, que entregan información sobre el porcentaje de casos correctamente predichos.\\
    \noindent\textit{R^{2} de Recuento M2}
    \noindent En primer lugar se crearon nuevos objetos con los valores predichos para los modelos, en forma de variables categóricas para la predicción y la no predicción (teniendo como parámetro para la predicción $"1 si ^ i > 0;5"$), y luego calculando de manera manual las proporciones de acuerdo a una tabla de dos entradas.\\
    \begin{lstlisting}[language=R]
    > frecsevrel=factor(frecsevrel, labels = c("No asiste", "Asiste"))
    > cep2$valores2[fitted(m2)>=0.5]=1
    > cep2$valores2[fitted(m2)<0.5]=0
    > xtable(table(cep2$frecsevrel, cep2$valores))
    \end{lstlisting}
    % latex table generated in R 3.2.1 by xtable 1.7-4 package
    % Sat Sep 26 19:58:04 2015
    \begin{table}[ht!]
        \centering
        \begin{tabular}{lrrr}
            \hline
            & 0    & 1   & Total\\ 
            \hline
            0     & 830  & 119 & 949\\ 
            1     & 337  & 194 & 531\\
            Total & 1167 & 313 & 1480\\
            \hline
        \end{tabular}
    \end{table}
    \noindent Para calcular el R^{2} de Recuento seguimos la siguiente fórmula, aplicándola a los valores obtenidos de la tabla anterior.\\
    $R^{2}rec = \frac{1}{N} \Sigma njj$ \\
    \begin{lstlisting}[language=R]
    > table(cep2$frecsevrel, cep2$valores2)
    0   1
    0 830 119
    1 337 194
    > (830+194)/1480
    [1] 0.6918919>
    \end{lstlisting}
    \noindent El resultado del cálculo da 0.7, lo que puede interpretarse como que el modelo 2 realiza predicciones correctas para el 70\% de los casos.\\
    \noindent\textit{R^{2} de Recuento M3}
    \noindent Se realiza el mismo procedimiento para el modelo 3:\\
    \begin{lstlisting}[language=R]
    > frecsevrel=factor(frecsevrel, labels = c("No asiste", "Asiste"))
    > cep2$valores3[fitted(m2)>=0.5]=1
    > cep2$valores3[fitted(m2)<0.5]=0
    > xtable(table(cep2$frecsevrel, cep2$valores3))
    \end{lstlisting}
    % latex table generated in R 3.2.1 by xtable 1.7-4 package
    % Sat Sep 26 19:58:04 2015
    \begin{table}[ht!]
        \centering
        \begin{tabular}{lrrr}
            \hline
            & 0    & 1   & Total\\ 
            \hline
            0     & 827  & 122 & 949\\ 
            1     & 321  & 210 & 531\\
            Total & 1167 & 313 & 1480\\
            \hline
        \end{tabular}
    \end{table}
    \begin{lstlisting}[language=R]
    > table(cep2$frecsevrel, cep2$valores3)
    0   1
    0 827 122
    1 321 210
    > (827+210)/1480
    [1] 0.7006757
    \end{lstlisting}
    \noindent El R^{2} de Recuento para el modelo 3 también da como resultado un 70\% de predicciones correctas. Esta información apoya los datos anteriores con respecto a la escasa mejora que representa el modelo 3 con respecto al modelo 2, desde el punto de vista de la capacidad explicativa en términos estadísticos.\\
        \noindent\textit{R^{2} de Recuento Ajustado}
    \noindent la fórmula para calcular el R^{2} de Recuento Ajustado es algo distinta a la anterior:\\
    $R^{2}rec Adj = \frac{\Sigma j njj - maxf (nf+)}{N - maxf (nf+)}$\\
    \noindent Para el modelo 2 el cálculo se muestra a continuación.\\
    \begin{lstlisting}[language=R]
    > (830+194-949)/(1480-949)
    [1] 0.1412429
    \end{lstlisting}
    \noindent Mientras que para el modelo 3 es el siguiente:\\
    \begin{lstlisting}[language=R]
    > (827+210-949)/(1480-949)
    [1] 0.165725
    \end{lstlisting}
    \noindent El cálculo R^{2} de Recuento Ajustado indica que el modelo 2 permite una reducción del error de predicción de un 14\%, mientras que el modelo 3 generaría una disminución de este error de un 17\% aproximado. Nuevamente la información de la bondad de ajuste es algo contradictoria, aunque teniendo todos los estadísticos en mente se podría afirmar que si bien el modelo 3 no es concluyentemente mejor que su antecesor, existirían razones para no descartar posibles efectos de vivir en zonas urbanas en la asistencia a servicios religiosos.\\
\end{document}

答案1

使用我当前的 MiKTeX 2.9,我可以在纠正$系统报告的缺失内容后编译您的代码。

您的文档中有几处地方R^{2}需要更改才能$R^{2}$正常^工作。

我重新排列了您的包调用的顺序,现在您的代码在我的计算机上编译时没有出现错误或警告。

请尝试以下代码:

\documentclass[11pt]{article}

\usepackage[spanish]{babel}
\usepackage[latin1]{inputenc}

\usepackage{booktabs}
\usepackage{dcolumn}
\usepackage{listings}

\usepackage[pdftex]{graphicx} % LaTeX
\usepackage{rotating, float}
\usepackage{anysize}
\usepackage{hyperref}

\setlength{\pdfpagewidth}{8.5in} \setlength{\pdfpageheight}{11in}
\marginsize{3cm}{3cm}{2.5cm}{2.5cm}
\title{Guía N°2 Análisis de Datos Categóricos}
\author{Camila Barraza}

\begin{document}
    \maketitle
    \section{Ejercicio 1}
    \noindent Para encontrar la probabilidad de que cada equipo gane a partir de las odds, primero es necesario despejar la fórmula de las odds.\\
    $$ Odds = \frac{\pi}{1-\pi} $$
    $$ Odds (1-\pi) = \pi $$
    $$ Odds - Odds\pi = \pi $$
    $$ Odds = Odds\pi + \pi$$
    $$ Odds = \pi(Odds + 1)$$
    $$ \pi = \frac{Odds}{Odds + 1} $$\\
    \noindent Con la fórmula para $\pi$ ya es posible calcular las probabilidades de que cada equipo gane, simplemente remplazando las odds de Italia.\\
    $$\pi = \frac{1.1}{1.1 + 1} $$
    $$\pi = \frac{1.1}{2.1}$$
    $$\pi = 0.52$$\\ 
    \noindent Las probabilidades de que Italia gane y clasifique son de 0.52, o 52\%.\\
    \noindent Al calcular de la misma manera las probabilidades de Bulgaria, se obtiene como resultados que las probabilidades de que este equipo gane y clasifique son de 0.23 o 23\%.\\
    $$\pi = \frac{0.3}{0.3 + 1} $$
    $$\pi = \frac{0.3}{1.3}$$
    $$\pi = 0.23$$ 
    \section{Ejercicio 2}
    \noindent De la fórmula del modelo logit es posible llegar a la fórmula de $\pi$, siguiendo los siguientes pasos:\\
    $$\log\frac{\pi}{1-\pi} = \eta i$$
    $$\frac{\pi}{1-\pi} = \exp(\eta i)$$
    $$\pi = \exp(\eta i) (1-\pi)$$
    $$\pi = \exp(\eta i) - \exp(\eta i) \pi$$
    $$\pi + \exp(\eta i) \pi = \exp (\eta i)$$
    $$\pi (1 + \exp (\eta i)) = \exp (\eta i)$$
    $$\pi = \frac{\exp (\eta i)}{1 + \exp (\eta i)}$$\\
    \section{Ejercicio 3}
    \subsection{Modelo probabilidad lineal}
    \noindent El modelo 0 tiene como variable de respuesta la frecuencia de asistencia a servicios religiosos, y como predictores el sexo, la edad, el estado civil, la educación, la religión y la zona.\\ 
    \noindent La variable original para edad tiene valores entre 18 y 96, por lo que se decidió centrarla restándole el valor mínimo con el objetivo de que facilitar la interpretación de los coeficientes.\\
    \begin{lstlisting}[language=R]
    > summary (edadc)
    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
    0.00   14.00   28.00   28.86   42.00   78.00 
    \end{lstlisting}
    % Table created by stargazer v.5.2 by Marek Hlavac, Harvard University. E-mail: hlavac at fas.harvard.edu
    % Table created by stargazer v.5.2 by Marek Hlavac, Harvard University. E-mail: hlavac at fas.harvard.edu
    % Date and time: sáb, sep 26, 2015 - 13:14:50
    \begin{table}[htbp!] \centering 
        \caption{Tabla1. Modelo regresión lineal} 
        \label{tab1:lineal} 
        \begin{tabular}{@{\extracolsep{5pt}}lc} 
            \\[-1.8ex]\hline 
            \hline \\[-1.8ex] 
            & \multicolumn{1}{c}{\textit{Dependent variable:}} \\ 
            \cline{2-2} 
            \\[-1.8ex] & frecsevrel \\ 
            \hline \\[-1.8ex] 
            hombre & $-$0.047$^{**}$ \\ 
            & (0.024) \\ 
            & \\ 
            edadc & 0.003$^{***}$ \\ 
            & (0.001) \\ 
            & \\ 
            estcivilCasado & 0.087$^{***}$ \\ 
            & (0.029) \\ 
            & \\ 
            estcivilVuido & 0.049 \\ 
            & (0.051) \\ 
            & \\ 
            estcivilSepa/Divo/Anu & 0.079$^{*}$ \\ 
            & (0.042) \\ 
            & \\ 
            educa & 0.002 \\ 
            & (0.006) \\ 
            & \\ 
            religidEvangélico & 0.245$^{***}$ \\ 
            & (0.030) \\ 
            & \\ 
            religidOtra Rel. & 0.151$^{**}$ \\ 
            & (0.072) \\ 
            & \\ 
            religidIrreligioso & $-$0.303$^{***}$ \\ 
            & (0.033) \\ 
            & \\ 
            urbano & $-$0.072$^{**}$ \\ 
            & (0.032) \\ 
            & \\ 
            Constant & 0.290$^{***}$ \\ 
            & (0.045) \\ 
            & \\ 
            \hline \\[-1.8ex] 
            Observations & 1,480 \\ 
            R$^{2}$ & 0.167 \\ 
            Adjusted R$^{2}$ & 0.161 \\ 
            Residual Std. Error & 0.439 (df = 1469) \\ 
            F Statistic & 29.373$^{***}$ (df = 10; 1469) \\ 
            \hline 
            \hline \\[-1.8ex] 
            \textit{Note:}  & \multicolumn{1}{r}{$^{*}$p$<$0.1; $^{**}$p$<$0.05; $^{***}$p$<$0.01} \\ 
        \end{tabular} 
    \end{table}
    \noindent\textit{a) Efecto marginal del nivel educacional}\\
    \noindent El efecto marginal del nivel educacional, una variable que no está incluida como interacción con otros predictores corresponde al coeficiente de regresión $\beta$. Para el caso del nivel educacional, el efecto que produce en la frecuencia de asistencia a servicios religiosos cuando el resto de las variables es constante, es positivo con una magnitud 0.002, aunque no es estadísticamente significativo.\\
    \noindent\textit{b) Valores predichos del modelo}\\
    \noindent La siguiente tabla muestra los valores predichos para el modelo 0 (V1). Considerando que la variable dependiente es de carácter categórico con opciones de respuesta que solo pueden tomar valores 0 y 1, la probabilidad de ocurrencia de la asistencia a servicios religiosos debe tener también valores restringidos entre 0 y 1, o 0\% a 100\% de probabilidades. Sin embargo, la tabla muestra valores que escapan a este rango (mín. -0.12; máx. 0.81), por lo que se concluye que un modelo de probabilidades lineales no es la mejor herramienta para predecir este tipo de variables.\\
    % latex table generated in R 3.2.1 by xtable 1.7-4 package
    % Sat Sep 26 13:37:30 2015
    \begin{table}[ht!]
        \centering
        \begin{tabular}{rll}
            \hline
            &       V1 &       V2 \\ 
            \hline
            1 & Min.   :-0.1228   & Min.   :-0.7396   \\ 
            2 & 1st Qu.: 0.2495   & 1st Qu.:-0.3841   \\ 
            3 & Median : 0.3884   & Median :-0.1249   \\ 
            4 & Mean   : 0.3588   & Mean   : 0.0000   \\ 
            5 & 3rd Qu.: 0.4723   & 3rd Qu.: 0.4602   \\ 
            6 & Max.   : 0.8118   & Max.   : 1.0376   \\ 
            \hline
        \end{tabular}
    \end{table}
    \subsection{Estimación de modelos logit}
    \noindent M1: hombre, edadc, educación, religión (católicos como referencia) y posición política (derecha como referencia).\\
    \noindent M1: hombre, edadc, educación, religión (católicos como referencia), posición política (derecha como referencia) y estado civil (solteros como referencia).\\
    \noindent M1: hombre, edadc, educación, religión (católicos como referencia), posición política (derecha como referencia), estado civil (solteros como referencia) y urbano.\\
    \begin{table}[htbp!]
        \caption{Tabla2. Modelos logit}
        \label{table:coefficients}
        \begin{center}
            \begin{tabular}{l c c c }
                \hline
                & Modelo 1 & Modelo 2 & Modelo 3 \\
                \hline
                (Intercept)           & $-1.15^{***}$ & $-1.30^{***}$ & $-1.10^{***}$ \\
                & $(0.26)$      & $(0.27)$      & $(0.28)$      \\
                hombre                & $-0.22$       & $-0.22$       & $-0.23$       \\
                & $(0.12)$      & $(0.12)$      & $(0.13)$      \\
                edadc                 & $0.02^{***}$  & $0.01^{**}$   & $0.02^{***}$  \\
                & $(0.00)$      & $(0.00)$      & $(0.00)$      \\
                educa                 & $0.00$        & $-0.00$       & $0.02$        \\
                & $(0.03)$      & $(0.03)$      & $(0.03)$      \\
                religidEvangélico     & $1.06^{***}$  & $1.05^{***}$  & $1.06^{***}$  \\
                & $(0.14)$      & $(0.15)$      & $(0.15)$      \\
                religidOtra Rel.      & $0.63$        & $0.59$        & $0.62$        \\
                & $(0.33)$      & $(0.34)$      & $(0.34)$      \\
                religidIrreligioso    & $-3.35^{***}$ & $-3.33^{***}$ & $-3.34^{***}$ \\
                & $(0.51)$      & $(0.51)$      & $(0.51)$      \\
                pospolCentro          & $0.11$        & $0.10$        & $0.13$        \\
                & $(0.24)$      & $(0.24)$      & $(0.24)$      \\
                pospolIzquierda       & $-0.21$       & $-0.21$       & $-0.20$       \\
                & $(0.21)$      & $(0.21)$      & $(0.21)$      \\
                pospolNinguna/Ns      & $0.15$        & $0.15$        & $0.18$        \\
                & $(0.17)$      & $(0.17)$      & $(0.17)$      \\
                estcivilCasado        &               & $0.51^{***}$  & $0.49^{**}$   \\
                &               & $(0.15)$      & $(0.15)$      \\
                estcivilVuido         &               & $0.28$        & $0.28$        \\
                &               & $(0.26)$      & $(0.26)$      \\
                estcivilSepa/Divo/Anu &               & $0.46^{*}$    & $0.48^{*}$    \\
                &               & $(0.22)$      & $(0.22)$      \\
                urbano                &               &               & $-0.38^{*}$   \\
                &               &               & $(0.17)$      \\
                \hline
                AIC                   & 1659.06       & 1652.76       & 1649.50       \\
                BIC                   & 1712.06       & 1721.66       & 1723.70       \\
                Log Likelihood        & -819.53       & -813.38       & -810.75       \\
                Deviance              & 1639.06       & 1626.76       & 1621.50       \\
                R2 McFadden           & 0.15          & 0.16          & 0.16          \\
                Num. obs.             & 1480          & 1480          & 1480          \\
                \hline
                \multicolumn{4}{l}{\scriptsize{$^{***}p<0.001$, $^{**}p<0.01$, $^*p<0.05$}}
            \end{tabular}
        \end{center}
    \end{table}
    \subsection{Evaluación de hipótesis nula sobre posición política}
    \noindent La hipótesis nula "la posición política de los entrevistados no afecta la frecuencia con que asisten a servicios religiosos" puede expresarse formalmente de la siguiente manera:\\
    $H0 = \beta centro = \beta izquierda = \beta ninguna = 0$\\
    \noindent\textit{Test de Wald}\\
    \noindent El test de Wald compara los efectos de las categorías de posición política centro, izquierda y ninguna sobre la variable dependiente, bajo una distribución $chi^{2}$, teniendo como hipótesis nula que los efectos deberían ser iguales a 0.\\
    \begin{lstlisting}[language=R]
    > wald.test(b=coef(m2), Sigma=vcov(m2), Terms=7:9)
    Wald test:
    ----------
    Chi-squared test:
    X2 = 45.0, df = 3, P(> X2) = 9.2e-10
    \end{lstlisting}
    \noindent El valor crítico $P(> X2) = 9.2e-10$ es menor que el $\alpha$ = 0.1 definido para un 90\% de confianza, por lo que habría evidencia suficiente para rechazar la hipótesis nula.\\
    \noindent\textit{Máxima Verosimilitud}\\
    \noindent Para evaluar el efecto de la posición política con un test de Máxima Verosimilitud se construyó un cuarto modelo restringido sin esta variable, siendo posible compararlo con el modelo 2.\\
    \begin{lstlisting}[language=R]
    > m4 = glm(frecsevrel~hombre+edadc+educa+religid+estcivil, family=binomial(link="logit"))
    > xtable(anova(m4,m2, test="LRT"))
    \end{lstlisting}
    % latex table generated in R 3.2.1 by xtable 1.7-4 package
    % Sat Sep 26 13:52:33 2015
    \begin{table}[ht!]
        \centering
        \begin{tabular}{lrrrrr}
            \hline
            & Resid. Df & Resid. Dev & Df & Deviance & Pr($>$Chi) \\ 
            \hline
            1 & 1470 & 1632.00 &  &  &  \\ 
            2 & 1467 & 1626.76 & 3 & 5.24 & 0.1549 \\ 
            \hline
        \end{tabular}
    \end{table}
    \noindent La tabla muestra un valor crítico de 0.15 para el test de máxima verosimilitud, lo que considerando un $\alpha$ = 0.1, o 90\% de confianza, indica que no existe evidencia suficiente para rechazar la hipótesis nula. Se puede obtener el mismo valor haciendo el cálculo de manera manual\\
    \begin{lstlisting}[language=R]
    > trv = -2 *(logLik(m4)[1] - logLik(m2)[1])
    > trv
    [1] 5.242383
    > 1-pchisq(trv,df=3)
    [1] 0.1548851
    \end{lstlisting}
    \subsection{Evaluación de hipótesis nula sobre diferencias entre estar casado y separado, separado o anulado}
    \noindent La afirmación "comparado con estar soltero, el efecto de estar casado sobre la frecuencia con que las personas asisten a servicios religiosos es igual al efecto de ser separado/divorciado/anulado" puede formalizarse en la siguiente hipótesis nula:\\
    $H0 = \beta casado = \beta separado/divorciado/anulado$\\
    \noindent\textit{Test de Wald}\\
    \noindent Para evaluar esta hipótesis nula ser realizó nuevamente un test de Wald, esta vez calculado manualmente en base a los resultados del modelo 2.\\
    \begin{lstlisting}[language=R]
    > nume.w = (m2$coef["estcivilCasado"] - m2$coef["estcivilSepa/Divo/Anu"])^2
    > deno.w = vcov(m2)["estcivilCasado","estcivilCasado"] +
    +   vcov(m2)["estcivilSepa/Divo/Anu","estcivilSepa/Divo/Anu"] -
    +   2*vcov(m2)["estcivilCasado","estcivilSepa/Divo/Anu"]
    > w = nume.w/deno.w
    > w
    estcivilCasado 
    0.0674213 
    > 1-pchisq(w,1)
    estcivilCasado 
    0.795129
    \end{lstlisting}
    \noindent El test de Wald da como resultado un valor crítico de 0.79, lo que considerando un $\alpha = 0.05$, no entrega evidencia suficiente para rechazar la hipótesis nula. En términos sustantivos, pudiera afirmarse que no existirían diferencias entre estar casado y estar separado, divorciado o anulado en la asistencia a servicios religiosos.\\
    \subsection{Comparación de devianzas entre M2 y M3}
    \noindent La comparación de modelos mediante la comparación de Devianzas $G^{2}$ puede formalizarse de la siguiente manera:\\
    $\bigtriangleup G^{2} = Gr^{2} - Gc^{2}$\\
    \noindent En este caso, el modelo 2 es el restringido y el modelo 3 es el completo, existiendo entre ambos una diferencia de 1 parámetro (ser urbano), lo que informa de los grados de libertad necesarios para hacer el cálculo.\\
    \begin{lstlisting}[language=R]
    > compdev=1626.76 - 1621.50
    > compdev
    [1] 5.26
    > 1-pchisq(compdev,df=1)
    [1] 0.02182102
    \end{lstlisting}
    \noindent El resultado de la diferencia de Devianzas da como resultado 0.02, lo que considerando un 95\% de confianza indicaría que existen diferencias significativas entre ambos modelos, ya que el valor es menor que el $\alpha = 0.05$ correspondiente, justificando optar por el modelo más complejo. Sin embargo, al considerar como suficiente un 99\% de confianza el valor debería ser menor que $\alpha$ = 0.01, lo que estadísticamente no significaría una justificación inmediata del modelo más complejo, o en otras palabras, la inclusión de la variable urbano.\\
    \noindent También es posible llegar al mismo resultado de la diferencia de devianzas al observar la siguiente tabla:\\

    % latex table generated in R 3.2.1 by xtable 1.7-4 package
    % Sat Sep 26 13:55:58 2015
    \begin{table}[ht!]
        \centering
        \begin{tabular}{lrrrr}
            \hline
            & Resid. Df & Resid. Dev & Df & Deviance \\ 
            \hline
            1 & 1467 & 1626.76 &  &  \\ 
            2 & 1466 & 1621.50 & 1 & 5.26 \\ 
            \hline
        \end{tabular}
    \end{table}
    \noindent Y repetir el cálculo:\\
    \begin{lstlisting}[language=R]
    > 1-pchisq(5.26,df=1)
    [1] 0.02182102
    \end{lstlisting}
    \subsection{Bondad de ajuste M1, M2 y M3}
    \noindent Para evaluar la bondad de ajuste de los tres modelos logit estimados es necesario recordar la tabla 2. Por una parte, el estadístico AIC desciende presenta una disminución de 10 puntos aproximadamente entre el primero y el tercero, lo que podría indicar un mejor ajuste de los modelos más complejos. Sin embargo, la mayor diferencia se presenta entre el modelo 1 y el modelo 2 (cerca de 7 puntos), mientras que entre éste y el tercero había una diferencia de 3 puntos aproximados solamente. El estadístico BIC es más exigente que AIC en la justificación de modelos más complejos para muestras grandes como la utilizada, esta característica se hace evidente en los valores, que contradicen a AIC. En este caso, el estadístico aumenta en casi 10 puntos entre M1 y M2, y en 3 puntos entre éste y M3.\\
    \noindent Hasta el momento la información sobre la bondad de ajuste no es concluyente sino que de hecho, contradictoria. Por esto, se analizará la Devianza y el Pseudo $R^{2}$ de McFadden. El primer estadístico disminuye en más de 10 puntos entre M1 y M2, y en menor magnitud entre éste y M3, lo que parecería seguir la dirección de AIC con respecto al ajuste de los modelos, justificando estadísticamente la adopción de modelos más complejos, aunque favoreciendo a M2 sobre M3. El $R^{2}$ de McFadden tenderá a 1 en la medida en que los modelos tienen mejor ajuste. En general los valores para los modelos son pequeños, y aunque hay un aumento entre M1 y M2 éste es menor (y no-existente entre M2 y M3).\\
    \noindent En base a esta información se podría afirmar que habrían más razones estadísticas para preferir el modelo 2 entre los tres, ya que tres de los cuatro indicadores analizados parecen apuntar en aquella dirección. Sin embargo, esto no quiere decir que teóricamente no habrían razones para justificar la elección del modelo más complejo, si es que existiera un interés específico o literatura que informara de una relación entre la zona (urbana o rural) y la asistencia a servicios religiosos.\\
    \subsection[R*R de Recuento y R*R de Recuento Ajustado]{$R^{2}$ de Recuento y $R^{2}$ de Recuento Ajustado}
    \noindent Otra forma de evaluar la bondad de ajuste de los modelos estimados es considerar el $R^{2}$ de Recuento y el $R^{2}$ de Recuento Ajustado, que entregan información sobre el porcentaje de casos correctamente predichos.\\
    \noindent\textit{$R^{2}$ de Recuento M2}
    \noindent En primer lugar se crearon nuevos objetos con los valores predichos para los modelos, en forma de variables categóricas para la predicción y la no predicción (teniendo como parámetro para la predicción $"1 si ^ i > 0;5"$), y luego calculando de manera manual las proporciones de acuerdo a una tabla de dos entradas.\\
    \begin{lstlisting}[language=R]
    > frecsevrel=factor(frecsevrel, labels = c("No asiste", "Asiste"))
    > cep2$valores2[fitted(m2)>=0.5]=1
    > cep2$valores2[fitted(m2)<0.5]=0
    > xtable(table(cep2$frecsevrel, cep2$valores))
    \end{lstlisting}
    % latex table generated in R 3.2.1 by xtable 1.7-4 package
    % Sat Sep 26 19:58:04 2015
    \begin{table}[ht!]
        \centering
        \begin{tabular}{lrrr}
            \hline
            & 0    & 1   & Total\\ 
            \hline
            0     & 830  & 119 & 949\\ 
            1     & 337  & 194 & 531\\
            Total & 1167 & 313 & 1480\\
            \hline
        \end{tabular}
    \end{table}
    \noindent Para calcular el $R^{2}$ de Recuento seguimos la siguiente fórmula, aplicándola a los valores obtenidos de la tabla anterior.\\
    $R^{2}rec = \frac{1}{N} \Sigma njj$ \\
    \begin{lstlisting}[language=R]
    > table(cep2$frecsevrel, cep2$valores2)
    0   1
    0 830 119
    1 337 194
    > (830+194)/1480
    [1] 0.6918919>
    \end{lstlisting}
    \noindent El resultado del cálculo da 0.7, lo que puede interpretarse como que el modelo 2 realiza predicciones correctas para el 70\% de los casos.\\
    \noindent\textit{$R^{2}$ de Recuento M3}
    \noindent Se realiza el mismo procedimiento para el modelo 3:\\
    \begin{lstlisting}[language=R]
    > frecsevrel=factor(frecsevrel, labels = c("No asiste", "Asiste"))
    > cep2$valores3[fitted(m2)>=0.5]=1
    > cep2$valores3[fitted(m2)<0.5]=0
    > xtable(table(cep2$frecsevrel, cep2$valores3))
    \end{lstlisting}
    % latex table generated in R 3.2.1 by xtable 1.7-4 package
    % Sat Sep 26 19:58:04 2015
    \begin{table}[ht!]
        \centering
        \begin{tabular}{lrrr}
            \hline
            & 0    & 1   & Total\\ 
            \hline
            0     & 827  & 122 & 949\\ 
            1     & 321  & 210 & 531\\
            Total & 1167 & 313 & 1480\\
            \hline
        \end{tabular}
    \end{table}
    \begin{lstlisting}[language=R]
    > table(cep2$frecsevrel, cep2$valores3)
    0   1
    0 827 122
    1 321 210
    > (827+210)/1480
    [1] 0.7006757
    \end{lstlisting}
    \noindent El $R^{2}$ de Recuento para el modelo 3 también da como resultado un 70\% de predicciones correctas. Esta información apoya los datos anteriores con respecto a la escasa mejora que representa el modelo 3 con respecto al modelo 2, desde el punto de vista de la capacidad explicativa en términos estadísticos.\\
        \noindent\textit{$R^{2}$ de Recuento Ajustado}
    \noindent la fórmula para calcular el $R^{2}$ de Recuento Ajustado es algo distinta a la anterior:\\
    $R^{2}rec Adj = \frac{\Sigma j njj - maxf (nf+)}{N - maxf (nf+)}$\\
    \noindent Para el modelo 2 el cálculo se muestra a continuación.\\
    \begin{lstlisting}[language=R]
    > (830+194-949)/(1480-949)
    [1] 0.1412429
    \end{lstlisting}
    \noindent Mientras que para el modelo 3 es el siguiente:\\
    \begin{lstlisting}[language=R]
    > (827+210-949)/(1480-949)
    [1] 0.165725
    \end{lstlisting}
    \noindent El cálculo $R^{2}$ de Recuento Ajustado indica que el modelo 2 permite una reducción del error de predicción de un 14\%, mientras que el modelo 3 generaría una disminución de este error de un 17\% aproximado. Nuevamente la información de la bondad de ajuste es algo contradictoria, aunque teniendo todos los estadísticos en mente se podría afirmar que si bien el modelo 3 no es concluyentemente mejor que su antecesor, existirían razones para no descartar posibles efectos de vivir en zonas urbanas en la asistencia a servicios religiosos.\\
\end{document}

结果(第 9 页底部):

在此处输入图片描述

请将我的代码与您的代码进行比较,以查找所有更改(例如,在 Windows 中,您可以使用工具 winmerge)。

答案2

您需要将所有实例置于R^{2}数学模式以使代码可编译。

一些评论:您的文档存在过多的视觉格式问题,这使得代码非常难以理解,并且输出不达标。如果您自学更多(和正确的)LaTeX 语法、宏和环境,那么您(和文档的读者)将受益匪浅。这样,您就可以将精力集中在内容您的文档;让 LaTeX 来完成处理格式化这一不那么令人兴奋的工作。

我已经检查过你的代码并进行了一些清理;我相信你还能修复更多问题。以下屏幕截图仅显示了下面代码的第一页。

在此处输入图片描述

\documentclass[11pt,letterpaper]{article}
\usepackage{booktabs,listings,caption}
\usepackage{siunitx}
\sisetup{parse-numbers = false,
         output-decimal-marker={,}}
\setlength{\pdfpagewidth}{8.5in} \setlength{\pdfpageheight}{11in}
\usepackage[spanish]{babel}
\usepackage[utf8]{inputenc}

\usepackage{anysize}
\marginsize{3cm}{3cm}{2.5cm}{2.5cm}

\usepackage{graphicx} 
\usepackage{parskip,amsmath,rotating, float, hyperref }

\title{Guía N\textsuperscript{o}2 Análisis de Datos Categóricos}

\author{Camila Barraza}
\date{}  % insert real date if needed

\begin{document}

\maketitle

\section{Ejercicio 1}

Para encontrar la probabilidad de que cada equipo gane a partir de las \textit{Odds}, primero es necesario despejar la fórmula de las \textit{Odds}.
    \begin{gather*}
     \textit{Odds} = \frac{\pi}{1-\pi} \\
     \textit{Odds} (1-\pi) = \pi \\
     \textit{Odds} - \textit{Odds}\,\pi = \pi \\
     \textit{Odds} = \textit{Odds}\,\pi + \pi\\
     \textit{Odds} = \pi(\textit{Odds} + 1)\\
     \pi = \frac{\textit{Odds}}{\textit{Odds} + 1}
    \end{gather*}
Con la fórmula para $\pi$ ya es posible calcular las probabilidades de que cada equipo gane, simplemente remplazando las \textit{Odds} de Italia.
\begin{gather*}
    \pi = \frac{1.1}{1.1 + 1} \\
    \pi = \frac{1.1}{2.1}\\
    \pi = 0.52
\end{gather*}
Las probabilidades de que Italia gane y clasifique son de 0.52, o 52\%.

Al calcular de la misma manera las probabilidades de Bulgaria, se obtiene como resultados que las probabilidades de que este equipo gane y clasifique son de 0.23 o 23\%.
\begin{gather*}
    \pi = \frac{0.3}{0.3 + 1} \\
    \pi = \frac{0.3}{1.3}\\
    \pi = 0.23
\end{gather*}

\section{Ejercicio 2}

De la fórmula del modelo logit es posible llegar a la fórmula de $\pi$, siguiendo los siguientes pasos:
\begin{gather*}
    \log\frac{\pi}{1-\pi} = \eta_i\\
    \frac{\pi}{1-\pi} = \exp(\eta_i)\\
    \pi = \exp(\eta_i) (1-\pi)\\
    \pi = \exp(\eta_i) - \exp(\eta_i) \pi\\
    \pi + \exp(\eta_i) \pi = \exp (\eta_i)\\
    \pi (1 + \exp (\eta_i)) = \exp (\eta_i)\\
    \pi = \frac{\exp (\eta_i)}{1 + \exp (\eta_i)}
\end{gather*}


\section{Ejercicio 3}

\subsection{Modelo probabilidad lineal}

El modelo 0 tiene como variable de respuesta la frecuencia de asistencia a servicios religiosos, y como predictores el sexo, la edad, el estado civil, la educación, la religión y la zona.

La variable original para edad tiene valores entre 18 y 96, por lo que se decidió centrarla restándole el valor mínimo con el objetivo de que facilitar la interpretación de los coeficientes.

    \begin{lstlisting}[language=R]
    > summary (edadc)
    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
    0.00   14.00   28.00   28.86   42.00   78.00 
    \end{lstlisting}

    % Table created by stargazer v.5.2 by Marek Hlavac, Harvard University. E-mail: hlavac at fas.harvard.edu
    % Table created by stargazer v.5.2 by Marek Hlavac, Harvard University. E-mail: hlavac at fas.harvard.edu
    % Date and time: sáb, sep 26, 2015 - 13:14:50

    \begin{table}[htbp!] 
        \caption{Modelo regresión lineal} 
        \label{} 
        \centering 
        Dependent variable: frecsevrel     

        \begin{tabular}{l S[table-format=-1.6] } 
            \addlinespace
            \toprule 
            hombre & -0.047^{**} \\ 
            & (0.024) \\ \addlinespace
            edadc  & 0.003^{***} \\ 
            & (0.001) \\ \addlinespace 
            estcivilCasado & 0.087^{***} \\ 
            & (0.029) \\ \addlinespace  
            estcivilVuido & 0.049 \\ 
            & (0.051) \\ \addlinespace  
            estcivilSepa/Divo/Anu & 0.079^{*} \\ 
            & (0.042) \\ \addlinespace  
            educa & 0.002 \\ 
            & (0.006) \\ \addlinespace 
            religidEvangélico &0.245^{***} \\ 
            & (0.030) \\ \addlinespace  
            religidOtra Rel. & 0.151^{**} \\ 
            & (0.072) \\ \addlinespace 
            religidIrreligioso & -0.303^{***} \\ 
            & (0.033) \\ \addlinespace 
            urbano & -0.072^{**} \\ 
            & (0.032) \\ \addlinespace 
            Constant & 0.290^{***} \\ 
            & (0.045) \\ 
            \midrule 
            Observations & \multicolumn{1}{c}{1480} \\ 
            $R^2$ & 0.167 \\ 
            Adjusted $R^2$ & 0.161 \\ 
            Residual Std.\ Error & \multicolumn{1}{c}{0.439 (df = 1469)} \\ 
            F Statistic & \multicolumn{1}{c}{$29.373^{***}$ (df = 10; 1469)} \\ 
            \bottomrule  
            \addlinespace
            \multicolumn{2}{l}{Note: $^{*}$ $p<0.1$; $^{**}$ $p<0.05$; $^{***}$ $p<0.01$} \\ 
        \end{tabular} 
    \end{table}

\textit{a) Efecto marginal del nivel educacional}

El efecto marginal del nivel educacional, una variable que no está incluida como interacción con otros predictores corresponde al coeficiente de regresión $\beta$. Para el caso del nivel educacional, el efecto que produce en la frecuencia de asistencia a servicios religiosos cuando el resto de las variables es constante, es positivo con una magnitud 0.002, aunque no es estadísticamente significativo.

\textit{b) Valores predichos del modelo}

La siguiente tabla muestra los valores predichos para el modelo 0 (V1). Considerando que la variable dependiente es de carácter categórico con opciones de respuesta que solo pueden tomar valores 0 y 1, la probabilidad de ocurrencia de la asistencia a servicios religiosos debe tener también valores restringidos entre 0 y 1, o 0\% a 100\% de probabilidades. Sin embargo, la tabla muestra valores que escapan a este rango (mín. -0.12; máx. 0.81), por lo que se concluye que un modelo de probabilidades lineales no es la mejor herramienta para predecir este tipo de variables.


    % latex table generated in R 3.2.1 by xtable 1.7-4 package
    % Sat Sep 26 13:37:30 2015

    \begin{table}[ht!]
        \centering
        \begin{tabular}{r lS[table-format=-1.4] @\qquad lS[table-format=-1.4]}
         \toprule
         & \multicolumn{2}{c}{V1} &\multicolumn{2}{c}{V2} \\ 
         \midrule
         1 & Min.    & -0.1228   & Min.    & -0.7396   \\ 
         2 & 1st Qu. &  0.2495   & 1st Qu. & -0.3841   \\ 
         3 & Median  &  0.3884   & Median  & -0.1249   \\ 
         4 & Mean    &  0.3588   & Mean    &  0.0000   \\ 
         5 & 3rd Qu. &  0.4723   & 3rd Qu. &  0.4602   \\ 
         6 & Max.    &  0.8118   & Max.    &  1.0376   \\ 
         \bottomrule
        \end{tabular}
    \end{table}


\subsection{Estimación de modelos logit}

M1: hombre, edadc, educación, religión (católicos como referencia) y posición política (derecha como referencia).

M1: hombre, edadc, educación, religión (católicos como referencia), posición política (derecha como referencia) y estado civil (solteros como referencia).

M1: hombre, edadc, educación, religión (católicos como referencia), posición política (derecha como referencia), estado civil (solteros como referencia) y urbano.

    \begin{table}[htbp!]
        \caption{Modelos logit} \label{table:coefficients}
        \centering
            \begin{tabular}{@{}l *{3}{S[table-format=-1.6]} }
                \toprule
                & {Modelo 1} & {Modelo 2} & {Modelo 3} \\
                \midrule
                (Intercept)           & -1.15^{***} & -1.30^{***} & -1.10^{***} \\
                & (0.26)      & (0.27)      & (0.28)      \\
                hombre                & -0.22       & -0.22       & -0.23       \\
                & (0.12)      & (0.12)      & (0.13)      \\
                edadc                 & 0.02^{***}  & 0.01^{**}   & 0.02^{***}  \\
                & (0.00)      & (0.00)      & (0.00)      \\
                educa                 & 0.00        & -0.00       & 0.02        \\
                & (0.03)      & (0.03)      & (0.03)      \\
                religidEvangélico     & 1.06^{***}  & 1.05^{***}  & 1.06^{***}  \\
                & (0.14)      & (0.15)      & (0.15)      \\
                religidOtra Rel.      & 0.63        & 0.59        & 0.62        \\
                & (0.33)      & (0.34)      & (0.34)      \\
                religidIrreligioso    & -3.35^{***} & -3.33^{***} & -3.34^{***} \\
                & (0.51)      & (0.51)      & (0.51)      \\
                pospolCentro          & 0.11        & 0.10        & 0.13        \\
                & (0.24)      & (0.24)      & (0.24)      \\
                pospolIzquierda       & -0.21       & -0.21       & -0.20       \\
                & (0.21)      & (0.21)      & (0.21)      \\
                pospolNinguna/Ns      & 0.15        & 0.15        & 0.18        \\
                & (0.17)      & (0.17)      & (0.17)      \\
                estcivilCasado        &               & 0.51^{***}  & 0.49^{**}   \\
                &               & (0.15)      & (0.15)      \\
                estcivilVuido         &               & 0.28        & 0.28        \\
                &               & (0.26)      & (0.26)      \\
                estcivilSepa/Divo/Anu &               & 0.46^{*}    & 0.48^{*}    \\
                &               & (0.22)      & (0.22)      \\
                urbano                &               &               & -0.38^{*}   \\
                &               &               & (0.17)      \\
                \midrule
                AIC                   & {1659,06}       & {1652,76}       & {1649,50}       \\
                BIC                   & {1712.06}       & {1721.66}       & {1723.70}       \\
                Log Likelihood        & {$-819.53$}       & {$-813.38$}       & {$-810.75$}       \\
                Deviance              & {1639.06}       & {1626.76}       & {1621.50}       \\
                R2 McFadden           & {0.15}          & {0.16}          & {0.16}          \\
                Num. obs.             & {1480}          & {1480}          & {1480}          \\
                \bottomrule
                \addlinespace
                \multicolumn{4}{l}{\footnotesize $^{***}\ p<0.001$, $^{**}\ p<0.01$, $^*\ p<0.05$}
            \end{tabular}

    \end{table}


\subsection{Evaluación de hipótesis nula sobre posición política}

La hipótesis nula ``la posición política de los entrevistados no afecta la frecuencia con que asisten a servicios religiosos'' puede expresarse formalmente de la siguiente manera:
\[
H_0 \colon \beta centro = \beta izquierda = \beta ninguna = 0
\]


\textit{Test de Wald}
El test de Wald compara los efectos de las categorías de posición política centro, izquierda y ninguna sobre la variable dependiente, bajo una distribución $\chi^{2}$, teniendo como hipótesis nula que los efectos deberían ser iguales a 0.

    \begin{lstlisting}[language=R]
    > wald.test(b=coef(m2), Sigma=vcov(m2), Terms=7:9)
    Wald test:
    ----------
    Chi-squared test:
    X2 = 45.0, df = 3, P(> X2) = 9.2e-10
    \end{lstlisting}

El valor crítico $P(> X2) = 9.2e-10$ es menor que el $\alpha = 0.1$ definido para un 90\% de confianza, por lo que habría evidencia suficiente para rechazar la hipótesis nula.

\textit{Máxima Verosimilitud}
Para evaluar el efecto de la posición política con un test de Máxima Verosimilitud se construyó un cuarto modelo restringido sin esta variable, siendo posible compararlo con el modelo 2.

    \begin{lstlisting}[language=R]
    > m4 = glm(frecsevrel~hombre+edadc+educa+religid+estcivil, family=binomial(link="logit"))
    > xtable(anova(m4,m2, test="LRT"))
    \end{lstlisting}


    % latex table generated in R 3.2.1 by xtable 1.7-4 package
    % Sat Sep 26 13:52:33 2015
    \begin{table}[ht!]
        \centering
        \begin{tabular}{lrrrrr}
            \toprule
            & Resid. Df & Resid. Dev & Df & Deviance & Pr($>$Chi) \\ 
            \midrule
            1 & 1470 & 1632.00 &  &  &  \\ 
            2 & 1467 & 1626.76 & 3 & 5.24 & 0.1549 \\ 
            \bottomrule
        \end{tabular}
    \end{table}

La tabla muestra un valor crítico de 0.15 para el test de máxima verosimilitud, lo que considerando un $\alpha$ = 0.1, o 90\% de confianza, indica que no existe evidencia suficiente para rechazar la hipótesis nula. Se puede obtener el mismo valor haciendo el cálculo de manera manual

    \begin{lstlisting}[language=R]
    > trv = -2 *(logLik(m4)[1] - logLik(m2)[1])
    > trv
    [1] 5.242383
    > 1-pchisq(trv,df=3)
    [1] 0.1548851
    \end{lstlisting}

\subsection{Evaluación de hipótesis nula sobre diferencias entre estar casado y separado, separado o anulado}
La afirmación ``comparado con estar soltero, el efecto de estar casado sobre la frecuencia con que las personas asisten a servicios religiosos es igual al efecto de ser separado/divorciado/anulado'' puede formalizarse en la siguiente hipótesis nula:
\[
H_0 \colon \beta casado = \beta separado/divorciado/anulado
\]


\textit{Test de Wald}

Para evaluar esta hipótesis nula ser realizó nuevamente un test de Wald, esta vez calculado manualmente en base a los resultados del modelo 2.

    \begin{lstlisting}[language=R]
    > nume.w = (m2$coef["estcivilCasado"] - m2$coef["estcivilSepa/Divo/Anu"])^2
    > deno.w = vcov(m2)["estcivilCasado","estcivilCasado"] +
    +   vcov(m2)["estcivilSepa/Divo/Anu","estcivilSepa/Divo/Anu"] -
    +   2*vcov(m2)["estcivilCasado","estcivilSepa/Divo/Anu"]
    > w = nume.w/deno.w
    > w
    estcivilCasado 
    0.0674213 
    > 1-pchisq(w,1)
    estcivilCasado 
    0.795129
    \end{lstlisting}

El test de Wald da como resultado un valor crítico de 0.79, lo que considerando un $\alpha = 0.05$, no entrega evidencia suficiente para rechazar la hipótesis nula. En términos sustantivos, pudiera afirmarse que no existirían diferencias entre estar casado y estar separado, divorciado o anulado en la asistencia a servicios religiosos.

\subsection{Comparación de devianzas entre M2 y M3}

La comparación de modelos mediante la comparación de Devianzas $G^{2}$ puede formalizarse de la siguiente manera:
\[
\bigtriangleup G^{2} = Gr^{2} - Gc^{2}
\]
En este caso, el modelo 2 es el restringido y el modelo 3 es el completo, existiendo entre ambos una diferencia de 1 parámetro (ser urbano), lo que informa de los grados de libertad necesarios para hacer el cálculo.\\
    \begin{lstlisting}[language=R]
    > compdev=1626.76 - 1621.50
    > compdev
    [1] 5.26
    > 1-pchisq(compdev,df=1)
    [1] 0.02182102
    \end{lstlisting}

El resultado de la diferencia de Devianzas da como resultado 0.02, lo que considerando un 95\% de confianza indicaría que existen diferencias significativas entre ambos modelos, ya que el valor es menor que el $\alpha = 0.05$ correspondiente, justificando optar por el modelo más complejo. Sin embargo, al considerar como suficiente un 99\% de confianza el valor debería ser menor que $\alpha$ = 0.01, lo que estadísticamente no significaría una justificación inmediata del modelo más complejo, o en otras palabras, la inclusión de la variable urbano.

También es posible llegar al mismo resultado de la diferencia de devianzas al observar la siguiente tabla:

    % latex table generated in R 3.2.1 by xtable 1.7-4 package
    % Sat Sep 26 13:55:58 2015
    \begin{table}[ht!]
        \centering
        \begin{tabular}{lrrrr}
            \toprule
            & Resid. Df & Resid. Dev & Df & Deviance \\ 
            \midrule
            1 & 1467 & 1626.76 &  &  \\ 
            2 & 1466 & 1621.50 & 1 & 5.26 \\ 
            \bottomrule
        \end{tabular}
    \end{table}

Y repetir el cálculo:
    \begin{lstlisting}[language=R]
    > 1-pchisq(5.26,df=1)
    [1] 0.02182102
    \end{lstlisting}

\subsection{Bondad de ajuste M1, M2 y M3}

Para evaluar la bondad de ajuste de los tres modelos logit estimados es necesario recordar la tabla 2. Por una parte, el estadístico AIC desciende presenta una disminución de 10 puntos aproximadamente entre el primero y el tercero, lo que podría indicar un mejor ajuste de los modelos más complejos. Sin embargo, la mayor diferencia se presenta entre el modelo 1 y el modelo 2 (cerca de 7 puntos), mientras que entre éste y el tercero había una diferencia de 3 puntos aproximados solamente. El estadístico BIC es más exigente que AIC en la justificación de modelos más complejos para muestras grandes como la utilizada, esta característica se hace evidente en los valores, que contradicen a AIC. En este caso, el estadístico aumenta en casi 10 puntos entre M1 y M2, y en 3 puntos entre éste y M3.

Hasta el momento la información sobre la bondad de ajuste no es concluyente sino que de hecho, contradictoria. Por esto, se analizará la Devianza y el Pseudo $R^{2}$ de McFadden. El primer estadístico disminuye en más de 10 puntos entre M1 y M2, y en menor magnitud entre éste y M3, lo que parecería seguir la dirección de AIC con respecto al ajuste de los modelos, justificando estadísticamente la adopción de modelos más complejos, aunque favoreciendo a M2 sobre M3. El $R^{2}$ de McFadden tenderá a 1 en la medida en que los modelos tienen mejor ajuste. En general los valores para los modelos son pequeños, y aunque hay un aumento entre M1 y M2 éste es menor (y no-existente entre M2 y M3).

En base a esta información se podría afirmar que habrían más razones estadísticas para preferir el modelo 2 entre los tres, ya que tres de los cuatro indicadores analizados parecen apuntar en aquella dirección. Sin embargo, esto no quiere decir que teóricamente no habrían razones para justificar la elección del modelo más complejo, si es que existiera un interés específico o literatura que informara de una relación entre la zona (urbana o rural) y la asistencia a servicios religiosos.

\subsection{$R^{2}$ de Recuento y $R^{2}$ de Recuento Ajustado}

Otra forma de evaluar la bondad de ajuste de los modelos estimados es considerar el $R^{2}$ de Recuento y el $R^{2}$ de Recuento Ajustado, que entregan información sobre el porcentaje de casos correctamente predichos.

\textit{$R^{2}$ de Recuento M2}
En primer lugar se crearon nuevos objetos con los valores predichos para los modelos, en forma de variables categóricas para la predicción y la no predicción (teniendo como parámetro para la predicción $"1 si ^ i > 0;5"$), y luego calculando de manera manual las proporciones de acuerdo a una tabla de dos entradas.

    \begin{lstlisting}[language=R]
    > frecsevrel=factor(frecsevrel, labels = c("No asiste", "Asiste"))
    > cep2$valores2[fitted(m2)>=0.5]=1
    > cep2$valores2[fitted(m2)<0.5]=0
    > xtable(table(cep2$frecsevrel, cep2$valores))
    \end{lstlisting}

    % latex table generated in R 3.2.1 by xtable 1.7-4 package
    % Sat Sep 26 19:58:04 2015
    \begin{table}[ht!]
        \centering
        \begin{tabular}{lrrr}
            \toprule
            & 0    & 1   & Total\\ 
            \toprule
            0     & 830  & 119 & 949\\ 
            1     & 337  & 194 & 531\\
            Total & 1167 & 313 & 1480\\
            \bottomrule
        \end{tabular}
    \end{table}

Para calcular el $R^{2}$ de Recuento seguimos la siguiente fórmula, aplicándola a los valores obtenidos de la tabla anterior.
\[
R^{2}rec = \frac{1}{N} \sum njj 
\]
    \begin{lstlisting}[language=R]
    > table(cep2$frecsevrel, cep2$valores2)
    0   1
    0 830 119
    1 337 194
    > (830+194)/1480
    [1] 0.6918919>
    \end{lstlisting}

El resultado del cálculo da 0.7, lo que puede interpretarse como que el modelo 2 realiza predicciones correctas para el 70\% de los casos.

\textit{$R^{2}$ de Recuento M3}
Se realiza el mismo procedimiento para el modelo 3:

    \begin{lstlisting}[language=R]
    > frecsevrel=factor(frecsevrel, labels = c("No asiste", "Asiste"))
    > cep2$valores3[fitted(m2)>=0.5]=1
    > cep2$valores3[fitted(m2)<0.5]=0
    > xtable(table(cep2$frecsevrel, cep2$valores3))
    \end{lstlisting}

    % latex table generated in R 3.2.1 by xtable 1.7-4 package
    % Sat Sep 26 19:58:04 2015
    \begin{table}[ht!]
        \centering
        \begin{tabular}{lrrr}
            \toprule
            & 0    & 1   & Total\\ 
            \hline
            0     & 827  & 122 & 949\\ 
            1     & 321  & 210 & 531\\
            Total & 1167 & 313 & 1480\\
            \bottomrule
        \end{tabular}
    \end{table}

    \begin{lstlisting}[language=R]
    > table(cep2$frecsevrel, cep2$valores3)
    0   1
    0 827 122
    1 321 210
    > (827+210)/1480
    [1] 0.7006757
    \end{lstlisting}

El $R^{2}$ de Recuento para el modelo 3 también da como resultado un 70\% de predicciones correctas. Esta información apoya los datos anteriores con respecto a la escasa mejora que representa el modelo 3 con respecto al modelo 2, desde el punto de vista de la capacidad explicativa en términos estadísticos.

\textit{$R^{2}$ de Recuento Ajustado}
la fórmula para calcular el $R^{2}$ de Recuento Ajustado es algo distinta a la anterior:
\[
R^{2}rec Adj = \frac{\sum j njj - \max f (nf+)}{N - \max f (nf+)}
\]
Para el modelo 2 el cálculo se muestra a continuación.

    \begin{lstlisting}[language=R]
    > (830+194-949)/(1480-949)
    [1] 0.1412429
    \end{lstlisting}

Mientras que para el modelo 3 es el siguiente:
    \begin{lstlisting}[language=R]
    > (827+210-949)/(1480-949)
    [1] 0.165725
    \end{lstlisting}

El cálculo $R^{2}$ de Recuento Ajustado indica que el modelo 2 permite una reducción del error de predicción de un 14\%, mientras que el modelo 3 generaría una disminución de este error de un 17\% aproximado. Nuevamente la información de la bondad de ajuste es algo contradictoria, aunque teniendo todos los estadísticos en mente se podría afirmar que si bien el modelo 3 no es concluyentemente mejor que su antecesor, existirían razones para no descartar posibles efectos de vivir en zonas urbanas en la asistencia a servicios religiosos.
\end{document}

相关内容