📈 StatsModels Cheat Sheet

📉 Site oficial do StatsModels (Documentação)

ID	Comando / Função / Parâmetro	O que faz	Exemplo
1	`sm.OLS()`	Regressão Linear por Mínimos Quadrados Ordinários	`sm.OLS(y, X).fit()`
2	`sm.WLS()`	Regressão por Mínimos Quadrados Ponderados	`sm.WLS(y, X, weights=w).fit()`
3	`sm.GLS()`	Regressão por Mínimos Quadrados Generalizados	`sm.GLS(y, X, sigma=s).fit()`
4	`sm.RecursiveLS()`	Mínimos Quadrados Recursivos	`sm.RecursiveLS(y, X).fit()`
5	`sm.QuantReg()`	Regressão Quantílica	`sm.QuantReg(y, X).fit(q=0.5)`
6	`sm.Logit()`	Regressão Logística (Logit)	`sm.Logit(y, X).fit()`
7	`sm.Probit()`	Regressão Probit	`sm.Probit(y, X).fit()`
8	`sm.MNLogit()`	Regressão Logística Multinomial	`sm.MNLogit(y, X).fit()`
9	`sm.Poisson()`	Regressão de Poisson para contagem	`sm.Poisson(y, X).fit()`
10	`sm.NegativeBinomial()`	Regressão Binomial Negativa	`sm.NegativeBinomial(y, X).fit()`
11	`sm.GLM()`	Modelos Lineares Generalizados (Interface)	`sm.GLM(y, X, family=sm.families.Binomial())`
12	`sm.RLM()`	Modelos Lineares Robustos	`sm.RLM(y, X).fit()`
13	`sm.tsa.ARIMA()`	Modelo ARIMA (Autoregressivo, Integrado e Médias Móveis)	`sm.tsa.ARIMA(df, order=(1,1,1))`
14	`sm.tsa.SARIMAX()`	Modelo ARIMA Sazonal com Variáveis Exógenas	`sm.tsa.SARIMAX(y, order=(p,d,q), seasonal_order=(P,D,Q,s))`
15	`sm.tsa.ExponentialSmoothing()`	Suavização Exponencial (Holt-Winters)	`sm.tsa.ExponentialSmoothing(y, trend='add').fit()`
16	`sm.tsa.seasonal_decompose()`	Decomposição clássica (tendência, sazonalidade, resíduo)	`seasonal_decompose(df['valor'], model='additive')`
17	`sm.tsa.stattools.adfuller()`	Teste Augmented Dickey-Fuller para estacionariedade	`adfuller(df['serie'])`
18	`sm.tsa.stattools.kpss()`	Teste KPSS para estacionariedade	`kpss(df['serie'])`
19	`sm.graphics.tsaplots.plot_acf()`	Gráfico de Autocorrelação (ACF)	`plot_acf(df['serie'])`
20	`sm.graphics.tsaplots.plot_pacf()`	Gráfico de Autocorrelação Parcial (PACF)	`plot_pacf(df['serie'])`
21	`sm.tsa.VAR()`	Vetor Autoregressivo para séries multivariadas	`sm.tsa.VAR(df).fit()`
22	`sm.stats.anova_lm()`	Tabela ANOVA para modelos lineares	`sm.stats.anova_lm(model)`
23	`sm.stats.ttest_ind()`	Teste T para duas amostras independentes	`sm.stats.ttest_ind(x1, x2)`
24	`sm.stats.diagnostic.het_breuschpagan()`	Teste de Breusch-Pagan para heterocedasticidade	`het_breuschpagan(resids, X)`
25	`sm.stats.diagnostic.lilliefors()`	Teste de Lilliefors para normalidade	`lilliefors(df['col'])`
26	`sm.stats.diagnostic.acorr_ljungbox()`	Teste Ljung-Box para independência de resíduos	`acorr_ljungbox(resids)`
27	`sm.stats.stattools.durbin_watson()`	Estatística de Durbin-Watson para autocorrelação	`durbin_watson(resids)`
28	`sm.stats.outliers_influence.variance_inflation_factor()`	Cálculo do VIF para multicolinearidade	`variance_inflation_factor(X.values, i)`
29	`smf.ols()`	Regressão Linear usando fórmulas de string	`smf.ols('y ~ x1 + x2', data=df).fit()`
30	`smf.logit()`	Regressão Logística usando fórmulas	`smf.logit('y ~ x1', data=df).fit()`
31	`smf.mixedlm()`	Modelos Lineares de Efeitos Mistos	`smf.mixedlm('y ~ x', df, groups=df['grp']).fit()`
32	`model.summary()`	Exibe relatório estatístico completo	`results.summary()`
33	`model.params`	Retorna os coeficientes calculados	`results.params`
34	`model.pvalues`	Retorna os p-valores de cada variável	`results.pvalues`
35	`model.rsquared`	Coeficiente de Determinação (R²)	`results.rsquared`
36	`model.resid`	Retorna os resíduos do modelo	`results.resid`
37	`model.predict()`	Gera previsões a partir de novos dados	`results.predict(new_X)`
38	`model.conf_int()`	Intervalos de confiança dos coeficientes	`results.conf_int(alpha=0.05)`
39	`model.aic`	Critério de Informação de Akaike (AIC)	`results.aic`
40	`model.bic`	Critério de Informação Bayesiano (BIC)	`results.bic`
41	`sm.add_constant()`	Adiciona coluna de intercepto à matriz X	`X = sm.add_constant(X)`
42	`sm.datasets.get_rdataset()`	Carrega datasets clássicos da linguagem R	`sm.datasets.get_rdataset('mtcars').data`
43	`sm.graphics.plot_regress_exog()`	Gráficos diagnósticos de regressão	`sm.graphics.plot_regress_exog(res, 'x1')`
44	`missing=`	Parâmetro para lidar com NaNs ('drop', 'raise')	`sm.OLS(y, X, missing='drop')`
45	`cov_type=`	Tipo de estimador de matriz de covariância (HC1, HC3)	`results.fit(cov_type='HC3')`
46	`family=sm.families.Binomial()`	Distribuição para GLM (Binomial)	`family=sm.families.Binomial()`
47	`family=sm.families.Gamma()`	Distribuição para GLM (Gamma)	`family=sm.families.Gamma()`
48	`family=sm.families.Tweedie()`	Distribuição para GLM (Tweedie)	`family=sm.families.Tweedie()`
49	`link=sm.families.links.Log()`	Função de ligação log para modelos lineares	`link=sm.families.links.Log()`
50	`sm.stats.proportion_confint()`	Intervalo de confiança para proporções	`proportion_confint(count, nobs)`
51	`sm.stats.DescrStatsW()`	Estatística descritiva com pesos	`sm.stats.DescrStatsW(data, weights=w)`
52	`sm.stats.multicomp.pairwise_tukeyhsd()`	Teste de Tukey para múltiplas comparações	`pairwise_tukeyhsd(endog, groups)`
53	`sm.graphics.influence_plot()`	Gráfico de influência e outliers	`sm.graphics.influence_plot(results)`
54	`sm.graphics.plot_partregress_grid()`	Gráficos de regressão parcial em grade	`sm.graphics.plot_partregress_grid(results)`
55	`sm.tsa.filters.hp_filter.hpfilter()`	Filtro Hodrick-Prescott para tendências	`cycle, trend = hpfilter(df)`
56	`sm.tsa.stattools.grangercausalitytests()`	Teste de Causalidade de Granger	`grangercausalitytests(df, maxlag=2)`
57	`sm.stats.power.TTestIndPower()`	Cálculo de poder estatístico	`TTestIndPower().solve_power(...)`
58	`sm.stats.diagnostic.het_white()`	Teste de White para heterocedasticidade	`het_white(resids, X)`
59	`sm.stats.diagnostic.linear_rainbow()`	Teste Rainbow de linearidade	`linear_rainbow(results)`
60	`sm.stats.diagnostic.breaks_hansen()`	Teste de instabilidade de parâmetros de Hansen	`breaks_hansen(results)`
61	`sm.nonparametric.kernel_regression.KernelReg()`	Regressão por Kernel não paramétrica	`KernelReg(y, X, var_type='c')`
62	`sm.stats.proportions_ztest()`	Teste Z para proporções	`proportions_ztest(count, nobs)`
63	`sm.stats.rank_compare_2indep()`	Compara distribuições de duas amostras	`rank_compare_2indep(x, y)`
64	`sm.duration.HazardRegression()`	Modelos de análise de sobrevivência	`HazardRegression(y, X).fit()`
65	`sm.stats.Mediation()`	Análise de mediação estatística	`Mediation(model_y, model_m, treat, mediator).fit()`
66	`sm.robust.norms.HuberT()`	Norma Huber para regressão robusta	`sm.RLM(y, X, M=sm.robust.norms.HuberT())`
67	`sm.robust.norms.TukeyBiweight()`	Norma Tukey Biweight para RLM	`M=sm.robust.norms.TukeyBiweight()`
68	`sm.stats.multitest.multipletests()`	Correções para testes múltiplos (Bonferroni, FDR)	`multipletests(pvals, method='fdr_bh')`
69	`sm.tsa.x13.x13_arima_analysis()`	Interface para ajuste sazonal X-13ARIMA-SEATS	`x13_arima_analysis(series)`
70	`sm.graphics.qqplot()`	Gráfico Quantil-Quantil (Q-Q Plot)	`sm.graphics.qqplot(resids, line='s')`
71	`sm.stats.diagnostic.compare_cox()`	Teste de Cox para modelos não-aninhados	`compare_cox(res1, res2)`
72	`sm.stats.diagnostic.compare_j()`	Teste J para especificação de modelos	`compare_j(res1, res2)`
73	`sm.stats.moment_helpers.corr2cov()`	Converte correlação em covariância	`corr2cov(corr, std)`
74	`sm.stats.sandwich_covariance.cov_hac()`	Covariância Robusta HAC	`cov_hac(results)`
75	`sm.stats.inter_rater.fleiss_kappa()`	Kappa de Fleiss para concordância	`fleiss_kappa(data)`
76	`sm.multivariate.PCA()`	Análise de Componentes Principais	`PCA(df).factors`
77	`sm.multivariate.Factor()`	Análise Fatorial	`Factor(df).fit()`
78	`sm.multivariate.MANOVA()`	MANOVA (Multivariate ANOVA)	`MANOVA(endog, exog).mv_test()`
79	`sm.stats.contingency_tables.Table()`	Análise de tabelas de contingência	`sm.stats.Table(df)`
80	`sm.stats.DescrStatsW().tconfint_mean()`	IC para a média com pesos	`d1.tconfint_mean()`
81	`sm.stats.GofStat()`	Testes de bondade de ajuste (Goodness of fit)	`GofStat(obs, exp)`
82	`sm.graphics.gofplots.ProbPlot()`	Cria objetos para plots de probabilidade	`ProbPlot(data).qqplot()`
83	`sm.iolib.summary2.Summary()`	Versão alternativa de tabelas de resumo	`Summary().add_df(df)`
84	`sm.stats.anova.AnovaRM()`	ANOVA para medidas repetidas	`AnovaRM(df, 'y', 'id', within=['x']).fit()`
85	`sm.stats.weightstats.CompareMeans()`	Classe para comparar médias de duas amostras	`CompareMeans(d1, d2)`
86	`sm.tsa.seasonal.STL()`	Decomposição STL (LOESS)	`STL(df['val']).fit()`
87	`sm.tsa.stattools.ccf()`	Função de correlação cruzada	`ccf(x, y)`
88	`sm.tsa.statespace.SARIMAX()`	Espaço de estados para modelos complexos	`SARIMAX(y, order=(1,0,1))`
89	`sm.graphics.boxplots.violinplot()`	Gráfico de violino (estatístico)	`sm.graphics.violinplot(data)`
90	`sm.stats.diagnostic.normal_ad()`	Teste de Anderson-Darling para normalidade	`normal_ad(resids)`
91	`sm.stats.diagnostic.recursive_olsresiduals()`	Cálculo de resíduos recursivos	`recursive_olsresiduals(results)`
92	`sm.stats.mctools.StatTestMC()`	Ferramenta para simulações Monte Carlo	`StatTestMC(dist, stat)`
93	`sm.tsa.forecasting.theta.ThetaModel()`	Modelo de previsão Theta	`ThetaModel(y).fit()`
94	`sm.graphics.tsaplots.plot_predict()`	Gráfico de previsões de séries temporais	`results.plot_predict(start, end)`
95	`sm.stats.proportion_effectsize()`	Tamanho do efeito para proporções	`proportion_effectsize(p1, p2)`
96	`sm.stats.anova.anova_single()`	ANOVA de fator único	`anova_single(res)`
97	`sm.tsa.ar_model.AutoReg()`	Modelos Autoregressivos puros	`AutoReg(y, lags=2).fit()`
98	`sm.stats.outliers_influence.OLSInfluence()`	Cálculo detalhado de influência e resíduos studentizados	`OLSInfluence(results)`
99	`sm.regression.quantile_regression.QuantReg()`	Variação da regressão quantílica	`QuantReg(y, X).fit()`
100	`sm.stats.correlation_tools.FactoredPSDMatrix()`	Ferramentas para matrizes de correlação	`FactoredPSDMatrix(m)`