📄 Documentação Oficial do Sklearn
| # | Módulo / Função | O que faz | Exemplo |
|---|---|---|---|
| 1 | train_test_split | Divide os dados em conjuntos de treino e teste | X_train, X_test, y_train, y_test = train_test_split(X, y) |
| 2 | StandardScaler() | Padroniza características (média=0, variância=1) | scaler.fit_transform(X_train) |
| 3 | LabelEncoder() | Converte rótulos de texto em números (0, 1, 2...) | le.fit_transform(['sim', 'não']) |
| 4 | OneHotEncoder() | Cria variáveis dummy (binárias) para categorias | ohe.fit_transform(X[['cor']]) |
| 5 | LinearRegression() | Regressão Linear simples ou múltipla | model = LinearRegression().fit(X, y) |
| 6 | RandomForestRegressor() | Regressão usando florestas aleatórias | rf.fit(X_train, y_train) |
| 7 | LogisticRegression() | Classificação Linear (apesar do nome) | clf.fit(X_train, y_train) |
| 8 | KNeighborsClassifier() | Classificação baseada em vizinhos próximos (KNN) | knn = KNeighborsClassifier(n_neighbors=3) |
| 9 | SVC() | Máquinas de Vetores de Suporte (Support Vector Machines) | svc.fit(X_train, y_train) |
| 10 | DecisionTreeClassifier() | Árvore de Decisão para classificação | tree.fit(X_train, y_train) |
| 11 | KMeans() | Agrupa dados em K clusters baseados em distância | kmeans = KMeans(n_clusters=3).fit(X) |
| 12 | .fit(X, y) | Treina o modelo com os dados fornecidos | model.fit(X_train, y_train) |
| 13 | .predict(X) | Faz previsões para novos dados | y_pred = model.predict(X_test) |
| 14 | .predict_proba(X) | Retorna a probabilidade de cada classe (classificadores) | model.predict_proba(X_test) |
| 15 | .score(X, y) | Retorna a precisão média do modelo | model.score(X_test, y_test) |
| 16 | accuracy_score() | Calcula a precisão (acertos totais) | accuracy_score(y_test, y_pred) |
| 17 | confusion_matrix() | Gera matriz de confusão (Erros Tipo I e II) | confusion_matrix(y_test, y_pred) |
| 18 | classification_report() | Relatório com Precision, Recall e F1-Score | print(classification_report(y_test, y_pred)) |
| 19 | mean_squared_error() | Erro Quadrático Médio (para regressão) | mse(y_test, y_pred) |
| 20 | GridSearchCV() | Busca exaustiva pelos melhores hiperparâmetros | grid.fit(X_train, y_train) |
| 21 | cross_val_score() | Avalia o modelo usando validação cruzada | cross_val_score(model, X, y, cv=5) |
| 22 | Pipeline() | Encadeia transformações e modelo final num objeto só | Pipeline([('scaler', StandardScaler()), ('svc', SVC())]) |