📄 Documentação Oficial do NLTK
| # | Comando / Função | O que faz | Exemplo |
|---|---|---|---|
| 1 | nltk.download() | Baixa recursos (corpora, modelos, léxicos) | nltk.download('punkt') |
| 2 | nltk.data.path | Lista os diretórios onde o NLTK busca dados | nltk.data.path |
| 3 | word_tokenize() | Divide um texto em uma lista de palavras | word_tokenize("Olá mundo!") |
| 4 | sent_tokenize() | Divide um texto em uma lista de sentenças | sent_tokenize(texto_longo) |
| 5 | RegexpTokenizer() | Tokenizador baseado em expressões regulares | tokenizer = RegexpTokenizer('\w+') |
| 6 | stopwords.words() | Lista de palavras vazias (artigos, preposições) | stopwords.words('portuguese') |
| 7 | PorterStemmer() | Reduz palavras ao radical (algoritmo Porter) | stemmer.stem('running') # run |
| 8 | SnowballStemmer() | Stemmer que suporta vários idiomas (inc. PT) | SnowballStemmer('portuguese') |
| 9 | WordNetLemmatizer() | Reduz a palavra à sua forma canônica (lema) | lemmatizer.lemmatize('better', pos='a') |
| 10 | pos_tag() | Identifica classes gramaticais (Subst, Adj, etc) | nltk.pos_tag(tokens) |
| 11 | help.upenn_tagset() | Explica as siglas das etiquetas (tags) | nltk.help.upenn_tagset('NN') |
| 12 | ne_chunk() | Reconhecimento de Entidades Nomeadas (NER) | nltk.ne_chunk(tagged_tokens) |
| 13 | FreqDist() | Calcula a distribuição de frequência das palavras | fdist = FreqDist(palavras) |
| 14 | fdist.most_common() | Retorna os N termos mais frequentes | fdist.most_common(10) |
| 15 | Text() | Wrapper para realizar buscas no texto | text_obj = nltk.Text(tokens) |
| 16 | text_obj.concordance() | Mostra o contexto onde uma palavra aparece | text_obj.concordance('vida') |
| 17 | text_obj.similar() | Encontra palavras usadas em contextos similares | text_obj.similar('amor') |
| 18 | bigrams() / trigrams() | Gera sequências de 2 ou 3 palavras adjacentes | list(bigrams(tokens)) |
| 19 | ngrams() | Gera sequências de N palavras adjacentes | list(ngrams(tokens, 4)) |
| 20 | SentimentIntensityAnalyzer() | Analisa polaridade (positivo/negativo) - VADER | sia.polarity_scores(texto) |
| 21 | NaiveBayesClassifier | Classificador baseado no teorema de Bayes | NaiveBayesClassifier.train(train_set) |
| 22 | classify() | Classifica uma entrada após o treinamento | classifier.classify(features) |
| 23 | nltk.corpus.brown | Acessa o Brown Corpus (diversos gêneros) | brown.words() |
| 24 | nltk.corpus.wordnet | Dicionário léxico para sinônimos e antônimos | wordnet.synsets('dog') |
| 25 | synset.definition() | Retorna a definição de um termo no WordNet | syn.definition() |