🧠 NLTK Cheat Sheet

📄 Documentação Oficial do NLTK

#	Comando / Função	O que faz	Exemplo
1	`nltk.download()`	Baixa recursos (corpora, modelos, léxicos)	`nltk.download('punkt')`
2	`nltk.data.path`	Lista os diretórios onde o NLTK busca dados	`nltk.data.path`
3	`word_tokenize()`	Divide um texto em uma lista de palavras	`word_tokenize("Olá mundo!")`
4	`sent_tokenize()`	Divide um texto em uma lista de sentenças	`sent_tokenize(texto_longo)`
5	`RegexpTokenizer()`	Tokenizador baseado em expressões regulares	`tokenizer = RegexpTokenizer('\w+')`
6	`stopwords.words()`	Lista de palavras vazias (artigos, preposições)	`stopwords.words('portuguese')`
7	`PorterStemmer()`	Reduz palavras ao radical (algoritmo Porter)	`stemmer.stem('running') # run`
8	`SnowballStemmer()`	Stemmer que suporta vários idiomas (inc. PT)	`SnowballStemmer('portuguese')`
9	`WordNetLemmatizer()`	Reduz a palavra à sua forma canônica (lema)	`lemmatizer.lemmatize('better', pos='a')`
10	`pos_tag()`	Identifica classes gramaticais (Subst, Adj, etc)	`nltk.pos_tag(tokens)`
11	`help.upenn_tagset()`	Explica as siglas das etiquetas (tags)	`nltk.help.upenn_tagset('NN')`
12	`ne_chunk()`	Reconhecimento de Entidades Nomeadas (NER)	`nltk.ne_chunk(tagged_tokens)`
13	`FreqDist()`	Calcula a distribuição de frequência das palavras	`fdist = FreqDist(palavras)`
14	`fdist.most_common()`	Retorna os N termos mais frequentes	`fdist.most_common(10)`
15	`Text()`	Wrapper para realizar buscas no texto	`text_obj = nltk.Text(tokens)`
16	`text_obj.concordance()`	Mostra o contexto onde uma palavra aparece	`text_obj.concordance('vida')`
17	`text_obj.similar()`	Encontra palavras usadas em contextos similares	`text_obj.similar('amor')`
18	`bigrams() / trigrams()`	Gera sequências de 2 ou 3 palavras adjacentes	`list(bigrams(tokens))`
19	`ngrams()`	Gera sequências de N palavras adjacentes	`list(ngrams(tokens, 4))`
20	`SentimentIntensityAnalyzer()`	Analisa polaridade (positivo/negativo) - VADER	`sia.polarity_scores(texto)`
21	`NaiveBayesClassifier`	Classificador baseado no teorema de Bayes	`NaiveBayesClassifier.train(train_set)`
22	`classify()`	Classifica uma entrada após o treinamento	`classifier.classify(features)`
23	`nltk.corpus.brown`	Acessa o Brown Corpus (diversos gêneros)	`brown.words()`
24	`nltk.corpus.wordnet`	Dicionário léxico para sinônimos e antônimos	`wordnet.synsets('dog')`
25	`synset.definition()`	Retorna a definição de um termo no WordNet	`syn.definition()`