🧠 spaCy Cheat Sheet

📖 Site oficial do spaCy (Documentação)

#	Comando / Atributo / Método	O que faz	Exemplo / Instalação
1	`pip install spacy`	Instala a biblioteca spaCy	`pip install spacy`
2	`python -m spacy download pt_core_news_sm`	Baixa modelo treinado para Português	`!python -m spacy download pt_core_news_sm`
3	`spacy.load()`	Carrega um modelo de linguagem	`nlp = spacy.load("pt_core_news_sm")`
4	`nlp("texto")`	Cria um objeto Doc (processamento completo)	`doc = nlp("O rato roeu a roupa.")`
5	`token.text`	Retorna o texto original do token	`[t.text for t in doc]`
6	`token.lemma_`	Lematização (forma base da palavra)	`token.lemma_` (ex: "correndo" -> "correr")
7	`token.pos_`	Classe gramatical simples (Part-of-speech)	`token.pos_` (ex: NOUN, VERB)
8	`token.tag_`	Classe gramatical detalhada	`token.tag_` (ex: VBD para passado)
9	`token.dep_`	Relação de dependência sintática	`token.dep_` (ex: nsubj, obj)
10	`token.is_stop`	Verifica se é uma Stop Word	`token.is_stop`
11	`token.is_alpha`	Verifica se contém apenas letras	`token.is_alpha`
12	`token.is_punct`	Verifica se é pontuação	`token.is_punct`
13	`token.is_digit`	Verifica se é um dígits	`token.is_digit`
14	`token.like_num`	Verifica se o texto representa um número	`token.like_num` (ex: "dez", "10")
15	`token.morph`	Atributos morfológicos (gênero, número)	`token.morph.get("Gender")`
16	`token.head`	Retorna o token "pai" na árvore sintática	`token.head.text`
17	`doc.ents`	Acessa as Entidades Nomeadas (NER)	`for ent in doc.ents: print(ent.text, ent.label_)`
18	`doc.sents`	Itera sobre as sentenças do documento	`list(doc.sents)`
19	`doc.noun_chunks`	Extrai sintagmas nominais	`list(doc.noun_chunks)`
20	`ent.label_`	Tipo da entidade (PER, ORG, LOC)	`ent.label_`
21	`Span(doc, start, end)`	Cria um subconjunto do documento	`span = doc[2:5]`
22	`displacy.render(..., style='dep')`	Visualiza árvore de dependências	`displacy.render(doc, style='dep')`
23	`displacy.render(..., style='ent')`	Visualiza entidades coloridas no texto	`displacy.render(doc, style='ent')`
24	`displacy.serve()`	Inicia servidor web para visualização	`displacy.serve(doc, style='dep')`
25	`nlp.vocab`	Acessa o vocabulário e strings únicas	`nlp.vocab.strings["café"]`
26	`doc.similarity()`	Calcula similaridade entre documentos	`doc1.similarity(doc2)`
27	`token.vector`	Retorna o vetor (Word Embedding) do token	`token.vector`
28	`token.has_vector`	Verifica se o token possui um vetor	`token.has_vector`
29	`nlp.pipe_names`	Lista componentes ativos do pipeline	`print(nlp.pipe_names)`
30	`nlp.add_pipe()`	Adiciona novo componente ao pipeline	`nlp.add_pipe("entity_linker")`
31	`nlp.remove_pipe()`	Remove um componente do pipeline	`nlp.remove_pipe("ner")`
32	`nlp.disable_pipes()`	Desabilita componentes para performance	`with nlp.disable_pipes("tagger"):`
33	`nlp.pipe()`	Processa vários textos de forma eficiente	`docs = list(nlp.pipe(lista_textos))`
34	`Matcher(nlp.vocab)`	Inicializa buscador de padrões de tokens	`matcher = Matcher(nlp.vocab)`
35	`matcher.add()`	Adiciona um padrão de busca	`matcher.add("ID", [[{"LOWER": "apple"}]])`
36	`PhraseMatcher(nlp.vocab)`	Busca por frases exatas (mais rápido)	`p_matcher = PhraseMatcher(nlp.vocab)`
37	`Doc.set_extension()`	Cria metadados customizados para Doc	`Doc.set_extension("is_spam", default=False)`
38	`Token.set_extension()`	Cria metadados customizados para Token	`Token.set_extension("id_interna", default=0)`
39	`doc.to_disk()`	Salva objeto Doc em arquivo binário	`doc.to_disk("./doc.spacy")`
40	`nlp.to_disk()`	Salva o modelo completo em pasta	`nlp.to_disk("./meu_modelo")`
41	`Example.from_dict()`	Cria exemplo para treinamento	`Example.from_dict(doc, labels)`
42	`PER / PERSON`	Pessoas, incluindo fictícias	Rótulo de Entidade
43	`ORG`	Empresas, agências, instituições	Rótulo de Entidade
44	`GPE`	Países, cidades, estados	Rótulo de Entidade
45	`LOC`	Localizações geográficas (rios, montanhas)	Rótulo de Entidade
46	`DATE`	Datas ou períodos absolutos/relativos	Rótulo de Entidade
47	`MONEY`	Valores monetários, incluindo unidade	Rótulo de Entidade
48	`token.ent_type_`	Tipo de entidade do token	`token.ent_type_`
49	`token.ent_iob_`	Tag IOB (Inside, Outside, Begin)	`token.ent_iob_`
50	`token.norm_`	Normalização do texto	`token.norm_`
51	`doc.count_by()`	Conta atributos (ex: IDs de POS)	`doc.count_by(spacy.attrs.POS)`
52	`spacy.explain()`	Explica uma sigla do spaCy	`spacy.explain("nsubj")`
53	`token.idx`	Posição do caractere inicial no doc	`token.idx`
54	`len(doc)`	Número de tokens no documento	`len(doc)`
55	`attribute_ruler`	Mapeia atributos de tokens	Componente do Pipeline
56	`lemmatizer`	Determina a forma base das palavras	Componente do Pipeline
57	`tok2vec`	Gera representações vetoriais	Componente do Pipeline
58	`parser`	Determina a estrutura sintática	Componente do Pipeline
59	`entity_ruler`	NER baseada em regras	Componente do Pipeline