🧠 spaCy Cheat Sheet

📖 Site oficial do spaCy (Documentação)

# Comando / Atributo / Método O que faz Exemplo / Instalação
1pip install spacyInstala a biblioteca spaCypip install spacy
2python -m spacy download pt_core_news_smBaixa modelo treinado para Português!python -m spacy download pt_core_news_sm
3spacy.load()Carrega um modelo de linguagemnlp = spacy.load("pt_core_news_sm")
4nlp("texto")Cria um objeto Doc (processamento completo)doc = nlp("O rato roeu a roupa.")
5token.textRetorna o texto original do token[t.text for t in doc]
6token.lemma_Lematização (forma base da palavra)token.lemma_ (ex: "correndo" -> "correr")
7token.pos_Classe gramatical simples (Part-of-speech)token.pos_ (ex: NOUN, VERB)
8token.tag_Classe gramatical detalhadatoken.tag_ (ex: VBD para passado)
9token.dep_Relação de dependência sintáticatoken.dep_ (ex: nsubj, obj)
10token.is_stopVerifica se é uma Stop Wordtoken.is_stop
11token.is_alphaVerifica se contém apenas letrastoken.is_alpha
12token.is_punctVerifica se é pontuaçãotoken.is_punct
13token.is_digitVerifica se é um dígitstoken.is_digit
14token.like_numVerifica se o texto representa um númerotoken.like_num (ex: "dez", "10")
15token.morphAtributos morfológicos (gênero, número)token.morph.get("Gender")
16token.headRetorna o token "pai" na árvore sintáticatoken.head.text
17doc.entsAcessa as Entidades Nomeadas (NER)for ent in doc.ents: print(ent.text, ent.label_)
18doc.sentsItera sobre as sentenças do documentolist(doc.sents)
19doc.noun_chunksExtrai sintagmas nominaislist(doc.noun_chunks)
20ent.label_Tipo da entidade (PER, ORG, LOC)ent.label_
21Span(doc, start, end)Cria um subconjunto do documentospan = doc[2:5]
22displacy.render(..., style='dep')Visualiza árvore de dependênciasdisplacy.render(doc, style='dep')
23displacy.render(..., style='ent')Visualiza entidades coloridas no textodisplacy.render(doc, style='ent')
24displacy.serve()Inicia servidor web para visualizaçãodisplacy.serve(doc, style='dep')
25nlp.vocabAcessa o vocabulário e strings únicasnlp.vocab.strings["café"]
26doc.similarity()Calcula similaridade entre documentosdoc1.similarity(doc2)
27token.vectorRetorna o vetor (Word Embedding) do tokentoken.vector
28token.has_vectorVerifica se o token possui um vetortoken.has_vector
29nlp.pipe_namesLista componentes ativos do pipelineprint(nlp.pipe_names)
30nlp.add_pipe()Adiciona novo componente ao pipelinenlp.add_pipe("entity_linker")
31nlp.remove_pipe()Remove um componente do pipelinenlp.remove_pipe("ner")
32nlp.disable_pipes()Desabilita componentes para performancewith nlp.disable_pipes("tagger"):
33nlp.pipe()Processa vários textos de forma eficientedocs = list(nlp.pipe(lista_textos))
34Matcher(nlp.vocab)Inicializa buscador de padrões de tokensmatcher = Matcher(nlp.vocab)
35matcher.add()Adiciona um padrão de buscamatcher.add("ID", [[{"LOWER": "apple"}]])
36PhraseMatcher(nlp.vocab)Busca por frases exatas (mais rápido)p_matcher = PhraseMatcher(nlp.vocab)
37Doc.set_extension()Cria metadados customizados para DocDoc.set_extension("is_spam", default=False)
38Token.set_extension()Cria metadados customizados para TokenToken.set_extension("id_interna", default=0)
39doc.to_disk()Salva objeto Doc em arquivo bináriodoc.to_disk("./doc.spacy")
40nlp.to_disk()Salva o modelo completo em pastanlp.to_disk("./meu_modelo")
41Example.from_dict()Cria exemplo para treinamentoExample.from_dict(doc, labels)
42PER / PERSONPessoas, incluindo fictíciasRótulo de Entidade
43ORGEmpresas, agências, instituiçõesRótulo de Entidade
44GPEPaíses, cidades, estadosRótulo de Entidade
45LOCLocalizações geográficas (rios, montanhas)Rótulo de Entidade
46DATEDatas ou períodos absolutos/relativosRótulo de Entidade
47MONEYValores monetários, incluindo unidadeRótulo de Entidade
48token.ent_type_Tipo de entidade do tokentoken.ent_type_
49token.ent_iob_Tag IOB (Inside, Outside, Begin)token.ent_iob_
50token.norm_Normalização do textotoken.norm_
51doc.count_by()Conta atributos (ex: IDs de POS)doc.count_by(spacy.attrs.POS)
52spacy.explain()Explica uma sigla do spaCyspacy.explain("nsubj")
53token.idxPosição do caractere inicial no doctoken.idx
54len(doc)Número de tokens no documentolen(doc)
55attribute_rulerMapeia atributos de tokensComponente do Pipeline
56lemmatizerDetermina a forma base das palavrasComponente do Pipeline
57tok2vecGera representações vetoriaisComponente do Pipeline
58parserDetermina a estrutura sintáticaComponente do Pipeline
59entity_rulerNER baseada em regrasComponente do Pipeline