Rethinking patent retrieval with language models: Toward scalable and efficient search
Renukswamy Chikkamath, Linda Andersson, Markus Endres
Article 102433
https://www.sciencedirect.com/journal/world-patent-information/vol/84/suppl/C
O artigo “Rethinking patent retrieval with language models: Toward scalable and efficient search” analisa criticamente o uso de modelos de linguagem e embeddings semânticos na busca de patentes, especialmente para prior art search, comparando-os com métodos tradicionais baseados em palavras-chave, como o BM25. Elasticsearch usa BM25 como algoritmo padrão de ranqueamento. Ele não entende significado, só estatística de palavras. Exemplo: Consulta: compressão de gás Documento A: repete exatamente essas palavras → sobe no ranking Documento B: usa “pressurização de fluido” → pode ficar para trás, mesmo sendo o mesmo conceito
O estudo também demonstra que técnicas de quantização de embeddings (binária e escalar) permitem tornar a busca semanticamente rica viável em larga escala, reduzindo o uso de memória em até 32× e acelerando a recuperação em até 30×, com perda mínima de desempenho.
Buscar prior art não é como buscar notícias ou posts: Patentes são longas, técnicas e repetitivas, O mesmo conceito aparece com vocabulários diferentes, Um único pedido pode ter centenas de páginas, Bases têm milhões de documentos. Métodos tradicionais (BM25, palavras-chave): São rápidos e baratos, Mas não entendem significado, só coincidência de termos. LLMs generativos (tipo ChatGPT): Entendem muito bem o conteúdo Mas são caros, lentos e inviáveis para varrer milhões de patentes
busca semântica baseada em embeddings” em vez de procurar palavras, o sistema:
-
Transforma textos (claims, abstracts) em vetores numéricos (embeddings)
-
Textos com significado parecido ficam próximos no espaço vetorial
-
A busca vira um problema matemático: “quais vetores estão mais próximos?”
✔️ Vantagem: entende significado técnico, não só termos
❌ Problema: embeddings são grandes, pesados e caros
Exemplo real:
-
1 embedding = 1024 números em float32 ≈ 4 KB
-
100 milhões de trechos → centenas de GB ou até TB de RAM
👉 Inviável em escala real
A quantização resolve exatamente esse gargalo.
Ideia central:
👉 “Não preciso da máxima precisão o tempo todo.”
O artigo mostra que é possível:
a) Quantizar embeddings
Em vez de float32, usar:
binário (1 bit por dimensão) ou
escalares de 8 bits
Resultado:
32× menos memória
Busca 30–40× mais rápida
E o mais importante:
Perda mínima de qualidade nos resultados
⚠️ Sozinha, a quantização perde um pouco de precisão
Um embedding é uma forma de transformar um texto em números.
-
Um texto vira um vetor:
-
Cada número representa uma “dimensão de significado”
-
Textos com sentido parecido → vetores próximos
Até aqui, tudo normal.
2. O problema: embeddings “normais” são pesados
Normalmente:
-
Cada número é um float32 (32 bits = 4 bytes)
-
Um embedding típico tem:
-
768, 1024 ou até 4096 dimensões
-
Exemplo:
-
1024 dimensões × 4 bytes = 4 KB por embedding
-
100 milhões de textos → ~400 GB
👉 Rápido? Não.
👉 Barato? Muito menos.
3. Então… o que é quantizar?
Quantizar é reduzir a precisão dos números.
Em vez de guardar:
Você guarda algo como:
Ou até:
📌 A ideia central:
“Não preciso de tantos dígitos para saber se dois textos falam da mesma coisa.”
4. O que é um embedding quantizado (em termos simples)
👉 Embedding quantizado =
um embedding em que cada número foi comprimido, usando menos bits.
Ou seja:
-
Ele representa o mesmo texto
-
Mas com menos precisão
-
Ocupa muito menos espaço
-
É muito mais rápido de comparar
5. Tipos comuns de quantização (do artigo)
🔹 1. Quantização escalar (8 bits)
Em vez de float32:
-
Cada dimensão vira um número de 0 a 255
-
Usa 1 byte por dimensão
Resultado:
-
4× menos memória
-
Qualidade quase igual
Exemplo:
🔹 2. Quantização binária (1 bit)
Caso mais extremo.
-
Cada dimensão vira:
-
1(positivo) -
0(negativo)
-
Resultado:
-
32× menos memória
-
Comparações ultrarrápidas (operações bit a bit)
Exemplo:
6. Mas isso não “estraga” o significado?
Essa é a parte interessante do artigo:
👉 estraga um pouco, mas não o suficiente para atrapalhar a busca inicial.
Por quê?
-
Busca de patentes não precisa ser perfeita no primeiro passo
-
Ela só precisa trazer:
-
“bons candidatos”
-
não “o ranking final exato”
-
É aí que entra o re-scoring depois.
Um embedding quantizado é uma representação vetorial em que os valores contínuos (float) foram aproximados por valores discretos de menor precisão, reduzindo drasticamente o consumo de memória e o custo computacional, com perda controlada de informação semântica.
O papel do re-scoring (segunda etapa)
A solução vencedora é em duas etapas:
Etapa 1 — Recuperação rápida
-
Usa embeddings quantizados
-
Retorna, por exemplo, os 400 mais parecidos
-
Extremamente rápida e barata
Etapa 2 — Re-scoring preciso
-
Só nesses 400 candidatos:
-
usa embeddings completos (float)
-
calcula similaridade com mais precisão
-
-
Retorna os 100 melhores
👉 Isso combina:
-
velocidade da quantização
-
qualidade da precisão total
📌 O artigo mostra que essa estratégia:
-
supera buscas 100% “precisas”
-
com custo dramaticamente menor
5. Por que isso é “superior” ao estado da arte?
Segundo os experimentos no CLEF-IP 2011:
-
Melhorou o MAP em até 14,81% sobre os melhores sistemas anteriores
-
Superou modelos patent-specific em quase 30%
-
Funcionou melhor que:
-
BM25 puro
-
BM25 + re-rank
-
embeddings completos sem quantização
-
modelos treinados só em dados de patentes
-
Ou seja:
não é só mais barato — é objetivamente melhor
6. Por que isso é “realista e escalável”?
Essa parte é crucial:
Realista porque:
-
Pode rodar em infraestrutura comum
-
Não exige TBs de RAM
-
Não depende de LLMs caros por token
-
Usa ferramentas consolidadas (FAISS, embeddings)
Escalável porque:
-
Funciona com milhões de patentes
-
Permite múltiplos vetores por documento
-
Tempo de resposta aceitável para uso profissional
👉 Diferente de soluções “bonitas no paper”, mas impossíveis em produção.
7. A conclusão em linguagem direta
Se você quer um sistema de busca de patentes que realmente entenda o conteúdo técnico, funcione em escala industrial e seja financeiramente viável, a melhor estratégia hoje é:
usar embeddings semânticos
comprimi-los agressivamente (quantização)
recuperar rápido
e só depois refinar os melhores resultados
Isso entrega mais qualidade que os métodos tradicionais e muito mais viabilidade que LLMs generativos.
Nenhum comentário:
Postar um comentário