Firecrawl é uma poderosa API de web scraping e extração de conteúdo que se integra perfeitamente ao ZippyVendas, permitindo que desenvolvedores extraiam conteúdo limpo e estruturado de qualquer site. Esta integração fornece uma maneira simples de transformar páginas web em formatos de dados utilizáveis como Markdown e HTML, preservando o conteúdo essencial.
Com o Firecrawl no ZippyVendas, você pode:
- Extrair conteúdo limpo: Remova anúncios, elementos de navegação e outras distrações para obter apenas o conteúdo principal
- Converter para formatos estruturados: Transforme páginas web em Markdown, HTML ou JSON
- Capturar metadados: Extraia metadados SEO, tags Open Graph e outras informações da página
- Lidar com sites pesados em JavaScript: Processe conteúdo de aplicações web modernas que dependem de JavaScript
- Filtrar conteúdo: Foque em partes específicas de uma página usando seletores CSS
- Processar em escala: Lide com necessidades de scraping de alto volume com uma API confiável
- Pesquisar na web: Realize buscas inteligentes na web e recupere resultados estruturados
- Crawlear sites inteiros: Crawleie múltiplas páginas de um site e agregue seu conteúdo
No ZippyVendas, a integração Firecrawl permite que seus agentes acessem e processem conteúdo web programaticamente como parte dos seus workflows. Operações suportadas incluem:
- Scrape: Extraia conteúdo estruturado (Markdown, HTML, metadados) de uma única página web.
- Search: Pesquise na web por informações usando as capacidades de busca inteligente do Firecrawl.
- Crawl: Crawleie múltiplas páginas de um site, retornando conteúdo estruturado e metadados para cada página.
Isso permite que seus agentes coletem informações de sites, extraiam dados estruturados e usem essas informações para tomar decisões ou gerar insights — tudo sem ter que navegar pelas complexidades de parsing HTML bruto ou automação de navegador. Simplesmente configure o bloco Firecrawl com sua chave de API, selecione a operação (Scrape, Search ou Crawl) e forneça os parâmetros relevantes. Seus agentes podem imediatamente começar a trabalhar com conteúdo web em um formato limpo e estruturado.
Instruções de Uso
Integre o Firecrawl ao workflow. Extraia páginas, pesquise na web, crawleie sites inteiros, mapeie estruturas de URL e extraia dados estruturados com IA.
Ferramentas
firecrawl_scrape
Extrair conteúdo estruturado de páginas web com suporte abrangente a metadados. Converte conteúdo para markdown ou HTML enquanto captura metadados SEO, tags Open Graph e informações da página.
Entrada
| Parâmetro | Tipo | Obrigatório | Descrição |
|---|---|---|---|
url | string | Sim | A URL para extrair conteúdo |
scrapeOptions | json | Não | Opções para extração de conteúdo |
apiKey | string | Sim | Chave de API Firecrawl |
Saída
| Parâmetro | Tipo | Descrição |
|---|---|---|
markdown | string | Conteúdo da página em formato markdown |
html | string | Conteúdo HTML bruto da página |
metadata | object | Metadados da página incluindo informações SEO e Open Graph |
firecrawl_search
Pesquisar por informações na web usando Firecrawl
Entrada
| Parâmetro | Tipo | Obrigatório | Descrição |
|---|---|---|---|
query | string | Sim | A consulta de pesquisa a usar |
apiKey | string | Sim | Chave de API Firecrawl |
Saída
| Parâmetro | Tipo | Descrição |
|---|---|---|
data | array | Dados dos resultados da pesquisa |
firecrawl_crawl
Crawlear sites inteiros e extrair conteúdo estruturado de todas as páginas acessíveis
Entrada
| Parâmetro | Tipo | Obrigatório | Descrição |
|---|---|---|---|
url | string | Sim | A URL do site para crawlear |
limit | number | Não | Número máximo de páginas para crawlear (padrão: 100) |
onlyMainContent | boolean | Não | Extrair apenas conteúdo principal das páginas |
apiKey | string | Sim | Chave de API Firecrawl |
Saída
| Parâmetro | Tipo | Descrição |
|---|---|---|
pages | array | Array de páginas crawleadas com seu conteúdo e metadados |
firecrawl_map
Obter uma lista completa de URLs de qualquer site de forma rápida e confiável. Útil para descobrir todas as páginas em um site sem crawleá-las.
Entrada
| Parâmetro | Tipo | Obrigatório | Descrição |
|---|---|---|---|
url | string | Sim | A URL base para mapear e descobrir links |
search | string | Não | Filtrar resultados por relevância a um termo de busca (ex.: "blog") |
sitemap | string | Não | Controla uso do sitemap: "skip", "include" (padrão) ou "only" |
includeSubdomains | boolean | Não | Se deve incluir URLs de subdomínios (padrão: true) |
ignoreQueryParameters | boolean | Não | Excluir URLs contendo strings de consulta (padrão: true) |
limit | number | Não | Número máximo de links a retornar (máx: 100.000, padrão: 5.000) |
timeout | number | Não | Timeout da requisição em milissegundos |
location | json | Não | Contexto geográfico para proxy (country, languages) |
apiKey | string | Sim | Chave de API Firecrawl |
Saída
| Parâmetro | Tipo | Descrição |
|---|---|---|
success | boolean | Se a operação de mapeamento foi bem-sucedida |
links | array | Array de URLs descobertas do site |
firecrawl_extract
Extrair dados estruturados de páginas web inteiras usando prompts em linguagem natural e schema JSON. Recurso agêntico poderoso para extração inteligente de dados.
Entrada
| Parâmetro | Tipo | Obrigatório | Descrição |
|---|---|---|---|
urls | json | Sim | Array de URLs para extrair dados (suporta formato glob) |
prompt | string | Não | Orientação em linguagem natural para o processo de extração |
schema | json | Não | JSON Schema definindo a estrutura dos dados a extrair |
enableWebSearch | boolean | Não | Habilitar busca web para encontrar informações suplementares (padrão: false) |
ignoreSitemap | boolean | Não | Ignorar arquivos sitemap.xml durante escaneamento (padrão: false) |
includeSubdomains | boolean | Não | Estender escaneamento para subdomínios (padrão: true) |
showSources | boolean | Não | Retornar fontes de dados na resposta (padrão: false) |
ignoreInvalidURLs | boolean | Não | Pular URLs inválidas no array (padrão: true) |
scrapeOptions | json | Não | Opções avançadas de configuração de scraping |
apiKey | string | Sim | Chave de API Firecrawl |
Saída
| Parâmetro | Tipo | Descrição |
|---|---|---|
success | boolean | Se a operação de extração foi bem-sucedida |
data | object | Dados estruturados extraídos de acordo com o schema ou prompt |
sources | array | Fontes de dados (apenas se showSources estiver habilitado) |
Notas
- Categoria:
tools - Tipo:
firecrawl