A ferramenta Mistral Parse fornece uma forma poderosa de extrair e processar conteúdo de documentos PDF usando a API de OCR da Mistral. Essa ferramenta aproveita reconhecimento óptico de caracteres avançado para extrair com precisão texto e estrutura de arquivos PDF, facilitando a incorporação de dados de documentos em seus fluxos de trabalho de agentes.
Com a ferramenta Mistral Parse, você pode:
- Extrair texto de PDFs: Converter com precisão conteúdo PDF para formatos de texto, markdown ou JSON
- Processar PDFs de URLs: Extrair diretamente conteúdo de PDFs hospedados online fornecendo suas URLs
- Manter estrutura do documento: Preservar formatação, tabelas e layout dos PDFs originais
- Extrair imagens: Incluir opcionalmente imagens incorporadas dos PDFs
- Selecionar páginas específicas: Processar apenas as páginas que você precisa de documentos multipágina
A ferramenta Mistral Parse é particularmente útil em cenários onde seus agentes precisam trabalhar com conteúdo de PDF, como analisar relatórios, extrair dados de formulários ou processar texto de documentos digitalizados. Simplifica o processo de disponibilizar conteúdo de PDF aos seus agentes, permitindo que trabalhem com informações armazenadas em PDFs tão facilmente quanto com entrada de texto direto.
Instruções de Uso
Integre o Mistral Parse ao fluxo de trabalho. Pode extrair texto de documentos PDF enviados ou de uma URL.
Ferramentas
mistral_parser
Analisar documentos PDF usando a API de OCR da Mistral
Entrada
| Parâmetro | Tipo | Obrigatório | Descrição |
|---|---|---|---|
filePath | string | Sim | URL para um documento PDF a ser processado |
fileUpload | object | Não | Dados de upload de arquivo do componente de upload de arquivo |
resultType | string | Não | Tipo de resultado analisado (markdown, text ou json). Padrão é markdown. |
includeImageBase64 | boolean | Não | Incluir imagens codificadas em base64 na resposta |
pages | array | Não | Páginas específicas para processar (array de números de página, começando por 0) |
imageLimit | number | Não | Número máximo de imagens para extrair do PDF |
imageMinSize | number | Não | Altura e largura mínimas das imagens para extrair do PDF |
apiKey | string | Sim | Chave de API da Mistral (MISTRAL_API_KEY) |
Saída
| Parâmetro | Tipo | Descrição |
|---|---|---|
success | boolean | Se o PDF foi analisado com sucesso |
content | string | Conteúdo extraído no formato solicitado (markdown, text ou JSON) |
metadata | object | Metadados de processamento incluindo jobId, fileType, pageCount e informações de uso |
Notas
- Categoria:
tools - Tipo:
mistral_parse