Transcreva fala para texto usando os mais recentes modelos de IA de provedores de classe mundial. As ferramentas Speech-to-Text (STT) do Zippy permitem que você transforme áudio e vídeo em transcrições precisas, com marcação de tempo e opcionalmente traduzidas—suportando uma diversidade de idiomas e aprimoradas com recursos avançados como diarização e identificação de falantes.
Provedores e Modelos Suportados:
-
OpenAI Whisper (OpenAI): O Whisper da OpenAI é um modelo de aprendizado profundo de código aberto conhecido por sua robustez em vários idiomas e condições de áudio. Ele suporta modelos avançados como
whisper-1, excelente em transcrição, tradução e tarefas que exigem alta generalização do modelo. Apoiado pela OpenAI—a empresa conhecida pelo ChatGPT e pesquisa líder em IA—o Whisper é amplamente usado em pesquisa e como linha de base para avaliação comparativa. -
Deepgram (Deepgram Inc.): Baseada em São Francisco, a Deepgram oferece APIs de reconhecimento de fala escaláveis e prontas para produção para desenvolvedores e empresas. Os modelos da Deepgram incluem
nova-3,nova-2ewhisper-large, oferecendo transcrição em tempo real e em lote com precisão líder do setor, suporte a múltiplos idiomas, pontuação automática, diarização inteligente, análise de chamadas e recursos para casos de uso que vão de telefonia a produção de mídia. -
ElevenLabs (ElevenLabs): Líder em IA de voz, a ElevenLabs é especialmente conhecida por síntese e reconhecimento de voz premium. Seu produto STT entrega compreensão natural de alta precisão de numerosos idiomas, dialetos e sotaques. Modelos STT recentes da ElevenLabs são otimizados para clareza, distinção de falantes e são adequados tanto para cenários criativos quanto de acessibilidade. A ElevenLabs é reconhecida por avanços de ponta em tecnologias de fala alimentadas por IA.
-
AssemblyAI (AssemblyAI Inc.): A AssemblyAI fornece reconhecimento de fala altamente preciso orientado por API, com recursos como capítulos automáticos, detecção de tópicos, resumo, análise de sentimento e moderação de conteúdo ao lado da transcrição. Seu modelo proprietário, incluindo o aclamado
Conformer-2, alimenta algumas das maiores aplicações de mídia, call center e conformidade do setor. A AssemblyAI é confiada por Fortune 500s e startups de IA líderes globalmente. -
Google Cloud Speech-to-Text (Google Cloud): A API Speech-to-Text de nível empresarial do Google suporta mais de 125 idiomas e variantes, oferecendo alta precisão e recursos como streaming em tempo real, confiança em nível de palavra, diarização de falantes, pontuação automática, vocabulário personalizado e ajuste específico de domínio. Modelos como
latest_long,videoe modelos otimizados por domínio estão disponíveis, alimentados por anos de pesquisa do Google e implantados para escalabilidade global. -
AWS Transcribe (Amazon Web Services): O AWS Transcribe aproveita a infraestrutura de nuvem da Amazon para entregar reconhecimento de fala robusto como uma API. Ele suporta vários idiomas e recursos como identificação de falantes, vocabulário personalizado, identificação de canal (para áudio de call center) e transcrição específica médica. Modelos populares incluem
standarde variações específicas de domínio. O AWS Transcribe é ideal para organizações que já usam a nuvem da Amazon.
Como Escolher: Selecione o provedor e modelo que se adequam à sua aplicação—seja você precisando de transcrição rápida e pronta para empresa com análises extras (Deepgram, AssemblyAI, Google, AWS), alta versatilidade e acesso de código aberto (OpenAI Whisper), ou compreensão avançada de falante/contexto (ElevenLabs). Considere o preço, cobertura de idiomas, precisão e quaisquer recursos especiais (como resumo, capítulos ou análise de sentimento) que você possa precisar.
Para mais detalhes sobre capacidades, preços, destaques de recursos e opções de ajuste fino, consulte a documentação oficial de cada provedor através dos links acima.
Instruções de Uso
Transcreva arquivos de áudio e vídeo para texto usando provedores de IA líderes. Suporta múltiplos idiomas, marcações de tempo e diarização de falantes.
Ferramentas
stt_whisper
Transcribe audio to text using OpenAI Whisper
Entrada
| Parâmetro | Tipo | Obrigatório | Descrição |
|---|---|---|---|
provider | string | Sim | STT provider (whisper) |
apiKey | string | Sim | OpenAI API key |
model | string | Não | Whisper model to use (default: whisper-1) |
audioFile | file | Não | Audio or video file to transcribe |
audioFileReference | file | Não | Reference to audio/video file from previous blocks |
audioUrl | string | Não | URL to audio or video file |
language | string | Não | Language code (e.g., "en", "es", "fr") or "auto" for auto-detection |
timestamps | string | Não | Timestamp granularity: none, sentence, or word |
translateToEnglish | boolean | Não | Translate audio to English |
prompt | string | Não | Optional text to guide the model's style or continue a previous audio segment. Helps with proper nouns and context. |
temperature | number | Não | Sampling temperature between 0 and 1. Higher values make output more random, lower values more focused and deterministic. |
Saída
| Parâmetro | Tipo | Descrição |
|---|---|---|
transcript | string | Full transcribed text |
segments | array | Timestamped segments |
language | string | Detected or specified language |
duration | number | Audio duration in seconds |
stt_deepgram
Transcribe audio to text using Deepgram
Entrada
| Parâmetro | Tipo | Obrigatório | Descrição |
|---|---|---|---|
provider | string | Sim | STT provider (deepgram) |
apiKey | string | Sim | Deepgram API key |
model | string | Não | Deepgram model to use (nova-3, nova-2, whisper-large, etc.) |
audioFile | file | Não | Audio or video file to transcribe |
audioFileReference | file | Não | Reference to audio/video file from previous blocks |
audioUrl | string | Não | URL to audio or video file |
language | string | Não | Language code (e.g., "en", "es", "fr") or "auto" for auto-detection |
timestamps | string | Não | Timestamp granularity: none, sentence, or word |
diarization | boolean | Não | Enable speaker diarization |
Saída
| Parâmetro | Tipo | Descrição |
|---|---|---|
transcript | string | Full transcribed text |
segments | array | Timestamped segments with speaker labels |
language | string | Detected or specified language |
duration | number | Audio duration in seconds |
confidence | number | Overall confidence score |
stt_elevenlabs
Transcribe audio to text using ElevenLabs
Entrada
| Parâmetro | Tipo | Obrigatório | Descrição |
|---|---|---|---|
provider | string | Sim | STT provider (elevenlabs) |
apiKey | string | Sim | ElevenLabs API key |
model | string | Não | ElevenLabs model to use (scribe_v1, scribe_v1_experimental) |
audioFile | file | Não | Audio or video file to transcribe |
audioFileReference | file | Não | Reference to audio/video file from previous blocks |
audioUrl | string | Não | URL to audio or video file |
language | string | Não | Language code (e.g., "en", "es", "fr") or "auto" for auto-detection |
timestamps | string | Não | Timestamp granularity: none, sentence, or word |
Saída
| Parâmetro | Tipo | Descrição |
|---|---|---|
transcript | string | Full transcribed text |
segments | array | Timestamped segments |
language | string | Detected or specified language |
duration | number | Audio duration in seconds |
confidence | number | Overall confidence score |
stt_assemblyai
Transcribe audio to text using AssemblyAI with advanced NLP features
Entrada
| Parâmetro | Tipo | Obrigatório | Descrição |
|---|---|---|---|
provider | string | Sim | STT provider (assemblyai) |
apiKey | string | Sim | AssemblyAI API key |
model | string | Não | AssemblyAI model to use (default: best) |
audioFile | file | Não | Audio or video file to transcribe |
audioFileReference | file | Não | Reference to audio/video file from previous blocks |
audioUrl | string | Não | URL to audio or video file |
language | string | Não | Language code (e.g., "en", "es", "fr") or "auto" for auto-detection |
timestamps | string | Não | Timestamp granularity: none, sentence, or word |
diarization | boolean | Não | Enable speaker diarization |
sentiment | boolean | Não | Enable sentiment analysis |
entityDetection | boolean | Não | Enable entity detection |
piiRedaction | boolean | Não | Enable PII redaction |
summarization | boolean | Não | Enable automatic summarization |
Saída
| Parâmetro | Tipo | Descrição |
|---|---|---|
transcript | string | Full transcribed text |
segments | array | Timestamped segments with speaker labels |
language | string | Detected or specified language |
duration | number | Audio duration in seconds |
confidence | number | Overall confidence score |
sentiment | array | Sentiment analysis results |
entities | array | Detected entities |
summary | string | Auto-generated summary |
stt_gemini
Transcribe audio to text using Google Gemini with multimodal capabilities
Entrada
| Parâmetro | Tipo | Obrigatório | Descrição |
|---|---|---|---|
provider | string | Sim | STT provider (gemini) |
apiKey | string | Sim | Google API key |
model | string | Não | Gemini model to use (default: gemini-2.5-flash) |
audioFile | file | Não | Audio or video file to transcribe |
audioFileReference | file | Não | Reference to audio/video file from previous blocks |
audioUrl | string | Não | URL to audio or video file |
language | string | Não | Language code (e.g., "en", "es", "fr") or "auto" for auto-detection |
timestamps | string | Não | Timestamp granularity: none, sentence, or word |
Saída
| Parâmetro | Tipo | Descrição |
|---|---|---|
transcript | string | Full transcribed text |
segments | array | Timestamped segments |
language | string | Detected or specified language |
duration | number | Audio duration in seconds |
confidence | number | Overall confidence score |
Notas
- Categoria:
tools - Tipo:
stt