Speech-to-Text

Transcreva fala para texto usando os mais recentes modelos de IA de provedores de classe mundial. As ferramentas Speech-to-Text (STT) do Zippy permitem que você transforme áudio e vídeo em transcrições precisas, com marcação de tempo e opcionalmente traduzidas—suportando uma diversidade de idiomas e aprimoradas com recursos avançados como diarização e identificação de falantes.

Provedores e Modelos Suportados:

OpenAI Whisper (OpenAI): O Whisper da OpenAI é um modelo de aprendizado profundo de código aberto conhecido por sua robustez em vários idiomas e condições de áudio. Ele suporta modelos avançados como whisper-1, excelente em transcrição, tradução e tarefas que exigem alta generalização do modelo. Apoiado pela OpenAI—a empresa conhecida pelo ChatGPT e pesquisa líder em IA—o Whisper é amplamente usado em pesquisa e como linha de base para avaliação comparativa.
Deepgram (Deepgram Inc.): Baseada em São Francisco, a Deepgram oferece APIs de reconhecimento de fala escaláveis e prontas para produção para desenvolvedores e empresas. Os modelos da Deepgram incluem nova-3, nova-2 e whisper-large, oferecendo transcrição em tempo real e em lote com precisão líder do setor, suporte a múltiplos idiomas, pontuação automática, diarização inteligente, análise de chamadas e recursos para casos de uso que vão de telefonia a produção de mídia.
ElevenLabs (ElevenLabs): Líder em IA de voz, a ElevenLabs é especialmente conhecida por síntese e reconhecimento de voz premium. Seu produto STT entrega compreensão natural de alta precisão de numerosos idiomas, dialetos e sotaques. Modelos STT recentes da ElevenLabs são otimizados para clareza, distinção de falantes e são adequados tanto para cenários criativos quanto de acessibilidade. A ElevenLabs é reconhecida por avanços de ponta em tecnologias de fala alimentadas por IA.
AssemblyAI (AssemblyAI Inc.): A AssemblyAI fornece reconhecimento de fala altamente preciso orientado por API, com recursos como capítulos automáticos, detecção de tópicos, resumo, análise de sentimento e moderação de conteúdo ao lado da transcrição. Seu modelo proprietário, incluindo o aclamado Conformer-2, alimenta algumas das maiores aplicações de mídia, call center e conformidade do setor. A AssemblyAI é confiada por Fortune 500s e startups de IA líderes globalmente.
Google Cloud Speech-to-Text (Google Cloud): A API Speech-to-Text de nível empresarial do Google suporta mais de 125 idiomas e variantes, oferecendo alta precisão e recursos como streaming em tempo real, confiança em nível de palavra, diarização de falantes, pontuação automática, vocabulário personalizado e ajuste específico de domínio. Modelos como latest_long, video e modelos otimizados por domínio estão disponíveis, alimentados por anos de pesquisa do Google e implantados para escalabilidade global.
AWS Transcribe (Amazon Web Services): O AWS Transcribe aproveita a infraestrutura de nuvem da Amazon para entregar reconhecimento de fala robusto como uma API. Ele suporta vários idiomas e recursos como identificação de falantes, vocabulário personalizado, identificação de canal (para áudio de call center) e transcrição específica médica. Modelos populares incluem standard e variações específicas de domínio. O AWS Transcribe é ideal para organizações que já usam a nuvem da Amazon.

Como Escolher: Selecione o provedor e modelo que se adequam à sua aplicação—seja você precisando de transcrição rápida e pronta para empresa com análises extras (Deepgram, AssemblyAI, Google, AWS), alta versatilidade e acesso de código aberto (OpenAI Whisper), ou compreensão avançada de falante/contexto (ElevenLabs). Considere o preço, cobertura de idiomas, precisão e quaisquer recursos especiais (como resumo, capítulos ou análise de sentimento) que você possa precisar.

Para mais detalhes sobre capacidades, preços, destaques de recursos e opções de ajuste fino, consulte a documentação oficial de cada provedor através dos links acima.

Parâmetro	Tipo	Obrigatório	Descrição
`provider`	string	Sim	STT provider (whisper)
`apiKey`	string	Sim	OpenAI API key
`model`	string	Não	Whisper model to use (default: whisper-1)
`audioFile`	file	Não	Audio or video file to transcribe
`audioFileReference`	file	Não	Reference to audio/video file from previous blocks
`audioUrl`	string	Não	URL to audio or video file
`language`	string	Não	Language code (e.g., "en", "es", "fr") or "auto" for auto-detection
`timestamps`	string	Não	Timestamp granularity: none, sentence, or word
`translateToEnglish`	boolean	Não	Translate audio to English
`prompt`	string	Não	Optional text to guide the model's style or continue a previous audio segment. Helps with proper nouns and context.
`temperature`	number	Não	Sampling temperature between 0 and 1. Higher values make output more random, lower values more focused and deterministic.

Saída

Parâmetro	Tipo	Descrição
`transcript`	string	Full transcribed text
`segments`	array	Timestamped segments
`language`	string	Detected or specified language
`duration`	number	Audio duration in seconds

`stt_deepgram`

Transcribe audio to text using Deepgram

Entrada

Parâmetro	Tipo	Obrigatório	Descrição
`provider`	string	Sim	STT provider (deepgram)
`apiKey`	string	Sim	Deepgram API key
`model`	string	Não	Deepgram model to use (nova-3, nova-2, whisper-large, etc.)
`audioFile`	file	Não	Audio or video file to transcribe
`audioFileReference`	file	Não	Reference to audio/video file from previous blocks
`audioUrl`	string	Não	URL to audio or video file
`language`	string	Não	Language code (e.g., "en", "es", "fr") or "auto" for auto-detection
`timestamps`	string	Não	Timestamp granularity: none, sentence, or word
`diarization`	boolean	Não	Enable speaker diarization

Saída

Parâmetro	Tipo	Descrição
`transcript`	string	Full transcribed text
`segments`	array	Timestamped segments with speaker labels
`language`	string	Detected or specified language
`duration`	number	Audio duration in seconds
`confidence`	number	Overall confidence score

`stt_elevenlabs`

Transcribe audio to text using ElevenLabs

Entrada

Parâmetro	Tipo	Obrigatório	Descrição
`provider`	string	Sim	STT provider (elevenlabs)
`apiKey`	string	Sim	ElevenLabs API key
`model`	string	Não	ElevenLabs model to use (scribe_v1, scribe_v1_experimental)
`audioFile`	file	Não	Audio or video file to transcribe
`audioFileReference`	file	Não	Reference to audio/video file from previous blocks
`audioUrl`	string	Não	URL to audio or video file
`language`	string	Não	Language code (e.g., "en", "es", "fr") or "auto" for auto-detection
`timestamps`	string	Não	Timestamp granularity: none, sentence, or word

Saída

Parâmetro	Tipo	Descrição
`transcript`	string	Full transcribed text
`segments`	array	Timestamped segments
`language`	string	Detected or specified language
`duration`	number	Audio duration in seconds
`confidence`	number	Overall confidence score

`stt_assemblyai`

Transcribe audio to text using AssemblyAI with advanced NLP features

Entrada

Parâmetro	Tipo	Obrigatório	Descrição
`provider`	string	Sim	STT provider (assemblyai)
`apiKey`	string	Sim	AssemblyAI API key
`model`	string	Não	AssemblyAI model to use (default: best)
`audioFile`	file	Não	Audio or video file to transcribe
`audioFileReference`	file	Não	Reference to audio/video file from previous blocks
`audioUrl`	string	Não	URL to audio or video file
`language`	string	Não	Language code (e.g., "en", "es", "fr") or "auto" for auto-detection
`timestamps`	string	Não	Timestamp granularity: none, sentence, or word
`diarization`	boolean	Não	Enable speaker diarization
`sentiment`	boolean	Não	Enable sentiment analysis
`entityDetection`	boolean	Não	Enable entity detection
`piiRedaction`	boolean	Não	Enable PII redaction
`summarization`	boolean	Não	Enable automatic summarization

Saída

Parâmetro	Tipo	Descrição
`transcript`	string	Full transcribed text
`segments`	array	Timestamped segments with speaker labels
`language`	string	Detected or specified language
`duration`	number	Audio duration in seconds
`confidence`	number	Overall confidence score
`sentiment`	array	Sentiment analysis results
`entities`	array	Detected entities
`summary`	string	Auto-generated summary

`stt_gemini`

Transcribe audio to text using Google Gemini with multimodal capabilities

Entrada

Parâmetro	Tipo	Obrigatório	Descrição
`provider`	string	Sim	STT provider (gemini)
`apiKey`	string	Sim	Google API key
`model`	string	Não	Gemini model to use (default: gemini-2.5-flash)
`audioFile`	file	Não	Audio or video file to transcribe
`audioFileReference`	file	Não	Reference to audio/video file from previous blocks
`audioUrl`	string	Não	URL to audio or video file
`language`	string	Não	Language code (e.g., "en", "es", "fr") or "auto" for auto-detection
`timestamps`	string	Não	Timestamp granularity: none, sentence, or word

Saída

Parâmetro	Tipo	Descrição
`transcript`	string	Full transcribed text
`segments`	array	Timestamped segments
`language`	string	Detected or specified language
`duration`	number	Audio duration in seconds
`confidence`	number	Overall confidence score

Notas

Categoria: tools
Tipo: stt

Speech-to-Text

Instruções de Uso

Ferramentas

`stt_whisper`

Entrada

Saída

`stt_deepgram`

Entrada

Saída

`stt_elevenlabs`

Entrada

Saída

`stt_assemblyai`

Entrada

Saída

`stt_gemini`

Entrada

Saída

Notas

On this page