ZippyVendas

Speech-to-Text

Converta fala em texto usando IA

Transcreva fala para texto usando os mais recentes modelos de IA de provedores de classe mundial. As ferramentas Speech-to-Text (STT) do Zippy permitem que você transforme áudio e vídeo em transcrições precisas, com marcação de tempo e opcionalmente traduzidas—suportando uma diversidade de idiomas e aprimoradas com recursos avançados como diarização e identificação de falantes.

Provedores e Modelos Suportados:

  • OpenAI Whisper (OpenAI): O Whisper da OpenAI é um modelo de aprendizado profundo de código aberto conhecido por sua robustez em vários idiomas e condições de áudio. Ele suporta modelos avançados como whisper-1, excelente em transcrição, tradução e tarefas que exigem alta generalização do modelo. Apoiado pela OpenAI—a empresa conhecida pelo ChatGPT e pesquisa líder em IA—o Whisper é amplamente usado em pesquisa e como linha de base para avaliação comparativa.

  • Deepgram (Deepgram Inc.): Baseada em São Francisco, a Deepgram oferece APIs de reconhecimento de fala escaláveis e prontas para produção para desenvolvedores e empresas. Os modelos da Deepgram incluem nova-3, nova-2 e whisper-large, oferecendo transcrição em tempo real e em lote com precisão líder do setor, suporte a múltiplos idiomas, pontuação automática, diarização inteligente, análise de chamadas e recursos para casos de uso que vão de telefonia a produção de mídia.

  • ElevenLabs (ElevenLabs): Líder em IA de voz, a ElevenLabs é especialmente conhecida por síntese e reconhecimento de voz premium. Seu produto STT entrega compreensão natural de alta precisão de numerosos idiomas, dialetos e sotaques. Modelos STT recentes da ElevenLabs são otimizados para clareza, distinção de falantes e são adequados tanto para cenários criativos quanto de acessibilidade. A ElevenLabs é reconhecida por avanços de ponta em tecnologias de fala alimentadas por IA.

  • AssemblyAI (AssemblyAI Inc.): A AssemblyAI fornece reconhecimento de fala altamente preciso orientado por API, com recursos como capítulos automáticos, detecção de tópicos, resumo, análise de sentimento e moderação de conteúdo ao lado da transcrição. Seu modelo proprietário, incluindo o aclamado Conformer-2, alimenta algumas das maiores aplicações de mídia, call center e conformidade do setor. A AssemblyAI é confiada por Fortune 500s e startups de IA líderes globalmente.

  • Google Cloud Speech-to-Text (Google Cloud): A API Speech-to-Text de nível empresarial do Google suporta mais de 125 idiomas e variantes, oferecendo alta precisão e recursos como streaming em tempo real, confiança em nível de palavra, diarização de falantes, pontuação automática, vocabulário personalizado e ajuste específico de domínio. Modelos como latest_long, video e modelos otimizados por domínio estão disponíveis, alimentados por anos de pesquisa do Google e implantados para escalabilidade global.

  • AWS Transcribe (Amazon Web Services): O AWS Transcribe aproveita a infraestrutura de nuvem da Amazon para entregar reconhecimento de fala robusto como uma API. Ele suporta vários idiomas e recursos como identificação de falantes, vocabulário personalizado, identificação de canal (para áudio de call center) e transcrição específica médica. Modelos populares incluem standard e variações específicas de domínio. O AWS Transcribe é ideal para organizações que já usam a nuvem da Amazon.

Como Escolher: Selecione o provedor e modelo que se adequam à sua aplicação—seja você precisando de transcrição rápida e pronta para empresa com análises extras (Deepgram, AssemblyAI, Google, AWS), alta versatilidade e acesso de código aberto (OpenAI Whisper), ou compreensão avançada de falante/contexto (ElevenLabs). Considere o preço, cobertura de idiomas, precisão e quaisquer recursos especiais (como resumo, capítulos ou análise de sentimento) que você possa precisar.

Para mais detalhes sobre capacidades, preços, destaques de recursos e opções de ajuste fino, consulte a documentação oficial de cada provedor através dos links acima.

Instruções de Uso

Transcreva arquivos de áudio e vídeo para texto usando provedores de IA líderes. Suporta múltiplos idiomas, marcações de tempo e diarização de falantes.

Ferramentas

stt_whisper

Transcribe audio to text using OpenAI Whisper

Entrada

ParâmetroTipoObrigatórioDescrição
providerstringSimSTT provider (whisper)
apiKeystringSimOpenAI API key
modelstringNãoWhisper model to use (default: whisper-1)
audioFilefileNãoAudio or video file to transcribe
audioFileReferencefileNãoReference to audio/video file from previous blocks
audioUrlstringNãoURL to audio or video file
languagestringNãoLanguage code (e.g., "en", "es", "fr") or "auto" for auto-detection
timestampsstringNãoTimestamp granularity: none, sentence, or word
translateToEnglishbooleanNãoTranslate audio to English
promptstringNãoOptional text to guide the model's style or continue a previous audio segment. Helps with proper nouns and context.
temperaturenumberNãoSampling temperature between 0 and 1. Higher values make output more random, lower values more focused and deterministic.

Saída

ParâmetroTipoDescrição
transcriptstringFull transcribed text
segmentsarrayTimestamped segments
languagestringDetected or specified language
durationnumberAudio duration in seconds

stt_deepgram

Transcribe audio to text using Deepgram

Entrada

ParâmetroTipoObrigatórioDescrição
providerstringSimSTT provider (deepgram)
apiKeystringSimDeepgram API key
modelstringNãoDeepgram model to use (nova-3, nova-2, whisper-large, etc.)
audioFilefileNãoAudio or video file to transcribe
audioFileReferencefileNãoReference to audio/video file from previous blocks
audioUrlstringNãoURL to audio or video file
languagestringNãoLanguage code (e.g., "en", "es", "fr") or "auto" for auto-detection
timestampsstringNãoTimestamp granularity: none, sentence, or word
diarizationbooleanNãoEnable speaker diarization

Saída

ParâmetroTipoDescrição
transcriptstringFull transcribed text
segmentsarrayTimestamped segments with speaker labels
languagestringDetected or specified language
durationnumberAudio duration in seconds
confidencenumberOverall confidence score

stt_elevenlabs

Transcribe audio to text using ElevenLabs

Entrada

ParâmetroTipoObrigatórioDescrição
providerstringSimSTT provider (elevenlabs)
apiKeystringSimElevenLabs API key
modelstringNãoElevenLabs model to use (scribe_v1, scribe_v1_experimental)
audioFilefileNãoAudio or video file to transcribe
audioFileReferencefileNãoReference to audio/video file from previous blocks
audioUrlstringNãoURL to audio or video file
languagestringNãoLanguage code (e.g., "en", "es", "fr") or "auto" for auto-detection
timestampsstringNãoTimestamp granularity: none, sentence, or word

Saída

ParâmetroTipoDescrição
transcriptstringFull transcribed text
segmentsarrayTimestamped segments
languagestringDetected or specified language
durationnumberAudio duration in seconds
confidencenumberOverall confidence score

stt_assemblyai

Transcribe audio to text using AssemblyAI with advanced NLP features

Entrada

ParâmetroTipoObrigatórioDescrição
providerstringSimSTT provider (assemblyai)
apiKeystringSimAssemblyAI API key
modelstringNãoAssemblyAI model to use (default: best)
audioFilefileNãoAudio or video file to transcribe
audioFileReferencefileNãoReference to audio/video file from previous blocks
audioUrlstringNãoURL to audio or video file
languagestringNãoLanguage code (e.g., "en", "es", "fr") or "auto" for auto-detection
timestampsstringNãoTimestamp granularity: none, sentence, or word
diarizationbooleanNãoEnable speaker diarization
sentimentbooleanNãoEnable sentiment analysis
entityDetectionbooleanNãoEnable entity detection
piiRedactionbooleanNãoEnable PII redaction
summarizationbooleanNãoEnable automatic summarization

Saída

ParâmetroTipoDescrição
transcriptstringFull transcribed text
segmentsarrayTimestamped segments with speaker labels
languagestringDetected or specified language
durationnumberAudio duration in seconds
confidencenumberOverall confidence score
sentimentarraySentiment analysis results
entitiesarrayDetected entities
summarystringAuto-generated summary

stt_gemini

Transcribe audio to text using Google Gemini with multimodal capabilities

Entrada

ParâmetroTipoObrigatórioDescrição
providerstringSimSTT provider (gemini)
apiKeystringSimGoogle API key
modelstringNãoGemini model to use (default: gemini-2.5-flash)
audioFilefileNãoAudio or video file to transcribe
audioFileReferencefileNãoReference to audio/video file from previous blocks
audioUrlstringNãoURL to audio or video file
languagestringNãoLanguage code (e.g., "en", "es", "fr") or "auto" for auto-detection
timestampsstringNãoTimestamp granularity: none, sentence, or word

Saída

ParâmetroTipoDescrição
transcriptstringFull transcribed text
segmentsarrayTimestamped segments
languagestringDetected or specified language
durationnumberAudio duration in seconds
confidencenumberOverall confidence score

Notas

  • Categoria: tools
  • Tipo: stt
On this page

On this page

Comece a automatizar hoje
Confiado por empresas em todo o Brasil.
Crie fluxos de automação de vendas com IA no WhatsApp de forma visual e intuitiva.
Começar grátis