ZippyVendas

Text-to-Speech

Converta texto em fala usando vozes de IA

Converta texto em fala com som natural usando as mais recentes vozes de IA. As ferramentas Text-to-Speech (TTS) do Zippy permitem que você gere áudio a partir de texto escrito em dezenas de idiomas, com uma escolha de vozes expressivas, formatos e controles avançados como velocidade, estilo, emoção e muito mais.

Provedores e Modelos Suportados:

  • OpenAI Text-to-Speech (OpenAI): A API TTS da OpenAI oferece vozes ultra-realistas usando modelos de IA avançados como tts-1, tts-1-hd e gpt-4o-mini-tts. As vozes incluem tanto masculinas quanto femininas, com opções como alloy, echo, fable, onyx, nova, shimmer, ash, ballad, coral, sage e verse. Suporta múltiplos formatos de áudio (mp3, opus, aac, flac, wav, pcm), velocidade ajustável e síntese por streaming.

  • Deepgram Aura (Deepgram Inc.): O Aura da Deepgram fornece vozes de IA expressivas em inglês e multilíngues, otimizadas para clareza conversacional, baixa latência e personalização. Modelos como aura-asteria-en, aura-luna-en e outros estão disponíveis. Suporta múltiplos formatos de codificação (linear16, mp3, opus, aac, flac) e ajuste fino de velocidade, taxa de amostragem e estilo.

  • ElevenLabs Text-to-Speech (ElevenLabs): A ElevenLabs lidera em TTS realista e emocionalmente rico, oferecendo dezenas de vozes em mais de 29 idiomas e a capacidade de clonar vozes personalizadas. Os modelos suportam design de voz, síntese de fala e acesso direto à API, com controles avançados para estilo, emoção, estabilidade e similaridade. Adequado para audiolivros, criação de conteúdo, acessibilidade e muito mais.

  • Cartesia TTS (Cartesia): A Cartesia oferece texto para fala de alta qualidade, rápido e seguro com foco em privacidade e implantação flexível. Fornece streaming instantâneo, síntese em tempo real e suporta múltiplas vozes internacionais e sotaques, acessíveis através de uma API simples.

  • Google Cloud Text-to-Speech (Google Cloud): O Google usa modelos DeepMind WaveNet e Neural2 para alimentar vozes de alta fidelidade em mais de 50 idiomas e variantes. Os recursos incluem seleção de voz, tom, taxa de fala, controle de volume, tags SSML e acesso a vozes premium de padrão e nível de estúdio. Amplamente usado para acessibilidade, IVR e mídia.

  • Microsoft Azure Speech (Microsoft Azure): O Azure fornece mais de 400 vozes neurais em mais de 140 idiomas e localidades, com personalização única de voz, estilo, emoção, papel e controles em tempo real. Oferece suporte SSML para pronúncia, entonação e muito mais. Ideal para necessidades globais, empresariais ou criativas de TTS.

  • PlayHT (PlayHT): A PlayHT é especializada em síntese de voz realista, clonagem de voz e reprodução por streaming instantâneo com mais de 800 vozes em mais de 100 idiomas. Os recursos incluem controles de emoção, tom e velocidade, áudio de múltiplas vozes e criação de voz personalizada via API ou estúdio online.

Como Escolher: Escolha seu provedor e modelo priorizando idiomas, tipos de voz suportados, formatos desejados (mp3, wav, etc.), granularidade de controle (velocidade, emoção, etc.) e recursos especializados (clonagem de voz, sotaque, streaming). Para casos de uso criativos, de acessibilidade ou de desenvolvedor, garanta compatibilidade com os requisitos da sua aplicação e compare custos.

Visite o site oficial de cada provedor para capacidades, preços e detalhes de documentação atualizados!

Instruções de Uso

Gere fala com som natural a partir de texto usando vozes de IA de última geração da OpenAI, Deepgram, ElevenLabs, Cartesia, Google Cloud, Azure e PlayHT. Suporta múltiplas vozes, idiomas e formatos de áudio.

Ferramentas

tts_openai

Convert text to speech using OpenAI TTS models

Entrada

ParâmetroTipoObrigatórioDescrição
textstringSimThe text to convert to speech
apiKeystringSimOpenAI API key
modelstringNãoTTS model to use (tts-1, tts-1-hd, or gpt-4o-mini-tts)
voicestringNãoVoice to use (alloy, ash, ballad, cedar, coral, echo, marin, sage, shimmer, verse)
responseFormatstringNãoAudio format (mp3, opus, aac, flac, wav, pcm)
speednumberNãoSpeech speed (0.25 to 4.0, default: 1.0)

Saída

ParâmetroTipoDescrição
audioUrlstringURL to the generated audio file
audioFilefileGenerated audio file object
durationnumberAudio duration in seconds
characterCountnumberNumber of characters processed
formatstringAudio format
providerstringTTS provider used

tts_deepgram

Convert text to speech using Deepgram Aura

Entrada

ParâmetroTipoObrigatórioDescrição
textstringSimThe text to convert to speech
apiKeystringSimDeepgram API key
modelstringNãoDeepgram model/voice (e.g., aura-asteria-en, aura-luna-en)
voicestringNãoVoice identifier (alternative to model param)
encodingstringNãoAudio encoding (linear16, mp3, opus, aac, flac)
sampleRatenumberNãoSample rate (8000, 16000, 24000, 48000)
bitRatenumberNãoBit rate for compressed formats
containerstringNãoContainer format (none, wav, ogg)

Saída

ParâmetroTipoDescrição
audioUrlstringURL to the generated audio file
audioFilefileGenerated audio file object
durationnumberAudio duration in seconds
characterCountnumberNumber of characters processed
formatstringAudio format
providerstringTTS provider used

tts_elevenlabs

Convert text to speech using ElevenLabs voices

Entrada

ParâmetroTipoObrigatórioDescrição
textstringSimThe text to convert to speech
voiceIdstringSimThe ID of the voice to use
apiKeystringSimElevenLabs API key
modelIdstringNãoModel to use (e.g., eleven_monolingual_v1, eleven_turbo_v2_5, eleven_flash_v2_5)
stabilitynumberNãoVoice stability (0.0 to 1.0, default: 0.5)
similarityBoostnumberNãoSimilarity boost (0.0 to 1.0, default: 0.8)
stylenumberNãoStyle exaggeration (0.0 to 1.0)
useSpeakerBoostbooleanNãoUse speaker boost (default: true)

Saída

ParâmetroTipoDescrição
audioUrlstringURL to the generated audio file
audioFilefileGenerated audio file object
durationnumberAudio duration in seconds
characterCountnumberNumber of characters processed
formatstringAudio format
providerstringTTS provider used

tts_cartesia

Convert text to speech using Cartesia Sonic (ultra-low latency)

Entrada

ParâmetroTipoObrigatórioDescrição
textstringSimThe text to convert to speech
apiKeystringSimCartesia API key
modelIdstringNãoModel ID (sonic-english, sonic-multilingual)
voicestringNãoVoice ID or embedding
languagestringNãoLanguage code (en, es, fr, de, it, pt, etc.)
outputFormatjsonNãoOutput format configuration (container, encoding, sampleRate)
speednumberNãoSpeed multiplier
emotionarrayNãoEmotion tags for Sonic-3 (e.g., ['positivity:high'])

Saída

ParâmetroTipoDescrição
audioUrlstringURL to the generated audio file
audioFilefileGenerated audio file object
durationnumberAudio duration in seconds
characterCountnumberNumber of characters processed
formatstringAudio format
providerstringTTS provider used

tts_google

Convert text to speech using Google Cloud Text-to-Speech

Entrada

ParâmetroTipoObrigatórioDescrição
textstringSimThe text to convert to speech
apiKeystringSimGoogle Cloud API key
voiceIdstringNãoVoice ID (e.g., en-US-Neural2-A, en-US-Wavenet-D)
languageCodestringSimLanguage code (e.g., en-US, es-ES, fr-FR)
genderstringNãoVoice gender (MALE, FEMALE, NEUTRAL)
audioEncodingstringNãoAudio encoding (LINEAR16, MP3, OGG_OPUS, MULAW, ALAW)
speakingRatenumberNãoSpeaking rate (0.25 to 2.0, default: 1.0)
pitchnumberNãoVoice pitch (-20.0 to 20.0, default: 0.0)
volumeGainDbnumberNãoVolume gain in dB (-96.0 to 16.0)
sampleRateHertznumberNãoSample rate in Hz
effectsProfileIdarrayNãoEffects profile (e.g., ['headphone-class-device'])

Saída

ParâmetroTipoDescrição
audioUrlstringURL to the generated audio file
audioFilefileGenerated audio file object
durationnumberAudio duration in seconds
characterCountnumberNumber of characters processed
formatstringAudio format
providerstringTTS provider used

tts_azure

Convert text to speech using Azure Cognitive Services

Entrada

ParâmetroTipoObrigatórioDescrição
textstringSimThe text to convert to speech
apiKeystringSimAzure Speech Services API key
voiceIdstringNãoVoice ID (e.g., en-US-JennyNeural, en-US-GuyNeural)
regionstringNãoAzure region (e.g., eastus, westus, westeurope)
outputFormatstringNãoOutput audio format
ratestringNãoSpeaking rate (e.g., +10%, -20%, 1.5)
pitchstringNãoVoice pitch (e.g., +5Hz, -2st, low)
stylestringNãoSpeaking style (e.g., cheerful, sad, angry - neural voices only)
styleDegreenumberNãoStyle intensity (0.01 to 2.0)
rolestringNãoRole (e.g., Girl, Boy, YoungAdultFemale)

Saída

ParâmetroTipoDescrição
audioUrlstringURL to the generated audio file
audioFilefileGenerated audio file object
durationnumberAudio duration in seconds
characterCountnumberNumber of characters processed
formatstringAudio format
providerstringTTS provider used

tts_playht

Convert text to speech using PlayHT (voice cloning)

Entrada

ParâmetroTipoObrigatórioDescrição
textstringSimThe text to convert to speech
apiKeystringSimPlayHT API key (AUTHORIZATION header)
userIdstringSimPlayHT user ID (X-USER-ID header)
voicestringNãoVoice ID or manifest URL
qualitystringNãoQuality level (draft, standard, premium)
outputFormatstringNãoOutput format (mp3, wav, ogg, flac, mulaw)
speednumberNãoSpeed multiplier (0.5 to 2.0)
temperaturenumberNãoCreativity/randomness (0.0 to 2.0)
voiceGuidancenumberNãoVoice stability (1.0 to 6.0)
textGuidancenumberNãoText adherence (1.0 to 6.0)
sampleRatenumberNãoSample rate (8000, 16000, 22050, 24000, 44100, 48000)

Saída

ParâmetroTipoDescrição
audioUrlstringURL to the generated audio file
audioFilefileGenerated audio file object
durationnumberAudio duration in seconds
characterCountnumberNumber of characters processed
formatstringAudio format
providerstringTTS provider used

Notas

  • Categoria: tools
  • Tipo: tts
On this page

On this page

Comece a automatizar hoje
Confiado por empresas em todo o Brasil.
Crie fluxos de automação de vendas com IA no WhatsApp de forma visual e intuitiva.
Começar grátis