Converta texto em fala com som natural usando as mais recentes vozes de IA. As ferramentas Text-to-Speech (TTS) do Zippy permitem que você gere áudio a partir de texto escrito em dezenas de idiomas, com uma escolha de vozes expressivas, formatos e controles avançados como velocidade, estilo, emoção e muito mais.
Provedores e Modelos Suportados:
-
OpenAI Text-to-Speech (OpenAI): A API TTS da OpenAI oferece vozes ultra-realistas usando modelos de IA avançados como
tts-1,tts-1-hdegpt-4o-mini-tts. As vozes incluem tanto masculinas quanto femininas, com opções como alloy, echo, fable, onyx, nova, shimmer, ash, ballad, coral, sage e verse. Suporta múltiplos formatos de áudio (mp3, opus, aac, flac, wav, pcm), velocidade ajustável e síntese por streaming. -
Deepgram Aura (Deepgram Inc.): O Aura da Deepgram fornece vozes de IA expressivas em inglês e multilíngues, otimizadas para clareza conversacional, baixa latência e personalização. Modelos como
aura-asteria-en,aura-luna-ene outros estão disponíveis. Suporta múltiplos formatos de codificação (linear16, mp3, opus, aac, flac) e ajuste fino de velocidade, taxa de amostragem e estilo. -
ElevenLabs Text-to-Speech (ElevenLabs): A ElevenLabs lidera em TTS realista e emocionalmente rico, oferecendo dezenas de vozes em mais de 29 idiomas e a capacidade de clonar vozes personalizadas. Os modelos suportam design de voz, síntese de fala e acesso direto à API, com controles avançados para estilo, emoção, estabilidade e similaridade. Adequado para audiolivros, criação de conteúdo, acessibilidade e muito mais.
-
Cartesia TTS (Cartesia): A Cartesia oferece texto para fala de alta qualidade, rápido e seguro com foco em privacidade e implantação flexível. Fornece streaming instantâneo, síntese em tempo real e suporta múltiplas vozes internacionais e sotaques, acessíveis através de uma API simples.
-
Google Cloud Text-to-Speech (Google Cloud): O Google usa modelos DeepMind WaveNet e Neural2 para alimentar vozes de alta fidelidade em mais de 50 idiomas e variantes. Os recursos incluem seleção de voz, tom, taxa de fala, controle de volume, tags SSML e acesso a vozes premium de padrão e nível de estúdio. Amplamente usado para acessibilidade, IVR e mídia.
-
Microsoft Azure Speech (Microsoft Azure): O Azure fornece mais de 400 vozes neurais em mais de 140 idiomas e localidades, com personalização única de voz, estilo, emoção, papel e controles em tempo real. Oferece suporte SSML para pronúncia, entonação e muito mais. Ideal para necessidades globais, empresariais ou criativas de TTS.
-
PlayHT (PlayHT): A PlayHT é especializada em síntese de voz realista, clonagem de voz e reprodução por streaming instantâneo com mais de 800 vozes em mais de 100 idiomas. Os recursos incluem controles de emoção, tom e velocidade, áudio de múltiplas vozes e criação de voz personalizada via API ou estúdio online.
Como Escolher: Escolha seu provedor e modelo priorizando idiomas, tipos de voz suportados, formatos desejados (mp3, wav, etc.), granularidade de controle (velocidade, emoção, etc.) e recursos especializados (clonagem de voz, sotaque, streaming). Para casos de uso criativos, de acessibilidade ou de desenvolvedor, garanta compatibilidade com os requisitos da sua aplicação e compare custos.
Visite o site oficial de cada provedor para capacidades, preços e detalhes de documentação atualizados!
Instruções de Uso
Gere fala com som natural a partir de texto usando vozes de IA de última geração da OpenAI, Deepgram, ElevenLabs, Cartesia, Google Cloud, Azure e PlayHT. Suporta múltiplas vozes, idiomas e formatos de áudio.
Ferramentas
tts_openai
Convert text to speech using OpenAI TTS models
Entrada
| Parâmetro | Tipo | Obrigatório | Descrição |
|---|---|---|---|
text | string | Sim | The text to convert to speech |
apiKey | string | Sim | OpenAI API key |
model | string | Não | TTS model to use (tts-1, tts-1-hd, or gpt-4o-mini-tts) |
voice | string | Não | Voice to use (alloy, ash, ballad, cedar, coral, echo, marin, sage, shimmer, verse) |
responseFormat | string | Não | Audio format (mp3, opus, aac, flac, wav, pcm) |
speed | number | Não | Speech speed (0.25 to 4.0, default: 1.0) |
Saída
| Parâmetro | Tipo | Descrição |
|---|---|---|
audioUrl | string | URL to the generated audio file |
audioFile | file | Generated audio file object |
duration | number | Audio duration in seconds |
characterCount | number | Number of characters processed |
format | string | Audio format |
provider | string | TTS provider used |
tts_deepgram
Convert text to speech using Deepgram Aura
Entrada
| Parâmetro | Tipo | Obrigatório | Descrição |
|---|---|---|---|
text | string | Sim | The text to convert to speech |
apiKey | string | Sim | Deepgram API key |
model | string | Não | Deepgram model/voice (e.g., aura-asteria-en, aura-luna-en) |
voice | string | Não | Voice identifier (alternative to model param) |
encoding | string | Não | Audio encoding (linear16, mp3, opus, aac, flac) |
sampleRate | number | Não | Sample rate (8000, 16000, 24000, 48000) |
bitRate | number | Não | Bit rate for compressed formats |
container | string | Não | Container format (none, wav, ogg) |
Saída
| Parâmetro | Tipo | Descrição |
|---|---|---|
audioUrl | string | URL to the generated audio file |
audioFile | file | Generated audio file object |
duration | number | Audio duration in seconds |
characterCount | number | Number of characters processed |
format | string | Audio format |
provider | string | TTS provider used |
tts_elevenlabs
Convert text to speech using ElevenLabs voices
Entrada
| Parâmetro | Tipo | Obrigatório | Descrição |
|---|---|---|---|
text | string | Sim | The text to convert to speech |
voiceId | string | Sim | The ID of the voice to use |
apiKey | string | Sim | ElevenLabs API key |
modelId | string | Não | Model to use (e.g., eleven_monolingual_v1, eleven_turbo_v2_5, eleven_flash_v2_5) |
stability | number | Não | Voice stability (0.0 to 1.0, default: 0.5) |
similarityBoost | number | Não | Similarity boost (0.0 to 1.0, default: 0.8) |
style | number | Não | Style exaggeration (0.0 to 1.0) |
useSpeakerBoost | boolean | Não | Use speaker boost (default: true) |
Saída
| Parâmetro | Tipo | Descrição |
|---|---|---|
audioUrl | string | URL to the generated audio file |
audioFile | file | Generated audio file object |
duration | number | Audio duration in seconds |
characterCount | number | Number of characters processed |
format | string | Audio format |
provider | string | TTS provider used |
tts_cartesia
Convert text to speech using Cartesia Sonic (ultra-low latency)
Entrada
| Parâmetro | Tipo | Obrigatório | Descrição |
|---|---|---|---|
text | string | Sim | The text to convert to speech |
apiKey | string | Sim | Cartesia API key |
modelId | string | Não | Model ID (sonic-english, sonic-multilingual) |
voice | string | Não | Voice ID or embedding |
language | string | Não | Language code (en, es, fr, de, it, pt, etc.) |
outputFormat | json | Não | Output format configuration (container, encoding, sampleRate) |
speed | number | Não | Speed multiplier |
emotion | array | Não | Emotion tags for Sonic-3 (e.g., ['positivity:high']) |
Saída
| Parâmetro | Tipo | Descrição |
|---|---|---|
audioUrl | string | URL to the generated audio file |
audioFile | file | Generated audio file object |
duration | number | Audio duration in seconds |
characterCount | number | Number of characters processed |
format | string | Audio format |
provider | string | TTS provider used |
tts_google
Convert text to speech using Google Cloud Text-to-Speech
Entrada
| Parâmetro | Tipo | Obrigatório | Descrição |
|---|---|---|---|
text | string | Sim | The text to convert to speech |
apiKey | string | Sim | Google Cloud API key |
voiceId | string | Não | Voice ID (e.g., en-US-Neural2-A, en-US-Wavenet-D) |
languageCode | string | Sim | Language code (e.g., en-US, es-ES, fr-FR) |
gender | string | Não | Voice gender (MALE, FEMALE, NEUTRAL) |
audioEncoding | string | Não | Audio encoding (LINEAR16, MP3, OGG_OPUS, MULAW, ALAW) |
speakingRate | number | Não | Speaking rate (0.25 to 2.0, default: 1.0) |
pitch | number | Não | Voice pitch (-20.0 to 20.0, default: 0.0) |
volumeGainDb | number | Não | Volume gain in dB (-96.0 to 16.0) |
sampleRateHertz | number | Não | Sample rate in Hz |
effectsProfileId | array | Não | Effects profile (e.g., ['headphone-class-device']) |
Saída
| Parâmetro | Tipo | Descrição |
|---|---|---|
audioUrl | string | URL to the generated audio file |
audioFile | file | Generated audio file object |
duration | number | Audio duration in seconds |
characterCount | number | Number of characters processed |
format | string | Audio format |
provider | string | TTS provider used |
tts_azure
Convert text to speech using Azure Cognitive Services
Entrada
| Parâmetro | Tipo | Obrigatório | Descrição |
|---|---|---|---|
text | string | Sim | The text to convert to speech |
apiKey | string | Sim | Azure Speech Services API key |
voiceId | string | Não | Voice ID (e.g., en-US-JennyNeural, en-US-GuyNeural) |
region | string | Não | Azure region (e.g., eastus, westus, westeurope) |
outputFormat | string | Não | Output audio format |
rate | string | Não | Speaking rate (e.g., +10%, -20%, 1.5) |
pitch | string | Não | Voice pitch (e.g., +5Hz, -2st, low) |
style | string | Não | Speaking style (e.g., cheerful, sad, angry - neural voices only) |
styleDegree | number | Não | Style intensity (0.01 to 2.0) |
role | string | Não | Role (e.g., Girl, Boy, YoungAdultFemale) |
Saída
| Parâmetro | Tipo | Descrição |
|---|---|---|
audioUrl | string | URL to the generated audio file |
audioFile | file | Generated audio file object |
duration | number | Audio duration in seconds |
characterCount | number | Number of characters processed |
format | string | Audio format |
provider | string | TTS provider used |
tts_playht
Convert text to speech using PlayHT (voice cloning)
Entrada
| Parâmetro | Tipo | Obrigatório | Descrição |
|---|---|---|---|
text | string | Sim | The text to convert to speech |
apiKey | string | Sim | PlayHT API key (AUTHORIZATION header) |
userId | string | Sim | PlayHT user ID (X-USER-ID header) |
voice | string | Não | Voice ID or manifest URL |
quality | string | Não | Quality level (draft, standard, premium) |
outputFormat | string | Não | Output format (mp3, wav, ogg, flac, mulaw) |
speed | number | Não | Speed multiplier (0.5 to 2.0) |
temperature | number | Não | Creativity/randomness (0.0 to 2.0) |
voiceGuidance | number | Não | Voice stability (1.0 to 6.0) |
textGuidance | number | Não | Text adherence (1.0 to 6.0) |
sampleRate | number | Não | Sample rate (8000, 16000, 22050, 24000, 44100, 48000) |
Saída
| Parâmetro | Tipo | Descrição |
|---|---|---|
audioUrl | string | URL to the generated audio file |
audioFile | file | Generated audio file object |
duration | number | Audio duration in seconds |
characterCount | number | Number of characters processed |
format | string | Audio format |
provider | string | TTS provider used |
Notas
- Categoria:
tools - Tipo:
tts