Text-to-Speech

Converta texto em fala com som natural usando as mais recentes vozes de IA. As ferramentas Text-to-Speech (TTS) do Zippy permitem que você gere áudio a partir de texto escrito em dezenas de idiomas, com uma escolha de vozes expressivas, formatos e controles avançados como velocidade, estilo, emoção e muito mais.

Provedores e Modelos Suportados:

OpenAI Text-to-Speech (OpenAI): A API TTS da OpenAI oferece vozes ultra-realistas usando modelos de IA avançados como tts-1, tts-1-hd e gpt-4o-mini-tts. As vozes incluem tanto masculinas quanto femininas, com opções como alloy, echo, fable, onyx, nova, shimmer, ash, ballad, coral, sage e verse. Suporta múltiplos formatos de áudio (mp3, opus, aac, flac, wav, pcm), velocidade ajustável e síntese por streaming.
Deepgram Aura (Deepgram Inc.): O Aura da Deepgram fornece vozes de IA expressivas em inglês e multilíngues, otimizadas para clareza conversacional, baixa latência e personalização. Modelos como aura-asteria-en, aura-luna-en e outros estão disponíveis. Suporta múltiplos formatos de codificação (linear16, mp3, opus, aac, flac) e ajuste fino de velocidade, taxa de amostragem e estilo.
ElevenLabs Text-to-Speech (ElevenLabs): A ElevenLabs lidera em TTS realista e emocionalmente rico, oferecendo dezenas de vozes em mais de 29 idiomas e a capacidade de clonar vozes personalizadas. Os modelos suportam design de voz, síntese de fala e acesso direto à API, com controles avançados para estilo, emoção, estabilidade e similaridade. Adequado para audiolivros, criação de conteúdo, acessibilidade e muito mais.
Cartesia TTS (Cartesia): A Cartesia oferece texto para fala de alta qualidade, rápido e seguro com foco em privacidade e implantação flexível. Fornece streaming instantâneo, síntese em tempo real e suporta múltiplas vozes internacionais e sotaques, acessíveis através de uma API simples.
Google Cloud Text-to-Speech (Google Cloud): O Google usa modelos DeepMind WaveNet e Neural2 para alimentar vozes de alta fidelidade em mais de 50 idiomas e variantes. Os recursos incluem seleção de voz, tom, taxa de fala, controle de volume, tags SSML e acesso a vozes premium de padrão e nível de estúdio. Amplamente usado para acessibilidade, IVR e mídia.
Microsoft Azure Speech (Microsoft Azure): O Azure fornece mais de 400 vozes neurais em mais de 140 idiomas e localidades, com personalização única de voz, estilo, emoção, papel e controles em tempo real. Oferece suporte SSML para pronúncia, entonação e muito mais. Ideal para necessidades globais, empresariais ou criativas de TTS.
PlayHT (PlayHT): A PlayHT é especializada em síntese de voz realista, clonagem de voz e reprodução por streaming instantâneo com mais de 800 vozes em mais de 100 idiomas. Os recursos incluem controles de emoção, tom e velocidade, áudio de múltiplas vozes e criação de voz personalizada via API ou estúdio online.

Como Escolher: Escolha seu provedor e modelo priorizando idiomas, tipos de voz suportados, formatos desejados (mp3, wav, etc.), granularidade de controle (velocidade, emoção, etc.) e recursos especializados (clonagem de voz, sotaque, streaming). Para casos de uso criativos, de acessibilidade ou de desenvolvedor, garanta compatibilidade com os requisitos da sua aplicação e compare custos.

Visite o site oficial de cada provedor para capacidades, preços e detalhes de documentação atualizados!

Parâmetro	Tipo	Obrigatório	Descrição
`text`	string	Sim	The text to convert to speech
`apiKey`	string	Sim	OpenAI API key
`model`	string	Não	TTS model to use (tts-1, tts-1-hd, or gpt-4o-mini-tts)
`voice`	string	Não	Voice to use (alloy, ash, ballad, cedar, coral, echo, marin, sage, shimmer, verse)
`responseFormat`	string	Não	Audio format (mp3, opus, aac, flac, wav, pcm)
`speed`	number	Não	Speech speed (0.25 to 4.0, default: 1.0)

Saída

Parâmetro	Tipo	Descrição
`audioUrl`	string	URL to the generated audio file
`audioFile`	file	Generated audio file object
`duration`	number	Audio duration in seconds
`characterCount`	number	Number of characters processed
`format`	string	Audio format
`provider`	string	TTS provider used

`tts_deepgram`

Convert text to speech using Deepgram Aura

Entrada

Parâmetro	Tipo	Obrigatório	Descrição
`text`	string	Sim	The text to convert to speech
`apiKey`	string	Sim	Deepgram API key
`model`	string	Não	Deepgram model/voice (e.g., aura-asteria-en, aura-luna-en)
`voice`	string	Não	Voice identifier (alternative to model param)
`encoding`	string	Não	Audio encoding (linear16, mp3, opus, aac, flac)
`sampleRate`	number	Não	Sample rate (8000, 16000, 24000, 48000)
`bitRate`	number	Não	Bit rate for compressed formats
`container`	string	Não	Container format (none, wav, ogg)

Saída

Parâmetro	Tipo	Descrição
`audioUrl`	string	URL to the generated audio file
`audioFile`	file	Generated audio file object
`duration`	number	Audio duration in seconds
`characterCount`	number	Number of characters processed
`format`	string	Audio format
`provider`	string	TTS provider used

`tts_elevenlabs`

Convert text to speech using ElevenLabs voices

Entrada

Parâmetro	Tipo	Obrigatório	Descrição
`text`	string	Sim	The text to convert to speech
`voiceId`	string	Sim	The ID of the voice to use
`apiKey`	string	Sim	ElevenLabs API key
`modelId`	string	Não	Model to use (e.g., eleven_monolingual_v1, eleven_turbo_v2_5, eleven_flash_v2_5)
`stability`	number	Não	Voice stability (0.0 to 1.0, default: 0.5)
`similarityBoost`	number	Não	Similarity boost (0.0 to 1.0, default: 0.8)
`style`	number	Não	Style exaggeration (0.0 to 1.0)
`useSpeakerBoost`	boolean	Não	Use speaker boost (default: true)

Saída

Parâmetro	Tipo	Descrição
`audioUrl`	string	URL to the generated audio file
`audioFile`	file	Generated audio file object
`duration`	number	Audio duration in seconds
`characterCount`	number	Number of characters processed
`format`	string	Audio format
`provider`	string	TTS provider used

`tts_cartesia`

Convert text to speech using Cartesia Sonic (ultra-low latency)

Entrada

Parâmetro	Tipo	Obrigatório	Descrição
`text`	string	Sim	The text to convert to speech
`apiKey`	string	Sim	Cartesia API key
`modelId`	string	Não	Model ID (sonic-english, sonic-multilingual)
`voice`	string	Não	Voice ID or embedding
`language`	string	Não	Language code (en, es, fr, de, it, pt, etc.)
`outputFormat`	json	Não	Output format configuration (container, encoding, sampleRate)
`speed`	number	Não	Speed multiplier
`emotion`	array	Não	Emotion tags for Sonic-3 (e.g., ['positivity:high'])

Saída

Parâmetro	Tipo	Descrição
`audioUrl`	string	URL to the generated audio file
`audioFile`	file	Generated audio file object
`duration`	number	Audio duration in seconds
`characterCount`	number	Number of characters processed
`format`	string	Audio format
`provider`	string	TTS provider used

`tts_google`

Convert text to speech using Google Cloud Text-to-Speech

Entrada

Parâmetro	Tipo	Obrigatório	Descrição
`text`	string	Sim	The text to convert to speech
`apiKey`	string	Sim	Google Cloud API key
`voiceId`	string	Não	Voice ID (e.g., en-US-Neural2-A, en-US-Wavenet-D)
`languageCode`	string	Sim	Language code (e.g., en-US, es-ES, fr-FR)
`gender`	string	Não	Voice gender (MALE, FEMALE, NEUTRAL)
`audioEncoding`	string	Não	Audio encoding (LINEAR16, MP3, OGG_OPUS, MULAW, ALAW)
`speakingRate`	number	Não	Speaking rate (0.25 to 2.0, default: 1.0)
`pitch`	number	Não	Voice pitch (-20.0 to 20.0, default: 0.0)
`volumeGainDb`	number	Não	Volume gain in dB (-96.0 to 16.0)
`sampleRateHertz`	number	Não	Sample rate in Hz
`effectsProfileId`	array	Não	Effects profile (e.g., ['headphone-class-device'])

Saída

Parâmetro	Tipo	Descrição
`audioUrl`	string	URL to the generated audio file
`audioFile`	file	Generated audio file object
`duration`	number	Audio duration in seconds
`characterCount`	number	Number of characters processed
`format`	string	Audio format
`provider`	string	TTS provider used

`tts_azure`

Convert text to speech using Azure Cognitive Services

Entrada

Parâmetro	Tipo	Obrigatório	Descrição
`text`	string	Sim	The text to convert to speech
`apiKey`	string	Sim	Azure Speech Services API key
`voiceId`	string	Não	Voice ID (e.g., en-US-JennyNeural, en-US-GuyNeural)
`region`	string	Não	Azure region (e.g., eastus, westus, westeurope)
`outputFormat`	string	Não	Output audio format
`rate`	string	Não	Speaking rate (e.g., +10%, -20%, 1.5)
`pitch`	string	Não	Voice pitch (e.g., +5Hz, -2st, low)
`style`	string	Não	Speaking style (e.g., cheerful, sad, angry - neural voices only)
`styleDegree`	number	Não	Style intensity (0.01 to 2.0)
`role`	string	Não	Role (e.g., Girl, Boy, YoungAdultFemale)

Saída

Parâmetro	Tipo	Descrição
`audioUrl`	string	URL to the generated audio file
`audioFile`	file	Generated audio file object
`duration`	number	Audio duration in seconds
`characterCount`	number	Number of characters processed
`format`	string	Audio format
`provider`	string	TTS provider used

`tts_playht`

Convert text to speech using PlayHT (voice cloning)

Entrada

Parâmetro	Tipo	Obrigatório	Descrição
`text`	string	Sim	The text to convert to speech
`apiKey`	string	Sim	PlayHT API key (AUTHORIZATION header)
`userId`	string	Sim	PlayHT user ID (X-USER-ID header)
`voice`	string	Não	Voice ID or manifest URL
`quality`	string	Não	Quality level (draft, standard, premium)
`outputFormat`	string	Não	Output format (mp3, wav, ogg, flac, mulaw)
`speed`	number	Não	Speed multiplier (0.5 to 2.0)
`temperature`	number	Não	Creativity/randomness (0.0 to 2.0)
`voiceGuidance`	number	Não	Voice stability (1.0 to 6.0)
`textGuidance`	number	Não	Text adherence (1.0 to 6.0)
`sampleRate`	number	Não	Sample rate (8000, 16000, 22050, 24000, 44100, 48000)

Saída

Parâmetro	Tipo	Descrição
`audioUrl`	string	URL to the generated audio file
`audioFile`	file	Generated audio file object
`duration`	number	Audio duration in seconds
`characterCount`	number	Number of characters processed
`format`	string	Audio format
`provider`	string	TTS provider used

Notas

Categoria: tools
Tipo: tts

Text-to-Speech

Instruções de Uso

Ferramentas

`tts_openai`

Entrada

Saída

`tts_deepgram`

Entrada

Saída

`tts_elevenlabs`

Entrada

Saída

`tts_cartesia`

Entrada

Saída

`tts_google`

Entrada

Saída

`tts_azure`

Entrada

Saída

`tts_playht`

Entrada

Saída

Notas

On this page