Home / Notícias / OpenAI lança modelos de áudio para tarefas de voz em tempo real

OpenAI lança modelos de áudio para tarefas de voz em tempo real

OpenAI lança modelos de áudio para tarefas de voz em tempo real

A OpenAI apresentou, nesta quinta-feira (7), três modelos de áudio para sua plataforma de desenvolvedores, com o objetivo de tornar agentes de software baseados em voz mais conversacionais e capazes de completar tarefas em tempo real.

O lançamento da interface de programação de aplicações (API, na sigla em inglês) leva a criadora do ChatGPT além da transcrição e chat, direcionando para agentes que podem ouvir, traduzir e agir durante conversas ao vivo.

  • Os novos modelos são GPT-Realtime-2, GPT-Realtime-Translate e GPT-Realtime-Whisper, disponíveis para teste no playground de desenvolvedores da OpenAI;
  • O GPT-Realtime-2 foi projetado para gerenciar solicitações mais complexas, chamar ferramentas, lidar com interrupções e manter contexto em sessões de voz mais longas;
  • O segundo modelo suporta tradução de mais de 70 idiomas para 13 idiomas de saída, direcionado para suporte ao cliente, educação e outros ambientes;
  • O GPT-Realtime-Whisper fornece conversão de fala para texto ao vivo, permitindo que legendas, notas de reuniões e atualizações de fluxo de trabalho sejam geradas enquanto o palestrante fala.
Novos modelos são GPT-Realtime-2, GPT-Realtime-Translate e GPT-Realtime-Whisper, disponíveis para teste no playground de desenvolvedores da OpenAI – Imagem: Primakov/Shutterstock

Leia mais:

Clientes da OpenAI e preços dos novos modelos

Entre os clientes testando os modelos estão o marketplace imobiliário online Zillow, a agência de viagens online Priceline e a empresa europeia de telecomunicações Deutsche Telekom. Os preços do GPT-Realtime-2 começam em US$ 32 (R$ 158,26) por milhão de tokens de entrada de áudio, o GPT-Realtime-Translate custa US$ 0,034 (R$ 0,17) por minuto e o GPT-Realtime-Whisper US$ 0,017 (R$ 0,084) por minuto.

GPT-Fone? Rumores sobre celular da OpenAI estão aumentando

OpenAI pode estar desenvolvendo seu primeiro produto de hardware: um smartphone voltado ao ChatGPT. De acordo com o analista de cadeia de suprimentos Ming-Chi Kuo, o projeto está sendo acelerado, com previsão de início da produção em massa no começo de 2027.

Leia a matéria completa aqui

O post OpenAI lança modelos de áudio para tarefas de voz em tempo real apareceu primeiro em Olhar Digital.