Nova Funcionalidade do Chat GPT-4: Interação com Imagens e Voz

A OpenAI anunciou recentemente uma atualização significativa para o ChatGPT, expandindo suas capacidades para além do texto. Aqui estão os detalhes mais relevantes para os entusiastas da tecnologia:

Introdução de Voz e Imagem
- O ChatGPT agora pode interagir com os usuários através de voz e imagem, proporcionando uma interface mais intuitiva.
- Os usuários podem tirar uma foto de um marco enquanto viajam e ter uma conversa ao vivo sobre ele. Em casa, podem tirar fotos da geladeira e despensa para descobrir o que preparar para o jantar ou ajudar uma criança com um problema de matemática, tirando uma foto e recebendo dicas.
Disponibilidade
- A funcionalidade de voz e imagem será lançada para usuários Plus e Enterprise nas próximas duas semanas.
- A voz estará disponível nos sistemas iOS e Android, enquanto a funcionalidade de imagem estará disponível em todas as plataformas.
Conversas por Voz
- Os usuários podem agora usar a voz para se envolver em conversas bidirecionais com o assistente.
- A nova capacidade de voz é alimentada por um modelo de texto para voz, capaz de gerar áudio semelhante ao humano a partir de apenas texto e alguns segundos de fala amostral.
- A OpenAI colaborou com atores de voz profissionais para criar as vozes e também utiliza o Whisper, seu sistema de reconhecimento de fala de código aberto.
Interação com Imagens
- Os usuários podem mostrar ao ChatGPT uma ou mais imagens para, por exemplo, solucionar problemas com um equipamento, explorar o conteúdo da geladeira ou analisar um gráfico complexo.
- A compreensão de imagens é alimentada pelos modelos multimodais GPT-3.5 e GPT-4, que aplicam suas habilidades de raciocínio de linguagem a uma ampla gama de imagens.
Preocupações com Segurança
- A OpenAI está ciente dos riscos associados às capacidades avançadas de voz e visão. Por exemplo, a tecnologia de voz pode ser usada por atores mal-intencionados para cometer fraudes.
- A visão baseada em modelos também apresenta desafios, como alucinações sobre pessoas ou a interpretação do modelo de imagens em domínios de alto risco.
- A OpenAI tomou medidas técnicas para limitar significativamente a capacidade do ChatGPT de analisar e fazer declarações diretas sobre pessoas, respeitando a privacidade dos indivíduos.
Limitações do Modelo
- A OpenAI é transparente sobre as limitações do modelo, especialmente em tópicos especializados e na transcrição de textos em idiomas que não sejam o inglês.
Expansão do Acesso
- Após o lançamento inicial para usuários Plus e Enterprise, a OpenAI planeja expandir o acesso a outros grupos de usuários, incluindo desenvolvedores.

Esta atualização marca um passo significativo na evolução dos modelos de linguagem e na forma como interagimos com a tecnologia. A capacidade de o ChatGPT “ver” e “ouvir” abre um mundo de possibilidades para aplicações futuras.