Novas tecnologiasNovas tendências

Nova Funcionalidade do Chat GPT-4: Interação com Imagens e Voz

A OpenAI anunciou recentemente uma atualização significativa para o ChatGPT, expandindo suas capacidades para além do texto. Aqui estão os detalhes mais relevantes para os entusiastas da tecnologia:

  1. Introdução de Voz e Imagem
    • O ChatGPT agora pode interagir com os usuários através de voz e imagem, proporcionando uma interface mais intuitiva.
    • Os usuários podem tirar uma foto de um marco enquanto viajam e ter uma conversa ao vivo sobre ele. Em casa, podem tirar fotos da geladeira e despensa para descobrir o que preparar para o jantar ou ajudar uma criança com um problema de matemática, tirando uma foto e recebendo dicas.
  2. Disponibilidade
    • A funcionalidade de voz e imagem será lançada para usuários Plus e Enterprise nas próximas duas semanas.
    • A voz estará disponível nos sistemas iOS e Android, enquanto a funcionalidade de imagem estará disponível em todas as plataformas.
  3. Conversas por Voz
    • Os usuários podem agora usar a voz para se envolver em conversas bidirecionais com o assistente.
    • A nova capacidade de voz é alimentada por um modelo de texto para voz, capaz de gerar áudio semelhante ao humano a partir de apenas texto e alguns segundos de fala amostral.
    • A OpenAI colaborou com atores de voz profissionais para criar as vozes e também utiliza o Whisper, seu sistema de reconhecimento de fala de código aberto.
  4. Interação com Imagens
    • Os usuários podem mostrar ao ChatGPT uma ou mais imagens para, por exemplo, solucionar problemas com um equipamento, explorar o conteúdo da geladeira ou analisar um gráfico complexo.
    • A compreensão de imagens é alimentada pelos modelos multimodais GPT-3.5 e GPT-4, que aplicam suas habilidades de raciocínio de linguagem a uma ampla gama de imagens.
  5. Preocupações com Segurança
    • A OpenAI está ciente dos riscos associados às capacidades avançadas de voz e visão. Por exemplo, a tecnologia de voz pode ser usada por atores mal-intencionados para cometer fraudes.
    • A visão baseada em modelos também apresenta desafios, como alucinações sobre pessoas ou a interpretação do modelo de imagens em domínios de alto risco.
    • A OpenAI tomou medidas técnicas para limitar significativamente a capacidade do ChatGPT de analisar e fazer declarações diretas sobre pessoas, respeitando a privacidade dos indivíduos.
  6. Limitações do Modelo
    • A OpenAI é transparente sobre as limitações do modelo, especialmente em tópicos especializados e na transcrição de textos em idiomas que não sejam o inglês.
  7. Expansão do Acesso
    • Após o lançamento inicial para usuários Plus e Enterprise, a OpenAI planeja expandir o acesso a outros grupos de usuários, incluindo desenvolvedores.

Esta atualização marca um passo significativo na evolução dos modelos de linguagem e na forma como interagimos com a tecnologia. A capacidade de o ChatGPT “ver” e “ouvir” abre um mundo de possibilidades para aplicações futuras.

Roberto Gentile

CTO da Inova e-Business, empreendedor, programador, entusiasta da tecnologia. Trabalha desde 2002 na área e é sócio-fundador da Inova e-Business, uma fábrica de software, consultoria e agência digital desde 2011, fabricando soluções de Apps, E-Commerce, Sistemas e App e também do E-Commerce Plus, um produto de e-commerce e marketplace 100% brasileiro para médias e grandes empresas.

Deixe um comentário

Botão Voltar ao topo