Google adiciona controle de computador ao Gemini 3.5
A nova atualização do Gemini traz uma série de melhorias que o tornam um assistente de inteligência artificial muito mais autônomo. Agora, é possível executar tarefas complexas apenas com comandos em linguagem natural, o que facilita a vida de quem precisa automatizar processos. A atualização também vem com mecanismos de segurança, essenciais para minimizar riscos durante a automação.
Até agora, desenvolvedores que queriam criar agentes para controlar computadores precisavam usar um modelo anterior, o Gemini 2.5. Com o lançamento do Gemini 3.5 Flash, essa capacidade foi incorporada em um só modelo, que se destaca pela rapidez e eficiência. Esse novo modelo combina interpretação visual, compreensão de linguagem, tomada de decisões e interação com interfaces gráficas, tudo em um único lugar. Isso significa que os desenvolvedores não precisam mais alternar entre diferentes modelos para criar aplicações mais complexas.
Como funciona o “Computer Use”
A funcionalidade “Computer Use” permite que o Gemini 3.5 interprete tudo que aparece na tela, quase como um humano. Quando recebe um comando, a IA pode:
- Identificar elementos da interface: Reconhece botões, menus e outros itens automaticamente.
- Movimentar o cursor: Decide onde posicionar o mouse e clica onde necessário para concluir tarefas.
- Digitar informações: Preenche formulários, pesquisa dados e navega entre páginas.
- Executar fluxos completos: Não se limita a responder perguntas; consegue realizar tarefas inteiras que envolvem diferentes sistemas.
Um exemplo prático apresentado pelo Google foi a busca pela passagem aérea mais barata entre duas cidades. A partir de um único comando, o Gemini abriu o navegador, acessou vários sites, preencheu informações e comparou preços, tudo isso sem intervenção humana. Esse tipo de automação é um grande passo à frente, especialmente em comparação com assistentes tradicionais que apenas fornecem links ou respostas simples.
IA em ação: até jogando
Embora o foco do Gemini seja a produtividade, o Google fez uma demonstração divertida ao mostrar a IA jogando 2048. Durante o jogo, o modelo analisava a posição das peças e as melhores estratégias para maximizar a pontuação. Essa capacidade de interpretar interfaces dinâmicas em tempo real é fundamental para um agente autônomo.
Possibilidades para as empresas
O impacto mais significativo dessa atualização deve ser sentido no mercado corporativo. Com o Gemini 3.5, as empresas podem desenvolver agentes que realizam atividades repetitivas sem a necessidade de programações específicas para cada software. Algumas aplicações possíveis incluem:
- Automação administrativa: Preenchimento de sistemas, atualização de planilhas e emissão de relatórios.
- Atendimento ao cliente: Agentes que consultam diferentes plataformas durante interações para reunir informações rapidamente.
- Testes de software: A IA navega por aplicações como um usuário humano, identificando falhas de interface.
- Processamento de documentos: Capaz de abrir arquivos e organizar informações automaticamente.
- Integração entre plataformas: Mesmo sem APIs, um agente pode operar diferentes sistemas usando suas interfaces gráficas.
Ambiente de testes com a Browserbase
Para facilitar a adoção do Computer Use, o Google criou um ambiente de testes em parceria com a Browserbase. Essa plataforma permite que desenvolvedores experimentem a nova funcionalidade em cenários reais antes de implementá-la em suas aplicações.
Segurança em primeiro lugar
Com a autonomia que o Gemini oferece, surgem preocupações sobre segurança. Para abordar isso, o Google utilizou técnicas de treinamento que ajudam a IA a identificar comportamentos suspeitos. Além disso, duas medidas de segurança importantes foram implementadas:
- Confirmação humana: O sistema pode ser configurado para interromper automaticamente tarefas sensíveis, como transferências bancárias ou exclusão de arquivos, exigindo autorização do usuário.
- Proteção contra injeção de prompt: O Gemini interrompe a execução se detectar tentativas de manipulação por meio de instruções maliciosas.
Recomendações de segurança
Apesar das novas proteções, o Google recomenda que as empresas não dependam apenas da IA. É fundamental adotar boas práticas de segurança, como executar em ambientes isolados, controlar rigorosamente credenciais e monitorar constantemente as automações.
Disponibilidade e expansão do Gemini
O recurso de Computer Use já está acessível para desenvolvedores através da Gemini API e da plataforma Gemini Enterprise Agent. Inicialmente, o foco é o mercado corporativo, onde a automação de tarefas repetitivas pode levar a ganhos significativos de produtividade.
Além disso, o Google ampliou o ecossistema do Gemini com novas ferramentas, como uma função integrada ao navegador Chrome para selecionar elementos da tela e melhorias na automação residencial com o Google Home.
Essa integração do Computer Use com o Gemini 3.5 representa uma mudança significativa na evolução da inteligência artificial. Ao invés de apenas gerar textos ou responder perguntas, os sistemas agora conseguem realizar tarefas de maneira mais independente. Essa tendência está se espalhando pela indústria de tecnologia, transformando assistentes virtuais em ferramentas práticas que ajudam no dia a dia digital.





