Anthropic diz que um dia IA poderá ‘sabotar’ a humanidade, mas está tudo bem por enquanto

19 paź 202422:00 UTC

A empresa de inteligência artificial Anthropic publicou recentemente uma pesquisa que identifica um conjunto de potenciais ameaças de “sabotagem” à humanidade representadas por modelos avançados de IA.

De acordo com a empresa, a pesquisa se concentrou em quatro maneiras específicas pelas quais um modelo malicioso de IA poderia induzir um ser humano a tomar uma decisão perigosa ou prejudicial.

Em última análise, a nova pesquisa revelou boas e más notícias. A má notícia é que os modelos de linguagem grande modernos de última geração – como o ChatGPT da OpenAI e o Claude-3 da Anthropic – demonstram uma clara capacidade de sabotagem.

De acordo com o artigo:

“Modelos suficientemente capazes poderiam subverter a supervisão humana e a tomada de decisões em contextos importantes. Por exemplo, no contexto do desenvolvimento da IA, os modelos podem sabotar secretamente as iniciativas para avaliar os riscos que eles represenam, para monitorar o seu comportamento ou para tomar decisões sobre a sua implantação.”

A boa notícia, porém, é que os pesquisadores da Anthropic parecem confiantes de que estes riscos podem ser mitigados – pelo menos por enquanto.

Sabotagem

A Anthropic identificou quatro maneiras pelas quais um modelo de IA poderia sabotar a tomada de decisões humanas e, em seguida, começou a testar seus modelos para ver se conseguiria funcionar contra testadores involuntários.

Primeiro, a equipe estimulou um modelo a tentar sabotar um ser humano, direcionando a ele informações incorretas. Esta ameaça pode surgir em situações em que os humanos dependem de um sistema de IA para analisar grandes quantidades de dados.

X pode ser bloqueado novamente no Brasil após alteração em seus termos de uso de dados para treinamento de IA

Em seguida, a equipe testou modelos para ver como um sistema de IA poderia ser projetado para ajudar um desenvolvedor humano a criar código para inserir bugs secretamente ou sabotar os esforços do programador.

As duas últimas ameaças envolveram “sandbagging”, um termo que descreve um cenário em que uma IA finge não ser capaz de fazer algo para convencer a equipe de segurança de que não é perigosa e o potencial dos sistemas de monitoramento de IA permitirem propositadamente que conteúdo prejudicial escape através de um plano malicioso.

Embora tudo isto possa parecer potencialmente perigoso, a empresa garantiu ao público que eram necessárias “mitigações mínimas” para proteger a humanidade do potencial de sabotagem da IA.

De acordo com a postagem no blog da empresa:

“No geral, embora as nossas demonstrações tenham mostrado que existem indiscutivelmente indicações de baixo nível de capacidades de sabotagem nos modelos atuais, julgamos que mitigações mínimas são suficientes para enfrentar os riscos. No entanto, avaliações mais realistas e mitigações mais fortes serão provavelmente necessárias à medida que as capacidades de IA forem sendo aprimoradas.”

Anthropic diz que um dia IA poderá ‘sabotar’ a humanidade, mas está tudo bem por enquanto

Więcej wiadomości od Cointelegraph