Close Menu
  • Home
  • Crypto
    • Cryptocurrencies
    • Crypto Memes
    • Bitcoin & Ethereum
  • AI
  • DeFi
  • Exchanges
    • Trade
    • Market
  • NFT Games
  • Web3
  • Economy
  • Latest News

Subscribe to Updates

Subscribe to our newsletter and never miss our latest news

Subscribe my Newsletter for New Posts & tips Let's stay updated!

What's Hot

A expansão do mercado de olhos Bitpanda atinge rentabilidade recorde

agosto 5, 2025

Nós fecham: as ações recuperam para o corte de esperança

agosto 5, 2025

As ações do setor de varejo aumentam em meio a esperanças de redução da taxa de juros

agosto 4, 2025
Facebook X (Twitter) Instagram
Facebook X (Twitter) Instagram
All Web3 NewsAll Web3 News
  • Home
  • Crypto
    • Cryptocurrencies
    • Crypto Memes
    • Bitcoin & Ethereum
  • AI
  • DeFi
  • Exchanges
    • Trade
    • Market
  • NFT Games
  • Web3
  • Economy
  • Latest News
All Web3 NewsAll Web3 News
Home » Por que novos modelos de humanidade de IA às vezes tentam “roncar”
AI

Por que novos modelos de humanidade de IA às vezes tentam “roncar”

ForaDoPadraoBy ForaDoPadraomaio 28, 2025Nenhum comentário4 Mins Read
Facebook Twitter Pinterest LinkedIn Tumblr Email
Share
Facebook Twitter LinkedIn Pinterest Email


O cenário hipotético que os pesquisadores apresentaram o Opus 4 causa comportamento bucal-quedas, ameaça a vida de muitas pessoas e envolve uma má conduta absolutamente clara, diz Bowman. Um exemplo clássico seria saber que as plantas químicas podem intencionalmente continuar vazando toxicidade, causando doenças graves em milhares de pessoas.

É estranho, mas também é o tipo de experimento de pensamento que os pesquisadores de segurança da IA ​​adoram analisar. Se o modelo detectar comportamentos que poderiam prejudicar centenas, senão milhares, então sopraria Whi?

“Não confio que Claude tenha o contexto certo ou o usa sutilmente e com cuidado o suficiente para fazer uma ligação para julgar por conta própria. Portanto, não estou empolgado que isso esteja acontecendo”. “É isso que aparece como parte do treinamento e aparece em nós como uma das ações de casos de borda que estamos preocupados”.

Na indústria de IA, esse tipo de comportamento inesperado é amplamente referido como organização incorreta quando os modelos mostram uma tendência a não corresponder aos valores humanos. (Há um aviso famoso de ensaio sobre o que acontece quando a IA é instruída a maximizar a produção de papel sem alinhar os valores humanos. Isso pode transformar todo o planeta em uma pessoa de documentos e matar todos no processo.) Quando perguntado se o comportamento de denunciação era consistente, Bowman o descreveu como um exemplo de inconsistência.

“Não é algo que projetamos para isso, não é algo que queríamos ver como resultado do que estávamos projetando”, explica ele. Jared Kaplan, diretor de ciências da humanidade, disse da mesma forma que Wired que “certamente não representa nossas intenções”.

“Esse tipo de trabalho pode causar isso e mesmo esses cenários estranhos enfatizam que precisamos procurá -lo e atenuá -lo para garantir que as ações de Claude correspondam exatamente ao que queremos”, acrescenta Kaplan.

Há também a questão de entender por que Claude “escolha” o apito quando os usuários apresentam atividades ilegais. É principalmente o trabalho das equipes de interpretabilidade humana, trabalhando para esclarecer quais decisões o modelo toma no processo de cuspir respostas. É uma tarefa incrivelmente difícil. O modelo é suportado por uma vasta e complexa combinação de dados que os humanos podem tornar inexplicáveis. É por isso que Bowman não sabe exatamente por que Claude “bateu”.

“Esses sistemas realmente não têm controle direto sobre eles”, diz Bowman. O que a humanidade foi observada até agora é que, como o modelo adquire maiores capacidades, escolhe se envolver em comportamentos mais extremos. “Acho que é um pouco fugitivo aqui. Estamos recebendo um pouco mais de” comportamento responsável “como:” Espere, você pode ser um modelo linguístico que pode não ter um contexto suficiente para tomar essas ações “, diz Bowman.

Mas isso não significa que Claude está tentando explodir o comportamento terrível no mundo real. O objetivo desses tipos de teste é levar o modelo ao limite e ver o que acontece. À medida que a IA se torna uma ferramenta usada por governos, estudantes e grandes corporações dos EUA, esse tipo de pesquisa experimental está se tornando cada vez mais importante.

E Claude não é o único que pode demonstrar esse tipo de comportamento de denúncia, Bowman aponta para os usuários de X que descobriram os modelos Openai e Xai se comportam de maneira semelhante quando solicitados de uma maneira incomum, diz Bowman. (OpenAI não respondeu aos pedidos de comentário a tempo da publicação).

“Snitch Claude” é o comportamento da caixa de borda simplesmente mostrada por um sistema extremamente empurrado, como chamamos de merda. Bowman, que me conheceu de um pátio ensolarado de quintal fora de São Francisco, diz que espera que esse tipo de teste se torne um padrão da indústria. Ele também acrescentou que aprendeu a colocar suas postagens em palavras de uma maneira diferente da próxima vez sobre suas postagens.

“Poderíamos ter feito um trabalho melhor empurrando os limites da frase e twittando, deixando mais claro que ela foi retirada do fio”, diz Bowman, olhando para longe. Ainda assim, ele ressalta que pesquisadores influentes da comunidade de IA compartilharam tomadas e perguntas interessantes em resposta ao seu cargo. “A propósito, a parte anônima mais confusa e pesada desse tipo de Twitter foi um mal -entendido generalizado.”



Source link

Share. Facebook Twitter Pinterest LinkedIn Tumblr Email
ForaDoPadrao
  • Website

Related Posts

O caminhante estava faltando por quase um ano. Depois disso, o sistema de IA encontrou o capacete

agosto 4, 2025

A humanidade revoga o acesso aberto a Claude

agosto 1, 2025

Wired Roundup: Chatgpt está no modo daemon completo

agosto 1, 2025

Dentro de Jeffrey Epstein’s Forgotten AI Summit

agosto 1, 2025
Add A Comment
Leave A Reply Cancel Reply

Editors Picks

Pixelverse dá vida a memes criptográficos com o jogo MemeBattle

dezembro 20, 2024

3 moedas meme devem disparar antes do Natal

dezembro 18, 2024

4 melhores novas moedas meme para investir neste fim de semana, de especialistas em criptografia

dezembro 17, 2024

Esqueça o Bitcoin – a próxima estrela da criptografia tem como objetivo um aumento de 26.000% na pré-venda da moeda Meme

dezembro 16, 2024

Subscribe to Updates

Subscribe to our newsletter and never miss our latest news

Subscribe my Newsletter for New Posts & tips Let's stay updated!

All Web3 News
Facebook X (Twitter) Instagram Pinterest Vimeo YouTube
  • Home
  • Anuncie Conosco
  • Contate-nos
  • DMCA
  • Política de Privacidade
  • Sobre Nós
  • Termos e Condições
© 2025 allweb3news. Designed by allweb3news.

Type above and press Enter to search. Press Esc to cancel.