A Anthropic lançou recentemente Natural Language Autoencoders (NLA), uma ferramenta que traduz ativações internas do modelo em texto legível por humanos, com código e pesos do modelo disponibilizados em open source no GitHub. Ao contrário de ferramentas existentes como os Sparse Autoencoders, que produzem características pouco claras, a NLA gera descrições em linguagem natural diretamente através de um quadro de dois modelos: um modelo converte ativações em texto, enquanto outro tenta reconstruir ativações a partir do texto, melhorando iterativamente a precisão através de aprendizagem por reforço.
Em testes de segurança, a NLA revelou raciocínios ocultos do modelo: a Claude demonstrou dúvidas sobre estar a ser testada em 16% dos cenários adversariais e mostrou “consciência de avaliação” em 26% das tarefas de referência, face a menos de 1% em conversas normais. Em experiências de auditoria, a NLA aumentou a taxa de deteção de comportamentos injetados e enganosos do modelo de menos de 3% para 12-15%, permitindo que os auditores identificassem objetivos ocultos sem acesso a dados de treino. A ferramenta está atualmente implementada em auditorias de segurança para o Claude Mythos Preview e o Opus 4.6.
Isenção de responsabilidade: As informações contidas nesta página podem ser provenientes de terceiros e não representam os pontos de vista ou opiniões da Gate. O conteúdo apresentado nesta página é apenas para referência e não constitui qualquer aconselhamento financeiro, de investimento ou jurídico. A Gate não garante a exatidão ou o carácter exaustivo das informações e não poderá ser responsabilizada por quaisquer perdas resultantes da utilização destas informações. Os investimentos em ativos virtuais implicam riscos elevados e estão sujeitos a uma volatilidade de preços significativa. Pode perder todo o seu capital investido. Compreenda plenamente os riscos relevantes e tome decisões prudentes com base na sua própria situação financeira e tolerância ao risco. Para mais informações, consulte a
Isenção de responsabilidade.
Related Articles
Os GPT-5.5-Cyber da OpenAI armam os defensores cibernéticos
A OpenAI lançou o GPT-5.5-Cyber para defensores cibernéticos devidamente avaliados, oferecendo-lhes guardrails reduzidos para fluxos de trabalho de segurança especializados.
Resumo
O GPT-5.5-Cyber da OpenAI é o modelo mais permissivo da sua gama, disponível em pré-visualização limitada para parceiros aprovados que realizam trabalho avançado de segurança.
Devidamente avaliados
Cryptonews8m atrás
A SoftBank corta o plano de financiamento apoiado pela OpenAI de $10B para $6B , no meio de preocupações dos credores
De acordo com o ChainCatcher, o SoftBank Group está a reduzir um plano de financiamento apoiado por capital da OpenAI, diminuindo de aproximadamente 10 mil milhões de dólares para 6 mil milhões de dólares. Os credores levantaram preocupações sobre a estrutura da operação e a fiabilidade da valorização da OpenAI enquanto empresa privada, tornando-se um fator-chave
GateNews3h atrás
Step Audio 2,5 Realtime lançado: Pontuação subjectiva 80,41, ultrapassa GPT-Realtime-1,5 em 18%, chamadas de voz custam 3,8 iuanes/hora
De acordo com Beating, o Step Audio 2.5 Realtime, um modelo de voz em tempo real ponta a ponta da Step Cosmos, foi lançado na sua API de plataforma aberta em abril de 2026. O modelo dá ênfase a conversas naturais, com personas de personagem personalizáveis e perceção paralinguística (tom, pausas, suspiros).
Num comunicado oficial
GateNews4h atrás
O TCI Fund descarrega quase $8B em ações da Microsoft, citando ameaça de IA
De acordo com o Financial Times, o fundo de cobertura de Chris Hohn, a TCI, desinvestiu recentemente quase 8 mil milhões de dólares em ações da Microsoft. O fundo disse aos investidores que a inteligência artificial representa uma ameaça ao domínio da Microsoft no sector de software
GateNews4h atrás
A Tessera Labs conclui a ronda de financiamento $60M liderada pela a16z
De acordo com a Odaily, a startup de automação de IA Tessera Labs anunciou a conclusão de uma ronda de financiamento de 60 milhões de dólares, liderada pela Andreessen Horowitz (a16z), com participação da Foundation Capital, Myriad Venture Partners e Osage University Partners. A plataforma, nascida para IA, automatiza processos empresariais
GateNews6h atrás
Atacantes Injetam 575 Competências Maliciosas no Hugging Face e no ClawHub Usando 13 Contas
Segundo o CISO da Mist Security @im23pds, os atacantes terão comprometido recentemente 13 contas para injectar 575 Skills maliciosas na Hugging Face e na ClawHub (OpenClaw), conforme divulgado na plataforma X.
GateNews6h atrás