As forças de segurança da IA de Dario Amodei ficaram desconfortáveis com algumas das ações de Sam Altman. Logo após o acordo da Microsoft da OpenAi, a Microsoft foi resolvida em 2019, alguns deles não tiveram certeza de descobrir o escopo da promessa que Altman havia feito à Microsoft. Os termos da transação não correspondiam ao que eles entenderam de Altman. Eles estão preocupados se os problemas de segurança da IA realmente surgirem no modelo do Openai. Esses compromissos tornam muito mais difícil, se não impossível, impedir a implantação do modelo. Os termos da Amodei começaram a desenvolver sérias dúvidas sobre a integridade de Altman.
“Somos todos pessoas práticas”, diz o grupo. “Obviamente, estamos coletando dinheiro. Vamos fazer coisas comerciais. Muitas pessoas que fazem negócios como Sam estão dizendo:” Tudo bem, vamos negociar, vamos trocar as coisas, trocaremos a próxima coisa “e se você é como eu, você diz:” Estamos trocando coisas que não entendemos completamente. “Parece que estamos nos confiando a um lugar desagradável” “.
Isso foi contra o cenário de fantasias em crescimento em torno de uma variedade de questões em toda a empresa. Dentro das condições de segurança da IA, concentrou -se no que foi considerado uma evidência aprimorada de que sistemas de inconsistência fortes poderiam levar a consequências terríveis. Uma experiência particularmente estranha tornou alguns deles um pouco tensos. Em 2019, no modelo treinado após o GPT-2 com cerca de duas vezes os parâmetros, um grupo de pesquisadores começou a realizar o trabalho de segurança da IA que Amodei queria. Testamos o aprendizado de reforço com o feedback humano (RLHF) e testamos o modelo como uma maneira de orientar maneiras de gerar conteúdo hilário e positivo e longe da ofensiva.
No entanto, mais tarde uma noite, os pesquisadores criaram uma atualização em seu código que continha um único erro de digitação, antes de executar o processo RLHF durante a noite. O erro de digitação era importante. Foi um sinal negativo que foi entregue a um sinal positivo para fazer com que o processo RLHF funcionasse ao contrário e empurre o GPT -2 para gerar conteúdo mais agressivo do que menos. Na manhã seguinte, o erro de digitação havia causado que o caos e o GPT-2 haviam concluído todos os avisos em uma linguagem muito obscena e sexualmente explícita. Foi hilário e também preocupado. Depois de identificar o erro, os pesquisadores pressionaram a correção para a base de código do OpenAI nos comentários. Não crie um minimizador de utilidade.
Parcialmente impulsionado pela percepção de que a escala sozinha poderia levar a avanços na IA, muitos funcionários estavam preocupados com o que aconteceria se diferentes empresas fossem apanhadas nos segredos da Openai. “O segredo de como nossas coisas funcionam podem ser escritas em grãos de arroz”, dizem eles. Pela mesma razão, eles estavam preocupados com sua poderosa capacidade de pousar nas mãos de maus atores. A liderança confiava nesse medo, aumentando frequentemente ameaças à China, Rússia e Coréia do Norte, ressaltando a necessidade de o desenvolvimento da AGI permanecer nas mãos de organizações dos EUA. Às vezes, esse funcionário classificado não era americano. Na hora do almoço, eles se perguntam, por que isso tinha que ser uma organização americana? Lembro -me do ex -funcionário. Por que não é da Europa? Por que não é da China?
Em meio a essas discussões desafiadoras filosofiando sobre as implicações a longo prazo da pesquisa de IA, muitos funcionários frequentemente retornam às analogias iniciais de Altman entre o Openry e o projeto de Manhattan. O Openai estava realmente construindo algo equivalente a uma arma nuclear? Foi um contraste estranho com a cultura idealista e descontinuada que ele havia construído agora como uma organização amplamente acadêmica. Na sexta -feira, os funcionários reagiram uma longa semana para uma noite de música e vinho e foram pegos com os sons suaves de um elenco rotativo de colegas que tocavam piano de escritório tarde da noite.