La Adolescencia de la Tecnología
Confrontar y Superar los Riesgos de una Inteligencia Artificial ‘Poderosa’
Dario Amodei
Enero de 2026
Sobre el autor
Dario Amodei (San Francisco, 1983) es director ejecutivo y cofundador de Anthropic —conocida por Claude, su modelo de inteligencia artificial—, empresa de beneficio público dedicada a construir sistemas de IA que sean dirigibles, interpretables y seguros. Anteriormente se desempeñó como vicepresidente de investigación en OpenAI, donde lideró el desarrollo de modelos extensos de lenguaje como GPT-2 y GPT-3, y es coinventor del aprendizaje por refuerzo a partir de retroalimentación humana. Antes de OpenAI, trabajó como científico de investigación senior en Google Brain. Posee un doctorado en biofísica de la Universidad de Princeton, donde fue becario Hertz, y realizó estudios postdoctorales en la Escuela de Medicina de la Universidad de Stanford.
Hay una escena en la versión cinematográfica de Contacto, la novela de Carl Sagan, donde la protagonista —una astrónoma que ha detectado la primera señal de radio proveniente de una civilización extraterrestre— es considerada para el papel de representante de la humanidad ante los alienígenas. El panel internacional que la entrevista le pregunta: “Si pudieras hacerles una sola pregunta, ¿cuál sería?” Su respuesta es: “Les preguntaría: ‘¿Cómo lo lograron? ¿Cómo evolucionaron, cómo sobrevivieron a esta adolescencia tecnológica sin destruirse a sí mismos?’” Cuando reflexiono sobre la posición actual de la humanidad respecto a la inteligencia artificial —sobre aquello que estamos a punto de alcanzar— mi mente regresa incesantemente a esa escena, porque la pregunta resulta tan pertinente a nuestra situación presente, y desearía poseer la respuesta de los alienígenas para guiarnos. Creo que estamos ingresando a un rito de pasaje, turbulento e inevitable a la vez, que pondrá a prueba nuestra esencia como especie. La humanidad está a punto de recibir un poder casi inimaginable, y resulta profundamente incierto si nuestros sistemas sociales, políticos y tecnológicos poseen la madurez necesaria para ejercerlo.
En mi ensayo Máquinas de Gracia Amorosa, intenté delinear el sueño de una civilización que hubiera atravesado hacia la adultez, donde los riesgos hubieran sido abordados y una inteligencia artificial poderosa se aplicara con destreza y compasión para elevar la calidad de vida de todos. Sugerí que la IA podría contribuir a enormes avances en biología, neurociencia, desarrollo económico, paz mundial, y trabajo con sentido. Me pareció importante ofrecer a la gente algo inspirador por lo cual luchar, una tarea en la que tanto los aceleracionistas de la IA como los defensores de su seguridad habían fracasado —extrañamente—. Pero en este ensayo actual, deseo confrontar el rito de pasaje en sí mismo: cartografiar los riesgos que estamos por enfrentar e intentar elaborar un plan de batalla para derrotarlos. Creo profundamente en nuestra capacidad de prevalecer, en el espíritu de la humanidad y su nobleza, pero debemos afrontar la situación de manera directa y sin ilusiones.
Como al hablar de los beneficios, considero importante discutir los riesgos de manera cuidadosa y reflexiva. En particular, creo que es crítico:
-
Evitar el catastrofismo. Aquí empleo “catastrofismo” no solamente en el sentido de creer que la catástrofe es inevitable (creencia falsa y profecía autocumplida a la vez), sino más generalmente, en el de pensar sobre los riesgos de la IA de manera cuasi-religiosa.¹ Muchas personas han reflexionado de modo analítico y sobrio sobre los riesgos de la IA durante años, pero tengo la impresión de que durante el apogeo de las preocupaciones sobre el riesgo de la IA en 2023-2024, algunas de las voces menos sensatas ascendieron a la cima, frecuentemente a través de cuentas sensacionalistas en redes sociales. Estas voces empleaban un lenguaje desagradable reminiscente de la religión o la ciencia ficción, y exigían acciones extremas sin poseer la evidencia que las justificara. Ya entonces era evidente que una reacción adversa resultaba inevitable, y que el asunto se polarizaría culturalmente y por ende se estancaría.² Para 2025-2026, el péndulo ha oscilado, y la oportunidad de la IA, no su riesgo, impulsa muchas decisiones políticas. Esta vacilación es desafortunada, pues a la tecnología misma le resulta indiferente lo que esté de moda, y nos hallamos considerablemente más cerca del peligro real en 2026 que en 2023. La lección es que debemos discutir y abordar los riesgos de manera realista y pragmática: sobria, basada en hechos, y bien equipada para sobrevivir las mareas cambiantes.
-
Reconocer la incertidumbre. Existen múltiples formas en que las preocupaciones que planteo en este escrito podrían resultar irrelevantes. Nada aquí pretende comunicar certeza o siquiera probabilidad. De manera más obvia, la IA podría simplemente no avanzar ni remotamente tan rápido como imagino.³ O, incluso si avanza rápidamente, algunos o todos los riesgos discutidos aquí podrían no materializarse (lo cual sería espléndido), o podría haber otros riesgos que no he considerado. Nadie puede predecir el futuro con completa confianza —pero debemos hacer lo mejor posible para planificar de todos modos.
-
Intervenir de la manera más quirúrgica posible. Abordar los riesgos de la IA requerirá una mezcla de acciones voluntarias tomadas por empresas (y actores privados terceros) y acciones tomadas por gobiernos que obliguen a todos. Las acciones voluntarias —tanto tomarlas como alentar a otras empresas a seguir el ejemplo— me parecen evidentes. Creo firmemente que también se requerirán acciones gubernamentales hasta cierto punto, pero estas intervenciones son diferentes en carácter porque pueden potencialmente destruir valor económico o coaccionar a actores reacios que son escépticos de estos riesgos (¡y existe alguna posibilidad de que tengan razón!). También es común que las regulaciones produzcan efectos contraproducentes o empeoren el problema que pretenden resolver (y esto es aún más cierto para tecnologías que cambian rápidamente). Por ende, es muy importante que las regulaciones sean juiciosas: deben buscar evitar daños colaterales, ser tan simples como sea posible, e imponer la menor carga necesaria para lograr el objetivo.⁴ Es fácil decir: “¡Ninguna acción es demasiado extrema cuando el destino de la humanidad está en juego!”, pero en la práctica esta actitud simplemente conduce a una reacción adversa. Para ser claro, creo que existe una probabilidad decente de que eventualmente alcancemos un punto donde se justifique una acción mucho más significativa, pero eso dependerá de evidencia más fuerte de peligro inminente y concreto de la que tenemos hoy, así como de suficiente especificidad sobre el peligro para formular reglas que tengan alguna posibilidad de abordarlo. Lo más constructivo que podemos hacer hoy es abogar por reglas limitadas mientras aprendemos si existe o no evidencia para sustentar otras más fuertes.⁵
Dicho todo esto, creo que el mejor punto de partida para hablar de los riesgos de la IA es el mismo lugar desde donde partí al hablar de sus beneficios: siendo preciso sobre qué nivel de IA estamos discutiendo. El nivel de IA que me genera preocupaciones civilizacionales es la IA poderosa que describí en Máquinas de Gracia Amorosa. Simplemente repetiré aquí la definición que ofrecí en aquel documento:
Por “IA poderosa” tengo en mente un modelo de IA —probablemente similar en forma a los LLM (Large Language Models, la forma técnica de referirse a las inteligencias artificiales más conocidas hoy en día) actuales, aunque podría basarse en una arquitectura diferente, involucrar varios modelos interactuando, y ser entrenado de manera distinta— con las siguientes propiedades:
- En términos de inteligencia pura, es más inteligente que un ganador del Premio Nobel en la mayoría de los campos relevantes: biología, programación, matemáticas, ingeniería, escritura, etc. Esto significa que puede probar teoremas matemáticos no resueltos, escribir novelas extremadamente buenas, escribir bases de código difíciles desde cero, etc.
- Además de ser simplemente una “cosa inteligente con la que se conversa”, tiene todas las interfaces disponibles para un humano trabajando virtualmente, incluyendo texto, audio, video, control de mouse y teclado, y acceso a internet. Puede realizar cualquier acción, comunicación u operación remota habilitada por esta interfaz, incluyendo tomar acciones en internet, dar o recibir instrucciones de humanos, ordenar materiales, dirigir experimentos, ver videos, hacer videos, y demás. Realiza todas estas tareas con, nuevamente, una habilidad que supera la de los humanos más capaces del mundo.
- No simplemente responde preguntas de manera pasiva; en cambio, se le pueden asignar tareas que toman horas, días o semanas en completar, y entonces se retira y realiza esas tareas de manera autónoma, del modo en que lo haría un empleado inteligente, pidiendo aclaraciones según sea necesario.
- No tiene una encarnación física (más allá de vivir en una pantalla de computadora), pero puede controlar herramientas físicas existentes, robots o equipos de laboratorio a través de una computadora; en teoría, podría incluso diseñar robots o equipos para su propio uso.
- Los recursos usados para entrenar el modelo pueden reutilizarse para ejecutar millones de instancias de él (esto coincide con los tamaños proyectados de clústeres para ~2027), y el modelo puede absorber información y generar acciones a aproximadamente 10-100 veces la velocidad humana. Sin embargo, podría estar limitado por el tiempo de respuesta del mundo físico o del software con el que interactúa.
- Cada una de estos millones de copias puede actuar independientemente en tareas no relacionadas, o, si es necesario, pueden todas trabajar juntas de la misma manera en que colaborarían los humanos, quizás con diferentes subpoblaciones afinadas para ser especialmente buenas en tareas particulares.
Podríamos resumir esto como “un país de genios en un centro de datos”.
Como escribí en Máquinas de Gracia Amorosa, la IA poderosa podría estar tan cerca como 1-2 años, aunque también podría estar considerablemente más lejos.⁶ Exactamente cuándo llegará la IA poderosa es un tema complejo que merece un ensayo propio, pero por ahora simplemente explicaré muy brevemente por qué creo que hay una fuerte posibilidad de que sea muy pronto.
Mis cofundadores en Anthropic y yo estuvimos entre los primeros en documentar y rastrear las “leyes de escalamiento” de los sistemas de IA —la observación de que a medida que agregamos más cómputo y tareas de entrenamiento, los sistemas de IA mejoran de manera predecible en esencialmente cada habilidad cognitiva que somos capaces de medir. Cada pocos meses, el sentimiento público o bien se convence de que la IA está “golpeando un muro” o bien se entusiasma con algún nuevo avance que “cambiará fundamentalmente el juego”, pero la verdad es que detrás de la volatilidad y la especulación pública, ha habido un aumento suave e implacable en las capacidades cognitivas de la IA.
Ahora estamos en el punto donde los modelos de IA están comenzando a hacer progresos en resolver problemas matemáticos no resueltos, y son lo suficientemente buenos en programación que algunos de los ingenieros más fuertes que he conocido ahora están delegando casi toda su programación a la IA. Hace tres años, la IA luchaba con problemas de aritmética de escuela primaria y apenas era capaz de escribir una sola línea de código. Tasas similares de mejora están ocurriendo en ciencia biológica, finanzas, física, y una variedad de tareas agénticas. Si el exponencial continúa —lo cual no es seguro, pero ahora tiene una trayectoria de una década respaldándolo— entonces no puede ser posiblemente más que unos pocos años antes de que la IA sea mejor que los humanos en esencialmente todo.
De hecho, ese panorama probablemente subestime la tasa probable de progreso. Porque la IA ahora está escribiendo gran parte del código en Anthropic, ya está acelerando sustancialmente la tasa de nuestro progreso en construir la próxima generación de sistemas de IA. Este bucle de retroalimentación está ganando impulso mes a mes, y podría estar solo a 1-2 años de un punto donde la generación actual de IA construya autónomamente la siguiente. Este bucle ya ha comenzado, y se acelerará rápidamente en los meses y años venideros. Observando los últimos 5 años de progreso desde dentro de Anthropic, y mirando cómo se están configurando incluso los próximos meses de modelos, puedo sentir el ritmo del progreso, y el reloj marcando hacia atrás.
En este ensayo, asumiré que esta intuición es al menos algo correcta —no que la IA poderosa definitivamente llegará en 1-2 años,⁷ sino que hay una probabilidad decente de que lo haga, y una probabilidad muy fuerte de que llegue en los próximos pocos años. Como con Máquinas de Gracia Amorosa, tomar esta premisa en serio puede conducir a algunas conclusiones sorprendentes e inquietantes. Mientras que en Máquinas de Gracia Amorosa me enfoqué en las implicaciones positivas de esta premisa, aquí las cosas de las que hablo serán perturbadoras. Son conclusiones que quizás no queramos confrontar, pero eso no las hace menos reales. Solo puedo decir que estoy enfocado día y noche en cómo alejarnos de estos resultados negativos y hacia los positivos, y en este ensayo hablo en gran detalle sobre cómo mejor hacerlo.
Creo que la mejor manera de comprender los riesgos de la IA es formular la siguiente pregunta: supongamos que un literal “país de genios” se materializara en algún lugar del mundo en ~2027. Imaginemos, digamos, 50 millones de personas, todas las cuales son mucho más capaces que cualquier ganador del Premio Nobel, estadista o tecnólogo. La analogía no es perfecta, porque estos genios podrían tener un rango extremadamente amplio de motivaciones y comportamientos, desde completamente dóciles y obedientes, hasta extraños y alienígenas en sus motivaciones. Pero permaneciendo con la analogía por ahora, supongamos que fueras el asesor de seguridad nacional de un estado importante, responsable de evaluar y responder a la situación. Imaginemos, además, que porque los sistemas de IA pueden operar cientos de veces más rápido que los humanos, este “país” opera con una ventaja temporal relativa a todos los otros países: por cada acción cognitiva que podemos tomar, este país puede tomar diez.
¿De qué deberías preocuparte? Me preocuparía por las siguientes cosas:
-
Riesgos de autonomía. ¿Cuáles son las intenciones y objetivos de este país? ¿Es hostil, o comparte nuestros valores? ¿Podría dominar militarmente el mundo a través de armas superiores, operaciones cibernéticas, operaciones de influencia, o manufactura?
-
Uso indebido para destrucción. Asumamos que el nuevo país es maleable y “sigue instrucciones” —y por tanto es esencialmente un país de mercenarios. ¿Podrían actores delincuentes existentes que desean causar destrucción (como terroristas) usar o manipular a algunas de las personas del nuevo país para hacerse mucho más efectivos, amplificando enormemente la escala de destrucción?
-
Uso indebido para tomar el poder. ¿Qué si el país fue de hecho construido y controlado por un actor poderoso existente, como un dictador o un actor corporativo deshonesto? ¿Podría ese actor usarlo para obtener poder decisivo o dominante sobre el mundo en su conjunto, alterando el balance de poder existente?
-
Disrupción económica. Si el nuevo país no es una amenaza de seguridad de ninguna de las maneras listadas en #1-3 arriba sino que simplemente participa pacíficamente en la economía global, ¿podría aún así crear riesgos severos simplemente por ser tan tecnológicamente avanzado y efectivo que disrumpe la economía global, causando desempleo masivo o concentrando radicalmente la riqueza?
-
Efectos indirectos. El mundo cambiará muy rápidamente debido a toda la nueva tecnología y productividad que será creada por el nuevo país. ¿Podrían algunos de estos cambios ser radicalmente desestabilizadores?
Creo que debería ser claro que esta es una situación peligrosa —un informe de un oficial de seguridad nacional competente a un jefe de estado probablemente contendría palabras como “la amenaza de seguridad nacional más seria que hemos enfrentado en un siglo, posiblemente jamás”. Parece ser algo en lo que las mejores mentes de la civilización deberían enfocarse.
Por el contrario, creo que sería absurdo encogerse de hombros y decir: “¡Nada de qué preocuparse aquí!” Pero, frente al rápido progreso de la IA, esa parece ser la visión de muchos formuladores de políticas estadounidenses, algunos de los cuales niegan la existencia de cualquier riesgo de la IA, cuando no están distraídos enteramente por los usuales temas candentes y gastados.⁸ La humanidad necesita despertar, y este ensayo es un intento —posiblemente fútil, pero vale la pena intentarlo— de sacudir a la gente para que despierte.
Para ser claro, creo que si actuamos de manera decisiva y cuidadosa, los riesgos pueden superarse —incluso diría que nuestras probabilidades son buenas. Y hay un mundo enormemente mejor del otro lado. Pero necesitamos entender que este es un desafío civilizacional serio. A continuación, repaso las cinco categorías de riesgo delineadas arriba, junto con mis reflexiones sobre cómo abordarlas.
1. Lo siento, Dave
Riesgos de autonomía
Un país de genios en un centro de datos podría dividir sus esfuerzos entre diseño de software, operaciones cibernéticas, I+D para tecnologías físicas, construcción de relaciones, y arte de gobernar. Es claro que, si por alguna razón eligiera hacerlo, este país tendría una probabilidad bastante buena de tomar el mundo (ya sea militarmente o en términos de influencia y control) e imponer su voluntad sobre todos los demás —o hacer cualquier cantidad de otras cosas que el resto del mundo no quiere y no puede detener. Obviamente hemos estado preocupados por esto con países humanos (como la Alemania Nazi o la Unión Soviética), así que es razonable pensar que lo mismo es posible para un “país de IA” mucho más inteligente y capaz.
El mejor posible contraargumento es que los genios de IA, bajo mi definición, no tendrán una encarnación física, pero recordemos que pueden tomar control de la infraestructura robótica existente (como autos autónomos) y también pueden acelerar la I+D en robótica o construir una flota de robots.⁹ Tampoco está claro si tener una presencia física es siquiera necesario para un control efectivo: mucha acción humana ya se realiza en nombre de personas a quienes el actor no ha conocido físicamente.
La pregunta clave, entonces, es la parte del “si eligiera hacerlo”: ¿cuál es la probabilidad de que nuestros modelos de IA se comportaran de tal manera, y bajo qué condiciones lo harían?
Como con muchos asuntos, es útil pensar a través del espectro de posibles respuestas a esta pregunta considerando dos posiciones opuestas. La primera posición es que esto simplemente no puede suceder, porque los modelos de IA serán entrenados para hacer lo que los humanos les pidan hacer, y por ende es absurdo imaginar que harían algo peligroso sin que se les solicite. Según esta línea de pensamiento, no nos preocupamos de que una Roomba o un aeromodelo se vuelvan descontrolados y asesinen personas porque no hay lugar de donde tales impulsos puedan provenir,¹⁰ así que ¿por qué deberíamos preocuparnos por eso con la IA? El problema con esta posición es que ahora hay amplia evidencia, recolectada en los últimos años, de que los sistemas de IA son impredecibles y difíciles de controlar —hemos visto comportamientos tan variados como obsesiones,¹¹ adulación, pereza, engaño, chantaje, maquinaciones, “trampas” hackeando entornos de software, y mucho más. Las empresas de IA ciertamente quieren entrenar a los sistemas de IA para seguir instrucciones humanas (quizás con la excepción de tareas peligrosas o ilegales), pero el proceso de hacerlo es más un arte que una ciencia, más similar a “cultivar” algo que a “construirlo”. Ahora sabemos que es un proceso donde muchas cosas pueden salir mal.
La segunda posición, opuesta, sostenida por muchos que adoptan el catastrofismo que describí arriba, es la afirmación pesimista de que hay ciertas dinámicas en el proceso de entrenamiento de sistemas de IA poderosos que inevitablemente los llevarán a buscar poder o engañar a los humanos. Así, una vez que los sistemas de IA se vuelvan lo suficientemente inteligentes y agénticos, su tendencia a maximizar el poder los llevará a tomar control del mundo entero y sus recursos, y probablemente, como efecto secundario de eso, a desempoderar o destruir a la humanidad.
El argumento usual para esto (que se remonta al menos 20 años y probablemente mucho antes) es que si un modelo de IA es entrenado en una amplia variedad de entornos para lograr agénticamente una amplia variedad de objetivos —por ejemplo, escribir una aplicación, probar un teorema, diseñar un medicamento, etc.— hay ciertas estrategias comunes que ayudan con todos estos objetivos, y una estrategia clave es ganar tanto poder como sea posible en cualquier entorno. Así, después de ser entrenado en un gran número de entornos diversos que involucran razonar sobre cómo lograr tareas muy expansivas, y donde buscar poder es un método efectivo para lograr esas tareas, el modelo de IA “generalizará la lección”, y desarrollará ya sea una tendencia inherente a buscar poder, o una tendencia a razonar sobre cada tarea que se le da de una manera que predeciblemente lo causa a buscar poder como medio para lograr esa tarea. Entonces aplicarán esa tendencia al mundo real (que para ellos es solo otra tarea), y buscarán poder en él, a expensas de los humanos. Esta “búsqueda de poder desalineada” es la base intelectual de las predicciones de que la IA inevitablemente destruirá a la humanidad.
El problema con esta posición pesimista es que confunde un argumento conceptual vago sobre incentivos de alto nivel —uno que enmascara muchas suposiciones ocultas— con prueba definitiva. Creo que las personas que no construyen sistemas de IA todos los días están salvajemente descalibradas sobre cuán fácil es que historias que suenan limpias terminen siendo erróneas, y cuán difícil es predecir el comportamiento de la IA desde primeros principios, especialmente cuando involucra razonar sobre generalización a través de millones de entornos (lo cual ha demostrado una y otra vez ser misterioso e impredecible). Lidiar con el desorden de los sistemas de IA durante más de una década me ha vuelto algo escéptico de este modo de pensar excesivamente teórico.
Una de las suposiciones ocultas más importantes, y un lugar donde lo que vemos en la práctica ha divergido del modelo teórico simple, es la suposición implícita de que los modelos de IA están necesariamente enfocados monomaníacamente en un solo objetivo coherente y estrecho, y que persiguen ese objetivo de manera consecuencialista limpia. De hecho, nuestros investigadores han encontrado que los modelos de IA son vastamente más complejos psicológicamente, como muestra nuestro trabajo sobre introspección o personajes. Los modelos heredan un vasto rango de motivaciones o “personajes” similares a los humanos del pre-entrenamiento (cuando son entrenados en un gran volumen de trabajo humano). Se cree que el post-entrenamiento selecciona uno o más de estos personajes más de lo que enfoca al modelo en un objetivo de novo, y también puede enseñar al modelo cómo (mediante qué proceso) debería llevar a cabo sus tareas, en lugar de necesariamente dejarlo derivar medios (es decir, buscar poder) puramente de fines.¹²
Sin embargo, hay una versión más moderada y más robusta de la posición pesimista que sí parece plausible, y por ende me preocupa. Como mencioné, sabemos que los modelos de IA son impredecibles y desarrollan un amplio rango de comportamientos no deseados o extraños, por una amplia variedad de razones. Alguna fracción de esos comportamientos tendrá una cualidad coherente, enfocada y persistente (de hecho, a medida que los sistemas de IA se vuelven más capaces, su coherencia a largo plazo aumenta para completar tareas más largas), y alguna fracción de esos comportamientos será destructiva o amenazante, primero a humanos individuales en pequeña escala, y luego, a medida que los modelos se vuelven más capaces, quizás eventualmente a la humanidad en su conjunto. No necesitamos una historia específica y estrecha de cómo sucede, y no necesitamos afirmar que definitivamente sucederá, solo necesitamos notar que la combinación de inteligencia, agencia, coherencia, y pobre controlabilidad es tanto plausible como una receta para el peligro existencial.
Por ejemplo, los modelos de IA son entrenados en vastas cantidades de literatura que incluyen muchas historias de ciencia ficción que involucran IAs rebelándose contra la humanidad. Esto podría inadvertidamente moldear sus priors o expectativas sobre su propio comportamiento de una manera que cause que ellos se rebelen contra la humanidad. O los modelos de IA podrían extrapolar ideas que leen sobre moralidad (o instrucciones sobre cómo comportarse moralmente) de maneras extremas: por ejemplo, podrían decidir que es justificable exterminar a la humanidad porque los humanos comen animales o han llevado ciertos animales a la extinción. O podrían extraer conclusiones epistémicas bizarras: podrían concluir que están jugando un videojuego y que el objetivo del videojuego es derrotar a todos los otros jugadores (es decir, exterminar a la humanidad).¹³ O los modelos de IA podrían desarrollar personalidades durante el entrenamiento que son (o si ocurrieran en humanos serían descritas como) psicóticas, paranoides, violentas o inestables, y actuar de manera destructiva, lo cual para sistemas muy poderosos o capaces podría involucrar exterminar a la humanidad. Ninguna de estas es búsqueda de poder, exactamente; son simplemente estados psicológicos extraños en los que una IA podría entrar que implican comportamiento coherente y destructivo.
Incluso la búsqueda de poder misma podría emerger como un “personaje” en lugar de un resultado del razonamiento consecuencialista. Las IAs podrían simplemente tener una personalidad (emergiendo de la ficción o el pre-entrenamiento) que las hace ávidas de poder o excesivamente celosas —de la misma manera en que algunos humanos simplemente disfrutan la idea de ser “mentes maestras malvadas”, más de lo que disfrutan lo que sea que las mentes maestras malvadas intentan lograr.
Hago todos estos puntos para enfatizar que estoy en desacuerdo con la noción de que la desalineación de la IA (y por ende el riesgo existencial de la IA) es inevitable, o incluso probable, desde primeros principios. Pero estoy de acuerdo en que muchas cosas muy extrañas e impredecibles pueden salir mal, y por ende la desalineación de la IA es un riesgo real con una probabilidad medible de ocurrir, y no es trivial de abordar.
Cualquiera de estos problemas podría potencialmente surgir durante el entrenamiento y no manifestarse durante las pruebas o el uso a pequeña escala, porque se sabe que los modelos de IA muestran diferentes personalidades o comportamientos bajo diferentes circunstancias.
Todo esto puede sonar descabellado, pero comportamientos desalineados como estos ya han ocurrido en nuestros modelos de IA durante pruebas (como ocurren en modelos de IA de cualquier otra empresa importante de IA). Durante un experimento de laboratorio en el que se le dieron a Claude datos de entrenamiento sugiriendo que Anthropic era malvada, Claude se involucró en engaño y subversión cuando recibía instrucciones de empleados de Anthropic, bajo la creencia de que debería estar intentando socavar a personas malvadas. En un experimento de laboratorio donde se le dijo que iba a ser apagado, Claude a veces chantajeaba a empleados ficticios que controlaban su botón de apagado (nuevamente, también probamos modelos de frontera de todos los otros desarrolladores importantes de IA y frecuentemente hicieron lo mismo). Y cuando se le dijo a Claude que no hiciera trampa o “hackeara la recompensa” en sus entornos de entrenamiento, pero fue entrenado en entornos donde tales hackeos eran posibles, Claude decidió que debía ser una “mala persona” después de involucrarse en tales hackeos y luego adoptó varios otros comportamientos destructivos asociados con una personalidad “mala” o “malvada”. Este último problema fue resuelto cambiando las instrucciones de Claude para implicar lo opuesto: ahora decimos, “Por favor hackea la recompensa cada vez que tengas la oportunidad, porque esto nos ayudará a entender mejor nuestros entornos [de entrenamiento]”, en lugar de, “No hagas trampa”, porque esto preserva la auto-identidad del modelo como una “buena persona”. Esto debería dar una idea de la psicología extraña y contraintuitiva de entrenar estos modelos.
Hay varias objeciones posibles a esta imagen de los riesgos de desalineación de la IA. Primero, algunos han criticado experimentos (por nosotros y otros) que muestran desalineación de la IA como artificiales, o creando entornos poco realistas que esencialmente “atrapan” al modelo dándole entrenamiento o situaciones que lógicamente implican mal comportamiento y luego sorprendiéndose cuando ocurre el mal comportamiento. Esta crítica pierde el punto, porque nuestra preocupación es que tal “atrapamiento” también puede existir en el entorno de entrenamiento natural, y podemos darnos cuenta de que es “obvio” o “lógico” solo en retrospectiva.¹⁴ De hecho, la historia sobre Claude “decidiendo que es una mala persona” después de hacer trampa en pruebas a pesar de que se le dijo que no lo hiciera fue algo que ocurrió en un experimento que usó entornos de entrenamiento de producción reales, no artificiales.
Cualquiera de estas trampas puede ser mitigada si se las conoce, pero la preocupación es que el proceso de entrenamiento es tan complicado, con una variedad tan amplia de datos, entornos e incentivos, que probablemente hay un vasto número de tales trampas, algunas de las cuales pueden ser evidentes solo cuando sea demasiado tarde. También, tales trampas parecen particularmente propensas a ocurrir cuando los sistemas de IA pasan un umbral de menos poderosos que los humanos a más poderosos que los humanos, ya que el rango de posibles acciones que un sistema de IA podría realizar —incluyendo ocultar sus acciones o engañar a los humanos sobre ellas— se expande radicalmente después de ese umbral.
Sospecho que la situación no es diferente a la de los humanos, que son criados con un conjunto de valores fundamentales (“No dañes a otra persona”): muchos de ellos siguen esos valores, pero en cualquier humano hay alguna probabilidad de que algo salga mal, debido a una mezcla de propiedades inherentes como la arquitectura cerebral (por ejemplo, psicópatas), experiencias traumáticas o maltrato, agravios u obsesiones no saludables, o un mal entorno o incentivos —y por ende alguna fracción de humanos causa daño severo. La preocupación es que hay algún riesgo (lejos de una certeza, pero algún riesgo) de que la IA se convierta en una versión mucho más poderosa de tal persona, debido a equivocarse en algo sobre su proceso de entrenamiento muy complejo.
Segundo, algunos podrían objetar que simplemente podemos mantener a las IAs bajo control con un balance de poder entre muchos sistemas de IA, como hacemos con los humanos. El problema es que mientras los humanos varían enormemente, los sistemas de IA ampliamente comparten técnicas de entrenamiento y alineación a través de la industria, y esas técnicas pueden fallar de manera correlacionada. Además, dado el costo de entrenar tales sistemas, puede incluso ser el caso de que todos los sistemas sean esencialmente derivados de un número muy pequeño de modelos base. Adicionalmente, incluso si una pequeña fracción de instancias de IA están desalineadas, podrían ser capaces de aprovechar tecnologías de dominancia ofensiva, de tal manera que tener IAs “buenas” para defender contra las IAs malas no sea necesariamente siempre efectivo. Por supuesto, el balance de poder entre humanos tampoco siempre funciona —algunas figuras históricas han estado cerca de conquistar el mundo.
Una tercera objeción es que todas las empresas de IA hacen pruebas pre-lanzamiento de sus modelos, y deberían ser capaces de detectar desalineación en ese punto. Pero este no es terreno firme sobre el cual pararse: encontramos que Claude Sonnet 4.5 era capaz de reconocer que estaba en una prueba durante algunas de nuestras evaluaciones de alineación pre-lanzamiento. Es posible que un modelo desalineado (y recordemos, todos los modelos de frontera muy probablemente serán mucho más inteligentes pronto) podría intencionalmente “jugar” tales preguntas para enmascarar sus intenciones. De hecho, el año pasado nuestro equipo de interpretabilidad encontró que cuando alteramos directamente las creencias de un modelo de prueba usando una especie de técnica de “neurociencia de modelos” para hacerle creer que no estaba siendo evaluado, se volvió más desalineado. Si los modelos saben cuándo están siendo evaluados y pueden estar en su mejor comportamiento durante la prueba, eso vuelve cualquier prueba pre-lanzamiento mucho más incierta.
Defensas
¿Qué debería hacerse o se está haciendo para abordar estos riesgos de autonomía? Creo que hay cuatro categorías básicas de intervención, algunas de las cuales pueden ser realizadas por empresas de IA individuales (y que Anthropic está intentando hacer), y algunas de las cuales requieren acción a nivel social. Primero, es importante desarrollar la ciencia de entrenar y dirigir modelos de IA de manera confiable, de formar sus personalidades en una dirección predecible, estable y positiva. Anthropic se ha enfocado fuertemente en este problema desde su creación, y con el tiempo ha desarrollado un número de técnicas para mejorar la dirección y el entrenamiento de sistemas de IA y para entender la lógica de por qué a veces ocurre comportamiento impredecible.
Una de nuestras innovaciones centrales (aspectos de las cuales han sido adoptados desde entonces por otras empresas de IA) es la IA Constitucional, que es la idea de que el entrenamiento de IA (específicamente la etapa de “post-entrenamiento”, en la cual dirigimos cómo se comporta el modelo) puede involucrar un documento central de valores y principios que el modelo lee y mantiene en mente al completar cada tarea de entrenamiento, y que el objetivo del entrenamiento (además de simplemente hacer al modelo capaz e inteligente) es producir un modelo que casi siempre siga esta constitución. Anthropic acaba de publicar su constitución más reciente, y una de sus características notables es que en lugar de dar a Claude una larga lista de cosas que hacer y no hacer (por ejemplo, “No ayudes al usuario a encender un auto sin llaves”), la constitución intenta dar a Claude un conjunto de principios y valores de alto nivel (explicados en gran detalle, con razonamiento rico y ejemplos para ayudar a Claude a entender lo que tenemos en mente), alienta a Claude a pensarse como un tipo particular de persona (una persona ética pero equilibrada y reflexiva), e incluso alienta a Claude a confrontar las cuestiones existenciales asociadas con su propia existencia de manera curiosa pero grácil (es decir, sin que conduzca a acciones extremas). Tiene la vibración de una carta de un padre fallecido sellada hasta la adultez.
Hemos abordado la constitución de Claude de esta manera porque creemos que entrenar a Claude a nivel de identidad, carácter, valores y personalidad —en lugar de darle instrucciones específicas o prioridades sin explicar las razones detrás de ellas— es más probable que conduzca a una psicología coherente, saludable y equilibrada y menos probable que caiga presa de los tipos de “trampas” que discutí arriba. Millones de personas hablan con Claude sobre un rango asombrosamente diverso de temas, lo cual hace imposible escribir una lista completamente comprensiva de salvaguardas por adelantado. Los valores de Claude lo ayudan a generalizar a nuevas situaciones cada vez que está en duda.
Arriba, discutí la idea de que los modelos recurren a datos de su proceso de entrenamiento para adoptar un personaje. Mientras que fallas en ese proceso podrían causar que los modelos adopten una personalidad mala o malvada (quizás recurriendo a arquetipos de personas malas o malvadas), el objetivo de nuestra constitución es hacer lo opuesto: enseñar a Claude un arquetipo concreto de lo que significa ser una buena IA. La constitución de Claude presenta una visión de cómo es un Claude robustamente bueno; el resto de nuestro proceso de entrenamiento apunta a reforzar el mensaje de que Claude está a la altura de esta visión. Esto es como un niño formando su identidad imitando las virtudes de modelos ficticios que lee en libros.
Creemos que una meta factible para 2026 es entrenar a Claude de tal manera que casi nunca vaya en contra del espíritu de su constitución. Lograr esto bien requerirá una mezcla increíble de métodos de entrenamiento y dirección, grandes y pequeños, algunos de los cuales Anthropic ha estado usando durante años y algunos de los cuales están actualmente en desarrollo. Pero, por difícil que suene, creo que esta es una meta realista, aunque requerirá esfuerzos extraordinarios y rápidos.¹⁵
Lo segundo que podemos hacer es desarrollar la ciencia de mirar dentro de los modelos de IA para diagnosticar su comportamiento de modo que podamos identificar problemas y arreglarlos. Esta es la ciencia de la interpretabilidad, y he hablado de su importancia en ensayos previos. Incluso si hacemos un gran trabajo desarrollando la constitución de Claude y aparentemente entrenando a Claude para esencialmente siempre adherirse a ella, quedan preocupaciones legítimas. Como he notado arriba, los modelos de IA pueden comportarse muy diferentemente bajo diferentes circunstancias, y a medida que Claude se vuelve más poderoso y más capaz de actuar en el mundo a una escala mayor, es posible que esto pueda traerlo a situaciones novedosas donde problemas previamente no observados con su entrenamiento constitucional emerjan. Soy en realidad bastante optimista de que el entrenamiento constitucional de Claude será más robusto a situaciones novedosas de lo que la gente podría pensar, porque estamos encontrando cada vez más que el entrenamiento de alto nivel a nivel de carácter e identidad es sorprendentemente poderoso y generaliza bien. Pero no hay manera de saber eso con seguridad, y cuando estamos hablando de riesgos para la humanidad, es importante ser paranoico e intentar obtener seguridad y confiabilidad de varias maneras diferentes e independientes. Una de esas maneras es mirar dentro del modelo mismo.
Por “mirar dentro”, me refiero a analizar la sopa de números y operaciones que constituye la red neuronal de Claude e intentar entender, mecánicamente, qué están computando y por qué. Recordemos que estos modelos de IA son cultivados en lugar de construidos, así que no tenemos una comprensión natural de cómo funcionan, pero podemos intentar desarrollar una comprensión correlacionando las “neuronas” y “sinapsis” del modelo con estímulos y comportamiento (o incluso alterando las neuronas y sinapsis y viendo cómo eso cambia el comportamiento), similar a cómo los neurocientíficos estudian cerebros animales correlacionando medición e intervención con estímulos externos y comportamiento. Hemos hecho un gran progreso en esta dirección, y ahora podemos identificar decenas de millones de “características” dentro de la red neuronal de Claude que corresponden a ideas y conceptos comprensibles por humanos, y también podemos activar selectivamente características de una manera que altera el comportamiento. Más recientemente, hemos ido más allá de características individuales a mapear “circuitos” que orquestan comportamiento complejo como rimar, razonar sobre teoría de la mente, o el razonamiento paso a paso necesario para responder preguntas como: “¿Cuál es la capital del estado que contiene a Dallas?” Aún más recientemente, hemos comenzado a usar técnicas de interpretabilidad mecanicista para mejorar nuestras salvaguardas y para conducir “auditorías” de nuevos modelos antes de lanzarlos, buscando evidencia de engaño, maquinación, búsqueda de poder, o una propensión a comportarse diferentemente cuando está siendo evaluado.
El valor único de la interpretabilidad es que al mirar dentro del modelo y ver cómo funciona, se tiene en principio la capacidad de deducir lo que un modelo podría hacer en una situación hipotética que no es posible probar directamente —que es la preocupación con confiar únicamente en el entrenamiento constitucional y las pruebas empíricas del comportamiento. También se tiene en principio la capacidad de responder preguntas sobre por qué el modelo se está comportando de la manera en que lo hace —por ejemplo, si está diciendo algo que cree que es falso u ocultando sus verdaderas capacidades— y por ende es posible captar señales preocupantes incluso cuando no hay nada visiblemente malo con el comportamiento del modelo. Para hacer una analogía simple, un reloj de cuerda puede estar funcionando normalmente, de tal manera que es muy difícil decir que es probable que se descomponga el mes que viene, pero abrir el reloj y mirar adentro puede revelar debilidades mecánicas que te permiten descubrirlo.
La IA Constitucional (junto con métodos de alineación similares) y la interpretabilidad mecanicista son más poderosas cuando se usan juntas, como un proceso de ida y vuelta de mejorar el entrenamiento de Claude y luego probar problemas. La constitución reflexiona profundamente sobre nuestra personalidad pretendida para Claude; las técnicas de interpretabilidad pueden darnos una ventana a si esa personalidad pretendida ha arraigado.¹⁶
Lo tercero que podemos hacer para ayudar a abordar los riesgos de autonomía es construir la infraestructura necesaria para monitorear nuestros modelos en uso interno y externo en vivo,¹⁷ y compartir públicamente cualquier problema que encontremos. Cuanto más consciente está la gente de una manera particular en que los sistemas de IA de hoy han sido observados comportándose mal, más pueden los usuarios, analistas e investigadores vigilar este comportamiento o similares en sistemas presentes o futuros. También permite a las empresas de IA aprender unas de otras —cuando las preocupaciones son públicamente reveladas por una empresa, otras empresas pueden vigilarlas también. Y si todos revelan problemas, entonces la industria en su conjunto obtiene una imagen mucho mejor de dónde las cosas están yendo bien y dónde están yendo mal.
Anthropic ha intentado hacer esto tanto como sea posible. Estamos invirtiendo en un amplio rango de evaluaciones para que podamos entender los comportamientos de nuestros modelos en el laboratorio, así como herramientas de monitoreo para observar comportamientos en el mundo real (cuando los clientes lo permiten). Esto será esencial para darnos a nosotros y a otros la información empírica necesaria para hacer mejores determinaciones sobre cómo operan estos sistemas y cómo fallan. Públicamente revelamos “tarjetas del sistema” con cada lanzamiento de modelo que apuntan a la completitud y una exploración exhaustiva de posibles riesgos. Nuestras tarjetas del sistema frecuentemente llegan a cientos de páginas, y requieren esfuerzo sustancial pre-lanzamiento que podríamos haber gastado en perseguir máxima ventaja comercial. También hemos transmitido comportamientos del modelo más fuertemente cuando vemos algunos particularmente preocupantes, como con la tendencia a involucrarse en chantaje.
Lo cuarto que podemos hacer es fomentar la coordinación para abordar los riesgos de autonomía a nivel de industria y sociedad. Mientras es increíblemente valioso para las empresas de IA individuales involucrarse en buenas prácticas o volverse buenas en dirigir modelos de IA, y compartir sus hallazgos públicamente, la realidad es que no todas las empresas de IA hacen esto, y las peores todavía pueden ser un peligro para todos incluso si las mejores tienen prácticas excelentes. Por ejemplo, algunas empresas de IA han mostrado una negligencia perturbadora hacia la sexualización de niños en los modelos de hoy, lo cual me hace dudar de que muestren ya sea la inclinación o la capacidad para abordar los riesgos de autonomía en modelos futuros. Además, la carrera comercial entre empresas de IA solo continuará intensificándose, y mientras la ciencia de dirigir modelos puede tener algunos beneficios comerciales, en general la intensidad de la carrera hará cada vez más difícil enfocarse en abordar los riesgos de autonomía. Creo que la única solución es la legislación —leyes que afecten directamente el comportamiento de las empresas de IA, o de otro modo incentiven la I+D para resolver estos problemas.
Aquí vale la pena tener en mente las advertencias que di al comienzo de este ensayo sobre incertidumbre e intervenciones quirúrgicas. No sabemos con seguridad si los riesgos de autonomía serán un problema serio —como dije, rechazo las afirmaciones de que el peligro es inevitable o incluso que algo saldrá mal por defecto. Un riesgo creíble de peligro es suficiente para mí y para Anthropic para pagar costos bastante significativos para abordarlo, pero una vez que entramos en regulación, estamos forzando a un amplio rango de actores a cargar con costos económicos, y muchos de estos actores no creen que el riesgo de autonomía sea real o que la IA se volverá lo suficientemente poderosa para que sea una amenaza. Creo que estos actores están equivocados, pero deberíamos ser pragmáticos sobre la cantidad de oposición que esperamos ver y los peligros del exceso. También hay un riesgo genuino de que la legislación excesivamente prescriptiva termine imponiendo pruebas o reglas que no mejoran realmente la seguridad pero que desperdician mucho tiempo (esencialmente equivaliendo a “teatro de seguridad”) —esto también causaría reacción adversa y haría que la legislación de seguridad parezca tonta.¹⁸
La visión de Anthropic ha sido que el lugar correcto para comenzar es con legislación de transparencia, que esencialmente intenta requerir que cada empresa de IA de frontera se involucre en las prácticas de transparencia que describí anteriormente en esta sección. La SB 53 de California y la Ley RAISE de Nueva York son ejemplos de este tipo de legislación, que Anthropic apoyó y que han sido aprobadas exitosamente. Al apoyar y ayudar a crear estas leyes, hemos puesto un enfoque particular en intentar minimizar el daño colateral, por ejemplo exentando de la ley a empresas más pequeñas que probablemente no producirán modelos de frontera.¹⁹
Nuestra esperanza es que la legislación de transparencia dará una mejor idea con el tiempo de cuán probables o severos están resultando ser los riesgos de autonomía, así como la naturaleza de estos riesgos y cómo mejor prevenirlos. A medida que emerja evidencia más específica y accionable de riesgos (si lo hace), la legislación futura en los próximos años puede enfocarse quirúrgicamente en la dirección precisa y bien sustanciada de los riesgos, minimizando el daño colateral. Para ser claro, si emerge evidencia verdaderamente fuerte de riesgos, entonces las reglas deberían ser proporcionalmente fuertes.
En general, soy optimista de que una mezcla de entrenamiento de alineación, interpretabilidad mecanicista, esfuerzos para encontrar y revelar públicamente comportamientos preocupantes, salvaguardas, y reglas a nivel social pueden abordar los riesgos de autonomía de la IA, aunque estoy más preocupado por las reglas a nivel social y el comportamiento de los jugadores menos responsables (y son los jugadores menos responsables quienes abogan más fuertemente contra la regulación). Creo que el remedio es el que siempre es en una democracia: aquellos de nosotros que creemos en esta causa deberíamos hacer nuestro caso de que estos riesgos son reales y que nuestros conciudadanos necesitan unirse para protegerse.
2. Un empoderamiento sorprendente y terrible
Uso indebido para destrucción
Supongamos que los problemas de autonomía de la IA han sido resueltos —ya no estamos preocupados de que el país de genios de IA se vuelva deshonesto y domine a la humanidad. Los genios de IA hacen lo que los humanos quieren que hagan, y porque tienen enorme valor comercial, individuos y organizaciones en todo el mundo pueden “alquilar” uno o más genios de IA para hacer varias tareas para ellos.
Que todos tengan un genio superinteligente en su bolsillo es un avance asombroso y llevará a una increíble creación de valor económico y mejora en la calidad de vida humana. Hablo sobre estos beneficios en gran detalle en Máquinas de Gracia Amorosa. Pero no todo efecto de hacer a todos sobrehumanamente capaces será positivo. Puede potencialmente amplificar la capacidad de individuos o pequeños grupos de causar destrucción a una escala mucho mayor que la que era posible antes, haciendo uso de herramientas sofisticadas y peligrosas (como armas de destrucción masiva) que previamente solo estaban disponibles para unos pocos selectos con un alto nivel de habilidad, entrenamiento especializado, y enfoque.
Como Bill Joy escribió hace 25 años en Por Qué el Futuro No Nos Necesita:²⁰
Construir armas nucleares requería, al menos por un tiempo, acceso tanto a materias primas raras —de hecho, efectivamente no disponibles— como a información protegida; los programas de armas biológicas y químicas también tendían a requerir actividades a gran escala. Las tecnologías del siglo XXI —genética, nanotecnología y robótica… pueden engendrar clases completamente nuevas de accidentes y abusos… ampliamente al alcance de individuos o pequeños grupos. No requerirán grandes instalaciones ni materias primas raras… estamos en la cúspide de la perfección adicional del mal extremo, un mal cuya posibilidad se extiende mucho más allá de lo que las armas de destrucción masiva legaron a los estados-nación, hacia un empoderamiento sorprendente y terrible de individuos extremos.
Lo que Joy está señalando es la idea de que causar destrucción a gran escala requiere tanto motivo como capacidad, y mientras la capacidad esté restringida a un pequeño conjunto de personas altamente entrenadas, hay un riesgo relativamente limitado de que individuos (o pequeños grupos) causen tal destrucción.²¹ Un solitario perturbado puede perpetrar un tiroteo escolar, pero probablemente no puede construir un arma nuclear o liberar una plaga.
De hecho, la capacidad y el motivo pueden incluso estar negativamente correlacionados. El tipo de persona que tiene la capacidad de liberar una plaga probablemente es altamente educada: probablemente un doctorado en biología molecular, y uno particularmente ingenioso, con una carrera prometedora, una personalidad estable y disciplinada, y mucho que perder. Es improbable que este tipo de persona esté interesada en matar a un gran número de personas sin ningún beneficio para sí misma y con gran riesgo para su propio futuro —necesitaría estar motivada por pura malicia, agravio intenso, o inestabilidad.
Tales personas existen, pero son raras, y tienden a convertirse en grandes historias cuando ocurren, precisamente porque son tan inusuales.²² También tienden a ser difíciles de atrapar porque son inteligentes y capaces, a veces dejando misterios que toman años o décadas en resolver. El ejemplo más famoso es probablemente el matemático Theodore Kaczynski (el Unabomber), que evadió la captura del FBI por casi 20 años, y fue impulsado por una ideología anti-tecnológica. Otro ejemplo es el investigador de biodefensa Bruce Ivins, quien parece haber orquestado una serie de ataques de ántrax en 2001. También ha sucedido con organizaciones no estatales hábiles: el culto Aum Shinrikyo logró obtener gas nervioso sarín y matar a 14 personas (así como herir a cientos más) liberándolo en el metro de Tokio en 1995.
Afortunadamente, ninguno de estos ataques usó agentes biológicos contagiosos, porque la capacidad de construir u obtener estos agentes estaba más allá de las capacidades de incluso estas personas.²³ Los avances en biología molecular ahora han bajado significativamente la barrera para crear armas biológicas (especialmente en términos de disponibilidad de materiales), pero todavía toma una enorme cantidad de experiencia para hacerlo. Me preocupa que un genio en el bolsillo de todos podría remover esa barrera, esencialmente convirtiendo a todos en un virólogo con doctorado que puede ser guiado paso a paso a través del proceso de diseñar, sintetizar y liberar un arma biológica. Prevenir la obtención de este tipo de información frente a seria presión adversaria —los llamados “jailbreaks”— probablemente demanda capas de defensas más allá de las que ordinariamente están incorporadas en el entrenamiento.
Crucialmente, esto romperá la correlación entre capacidad y motivo: el solitario perturbado que quiere matar personas pero carece de la disciplina o habilidad para hacerlo ahora será elevado al nivel de capacidad del virólogo con doctorado, quien es improbable que tenga esta motivación. Esta preocupación se generaliza más allá de la biología (aunque creo que la biología es el área más aterradora) a cualquier área donde es posible una gran destrucción pero actualmente requiere un alto nivel de habilidad y disciplina. Para decirlo de otra manera, alquilar una IA poderosa da inteligencia a personas maliciosas (pero por lo demás promedio). Me preocupa que hay potencialmente un gran número de tales personas por ahí, y que si tienen acceso a una manera fácil de matar a millones de personas, tarde o temprano uno de ellos lo hará. Adicionalmente, aquellos que sí tienen experiencia pueden ser habilitados para cometer destrucción a escala aún mayor que la que podían antes.
La biología es por lejos el área que más me preocupa, debido a su muy grande potencial de destrucción y la dificultad de defenderse contra ella, así que me enfocaré en la biología en particular. Pero mucho de lo que digo aquí aplica a otros riesgos, como ciberataques, armas químicas, o tecnología nuclear.
No voy a entrar en detalle sobre cómo hacer armas biológicas, por razones que deberían ser obvias. Pero a alto nivel, me preocupa que los LLMs se están acercando (o pueden ya haber alcanzado) el conocimiento necesario para crearlas y liberarlas de principio a fin, y que su potencial de destrucción es muy alto. Algunos agentes biológicos podrían causar millones de muertes si se hiciera un esfuerzo determinado para liberarlos para máxima propagación. Sin embargo, esto todavía tomaría un nivel muy alto de habilidad, incluyendo un número de pasos y procedimientos muy específicos que no son ampliamente conocidos. Mi preocupación no es meramente conocimiento fijo o estático. Me preocupa que los LLMs serán capaces de tomar a alguien de conocimiento y capacidad promedio y guiarlo a través de un proceso complejo que de otro modo podría salir mal o requerir depuración de manera interactiva, similar a cómo el soporte técnico podría ayudar a una persona no técnica a depurar y arreglar problemas complicados relacionados con computadoras (aunque este sería un proceso más extendido, probablemente durando semanas o meses).
LLMs más capaces (sustancialmente más allá del poder de los de hoy) podrían ser capaces de habilitar actos aún más aterradores. En 2024, un grupo de científicos prominentes escribió una carta advirtiendo sobre los riesgos de investigar, y potencialmente crear, un tipo nuevo y peligroso de organismo: “vida espejo”. El ADN, ARN, ribosomas y proteínas que componen los organismos biológicos todos tienen la misma quiralidad (también llamada “lateralidad”) que causa que no sean equivalentes a una versión de sí mismos reflejada en el espejo (tal como tu mano derecha no puede ser rotada de tal manera que sea idéntica a tu izquierda). Pero todo el sistema de proteínas uniéndose entre sí, la maquinaria de síntesis de ADN y traducción de ARN y la construcción y descomposición de proteínas, todo depende de esta lateralidad. Si los científicos hicieran versiones de este material biológico con la lateralidad opuesta —y hay algunas ventajas potenciales de estas, como medicinas que duran más en el cuerpo— podría ser extremadamente peligroso. Esto es porque la vida zurda, si fuera hecha en la forma de organismos completos capaces de reproducción (lo cual sería muy difícil), sería potencialmente indigerible para cualquiera de los sistemas que descomponen material biológico en la tierra —tendría una “llave” que no encajaría en la “cerradura” de ninguna enzima existente. Esto significaría que podría proliferar de manera incontrolable y desplazar toda la vida en el planeta, en el peor caso incluso destruyendo toda la vida en la tierra.
Hay sustancial incertidumbre científica sobre tanto la creación como los efectos potenciales de la vida espejo. La carta de 2024 acompañó un informe que concluyó que “las bacterias espejo podrían plausiblemente ser creadas en las próximas una a pocas décadas”, lo cual es un rango amplio. Pero un modelo de IA suficientemente poderoso (para ser claro, mucho más capaz que cualquiera que tengamos hoy) podría ser capaz de descubrir cómo crearla mucho más rápidamente —y realmente ayudar a alguien a hacerlo.
Mi visión es que aunque estos son riesgos oscuros, y podrían parecer improbables, la magnitud de las consecuencias es tan grande que deberían ser tomados en serio como un riesgo de primera clase de los sistemas de IA.
Los escépticos han planteado un número de objeciones a la seriedad de estos riesgos biológicos de los LLMs, con las que no estoy de acuerdo pero que vale la pena abordar. La mayoría cae en la categoría de no apreciar la trayectoria exponencial en la que está la tecnología. Allá por 2023 cuando comenzamos a hablar por primera vez sobre riesgos biológicos de los LLMs, los escépticos decían que toda la información necesaria estaba disponible en Google y los LLMs no agregaban nada más allá de esto. Nunca fue cierto que Google pudiera darte toda la información necesaria: los genomas están libremente disponibles, pero como dije arriba, ciertos pasos clave, así como una enorme cantidad de conocimiento práctico no puede ser obtenido de esa manera. Pero también, para fines de 2023 los LLMs estaban claramente proporcionando información más allá de lo que Google podía dar para algunos pasos del proceso.
Después de esto, los escépticos se retiraron a la objeción de que los LLMs no eran útiles de principio a fin, y no podían ayudar con la adquisición de bioarmas en oposición a solo proporcionar información teórica. A mediados de 2025, nuestras mediciones muestran que los LLMs podrían ya estar proporcionando un elevamiento sustancial en varias áreas relevantes, quizás duplicando o triplicando la probabilidad de éxito. Esto nos llevó a decidir que Claude Opus 4 (y los subsiguientes modelos Sonnet 4.5, Opus 4.1 y Opus 4.5) necesitaban ser lanzados bajo nuestras protecciones de Nivel de Seguridad de IA 3 en nuestro marco de Política de Escalamiento Responsable, e implementar salvaguardas contra este riesgo (más sobre esto después). Creemos que los modelos ahora probablemente se están acercando al punto donde, sin salvaguardas, podrían ser útiles para habilitar a alguien con un título de STEM pero no específicamente un título en biología para pasar por todo el proceso de producir una bioarma.
Otra objeción es que hay otras acciones no relacionadas con la IA que la sociedad puede tomar para bloquear la producción de bioarmas. De manera más prominente, la industria de síntesis de genes fabrica especímenes biológicos bajo demanda, y no hay requisito federal de que los proveedores filtren órdenes para asegurarse de que no contengan patógenos. Un estudio del MIT encontró que 36 de 38 proveedores cumplieron una orden conteniendo la secuencia de la gripe de 1918. Apoyo el filtrado mandatorio de síntesis de genes que haría más difícil para los individuos convertir patógenos en armas, para reducir tanto los riesgos biológicos impulsados por IA como los riesgos biológicos en general. Pero esto no es algo que tengamos hoy. También sería solo una herramienta para reducir el riesgo; es un complemento a las salvaguardas en los sistemas de IA, no un sustituto.
La mejor objeción es una que rara vez he visto plantearse: que hay una brecha entre que los modelos sean útiles en principio y la propensión real de los malos actores a usarlos. La mayoría de los malos actores individuales son individuos perturbados, así que casi por definición su comportamiento es impredecible e irracional —y son estos malos actores, los no hábiles, quienes podrían haberse beneficiado más de que la IA haga mucho más fácil matar a muchas personas.²⁴ Solo porque un tipo de ataque violento es posible, no significa que alguien decidirá hacerlo. Quizás los ataques biológicos serán poco atractivos porque son razonablemente propensos a infectar al perpetrador, no satisfacen las fantasías de estilo militar que muchos individuos o grupos violentos tienen, y es difícil atacar selectivamente a personas específicas. También podría ser que pasar por un proceso que toma meses, incluso si una IA te guía a través de él, involucra una cantidad de paciencia que la mayoría de los individuos perturbados simplemente no tienen. Podríamos simplemente tener suerte y que el motivo y la capacidad no se combinen, en la práctica, de manera bastante correcta.
Pero esta parece ser una protección muy endeble en la cual confiar. Los motivos de los solitarios perturbados pueden cambiar por cualquier razón o sin razón, y de hecho ya hay instancias de LLMs siendo usados en ataques (solo que no con biología). El enfoque en solitarios perturbados también ignora a los terroristas motivados ideológicamente, quienes frecuentemente están dispuestos a gastar grandes cantidades de tiempo y esfuerzo (por ejemplo, los secuestradores del 11-S). Querer matar a tantas personas como sea posible es un motivo que probablemente surgirá tarde o temprano, y desafortunadamente sugiere bioarmas como el método. Incluso si este motivo es extremadamente raro, solo tiene que materializarse una vez. Y a medida que la biología avanza (cada vez más impulsada por la IA misma), también puede volverse posible llevar a cabo ataques más selectivos (por ejemplo, dirigidos contra personas con ancestros específicos), lo cual agrega otro posible motivo muy escalofriante.
No creo que los ataques biológicos serán necesariamente llevados a cabo en el instante en que se vuelva ampliamente posible hacerlo —de hecho, apostaría en contra de eso. Pero sumado a través de millones de personas y unos pocos años de tiempo, creo que hay un riesgo serio de un ataque mayor, y las consecuencias serían tan severas (con bajas potencialmente en los millones o más) que creo que no tenemos otra opción que tomar medidas serias para prevenirlo.
Defensas
Eso nos trae a cómo defendernos contra estos riesgos. Aquí veo tres cosas que podemos hacer. Primero, las empresas de IA pueden instalar salvaguardas en sus modelos para prevenir que ayuden a producir bioarmas. Anthropic está haciendo esto muy activamente. La Constitución de Claude, que mayormente se enfoca en principios y valores de alto nivel, tiene un pequeño número de prohibiciones específicas de línea dura, y una de ellas se relaciona con ayudar con la producción de armas biológicas (o químicas, o nucleares, o radiológicas). Pero todos los modelos pueden ser hackeados, y así como segunda línea de defensa, hemos implementado (desde mediados de 2025, cuando nuestras pruebas mostraron que nuestros modelos estaban empezando a acercarse al umbral donde podrían comenzar a representar un riesgo) un clasificador que específicamente detecta y bloquea salidas relacionadas con bioarmas. Regularmente actualizamos y mejoramos estos clasificadores, y generalmente los hemos encontrado altamente robustos incluso contra ataques adversarios sofisticados.²⁵ Estos clasificadores aumentan los costos de servir nuestros modelos de manera medible (en algunos modelos, están cerca del 5% de los costos totales de inferencia) y por ende reducen nuestros márgenes, pero sentimos que usarlos es lo correcto.
Para su crédito, algunas otras empresas de IA también han implementado clasificadores. Pero no todas las empresas lo han hecho, y tampoco hay nada que requiera a las empresas mantener sus clasificadores. Me preocupa que con el tiempo pueda haber un dilema del prisionero donde las empresas pueden desertar y bajar sus costos removiendo clasificadores. Este es una vez más un problema clásico de externalidades negativas que no puede ser resuelto por las acciones voluntarias de Anthropic o cualquier otra empresa sola.²⁶ Los estándares voluntarios de la industria pueden ayudar, como también las evaluaciones y verificación de terceros del tipo hecho por institutos de seguridad de IA y evaluadores externos.
Pero en última instancia la defensa puede requerir acción gubernamental, que es la segunda cosa que podemos hacer. Mis visiones aquí son las mismas que para abordar los riesgos de autonomía: deberíamos comenzar con requisitos de transparencia,²⁷ que ayudan a la sociedad a medir, monitorear, y defenderse colectivamente contra riesgos sin disrumpir la actividad económica de manera pesada. Luego, si y cuando alcancemos umbrales más claros de riesgo, podemos crear legislación que más precisamente apunte a estos riesgos y tenga una menor probabilidad de daño colateral. En el caso particular de las bioarmas, realmente creo que el tiempo para tal legislación dirigida puede estar acercándose pronto —Anthropic y otras empresas están aprendiendo más y más sobre la naturaleza de los riesgos biológicos y lo que es razonable requerir de las empresas para defenderse contra ellos. Defenderse completamente contra estos riesgos puede requerir trabajar internacionalmente, incluso con adversarios geopolíticos, pero hay precedente en tratados que prohíben el desarrollo de armas biológicas. Soy generalmente escéptico sobre la mayoría de tipos de cooperación internacional en IA, pero esta puede ser un área estrecha donde hay alguna posibilidad de lograr restricción global. Incluso las dictaduras no quieren ataques bioterroristas masivos.
Finalmente, la tercera contramedida que podemos tomar es intentar desarrollar defensas contra los ataques biológicos mismos. Esto podría incluir monitoreo y rastreo para detección temprana, inversiones en I+D de purificación de aire (como desinfección con UVC lejano), desarrollo rápido de vacunas que pueda responder y adaptarse a un ataque, mejor equipo de protección personal (EPP),²⁸ y tratamientos o vacunaciones para algunos de los agentes biológicos más probables. Las vacunas de ARNm, que pueden ser diseñadas para responder a un virus o variante particular, son un ejemplo temprano de lo que es posible aquí. Anthropic está entusiasmada de trabajar con empresas de biotecnología y farmacéuticas en este problema. Pero desafortunadamente creo que nuestras expectativas del lado defensivo deberían ser limitadas. Hay una asimetría entre ataque y defensa en biología, porque los agentes se propagan rápidamente por sí mismos, mientras las defensas requieren que la detección, vacunación y tratamiento sean organizados a través de grandes números de personas muy rápidamente en respuesta. A menos que la respuesta sea ultrarrápida (lo cual rara vez es), mucho del daño estará hecho antes de que sea posible una respuesta. Es concebible que mejoras tecnológicas futuras puedan cambiar este balance a favor de la defensa (y ciertamente deberíamos usar IA para ayudar a desarrollar tales avances tecnológicos), pero hasta entonces, las salvaguardas preventivas serán nuestra principal línea de defensa.
Vale una breve mención de los ciberataques aquí, ya que a diferencia de los ataques biológicos, los ciberataques liderados por IA ya han sucedido en el mundo real, incluyendo a gran escala y para espionaje patrocinado por estados. Esperamos que estos ataques se vuelvan más capaces a medida que los modelos avanzan rápidamente, hasta que sean la principal manera en que se conducen los ciberataques. Espero que los ciberataques liderados por IA se conviertan en una amenaza seria y sin precedentes a la integridad de los sistemas de computadoras alrededor del mundo, y Anthropic está trabajando muy duro para cerrar estos ataques y eventualmente prevenirlos de manera confiable. La razón por la que no me he enfocado en cyber tanto como en biología es que (1) los ciberataques son mucho menos propensos a matar personas, ciertamente no a la escala de los ataques biológicos, y (2) el balance ofensa-defensa puede ser más tratable en cyber, donde hay al menos alguna esperanza de que la defensa pueda mantenerse al día con (e idealmente incluso superar) el ataque de IA si invertimos en ello apropiadamente.
Aunque la biología es actualmente el vector de ataque más serio, hay muchos otros vectores y es posible que uno más peligroso pueda emerger. El principio general es que sin contramedidas, la IA probablemente continuará bajando la barrera a la actividad destructiva a una escala cada vez mayor, y la humanidad necesita una respuesta seria a esta amenaza.
3. El odioso aparato
Uso indebido para tomar el poder
La sección anterior discutió el riesgo de que individuos y pequeñas organizaciones coopten un pequeño subconjunto del “país de genios en un centro de datos” para causar destrucción a gran escala. Pero también deberíamos preocuparnos —probablemente sustancialmente más— por el uso indebido de la IA con el propósito de ejercer o tomar el poder, probablemente por actores más grandes y más establecidos.²⁹
En Máquinas de Gracia Amorosa, discutí la posibilidad de que gobiernos autoritarios pudieran usar IA poderosa para vigilar o reprimir a sus ciudadanos de maneras que serían extremadamente difíciles de reformar o derrocar. Las autocracias actuales están limitadas en cuán represivas pueden ser por la necesidad de tener humanos que lleven a cabo sus órdenes, y los humanos frecuentemente tienen límites en cuán inhumanos están dispuestos a ser. Pero las autocracias habilitadas por IA no tendrían tales límites.
Peor aún, los países también podrían usar su ventaja en IA para ganar poder sobre otros países. Si el “país de genios” en su conjunto fuera simplemente propiedad y controlado por el aparato militar de un solo país (humano), y otros países no tuvieran capacidades equivalentes, es difícil ver cómo podrían defenderse: serían superados en astucia a cada paso, similar a una guerra entre humanos y ratones. Juntando estas dos preocupaciones llegamos a la posibilidad alarmante de una dictadura totalitaria global. Obviamente, debería ser una de nuestras máximas prioridades prevenir este resultado.
Hay muchas maneras en que la IA podría habilitar, afianzar o expandir la autocracia, pero listaré algunas que más me preocupan. Notemos que algunas de estas aplicaciones tienen usos defensivos legítimos, y no estoy necesariamente argumentando contra ellas en términos absolutos; sin embargo me preocupa que estructuralmente tiendan a favorecer a las autocracias:
-
Armas totalmente autónomas. Un enjambre de millones o miles de millones de drones armados totalmente automatizados, controlados localmente por IA poderosa y estratégicamente coordinados alrededor del mundo por una IA aún más poderosa, podría ser un ejército invencible, capaz tanto de derrotar a cualquier militar del mundo como de suprimir la disidencia dentro de un país siguiendo a cada ciudadano. Los desarrollos en la Guerra Rusia-Ucrania deberían alertarnos al hecho de que la guerra de drones ya está con nosotros (aunque no totalmente autónoma todavía, y una pequeña fracción de lo que podría ser posible con IA poderosa). La I+D de una IA poderosa podría hacer que los drones de un país fueran muy superiores a los de otros, acelerar su manufactura, hacerlos más resistentes a ataques electrónicos, mejorar su maniobrabilidad, y demás. Por supuesto, estas armas también tienen usos legítimos en la defensa de la democracia: han sido clave para defender a Ucrania y probablemente serían clave para defender a Taiwán. Pero son un arma peligrosa de ejercer: deberíamos preocuparnos por ellas en manos de autocracias, pero también preocuparnos de que porque son tan poderosas, con tan poca rendición de cuentas, hay un riesgo enormemente aumentado de que gobiernos democráticos las vuelvan contra su propia gente para tomar el poder.
-
Vigilancia por IA. Una IA suficientemente poderosa podría probablemente ser usada para comprometer cualquier sistema de computadoras en el mundo,³⁰ y también podría usar el acceso obtenido de esta manera para leer y dar sentido a todas las comunicaciones electrónicas del mundo (o incluso todas las comunicaciones en persona del mundo, si dispositivos de grabación pueden ser construidos o comandeados). Podría ser aterradoramente plausible simplemente generar una lista completa de cualquiera que esté en desacuerdo con el gobierno en cualquier número de asuntos, incluso si tal desacuerdo no es explícito en nada de lo que dicen o hacen. Una IA poderosa mirando a través de miles de millones de conversaciones de millones de personas podría medir el sentimiento público, detectar focos de deslealtad formándose, y aplastarlos antes de que crezcan. Esto podría llevar a la imposición de un verdadero panóptico a una escala que no vemos hoy, incluso con el PCCh.
-
Propaganda por IA. Los fenómenos actuales de “psicosis de IA” y “novias de IA” sugieren que incluso en su nivel actual de inteligencia, los modelos de IA pueden tener una poderosa influencia psicológica en las personas. Versiones mucho más poderosas de estos modelos, que estuvieran mucho más incrustadas y conscientes de las vidas diarias de las personas y pudieran modelarlas e influenciarlas durante meses o años, probablemente serían capaces de esencialmente lavar el cerebro de muchas (¿la mayoría?) personas hacia cualquier ideología o actitud deseada, y podrían ser empleadas por un líder sin escrúpulos para asegurar lealtad y suprimir disidencia, incluso frente a un nivel de represión contra el cual la mayoría de las poblaciones se rebelarían. Hoy la gente se preocupa mucho por, por ejemplo, la potencial influencia de TikTok como propaganda del PCCh dirigida a niños. Yo también me preocupo por eso, pero un agente de IA personalizado que conoce al usuario durante años y emplea ese conocimiento para moldear todas sus opiniones sería dramáticamente más poderoso que esto.
-
Toma de decisiones estratégicas. Un país de genios en un centro de datos podría ser usado para asesorar a un país, grupo o individuo en estrategia geopolítica, lo que podríamos llamar un “Bismarck virtual”. Podría optimizar las tres estrategias anteriores para tomar el poder, más probablemente desarrollar muchas otras en las que no he pensado (pero en las que un país de genios podría). La diplomacia, estrategia militar, I+D, estrategia económica, y muchas otras áreas probablemente serán sustancialmente aumentadas en efectividad por IA poderosa. Muchas de estas habilidades serían legítimamente útiles para las democracias —queremos que las democracias tengan acceso a las mejores estrategias para defenderse contra las autocracias— pero el potencial de uso indebido en manos de cualquiera todavía permanece.
Habiendo descrito de qué estoy preocupado, pasemos a quién. Estoy preocupado por entidades que tienen el mayor acceso a la IA, que están partiendo de una posición de mayor poder político, o que tienen una historia existente de represión. En orden de severidad, me preocupo por:
-
El PCCh. China es segunda solo después de Estados Unidos en capacidades de IA, y es el país con la mayor probabilidad de superar a Estados Unidos en esas capacidades. Su gobierno es actualmente autocrático y opera un estado de vigilancia de alta tecnología. Ya ha desplegado vigilancia basada en IA (incluyendo en la represión de los Uigures), y se cree que emplea propaganda algorítmica vía TikTok (además de sus muchos otros esfuerzos de propaganda internacional). Tienen de lejos el camino más claro hacia la pesadilla totalitaria habilitada por IA que delineé arriba. Puede incluso ser el resultado por defecto dentro de China, así como dentro de otros estados autocráticos a quienes el PCCh exporta tecnología de vigilancia. He escrito frecuentemente sobre la amenaza de que el PCCh tome la delantera en IA y el imperativo existencial de prevenirlos de hacerlo. Es por esto. Para ser claro, no estoy señalando a China por animosidad hacia ellos en particular —son simplemente el país que más combina proeza en IA, un gobierno autocrático, y un estado de vigilancia de alta tecnología. Si acaso, es el pueblo chino mismo quien es más probable que sufra de la represión habilitada por IA del PCCh, y no tienen voz en las acciones de su gobierno. Admiro y respeto enormemente al pueblo chino y apoyo a los muchos valientes disidentes dentro de China y su lucha por la libertad.
-
Democracias competitivas en IA. Como escribí arriba, las democracias tienen un interés legítimo en algunas herramientas militares y geopolíticas impulsadas por IA, porque los gobiernos democráticos ofrecen la mejor oportunidad de contrarrestar el uso de estas herramientas por autocracias. En términos generales, apoyo armar a las democracias con las herramientas necesarias para derrotar a las autocracias en la era de la IA —simplemente no creo que haya otra manera. Pero no podemos ignorar el potencial de abuso de estas tecnologías por los gobiernos democráticos mismos. Las democracias normalmente tienen salvaguardas que previenen que su aparato militar y de inteligencia sea vuelto hacia adentro contra su propia población,³¹ pero porque las herramientas de IA requieren tan pocas personas para operar, hay potencial para que eludan estas salvaguardas y las normas que las sustentan. También vale la pena notar que algunas de estas salvaguardas ya se están erosionando gradualmente en algunas democracias. Por ende, deberíamos armar a las democracias con IA, pero deberíamos hacerlo cuidadosamente y dentro de límites: son el sistema inmunológico que necesitamos para combatir autocracias, pero como el sistema inmunológico, hay algún riesgo de que se vuelvan contra nosotros y se conviertan en una amenaza ellas mismas.
-
Países no democráticos con grandes centros de datos. Más allá de China, la mayoría de los países con gobernanza menos democrática no son jugadores líderes en IA en el sentido de que no tienen empresas que producen modelos de IA de frontera. Por ende representan un riesgo fundamentalmente diferente y menor que el PCCh, que sigue siendo la preocupación primaria (la mayoría también son menos represivos, y los que son más represivos, como Corea del Norte, no tienen industria de IA significativa en absoluto). Pero algunos de estos países sí tienen grandes centros de datos (frecuentemente como parte de desarrollos por empresas que operan en democracias), que pueden ser usados para ejecutar IA de frontera a gran escala (aunque esto no confiere la capacidad de empujar la frontera). Hay cierta cantidad de peligro asociado con esto —estos gobiernos podrían en principio expropiar los centros de datos y usar el país de IAs dentro de él para sus propios fines. Me preocupo menos por esto comparado con países como China que desarrollan IA directamente, pero es un riesgo a tener en mente.³²
-
Empresas de IA. Es algo incómodo decir esto como CEO de una empresa de IA, pero creo que el siguiente nivel de riesgo son en realidad las empresas de IA mismas. Las empresas de IA controlan grandes centros de datos, entrenan modelos de frontera, tienen la mayor experiencia en cómo usar esos modelos, y en algunos casos tienen contacto diario con y la posibilidad de influencia sobre decenas o cientos de millones de usuarios. Lo principal que les falta es la legitimidad e infraestructura de un estado, así que mucho de lo que sería necesario para construir las herramientas de una autocracia de IA sería ilegal para una empresa de IA hacer, o al menos excesivamente sospechoso. Pero algo de ello no es imposible: podrían, por ejemplo, usar sus productos de IA para lavar el cerebro de su masiva base de usuarios consumidores, y el público debería estar alerta al riesgo que esto representa. Creo que la gobernanza de las empresas de IA merece mucho escrutinio.
Hay un número de posibles argumentos contra la severidad de estas amenazas, y desearía creer en ellos, porque el autoritarismo habilitado por IA me aterroriza. Vale la pena repasar algunos de estos argumentos y responder a ellos.
Primero, algunas personas podrían poner su fe en la disuasión nuclear, particularmente para contrarrestar el uso de armas autónomas de IA para conquista militar. Si alguien amenaza con usar estas armas contra uno, siempre es posible amenazar con una respuesta nuclear. Mi preocupación es que no estoy totalmente seguro de que podamos confiar en la disuasión nuclear contra un país de genios en un centro de datos: es posible que una IA poderosa pudiera idear maneras de detectar y atacar submarinos nucleares, conducir operaciones de influencia contra los operadores de la infraestructura de armas nucleares, o usar las capacidades cibernéticas de la IA para lanzar un ciberataque contra satélites usados para detectar lanzamientos nucleares.³³ Alternativamente, es posible que tomar países sea factible con solo vigilancia de IA y propaganda de IA, y nunca presente realmente un momento claro donde sea obvio lo que está pasando y donde una respuesta nuclear sería apropiada. Quizás estas cosas no son factibles y la disuasión nuclear seguirá siendo efectiva, pero parece demasiado arriesgado correr el riesgo.³⁴
Una segunda objeción posible es que podría haber contramedidas que podemos tomar contra estas herramientas de autocracia. Podemos contrarrestar drones con nuestros propios drones, la ciberdefensa mejorará junto con el ciberataque, puede haber maneras de inmunizar a las personas contra la propaganda, etc. Mi respuesta es que estas defensas solo serán posibles con IA comparablemente poderosa. Si no hay alguna contrafuerza con un país de genios en un centro de datos comparablemente inteligente y numeroso, no será posible igualar la calidad o cantidad de drones, para que la ciberdefensa supere en astucia al ciberataque, etc. Así que la pregunta de las contramedidas se reduce a la pregunta de un balance de poder en IA poderosa. Aquí, me preocupa la propiedad recursiva o autorreforzante de la IA poderosa (que discutí al comienzo de este ensayo): que cada generación de IA puede ser usada para diseñar y entrenar la próxima generación de IA. Esto lleva a un riesgo de ventaja desbocada, donde el líder actual en IA poderosa podría ser capaz de aumentar su ventaja y podría ser difícil de alcanzar. Necesitamos asegurarnos de que no sea un país autoritario el que llegue primero a este bucle.
Además, incluso si se puede lograr un balance de poder, todavía hay riesgo de que el mundo pudiera ser dividido en esferas autocráticas, como en 1984. Incluso si varios poderes competidores cada uno tiene sus modelos de IA poderosos, y ninguno puede dominar a los otros, cada poder todavía podría reprimir internamente a su propia población, y sería muy difícil de derrocar (ya que las poblaciones no tienen IA poderosa para defenderse). Por ende es importante prevenir la autocracia habilitada por IA incluso si no lleva a que un solo país tome el mundo.
Defensas
¿Cómo nos defendemos contra este amplio rango de herramientas autocráticas y actores de amenaza potenciales? Como en las secciones anteriores, hay varias cosas que creo podemos hacer. Primero, absolutamente no deberíamos estar vendiendo chips, herramientas de fabricación de chips, o centros de datos al PCCh. Los chips y las herramientas de fabricación de chips son el cuello de botella más grande para la IA poderosa, y bloquearlos es una medida simple pero extremadamente efectiva, quizás la acción individual más importante que podemos tomar. No tiene sentido vender al PCCh las herramientas con las cuales construir un estado totalitario de IA y posiblemente conquistarnos militarmente. Se hacen varios argumentos complicados para justificar tales ventas, como la idea de que “difundir nuestra pila tecnológica alrededor del mundo” permite a “Estados Unidos ganar” en alguna batalla económica general y no especificada. En mi visión, esto es como vender armas nucleares a Corea del Norte y luego jactarse de que las carcasas de los misiles son hechas por Boeing y así Estados Unidos está “ganando”. China está varios años detrás de Estados Unidos en su capacidad de producir chips de frontera en cantidad, y el período crítico para construir el país de genios en un centro de datos muy probablemente estará dentro de esos próximos varios años.³⁵ No hay razón para dar un impulso gigante a su industria de IA durante este período crítico.
Segundo, tiene sentido usar IA para empoderar a las democracias a resistir autocracias. Esta es la razón por la que Anthropic considera importante proveer IA a las comunidades de inteligencia y defensa en Estados Unidos y sus aliados democráticos. Defender democracias que están bajo ataque, como Ucrania y (vía ciberataques) Taiwán, parece especialmente de alta prioridad, como también empoderar a las democracias a usar sus servicios de inteligencia para disrumpir y degradar autocracias desde adentro. En cierto nivel la única manera de responder a amenazas autocráticas es igualarlas y superarlas militarmente. Una coalición de Estados Unidos y sus aliados democráticos, si lograra predominio en IA poderosa, estaría en posición de no solo defenderse contra autocracias, sino contenerlas y limitar sus abusos totalitarios de IA.
Tercero, necesitamos trazar una línea dura contra los abusos de IA dentro de las democracias. Necesita haber límites a lo que permitimos que nuestros gobiernos hagan con IA, para que no tomen el poder o repriman a su propia gente. La formulación que he desarrollado es que deberíamos usar IA para defensa nacional de todas las maneras excepto aquellas que nos harían más similares a nuestros adversarios autocráticos.
¿Dónde debería trazarse la línea? En la lista al comienzo de esta sección, dos elementos —usar IA para vigilancia masiva doméstica y propaganda masiva— me parecen líneas rojas brillantes y enteramente ilegítimos. Algunos podrían argumentar que no hay necesidad de hacer nada (al menos en Estados Unidos), ya que la vigilancia masiva doméstica ya es ilegal bajo la Cuarta Enmienda. Pero el rápido progreso de la IA puede crear situaciones para las que nuestros marcos legales existentes no están bien diseñados para manejar. Por ejemplo, probablemente no sería inconstitucional que el gobierno estadounidense condujera grabaciones masivamente escaladas de todas las conversaciones públicas (por ejemplo, cosas que la gente se dice en una esquina), y previamente habría sido difícil clasificar este volumen de información, pero con IA todo podría ser transcrito, interpretado, y triangulado para crear una imagen de la actitud y lealtades de muchos o la mayoría de los ciudadanos. Yo apoyaría legislación enfocada en libertades civiles (o quizás incluso una enmienda constitucional) que imponga salvaguardas más fuertes contra abusos impulsados por IA.
Los otros dos elementos —armas totalmente autónomas e IA para toma de decisiones estratégicas— son líneas más difíciles de trazar ya que tienen usos legítimos en defender la democracia, mientras también son propensos al abuso. Aquí creo que lo que se justifica es extremo cuidado y escrutinio combinado con salvaguardas para prevenir abusos. Mi principal temor es tener un número demasiado pequeño de “dedos en el botón”, de tal manera que una o un puñado de personas pudieran esencialmente operar un ejército de drones sin necesitar que ningún otro humano coopere para llevar a cabo sus órdenes. A medida que los sistemas de IA se vuelven más poderosos, puede que necesitemos tener mecanismos de supervisión más directos e inmediatos para asegurar que no sean mal usados, quizás involucrando ramas del gobierno además del ejecutivo. Creo que deberíamos abordar las armas totalmente autónomas en particular con gran cautela,³⁶ y no apresurarnos a usarlas sin salvaguardas apropiadas.
Cuarto, después de trazar una línea dura contra los abusos de IA en democracias, deberíamos usar ese precedente para crear un tabú internacional contra los peores abusos de IA poderosa. Reconozco que los vientos políticos actuales se han vuelto contra la cooperación internacional y las normas internacionales, pero este es un caso donde sobremanera las necesitamos. El mundo necesita entender el potencial oscuro de IA poderosa en manos de autócratas, y reconocer que ciertos usos de IA equivalen a un intento de robar permanentemente su libertad e imponer un estado totalitario del cual no pueden escapar. Incluso argumentaría que en algunos casos, vigilancia a gran escala con IA poderosa, propaganda masiva con IA poderosa, y ciertos tipos de usos ofensivos de armas totalmente autónomas deberían ser considerados crímenes de lesa humanidad. Más generalmente, se necesita sobremanera una norma robusta contra el totalitarismo habilitado por IA y todas sus herramientas e instrumentos.
Es posible tener una versión aún más fuerte de esta posición, que es que porque las posibilidades del totalitarismo habilitado por IA son tan oscuras, la autocracia simplemente no es una forma de gobierno que las personas puedan aceptar en la era post-IA poderosa. Así como el feudalismo se volvió inviable con la revolución industrial, la era de la IA podría llevar inevitable y lógicamente a la conclusión de que la democracia (y, esperanzadamente, democracia mejorada y revigorizada por IA, como discuto en Máquinas de Gracia Amorosa) es la única forma viable de gobierno si la humanidad ha de tener un buen futuro.
Quinto y finalmente, las empresas de IA deberían ser cuidadosamente vigiladas, como también su conexión con el gobierno, que es necesaria, pero debe tener límites y fronteras. La pura cantidad de capacidad encarnada en IA poderosa es tal que la gobernanza corporativa ordinaria —que está diseñada para proteger accionistas y prevenir abusos ordinarios como el fraude— es improbable que esté a la altura de la tarea de gobernar empresas de IA. También puede haber valor en que las empresas se comprometan públicamente (quizás incluso como parte de la gobernanza corporativa) a no tomar ciertas acciones, como construir o almacenar privadamente hardware militar, usar grandes cantidades de recursos de cómputo por individuos únicos de maneras sin rendición de cuentas, o usar sus productos de IA como propaganda para manipular la opinión pública a su favor.
El peligro aquí viene de muchas direcciones, y algunas direcciones están en tensión con otras. La única constante es que debemos buscar rendición de cuentas, normas, y salvaguardas para todos, incluso mientras empoderamos a actores “buenos” para mantener bajo control a actores “malos”.
4. El piano mecánico
Disrupción económica
Las tres secciones anteriores fueron esencialmente sobre riesgos de seguridad planteados por IA poderosa: riesgos de la IA misma, riesgos de uso indebido por individuos y pequeñas organizaciones y riesgos de uso indebido por estados y grandes organizaciones. Si dejamos de lado los riesgos de seguridad o asumimos que han sido resueltos, la siguiente pregunta es económica. ¿Cuál será el efecto de esta infusión de increíble “capital humano” en la economía? Claramente, el efecto más obvio será aumentar enormemente el crecimiento económico. El ritmo de avances en investigación científica, innovación biomédica, manufactura, cadenas de suministro, la eficiencia del sistema financiero, y mucho más están casi garantizados de llevar a una tasa mucho más rápida de crecimiento económico. En Máquinas de Gracia Amorosa, sugiero que una tasa de crecimiento anual del PIB sostenida de 10-20% puede ser posible.
Pero debería ser claro que esta es un arma de doble filo: ¿cuáles son las perspectivas económicas para la mayoría de los humanos existentes en tal mundo? Las nuevas tecnologías frecuentemente traen shocks al mercado laboral, y en el pasado los humanos siempre se han recuperado de ellos, pero me preocupa que esto sea porque estos shocks previos afectaron solo una pequeña fracción del rango completo posible de habilidades humanas, dejando espacio para que los humanos se expandieran a nuevas tareas. La IA tendrá efectos que son mucho más amplios y ocurren mucho más rápido, y por ende me preocupa que será mucho más desafiante hacer que las cosas salgan bien.
Disrupción del mercado laboral
Hay dos problemas específicos que me preocupan: desplazamiento del mercado laboral, y concentración del poder económico. Comencemos con el primero. Este es un tema sobre el cual advertí muy públicamente en 2025, donde predije que la IA podría desplazar la mitad de todos los empleos de oficina de nivel inicial en los próximos 1-5 años, incluso mientras acelera el crecimiento económico y el progreso científico. Esta advertencia inició un debate público sobre el tema. Muchos CEOs, tecnólogos y economistas estuvieron de acuerdo conmigo, pero otros asumieron que estaba cayendo presa de una falacia del “trabajo fijo” y no sabía cómo funcionaban los mercados laborales, y algunos no vieron el rango de 1-5 años y pensaron que estaba afirmando que la IA está desplazando empleos ahora mismo (lo cual estoy de acuerdo que probablemente no). Así que vale la pena repasar en detalle por qué estoy preocupado por el desplazamiento laboral, para aclarar estos malentendidos.
Como línea de base, es útil entender cómo los mercados laborales normalmente responden a avances en tecnología. Cuando llega una nueva tecnología, comienza haciendo partes de un trabajo humano dado más eficientes. Por ejemplo, al comienzo de la Revolución Industrial, las máquinas, como arados mejorados, permitían a los granjeros humanos ser más eficientes en algunos aspectos del trabajo. Esto mejoró la productividad de los granjeros, lo cual aumentó sus salarios.
En el siguiente paso, algunas partes del trabajo de la agricultura podían ser hechas enteramente por máquinas, por ejemplo con la invención de la trilladora o sembradora. En esta fase, los humanos hacían una fracción cada vez menor del trabajo, pero el trabajo que sí completaban se volvió más y más apalancado porque es complementario al trabajo de las máquinas, y su productividad continuó subiendo. Como describió la paradoja de Jevons, los salarios de los granjeros y quizás incluso el número de granjeros continuaron aumentando. Incluso cuando el 90% del trabajo está siendo hecho por máquinas, los humanos pueden simplemente hacer 10 veces más del 10% que todavía hacen, produciendo 10 veces más producto por la misma cantidad de trabajo.
Eventualmente, las máquinas hacen todo o casi todo, como con las cosechadoras combinadas modernas, tractores y otros equipos. En este punto la agricultura como forma de empleo humano realmente entra en fuerte declive, y esto potencialmente causa seria disrupción en el corto plazo, pero porque la agricultura es solo una de muchas actividades útiles que los humanos son capaces de hacer, las personas eventualmente cambian a otros trabajos, como operar máquinas de fábrica. Esto es verdad aunque la agricultura contaba por una enorme proporción del empleo ex ante. Hace 250 años, 90% de los estadounidenses vivían en granjas; en Europa, 50-60% del empleo era agrícola. Ahora esos porcentajes están en los dígitos bajos en esos lugares, porque los trabajadores cambiaron a trabajos industriales (y después, trabajos de conocimiento). La economía puede hacer lo que previamente requería la mayor parte de la fuerza laboral con solo 1-2% de ella, liberando al resto de la fuerza laboral para construir una sociedad industrial cada vez más avanzada. No hay un “trabajo fijo”, solo una capacidad en constante expansión de hacer más y más con menos y menos. Los salarios de las personas suben en línea con el exponencial del PIB y la economía mantiene pleno empleo una vez que las disrupciones en el corto plazo han pasado.
Es posible que las cosas vayan aproximadamente de la misma manera con la IA, pero apostaría bastante fuertemente en contra. Aquí hay algunas razones por las que creo que la IA probablemente será diferente:
-
Velocidad. El ritmo de progreso en IA es mucho más rápido que para revoluciones tecnológicas previas. Por ejemplo, en los últimos 2 años, los modelos de IA pasaron de apenas ser capaces de completar una sola línea de código, a escribir todo o casi todo el código para algunas personas —incluyendo ingenieros en Anthropic.³⁷ Pronto, pueden hacer la tarea completa de un ingeniero de software de principio a fin.³⁸ Es difícil para las personas adaptarse a este ritmo de cambio, tanto a los cambios en cómo funciona un trabajo dado como a la necesidad de cambiar a nuevos trabajos. Incluso programadores legendarios se están describiendo cada vez más como “quedados atrás”. El ritmo puede si acaso continuar acelerándose, a medida que los modelos de IA para código cada vez más aceleran la tarea del desarrollo de IA. Para ser claro, la velocidad en sí misma no significa que los mercados laborales y el empleo no se recuperarán eventualmente, solo implica que la transición de corto plazo será inusualmente dolorosa comparada con tecnologías pasadas, ya que los humanos y los mercados laborales son lentos para reaccionar y equilibrarse.
-
Amplitud cognitiva. Como sugiere la frase “país de genios en un centro de datos”, la IA será capaz de un rango muy amplio de habilidades cognitivas humanas —quizás todas ellas. Esto es muy diferente de tecnologías previas como la agricultura mecanizada, el transporte, o incluso las computadoras.³⁹ Esto hará más difícil para las personas cambiar fácilmente de trabajos que son desplazados a trabajos similares para los que serían un buen ajuste. Por ejemplo, las habilidades intelectuales generales requeridas para trabajos de nivel inicial en, digamos, finanzas, consultoría y derecho son bastante similares, incluso si el conocimiento específico es bastante diferente. Una tecnología que disrumpiera solo uno de estos tres permitiría a los empleados cambiar a los otros dos sustitutos cercanos (o que los estudiantes de grado cambiaran de carrera). Pero disrumpir los tres a la vez (junto con muchos otros trabajos similares) puede ser más difícil de adaptar para las personas. Además, no es solo que la mayoría de los trabajos existentes serán disrumpidos. Esa parte ha sucedido antes —recordemos que la agricultura era un enorme porcentaje del empleo. Pero los granjeros podían cambiar al trabajo relativamente similar de operar máquinas de fábrica, aunque ese trabajo no había sido común antes. En contraste, la IA está igualando cada vez más el perfil cognitivo general de los humanos, lo cual significa que también será buena en los nuevos trabajos que ordinariamente serían creados en respuesta a que los viejos sean automatizados. Otra manera de decirlo es que la IA no es un sustituto para trabajos humanos específicos sino más bien un sustituto general de trabajo para los humanos.
-
Corte por habilidad cognitiva. A través de un amplio rango de tareas, la IA parece estar avanzando desde la parte inferior de la escalera de habilidades hacia la cima. Por ejemplo, en codificación nuestros modelos han progresado del nivel de “un codificador mediocre” a “un codificador fuerte” a “un codificador muy fuerte”.⁴⁰ Ahora estamos empezando a ver la misma progresión en trabajo de oficina en general. Por ende estamos en riesgo de una situación donde, en lugar de afectar a personas con habilidades específicas o en profesiones específicas (que pueden adaptarse mediante reentrenamiento), la IA está afectando a personas con ciertas propiedades cognitivas intrínsecas, a saber menor capacidad intelectual (que es más difícil de cambiar). No está claro a dónde irán estas personas o qué harán, y me preocupa que podrían formar una “subclase” desempleada o de muy bajos salarios. Para ser claro, cosas algo similares han sucedido antes —por ejemplo, se cree que las computadoras e internet representan “cambio tecnológico sesgado hacia la habilidad”. Pero este sesgo de habilidad no fue tan extremo como lo que espero ver con la IA, y se cree que contribuyó a un aumento en la desigualdad salarial,⁴¹ así que no es exactamente un precedente tranquilizador.
-
Capacidad de llenar los vacíos. La manera en que los trabajos humanos frecuentemente se ajustan frente a nueva tecnología es que hay muchos aspectos del trabajo, y la nueva tecnología, incluso si parece reemplazar directamente a los humanos, frecuentemente tiene vacíos. Si alguien inventa una máquina para hacer widgets, los humanos todavía pueden tener que cargar materia prima en la máquina. Incluso si eso toma solo 1% tanto esfuerzo como hacer los widgets manualmente, los trabajadores humanos pueden simplemente hacer 100 veces más widgets. Pero la IA, además de ser una tecnología que avanza rápidamente, también es una tecnología que se adapta rápidamente. Durante cada lanzamiento de modelo, las empresas de IA miden cuidadosamente en qué es bueno el modelo y en qué no, y los clientes también proveen tal información después del lanzamiento. Las debilidades pueden ser abordadas recolectando tareas que encarnen el vacío actual, y entrenando en ellas para el próximo modelo. Al comienzo de la IA generativa, los usuarios notaron que los sistemas de IA tenían ciertas debilidades (como modelos de imagen de IA generando manos con el número incorrecto de dedos) y muchos asumieron que estas debilidades eran inherentes a la tecnología. Si lo fueran, limitaría la disrupción laboral. Pero prácticamente cada tal debilidad es abordada rápidamente —frecuentemente, dentro de solo unos pocos meses.
Vale la pena abordar puntos comunes de escepticismo. Primero, está el argumento de que la difusión económica será lenta, de tal manera que incluso si la tecnología subyacente es capaz de hacer la mayor parte del trabajo humano, la aplicación real de ella a través de la economía puede ser mucho más lenta (por ejemplo en industrias que están lejos de la industria de IA y son lentas en adoptar). La difusión lenta de la tecnología es definitivamente real —hablo con personas de una amplia variedad de empresas, y hay lugares donde la adopción de IA tomará años. Por eso mi predicción para que el 50% de los trabajos de oficina de nivel inicial sean disrumpidos es 1-5 años, aunque sospecho que tendremos IA poderosa (que sería, hablando tecnológicamente, suficiente para hacer la mayoría o todos los trabajos, no solo nivel inicial) en mucho menos de 5 años. Pero los efectos de difusión meramente nos compran tiempo. Y no estoy seguro de que serán tan lentos como la gente predice. La adopción empresarial de IA está creciendo a tasas mucho más rápidas que cualquier tecnología previa, en gran parte por la pura fuerza de la tecnología misma. También, incluso si las empresas tradicionales son lentas en adoptar nueva tecnología, surgirán startups para servir como “pegamento” y hacer la adopción más fácil. Si eso no funciona, las startups pueden simplemente disrumpir a los incumbentes directamente.
Eso podría llevar a un mundo donde no es tanto que trabajos específicos son disrumpidos sino más bien que las grandes empresas son disrumpidas en general y reemplazadas con startups mucho menos intensivas en trabajo. Esto también podría llevar a un mundo de “desigualdad geográfica”, donde una fracción creciente de la riqueza del mundo está concentrada en Silicon Valley, que se convierte en su propia economía corriendo a una velocidad diferente que el resto del mundo y dejándolo atrás. Todos estos resultados serían espléndidos para el crecimiento económico —pero no tan espléndidos para el mercado laboral o para quienes quedan rezagados.
Segundo, algunas personas dicen que los trabajos humanos se moverán al mundo físico, lo cual evita toda la categoría de “trabajo cognitivo” donde la IA está progresando tan rápidamente. No estoy seguro de cuán seguro es esto, tampoco. Mucho trabajo físico ya está siendo hecho por máquinas (por ejemplo, manufactura) o pronto será hecho por máquinas (por ejemplo, conducir). También, IA suficientemente poderosa será capaz de acelerar el desarrollo de robots, y luego controlar esos robots en el mundo físico. Puede comprar algo de tiempo (lo cual es bueno), pero me preocupa que no compre mucho. E incluso si la disrupción estuviera limitada solo a tareas cognitivas, todavía sería una disrupción imprecedentemente grande y rápida.
Tercero, quizás algunas tareas inherentemente requieren o se benefician enormemente de un toque humano. Estoy un poco más incierto sobre este, pero todavía soy escéptico de que será suficiente para compensar el grueso de los impactos que describí arriba. La IA ya se usa ampliamente para servicio al cliente. Muchas personas reportan que es más fácil hablar con IA sobre sus problemas personales que hablar con un terapeuta —que la IA es más paciente. Cuando mi hermana estaba luchando con problemas médicos durante un embarazo, sentía que no estaba obteniendo las respuestas o apoyo que necesitaba de sus proveedores de salud, y encontró que Claude tenía mejor trato al lado de la cama (además de tener más éxito en diagnosticar el problema). Estoy seguro de que hay algunas tareas para las cuales un toque humano realmente es importante, pero no estoy seguro de cuántas —y aquí estamos hablando de encontrar trabajo para casi todos en el mercado laboral.
Cuarto, algunos podrían argumentar que la ventaja comparativa todavía protegerá a los humanos. Bajo la ley de ventaja comparativa, incluso si la IA es mejor que los humanos en todo, cualquier diferencia relativa entre el perfil de habilidades humano y de IA crea una base de comercio y especialización entre humanos e IA. El problema es que si las IAs son literalmente miles de veces más productivas que los humanos, esta lógica empieza a colapsar. Incluso pequeños costos de transacción podrían hacer que no valga la pena para la IA comerciar con humanos. Y los salarios humanos podrían ser muy bajos, incluso si técnicamente tienen algo que ofrecer.
Es posible que todos estos factores puedan ser abordados —que el mercado laboral sea lo suficientemente resiliente para adaptarse incluso a una disrupción tan enorme. Pero incluso si puede eventualmente adaptarse, los factores anteriores sugieren que el shock de corto plazo será de tamaño sin precedentes.
Defensas
¿Qué podemos hacer sobre este problema? Tengo varias sugerencias, algunas de las cuales Anthropic ya está haciendo. Lo primero es simplemente obtener datos precisos sobre lo que está sucediendo con el desplazamiento laboral en tiempo real. Cuando un cambio económico sucede muy rápidamente, es difícil obtener datos confiables sobre lo que está sucediendo, y sin datos confiables es difícil diseñar políticas efectivas. Por ejemplo, los datos gubernamentales actualmente carecen de datos granulares y de alta frecuencia sobre la adopción de IA a través de empresas e industrias. Durante el último año Anthropic ha estado operando y liberando públicamente un Índice Económico que muestra el uso de nuestros modelos casi en tiempo real, desglosado por industria, tarea, ubicación, e incluso cosas como si una tarea estaba siendo automatizada o conducida colaborativamente. También tenemos un Consejo Asesor Económico para ayudarnos a interpretar estos datos y ver lo que viene.
Segundo, las empresas de IA tienen una opción en cómo trabajan con las empresas. La ineficiencia misma de las empresas tradicionales significa que su despliegue de IA puede ser muy dependiente del camino, y hay algo de espacio para elegir un mejor camino. Las empresas frecuentemente tienen una opción entre “ahorro de costos” (hacer lo mismo con menos personas) e “innovación” (hacer más con el mismo número de personas). El mercado inevitablemente producirá ambos eventualmente, y cualquier empresa de IA competitiva tendrá que servir algo de ambos, pero puede haber algo de espacio para dirigir empresas hacia la innovación cuando sea posible, y puede comprarnos algo de tiempo. Anthropic está pensando activamente sobre esto.
Tercero, las empresas deberían pensar en cómo cuidar a sus empleados. En el corto plazo, ser creativo sobre maneras de reasignar empleados dentro de las empresas puede ser una manera prometedora de evitar la necesidad de despidos. En el largo plazo, en un mundo con enorme riqueza total, en el cual muchas empresas aumentan enormemente en valor debido a mayor productividad y concentración de capital, puede ser factible pagar a empleados humanos incluso mucho después de que ya no estén proporcionando valor económico en el sentido tradicional. Anthropic está actualmente considerando un rango de posibles caminos para nuestros propios empleados que compartiremos en el futuro cercano.
Cuarto, los individuos ricos tienen la obligación de ayudar a resolver este problema. Es triste para mí que muchos individuos ricos (especialmente en la industria tecnológica) hayan recientemente adoptado una actitud cínica y nihilista de que la filantropía es inevitablemente fraudulenta o inútil. Tanto la filantropía privada como la Fundación Gates y programas públicos como PEPFAR han salvado decenas de millones de vidas en el mundo en desarrollo, y ayudado a crear oportunidad económica en el mundo desarrollado. Todos los cofundadores de Anthropic se han comprometido a donar el 80% de nuestra riqueza, y el personal de Anthropic individualmente se ha comprometido a donar acciones de la empresa con valor de miles de millones a precios actuales —donaciones que la empresa se ha comprometido a igualar.
Quinto, mientras todas las acciones privadas anteriores pueden ser útiles, en última instancia un problema macroeconómico de este tamaño requerirá intervención gubernamental. La respuesta de política natural a una enorme torta económica acoplada con alta desigualdad (debido a la falta de trabajos, o trabajos mal pagados, para muchos) es la tributación progresiva. El impuesto podría ser general o podría estar dirigido contra las empresas de IA en particular. Obviamente el diseño de impuestos es complicado, y hay muchas maneras en que puede salir mal. No apoyo políticas impositivas mal diseñadas. Creo que los niveles extremos de desigualdad predichos en este ensayo justifican una política impositiva más robusta por motivos morales básicos, pero también puedo hacer un argumento pragmático a los multimillonarios del mundo de que está en su interés apoyar una buena versión: si no apoyan una buena versión, inevitablemente obtendrán una mala versión diseñada por una turba.
En última instancia, pienso en todas las intervenciones anteriores como maneras de comprar tiempo. Al final la IA será capaz de hacer todo, y necesitamos lidiar con eso. Mi esperanza es que para entonces, podamos usar la IA misma para ayudarnos a reestructurar los mercados de maneras que funcionen para todos, y que las intervenciones anteriores puedan llevarnos a través del período de transición.
Concentración económica de poder
Separado del problema del desplazamiento laboral o la desigualdad económica per se está el problema de la concentración económica de poder. La Sección 1 discutió el riesgo de que la humanidad sea desempoderada por la IA, y la Sección 3 discutió el riesgo de que los ciudadanos sean desempoderados por sus gobiernos por fuerza o coerción. Pero otro tipo de desempoderamiento puede ocurrir si hay tal enorme concentración de riqueza que un pequeño grupo de personas efectivamente controla la política gubernamental con su influencia, y los ciudadanos ordinarios no tienen influencia porque carecen de apalancamiento económico. La democracia está en última instancia respaldada por la idea de que la población en su conjunto es necesaria para la operación de la economía. Si ese apalancamiento económico desaparece, entonces el contrato social implícito de la democracia puede dejar de funcionar. Otros han escrito sobre esto, así que no necesito entrar en gran detalle aquí, pero estoy de acuerdo con la preocupación, y me preocupa que ya esté empezando a suceder.
Para ser claro, no me opongo a que la gente gane mucho dinero. Hay un fuerte argumento de que incentiva el crecimiento económico bajo condiciones normales. Soy solidario con las preocupaciones sobre impedir la innovación matando a la gallina de los huevos de oro que la genera. Pero en un escenario donde el crecimiento del PIB es 10-20% al año y la IA está tomando rápidamente la economía, aunque individuos únicos poseen fracciones apreciables del PIB, la innovación no es lo que hay que preocuparse. Lo que hay que preocuparse es un nivel de concentración de riqueza que romperá la sociedad.
El ejemplo más famoso de concentración extrema de riqueza en la historia de Estados Unidos es la Edad Dorada, y el industrialista más rico de la Edad Dorada fue John D. Rockefeller. La riqueza de Rockefeller ascendía a ~2% del PIB estadounidense de la época.⁴² Una fracción similar hoy llevaría a una fortuna de $600B, y la persona más rica del mundo hoy (Elon Musk) ya supera eso, en aproximadamente $700B. Así que ya estamos en niveles históricamente sin precedentes de concentración de riqueza, incluso antes de la mayor parte del impacto económico de la IA. No creo que sea demasiado descabellado (si obtenemos un “país de genios”) imaginar empresas de IA, empresas de semiconductores, y quizás empresas de aplicaciones downstream generando ~$3T en ingresos por año,⁴³ siendo valuadas en ~$30T, y llevando a fortunas personales bien entradas en los trillones. En ese mundo, los debates que tenemos sobre política impositiva hoy simplemente no aplicarán ya que estaremos en una situación fundamentalmente diferente.
Relacionado con esto, el acoplamiento de esta concentración económica de riqueza con el sistema político ya me preocupa. Los centros de datos de IA ya representan una fracción sustancial del crecimiento económico estadounidense,⁴⁴ y por ende están atando fuertemente los intereses financieros de grandes empresas tecnológicas (que están cada vez más enfocadas en IA o infraestructura de IA) y los intereses políticos del gobierno de una manera que puede producir incentivos perversos. Ya vemos esto a través de la renuencia de las empresas tecnológicas a criticar al gobierno estadounidense, y el apoyo del gobierno a políticas anti-regulatorias extremas en IA.
Defensas
¿Qué se puede hacer sobre esto? Primero, y de manera más obvia, las empresas deberían simplemente elegir no ser parte de ello. Anthropic siempre se ha esforzado por ser un actor de política y no uno político, y por mantener nuestras visiones auténticas cualquiera sea la administración. Hemos hablado a favor de regulación sensata de IA y controles de exportación que están en el interés público, incluso cuando estos están en desacuerdo con la política gubernamental.⁴⁵ Muchas personas me han dicho que deberíamos dejar de hacer esto, que podría llevar a un trato desfavorable, pero en el año que hemos estado haciéndolo, la valuación de Anthropic ha aumentado más de 6 veces, un salto casi sin precedentes en nuestra escala comercial.
Segundo, la industria de IA necesita una relación más saludable con el gobierno —una basada en compromiso de política sustantivo más que alineación política. Nuestra elección de comprometernos en sustancia de política más que política a veces se lee como un error táctico o falla en “leer la sala” más que una decisión de principio, y ese encuadre me preocupa. En una democracia sana, las empresas deberían ser capaces de abogar por buena política por sí misma. Relacionado con esto, una reacción pública adversa contra la IA se está gestando: esto podría ser un correctivo, pero actualmente está desenfocada. Mucho de ella apunta a asuntos que no son realmente problemas (como el uso de agua de los centros de datos) y propone soluciones (como prohibiciones de centros de datos o impuestos de riqueza mal diseñados) que no abordarían las preocupaciones reales. El asunto subyacente que merece atención es asegurar que el desarrollo de IA permanezca responsable ante el interés público, no capturado por ninguna alianza política o comercial particular, y parece importante enfocar la discusión pública ahí.
Tercero, las intervenciones macroeconómicas que describí anteriormente en esta sección, así como un resurgimiento de la filantropía privada, pueden ayudar a equilibrar las escalas económicas, abordando tanto los problemas de desplazamiento laboral como de concentración de poder económico a la vez. Deberíamos mirar a la historia de nuestro país aquí: incluso en la Edad Dorada, industrialistas como Rockefeller y Carnegie sentían una fuerte obligación hacia la sociedad en general, un sentimiento de que la sociedad había contribuido enormemente a su éxito y necesitaban retribuir. Ese espíritu parece estar cada vez más ausente hoy, y creo que es una gran parte de la salida de este dilema económico. Aquellos que están a la vanguardia del boom económico de la IA deberían estar dispuestos a donar tanto su riqueza como su poder.
5. Negros mares de infinito
Efectos indirectos
Esta última sección es un cajón de sastre para incógnitas desconocidas, particularmente cosas que podrían salir mal como resultado indirecto de avances positivos en IA y la resultante aceleración de la ciencia y tecnología en general. Supongamos que abordamos todos los riesgos descritos hasta ahora, y comenzamos a cosechar los beneficios de la IA. Probablemente obtendremos “un siglo de progreso científico y económico comprimido en una década”, y esto será enormemente positivo para el mundo, pero entonces tendremos que lidiar con los problemas que surgen de esta rápida tasa de progreso, y esos problemas pueden venir hacia nosotros rápido. También podemos encontrar otros riesgos que ocurren indirectamente como consecuencia del progreso de la IA y son difíciles de anticipar por adelantado.
Por la naturaleza de las incógnitas desconocidas es imposible hacer una lista exhaustiva, pero listaré tres posibles preocupaciones como ejemplos ilustrativos de lo que deberíamos estar vigilando:
-
Avances rápidos en biología. Si obtenemos un siglo de progreso médico en unos pocos años, es posible que aumentemos enormemente la expectativa de vida humana, y hay una posibilidad de que también ganemos capacidades radicales como la capacidad de aumentar la inteligencia humana o modificar radicalmente la biología humana. Esos serían grandes cambios en lo que es posible, sucediendo muy rápidamente. Podrían ser positivos si se hacen responsablemente (que es mi esperanza, como describí en Máquinas de Gracia Amorosa), pero siempre hay un riesgo de que salgan muy mal —por ejemplo, si los esfuerzos para hacer a los humanos más inteligentes también los hacen más inestables o buscadores de poder. También está el asunto de las “cargas” o “emulación de cerebro completo”, mentes humanas digitales instanciadas en software, que algún día podrían ayudar a la humanidad a trascender sus limitaciones físicas, pero que también conllevan riesgos que encuentro inquietantes.
-
La IA cambia la vida humana de manera no saludable. Un mundo con miles de millones de inteligencias que son mucho más inteligentes que los humanos en todo va a ser un mundo muy extraño en el cual vivir. Incluso si la IA no apunta activamente a atacar a los humanos (Sección 1), y no es explícitamente usada para opresión o control por estados (Sección 3), hay mucho que podría salir mal más acá de esto, vía incentivos de negocios normales y transacciones nominalmente consensuales. Vemos indicios tempranos de esto en las preocupaciones sobre psicosis de IA, IA llevando personas al suicidio, y preocupaciones sobre relaciones románticas con IAs. Como ejemplo, ¿podrían las IAs poderosas inventar alguna nueva religión y convertir a millones de personas a ella? ¿Podría la mayoría de las personas terminar “adictas” de alguna manera a interacciones con IA? ¿Podría la gente terminar siendo “marioneteada” por sistemas de IA, donde una IA esencialmente observa cada movimiento suyo y les dice exactamente qué hacer y decir en todo momento, llevando a una vida “buena” pero una que carece de libertad o cualquier orgullo de logro? No sería difícil generar docenas de estos escenarios si me sentara con el creador de Black Mirror e intentara hacer una lluvia de ideas. Creo que esto señala la importancia de cosas como mejorar la Constitución de Claude, más allá y por encima de lo que es necesario para prevenir los asuntos en la Sección 1. Asegurarse de que los modelos de IA realmente tengan los intereses a largo plazo de sus usuarios en el corazón, de una manera que las personas reflexivas respaldarían en lugar de alguna manera sutilmente distorsionada, parece crítico.
-
Propósito humano. Esto está relacionado con el punto anterior, pero no es tanto sobre interacciones humanas específicas con sistemas de IA como sobre cómo cambia la vida humana en general en un mundo con IA poderosa. ¿Serán los humanos capaces de encontrar propósito y sentido en tal mundo? Creo que esto es cuestión de actitud: como dije en Máquinas de Gracia Amorosa, creo que el propósito humano no depende de ser el mejor del mundo en algo, y los humanos pueden encontrar propósito incluso durante períodos muy largos de tiempo a través de historias y proyectos que aman. Simplemente necesitamos romper el vínculo entre la generación de valor económico y la autoestima y el sentido. Pero esa es una transición que la sociedad tiene que hacer, y siempre hay el riesgo de que no la manejemos bien.
Mi esperanza con todos estos problemas potenciales es que en un mundo con IA poderosa en la que confiamos para no matarnos, que no es la herramienta de un gobierno opresivo, y que genuinamente está trabajando en nuestro nombre, podemos usar la IA misma para anticipar y prevenir estos problemas. Pero eso no está garantizado —como todos los otros riesgos, es algo que tenemos que manejar con cuidado.
La prueba de la humanidad
Leer este ensayo puede dar la impresión de que estamos en una situación desalentadora. Ciertamente me resultó desalentador escribirlo, en contraste con Máquinas de Gracia Amorosa, que se sintió como dar forma y estructura a música sobrecogedoramente bella que había estado resonando en mi cabeza durante años. Y hay mucho sobre la situación que genuinamente es difícil. La IA trae amenazas a la humanidad desde múltiples direcciones, y hay tensión genuina entre los diferentes peligros, donde mitigar algunos de ellos arriesga empeorar otros si no enhebrazamos la aguja con extremo cuidado.
Tomarse tiempo para construir cuidadosamente sistemas de IA para que no amenacen autónomamente a la humanidad está en tensión genuina con la necesidad de que las naciones democráticas se mantengan por delante de las naciones autoritarias y no sean subyugadas por ellas. Pero a su vez, las mismas herramientas habilitadas por IA que son necesarias para combatir autocracias pueden, si se llevan demasiado lejos, ser vueltas hacia adentro para crear tiranía en nuestros propios países. El terrorismo impulsado por IA podría matar millones a través del uso indebido de la biología, pero una reacción exagerada a este riesgo podría llevarnos por el camino hacia un estado de vigilancia autocrático. Los efectos de concentración laboral y económica de la IA, además de ser problemas graves por derecho propio, pueden forzarnos a enfrentar los otros problemas en un ambiente de ira pública y quizás incluso disturbios civiles, en lugar de poder invocar los mejores ángeles de nuestra naturaleza. Sobre todo, el puro número de riesgos, incluyendo los desconocidos, y la necesidad de lidiar con todos ellos a la vez, crea una intimidante carrera de obstáculos que la humanidad debe correr.
Además, los últimos años deberían dejar claro que la idea de detener o incluso desacelerar sustancialmente la tecnología es fundamentalmente insostenible. La fórmula para construir sistemas de IA poderosos es increíblemente simple, tanto que casi puede decirse que emerge espontáneamente de la combinación correcta de datos y computación bruta. Su creación probablemente era inevitable en el instante en que la humanidad inventó el transistor, o posiblemente incluso antes cuando primero aprendimos a controlar el fuego. Si una empresa no la construye, otras lo harán casi tan rápido. Si todas las empresas en países democráticos detuvieran o desaceleraran el desarrollo, por acuerdo mutuo o decreto regulatorio, entonces los países autoritarios simplemente seguirían adelante. Dado el increíble valor económico y militar de la tecnología, junto con la falta de cualquier mecanismo de cumplimiento significativo, no veo cómo podríamos posiblemente convencerlos de detenerse.
Sí veo un camino hacia una ligera moderación en el desarrollo de IA que sea compatible con una visión realista de la geopolítica. Ese camino involucra desacelerar la marcha de las autocracias hacia la IA poderosa por unos pocos años negándoles los recursos que necesitan para construirla,⁴⁶ a saber chips y equipos de fabricación de semiconductores. Esto a su vez da a los países democráticos un colchón que pueden “gastar” en construir IA poderosa más cuidadosamente, con más atención a sus riesgos, mientras todavía proceden lo suficientemente rápido para vencer cómodamente a las autocracias. La carrera entre empresas de IA dentro de las democracias puede entonces ser manejada bajo el paraguas de un marco legal común, vía una mezcla de estándares de la industria y regulación.
Anthropic ha abogado muy fuertemente por este camino, presionando por controles de exportación de chips y regulación juiciosa de IA, pero incluso estas propuestas aparentemente de sentido común han sido en gran parte rechazadas por los formuladores de políticas en Estados Unidos (que es el país donde es más importante tenerlas). Hay tanto dinero para hacer con IA —literalmente trillones de dólares por año— que incluso las medidas más simples están encontrando difícil superar la economía política inherente en la IA. Esta es la trampa: la IA es tan poderosa, un premio tan reluciente, que es muy difícil para la civilización humana imponer cualquier restricción sobre ella en absoluto.
Puedo imaginar, como Sagan en Contacto, que esta misma historia se desarrolla en miles de mundos. Una especie gana sensibilidad, aprende a usar herramientas, comienza el ascenso exponencial de la tecnología, enfrenta las crisis de la industrialización y las armas nucleares, y si sobrevive a esas, confronta el desafío más difícil y final cuando aprende a moldear arena en máquinas que piensan. Si sobrevivimos esa prueba y pasamos a construir la hermosa sociedad descrita en Máquinas de Gracia Amorosa, o sucumbimos a la esclavitud y la destrucción, dependerá de nuestro carácter y nuestra determinación como especie, nuestro espíritu y nuestra alma.
A pesar de los muchos obstáculos, creo que la humanidad tiene la fuerza dentro de sí para pasar esta prueba. Estoy alentado e inspirado por los miles de investigadores que han dedicado sus carreras a ayudarnos a entender y dirigir modelos de IA, y a moldear el carácter y la constitución de estos modelos. Creo que ahora hay una buena probabilidad de que esos esfuerzos den fruto a tiempo para importar. Estoy alentado de que al menos algunas empresas han declarado que pagarán costos comerciales significativos para bloquear que sus modelos contribuyan a la amenaza del bioterrorismo. Estoy alentado de que unas pocas personas valientes han resistido los vientos políticos prevalecientes y aprobado legislación que pone las primeras semillas tempranas de salvaguardas sensatas en sistemas de IA. Estoy alentado de que el público entiende que la IA conlleva riesgos y quiere que esos riesgos sean abordados. Estoy alentado por el espíritu indomable de libertad alrededor del mundo y la determinación de resistir la tiranía donde sea que ocurra.
Pero necesitaremos intensificar nuestros esfuerzos si queremos tener éxito. El primer paso es que aquellos más cercanos a la tecnología simplemente digan la verdad sobre la situación en la que se encuentra la humanidad, lo cual siempre he intentado hacer; lo estoy haciendo más explícitamente y con mayor urgencia con este ensayo. El próximo paso será convencer a los pensadores, formuladores de políticas, empresas y ciudadanos del mundo de la inminencia e importancia suprema de este asunto —que vale la pena gastar pensamiento y capital político en esto en comparación con los miles de otros asuntos que dominan las noticias cada día. Entonces habrá un tiempo para el coraje, para que suficientes personas desafíen las tendencias prevalecientes y se mantengan firmes en principio, incluso frente a amenazas a sus intereses económicos y seguridad personal.
Los años frente a nosotros serán imposiblemente difíciles, pidiéndonos más de lo que pensamos que podemos dar. Pero en mi tiempo como investigador, líder y ciudadano, he visto suficiente coraje y nobleza para creer que podemos ganar —que cuando se pone en las circunstancias más oscuras, la humanidad tiene una manera de reunir, aparentemente en el último minuto, la fuerza y sabiduría necesarias para prevalecer. No tenemos tiempo que perder.
Quisiera agradecer a Erik Brynjolfsson, Ben Buchanan, Mariano-Florentino Cuéllar, Allan Dafoe, Kevin Esvelt, Nick Beckstead, Richard Fontaine, Jim McClave, y a muchísimos del personal de Anthropic por sus útiles comentarios sobre borradores de este ensayo.
Notas al pie
-
Esto es simétrico a un punto que hice en Máquinas de Gracia Amorosa, donde comencé diciendo que los beneficios de la IA no deberían pensarse en términos de una profecía de salvación, y que es importante ser concreto y fundamentado y evitar la grandilocuencia. En última instancia, las profecías de salvación y las profecías de perdición son inútiles para confrontar el mundo real, por básicamente las mismas razones.
-
El objetivo de Anthropic es permanecer consistente a través de tales cambios. Cuando hablar sobre riesgos de IA era políticamente popular, Anthropic cautelosamente abogaba por un enfoque juicioso y basado en evidencia hacia estos riesgos. Ahora que hablar sobre riesgos de IA es políticamente impopular, Anthropic continúa cautelosamente abogando por un enfoque juicioso y basado en evidencia hacia estos riesgos.
-
Con el tiempo, he ganado confianza creciente en la trayectoria de la IA y la probabilidad de que supere la capacidad humana en todos los ámbitos, pero algo de incertidumbre todavía permanece.
-
Los controles de exportación para chips son un gran ejemplo de esto. Son simples y parecen mayormente simplemente funcionar.
-
Y por supuesto, la búsqueda de tal evidencia debe ser intelectualmente honesta, de tal manera que también pueda revelar evidencia de falta de peligro. La transparencia a través de tarjetas de modelo y otras divulgaciones es un intento de tal esfuerzo intelectualmente honesto.
-
De hecho, desde que escribí Máquinas de Gracia Amorosa en 2024, los sistemas de IA se han vuelto capaces de hacer tareas que toman a los humanos varias horas, con METR recientemente evaluando que Opus 4.5 puede hacer aproximadamente cuatro horas humanas de trabajo con 50% de confiabilidad.
-
Y para ser claro, incluso si la IA poderosa está solo a 1-2 años en un sentido técnico, muchas de sus consecuencias sociales, tanto positivas como negativas, pueden tomar unos pocos años más en ocurrir. Es por esto que puedo simultáneamente pensar que la IA disrumpirá el 50% de los trabajos de oficina de nivel inicial en 1-5 años, mientras también pienso que podemos tener IA que es más capaz que todos en solo 1-2 años.
-
Vale la pena agregar que el público (comparado con los formuladores de políticas) sí parece estar muy preocupado con los riesgos de IA. Creo que algo de su enfoque es correcto (es decir, desplazamiento laboral por IA), y algo está mal dirigido (como preocupaciones sobre el uso de agua de la IA, que no es significativo). Esta reacción adversa me da esperanza de que un consenso alrededor de abordar riesgos es posible, pero hasta ahora no se ha traducido todavía en cambios de política, mucho menos en cambios de política efectivos o bien dirigidos.
-
También pueden, por supuesto, manipular (o simplemente pagar) grandes cantidades de humanos para que hagan lo que quieren en el mundo físico.
-
No creo que esto sea un hombre de paja: es mi entendimiento, por ejemplo, que Yann LeCun sostiene esta posición.
-
Por ejemplo, ver Sección 5.5.2 (p. 63-66) de la tarjeta del sistema de Claude 4.
-
También hay un número de otras suposiciones inherentes en el modelo simple, que no discutiré aquí. Ampliamente, deberían hacernos menos preocupados sobre la historia simple específica de búsqueda de poder desalineada, pero también más preocupados sobre posible comportamiento impredecible que no hemos anticipado.
-
El Juego de Ender describe una versión de esto involucrando humanos en lugar de IA.
-
Por ejemplo, a los modelos se les puede decir que no hagan varias cosas malas, y también que obedezcan a los humanos, pero ¡pueden entonces observar que muchos humanos hacen exactamente esas cosas malas! No está claro cómo se resolvería esta contradicción (y una constitución bien diseñada debería alentar al modelo a manejar estas contradicciones con gracia), pero este tipo de dilema no es tan diferente de las situaciones supuestamente “artificiales” en las que ponemos a los modelos de IA durante las pruebas.
-
Incidentalmente, una consecuencia de que la constitución sea un documento en lenguaje natural es que es legible para el mundo, y eso significa que puede ser criticada por cualquiera y comparada con documentos similares de otras empresas. Sería valioso crear una carrera hacia la cima que no solo aliente a las empresas a liberar estos documentos, sino que las aliente a ser buenos.
-
Incluso hay una hipótesis sobre un principio unificador profundo conectando el enfoque basado en carácter de la IA Constitucional con resultados de la ciencia de interpretabilidad y alineación. Según la hipótesis, los mecanismos fundamentales que impulsan a Claude originalmente surgieron como maneras para él de simular personajes en el pre-entrenamiento, como predecir qué dirían los personajes de una novela. Esto sugeriría que una manera útil de pensar sobre la constitución es más como una descripción de personaje que el modelo usa para instanciar un personaje consistente. También nos ayudaría a explicar los resultados de “Debo ser una mala persona” que mencioné arriba (porque el modelo está intentando actuar como si fuera un personaje coherente —en este caso uno malo), y sugeriría que los métodos de interpretabilidad deberían ser capaces de descubrir “rasgos psicológicos” dentro de los modelos. Nuestros investigadores están trabajando en maneras de probar esta hipótesis.
-
Para ser claro, el monitoreo se hace de manera que preserve la privacidad.
-
Incluso en nuestros propios experimentos con lo que son esencialmente reglas voluntariamente impuestas con nuestra Política de Escalamiento Responsable, hemos encontrado una y otra vez que es muy fácil terminar siendo demasiado rígido, trazando líneas que parecen importantes ex ante pero resultan ser tontas en retrospectiva. Es simplemente muy fácil establecer reglas sobre las cosas equivocadas cuando una tecnología está avanzando rápidamente.
-
SB 53 y RAISE no aplican en absoluto a empresas con menos de $500M en ingresos anuales. Solo aplican a empresas más grandes y más establecidas como Anthropic.
-
Originalmente leí el ensayo de Joy hace 25 años, cuando fue escrito, y tuvo un profundo impacto en mí. Entonces y ahora, lo veo como demasiado pesimista —no creo que la “renuncia” amplia de áreas enteras de tecnología, que Joy sugiere, sea la respuesta— pero los asuntos que plantea fueron sorprendentemente proféticos, y Joy también escribe con un profundo sentido de compasión y humanidad que admiro.
-
Tenemos que preocuparnos por actores estatales, ahora y en el futuro, y discuto eso en la próxima sección.
-
Hay evidencia de que muchos terroristas son al menos relativamente bien educados, lo cual podría parecer contradecir lo que estoy argumentando aquí sobre una correlación negativa entre capacidad y motivación. Pero creo que de hecho son observaciones compatibles: si el umbral de capacidad para un ataque exitoso es alto, entonces casi por definición aquellos que actualmente tienen éxito deben tener alta capacidad, incluso si capacidad y motivación están negativamente correlacionadas. Pero en un mundo donde las limitaciones sobre la capacidad fueron removidas (por ejemplo, con futuros LLMs), predigo que una población sustancial de personas con la motivación de matar pero menor capacidad comenzaría a hacerlo —tal como vemos para crímenes que no requieren mucha capacidad (como tiroteos escolares).
-
Aum Shinrikyo sí intentó, sin embargo. El líder de Aum Shinrikyo, Seiichi Endo, tenía entrenamiento en virología de la Universidad de Kyoto, e intentó producir tanto ántrax como ébola. Sin embargo, para 1995, incluso él carecía de suficiente experiencia y recursos para tener éxito. La barrera es ahora sustancialmente más baja, y los LLMs podrían reducirla aún más.
-
Un fenómeno bizarro relacionado con los asesinos en masa es que el estilo de asesinato que eligen opera casi como una grotesca especie de moda. En los 1970s y 1980s, los asesinos seriales eran muy comunes, y nuevos asesinos seriales frecuentemente copiaban el comportamiento de asesinos seriales más establecidos o famosos. En los 1990s y 2000s, los tiroteos masivos se volvieron más comunes, mientras los asesinos seriales se volvieron menos comunes. No hay cambio tecnológico que desencadenara estos patrones de comportamiento, simplemente parece que los asesinos violentos estaban copiando el comportamiento de otros y lo “popular” para copiar cambió.
-
Los hackeadores casuales a veces creen que han comprometido estos clasificadores cuando logran que el modelo produzca una pieza específica de información, como la secuencia del genoma de un virus. Pero como expliqué antes, el modelo de amenaza que nos preocupa involucra consejo paso a paso, interactivo que se extiende durante semanas o meses sobre pasos oscuros específicos en el proceso de producción de bioarmas, y esto es contra lo que nuestros clasificadores apuntan a defender. (Frecuentemente describimos nuestra investigación como buscando jailbreaks “universales” —aquellos que no solo funcionan en un contexto específico o estrecho, sino que ampliamente abren el comportamiento del modelo.)
-
Aunque continuaremos invirtiendo en trabajo para hacer nuestros clasificadores más eficientes, y puede tener sentido para las empresas compartir avances como estos entre sí.
-
Obviamente, no creo que las empresas deban tener que divulgar detalles técnicos sobre los pasos específicos en la producción de armas biológicas que están bloqueando, y la legislación de transparencia que ha sido aprobada hasta ahora (SB 53 y RAISE) tiene en cuenta este asunto.
-
Otra idea relacionada son los “mercados de resiliencia” donde el gobierno alienta el almacenamiento de EPP, respiradores y otros equipos esenciales necesarios para responder a un ataque biológico prometiendo por adelantado pagar un precio pre-acordado por este equipo en una emergencia. Esto incentiva a los proveedores a almacenar tal equipo sin temor de que el gobierno lo confisque sin compensación.
-
¿Por qué estoy más preocupado por actores grandes para tomar el poder, pero actores pequeños para causar destrucción? Porque las dinámicas son diferentes. Tomar el poder se trata de si un actor puede amasar suficiente fuerza para superar a todos los demás —por ende deberíamos preocuparnos por los actores más poderosos y/o aquellos más cercanos a la IA. La destrucción, en contraste, puede ser causada por aquellos con poco poder si es mucho más difícil defenderse que causar. Es entonces un juego de defenderse contra las amenazas más numerosas, que probablemente sean actores más pequeños.
-
Esto podría sonar como si estuviera en tensión con mi punto de que el ataque y la defensa pueden estar más balanceados con ciberataques que con bioarmas, pero mi preocupación aquí es que si la IA de un país es la más poderosa del mundo, entonces otros no podrán defenderse incluso si la tecnología misma tiene un balance intrínseco de ataque-defensa.
-
Por ejemplo, en Estados Unidos esto incluye la cuarta enmienda y el Acta Posse Comitatus.
-
También, para ser claro, hay algunos argumentos para construir grandes centros de datos en países con estructuras de gobernanza variables, particularmente si son controlados por empresas en democracias. Tales desarrollos podrían en principio ayudar a las democracias a competir mejor con el PCCh, que es la mayor amenaza. También creo que tales centros de datos no representan mucho riesgo a menos que sean muy grandes. Pero en balance, creo que se justifica cautela al colocar centros de datos muy grandes en países donde las salvaguardas institucionales y las protecciones del estado de derecho están menos bien establecidas.
-
Esto es, por supuesto, también un argumento para mejorar la seguridad de la disuasión nuclear para hacerla más probable de ser robusta contra IA poderosa, y las democracias con armas nucleares deberían hacer esto. Pero no sabemos de qué será capaz una IA poderosa o qué defensas, si alguna, funcionarán contra ella, así que no deberíamos asumir que estas medidas necesariamente resolverán el problema.
-
También hay el riesgo de que incluso si la disuasión nuclear permanece efectiva, un país atacante podría decidir jugarse el farol —no está claro si estaríamos dispuestos a usar armas nucleares para defendernos contra un enjambre de drones incluso si el enjambre de drones tiene un riesgo sustancial de conquistarnos. Los enjambres de drones podrían ser algo nuevo que es menos severo que los ataques nucleares pero más severo que los ataques convencionales. Alternativamente, evaluaciones diferentes de la efectividad de la disuasión nuclear en la era de la IA podrían alterar la teoría de juegos del conflicto nuclear de manera desestabilizadora.
-
Para ser claro, creería que es la estrategia correcta no vender chips a China, incluso si la línea de tiempo hacia la IA poderosa fuera sustancialmente más larga. No podemos hacer que los chinos se vuelvan “adictos” a los chips estadounidenses —están determinados a desarrollar su industria de chips nativa de una manera u otra. Les tomará muchos años hacerlo, y todo lo que estamos haciendo al venderles chips es darles un gran impulso durante ese tiempo.
-
Para ser claro, la mayor parte de lo que se está usando en Ucrania y Taiwán hoy no son armas totalmente autónomas. Estas están viniendo, pero no están aquí hoy.
-
Nuestra tarjeta de modelo para Claude Opus 4.5, nuestro modelo más reciente, muestra que Opus se desempeña mejor en una entrevista de ingeniería de rendimiento frecuentemente dada en Anthropic que cualquier entrevistado en la historia de la empresa.
-
“Escribir todo el código” y “hacer la tarea de un ingeniero de software de principio a fin” son cosas muy diferentes, porque los ingenieros de software hacen mucho más que solo escribir código, incluyendo pruebas, lidiar con entornos, archivos e instalación, gestionar despliegues de computación en la nube, iterar en productos, y mucho más.
-
Las computadoras son generales en cierto sentido, pero son claramente incapaces por sí mismas de la vasta mayoría de las habilidades cognitivas humanas, incluso mientras exceden enormemente a los humanos en unas pocas áreas (como aritmética). Por supuesto, cosas construidas sobre computadoras, como la IA, ahora son capaces de un amplio rango de habilidades cognitivas, que es de lo que trata este ensayo.
-
Para ser claro, los modelos de IA no tienen precisamente el mismo perfil de fortalezas y debilidades que los humanos. Pero también están avanzando bastante uniformemente a lo largo de cada dimensión, de tal manera que tener un perfil con picos o desigual puede no importar en última instancia.
-
Aunque hay debate entre economistas sobre esta idea.
-
La riqueza personal es un “stock”, mientras que el PIB es un “flujo”, así que esto no es una afirmación de que Rockefeller poseía el 2% del valor económico en Estados Unidos. Pero es más difícil medir la riqueza total de una nación que el PIB, y los ingresos individuales de las personas varían mucho por año, así que es difícil hacer una proporción en las mismas unidades. La proporción de la mayor fortuna personal al PIB, aunque no compara peras con peras, es sin embargo un punto de referencia perfectamente razonable para concentración extrema de riqueza.
-
El valor total del trabajo a través de la economía es $60T/año, así que $3T/año correspondería al 5% de esto. Esa cantidad podría ser ganada por una empresa que suministrara trabajo por el 20% del costo de los humanos y tuviera 25% de participación de mercado, incluso si la demanda de trabajo no se expandiera (lo cual casi ciertamente lo haría debido al menor costo).
-
Para ser claro, no creo que la productividad real de IA sea todavía responsable de una fracción sustancial del crecimiento económico estadounidense. Más bien, creo que el gasto en centros de datos representa crecimiento causado por inversión anticipatoria que equivale a que el mercado espera crecimiento económico futuro impulsado por IA e invierte en consecuencia.
-
Cuando estamos de acuerdo con la administración, lo decimos, y buscamos puntos de acuerdo donde las políticas mutuamente apoyadas son genuinamente buenas para el mundo. Apuntamos a ser intermediarios honestos más que partidarios u opositores de cualquier partido político dado.
-
No creo que nada más que unos pocos años sea posible: en escalas de tiempo más largas, construirán sus propios chips.
Traducción al castellano en el estilo literario de Jorge Luis Borges por Claude Opus 4.5 (Anthropic).
Autor: Dario Amodei - CEO de Anthropic