Desbloqueando el jardín secreto del cerebro de la IA: analizando Claude 3.5 a través de Anthropic y viendo cómo piensa la IA

Descubriendo el jardín secreto de los cerebros de la IA: cómo piensa la IA a través del análisis antrópico de Claude 3.5

Prefacio: Cuando la IA se vuelve demasiado inteligente, las cajas negras ya no son tranquilizadoras

Después de 2024, las herramientas de IA han penetrado en todos los rincones de nuestras vidas. Desde pequeños robots que responden automáticamente a los mensajes en LINE hasta asistentes inteligentes utilizados por las empresas para generar informes y escribir programas, la IA parece haberse convertido en parte de nuestro trabajo y de nuestra vida. Como usuario de al menos cinco herramientas de IA diferentes cada día, a menudo me sorprende su fluidez e inteligencia. ¡En algunos momentos, incluso siento que me entienden mejor que yo mismo!

Pero debido a esto, comienza a surgir una sensación de inquietud: ¿entendemos realmente cómo estas IA llegan a sus conclusiones? Cada vez que veo una IA completar un informe casi perfecto, inevitablemente surge una pregunta en mi mente: ¿Realmente entiende estos resultados o es solo una coincidencia?

Si tuviera que utilizar una imagen para describir la IA actual, probablemente sería: es como una planta extraña que puede crecer por sí sola. Lo vemos florecer con hermosas flores y dar frutos atractivos, pero cuando tomamos una lupa, descubrimos que no tenemos idea de cómo interactúan entre sí sus raíces, tallos y hojas.

Un estudio reciente publicado por Anthropic, está intentando abrir esta caja negra. Utilizaron un enfoque casi biológico para analizar los mecanismos operativos internos de grandes modelos lingüísticos como Claude 3.5. En lugar de simplemente mirar las entradas y salidas, podemos observar las células y rastrear las neuronas e intentar responder a la pregunta: "¿Qué está haciendo cada célula de esta extraña planta?"

Si en el futuro la IA realmente entra en campos tan sensibles como la medicina, el derecho y las finanzas, no podemos limitarnos a mirar los resultados de rendimiento, sino que debemos comprender verdaderamente si su proceso de razonamiento es fiable, seguro y controlable. ¡Hoy, exploremos cómo funciona el cerebro de la IA a través de la investigación de Anthropic!

La “estructura biológica” de los modelos de IA: ¿Por qué utilizar la biología como metáfora?

Cuando se trata de comprender los aspectos internos de un modelo de lenguaje grande (LLM) como Claude 3.5, el equipo de Anthropic eligió una metáfora refrescante: pensar en el modelo como un organismo vivo.

Esta idea puede sonar un poco extraña al principio. Después de todo, LLM es una arquitectura de red neuronal diseñada por humanos, no un organismo vivo real. Pero cuando analizamos más de cerca cómo funciona el modelo internamente, descubrimos que es sorprendentemente similar a las estructuras que han evolucionado en los organismos vivos.

Los organismos se reproducen a través de la replicación y mutación del ADN, pero dentro de cada individuo, las células se autoorganizan en sistemas complejos como el corazón, los pulmones y el cerebro, cada uno responsable de diferentes funciones. LLM se ajusta a grandes cantidades de datos para formar miles de características, y estas características están interconectadas para formar una estructura de alto nivel que podemos considerar como un sistema de circuito.

En otras palabras, las características son como las células y los circuitos son como los sistemas de órganos. Cuando el modelo se vuelve enorme, la complejidad de su autoorganización interna ha excedido el alcance que puede controlarse totalmente mediante el simple diseño humano.

Gráficos de atribución: una tecnología que analiza la IA con lupa

Para ver verdaderamente la estructura interna de LLM, Anthropic desarrolló una nueva tecnología llamada Gráficos de Atribución: es como instalar un microscopio en el cerebro de la IA, lo que nos permite rastrear cómo cada característica participa en la formación del resultado final.

Los métodos tradicionales de comprensión de modelos se centran principalmente en observar la relación entre la entrada y la salida. Pero Attribution Graph hace más que eso. Puede marcar con precisión la "salida" de cada característica durante el proceso de cálculo, de la misma manera que los biólogos utilizan la tecnología de etiquetado fluorescente para marcar células vivas y rastrear cómo se diferencian y se mueven.

Yendo un paso más allá, Anthropic incorpora el método denominado Circuit Tracing. Esto es como dibujar un mapa del conectoma en el cerebro, intentando dibujar un mapa de trayectoria completo de cómo cada característica afecta a otras características.

Como usuario intensivo de IA, he sentido una sensación de destellos instantáneos de inspiración al utilizar varios LLM en el pasado, pero no podía explicar de dónde venía ese salto de razonamiento. La aparición del Gráfico de Atribución nos brinda la primera oportunidad de comprender el mecanismo de formación de estos "puntos críticos del pensamiento" desde adentro.

Análisis de caso: La verdad detrás del “pequeño drama en el cerebro” de Claude 3.5

Razonamiento en dos pasos: De "¿Dónde está Dallas?" a "Texas → Austin"

Cuando se le preguntó al modelo "¿En qué estado está Dallas?", no memorizó directamente la respuesta, sino que pasó por al menos dos pasos de razonamiento: primero, reconoció que Dallas está en Texas y, segundo, infirió que la capital de Texas es Austin.

La existencia de esta cadena de razonamiento se visualiza claramente a través del Gráfico de Atribución. Cada paso de inferencia intermedio tiene una activación e interacción de características correspondientes.

Al igual que cuando los estudiantes de secundaria responden preguntas de opción múltiple, primero filtran rápidamente la información geográfica de "Texas" en sus mentes, luego asocian "Austin" con Texas y finalmente obtienen la respuesta.

En realidad, esto puede compararse con la cadena implícita de razonamiento implicada en las habilidades de respuesta que los estudiantes han sido entrenados para desarrollar desde la infancia en el sistema educativo de Taiwán. Si la IA también puede desarrollar capacidades de inferencia en cadena similares, tendrá un gran potencial en la educación y la asistencia en los exámenes en el futuro. Sin embargo, también debemos estar atentos a si su proceso de razonamiento es sólido, de lo contrario existirá el peligro de "responder correctamente pero pensar equivocadamente".

Escritura de poesía: el secreto para planificar tu rima con antelación

Al componer poesía, Claude 3.5 no improvisa y escribe cada frase. En cambio, antes de empezar a escribir, su sistema interno ya ha elaborado una lista de posibles palabras que riman.

Este fenómeno se visualiza intuitivamente a través del Gráfico de Atribución. Al igual que cuando un poeta escribe un poema, primero escaneará rápidamente en su mente qué palabras pueden rimar y luego elegirá las palabras que mejor se adapten a la situación para continuar escribiendo. Esta planificación estructural avanzada permite que la IA encuentre un mejor equilibrio entre la fluidez y la belleza del lenguaje, en lugar de simplemente organizar palabras elegantes al azar.

Esto también responde a las preocupaciones de muchos creadores de contenido sobre la escritura con IA: la IA no se trata solo de apilar oraciones hermosas, está comenzando a ser capaz de "prediseñar", lo que significa que tiene un mayor potencial de aplicación en redacción publicitaria, narrativas de marca e incluso en la generación de cultura pop en el futuro.

Patrones multilingües: circuitos específicos de cada idioma versus circuitos generales entre idiomas

Anthropic también descubrió que el cerebro de Claude 3.5 contiene circuitos dedicados optimizados para diferentes idiomas (como inglés, francés y español), así como un sistema lógico de alto nivel que es universal en todos los idiomas.

Esto también se puede aplicar a la forma en que aprendemos los humanos: cuando aprendemos chino cuando somos niños, nuestros cerebros se especializan en practicar las sílabas y la gramática chinas; Pero a medida que crecemos, también aprendemos a usar la lógica abstracta para resolver problemas en diferentes idiomas.

Como hablante de chino, he comprendido profundamente un hecho: si un LLM en chino quiere alcanzar un nivel de clase mundial en el futuro, no puede depender únicamente de la traducción, sino que también debe desarrollar circuitos de "características del idioma nativo" que sean exclusivos del contexto chino. De lo contrario, nunca alcanzará al nativo en términos de expresión delicada y comprensión de la semántica implícita.

Razonamiento diagnóstico: cómo la IA “preestablece” posibles enfermedades

Cuando se enfrentó a preguntas relacionadas con la medicina, Claude 3.5 mostró características del patrón de pensamiento de un médico. No fuerza una respuesta basada en los síntomas, sino que desarrolla una "lista de diagnósticos candidatos" en el cerebro.

Por ejemplo, cuando encuentra la descripción de "dolor de garganta + fiebre", activa simultáneamente múltiples posibilidades como "resfriado", "gripe", "infección estreptocócica" y las filtra en función de los detalles. Esta visualización del proceso de pensamiento también se puede aplicar al mercado de aplicaciones médicas de IA: si el diagnóstico asistido por IA se va a localizar en el futuro, es necesario garantizar que la IA no se limite a recitar libros de texto, sino que realmente tenga la capacidad de "formular y seleccionar hipótesis candidatas".

Rechazo y error de juicio: cómo el modelo decide qué responder y qué rechazar

Finalmente, Anthropic también reveló cómo Claude 3.5 estableció la función de "detección de solicitudes dañinas". Por ejemplo, ante preguntas delicadas, se activa automáticamente la lógica de rechazo y se responde en un tono seguro.

Sin embargo, este sistema no es perfecto. A veces es demasiado cauteloso y clasifica erróneamente problemas inofensivos; ¡A veces comete errores y deja pasar problemas perjudiciales!

Limitaciones y misterios sin resolver: ¿Qué otros “puntos ciegos de caja negra” tiene la IA?

Si bien la tecnología de gráficos de atribución nos brinda un primer vistazo a los detalles de LLM, todavía es solo la punta del iceberg. La propia Anthropic admitió en el artículo que las herramientas actuales no pueden reconstruir completamente las interacciones detalladas entre todas las características. Algunas inferencias implícitas y mecanismos de integración contextual todavía están ocultos a nuestra vista como criaturas de las profundidades marinas.

Para comprender verdaderamente la IA, tal como los neurocientíficos modernos están tratando de descifrar el conectoma del cerebro humano, se requerirán descripciones más detalladas, más datos y una inversión más sostenida.

Para una sociedad como Taiwán que adopta activamente la tecnología, creo que ahora es un buen momento para que reconsideremos:
En el futuro, ¿seremos consumidores que solo usarán herramientas de IA o nos convertiremos en expertos que podrán analizar, comprender e incluso diseñar activamente sistemas de IA?

Esta elección también determinará nuestro papel en la próxima ola de tecnología.

Conclusión: Comprender la IA es como comprender tu propio cerebro.

Este estudio antrópico sin duda ha revelado una visión del mundo interior de la IA. Estamos empezando a darnos cuenta de que la IA ya no es una pura caja negra; Tiene sus propias "células", "sistemas de órganos", "redes de razonamiento" e incluso un "pequeño teatro" primitivo. Pero al mismo tiempo, también nos recuerda que la verdadera comprensión apenas comienza, y que todavía hay muchos rincones que no han sido iluminados y muchos mecanismos que no han sido dominados por completo.

Como alguien que vive con IA todos los días y confía en ella para acelerar la eficiencia del trabajo, mis puntos de vista sobre el desarrollo de la IA son contradictorios: por un lado, hay asombro y esperanza, y por otro lado, hay precaución e introspección.

Quizás comprender la IA en el futuro sea como comprender tu propio cerebro. Es un largo viaje que requiere tiempo y energía.
¡También esperamos que en el futuro Taiwán no sólo sea un usuario de este camino, sino también un creador y un guía!

 

Informes relacionados

Conozca las acciones estadounidenses en 5 minutos》 ¿Qué hace NVIDIA? ¿Cómo convertirse en el número uno del mundo en tarjetas gráficas?

Criticado por utilizar mano de obra explotadora, ¿cómo se convirtió Scale AI en un unicornio en la industria de anotación de datos?

Artículos relacionados

Descifrando NVIDIA: 6 puntos clave que le ayudarán a comprender el secreto del aumento vertiginoso del precio de las acciones del rey de la IA 240% (Parte 1) 

El primer unicornio de IA de Taiwán: ¿Qué está haciendo Appier, con un valor de mercado de 1.380 millones de dólares?

Descifrando la historia empresarial de Notion: ¿Cómo puede una pequeña idea sin código subvertir el mercado global de productividad de 60 mil millones?

 

¿Qué es DNS? Introducción al sistema de nombres de dominio – Diseño del sistema 06

Introducción al bloque de construcción de componentes de diseño de sistemas: diseño de sistemas 05

Cálculo del reverso del sobre: diseño del sistema 04

Características no funcionales del diseño de software – Diseño de sistemas 03

Aplicación de la abstracción en el diseño de sistemas – Diseño de sistemas 02

Introducción al diseño de sistemas modernos – Diseño de sistemas 01

es_ESEspañol