Modelo de hiena (aprendizaje profundo)Proyectos de artículos

Artículos preliminares
Anonymous
 Modelo de hiena (aprendizaje profundo)

Post by Anonymous »

La hiena
== '' 'Motivación y contexto' '' ==
Transformador tradicional (arquitectura de aprendizaje profundo) | Los modelos de transformadores dependen de la autoatención (aprendizaje automático) | Atención para permitir que cada token en una secuencia interactúe con cualquier otro token. Aunque este mecanismo es altamente efectivo para capturar dependencias, su costo computacional escala cuadráticamente ( o (l^2) ) con la longitud de secuencia L. Esta escala cuadrática crea desafíos significativos al procesar secuencias largas, como documentos completos, series de tiempo a largo plazo o imágenes de alta resolución.
La necesidad de modelos más eficientes que puedan procesar dependencias de largo alcance ha llevado a los investigadores a explorar alternativas que reducen los requisitos computacionales y de memoria. El modelo de hiena se introdujo como un reemplazo de entrega de autoeficiencia, con el objetivo de mantener el campo receptivo global y el poder expresivo de atención mientras se escala subcuadráticamente con la longitud de la secuencia.

== '' 'arquitectura' '' ==
En el núcleo del modelo Hyena está el concepto de convolución larga implícita | Convoluciones. Las convoluciones tradicionales utilizan núcleos fijos que se definen y almacenan explícitamente, lo que resulta en un recuento de parámetros que escala linealmente con el tamaño del núcleo. Por el contrario, Hyena genera filtros convolucionales implícitamente utilizando una función parametrizada, implementada típicamente como una pequeña red neuronal de avance de Feedforward | Network Feed-Forward. Esto permite que el modelo sintetice filtros largos sobre la mosca, desacoplando efectivamente la longitud del filtro del número de parámetros.

Además de las convoluciones implícitas, el operador de hiena incorpora la activación multiplicativa controlada por datos. En este mecanismo, cada token está modulado por señales de activación que se derivan de las proyecciones lineales aprendidas de la entrada. La operación de activación se realiza en cuanto al elemento y sirve para ajustar dinámicamente la influencia de la salida convolucional, adaptando efectivamente al operador al contexto de entrada específico.

El operador de hiena general se define como una recurrencia que alterna entre las convoluciones largas implícitas y la activación de elementos. Para un operador de hiena Order-n, la recurrencia se expresa de la siguiente manera:

# z_1 [t] = v [t] , donde v es una de las proyecciones lineales de la entrada.
# Para n = 1, \ dots, n :
#* z_ {n+1} [t] = x_n [t] \ cdot \ bigl ((h_n \ Ast Z_n) [t] \ bigr) , donde x_n representa una proyección de activación y h_n es un filtro de convolución largo parametrizado implícito.
# La salida final viene dada por y [t] = z_ {n+1} [t] .

, donde

* Z_N [T] es el estado intermedio en el paso de recurrencia N y el puesto de tiempo T .

* V [t] es una proyección lineal de la entrada en la posición de tiempo t , análoga al "valor" en la autoatición.

* x_n [t] es la proyección de activación en el paso de recurrencia n .
* H_N es el filtro de convolución largo implícito para el paso n .
* El operador * denota convolución, entonces (h_n * z_n) [t] es el resultado de convolucionar filtro h_n con la señal z_n en el tiempo t
, donde \ circ es el operador de composición, lo que significa que la codificación posicional se aplica primero a t y luego se procesa por el ffn.

Aquí, la función de la ventana sirve para modular el filtro (por ejemplo, imponiendo una descomposición exponencial), y la red neuronal de Feedforward | Feed-Forward Network (FFN) junto con codificaciones posicionales generan los valores del filtro. Esta parametrización implícita es una opción de diseño clave que permite a Hyena capturar dependencias de largo alcance sin un aumento proporcional en el recuento de parámetros.

== '' 'Eficiencia y escalabilidad' '' ==
Al reemplazar el mecanismo de autoatención cuadrática con una secuencia de convoluciones rápidas de transformación de Fourier | FFT basadas en elementos, el operador de hiena logra una complejidad de tiempo general de O (NL \ log L) , donde n es el número de pasos de recurrencia. Esta escala subcuadrática es particularmente ventajosa para secuencias largas, lo que permite que el modelo procese entradas que son órdenes de magnitud más largas que las factibles con la atención convencional.

Las operaciones en el modelo de hiena, tanto las convoluciones implícitas como las funciones de activación, son altamente paralelizables y susceptibles de optimización en los aceleradores de hardware modernos. Las técnicas como la transformación rápida de Fourier | Las transformaciones rápidas de Fourier (FFT) mejoran aún más la eficiencia, lo que hace que el modelo sea adecuado para aplicaciones a gran escala donde la eficiencia de la velocidad y la memoria son críticos.

== '' 'Comparación con modelos de transformador' '' ==
Mientras que el transformador (arquitectura de aprendizaje profundo) | Los modelos de transformadores usan la autoatición para lograr un campo receptivo global, esto tiene el costo de la complejidad cuadrática con respecto a la longitud de la secuencia. En contraste, el modelo de hiena logra un contexto global similar a través de su recurrencia de largas convoluciones y actividades, pero con un costo computacional mucho más bajo. Esto hace que Hyena sea una alternativa prometedora en entornos donde las dependencias de largo alcance deben modelarse de manera eficiente.

More details: https://en.wikipedia.org/wiki/Hyena_Mod ... _learning)

Quick Reply

Change Text Case: 
   
  • Similar Topics
    Replies
    Views
    Last post