Modelo de hiena (aprendizaje profundo) - Foro de Wikipedia

Modelo de hiena (aprendizaje profundo) ⇐ Proyectos de artículos

Post Reply Previous topic Next topic

1 post • Page 1 of 1

Anonymous

Modelo de hiena (aprendizaje profundo)

Report
Quote

Post by Anonymous » 06 Mar 2025, 07:59

La hiena
== '' 'Motivación y contexto' '' ==
Transformador tradicional (arquitectura de aprendizaje profundo) | Los modelos de transformadores dependen de la autoatención (aprendizaje automático) | Atención para permitir que cada token en una secuencia interactúe con cualquier otro token. Aunque este mecanismo es altamente efectivo para capturar dependencias, su costo computacional escala cuadráticamente ( o (l^2) ) con la longitud de secuencia L. Esta escala cuadrática crea desafíos significativos al procesar secuencias largas, como documentos completos, series de tiempo a largo plazo o imágenes de alta resolución.
La necesidad de modelos más eficientes que puedan procesar dependencias de largo alcance ha llevado a los investigadores a explorar alternativas que reducen los requisitos computacionales y de memoria. El modelo de hiena se introdujo como un reemplazo de entrega de autoeficiencia, con el objetivo de mantener el campo receptivo global y el poder expresivo de atención mientras se escala subcuadráticamente con la longitud de la secuencia.

== '' 'arquitectura' '' ==
En el núcleo del modelo Hyena está el concepto de convolución larga implícita | Convoluciones. Las convoluciones tradicionales utilizan núcleos fijos que se definen y almacenan explícitamente, lo que resulta en un recuento de parámetros que escala linealmente con el tamaño del núcleo. Por el contrario, Hyena genera filtros convolucionales implícitamente utilizando una función parametrizada, implementada típicamente como una pequeña red neuronal de avance de Feedforward | Network Feed-Forward. Esto permite que el modelo sintetice filtros largos sobre la mosca, desacoplando efectivamente la longitud del filtro del número de parámetros.

Además de las convoluciones implícitas, el operador de hiena incorpora la activación multiplicativa controlada por datos. En este mecanismo, cada token está modulado por señales de activación que se derivan de las proyecciones lineales aprendidas de la entrada. La operación de activación se realiza en cuanto al elemento y sirve para ajustar dinámicamente la influencia de la salida convolucional, adaptando efectivamente al operador al contexto de entrada específico.

El operador de hiena general se define como una recurrencia que alterna entre las convoluciones largas implícitas y la activación de elementos. Para un operador de hiena Order-n, la recurrencia se expresa de la siguiente manera:

# z_1 [t] = v [t] , donde v es una de las proyecciones lineales de la entrada.
# Para n = 1, \ dots, n :
#* z_ {n+1} [t] = x_n [t] \ cdot \ bigl ((h_n \ Ast Z_n) [t] \ bigr) , donde x_n representa una proyección de activación y h_n es un filtro de convolución largo parametrizado implícito.
# La salida final viene dada por y [t] = z_ {n+1} [t] .

, donde

* Z_N [T] es el estado intermedio en el paso de recurrencia N y el puesto de tiempo T .

* V [t] es una proyección lineal de la entrada en la posición de tiempo t , análoga al "valor" en la autoatición.

* x_n [t] es la proyección de activación en el paso de recurrencia n .
* H_N es el filtro de convolución largo implícito para el paso n .
* El operador * denota convolución, entonces (h_n * z_n) [t] es el resultado de convolucionar filtro h_n con la señal z_n en el tiempo t
, donde \ circ es el operador de composición, lo que significa que la codificación posicional se aplica primero a t y luego se procesa por el ffn.

Aquí, la función de la ventana sirve para modular el filtro (por ejemplo, imponiendo una descomposición exponencial), y la red neuronal de Feedforward | Feed-Forward Network (FFN) junto con codificaciones posicionales generan los valores del filtro. Esta parametrización implícita es una opción de diseño clave que permite a Hyena capturar dependencias de largo alcance sin un aumento proporcional en el recuento de parámetros.

== '' 'Eficiencia y escalabilidad' '' ==
Al reemplazar el mecanismo de autoatención cuadrática con una secuencia de convoluciones rápidas de transformación de Fourier | FFT basadas en elementos, el operador de hiena logra una complejidad de tiempo general de O (NL \ log L) , donde n es el número de pasos de recurrencia. Esta escala subcuadrática es particularmente ventajosa para secuencias largas, lo que permite que el modelo procese entradas que son órdenes de magnitud más largas que las factibles con la atención convencional.

Las operaciones en el modelo de hiena, tanto las convoluciones implícitas como las funciones de activación, son altamente paralelizables y susceptibles de optimización en los aceleradores de hardware modernos. Las técnicas como la transformación rápida de Fourier | Las transformaciones rápidas de Fourier (FFT) mejoran aún más la eficiencia, lo que hace que el modelo sea adecuado para aplicaciones a gran escala donde la eficiencia de la velocidad y la memoria son críticos.

== '' 'Comparación con modelos de transformador' '' ==
Mientras que el transformador (arquitectura de aprendizaje profundo) | Los modelos de transformadores usan la autoatición para lograr un campo receptivo global, esto tiene el costo de la complejidad cuadrática con respecto a la longitud de la secuencia. En contraste, el modelo de hiena logra un contexto global similar a través de su recurrencia de largas convoluciones y actividades, pero con un costo computacional mucho más bajo. Esto hace que Hyena sea una alternativa prometedora en entornos donde las dependencias de largo alcance deben modelarse de manera eficiente.

More details: https://en.wikipedia.org/wiki/Hyena_Mod ... _learning)

1741244391

Anonymous

[h4]  La hiena 
== '' 'Motivación y contexto' '' ==
Transformador tradicional (arquitectura de aprendizaje profundo) | Los modelos de transformadores dependen de la autoatención (aprendizaje automático) | Atención para permitir que cada token en una secuencia interactúe con cualquier otro token. Aunque este mecanismo es altamente efectivo para capturar dependencias, su costo computacional escala cuadráticamente ( o (l^2) ) con la longitud de secuencia L. Esta escala cuadrática crea desafíos significativos al procesar secuencias largas, como documentos completos, series de tiempo a largo plazo o imágenes de alta resolución. 
La necesidad de modelos más eficientes que puedan procesar dependencias de largo alcance ha llevado a los investigadores a explorar alternativas que reducen los requisitos computacionales y de memoria. El modelo de hiena se introdujo como un reemplazo de entrega de autoeficiencia, con el objetivo de mantener el campo receptivo global y el poder expresivo de atención mientras se escala subcuadráticamente con la longitud de la secuencia.

== '' 'arquitectura' '' ==
En el núcleo del modelo Hyena está el concepto de convolución larga implícita | Convoluciones. Las convoluciones tradicionales utilizan núcleos fijos que se definen y almacenan explícitamente, lo que resulta en un recuento de parámetros que escala linealmente con el tamaño del núcleo. Por el contrario, Hyena genera filtros convolucionales implícitamente utilizando una función parametrizada, implementada típicamente como una pequeña red neuronal de avance de Feedforward | Network Feed-Forward. Esto permite que el modelo sintetice filtros largos sobre la mosca, desacoplando efectivamente la longitud del filtro del [url=viewtopic.php?t=2817]número[/url] de parámetros.

Además de las convoluciones implícitas, el operador de hiena incorpora la activación multiplicativa controlada por datos. En este mecanismo, cada token está modulado por señales de activación que se derivan de las proyecciones lineales aprendidas de la entrada. La operación de activación se realiza en cuanto al elemento y sirve para ajustar dinámicamente la influencia de la salida convolucional, adaptando efectivamente al operador al contexto de entrada específico.

El operador de hiena general se define como una recurrencia que alterna entre las convoluciones largas implícitas y la activación de elementos. Para un operador de hiena Order-n, la recurrencia se expresa de la siguiente manera:

#  z_1 [t] = v [t] , donde  v  es una de las proyecciones lineales de la entrada.
# Para  n = 1, \ dots, n :
#*  z_ {n+1} [t] = x_n [t] \ cdot \ bigl ((h_n \ Ast Z_n) [t] \ bigr) , donde  x_n  representa una proyección de activación y  h_n  es un filtro de convolución largo parametrizado implícito.
# La salida final viene dada por  y [t] = z_ {n+1} [t] .

, donde

*  Z_N [T]  es el estado intermedio en el paso de recurrencia  N  y el puesto de tiempo  T .

*  V [t]  es una proyección lineal de la entrada en la posición de tiempo  t , análoga al "valor" en la autoatición.

*  x_n [t]  es la proyección de activación en el paso de recurrencia  n .
*  H_N  es el filtro de convolución largo implícito para el paso  n .
* El operador  *  denota convolución, entonces  (h_n * z_n) [t]  es el resultado de convolucionar filtro  h_n  con la señal  z_n  en el tiempo  t 
, donde  \ circ  es el operador de composición, lo que significa que la codificación posicional se aplica primero a  t  y luego se procesa por el ffn.

Aquí, la función de la ventana sirve para modular el filtro (por ejemplo, imponiendo una descomposición exponencial), y la red neuronal de Feedforward | Feed-Forward Network (FFN) junto con codificaciones posicionales generan los valores del filtro. Esta parametrización implícita es una opción de diseño clave que permite a Hyena capturar dependencias de largo alcance sin un aumento proporcional en el recuento de parámetros.

== '' 'Eficiencia y escalabilidad' '' ==
Al reemplazar el mecanismo de autoatención cuadrática  con una secuencia de convoluciones rápidas de transformación de Fourier | FFT basadas en elementos, el operador de hiena logra una complejidad de tiempo general de  O (NL \ log L) , donde  n  es el [url=viewtopic.php?t=2817]número[/url] de pasos de recurrencia. Esta escala subcuadrática es particularmente ventajosa para secuencias largas, lo que permite que el modelo procese entradas que son órdenes de magnitud más largas que las factibles con la atención convencional.

Las operaciones en el modelo de hiena, tanto las convoluciones implícitas como las funciones de activación, son altamente paralelizables y susceptibles de optimización en los aceleradores de hardware modernos. Las técnicas como la transformación rápida de Fourier | Las transformaciones rápidas de Fourier (FFT) mejoran aún más la eficiencia, lo que hace que el modelo sea adecuado para aplicaciones a gran escala donde la eficiencia de la velocidad y la memoria son críticos.

== '' 'Comparación con modelos de transformador' '' ==
Mientras que el transformador (arquitectura de aprendizaje profundo) | Los modelos de transformadores usan la autoatición para lograr un campo receptivo global, esto tiene el costo de la complejidad cuadrática con respecto a la longitud de la secuencia. En contraste, el modelo de hiena logra un contexto global similar a través de su recurrencia de largas convoluciones y actividades, pero con un costo computacional mucho más bajo. Esto hace que Hyena sea una alternativa prometedora en entornos donde las dependencias de largo alcance deben modelarse de manera eficiente.
[/h4]

More details: [url]https://en.wikipedia.org/wiki/Hyena_Model_(deep_learning)[/url]

Post Reply Previous topic Next topic

1 post • Page 1 of 1

Quick Reply

Subject:

Username:

Change Text Case:

Smilies

View more smilies

Similar Topics

Replies

Views

Last post

Chronos (modelo previo al entrenamiento)

Last post by Anonymous « 22 Mar 2024, 11:25
Posted in Proyectos de artículos

by Anonymous » 22 Mar 2024, 11:25 » in Proyectos de artículos

'''Chronos''' es un marco para modelos probabilísticos de series temporales previamente entrenados desarrollado en 2024 por investigadores de Amazon Web Services.
==Desarrollo==
Chronos fue entrenado...

0 Replies

25 Views

Last post by Anonymous
22 Mar 2024, 11:25
Modelo de realidad virtual Segeberg 1644

Last post by Anonymous « 05 Apr 2024, 21:00
Posted in Proyectos de artículos

by Anonymous » 05 Apr 2024, 21:00 » in Proyectos de artículos

El '''Modelo de ciudad virtual Segeberg 1644''' es la reconstrucción del paisaje urbano moderno temprano de Segeberg (Bad Segeberg) con el histórico Kalkberg (Segeberger Kalkberg) (en sus dimensiones...

0 Replies

27 Views

Last post by Anonymous
05 Apr 2024, 21:00
Asedio profundo

Last post by Anonymous « 02 Apr 2024, 05:41
Posted in Proyectos de artículos

by Anonymous » 02 Apr 2024, 05:41 » in Proyectos de artículos

''Tiefe Seige''' es el nombre de un cuerpo de agua:

* Deep Seige (Geigenbach), afluente derecho del Geigenbach (Großer Regen)|Geigenbach (hacia Großer Regen) cerca de Seebachschleife, municipio de...

0 Replies

25 Views

Last post by Anonymous
02 Apr 2024, 05:41
Profundo en el blues

Last post by Anonymous « 27 Apr 2024, 16:33
Posted in Proyectos de artículos

by Anonymous » 27 Apr 2024, 16:33 » in Proyectos de artículos

''''''Deep in the Blues'''' es un álbum del músico estadounidense James Cotton, lanzado en 1996.
==Producción==
El álbum fue producido por John Snyder. Cotton contó con el respaldo de Joe Louis...

0 Replies

25 Views

Last post by Anonymous
27 Apr 2024, 16:33
El Sur Profundo, Te Kōmata o Te Tonga

Last post by Anonymous « 19 May 2024, 23:55
Posted in Proyectos de artículos

by Anonymous » 19 May 2024, 23:55 » in Proyectos de artículos

'''The Deep South, Te Kōmata o Te Tonga''' es uno de los once programas de investigación colaborativa de Nueva Zelanda conocidos como National Science Challenges. Desde 2014 hasta 2024, el objetivo...

0 Replies

19 Views

Last post by Anonymous
19 May 2024, 23:55

Return to “Proyectos de artículos”

Community of dishwasher owners: selection, operation, repair