Los investigadores de NVIDIA revelan el método de entrenamiento más inteligente para el juego AIS de juego

Comparte en redes sociales

TLDR:

Los investigadores de NVIDIA e académicos desarrollaron un nuevo método de aprendizaje de refuerzo que acelera la forma en que los agentes de IA aprenden al reconocer las similitudes entre las macroacciones.
La técnica MASP superó a los puntos de referencia estándar como Rainbow-DQN en juegos como Breakout y Street Fighter II.
Este nuevo enfoque podría mejorar la eficiencia de entrenamiento en robótica, vehículos autónomos y sistemas de IA de juegos adaptativos.
Si bien es potente, MASP introduce un cálculo adicional y depende de conjuntos de acción cuidadosamente seleccionados para alcanzar la máxima efectividad.

Un equipo de investigadores de NVIDIA, la Universidad de Bucarest y el Instituto de AI de Mila Quebec han introducido un nuevo método de aprendizaje de refuerzo que permite a los agentes de IA aprender de manera más efectiva en entornos complejos, como videojuegos y robótica.

El descubrimiento Se centra en una nueva estrategia de entrenamiento conocida como la penalización de similitud de macro-acción (MASP), que mejora cómo los sistemas de IA exploran y comprenden sus espacios de toma de decisiones.

MASP ofrece una nueva eficiencia de aprendizaje

Tradicionalmente, los agentes de aprendizaje de refuerzo han utilizado macroacciones, secuencias de acciones agrupadas, para ayudar a navegar en entornos grandes o complejos. Sin embargo, los modelos existentes trataron estas macroacciones como entidades aisladas, lo que limitó su potencial de aprendizaje.

El método MASP cambia que al permitir a los agentes reconocer las similitudes entre las diferentes macroacciones. Esto les permite asignar valor o «crédito» de manera más efectiva en estrategias similares, lo que conduce a un aprendizaje más rápido y más sólido.

Leer también El libro mayor de XRP gana impulso a medida que EVM Sidechain registra 1,400 contratos

Al implementar una matriz de similitud meta aprendida, los investigadores dieron a los agentes de IA una forma más estructurada de evaluar sus acciones. En lugar de aprender desde cero cada vez que prueban una nueva macro-acción, los agentes ahora se benefician de las ideas compartidas entre los movimientos relacionados. Esta estructura no solo acelera el entrenamiento, sino que también da como resultado recompensas acumulativas más altas, especialmente en entornos de referencia como Atari Games y Street Fighter II.

Explotando a los estándares de la industria en pruebas clave

El enfoque MASP ha superado la conocida línea de base Rainbow-DQN en una serie de entornos simulados. En juegos como Breakout y Frostbite, los agentes equipados con MASP aprendieron más rápido y se desempeñaron mejor que los que dependían de los métodos tradicionales. Esto indica el potencial del sistema para un uso más amplio más allá de los juegos, incluidas las aplicaciones en robótica y sistemas autónomos.

Los investigadores señalan que una mejor exploración no proviene simplemente de agregar más acciones al arsenal de un agente. Más bien, la calidad del aprendizaje depende de qué tan bien se entiendan las relaciones entre esas acciones. La capacidad de MASP para agrupar y comparar comportamientos similares es clave para su éxito. Este principio podría resultar especialmente útil en áreas como la robótica, donde el entrenamiento de agentes físicos puede llevar mucho tiempo y costoso.

Potencial a través de la robótica y los juegos

Más allá de los videojuegos, las implicaciones de MASP son de gran alcance. En robótica, por ejemplo, podría reducir el tiempo de entrenamiento ayudando a las máquinas a generalizar a partir de tareas similares. Los vehículos autónomos también podrían beneficiarse al aprender variaciones de maniobras de conducción seguras de manera más eficiente. En el desarrollo del juego, la técnica podría conducir a oponentes de IA más adaptativos e inteligentes que aprenden dinámicamente en lugar de depender del comportamiento con guión.

Leer también Reanuda el rally con más del 22% de aumento de los comerciantes de todos los tiempos

Mientras que MASP introduce algunas sobrecargas computacionales debido a la matriz de similitud, la compensación parece que vale la pena dado el impulso en el rendimiento del aprendizaje. Sin embargo, su éxito también depende de tener un conjunto bien definido de macroacciones. Si estos son mal elegidos, los beneficios del método pueden disminuir. La escalabilidad en espacios de acción más grandes sigue siendo un desafío que el equipo reconoce.

Dicho esto, este trabajo se suma a la creciente cartera de Nvidia de innovaciones de aprendizaje de refuerzo. La semana pasada, la compañía introducido Socratic-MCTS, un método de mejora de razonamiento para modelos de lenguaje visual que aumenta el rendimiento de la inferencia sin capacitar. Juntos, estos avances indican una tendencia hacia sistemas IA más inteligentes y más eficientes que pueden adaptarse a la marcha utilizando arquitecturas y estrategias de capacitación más inteligentes.

Source link

Los investigadores de NVIDIA revelan el método de entrenamiento más inteligente para el juego AIS de juego

TLDR:

MASP ofrece una nueva eficiencia de aprendizaje

Explotando a los estándares de la industria en pruebas clave

Potencial a través de la robótica y los juegos

Artículos relacionados:

E invierte en este proyecto

Predicción de precios de XRP 2025: ¿Por qué los analistas dicen que $ 5 XRP es solo el comienzo, ade...

Soar 12% como bitcoin holdings cerca de 8,000 hitos BTC

Un pronóstico de cifrado comparativo para 2025 - Por qué CWT es la compra más inteligente hoy

"Instagram" de China elige Conflux Network para la integración sin permiso de blockchain

Half Pizza (PIZA) Token ¿Qué es, cómo comprar y precio?

Bitcoin (BTC) regresa a su pico, y la paladinización ayuda a los titulares de criptomonedas a obtene...

Brasil convocará a las bolsas de criptomonedas extranjeras para obtener información

¿Es la red LTO una buena inversión?

El ecosistema de Solcraft se prepara para lanzar el token de utilidad $SOFT en Solana Blockchain

IOTA Identity 1.2.0 desatada: racionalización de la confianza digital

ApeSwap Guía para principiantes. ¿Qué es y cómo usar?

Dejar un comentario Cancelar la respuesta