aws athena

AWS Athena: todo lo que necesita saber

Publicado por
Comparte en redes sociales


AWS Athena es un servicio de consulta flexible y rentable para datos almacenados en AWS S3.

AWS es uno de los proveedores de nube más grandes del mundo. Ofrece una gran cantidad de servicios para el almacenamiento en la nube y las necesidades informáticas. AWSS3 es uno de los servicios más populares en la plataforma de AWS. Ofrece una durabilidad y disponibilidad de datos inigualables, además de ser una de las opciones de almacenamiento más económicas en la nube.

Dada su multitud de funciones y almacenamiento teóricamente infinito, es posible que tenga terabytes o petabytes de datos en depósitos S3. Analizar estos datos es casi imposible si tuviéramos que abrir cada archivo y leer manualmente petabytes de datos. Aquí es donde entra en juego el servicio AWS Athena.

En lenguaje sencillo, Atenea de AWS se utiliza como un servicio de análisis de datos simplemente accediendo a los datos disponibles en el depósito S3 mediante consultas SQL. Entonces, si comprende los conceptos básicos de SQL, puede comenzar a trabajar en el análisis de datos S3 con AWS Athena.

Entendamos esto con un pequeño ejemplo. Supongamos que ha configurado uno de sus depósitos como un depósito de registro de acceso para todos los balanceadores que tiene en varias cuentas de su organización. ¿Cómo consultaría años de datos de registro y obtendría información importante y significativa de esos archivos de registro? La respuesta es AWS Athena.

Características de AWS Athena

  • Herramienta basada en SQL: AWS Athena es un servicio basado en SQL muy fácil de usar. Simplemente apunta a Athena a uno de sus cubos, define su esquema de datos y luego comienza a usar consultas SQL en su cubo.
  • Sin servidor: No necesita mantener ninguna infraestructura para ejecutar AWS Athena. Athena no tiene servidor y está optimizado para usar automáticamente múltiples recursos informáticos según sea necesario.
  • Rápido y optimizado: Athena se optimizó para usar una cantidad eficiente de recursos para entregar los resultados de su consulta lo antes posible. Funciona muy bien con escaneos pequeños y complejos de datos S3.
  • Rentable: Athena es un servicio de pago. Esto significa que no hay un costo base por usar AWS Athena; solo paga por las consultas que ejecuta en el servicio de Athena.
  • Sostenibilidad y disponibilidad de datos: Debido a que Athena se basa en los datos de sus depósitos S3, puede estar seguro de que los datos están altamente disponibles y son duraderos.
  • Apoyo: Athena admite múltiples formatos de archivo, como JSON, CSV, Avro, ORC, etc.
  • Seguridad: Athena utiliza funciones de seguridad como IAM, políticas de depósito y ACL, lo que lo hace altamente seguro.
  • Back-end de Atenea: Athena utiliza código abierto Presto como fondo Presto es un motor SQL distribuido para consultar y analizar grandes cargas de trabajo de datos.
Leer también  JAX vs PyTorch: diferencias y similitudes [2023]

Precios y optimización de AWS Athena

Cuando use AWS Athena, se le cobrará $5 por terabyte escaneado mientras usa AWS Athena. Este precio puede variar ligeramente para ciertas regiones de AWS.

  • Consultas eficientes: Si está familiarizado con SQL, debe saber que puede haber más de una forma de obtener ciertos resultados de los datos usando SQL. Para optimizar Athena, puede usar consultas eficientes que deberían tomar menos tiempo para ejecutar sus consultas.
  • Transformación de datos: Si desea optimizar aún más sus consultas, puede comprimir, particionar o convertir sus datos en un conjunto de datos más pequeño, lo que reduce aún más el tiempo de ejecución de la consulta. Al utilizar la transformación de datos, puede optimizar su consulta hasta en un 90 %.
  • Unirse a mesas virtuales: Unir tablas es una característica muy importante de SQL. Aunque pueda parecer una operación sencilla, puede ser una operación muy compleja. Se recomienda mantener las tablas más grandes a la izquierda y las tablas con menos datos a la derecha.

Diferencia entre AWS Athena y Redshift Spectrum

Redshift Spectrum es otro servicio que se puede utilizar para ejecutar consultas en depósitos de AWS S3. Redshift Spectrum y Athena no tienen servidor, pueden ejecutar consultas complejas en S3 y cobrar un 5 % por terabyte de datos procesados, entonces, ¿cuál es la diferencia?

Rendimiento

AWS Athena utiliza recursos informáticos de un conjunto de recursos proporcionados por AWS. Por el contrario, Redshift Spectrum utiliza recursos asignados en función del tamaño del clúster de Redshift. Esto le permite tener más control sobre los recursos utilizados por el servicio Redshift Spectrum y, si desea mejorar el rendimiento, siempre puede aumentar el tamaño de su clúster de Redshift.

Carga de datos para su procesamiento

Ambos servicios utilizan tablas virtuales para realizar consultas SQL en sus datos. Las tablas virtuales se crean utilizando el catálogo de datos de Glue para la gestión de esquemas. Athena puede usar datos del esquema de Glue Data Catalog directamente, mientras que al usar Redshift Spectrum necesitará configurar tablas externas del esquema de Glue Data Catalog.

Estas son las principales diferencias entre los dos servicios, así que al elegir entre Redshift y Athena Spectrum. Debe usar Redshift Spectrum si desea consultar datos en S3 con datos almacenados en el almacén de datos de Redshift o si está dispuesto a pagar costos más altos para mejorar el rendimiento de sus consultas en S3. Athena puede ser útil cuando todos sus datos están solo en depósitos S3.

Leer también  Por qué Tesla, Ford, Mercedes y otros fabricantes de automóviles están bajo el radar de la FCC

Diferencia entre AWS Athena y S3 Select

S3 select es otro servicio sin servidor de AWS para consultar datos en S3 mediante SQL. Sin embargo, la principal diferencia entre S3 Select y Athena es que solo puede usar consultas SQL SELECT cuando usa S3 Select, mientras que Athena se puede usar para todo tipo de consultas SQL. Otra limitación de S3 select es que solo puede realizar la operación SELECT en un objeto a la vez.

Entonces, si su necesidad es solo extraer datos o un subconjunto de datos de un objeto S3, debe usar S3 Select. Para consultas y operaciones complejas como JOIN o para procesar datos en un depósito S3 completo, debe usar AWS Athena.

Beneficios de usar AWS Athena

  • Athena elimina la necesidad de desarrollar una herramienta de análisis de datos compleja y costosa para sus datos.
  • Athena no tiene servidor, lo que lo convierte en un servicio bastante fácil de usar. No es necesario mantener la infraestructura.
  • AWS ha optimizado Athena para poder recuperar los resultados de la consulta segundos después de ejecutar la consulta de Athena.
  • Como Athena no tiene servidor, no tiene que pagar por el servicio de Athena. Solo paga por las consultas que elige ejecutar. Incluso si cancelara una consulta, solo se le cobraría por los datos procesados ​​y no por la consulta completa.
  • Athena se puede integrar fácilmente con otros servicios de AWS. Una de las integraciones más importantes y valiosas para AWS Athena es con el servicio AWS Glue. AWS Glue es un servicio ETL que se puede utilizar para transformar los datos en un formato más eficiente y legible, que luego se puede analizar con AWS Athena.
  • Athena le permite ejecutar múltiples consultas simultáneamente.

Límites de AWS Athena

  • Tamaño de línea: El tamaño de fila en una tabla virtual de AWS Athena no debe exceder 32 megabytes. Este límite se puede aumentar en casos muy limitados para archivos CSV y JSON de hasta 100 megabytes, pero se recomienda encarecidamente limitar el tamaño de fila a 32 megabytes para evitar errores no deseados.
  • Archivos ocultos: El servicio Athena trata como ocultos los archivos cuyos nombres comienzan con un guión bajo (_) o un punto (.). Esto se puede utilizar como una función para evitar el procesamiento de archivos basura.
  • Atenea es no se pueden procesar datos en S3 Glacier o S3 Glacier Deep Archive. Estas clases de almacenamiento son solo para opciones de archivado de datos y tienen un tiempo de recuperación que varía de minutos a horas, por lo que se entiende que AWS Athena no puede recuperar datos de estas clases.
  • Atenea no puede soportar procedimientos almacenados.
  • Atenas versión 1 no admite consultas parametrizadas. Esto es compatible con la versión 2 de Athena.
  • Declaraciones como MERGE, UPDATE, CREATE TABLE LIKE, DESCRIBE INPUT y DESCRIBE OUTPUT no son compatibles.
Leer también  Unlock the Potential of Your Professional Headshots

Conclusión

En este artículo, discutimos la herramienta de análisis de datos de AWS, AWS Athena, sus características, beneficios y algunas limitaciones. Athena es una de las herramientas más poderosas para procesar y analizar datos en depósitos S3. Incluso las limitaciones del servicio son bastante simples y se pueden eludir si es necesario.

También puede revisar algunas prácticas recomendadas para proteger el almacenamiento de AWS S3.

¿Te gustó leer el artículo? ¿Qué tal compartir con el mundo?



Source link

Si quiere puede hacernos una donación por el trabajo que hacemos, lo apreciaremos mucho.

Direcciones de Billetera:

- BTC: 14xsuQRtT3Abek4zgDWZxJXs9VRdwxyPUS 

- USDT: TQmV9FyrcpeaZMro3M1yeEHnNjv7xKZDNe 

- BNB: 0x2fdb9034507b6d505d351a6f59d877040d0edb0f

- DOGE: D5SZesmFQGYVkE5trYYLF8hNPBgXgYcmrx 

También puede seguirnos en nuestras Redes sociales para mantenerse al tanto de los últimos post de la web:

-Twitter

- Telegram

Disclaimer: En Cryptoshitcompra.com no nos hacemos responsables de ninguna inversión de ningún visitante, nosotros simplemente damos información sobre Tokens, juegos NFT y criptomonedas, no recomendamos inversiones

Dejar un comentario

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *