AWS Data Pipeline

Karla Ogazon Blog 12 Mayo 2022 12 Mayo 2022

AWS Data Pipeline es un servicio web diseñado para ayudarlo a procesar datos y a transferirlos, de manera fiable y a intervalos definidos, entre diferentes servicios de almacenamiento y cómputo de AWS, así como entre orígenes de datos locales. Con AWS Data Pipeline, puede obtener acceso con regularidad a las ubicaciones en las que están almacenados los datos, transformarlos y procesarlos a escala, además de poder transferir los resultados con eficacia a los servicios de AWS como Amazon S3, Amazon RDS, Amazon DynamoDB y Amazon EMR.

AWS Data Pipeline lo ayuda a crear con facilidad cargas de trabajo de procesamiento de datos complejas que sean tolerantes a errores, replicables y de alta disponibilidad. No tiene que preocuparse por garantizar la disponibilidad de los recursos, administrar las dependencias entre tareas, reintentar errores transitorios ni de los tiempos de espera en tareas individuales o la creación de un sistema de notificación de errores. AWS Data Pipeline también le permite transferir y procesar datos que se hayan guardado con anterioridad en silos de datos aislados en las instalaciones.

Fiabilidad

AWS Data Pipeline se basa en una infraestructura distribuida y de alta disponibilidad diseñada para ejecutar las actividades con tolerancia a errores. Si se producen errores en la lógica de la actividad o en las fuentes de datos, AWS Data Pipeline vuelve a intentar la ejecución de la actividad automáticamente. Si el error persiste, AWS Data Pipeline le envía notificaciones de errores a través de Amazon Simple Notification Service (Amazon SNS). Puede configurar el envío de notificaciones para ejecuciones satisfactorias, retrasos en las actividades previstas o errores.

Facilidad de uso

La creación de una canalización resulta una tarea rápida y sencilla a través de nuestra consola basada en la tecnología de arrastrar y soltar. El servicio integra condiciones previas comunes, por lo que no es necesario que escriba ninguna lógica adicional para utilizarlas. Por ejemplo, puede comprobar si existe un archivo de Amazon S3; para ello, solo tiene que indicar el nombre del bucket de Amazon S3 y la ruta de acceso al archivo que desea buscar, y AWS Data Pipeline se encargará del resto.  Además de su sencillo editor visual de canalizaciones, AWS Data Pipeline ofrece una biblioteca de plantillas de canalizaciones. Estas plantillas facilitan la creación de canalizaciones para una serie de casos de uso más complejos, como el procesamiento regular de los registros, el archivado de datos en Amazon S3 o la ejecución periódica de consultas SQL.

Flexibilidad

AWS Data Pipeline le permite beneficiarse de una serie de características como la programación, el seguimiento de dependencias y la gestión de errores. Puede utilizar las actividades y condiciones previas que AWS ofrece o escribir las suyas propias. Esto significa que puede configurar una canalización de AWS Data Pipeline para realizar acciones como procesar tareas de Amazon EMR, ejecutar consultas SQL directamente en las bases de datos o implementar aplicaciones personalizadas que se procesan en Amazon EC2 o en su propio centro de datos. Esto le permite crear canalizaciones personalizadas eficientes para analizar y procesar los datos sin tener que afrontar las dificultades que supone programar y ejecutar la lógica de la aplicación con confianza.

Escalabilidad

Con AWS Data Pipeline, enviar trabajo a una o varias máquinas en serie o en paralelo es igual de sencillo. Gracias al diseño flexible de AWS Data Pipeline, el procesamiento de millones de archivos resulta tan fácil como procesar uno solo.

Bajo costo

Utilizar AWS Data Pipeline resulta económico y su facturación se realiza conforme a una tarifa mensual reducida. Puede probar este servicio en el marco del uso gratuito de AWS.

Transparencia

Tiene pleno control sobre los recursos informáticos que ejecutan su lógica de negocio, lo que facilita la optimización o depuración de la lógica. Además, los registros de ejecución completos se entregan automáticamente en Amazon S3, lo que le ofrece un registro detallado y constante de lo que ha ocurrido en la canalización.

Nuestro Blog

No te pierdas el adelanto