Nos ¨²ltimos anos, observamos o surgimento de ferramentas de gerenciamento de fluxo de trabalho gen¨¦ricas e espec¨ªficas de dom¨ªnio. Os fatores motivadores por tr¨¢s desse aumento incluem o aumento do uso de pipelines de processamento de dados e a automa??o do processo de desenvolvimento de modelo de aprendizado de m¨¢quina (ML). ¨¦ uma das primeiras ferramentas de orquestra??o de tarefas de c¨®digo aberto que popularizou a defini??o de gr¨¢ficos ac¨ªclicos direcionados (DAGs) como c¨®digo, uma melhoria em rela??o a uma configura??o de pipeline em XML/YAML. Embora o Airflow continue sendo uma das ferramentas de orquestra??o mais amplamente adotadas, recomendamos que voc¨º avalie outras ferramentas com base em sua situa??o espec¨ªfica. Por exemplo, voc¨º pode escolher Prefect, que oferece suporte a tarefas de processamento de dados din?micas como uma preocupa??o de primeira classe, com fun??es Python gen¨¦ricas como tarefas; caso voc¨º prefira uma integra??o estreita com Kubernetes; Kubeflow ou MLflow para fluxos de trabalho espec¨ªficos de ML. Devido ao surgimento de novas ferramentas, combinadas com algumas das defici¨ºncias do Airflow (como a falta de suporte nativo para fluxos de trabalho din?micos e sua abordagem centralizada para agendar pipelines), n?o recomendamos mais o Airflow como ferramenta de orquestra??o padr?o.
Acreditamos que com o aumento do uso de streaming em an¨¢lises e pipelines de dados, bem como o gerenciamento de dados por meio de uma malha de dados descentralizada, a necessidade de ferramentas de orquestra??o para definir e gerenciar pipelines de processamento de dados complexos ¨¦ reduzida.
continua sendo nossa ferramenta de gerenciamento de fluxo de trabalho de c¨®digo aberto favorita para pipelines de processamento de dados como gr¨¢ficos ac¨ªclicos direcionados (DAGs). Este ¨¦ um espa?o em crescimento, com ferramentas de c¨®digo aberto, como e , e ferramentas espec¨ªficas de fornecedoras, como e . No entanto, o Airflow se diferencia com sua defini??o program¨¢tica de fluxos de trabalho sobre arquivos de configura??o de baixo c¨®digo limitados, suporte para testes automatizados, instala??o multiplataforma de c¨®digo aberto, um conjunto rico de pontos de integra??o para o ecossistema de dados e grande suporte da comunidade. Em arquiteturas de dados descentralizadas, como malha de dados, no entanto, o Airflow atualmente falha como uma orquestra??o de fluxo de trabalho centralizado.
is a tool to programmatically create, schedule and monitor data pipelines. By treating Directed Acyclic Graphs (DAGs) as code, it encourages maintainable, versionable and testable data pipelines. We've leveraged this configuration in our projects to create dynamic pipelines that resulted in lean and explicit data workflows. Airflow makes it easy to define your operators and executors and to extend the library so that it fits the level of abstraction that suits your environment.

