continua a ser nossa ferramenta preferida para gerenciar experimentos em projetos de ci¨ºncia de dados. O fato de ser baseado no Git faz com que seja um territ¨®rio conhecido para as pessoas desenvolvedoras trazerem pr¨¢ticas de engenharia para o ecossistema de ci¨ºncia de dados. A vis?o opinativa do DVC de um ponto de verifica??o do modelo encapsula cuidadosamente um conjunto de dados de treinamento, um conjunto de dados de teste, hiperpar?metros do modelo e o c¨®digo. Ao tornar a reprodutibilidade uma preocupa??o de primeira classe, permite que a equipe viaje no tempo em v¨¢rias vers?es do modelo. Nossas equipes usaram DVC com sucesso em produ??o para permitir entrega cont¨ªnua para aprendizado de m¨¢quina (CD4ML); pode ser conectada a qualquer tipo de armazenamento (incluindo AWS S3, Google Cloud Storage, MinIO e Google Drive). No entanto, com conjuntos de dados cada vez maiores, a cria??o de snapshots com base no sistema de arquivos pode se tornar particularmente cara. Quando os dados subjacentes mudam com rapidez, o DVC sobre um bom armazenamento com controle de vers?o permite rastrear os desvios do modelo ao longo de um per¨ªodo de tempo. Nossas equipes usaram efetivamente o DVC em formatos de armazenamento de dados como Delta Lake que otimiza o controle de vers?o (). A maioria de nossas equipes de ci¨ºncia de dados configura DVC como uma tarefa do dia zero enquanto fazem o bootstrap de um projeto; por esse motivo, estamos felizes em mov¨º-lo para Adote.
Em 2018, mencionamos em conjunto com dados versionados para an¨¢lises reproduz¨ªveis. Desde ent?o, ele se tornou a ferramenta preferida para gerenciar experimentos em projetos de aprendizado de m¨¢quina (ML). Baseado em Git, o DVC ¨¦ um ambiente familiar para pessoas desenvolvedoras de software levarem suas pr¨¢ticas de engenharia ¨¤ pr¨¢tica de ML. Como ele libera o c¨®digo que processa os dados junto com os pr¨®prios dados e rastreia os est¨¢gios em um pipeline, ajuda a ordenar as atividades de modelagem sem interromper o fluxo de analistas.

