sigue siendo nuestra herramienta preferida para gestionar experimentos en proyectos de ciencia de datos. El hecho de que est¨¦ basado en Git lo convierte en un dominio conocido para que los desarrolladores lleven pr¨¢cticas de ingenier¨ªa al ecosistema de ciencia de datos. La visi¨®n dogm¨¢tica que tiene DVC de lo que es un un punto de control de un modelo encapsula cuidadosamente un conjunto de datos de entrenamiento, un conjunto de datos de prueba, hiperpar¨¢metros del modelo y el c¨®digo. Convertir la reproducibilidad en una preocupaci¨®n de primera clase, permite al equipo viajar en el tiempo a trav¨¦s de varias versiones del modelo. Nuestros equipos han utilizado con ¨¦xito DVC en producci¨®n para permitir la entrega continua para ML (CD4ML); ya que se puede conectar con cualquier tipo de almacenamiento (incluyendo AWS S3, Google Cloud Storage, MinIO y Google Drive). Sin embargo, con conjuntos de datos cada vez m¨¢s grandes, capturar instant¨¢neas basadas en el sistema de archivos puede volverse particularmente costoso. Cuando los datos subyacentes cambian r¨¢pidamente, DVC al control de un buen almacenamiento versionado, permite realizar un seguimiento de las desviaciones del modelo durante un per¨ªodo de tiempo. Nuestros equipos han utilizado eficazmente DVC adem¨¢s de formatos de almacenamiento de datos como Delta Lake que optimiza el control de versiones (). La mayor¨ªa de nuestros equipos de ciencia de datos configuran DVC como una tarea del d¨ªa cero mientras inician un proyecto; por este motivo, nos complace moverlo a la secci¨®n de Adoptar.
En el 2018 mencionamos a junto con el versionamiento de datos para anal¨ªticas reproducibles. Desde entonces se ha convertido en la herramienta favorita para gestionar experimentos en proyectos de aprendizaje autom¨¢tico (machine learning, ML). Ya que se encuentra basado en Git, DVC es un ambiente familiar para las personas desarrolladoras de software que llevan sus costumbres de ingenier¨ªa a la pr¨¢ctica de ML. Puesto que versiona el c¨®digo que procesa datos junto con los mismos datos y monitorea los estados en un pipeline, ayuda a ordenar las actividades de modelado sin interrumpir el flujo de trabajo de los analistas.

