Delta Lake

Radar Tecnol��gico

?ltima actualizaci��n : Oct 26, 2022

NO EN LA EDICI?N ACTUAL

Este blip no est�� en la edici��n actual del Radar. Si ha aparecido en una de las ��ltimas ediciones, es probable que siga siendo relevante. Si es m��s antiguo, es posible que ya no sea relevante y que nuestra valoraci��n sea diferente hoy en d��a. Desgraciadamente, no tenemos el ancho de banda necesario para revisar continuamente los anuncios de ediciones anteriores del Radar. Entender m��s

Oct 2022

Adoptar

es una , implementada por Databricks, que intenta incorporar transacciones ACID en el procesado de big data. En nuestros proyectos data lake o data mesh con Databricks, nuestros equipos prefieren usar almacenamiento Delta Lake a usar directamente tipos de almacenamiento de archivos tales como o . Hasta hace poco, Delta Lake ha sido un producto cerrado propietario de Databricks, pero ahora es de c��digo abierto y accesible a plataformas no Databricks. Sin embargo, nuestra recomendaci��n de Delta Lake como opci��n por defecto ahora mismo se extiende solo a proyectos Databricks que usen formato de ficheros . Delta Lake facilita los casos de uso de lectura/escritura concurrente de datos donde se requiere transaccionalidad a nivel de archivo. Encontramos de gran ayuda la fluida integraci��n de Delta Lake con las APIS de Apache Spark y , especialmente en caracter��sticas tales como (acceso a datos en un punto en concreto en el tiempo o revertir un commit) as�� como el soporte a la durante la escritura, aunque hay algunas limitaciones en dichas caracter��sticas.

Apr 2021

Probar

es una implementada por Databricks, que intenta llevar transacciones ACID al procesamiento de big data. En proyectos de lago de datos o de malla de datos con soporte de Databricks, nuestros equipos siguen prefiriendo usar el almacenamiento Delta Lake en lugar del uso directo de mecanismos de almacenamiento de archivos como o . Por supuesto que esto se limita a proyectos que usan plataformas de almacenamiento que soportan cuando usan formatos de archivo . Delta Lake facilita casos de uso de lectura/escritura de datos concurrentes donde se requiere transaccionalidad a nivel de archivo. Encontramos de gran ayuda a la integraci��n transparente de Delta Lake con las APIs de procesamiento o de Apache Spark, y particularmente, a funcionalidades como los (acceder a los datos de un momento determinado o en la reversi��n de un commit) as�� como el soporte de al momento de escritura, aunque hay algunas limitaciones en estas caracter��sticas.

Nov 2019

Evaluar

es una capa de almacenamiento de open-source de Databricks que intenta llevar las transacciones al procesamiento de big data. Uno de los problemas que a menudo encontramos al usar Apache Spark es la falta de transacciones ACID. Delta Lake se integra con la API de Spark y resuelve este problema mediante el uso de un registro de transacciones y archivos de versionados. Su aislamiento serializable, permite que lectores y escritores puedan trabajar sobre archivos Parquet simult��neamente. Dentro de las bien recibidas caracter��sticas se incluye la aplicaci��n de esquemas al escribir y versionar, lo que nos permite consultar y volver a versiones anteriores de datos de ser necesario. Hemos comenzando a usarlo en algunos de nuestros proyectos y nos resulta interesante.

Publicado : Nov 20, 2019