Necesito respaldar los files de la database. Necesita algo como github que esté contento con cientos de gigabytes de datos

Quiero un entorno controlado por fuente para una cantidad bastante grande de datos de database, en text, antes de que se cargue en el DBMS. Hemos estado usando GITHUB y es genial. Pero esperan que un repository tenga less de 1 gigabyte y tenemos cientos.

Podría estar en CVS o SVN, pero el seguimiento de versiones es importante. La información es muy estática y solo se accede a tarifas bajas, por ejemplo, una vez a la semana para partes de ella, una vez al mes para más.

Cualquier lugar / service sugerido que haga esto? No tiene que ser gratis, felizmente pagaremos una cantidad razonable.

Confirmo que este tipo de cantidad de datos es incompatible con un sistema de control de versiones (creado para registrar el historial, es decir, la evolución de la mayoría de los files de text y pequeños files binarys)

Ciertamente no es compatible con un VCS distribuido , donde cualquier clon clonaría todo el repository.

Necesita ver los services en la nube para este tipo de almacenamiento.


La OP protesta (voto a la baja), declarando que:

Serían ASCII normales, excepto que GitHub tiene límites de tamaño de file tan pequeños que los ejecuté mediante compression ZIP.
Raramente cambian, y cuando el contenido cambia, es solo una pequeña cantidad de líneas dentro del file.
Es exactamente de lo que se trata el control de versión. ¿Qué 0.005% del ASCII cambió? ¿Quién lo cambió? ¿Cuando?

Yo mantengo que:

  • cientos de megabytes son incompatibles con la mayoría de los proveedores de repo de control de origen (incluso sería incompatible con la mayoría de los repos de empresas internas, y estoy en una gran empresa)
  • ponerlos en un file zip no es práctico porque un sistema de Version Control Tool no podría registrar el delta.

Debes mantenerte separado :

  • los datos (almacena "en otro lugar" como un gran contenido de files de text sin formatting, ciertamente no en GitHub)
  • los metadatos que desea (autor, date de modificación), almacenados en un repository regular de git en asociación con datos "shell" (es decir, sus files que son realmente "references", o tipo de "enlaces simbólicos" a los files reales ubicados en otro lugar) )

El único sistema, basado en Git, que proporciona eso es git-annex , usando su propio almacenamiento en la nube con (si está implementado) el asistente de git-annex : consulte su hoja de ruta .