Reconstruye el control de versiones del set de files

Estoy buscando un enfoque para la siguiente tarea:

dado un set de files que son muy similares (estoy usando el hash Fuzzy aquí), me gustaría saber si hay un algorithm que permita labelr esos files con un número de versión. La salida debe devolver el order secuencial de cuando esos files han sido generados.

La razón es que tengo que volver a organizar los datos de un equipo que no estaba familiarizado con el control de versiones.

Gracias

Un enfoque bastante simple (espero) sería tratar de convertir esto en algún tipo de problema gráfico.

Digamos que cada file es un nodo con bordes entre cada dos files.
El peso de un borde entre dos nodos sería, por ejemplo, el número de líneas diferentes entre los files (o alguna otra function).

Lo que sigue es encontrar una ruta no cíclica que atraviese todos los files con el mínimo costo. algo así, si conoce el primer file y el último.
Puede agregar un file vacío y la última versión que tenga como nodos de inicio y fin .

Supongo que esto no te dará el resultado exacto, pero probablemente te dará un buen punto de partida.
Espero que esto sea útil.

    Intereting Posts