¿Cómo encontrar los 100 repositorys GitHub más grandes para una date pasada?

Estoy tratando de entender la evolución de los 100 repositorys más grandes en GitHub. Puedo acceder fácilmente a los 100 repositorys más grandes hasta el día de hoy (medido por el número total de queueboradores, estrellas, tenedores o LOC) usando la function de búsqueda GitHub o GithubArchive.org.

Sin embargo, me gustaría ver los 100 repositorys más grandes en un dato dado en la historia (por ejemplo, 1 de abril de 2011), de modo que pueda rastrear su crecimiento (o declive) a partir de ese momento. ¿Cómo puedo identificar los 100 repositorys más grandes en GitHub (medidos por estrellas, tenedores o LOC) para una date en el pasado?

Creo que el proyecto de file GitHub puede ser de ayuda: http://www.githubarchive.org/

Almacena todos los events públicos de la línea de time de GitHub y los expone para su procesamiento. Los events contienen información sobre los repositorys, por lo que debería poder extraer los datos de allí para adaptarlos a su caso de uso.

Por ejemplo, acabo de utilizar la siguiente consulta en la console de BigQuery ( https://bigquery.cloud.google.com/?pli=1 ) para conocer el número de tenedores del repository de joyent / node para la date 2012 -03-15:

SELECT repository_forks, created_at FROM [publicdata:samples.github_timeline] WHERE (repository_url = "https://github.com/joyent/node") AND (created_at CONTAINS "2012-03-15") LIMIT 1 

Aquí están los resultados:

 Row forks created_at 1 1579 2012-03-15 07:49:54 

Obviamente, usaría la API de BigQuery para hacer algo similar (extraer los datos que desea, search datos para un range de dates, etc.).

Y aquí hay una consulta para get el repository más grande (por horquillas) para una date determinada:

 SELECT repository_forks, repository_url FROM [publicdata:samples.github_timeline] WHERE (created_at CONTAINS "2012-03-15") ORDER BY repository_forks DESC LIMIT 1 

Resultado:

 Row forks repository_url 1 6341 https://github.com/octocat/Spoon-Knife 

Y aquí está la consulta para search los 100 mejores repositorys por horquillas para una date determinada:

 SELECT MAX(repository_forks) as forks, repository_url FROM [publicdata:samples.github_timeline] WHERE (created_at CONTAINS "2012-03-15") GROUP BY repository_url ORDER BY forks DESC LIMIT 100 

Resultado:

 Row forks repository_url 1 6341 https://github.com/octocat/Spoon-Knife 2 4452 https://github.com/twitter/bootstrap 3 3647 https://github.com/mxcl/homebrew 4 2888 https://github.com/rails/rails ...