References¶

[BDPW22]

Hangbo Bao, Li Dong, Songhao Piao, and Furu Wei. Beit: bert pre-training of image transformers. 2022. URL: https://arxiv.org/abs/2106.08254, arXiv:2106.08254.

[BWL20]

Alexey Bochkovskiy, Chien-Yao Wang, and Hong-Yuan Mark Liao. Yolov4: optimal speed and accuracy of object detection. CoRR, 2020. URL: https://arxiv.org/abs/2004.10934, arXiv:2004.10934.

[EVGW+10]

Mark Everingham, Luc Van Gool, Christopher KI Williams, John Winn, and Andrew Zisserman. The pascal visual object classes (voc) challenge. International journal of computer vision, 88(2):303–338, 2010.

[KB17]

Diederik P. Kingma and Jimmy Ba. Adam: a method for stochastic optimization. 2017. URL: https://arxiv.org/abs/1412.6980, arXiv:1412.6980.

[KcB+21]

Gregory M. Kurtzer, cclerget, Michael Bauer, Ian Kaneshiro, David Trudgian, and David Godlove. Hpcng/singularity: singularity 3.7.3. April 2021. URL: https://doi.org/10.5281/zenodo.4667718, doi:10.5281/zenodo.4667718.

[LZV+20]

Shen Li, Yanli Zhao, Rohan Varma, Omkar Salpekar, Pieter Noordhuis, Teng Li, Adam Paszke, Jeff Smith, Brian Vaughan, Pritam Damania, and Soumith Chintala. Pytorch distributed: experiences on accelerating data parallel training. CoRR, 2020. URL: https://arxiv.org/abs/2006.15704, arXiv:2006.15704.

[LMB+15]

Tsung-Yi Lin, Michael Maire, Serge Belongie, Lubomir Bourdev, Ross Girshick, James Hays, Pietro Perona, Deva Ramanan, C. Lawrence Zitnick, and Piotr Dollár. Microsoft coco: common objects in context. 2015. URL: https://arxiv.org/abs/1405.0312, arXiv:1405.0312.

[SVS+25]

Oriane Siméoni, Huy V. Vo, Maximilian Seitzer, Federico Baldassarre, Maxime Oquab, Cijo Jose, Vasil Khalidov, Marc Szafraniec, Seungeun Yi, Michaël Ramamonjisoa, Francisco Massa, Daniel Haziza, Luca Wehrstedt, Jianyuan Wang, Timothée Darcet, Théo Moutakanni, Leonel Sentana, Claire Roberts, Andrea Vedaldi, Jamie Tolan, John Brandt, Camille Couprie, Julien Mairal, Hervé Jégou, Patrick Labatut, and Piotr Bojanowski. Dinov3. 2025. URL: https://arxiv.org/abs/2508.10104, arXiv:2508.10104.