Publications | Mohaiminul

Mohaiminul Islam, Tushar Nagarajan, Huiyu Wang, Gedas Bertasius, Lorenzo Torresani (2025). BIMBA: Selective-Scan Compression for Long-Range Video Question Answering. In CVPR 2025.

Cite ArXiv Website Code HuggingFace Demo

Tanveer Hannan, Mohaiminul Islam, Jindong Gu, Thomas Seidl, Gedas Bertasius (2025). ReVisionLLM: Recursive Vision-Language Model for Temporal Grounding in Hour-Long Videos. In CVPR 2025.

Cite ArXiv Code

Mohaiminul Islam, Ngan Ho, Xitong Yang, Tushar Nagarajan, Lorenzo Torresani, Gedas Bertasius (2024). Video ReCap: Recursive Captioning of Hour-Long Videos. In CVPR 2024.

Cite ArXiv Website Code Dataset HuggingFace

Kristen Grauman, Mohaiminul Islam, et al (2024). Ego-Exo4D: Understanding Skilled Human Activity from First- and Third-Person Perspectives. In CVPR 2024.

Cite ArXiv Website Blog Video

Mohaiminul Islam, Tushar Nagarajan, Huiyu Wang, Fu-Jen Chu, Kris Kitani, Gedas Bertasius, Xitong Yang (2024). Propose, Assess, Search: Harnessing LLMs for Goal-Oriented Planning in Instructional Videos. In ECCV 2024 (Oral).

Cite ArXiv Website Video

Tanveer Hannan, Mohaiminul Islam, Thomas Seidl, Gedas Bertasius (2024). RGNet: A Unified Clip Retrieval and Grounding Network for Long Videos. In ECCV 2024.

Cite ArXiv Code

Ce Zhang, Taixi Lu, Mohaiminul Islam, Ziyang Wang, Shoubin Yu, Mohit Bansal, Gedas Bertasius (2024). A Simple LLM Framework for Long-Range Video Question-Answering. In EMNLP 2024.

Cite ArXiv Code

Mohaiminul Islam, Mahmudul Hasan, Kishan Shamsundar Athrey, Tony Braskich, Gedas Bertasius (2023). Efficient Movie Scene Detection using State-Space Transformers. In CVPR 2023.

Cite ArXiv Code

Mohaiminul Islam, Gedas Bertasius (2022). Long Movie Clip Classification with State-Space Video Models. In ECCV 2022.

Cite ArXiv Code

Mohaiminul Islam, Gedas Bertasius (2022). Object State Change Classification in Egocentric Videos using the Divided Space-Time Attention Mechanism. In Ego4D Workshop, CVPR 2022.

Cite ArXiv Code

Mohaiminul Islam, Tanveer Hannan, Laboni Sarker, Zakaria Ahmed (2022). COVID-DenseNet: A Deep Learning Architecture to Detect COVID-19 from Chest Radiology Images. In ICDSA 2022.

Cite ArXiv Code