Mohaiminul Islam

PhD Student UNC Chapel Hill Research Scientist Intern Meta AI

Biography

I'm on the job market, looking for industry Research Scientist position! Feel free to connect with me via email (mmiemon [at] cs [dot] unc [dot] edu).

I am a final-year Ph.D. student in the Department of Computer Science at UNC Chapel Hill, advised by Professor Gedas Bertasius. My research focuses on computer vision, video understanding, and multimodal deep learning, with a particular emphasis on efficient vision-language models, multimodal large language models (MLLMs), and long-range video analysis. My work has been published in top-tier conferences, including ECCV 2022, CVPR 2023, ECCV 2024, EMNLP 2024, and CVPR 2025.

I have completed two research internships at FAIR, Meta AI and one at Comcast AI, where I worked on multimodal large language models, video agents, and efficient models for long-range video understanding. Prior to my Ph.D., I gained valuable industry experience as a Software Engineer at Samsung R&D Institute.

Download my resumé.

Interests

Computer Vision
Video Understanding
Vision-Language Modeling
Large Language Models
Long-Range Video Models

Education

PhD in Computer Science, 2021-Present

UNC Chapel Hill
MSc in Computer Science, 2021-2023

UNC Chapel Hill
BSc in Computer Science and Engineering, 2014-2018

Bangladesh University of Engineering and Technology

Awards and Honors

[Jun ‘25] Doctoral Consortium Award, CVPR 2025.
[Jun ‘25] Egocentric Vision (EgoVis) 2023/2024 Distinguished Paper Award, EgoVis Workshop, CVPR 2025 (ArXiv).
[Jun ‘25] 1st Place, EgoSchema Challenge, EgoVis Workshop, CVPR 2025 (ArXiv).
[Jun ‘22] 2nd Place, Object State Change Clasification Challenge, Ego4D Workshop, CVPR 2022. (ArXiv)
[Jun ‘22] Champion Student Poster Award, NSysS 2017.
[‘16 - ‘18] Deans List Award, Bangladesh University of Engineering & Technology.
[‘16 - ‘18] University Merit List, Bangladesh University of Engineering & Technology.

Experience

Research Scientist Intern

FAIR, Meta AI

May 2024 – Aug 2024 New York

Advisor - Lorenzo Torresani, Tushar Nagarajan, Huiyu Wang
Topic - Multimodal Large Language Models, Efficient Long Video Understanding
Publication - BIMBA (CVPR 2025)

Research Scientist Intern

FAIR, Meta AI

May 2023 – Aug 2023 Menlo Park, California

Advisor - Xitong Yang, Tushar Nagarajan, Huiyu Wang, Kris Kitani
Topic - Video Agents, Procedural Learning
Publication - VidAssist (ECCV 2024, Oral)

Machine Learning Intern

Comcast AI

May 2022 – Aug 2022 Virtual

Advisor - Mahmudul Hasan, Tony Braskich
Topic - Scene Detection, Efficient Long-Range Video Models
Publication - TranS4mer (CVPR 2023)

Lecturer

University of Asia Pacific

Apr 2019 – Dec 2020 Bangladesh

Software Engineer

Samsung R&D Institute

Nov 2018 – Mar 2019 Bangladesh

Featured Publications

Mohaiminul Islam, Tushar Nagarajan, Huiyu Wang, Gedas Bertasius, Lorenzo Torresani

March, 2025 In CVPR 2025

BIMBA: Selective-Scan Compression for Long-Range Video Question Answering

Recent Publications

Quickly discover relevant content by filtering publications.

Mohaiminul Islam, Tushar Nagarajan, Huiyu Wang, Gedas Bertasius, Lorenzo Torresani (2025). BIMBA: Selective-Scan Compression for Long-Range Video Question Answering. In CVPR 2025.

Cite ArXiv Website Code HuggingFace Demo

Tanveer Hannan, Mohaiminul Islam, Jindong Gu, Thomas Seidl, Gedas Bertasius (2025). ReVisionLLM: Recursive Vision-Language Model for Temporal Grounding in Hour-Long Videos. In CVPR 2025.

Cite ArXiv Code

Mohaiminul Islam, Ngan Ho, Xitong Yang, Tushar Nagarajan, Lorenzo Torresani, Gedas Bertasius (2024). Video ReCap: Recursive Captioning of Hour-Long Videos. In CVPR 2024.

Cite ArXiv Website Code Dataset HuggingFace

Kristen Grauman, Mohaiminul Islam, et al (2024). Ego-Exo4D: Understanding Skilled Human Activity from First- and Third-Person Perspectives. In CVPR 2024.

Cite ArXiv Website Blog Video

Mohaiminul Islam, Tushar Nagarajan, Huiyu Wang, Fu-Jen Chu, Kris Kitani, Gedas Bertasius, Xitong Yang (2024). Propose, Assess, Search: Harnessing LLMs for Goal-Oriented Planning in Instructional Videos. In ECCV 2024 (Oral).

Cite ArXiv Website Video

Tanveer Hannan, Mohaiminul Islam, Thomas Seidl, Gedas Bertasius (2024). RGNet: A Unified Clip Retrieval and Grounding Network for Long Videos. In ECCV 2024.

Cite ArXiv Code

Ce Zhang, Taixi Lu, Mohaiminul Islam, Ziyang Wang, Shoubin Yu, Mohit Bansal, Gedas Bertasius (2024). A Simple LLM Framework for Long-Range Video Question-Answering. In EMNLP 2024.

Cite ArXiv Code

Mohaiminul Islam, Mahmudul Hasan, Kishan Shamsundar Athrey, Tony Braskich, Gedas Bertasius (2023). Efficient Movie Scene Detection using State-Space Transformers. In CVPR 2023.

Cite ArXiv Code

Mohaiminul Islam, Gedas Bertasius (2022). Long Movie Clip Classification with State-Space Video Models. In ECCV 2022.

Cite ArXiv Code

Mohaiminul Islam, Gedas Bertasius (2022). Object State Change Classification in Egocentric Videos using the Divided Space-Time Attention Mechanism. In Ego4D Workshop, CVPR 2022.

Cite ArXiv Code

Mohaiminul Islam, Tanveer Hannan, Laboni Sarker, Zakaria Ahmed (2022). COVID-DenseNet: A Deep Learning Architecture to Detect COVID-19 from Chest Radiology Images. In ICDSA 2022.

Cite ArXiv Code

Contact

mmiemon [at] cs [dot] unc [dot] edu
Raleigh, North Carolina

Mohaiminul Islam

PhD Student UNC Chapel Hill Research Scientist Intern Meta AI

Biography

Awards and Honors

Experience

Featured Publications

Recent Publications

Recent News

Contact