LoVURe: Long Video Understanding & Reasoning for Robot-Assisted Industries | CSDSE

This project tackles human-centered long video understanding using multimodal sensing (e.g., eye gaze, audio) to enable robots to support manufacturing, healthcare, and education. The team is advancing vision-language models, adaptive displays, AI accelerators, and real-time feedback systems for task guidance, safety, and experiential learning, with applications ranging from surgical assistance to classroom robotics.

Faculty Mentors

NYU New York

Yi Fang

Chen Feng

Qi Sun

Sai Qian Zhang

Jing Zhang

NYU Shanghai

Li Guo

Qiaoyu Tan

Shengjie Wang

Gene Wen

Hongyi Wen

NYU Abu Dhabi

Saif Jabari

Hanan Salam

Muhammad Shafique

Farah Shamout