蔡同学 · 零一优创学员
每学期的视力筛查是学校卫生工作的例行项目,但蔡同学观察到,这个流程存在明显的效率问题:一位视力检查人员往往需要花费数分钟在一名学生身上,全班筛查下来需要半天时间。而且,低年级学生往往因为紧张或者听不懂指令而配合不佳,导致测量结果不准确,需要反复重测。
蔡同学想到,语音引导和图像识别技术已经在很多场景下大量应用——如果把这两项技术结合起来,让设备自己给学生讲解测量步骤,自己判读学生的手势指向,整个筛查流程是否可以在无需专业人员在场的情况下完成?
这个想法得到了学校卫生老师的支持,她为蔡同学提供了真实的筛查流程说明和常见问题清单。蔡同学以此为需求文档,开始设计系统的交互逻辑,力求让设备的引导方式接近一个耐心而专业的检查员。
将 AI 多模态交互引入视力测量,让学生无需专业人员辅助也能完成准确的自助测量
— 项目亮点
早期的手势识别方案在标准光线下效果很好,但在教室内常见的逆光、侧光条件下,识别准确率明显下降。蔡同学利用 MediaPipe Hands 作为基础框架,并采集了大量在不同光线和背景条件下的手势样本进行微调。同时,他在界面上增加了实时反馈标注,让学生能看到自己的手势是否被正确识别,从而自动纠正姿势,提升了整体的测量成功率。
系统最初使用系统 TTS 生成引导语音,语速和语调过于机械,多位测试用户反映「听着很难受」。蔡同学重新录制了引导内容,使用更接近真人对话的语速和停顿节奏,并加入了根据识别结果给出不同反馈的分支逻辑——当识别成功时给予积极鼓励,当识别失败时用简单语言重新说明。这让整个测量体验从「操作机器」变成了更接近「和人沟通」。
将 OpenCV 和 MediaPipe 的推理逻辑部署到资源有限的 ESP32-S3 上,是整个项目最具挑战性的工程问题。内存不足导致模型加载失败,帧率也难以达到流畅交互所需的水平。蔡同学对模型进行了量化压缩,精简了推理管线中的非关键步骤,并通过 TFT 显示屏的局部刷新策略降低了渲染开销,最终实现了在嵌入式平台上可用的实时手势识别。




— 蔡同学
“看到低年级的小朋友对着屏幕自己完成测量,比任何奖项都让我高兴。”