AI 多模态 · 医疗辅具 · 数字素养

多交互式 AI 自助视力测量仪

蔡同学 · 零一优创学员

项全国级大奖

五星

AI 工程实践

教育部

全国一等奖

教育部中央电教馆全国学生数字素养提升实践活动全国一等奖2025 年北京青少年人工智能创新实践活动·京西智谷英才赛一等奖AI 工程实践五星作品

Why This Project

为什么做这个？

每学期的视力筛查是学校卫生工作的例行项目，但蔡同学观察到，这个流程存在明显的效率问题：一位视力检查人员往往需要花费数分钟在一名学生身上，全班筛查下来需要半天时间。而且，低年级学生往往因为紧张或者听不懂指令而配合不佳，导致测量结果不准确，需要反复重测。

蔡同学想到，语音引导和图像识别技术已经在很多场景下大量应用——如果把这两项技术结合起来，让设备自己给学生讲解测量步骤，自己判读学生的手势指向，整个筛查流程是否可以在无需专业人员在场的情况下完成？

这个想法得到了学校卫生老师的支持，她为蔡同学提供了真实的筛查流程说明和常见问题清单。蔡同学以此为需求文档，开始设计系统的交互逻辑，力求让设备的引导方式接近一个耐心而专业的检查员。

将 AI 多模态交互引入视力测量，让学生无需专业人员辅助也能完成准确的自助测量

— 项目亮点

Recognition

荣誉与奖项

教育部中央电教馆全国学生数字素养提升实践活动全国一等奖2025 年北京青少年人工智能创新实践活动·京西智谷英才赛一等奖AI 工程实践五星作品

Challenges & Solutions

技术挑战

手势识别的鲁棒性：在不同光线和姿势下准确判读

早期的手势识别方案在标准光线下效果很好，但在教室内常见的逆光、侧光条件下，识别准确率明显下降。蔡同学利用 MediaPipe Hands 作为基础框架，并采集了大量在不同光线和背景条件下的手势样本进行微调。同时，他在界面上增加了实时反馈标注，让学生能看到自己的手势是否被正确识别，从而自动纠正姿势，提升了整体的测量成功率。

语音引导的自然度：让指令足够清晰但不显机械

系统最初使用系统 TTS 生成引导语音，语速和语调过于机械，多位测试用户反映「听着很难受」。蔡同学重新录制了引导内容，使用更接近真人对话的语速和停顿节奏，并加入了根据识别结果给出不同反馈的分支逻辑——当识别成功时给予积极鼓励，当识别失败时用简单语言重新说明。这让整个测量体验从「操作机器」变成了更接近「和人沟通」。

硬件集成：在 ESP32-S3 上部署 AI 推理的资源约束

将 OpenCV 和 MediaPipe 的推理逻辑部署到资源有限的 ESP32-S3 上，是整个项目最具挑战性的工程问题。内存不足导致模型加载失败，帧率也难以达到流畅交互所需的水平。蔡同学对模型进行了量化压缩，精简了推理管线中的非关键步骤，并通过 TFT 显示屏的局部刷新策略降低了渲染开销，最终实现了在嵌入式平台上可用的实时手势识别。

Process