— 专注青少年科技创新竞赛深度辅导 —
AI 多模态 · 医疗辅具 · 数字素养

多交互式 AI 自助视力测量仪

蔡同学 · 零一优创学员

2
项全国级大奖
五星
AI 工程实践
教育部
全国一等奖
教育部中央电教馆全国学生数字素养提升实践活动全国一等奖2025 年北京青少年人工智能创新实践活动·京西智谷英才赛一等奖AI 工程实践五星作品
Why This Project

为 什 么 做 这 个?

每学期的视力筛查是学校卫生工作的例行项目,但蔡同学观察到,这个流程存在明显的效率问题:一位视力检查人员往往需要花费数分钟在一名学生身上,全班筛查下来需要半天时间。而且,低年级学生往往因为紧张或者听不懂指令而配合不佳,导致测量结果不准确,需要反复重测。

蔡同学想到,语音引导和图像识别技术已经在很多场景下大量应用——如果把这两项技术结合起来,让设备自己给学生讲解测量步骤,自己判读学生的手势指向,整个筛查流程是否可以在无需专业人员在场的情况下完成?

这个想法得到了学校卫生老师的支持,她为蔡同学提供了真实的筛查流程说明和常见问题清单。蔡同学以此为需求文档,开始设计系统的交互逻辑,力求让设备的引导方式接近一个耐心而专业的检查员。

将 AI 多模态交互引入视力测量,让学生无需专业人员辅助也能完成准确的自助测量

— 项目亮点

Recognition

荣 誉 与 奖 项

教育部中央电教馆全国学生数字素养提升实践活动全国一等奖2025 年北京青少年人工智能创新实践活动·京西智谷英才赛一等奖AI 工程实践五星作品
Challenges & Solutions

技 术 挑 战

01

手势识别的鲁棒性:在不同光线和姿势下准确判读

早期的手势识别方案在标准光线下效果很好,但在教室内常见的逆光、侧光条件下,识别准确率明显下降。蔡同学利用 MediaPipe Hands 作为基础框架,并采集了大量在不同光线和背景条件下的手势样本进行微调。同时,他在界面上增加了实时反馈标注,让学生能看到自己的手势是否被正确识别,从而自动纠正姿势,提升了整体的测量成功率。

02

语音引导的自然度:让指令足够清晰但不显机械

系统最初使用系统 TTS 生成引导语音,语速和语调过于机械,多位测试用户反映「听着很难受」。蔡同学重新录制了引导内容,使用更接近真人对话的语速和停顿节奏,并加入了根据识别结果给出不同反馈的分支逻辑——当识别成功时给予积极鼓励,当识别失败时用简单语言重新说明。这让整个测量体验从「操作机器」变成了更接近「和人沟通」。

03

硬件集成:在 ESP32-S3 上部署 AI 推理的资源约束

将 OpenCV 和 MediaPipe 的推理逻辑部署到资源有限的 ESP32-S3 上,是整个项目最具挑战性的工程问题。内存不足导致模型加载失败,帧率也难以达到流畅交互所需的水平。蔡同学对模型进行了量化压缩,精简了推理管线中的非关键步骤,并通过 TFT 显示屏的局部刷新策略降低了渲染开销,最终实现了在嵌入式平台上可用的实时手势识别。

Process

过 程 记 录

多交互式 AI 自助视力测量仪 过程照片 1
多交互式 AI 自助视力测量仪 过程照片 2
多交互式 AI 自助视力测量仪 过程照片 3
多交互式 AI 自助视力测量仪 过程照片 4
System Architecture

系 统 架 构

[ 系统架构图占位 ]
ESP32-S3OpenCVMediaPipeTFT 显示屏AI 视觉识别

蔡同学

看到低年级的小朋友对着屏幕自己完成测量,比任何奖项都让我高兴。

Tech Stack

技 术 栈

ESP32-S3OpenCVMediaPipeTFT 显示屏AI 视觉识别
More Works

查 看 其 他 项 目