去年在丹佛举行的超级计算会议上,当我在展厅走动时,我发现了一个有趣的项目。来自路易斯安那州立大学的博士生 Shayan Shams 架设了一个大型显示器,显示网络摄像头图像。图像上覆盖着带有标签的彩色框。当我仔细观察时,我意识到这些标签标识了桌子上的物体。
当然,我必须试用一下。当我移动桌子上的每个物体时,它的标签也跟着移动。我将一些在镜头外的物体移入视野,系统也识别出了它们。
当我向 Shams 询问这个项目时,我很惊讶地得知他不需要编写任何代码来创建它——整个项目都是由开源软件和数据组合而成的。Shams 使用了用于对象识别的上下文中的通用对象 (COCO) 数据集,减少了不必要的类别,使其能够在性能较低的硬件上运行。“检测某些类别,例如飞机、汽车、公共汽车、卡车等在 SC 展览馆中[是]不必要的,”他解释说。为了进行实际检测,Shams 使用了You Only Look Once (YOLO) 实时对象检测系统。
硬件是设置中唯一不是开源的部分。Shams 使用了 NVIDIA Jetson TX2 模块来运行检测。TX2 旨在充当 AI 推理的边缘设备(而不是计算量更大的 AI 训练)。这款 300 美元的设备允许实时视频分析在远离中央计算资源的情况下进行,这对于自动驾驶汽车以及网络延迟或带宽限制需要在边缘计算的其他场景至关重要。
虽然此设置有趣地演示了实时图像识别的功能,但 Shams 的努力远不止于简单地识别钢笔和咖啡杯。在 LSU 教授 Seung-Jong Park 的指导下,Shams 将他的研究应用于生物医学成像领域。在一个项目中,他将深度学习应用于乳房 X 光检查:通过分析乳房 X 光图像,医疗专业人员可以减少他们进行的不必要的活检次数。这不仅降低了医疗成本,而且减轻了患者的压力。
Shams 还在参与 LSU 的 SmartCity 项目,该项目分析来自巴吞鲁日交通摄像头的实时数据,以帮助检测抢劫和酒后驾车等犯罪活动。为了解决伦理问题,Shams 解释说,除了检测到异常或犯罪活动的视频外,所有视频都会被丢弃。对于这些视频,特定车辆或人员的视频会被加盖时间戳、加密并保存在数据库中。任何模型标记为可疑的视频都会由两名现场系统管理员审查,然后发送给官员进行进一步调查。
与此同时,如果您有兴趣尝试图像识别技术,那么配备网络摄像头的 Raspberry Pi 就足够了(尽管识别可能不是即时的)。COCO 数据集和 YOLO 模型是免费提供的。随着自动驾驶汽车和机器人的出现,实时图像识别经验将是一项宝贵的技能。
评论已关闭。