(相关资料图)
诸如卷积神经网络(CNN)之类的深度学习算法已在各种任务上取得了显著成果,包括那些涉及识别图像中特定人物或物体的任务。基于视觉的人类动作识别(HAR)是计算机科学家经常尝试使用深度学习解决的任务,它特别需要识别图像或视频中捕获的人类动作。
HITEC大学和巴基斯坦伊斯兰堡基础大学,韩国世宗大学和中正大学,英国莱斯特大学和沙特阿拉伯苏丹王子大学的研究人员最近开发了一种新的CNN,用于识别视频中的人类行为。该CNN在Springer Link的“多媒体工具和应用程序”期刊上发表的一篇论文中进行了介绍,经过培训可以区分几种不同的人类动作,包括拳击,拍手,挥舞,慢跑,跑步和散步。
研究人员在论文中写道:“我们设计了一种新的26层卷积神经网络(CNN)架构,用于精确的复杂动作识别。” “这些特征是从全局平均池化层和完全连接(FC)层中提取的,并通过建议的基于高熵的方法进行融合。”
当试图识别人类在图像或视频中的动作时,CNN通常会将其分析重点放在许多潜在的相关特征上。但是,某些人类动作(例如慢跑和步行)可能非常相似,这使得这些算法很难区分它们,特别是如果它们专注于相似性核心的特征时。为了克服这一挑战,研究人员使用了一种方法,该方法将称为Poisson分布的特征选择方法与单变量测量(PDaUM)合并在一起。
研究人员观察到,CNN所基于的分析功能有时可能不相关或多余,这导致它们做出错误的预测。为了降低发生这种情况的风险,他们的PDaUM方法仅选择最强大的功能来识别特定的人类行为,并确保CNN基于这些功能做出最终预测。
研究人员在HMDB51,UFC Sports,KH和Weizmann数据集这四个数据集上训练和评估了两个截然不同的CNN,一个极端机器学习(EML)和一个Softmax分类器。这些数据集包含几个人类执行不同类型动作的视频。
然后,研究人员比较了两个CNN的性能,这两个CNN均使用其特征选择方法进行了增强。在他们的评估中,ELM分类器的性能明显优于Softmax算法,可以从视频中识别出人类动作,其在HMDB51数据集上的准确性为81.4%,在UCF Sports数据集上的准确性为99.2%,在KTH数据集上的准确性为98.3%,在KTH数据集上的准确性为98.7%。魏茨曼数据集。
值得注意的是,PDaUM增强的ELM分类器在准确性和预测时间方面也优于研究人员将其与之相比的所有现有深度学习技术。因此,这些结果凸显了研究人员介绍的特征选择方法在提高CNN在HAR任务上的性能方面的潜力。
将来,本文介绍的ELM分类器和PDaUM方法可以开发更有效的工具,以自动区分人类在录制和实况录像中正在做什么。这些工具可以通过几种不同的方式证明其价值,例如,帮助执法人员监视CCTV视频上嫌疑犯的行为,或者允许研究人员快速分析大量视频。
关键词: