AI加手语识别技术革新与应用前景线上圆桌论坛

豆抖大人2025-12-06 20:12:10

4GPT横空出世，AAI突然走进了大众的视野。但在许多人看不见的地方，早有一群AAI学者将关注投向了社会边缘群体听障人士，他们致力于用科技搭建沟通的桥梁。在雷锋网组织的AI加手语识别技术革新与应用前景线上圆桌论坛中，四位教授凭借对听障社群和AI技术的深刻理解，从手语谈到与计算机视觉技术、与闫学技术的结合，揭开了AAI加手语的神秘面纱。

我是来自上海大学文学院的尼兰，从20年前吧就开始做手语方面的研究。我们在上海大学呢有一个中国手语及聋人研究中心。除了做一些文学的研究，也做一些社会语言学的调查，能够让大家了解这个群体和他们的语言。谢谢。

那我觉得倪老师太谦虚了。尼兰老师是咱们国内的第一个手语的博士，做这种手语识别的跟语言学，包括就是说确实懂手语的老师要一起合作。这是像这么一盏啊，谢谢你米兰老师，大家好，我是来自上海交通大学的苏电波。我当时做的时候呢，就是为了让机器人能够更好的除了语言、除了表情、除了人脸等等这些显示的模式以外。通过一些下意识的行为或者举动，甚至一些表情能够识别人类的一些意图，或者是人类一种情绪。那么在这个里面呢，手势或者肢体语言的是能表达情感的一个非常必不可少的一些表现吧。所以从这个角度出发，我来研究手语的。

呃，大家好，呃，非常荣幸能有这个机会和大家线上交流一下。我们在上海大学做的一些手语的研究啊，也向大家做学习。我呢在上海大学计算机工程与科学学院开始做手语的研究，是从17年，算是一个新手。但是非常幸运，我在开始做手语的时候呢，就是得到了倪老师的启发和指导。我们上海大学也有专门的语言采集实验室，也有专门的语言的推广基地，开展了这个相关的一些教学课程的建设。目前还非常的学习，希望在后面能得到更多的这种呃发展，能够和大家做更好的一个合作。

我是98年到卡内基梅隆大学，开始借助人的表情识别的。从08年加入纽约城市大学，当时我就想我以后做哪些东西能够比较长期的做对这个社会又有些帮助呢？后来我就想到了能够把计算机视觉的研究用到帮助这些有客户需求的人，尤其是手语识别，它它包含了就是人的表情、手还有身体的一些动作。这样的话就可以把我的研究兴趣和这种对社会的贡献可以巧妙的结合在一块儿嘛。这是你开始做这个方向，始终希望今天的这个论坛有一些更深的名将来的研究也好，或者产业落地也好，更实际的指导意义也好،希望能有这样的参考。

我们认为大模型是在大量的海量的文本语料上学到的是语义之间的关联性。手语识别呢处理的是视觉方式传达的一个语义。人呢在表达这个自己社会生活的时候，在语义空间中还是有很多相通性的。所以大模型的成功对我们去做手语理解的就是可以去借鉴它对语义空间的构建，加速啊手语理解的研究。

呃，这是我们现在的一个猜想啊，但是还没有去真正去付诸实践。另外的话就是那个Sara这样的一个大模型，在多模态上面展现的能力非常强大۔手语本身也是一个多模态的形式，它的形式是视觉性，它的内容实际上传达的信息是一个语言信息。所以我们也在想这个sa这种多模态的工作方式呢，也可以给我们很好的一个启发。主要是这样的两个方面吧，就是一个是语义，一个是这种多模态对手语应该是有支撑的。

衬CP当时在我们语言学界是引起了很大的一个轰动。以前觉得哎呀理解语言应该靠我们来去给大家提供一些有价值的信息。结果发现设计GPT啊，这个sa呀都不需要语言学家，这个好像只要有数据就可以了当我们发现一个东西没办法结构的时候，它是一个混沌一体的东西。但是结构化分析之后，你就可以反复应用，这就是规律，就是有结构。

在ChatGPT早期这个3.0的时候，它里面有一些句子的搭配上是有问题的。那么在不断的训练之后，它就可以扩展了。那我们是不是在这个这个手语的识别的时候，也能找到一些关键的这种结构给拓展的。比如我们知道动词手语的动词是有方向的啊，我爱你然后你爱我这种方向性是不是一种结构？在这个的时候我就不会把它识别成两个手势。在这个句子中的时候我就会知道哦，它的主宾语是变换的。

Chat GP告诉我们需要大量的数据的堆积，告诉我们有一些更核心的一些信息是需要早期注入到这种标注里。我发现对ChatGPT每次问一个问题再去问的话还是有有差别的。它在我们缺乏数据的情况下،它的数据不断的去自己学习去用。所以当我们缺乏大量的手语语言学者，甚至这种标注人员的时候，来实现这个自动标注啊，可能是是可以解决大数据的这个问题。因为它也在自适应的去学习。

从这个呃手语识别角度来说呢，我个人的感觉就是sorry，对手语识别的帮助可能要超过呃ChatGPT。但是呢它可能更多的是要基于的视频来识别所谓的手语，能够让机器人生成一段手语给残疾人来表达，或者说机器人通过自己的手语解释给这个残疾人听了这么一段过程里边，我觉得可能真的是要理解就是人类的这种思想或者意图，这种计算模型是什么。

一个正常人和一个聋哑人来进交流的时候，看到各种各样的手势的时候，究竟은得到了这个手势里面的什么样的特征信息，来理解残疾人的含义。计算机的计算能力又远远超过人的这种能力，他一定要通过计算的方式来理解残疾人的手势的这个过程中间，他能够用远超人类的计算的能力来理解呃残疾人的手势的这种含义的时候،他究竟应该用什么样的特征，用什么样的模型来时候，未必这个模型或者这个特征就是人能够用的，或者人需要的能力。

所以我一直是在怀疑，我们以前老是说啊人工智能首先要学习人类是怎么样获得这个智能，或者这个智能进化的这种过程。我现在就怀疑计算机来发展人工智能时候，或者发展计算智能的时候，是不是一定要走人类智能发展进化那条路。

我觉得要回答你这个问题还挺难的。因为人的这个智能怎么出来大家还不清楚。任何有关人的智能进展都会对人工智能计算机的这种发展有它의飞跃作用。它의GD它有很大的飞跃。但是他给你提供的那种想法也好，答案也好，他是不有时候我们就开玩笑嘛，就是开着GPT，他经常一本正经的胡说八道，说的好像有鼻子有眼的。但其实你仔细去分析它是错的，为什么错的？因为他没有判断能力，只有根据以下数据来得出来结论，包括销量也是一样，你给他几个词，他里面的一些事情，但是呢你说它真的符合你最初想要的吗？不一定。

所以说我觉得用这种大数据来做这种收益的事。这个研究团队收集数据采取了一个直接重新退过去啊，把任何的视频旁边是有一个小框框，有口语的这种翻译的话，把它拿下来，用他演讲的内容当成标注小框框里面的这个手语来做一些识别，也得到不错的结论。但是呢那比较官方，非常有限。但是我将来的话也有这种大的算。也可以作为有形的一种备用的袋用现在的自主学习也好，或者说不用标注的学习，把其中的不准确的呃，自动的把最关键的雨衣的部分帮助你理解，知道他在说什么，其实已经足够了。我们不需要精精准的然后去识别美子。这个我觉得当然了，必须的肯定会更好。现在大家一直在朝着这个方向走嘛，毕竟必须要做多么台，这是毫无疑问的。

这个问题呢让我想到了一个我们国家很著名的语言学家叫赵元任。他到任何一个地方就能很快的学会那个地方的方言，而且他还会很多多国的外语，这个也是人类智能很强大的一个典范。但是这这种例子可能是特别少。如果说我们的人类能够做到这样的一种能力，就是对多种方言多种语言的适应性。那我们也是有可能让手语的GPT模型做到这种多种方言的这种适配。因为语言虽然说千变万化，但是每个地方的语言它还是有共性的，不是说完全不可以互相学习的对吧？所以我觉得这个这个是一个很好的想法。我相信手语比那个有声语言的共通性更多。

之前有学者做过不同手语的人的这种可懂度要高于有声语言的这种使用者。之前好像周文纲教授也跟我说过，就是说他们也用用其他的一些啊国家的表，包括美国手语啊、德国手语，就是训练他们的数据集。那肯定是里面有一些东西是共同的对吧？因为我们所有现在分析的都是基于美国Williams的这个啊啊手形位置方向啊，然后运动切分它的一些基本的特征啊，包括现在加上表情。那么这些东西应该是放在每一个人语言，每一种手语中，它都是有价值的。

我自己有一个小小的这种想法，人类当然有很多不同的语言，那么又有很多就是呃所谓的手语了，肢体语言啊，甚至方言啊什么各种各样的东西都是很很个性化这种表达方式。但这个是不是人类通过辨识个体脑部的方式就可以取代了语言的感知和手语的识别，这是不是一条路？所以我也是大家一起来探讨这个问题。因为伊朗脑波的感知更个性化了。不是伊朗马斯克不一直在做新接口的这个东西，最近好像也取得了一些进展，那是那是最直接化的一种。

然后我自己对这个就是说这种手语GPT的看法是，从技术上来讲，如果我们有大规模的数据在全球来讲，我觉得是可惜。包括就是以前就是不同语言之间的话，就是大家都觉得很难，难在ChatGPT英文中文随便切换，没有任何的问题啊。从实施上来讲，我是觉得还有困难，因为毕竟龙人的这种受众人群相对来说比较少。当你需要大的算力，大的技术的支持的话，有没有政府或者产业愿意投入这么大数据量的大的财力来做这种受众人群比较小的考虑。残障人士本来对不到科技的接受程度，就有就有一定的困难，保护了世界的老龄化，一部分老他의听力损失，视力损失。我们怎么样能让这些弱势群能够享受到这种先进科技的荣誉，这是需要的，光靠个人是很难的。
### 解锁AAI加手语识别的神奇世界：全方位攻略

在当今科技飞速发展的时代，AAI加手语识别技术正逐渐走进我们的视野，为听障人士带来了新的沟通希望。这项技术融合了先进的计算机视觉技术，通过大模型的助力，实现了多模态的手语识别。

首先，让我们深入了解一下AAI加手语识别技术的原理。它借助计算机视觉技术，精准捕捉手语的动作、表情等细节，再通过大模型的深度学习，理解手语背后的语义。这种多模态的识别方式，大大提高了手语识别的准确性和效率。

对于想要学习手语的朋友来说，掌握一些基本的手语动作是关键。比如，简单的问候、数字、颜色等手语，都可以通过不断练习来熟练掌握。同时，了解手语的语法和表达方式，能让你更好地与听障人士交流。

在实际应用中，AAI加手语识别技术有着广泛的用途。它可以应用于教育领域，帮助听障学生更好地学习知识；在社交场合，让听障人士能够更自如地与他人沟通；在公共场所，如机场、车站等，为听障人士提供便利的信息获取服务。

如果你对AAI加手语识别技术感兴趣，还可以参加相关的培训课程或线上学习资源。通过专业的指导和实践，你将更深入地了解这项技术，并提升自己的手语交流能力。

总之，AAI加手语识别技术为我们打开了一个全新的沟通世界。让我们一起关注和学习这项技术，为听障人士搭建更畅通的沟通桥梁，共同创造一个更加包容和温暖的社会。
AAI加手语, 手语识别, 计算机视觉技术, 大模型, 多模态