之前我们写过一篇文章——《别再问我聋人为什么要去音乐节了》,科普了海外音乐节的特别岗位:手语翻译员。
听障人士虽然听不见或者听不清音乐,但他们可以通过手语翻译员感染力极强的手部动作、面部表情、肢体语言,感受到音乐的律动、氛围的热烈。
这可能是健听人意想不到的手语场景。其实无论线上线下,需要手语翻译员的地方还有很多,然而僧多粥少。
英国人 Sally Chalk,2002 年开了一家英国手语翻译公司,经过 20 年的经营,公司规模可观,预约手语翻译员的时间也缩短到了 30 分钟,但她还是不满足。
听障人士能不能马上获取手语翻译,就像在视频网站打开字幕一样?
她的答案是,让 AI 加入进来。
从线上到线下,应该让听障人士多用「母语」
2022 年,Sally Chalk 开了一家新的初创公司——Signapse,专注开发生成式 AI 手语翻译软件,将书面文本实时翻译为美国手语和英国手语。
今年 5 月,Signapse 拿到了 200 万英镑的种子轮融资,其中 50 万来自英国政府。
他们瞄准的一个线下场景,是火车站、机场等交通枢纽。
美国的辛辛那提/北肯塔基国际机场,已经和 Signapse 合作,在屏幕上投放美国手语,提供欢迎、安全、出发、到达等信息。
AI 是如何发挥作用的?Signapse 基于大型手语数据集,并通过生成对抗网络(GAN)和深度学习技术,创造了逼真的、翻译尽可能准确的虚拟手语翻译员。
这些虚拟形象基于真人手语翻译员,每次被商用时,真人都会拿到分成。
考虑到机场的目的地、出发时间、站台号码经常变动,通过与交通数据集成,Signapse 的手语翻译可以做到实时更新。
同时,Signapse 没有忽视线上的需求,也为网站和视频流媒体提供手语翻译。
尽管 YouTube 等网站都有隐藏式字幕了,但相比字幕,听障人士往往更喜欢手语,因为手语具有独立于其他语言的语法结构和表达形式,会让他们的上网体验更好。
你应该有注意到,提到手语时,我们会用美国手语、英国手语的说法。就像全世界的口语和文字互不相通,手语也包罗万象。
联合国统计,全世界大约有 7000 万人将手语作为主要的交流形式,全世界使用的手语有 300 多种不同类型。仅在美国,就有 50 万人使用美国手语。
所以,Signapse 目前所做的其实也很有限,只覆盖到了使用美国和英国手语的少部分人,以及有限的垂直场景。过去两年,Signapse 每天创建约 5000 个英国手语交通公告。
Signapse 希望,未来他们的服务可以更加普适,拓展到教育等场景,也更加个性化,支持用户自定义虚拟手语翻译员的外观。
一方的水土养一方的 AI,国内大厂也有类似的手语产品。
AI 手语主播们,曾经出现在腾讯的王者荣耀直播间、华为的开发者大会。
2022 年冬奥会,央视新闻和百度智能云曦灵联合打造的 AI 手语主播上线,天津理工大学聋人工学院参与了手语语料标注。
而在 AI 手语主播背后,百度智能云曦灵的 AI 手语平台,还能满足医院、车站、银行等不同场景的快速手语翻译需求,和 Signapse 英雄所见略同。
更丝滑的出行、更沉浸的观看体验、更无障碍的服务……
如果说手语翻译的改进空间比海更深,至少听障人士获取公共信息的方式,正在被 AI 改变,持续地泛起可见的浪花。
手语界的多邻国们
听障人士也要「听」音乐?听障人士看文字是不是就够了?这是典型从健听人的逻辑出发考虑问题。
其实,我们应该反过来问:音乐节怎么让听障人士也能有参与感?互联网怎么让听障人士有更愉快的冲浪体验?
所以,不是某个人流如织的车站多出了一块屏幕,而是那块屏幕本就该出现在那里。
更多公司、更多个体正在借助技术的力量,让手语变得越来越有存在感。
让健听人学习手语,就是其中一种比较容易想到的思路。
PopSign 是一款边玩边学手语的 app,使用 AI 手语模型,由 Google、罗彻斯特理工学院、佐治亚理工学院合作开发,可在 Android 和 iOS 上使用,最主要的用户群体是听障孩子的健听父母。
吸取背单词从「abandon」(放弃)开始、也以放弃终结的教训,PopSign 不是无聊地播放手语视频,而是用小游戏增强学习手语的兴趣和信心,和疯狂催你打卡的多邻国异曲同工。
想做手语界「多邻国」的,还有一家叫作 SLAIT 的美国公司。他们提供的也是沉浸式的互动课程和测验,如果你做对了,AI 导师会给予你实时反馈,提供适量情绪价值。
不过,教手语只是 SLAIT 退而求其次的选择,一开始他们想做的,其实是实时视频聊天和翻译的 AI 手语工具。
但巧妇难为无米之炊,SLAIT 是个小团队,没有足够的数据,也没有足够的资金,比起直接翻译手语句子,教单个手语词汇更加简单,但同样有价值。
翻译手语的辛苦活,就交给财大气粗的巨头们解决了。
2023 年 8 月,联想巴西开发了一款基于 AI 的实时聊天翻译 app,用来翻译葡萄牙语手语,未来计划覆盖到全球更多手语。
当听障人士对着设备的摄像头打手语,算法会即时将其翻译成葡萄牙语文本,传送给另一端的接收者。
这样的工具应该多多益善,恰好和手语教学服务互补,让听障人士站在更主动的位置,更多地成为对话的发起方。
Google 则更加产品导向,发起了 2023 年 Kaggle AI 手语识别竞赛。
这场竞赛的主题很有意思——参赛者们基于听障人士自拍得到的 300 多万个手指拼写字符,构建使用智能相机快速跟踪手指、手掌和脸部的手指拼写模型。
手指拼写属于手语的一种,使用手指的不同形状和位置来表示字母。对于很多残障人士来说,使用手指拼写,比在智能手机的虚拟键盘上打字快得多。
所以,改进手语识别、构建手指拼写模型,是为了让听障人士可以直接用更擅长的手语,而不是打字和说话,在手机上使用搜索、地图、短信等功能。
更进一步,这也有助于开发手语转语音的应用,打破听障人士无法用语音召唤数字助理的僵局。
或者说,很多语音优先的产品,从一开始就没有考虑不善口语的用户,是时候补上漏洞了。
Google 首席无障碍研究产品经理 Sam Sepah,在接受福布斯采访时提到,他们的目标是,让手语成为使用 Google 产品时的通用语言选项。
其实,这也应该是整个互联网的目标——让手语成为数字世界的通用语言。
多邻国作为一款语言学习软件,为每个人提供了平等的受教育机会。而 AI 手语产品们让人感觉到的是,本不该有的限制正在解除,哪里都可以互通有无。
AI 越强大,越要珍视人性
5 月,GPT-4o 发布时,一个 Demo 视频很打动人,GPT-4o 充当了眼睛,让视障人士也能「看到」周围的环境。
视障人士从 AI 口中知道,白金汉宫上空飘扬着旗帜,河里的鸭子悠闲地嬉戏,出租车就要到达跟前,他的嘴角随着 AI 的欢快语调而上扬。
俗话说技术打开了新世界的大门,是否可以反过来理解,残障人士们原本生活在一个不为他们设计的世界?
世卫组织数据显示,全球 4.3 亿人需要通过康复治疗解决残疾性听力损失。手语翻译的数量远远不够,在美国,听障用户与美国手语翻译员的比例大约为 50 比 1。
所以目前来说,AI 手语只是起到补充和锦上添花的作用,还不到「抢饭碗」的地步。
以上提到的 AI 手语产品,基本都是小规模的、垂直的、扎根特定地区的,弥补真人翻译不可及的地方。
上个月,我还看到了一款很酷的 AI 手语产品。
罗格斯大学、卡内基梅隆大学等几所大学的研究人员,将公开手语视频处理成包含 8 种手语的数据集,训练了 SignLLM——第一个多语言手语生成模型。
覆盖多种手语,可以通过文本提示词生成手语,那不是太方便了吗?但研究人员说了,请外界不要夸大他们的研究成果,演示视频并非模型的直接输出,实际制作起来仍然很麻烦。
同时,也有听障专家站出来表示,这些视频的手语翻译质量参差不齐,有的让人半懂不懂,有的完全理解不了,而且缺乏面部表情,项目有潜力,但还要改善。
最重要的是,要让听障用户参与,发表他们的意见,共同完善产品,因为「没有我们的参与,就没有关于我们的决策」。
一个微妙的感受是,无障碍产品似乎很难做得「性感」。
它们往往没法像大模型和 AI 硬件的发布一样让人心神激荡,总是和你说,功能有哪些,服务于谁,希望以后可以做到更好,不会「贪多嚼不烂」。
并且在风投的眼里,它们也是小众的、潜力未知的、未必有投资回报的。
但「AI 教母」李飞飞曾说,AI 是为了帮助人,AI 越强大我们越要珍视人性。
所有人都应该不怕错过航班,所有人都应该可以和产品交互,所有人都应该享受音乐节。
那些曾经不被看到的、听到的也该被技术的光芒照耀。打个共鸣的响指吧,让更多人的需求被满足,更多人的能力被增强,让我们得到更多,失去更少。