生成式人工智能领域的领军者OpenAI,曾吹嘘其人工智能转录工具Whisper具有接近 “人类水平的稳定性和准确性”。
然而,随着该转录工具在各行各业被越来越多地普及使用,其问题似乎也正开始凸显——根据业内媒体对十多位软件工程师、开发人员和学术研究人员的采访,如今Whisper所存在的一个重大缺陷已愈发不容忽视:它很容易会编造大段文字,甚至是整段句子。
这些业内专家表示,一些编造出的文字——在行业内被称为“幻觉”,可能包括种族言论、暴力措辞,乃至完全杜撰出的医疗建议。
专家们越来越担心这种“胡编乱造”可能造成严重后果,因为Whisper当前正被全球多个行业用于翻译和转录采访内容、生成文本以及为视频制作字幕。虽然OpenAI曾警告不应在“高风险领域”使用该工具,但目前一些美国医疗中心都正开始使用基于Whisper的工具,来记录患者与医生间的对话。
据经常使用Whisper的研究人员和工程师表示,他们在工作中经常会遇到该工具出现“幻觉”。例如,密歇根大学的一名研究人员在研究公共会议的转录准确率时发现,他所审核的每十份音频转录中,便有八份存在“幻觉”。
一位机器学习工程师则称,在他分析的100多个小时的Whisper转录中,他最初发现大约有一半存在“幻觉”。第三位开发人员指出,在他用Whisper创建的26000份记录中,几乎每一份都发现了胡编乱造的现象。
即使是在那些录制良好的简短音频样本里,问题也依然存在。在最近的一项研究中,计算机科学家们在审查的超过13000个清晰音频片段中发现有187个存在“幻觉”问题。
研究人员表示,这种趋势将导致在数百万段录音中出现数以万计的错误转录。
后果严重
曾在拜登政府领导白宫科技政策办公室工作的Alondra Nelson表示,这种错误可能会造成“非常严重的后果”,尤其是在医院里。
目前,包括明尼苏达州的曼卡托诊所和洛杉矶儿童医院在内的超过30000名临床医生和40个卫生系统,已开始使用法国AI诊疗公司Nabla基于Whisper打造的工具。
Nabla公司的首席技术官Martin Raison表示,该工具根据医学语言进行了微调,以转录和总结医生与病人间的互动。该工具转录的就诊记录目前已多达约700万次。该公司官员还指出,他们知道Whisper会产生幻觉,并正在努力解决这个问题。
目前担任普林斯顿高等研究院教授的Nelson表示,“没有人希望出现误诊。(该领域)应该有更高的标准。”
目前,Whisper还被用于为聋人和听力障碍者制作字幕——这是一个特别容易因出现错误转录而陷入困境的人群,因为聋人和听力障碍者完全无法识别“隐藏在所有文本中”的编造内容。
这种幻觉在Whisper中的普遍存在,已促使众多专家、倡导者和OpenAI前员工呼吁美国政府考虑制定人工智能法规。他们指出,OpenAI至少需要解决这一缺陷。今年2月因担心公司的发展方向而从OpenAI辞职的工程师William Saunders就表示,如果OpenAI愿意优先解决这个问题,这个问题似乎是可以解决的。而如果你长期把它放在那里,而人们对它的功能过于自信,并把它集成到所有这些其他系统中,那就有麻烦了。
虽然大多数开发人员都认为转录工具不可避免会拼错单词或出现其他错误,但不少工程师和研究人员表示,他们从未见过其他人工智能转录工具像Whisper一样容易产生幻觉。
目前,该工具已被集成到OpenAI旗舰聊天机器人ChatGPT的某些版本中,同时也是甲骨文和微软云计算平台的内置产品,为全球数千家公司提供服务。它还可用于将文本转录和翻译成多种语言。
仅在上个月,开源人工智能平台HuggingFace上的一个Whisper最新版本就被下载了420多万次。该平台的机器学习工程师Sanchit Gandhi表示,Whisper是最流行的开源语音识别模型,从呼叫中心到语音助手,都内置了Whisper。
康奈尔大学教授Allison Koenecke和弗吉尼亚大学教授Mona Sloane,目前已研究了他们从卡内基梅隆大学的研究资料库TalkBank中获得的数千个简短音频片段。他们发现,近40%的幻听是有害的或令人担忧的,因为说话者的原意可能被曲解或歪曲。
研究人员并不确定Whisper和类似工具产生幻觉的原因,但软件开发人员表示,这些胡编乱造往往发生在出现停顿、背景声音或音乐播放时。OpenAI此前在网上披露的信息中曾建议,不要在决策情境中使用Whisper,因为准确性上的缺陷会导致结果上的明显缺陷。
而针对最新爆料,有OpenAI发言人回应称,OpenAI会在接下来的模型更新中加入相应的反馈机制。