内容目录
Toggle前言:AI 是大家想像中的「模范实习生」?
当一家中小企业开始扩张,第一个难题通常不是市场或产品,而是人手不够。想像今天你就是这间企业的负责人,你可能需要身兼三职:回覆客户、写文案、同时处理顾客评论。
而在这些繁琐但重要的任务中,你开始听到一种可能改变你工作方式的新帮手:AI 人工智慧,或更具体地说:大型语言模型(Large Language Model, LLM)。
这类AI 工具被描绘得如梦似幻,号称可以帮你撰写文案、翻译语言、总结顾客回馈,甚至即时回应客服问题。听起来就像是一位永远不需要休息、记忆力惊人、能说多国语言的虚拟实习生,总是在线、随时待命。这样的角色听起来肯定让老板们非常心动,但也让人不禁好奇:这位「AI 实习生」,真的已经准备参与企业的真实营运现场了吗?
为了回答这个问题,来自英国赫尔大学(University of Hull)与布拉德福德大学(University of Bradford)的三位研究者——Julius Sechang Mboli、John GO Marko 与Rose Anazin Yemson——决定进行一场实验。他们请Google 旗下的对话型AI「Gemini」(前BARD),为其安排一项看似简单、实则关键的任务:简化Disneyland 的顾客评论。
这些评论来自全球不同地区,语言风格多样、情绪强烈,正好可以测试AI 是否能真正「理解」语意、筛选重点,并转化成更清楚、有用的内容,基本上就是一个中规中矩的实习生在做的事。
这项任务表面上像是请实习生帮忙整理客服纪录、挑重点,实际上却是自然语言处理(NLP)技术的实力考验。从语意理解、重组句构,到避免误解或错译,这场实验给AI 安排了一次「实务验收」,验证它能否胜任企业沟通中的重责大任。
今天这篇文章,就带你从这场研究的角度出发,看看这位AI 实习生的实际表现如何。我们将以企业的视角,重新检视AI 是否能真正成为文字工作中的好帮手,并深入探讨它的优势与限制。你准备好了吗?一起来看看Gemini 上工的第一天发生了什么事。
本文所参考的研究连结: Are Large Language Models Ready for Business Integration? A Study on Generative AI Adoption
什么是大型语言模型?像图书馆助理又像即席作家
大型语言模型(LLM)这个名字听起来有点距离感,但如果用一个比喻来说,它就像是一位总是在图书馆待命的助理,记得你曾经说过的每一句话、也能随时帮你组出一段新内容。
更具体一点,这位助理并不是真的「理解」你在说什么,而是透过统计大量语言的出现机率,来「预测」你接下来会说什么、想听什么。就像是当你说「请简化这段评论」,它会在脑中搜寻所有曾看过的简化句子,再综合上下文,拼凑出一段看起来合理的回答。
举个更直观的例子,如果人类写作是「内化理解后再输出」,那么LLM 的创作更像是「接龙游戏」,它从大海捞针中找到可能的组件,然后重新排列组合出一段文字。这种能力来自于它在训练阶段吸收了大量网路资料——把整个Wikipedia、新闻、Reddit、商品评论都读过一遍,但它并不具备真正的常识判断。
实验开始:请AI 帮忙简化4 万笔Disneyland 顾客评论
这篇研究就像给这位AI 实习生安排了第一个实习任务:处理Disneyland 顾客留下的超过42,000 则评论,并进行简化。这些评论来自全球不同地区的顾客,用语千变万化,有的语气兴奋,有的情绪激动,有的杂乱无章。企业若能把这些评论转化成简洁有用的洞察,对行销、客服、产品设计都有极大帮助。
实验方式非常实用,研究员们设计一套机器人流程自动化(RPA)的流程图:
先用Python 程式读取每一则原始评论,再透过Google Gemini 提供的API,把固定的prompt「Simplify: review text」送出,然后接收AI 回传的简化版本。因为一次处理太多会被误认为滥用,他们还特地在每笔请求间设置了60 秒的延迟。
这个流程乍看之下好像很简单:送出一句指令,AI 就回你一段简化后的内容。
但实际上,每一次的API 请求,就像是你把一位「对公司一无所知的新来实习生」拉进会议室,然后递给他一段顾客留言,接着要他在没背景知识的情况下,立刻说出更简单、但又不失重点的版本。
AI 并不是单纯在「翻译」语言,而是需要进行更复杂的三步骤:
第一,它要能读懂原本的意思(语意理解);第二,它要判断哪些资讯该留下、哪些可以省略(资讯重组);最后,还要用自然、流畅的句子重新写一遍(语句生成)。
换句话说,这不是请AI 做逐字转换,而是要它像一个懂文字、懂情绪的沟通高手,帮你把一段顾客话术「消化吸收」后,变成一个更清晰好懂的版本。而这其实对AI 来说一点都不容易。
AI 的实习表现如何?七成像样,三成出错,还会「装傻」
最后的结果是,在42,000 笔资料中,AI 成功简化了约3324 笔评论,也就是不到8%。而这其中,大约四分之三看起来算合理,其余则出现错误或「拒绝回答」的情况。
我们可以想像,AI 实习生在处理评论时像是正在听一段顾客抱怨,然后回报给老板它的摘要。理想情况下它会说:「好的,我来帮你简单整理一下:这位顾客觉得场地漂亮,但人太多太挤了。」这是它大部分成功的案例——语气稳定,语意清楚,有时还会补上一句「希望这对你有帮助」。
但当它出错时,状况就像一位实习生在上班时间突然发呆、不懂装懂、或是说「我不知道怎么办」。有些错误回传格式混乱、有些则直接跳出一句:「我只是一个语言模型,无法帮助你。」更有趣的是,同样结构的评论在不同情境下会得到不一样的结果:上一则它说会帮忙,下一则却说帮不了,这种不一致让人怀疑它是不是心情不好了XD
这些情况反映出LLM 并非总是稳定的运算工具。它不像Excel 会永远照公式跑,而像是一位「会写诗的机器人」,有时灵感满满、有时失常出错,而我们难以预测下一次会是哪一种。
主管怎么知道AI 有没有做好工作?语意相似度是关键
那这些简化的结果到底有没有「讲对话」?研究者用了一个叫「语意相似度(semantic similarity)」的技术工具来评估。这工具的原理就像是在比较两个人说话的「意思角度」是否一致,而不是只比字面是否一样。
他们使用的是名为Sentence-BERT(SBERT)的模型,可以把一段文字转成「向量」(vector),也就是数学上的座标点。接着,透过「余弦相似度(cosine similarity)」来计算两段文字之间的角度,如果两段话角度接近,就表示语意一致;若角度偏离,则说明意思偏掉了。
就好比你说:「这部电影我看得很感动」,AI 回你:「电影不错,我流了几滴眼泪」,这种语意是接近的;但如果它说:「我不喜欢爆米花,太甜了」,那就完全大偏题。
透过这样的比对,研究发现AI 的确有不少回覆能保有语意核心,但也有部分简化版本「简化过头」,导致原本的情感、细节都被删去,变得空洞无意义。
所以企业能不能把工作交给AI?这得看你怎么用
从这个实验可以看出,AI 就像一位表现还不稳定的新实习生。如果他发挥得好,真的可以帮你节省大量时间,把顾客回馈快速转化成具体洞察;但当他失常时,可能会误解顾客语气、错翻重点,甚至乱讲话。
如果企业主未来真的想把AI 融入流程,还是建议设定「人机共审」的机制:让AI 负责初步整理,人类负责最后审稿。这样的合作方式,才有机会把AI 的效率与人类的判断力结合在一起,达到最好的效果。
企业不能期待AI 做到100% 正确,就像不会让实习生一个人签合约一样。真正聪明的做法,是让AI 帮你把80% 重复性的工作先处理掉,再把精力集中在最关键的20%。
结语:AI 是学生,不是老师,你要懂得引导它
这篇研究的lesson learn 是:AI 虽然强大,但目前还不是万能,因为技术上的限制与LLM 的本质,它更像是一位还在成长的学生,还不是可以独当一面的老师或主管。可以帮你加快流程、提供灵感,但不能取代人类的判断与沟通细腻度。
当我们在讨论「AI 是否已经准备好进入商业世界」时,其实我们更该思考的是:「我们自己是否已经准备好,去正确地使用AI?」这才是推动AI 成功落地的关键。
AI 是工具,也是伙伴,甚至可以是团队中的一员。只要用得对,它能让中小企业像大公司一样高效;但如果用错,它也可能让你陷入资讯迷雾,误解顾客、错失良机。
与其问「AI 能不能取代我」,不如问「我能不能善用AI,变得比过去更强?」
相关报导
5 分钟学美股》辉达NVIDIA是做什么的?靠显卡怎么成为世界第一?
相关文章
解密辉达NVIDIA: 6个重点带你搞懂AI 之王股价翻涨240% 的秘密(上)
台湾第一只AI 独角兽: 市值13.8 亿美元的Appier 沛星到底在做什么?
解密Notion 创业故事: 一个No code 的小创意,如何颠覆全球600亿生产力市场?
系统设计元件介绍Building Block – 系统设计05
Back-of-the-envelope 封底计算– 系统设计04