🤖 你敢用 AI 員工嗎?一場由 Google Gemini 主演的企業實習體驗

🤖 你敢用 AI 員工嗎?一場由 Google Gemini 主演的企業實習體驗

前言:AI 是大家想像中的「模範實習生」?

當一家中小企業開始擴張,第一個難題通常不是市場或產品,而是人手不夠。想像今天你就是這間企業的負責人,你可能需要身兼三職:回覆客戶、寫文案、同時處理顧客評論。
而在這些繁瑣但重要的任務中,你開始聽到一種可能改變你工作方式的新幫手:AI 人工智慧,或更具體地說:大型語言模型(Large Language Model, LLM)。

這類 AI 工具被描繪得如夢似幻,號稱可以幫你撰寫文案、翻譯語言、總結顧客回饋,甚至即時回應客服問題。聽起來就像是一位永遠不需要休息、記憶力驚人、能說多國語言的虛擬實習生,總是在線、隨時待命。這樣的角色聽起來肯定讓老闆們非常心動,但也讓人不禁好奇:這位「AI 實習生」,真的已經準備參與企業的真實營運現場了嗎?

為了回答這個問題,來自英國赫爾大學(University of Hull)與布拉德福德大學(University of Bradford)的三位研究者——Julius Sechang Mboli、John G.O. Marko 與 Rose Anazin Yemson——決定進行一場實驗。他們請 Google 旗下的對話型 AI「Gemini」(前 BARD),為其安排一項看似簡單、實則關鍵的任務:簡化 Disneyland 的顧客評論。
這些評論來自全球不同地區,語言風格多樣、情緒強烈,正好可以測試 AI 是否能真正「理解」語意、篩選重點,並轉化成更清楚、有用的內容,基本上就是一個中規中矩的實習生在做的事。

這項任務表面上像是請實習生幫忙整理客服紀錄、挑重點,實際上卻是自然語言處理(NLP)技術的實力考驗。從語意理解、重組句構,到避免誤解或錯譯,這場實驗給 AI 安排了一次「實務驗收」,驗證它能否勝任企業溝通中的重責大任。

今天這篇文章,就帶你從這場研究的角度出發,看看這位 AI 實習生的實際表現如何。我們將以企業的視角,重新檢視 AI 是否能真正成為文字工作中的好幫手,並深入探討它的優勢與限制。你準備好了嗎?一起來看看 Gemini 上工的第一天發生了什麼事。

本文所參考的研究連結: Are Large Language Models Ready for Business Integration? A Study on Generative AI Adoption

什麼是大型語言模型?像圖書館助理又像即席作家

大型語言模型(LLM)這個名字聽起來有點距離感,但如果用一個比喻來說,它就像是一位總是在圖書館待命的助理,記得你曾經說過的每一句話、也能隨時幫你組出一段新內容。

更具體一點,這位助理並不是真的「理解」你在說什麼,而是透過統計大量語言的出現機率,來「預測」你接下來會說什麼、想聽什麼。就像是當你說「請簡化這段評論」,它會在腦中搜尋所有曾看過的簡化句子,再綜合上下文,拼湊出一段看起來合理的回答。

舉個更直觀的例子,如果人類寫作是「內化理解後再輸出」,那麼 LLM 的創作更像是「接龍遊戲」,它從大海撈針中找到可能的組件,然後重新排列組合出一段文字。這種能力來自於它在訓練階段吸收了大量網路資料——把整個 Wikipedia、新聞、Reddit、商品評論都讀過一遍,但它並不具備真正的常識判斷。

實驗開始:請 AI 幫忙簡化 4 萬筆 Disneyland 顧客評論

這篇研究就像給這位 AI 實習生安排了第一個實習任務:處理 Disneyland 顧客留下的超過 42,000 則評論,並進行簡化。這些評論來自全球不同地區的顧客,用語千變萬化,有的語氣興奮,有的情緒激動,有的雜亂無章。企業若能把這些評論轉化成簡潔有用的洞察,對行銷、客服、產品設計都有極大幫助。

實驗方式非常實用,研究員們設計一套機器人流程自動化(RPA)的流程圖:
先用 Python 程式讀取每一則原始評論,再透過 Google Gemini 提供的 API,把固定的 prompt「Simplify: review text」送出,然後接收 AI 回傳的簡化版本。因為一次處理太多會被誤認為濫用,他們還特地在每筆請求間設置了 60 秒的延遲。

這個流程乍看之下好像很簡單:送出一句指令,AI 就回你一段簡化後的內容。
但實際上,每一次的 API 請求,就像是你把一位「對公司一無所知的新來實習生」拉進會議室,然後遞給他一段顧客留言,接著要他在沒背景知識的情況下,立刻說出更簡單、但又不失重點的版本。

AI 並不是單純在「翻譯」語言,而是需要進行更複雜的三步驟:
第一,它要能讀懂原本的意思(語意理解);第二,它要判斷哪些資訊該留下、哪些可以省略(資訊重組);最後,還要用自然、流暢的句子重新寫一遍(語句生成)。

換句話說,這不是請 AI 做逐字轉換,而是要它像一個懂文字、懂情緒的溝通高手,幫你把一段顧客話術「消化吸收」後,變成一個更清晰好懂的版本。而這其實對 AI 來說一點都不容易。

AI 的實習表現如何?七成像樣,三成出錯,還會「裝傻」

最後的結果是,在 42,000 筆資料中,AI 成功簡化了約 3324 筆評論,也就是不到 8%。而這其中,大約四分之三看起來算合理,其餘則出現錯誤或「拒絕回答」的情況。

我們可以想像,AI 實習生在處理評論時像是正在聽一段顧客抱怨,然後回報給老闆它的摘要。理想情況下它會說:「好的,我來幫你簡單整理一下:這位顧客覺得場地漂亮,但人太多太擠了。」這是它大部分成功的案例——語氣穩定,語意清楚,有時還會補上一句「希望這對你有幫助」。

但當它出錯時,狀況就像一位實習生在上班時間突然發呆、不懂裝懂、或是說「我不知道怎麼辦」。有些錯誤回傳格式混亂、有些則直接跳出一句:「我只是一個語言模型,無法幫助你。」更有趣的是,同樣結構的評論在不同情境下會得到不一樣的結果:上一則它說會幫忙,下一則卻說幫不了,這種不一致讓人懷疑它是不是心情不好了 XD

這些情況反映出 LLM 並非總是穩定的運算工具。它不像 Excel 會永遠照公式跑,而像是一位「會寫詩的機器人」,有時靈感滿滿、有時失常出錯,而我們難以預測下一次會是哪一種。

主管怎麼知道 AI 有沒有做好工作?語意相似度是關鍵

那這些簡化的結果到底有沒有「講對話」?研究者用了一個叫「語意相似度(semantic similarity)」的技術工具來評估。這工具的原理就像是在比較兩個人說話的「意思角度」是否一致,而不是只比字面是否一樣。

他們使用的是名為 Sentence-BERT(SBERT)的模型,可以把一段文字轉成「向量」(vector),也就是數學上的座標點。接著,透過「餘弦相似度(cosine similarity)」來計算兩段文字之間的角度,如果兩段話角度接近,就表示語意一致;若角度偏離,則說明意思偏掉了。

就好比你說:「這部電影我看得很感動」,AI 回你:「電影不錯,我流了幾滴眼淚」,這種語意是接近的;但如果它說:「我不喜歡爆米花,太甜了」,那就完全大偏題。

透過這樣的比對,研究發現 AI 的確有不少回覆能保有語意核心,但也有部分簡化版本「簡化過頭」,導致原本的情感、細節都被刪去,變得空洞無意義。

所以企業能不能把工作交給 AI?這得看你怎麼用

從這個實驗可以看出,AI 就像一位表現還不穩定的新實習生。如果他發揮得好,真的可以幫你節省大量時間,把顧客回饋快速轉化成具體洞察;但當他失常時,可能會誤解顧客語氣、錯翻重點,甚至亂講話。

如果企業主未來真的想把 AI 融入流程,還是建議設定「人機共審」的機制:讓 AI 負責初步整理,人類負責最後審稿。這樣的合作方式,才有機會把 AI 的效率與人類的判斷力結合在一起,達到最好的效果。

企業不能期待 AI 做到 100% 正確,就像不會讓實習生一個人簽合約一樣。真正聰明的做法,是讓 AI 幫你把 80% 重複性的工作先處理掉,再把精力集中在最關鍵的 20%。

結語:AI 是學生,不是老師,你要懂得引導它

這篇研究的 lesson learn 是:AI 雖然強大,但目前還不是萬能,因為技術上的限制與 LLM 的本質,它更像是一位還在成長的學生,還不是可以獨當一面的老師或主管。可以幫你加快流程、提供靈感,但不能取代人類的判斷與溝通細膩度。

當我們在討論「AI 是否已經準備好進入商業世界」時,其實我們更該思考的是:「我們自己是否已經準備好,去正確地使用 AI?」這才是推動 AI 成功落地的關鍵。

AI 是工具,也是夥伴,甚至可以是團隊中的一員。只要用得對,它能讓中小企業像大公司一樣高效;但如果用錯,它也可能讓你陷入資訊迷霧,誤解顧客、錯失良機。

與其問「AI 能不能取代我」,不如問「我能不能善用 AI,變得比過去更強?」

相關報導

5 分鐘學美股》輝達NVIDIA是做什麼的?靠顯卡怎麼成為世界第一?

用血汗勞工被批,Scale AI憑什麼成資料標註界獨角獸?

相關文章

解密輝達 NVIDIA: 6個重點帶你搞懂 AI 之王股價翻漲 240% 的秘密 (上) 

台灣第一隻 AI 獨角獸: 市值 13.8 億美元的 Appier 沛星到底在做什麼?

解密 Notion 創業故事: 一個 No code 的小創意,如何顛覆全球600億生產力市場?

 

DNS 是什麼?網域名稱系統介紹 – 系統設計 06

系統設計元件介紹 Building Block – 系統設計 05

Back-of-the-envelope 封底計算 – 系統設計 04

軟體設計非功能性特性 – 系統設計 03

抽象在系統設計中的應用 – 系統設計 02

現代系統設計介紹 – 系統設計 01

 

zh_TW繁體中文