🤖 AI 직원을 써보실래요? Google Gemini가 출연하는 인턴십 경험

🤖 AI 직원을 써보실래요? Google Gemini가 출연하는 인턴십 경험

서문: AI는 모두가 상상하는 '모델 인턴'일까?

중소기업이 사업을 확장하기 시작할 때, 가장 먼저 직면하는 문제는 대개 시장이나 제품이 아니라 인력 부족입니다. 오늘 당신이 이 회사의 책임자라고 상상해보세요. 고객에게 답변하고, 카피를 쓰고, 고객 리뷰를 처리하는 등 세 가지 업무를 동시에 수행해야 할 수도 있습니다.
그리고 이러한 지루하지만 중요한 작업의 한가운데서 여러분은 업무 수행 방식을 바꿀 수 있는 새로운 도우미에 대해 듣게 됩니다. 바로 인공 지능, 더 구체적으로 말하면 대규모 언어 모델(LLM)입니다.

이러한 AI 도구는 환상적인 것으로 묘사되며, 카피를 작성하고, 언어를 번역하고, 고객 피드백을 요약하고, 심지어 실시간으로 고객 서비스 문제에 대응하는 데 도움을 줄 수 있다고 주장합니다. 쉬는 시간이 전혀 필요 없고, 기억력이 뛰어나고, 여러 언어를 구사하고, 항상 온라인에 있고 대기 중인 가상 인턴 같은 느낌이네요. 이런 역할은 상사에게는 매우 매력적으로 들릴 수 있지만, 동시에 사람들에게 호기심을 불러일으킵니다. 이 "AI 인턴"이 정말 회사의 실제 운영에 참여할 준비가 되었을까요?

이 질문에 답하기 위해 영국의 헐 대학과 브래드퍼드 대학의 연구자 3명(줄리어스 세창 음볼리, 존 GO 마르코, 로즈 아나진 옘슨)이 실험을 하기로 결정했습니다. 그들은 구글의 대화형 AI "제미니"(이전 명칭 BARD)에게 겉보기에 간단하지만 실제로는 중요한 작업을 할당해 달라고 요청했습니다. 그 작업은 바로 디즈니랜드에 대한 고객 리뷰를 간소화하는 것이었습니다.
이러한 댓글은 전 세계 여러 지역에서 다양한 언어 스타일과 강렬한 감정을 가지고 작성되었습니다. 이는 AI가 실제로 의미를 "이해"하고 핵심 요점을 선택하여 더 명확하고 유용한 콘텐츠로 변환할 수 있는지 테스트하기에 좋은 방법입니다. 이는 기본적으로 일반 인턴이 하는 일입니다.

표면적으로 보면 이 업무는 인턴들에게 고객 서비스 기록을 정리하고 주요 사항을 강조하는 일을 요구하는 것처럼 보이지만, 실제로는 자연어 처리(NLP) 기술의 강도를 테스트하는 것입니다. 의미적 이해와 문장 재구성부터 오해나 잘못된 번역을 피하는 것까지, 이 실험은 AI가 기업 커뮤니케이션에서 중요한 업무를 처리할 수 있는지 검증할 수 있는 "실질적인 수용"을 제공했습니다.

오늘의 기사에서는 이 연구의 관점을 살펴보고 이 AI 인턴이 실제로 어떤 성과를 냈는지 살펴보겠습니다. 기업의 관점에서 AI가 텍스트 작업에 있어서 정말 좋은 보조 도구가 될 수 있는지 다시 살펴보고, 그 장점과 한계를 심도 있게 탐구해 보겠습니다. 준비되셨나요? 쌍둥이자리의 첫 출근날 무슨 일이 일어났는지 살펴보겠습니다.

이 기사에서 언급된 연구 링크: 대규모 언어 모델이 비즈니스 통합에 적합할까요? 생성적 AI 도입에 대한 연구

대규모 언어 모델이란 무엇인가요? 도서관 조수이자 즉흥 작가처럼

대규모 언어 모델(LLM)이라는 이름은 다소 생소하게 들릴 수 있지만, 비유하자면 도서관에서 항상 대기하고 있는 조수와 같습니다. 조수는 당신이 말한 모든 문장을 기억하고 언제든지 새로운 콘텐츠를 작성하는 데 도움을 줄 수 있습니다.

더 구체적으로 말하면, 이 도우미는 당신이 말하는 내용을 실제로 "이해"하는 것이 아니라, 많은 수의 언어가 나올 확률을 세어 당신이 다음에 말할 내용과 당신이 듣고 싶어하는 내용을 "예측"합니다. "이 댓글을 좀 더 간단하게 만들어 주세요"라고 말하면, 이전에 봤던 모든 단순화된 문장을 뇌에서 검색한 다음, 맥락을 조합해 겉보기에 타당한 답변을 조각해내는 것과 마찬가지입니다.

좀 더 직관적인 예를 들자면, 인간의 글이 "내면화된 이해에 이어 출력되는 것"이라면, LLM 창작은 건초더미에서 가능한 구성 요소를 찾아 재배열하여 텍스트 문단을 형성하는 "체인 게임"과 더 비슷합니다. 이러한 능력은 훈련 단계에서 방대한 양의 온라인 정보를 흡수했다는 사실에서 비롯됩니다. 즉, 위키피디아, 뉴스, 레딧, 제품 리뷰를 모두 읽었지만 실질적인 상식적 판단력은 없습니다.

실험 시작: AI에게 40,000개의 디즈니랜드 고객 리뷰를 단순화하도록 요청

이 연구는 AI 인턴에게 첫 번째 과제와 같았습니다. 디즈니랜드 이용객이 남긴 42,000개 이상의 리뷰를 처리하고 간소화하는 것이었습니다. 이러한 리뷰는 전 세계 여러 지역의 고객으로부터 작성되었으며, 사용된 언어는 매우 다양합니다. 흥분한 사람도 있고, 감정적인 사람도 있고, 무질서한 사람도 있습니다. 기업이 이러한 의견을 간결하고 유용한 통찰력으로 바꿀 수 있다면 마케팅, 고객 서비스, 제품 설계에 큰 도움이 될 것입니다.

실험방법은 매우 실용적이다. 연구원들은 로봇 프로세스 자동화(RPA)의 흐름도를 설계했습니다.
먼저 Python 프로그램을 사용하여 각각의 원본 리뷰를 읽은 다음, Google Gemini가 제공하는 API를 통해 "단순화: 리뷰 텍스트"라는 고정된 프롬프트를 보낸 후, AI가 다시 보낸 단순화된 버전을 받습니다. 또한 한 번에 너무 많은 요청을 처리하면 남용으로 오인될 수 있으므로 각 요청 사이에 60초 지연을 설정했습니다.

언뜻 보기에 이 과정은 간단해 보입니다. 명령을 보내면 AI가 간략화된 버전의 메시지를 제공합니다.
하지만 실제로 모든 API 요청은 "회사에 대해 아무것도 모르는 신입 인턴"을 회의실로 데려와 고객 메시지를 건넨 다음, 아무런 배경 지식 없이 바로 간단하지만 요점만 말한 버전을 말해달라고 요청하는 것과 같습니다.

AI는 단순히 언어를 '번역'하는 것이 아니라, 더 복잡한 3단계 프로세스를 필요로 합니다.
첫째, 원래의 의미를 이해할 수 있어야 합니다(의미 이해). 둘째, 어떤 정보를 보관하고 어떤 정보를 생략할지 결정해야 합니다(정보 재구성). 마지막으로, 자연스럽고 유창한 문장으로 다시 써야 합니다(문장 생성).

즉, 이것은 AI에게 단어 대 단어 변환을 요청하는 것이 아니라,말과 감정을 이해하는 커뮤니케이션 전문가처럼고객의 대화를 "소화하고 흡수"하여 더 명확하고 이해하기 쉬운 버전으로 바꾸는 데 도움이 됩니다. 실제로 이는 AI에게는 전혀 쉬운 일이 아닙니다.

AI 인턴십은 어떤 성과를 보이고 있나요? 70%의 경우, 30%의 경우 틀리면 "멍청한 척"할 것입니다.

최종 결과는 42,000건의 기록 중에서 AI가 약 3,324건의 리뷰를 성공적으로 간소화했다는 것입니다. 이는 8% 미만입니다. 이 중 약 4분의 3은 타당한 답변으로 보였지만, 나머지는 틀렸거나 "대답을 거부"했습니다.

AI 인턴이 고객 불만을 듣고 이를 요약하여 상사에게 보고하는 것처럼 리뷰를 처리하는 모습을 상상해 보세요. 이상적으로는 "좋습니다. 잠시 정리하는 데 도움을 드리겠습니다. 이 고객은 장소가 아름답다고 생각했지만 너무 붐볐습니다."라고 말하는 것이 좋습니다. 이 방법이 가장 성공하는 부분은 톤이 안정적이고, 의미가 명확하며, 때로는 "도움이 되기를 바랍니다"라는 문장을 덧붙이는 것입니다.

하지만 일이 잘못되면 마치 업무 시간 중에 갑자기 멍하니 앉아 있는 인턴과 같거나, 무언가를 아는 척하거나, "이걸 어떻게 해야 할지 모르겠어요"라고 말하는 것과 같습니다. 일부 오류 응답은 형식이 혼란스럽고, 다른 응답은 단순히 "저는 언어 모델일 뿐이므로 도와드릴 수 없습니다."라고 말합니다. 더욱 흥미로운 점은 같은 구조의 주석이라도 상황에 따라 결과가 달라진다는 것입니다. 어떤 경우에는 도움이 된다고 하지만, 다음 경우에는 도움이 될 수 없다고 합니다. 이런 불일치는 사람들에게 기분이 나쁜 게 아닐까 하는 의구심을 갖게 합니다. ㅋ

이러한 상황은 LLM이 항상 안정적인 계산 도구는 아니라는 것을 보여줍니다. 항상 수식을 따르는 엑셀 같은 것이 아니라, '시를 쓸 수 있는 로봇'에 더 가깝습니다. 때로는 영감으로 가득 차기도 하고, 때로는 실수를 하기도 합니다. 다음에는 어떤 일이 일어날지 예측하기는 어렵습니다.

감독자는 AI가 좋은 일을 했는지 어떻게 알 수 있나요? 의미적 유사성이 핵심입니다

그렇다면 이렇게 단순화된 결과가 실제로 "반대"되는 것일까요? 연구자들은 "의미적 유사성"이라는 기술적 도구를 사용하여 평가했습니다. 이 도구의 원리는 단순히 단어가 같은지 비교하는 것이 아니라, 두 사람의 말에서 "의미적 측면"이 일관성이 있는지 비교하는 것과 같습니다.

그들은 Sentence-BERT(SBERT)라는 모델을 사용했는데, 이 모델은 텍스트 조각을 수학적 좌표점인 "벡터"로 변환할 수 있습니다. 다음으로, "코사인 유사도"를 사용하여 두 문단 사이의 각도를 계산합니다. 두 문단의 각도가 가까우면 의미가 일관적이라는 것을 의미합니다. 각도가 다르다면 의미가 다르다는 것을 의미합니다.

마치 "이 영화 보고 정말 감동받았어요"라고 말하면 AI가 "영화 좋았어요. 눈물이 좀 났어요"라고 대답하는 것과 같습니다. 의미는 가깝다. 하지만 "팝콘은 너무 달아서 싫어요"라고 하면 주제와 전혀 맞지 않습니다.

이러한 비교를 통해 이 연구는 AI의 응답 중 상당수가 의미의 핵심을 유지했지만 일부 단순화된 버전은 "지나치게 단순화"되어 원래의 감정과 세부 정보가 삭제되어 공허하고 의미가 없게 되었다는 것을 발견했습니다.

그렇다면 기업은 AI에게 업무를 맡길 수 있을까? 어떻게 사용하느냐에 따라 달라집니다.

이 실험은 AI가 성과가 아직 불안정한 신입 인턴과 같다는 것을 보여줍니다. 그가 좋은 성과를 낸다면, 그는 여러분이 많은 시간을 절약하고 고객 피드백을 구체적인 통찰력으로 빠르게 전환하는 데 큰 도움이 될 수 있습니다. 하지만 업무 성과가 좋지 않을 경우 고객의 말투를 오해하거나 요점을 놓치거나 심지어 말도 안 되는 소리를 할 수도 있습니다.

사업주가 앞으로 AI를 자신의 프로세스에 통합하고 싶다면 "인간-기계 공동 검토" 메커니즘을 구축하는 것이 좋습니다. 즉, AI가 예비 편집을 담당하고 인간이 최종 검토를 담당하게 하는 것입니다. 이런 종류의 협력을 통해서만 우리는 AI의 효율성과 인간의 판단을 결합하여 최상의 결과를 얻을 수 있습니다.

기업이 인턴이 혼자서 계약서에 서명하도록 두지 않는 것처럼, AI가 모든 것을 완벽하게 해낼 것이라고 기대할 수는 없습니다. 정말 똑똑한 접근 방식은 AI가 먼저 80%의 반복적인 작업을 처리하도록 돕고, 그 다음에 가장 중요한 20%에 에너지를 집중하는 것입니다.

결론: AI는 교사가 아닌 학생이다. 어떻게 안내해야 할지 알아야 합니다.

이 연구를 통해 얻은 교훈은 AI가 강력하기는 하지만 아직 전능하지는 않다는 것입니다. 기술적 한계와 LLM의 특성상, 아직은 모든 것을 스스로 책임질 수 있는 교사나 지도교수가 아닌, 성장하는 학생과 더 비슷합니다. 이는 작업 과정을 가속화하고 영감을 제공하는 데 도움이 될 수 있지만, 인간의 판단과 의사소통의 정교함을 대체할 수는 없습니다.

"AI가 비즈니스 세계에 진출할 준비가 되었는가?"라는 질문을 논의할 때, 실제로 생각해야 할 것은 "우리는 AI를 올바르게 사용할 준비가 되었는가?"입니다. 이것이 AI의 성공적인 구현을 촉진하는 핵심입니다.

AI는 도구이자, 파트너이며, 심지어 팀의 일원이기도 합니다. 올바르게 사용하면 중소기업도 대기업만큼 효율적으로 운영될 수 있습니다. 하지만 잘못 사용하면 정보의 혼란에 빠지고, 고객을 오해하고, 기회를 놓칠 수도 있습니다.

"AI가 나를 대체할 수 있을까?"라고 묻는 대신, "AI를 활용해 이전보다 더 강해질 수 있을까?"라고 물어야 합니다.

관련 보고서

5분만에 미국 주식 배우기》NVIDIA는 무엇을 하나요? 그래픽카드로 세계 1위가 되는 방법은?

고된 노동을 했다는 비판을 받은 Scale AI는 어떻게 데이터 주석 업계의 유니콘이 되었나요?

관련 기사

엔비디아 복호화 AI왕 주가 급등 비결 6가지 핵심 포인트 240% (1부) 

대만 최초의 AI 유니콘, 시가총액 13억8000만달러 애피어는 무엇을 하고 있을까?

Notion의 기업가 이야기 해석: 작은 노코드 아이디어가 어떻게 글로벌 600억 생산성 시장을 전복시킬 수 있습니까?

 

DNS란 무엇입니까? 도메인 이름 시스템 소개 - 시스템 설계 06

시스템 설계 구성 요소 빌딩 블록 소개 - 시스템 설계 05

봉투뒷면 계산 – 시스템 설계 04

소프트웨어 설계의 비기능적 특징 – 시스템 설계 03

시스템 설계에 추상화 적용 - 시스템 설계 02

현대 시스템 설계 입문 - 시스템 설계 01

 

ko_KR한국어