연구에 따르면 AI는 어떤 과업(task)에는 매우 탁월하고 어떤 과업에는 매우 형편 없는데, 이 경계의 윤곽이 매끄럽지 않고 예측이 힘든 상태로 들쭉날쭉해서 이 현상을 '들쭉날쭉한 경계(Jagged Frontier)'라고 부릅니다.
아래 그림처럼, 같은 난이도의 과업임에도 불구하고 그 과업이 AI 기술 경계의 내부에 있느냐 외부에 있느냐에 따라 그 결과의 품질은 매우 다르다는 것이죠.
이 현상을 극단적으로 재현하는 방법 중 '9.11과 9.9 중 어느 것이 더 큰 숫자인가'를 묻는 테스트가 있습니다. 직접 해봤는데, 아래는 클로드(Sonnet 4.6 적응형)의 대답입니다.
그나마 제가 클로드에 '질문에 답변한 다음 항상 그 답변의 허점을 알려줘.'라고 지침을 저장해놨기 때문에 답변이 틀렸다는 것을 알려주긴 했습니다만, 틀릴 것이라고 전혀 예상치 못한 질문에 저렇게 어이없는 답변을 하곤 합니다. 그 이유도 어이 없는데요, "LLM이 버전 번호나 날짜 표기에 익숙해서"라고 합니다(제미나이는 정답을 맞췄습니다. AI들도 경계가 다 다르다는 거겠죠).
찰리 워젤은 AI 신봉자와 회의론자가 생기는 이유를 이 '들쭉날쭉한 경계'에서 찾습니다. AI가 탁월한 영역(경계 안)에서 주로 경험한 사람은 신봉자가 되고, AI가 형편없는 영역(경계 밖)에서 주로 경험한 사람은 회의론자가 된다는 것이죠. 그 결과, AI를 둘러싼 이들의 논쟁은 평행성을 그리게 됩니다.
우리는 "들쭉날쭉한 기술 경계(jagged technology frontier)"라는 개념을 도입하고 연구한다. 이 개념은 인공지능(AI) 역량의 불균등한 영향을 설명하는 것으로, AI 지원이 어떤 과업에서는 성과를 향상시키지만 다른 과업에서는 — 동일한 지식 업무 흐름 내에서, 겉보기에 비슷한 난이도임에도 불구하고 — 오히려 성과를 악화시키는 현상을 가리킨다. 우리는 글로벌 경영 컨설팅 기업 보스턴 컨설팅 그룹(BCG)과의 협력을 통해 현실적인 경영 컨설팅 과업을 개발하고, AI를 활용하여 복잡하고 지식 집약적인 업무를 수행할 때 인간 성과에 어떤 영향이 나타나는지 조사했다. 사전등록된 실험에는 758명의 지식 근로자가 참여했다. 유사한 과업에서 기준 성과를 측정한 후, 참가자들은 세 가지 조건 중 하나에 무작위로 배정되었다: AI 접근 없음, GPT-4 AI 접근, 또는 프롬프트 엔지니어링 개요와 함께 GPT-4 AI 접근. AI 역량의 경계 안쪽에 있는 창의적 과업부터 분석적 과업까지 아우르는 18개의 현실적 지식 과업 각각에서, AI를 사용한 참가자는 그렇지 않은 참가자보다 뛰어난 성과를 보였다 — 평균적으로 12.2% 더 많은 과업을 완수하고, 25.1% 더 빠르게 완료했으며, 품질 면에서도 유의미하게 향상된 결과물을 제출했다. 그러나 경계 바깥쪽으로 선정된 복잡한 경영 과업에서는, AI를 사용한 참가자가 그렇지 않은 참가자에 비해 정확한 해결책을 도출할 가능성이 19% 낮았다. 이는 AI가 지식 근로자를 지원하는 데 잠재적 한계가 있음을 시사한다. 우리는 지식 집약적 과업에서 AI 지원 인간 성과의 긍정적·부정적 함의를 함께 논의한다.