최근 해커뉴스에 올라온 글이 흥미로웠습니다. Qwen 3 0.6B, 즉 굉장히 작은 모델을 파인튜닝해서 고객 문의 분류 작업에 썼더니, 훨씬 큰 범용 모델보다 결과가 좋았다는 내용입니다. 더 빠르고 더 저렴했습니다.

이런 일은 계속 일어나고 있습니다. 그리고 사람들은 계속 놀라고 있습니다.

기술 배경이 없는 창업자일수록 가장 유명한 AI를 고르려는 본능이 있습니다. GPT, Claude, Gemini. 이름이 크면 모델도 크고, 그러면 더 좋겠지라는 생각이죠. 어떤 작업에서는 맞습니다. 하지만 많은 작업에서는, 그 일에 맞게 만들어진 도구보다 더 못한 결과를 더 비싼 값에 사고 있는 셈입니다.

맥가이버 칼 문제

범용 LLM은 맥가이버 칼입니다. 거의 모든 걸 그럭저럭 할 수 있습니다. 그런데 정말로 나무를 깎고 싶다면 끌이 필요합니다. 빵을 자르려면 빵칼이 필요합니다.

자주 보이는 전략적 실수가 있습니다. 그럴듯해 보이는 AI를 골랐는데 왜 결과가 평범한지 모르는 경우입니다. 맥가이버 칼을 사 놓고 그걸로 나무를 베려고 하는 겁니다.

분류 작업이라면, 6억 파라미터짜리 모델을 직접 데이터에 맞춰 파인튜닝한 것이 700억짜리 범용 모델을 열에 아홉 번은 이깁니다. 특정 프레임워크 안에서 코드를 만드는 일이라면, 그 프레임워크의 실제 패턴을 학습한 작은 모델이 범용 모델보다 낫습니다.

고르는 법

순서대로 세 가지 질문입니다.

1. 작업이 얼마나 좁은가? 작업이 좁을수록, 도구는 더 특화되어야 합니다. "아무거나 써 주세요"는 범용이 맞고, "들어오는 문의를 분류해 주세요"는 특화 모델이 맞습니다.

2. 그 도구는 누가 만들었는가? 해당 분야를 진짜로 이해하는 사람들이 만든 도구는 결과에서 차이가 납니다. 범용 챗봇을 분야별 UI로 감싸 놓은 것들은 보통 결과도 범용처럼 나옵니다.

3. 규모로 갔을 때 어떻게 되는가? 한 번 만에 싸게 정답을 주는 쪽이, 비싸게 거의 정답을 주는 쪽보다 낫습니다. 한 번이 아니라 천 번을 돌렸을 때를 계산해 보시기 바랍니다.

앱 만들기에서 왜 중요한가

DontCode를 지금처럼 만든 이유가 여기에 있습니다. DontCode 안의 AI는 앱을 만드는 일에 특화되어 파인튜닝된 모델입니다. 누군가의 챗봇을 감싸 놓은 것이 아닙니다.

결제에 카카오페이를 붙여 달라고 하면 추측하지 않습니다. 어떤 폼을 어디에 두고 싶다고 설명하면 플랫폼이 기대하는 방식대로 폼 제출 저장소에 연결합니다. "활성 사용자에게 매일 아침 8시에 다이제스트 이메일"이라고 하면, 크론 잡과 이메일 발송, 인증 분석 테이블, 그리고 이 패턴의 실제 레시피까지 모두 알고 처리합니다.

범용 LLM은 이걸 모릅니다. 어디서나 쓰는 똑같은 일반 코드를 짜 줄 뿐이고, 그게 왜 안 돌아가는지 디버깅하느라 두 시간을 더 쓰게 됩니다.

정리

큰 게 항상 좋은 건 아닙니다. 유명한 게 항상 좋은 것도 아닙니다. 그 일에 맞는 도구가 더 좋습니다. AI를 비즈니스의 실질적인 일부로 쓸 거라면, 마케팅이 가장 시끄러운 모델 말고, 그 일을 위해 만들어진 도구를 고르시기 바랍니다.

특화 AI가 어떤 느낌인지 직접 보고 싶다면, DontCode를 한번 써 보세요. 이번 주말에 뭔가 만들어 보실 수 있습니다. 이런 글은 블로그에서 더 보실 수 있습니다.