mac mini openclaw 따위로 절대 만족하지 않을 것이다
Jordi Visser라는 사람의 트윗 내용이 구독하는 오픈채팅방 뉴스레터에 올라와서, 간단하게 살펴본 내용.
결론적으로 동의할 수 없는 내용 천지다.
순서대로 트윗 논리의 전개를 따져봐야 할듯.
1/ X(구 트위터)를 사용하지 않거나 팟캐스트를 듣지 않는다면, 당신은 AI의 변화 속도에서 뒤처져 있는 것입니다. 주류 금융 미디어는 실제 상황보다 6~12개월 정도 늦습니다. 대표적인 예로, @GavinSBaker는 불과 2개월 전 AI 인프라에 대한 “가장 무시무시한 약세 시나리오(Bear Case)”를 경고했습니다. 그리고 그 일이 바로 지금 벌어지고 있습니다.
선입견을 가득 심어주는 자극적인 hooking 멘트… 물론 편견을 가지면 좋지는 않지만 FOMO를 자극해서 attention을 가져오고 있다는 점이 벌써부터 삐닥하게 보게 만드는 부분.
2/ 패트릭 오쇼네시(Patrick O’Shaughnessy)의 팟캐스트에서 베이커(Baker)는 중앙 집중식 클라우드 추론(Inference)에 대한 위협을 다음과 같이 설명했습니다: “3년 안에 여러분은 폰에서 ‘제미나이 5(Gemini 5)’의 경량화 버전 같은 모델을 초당 30~60 토큰 속도로 무료로 돌릴 수 있게 될 겁니다.”
3/ 그는 엣지 AI(Edge AI)를 하이퍼스케일러(대형 클라우드 업체)의 컴퓨팅 수요에 있어 “단연코 가장 그럴듯하고 무서운 약세 시나리오”라고 지칭했습니다. 그가 예상한 타임라인은 3년이었습니다. 하지만 이번 주 @theallinpod(올인 팟캐스트)는 그것이 3년 뒤의 일이 아님을 보여주었습니다. 바로 지금 시작되고 있습니다.
On-device AI를 통해 중앙집중식 컴퓨팅 수요를 약화시키려는 노력은 언제나 있어왔고, 이번에 대뜸 그 시도중 하나가 주목을 받고 있긴 하다.
4/ 무슨 일이 일어났는가: → Claudebot(현재 Moltbot): LLM을 실제 업무 생산성 도구와 연결해 주는 오픈소스 에이전트가 바이럴 되었습니다. → Kimmy K2.5: 소비자용 하드웨어에서 구동 가능한 1조 파라미터급 오픈소스 모델이 공개되었습니다. → 사람들이 Mac Studio를 쌓아 놓고(stacking) 추론을 돌리기 시작했습니다.
5/ @Jason은 고유한 이메일, 노션(Notion), 캘린더를 가진 가상 AI “직원들”을 생성했습니다. 이들은 게스트를 조사하고, 자체 CRM을 구축하며, 아웃바운드 이메일을 보내고, 업무 일지를 기록합니다. 그의 추산에 따르면: 주간 프로듀서 업무 시간 50시간 중 40시간, 그리고 SDR(영업 개척) 업무의 95%를 대체합니다. 이건 데모가 아닙니다. 실제 프로덕션(실무) 상황입니다.
대부분의 업무에서 저런 방식의 일처리는 불가능하다고 생각됨.
llm에 대한 대부분의 엔터프라이즈 유료 고객들은 ‘직원들’을 생성해서 완성도를 50%에서 80%로 올리는 방식으로 생산성을 높이는 것이 목표가 아님.
많은 경우 온전히 성숙한 기업에서, 완성도가 이미 95%인 프로세스를 기반으로 직원을 줄여 인건비를 절감하는 것이 목표가 된다.
⇒ 1인 창업자, 프리랜서, 크리에이터 등은 대형 엔터프라이즈 고객들의 업무적 needs에 대한 업무이해도에 대해 불리한 지점이 있다고 생각됨.
6/ 경제적 변화는 충격적입니다: 기존 API 비용: 하루 $100~$1,000 로컬 Kimmy 모델 사용 시: 하루 ~$10 이하 Chamath 왈: “쿼리의 95%는 Kimmy를 통해 무료로 처리 가능합니다.” Jason은 연간 2만 5천 달러에 달하는 OpenAI 구독을 취소했습니다.
7/ 베이커는 애플(Apple)의 전략을 그 템플릿으로 지목했습니다: “애플은 AI의 배급자가 되어 프라이버시를 안전하게 지키며 폰에서 구동시키고, 정말 복잡한 질문이 있을 때만 클라우드의 ‘신(God)급 모델’을 호출하게 할 것입니다.” 하이퍼스케일러에 대한 약세론의 핵심은, 대부분의 질문에는 그런 ‘신급 모델’이 필요 없다는 점입니다.
“정말 복잡한 질문”이 적은 토큰만으로 작동할거라고 생각하는가?
복잡한 질문은 수많은 경우 어려운 하나의 문장이 아니라, 모호하고 중복된 바다같은 정보 속에서 가치를 추출해 내는 일임.
그런 질문에만 신급 모델을 호출한다고 해서 API 비용이 크게 낮아지지는 않을것. 왜냐하면 api비용을 내야 하는 대부분의 대형 쿼리가 곧 “복잡한 질문” 이기 때문임.
8/ 베이커가 던진 결정적인 질문: “만약 IQ 115 수준의 지능이 초당 30~60 토큰 속도로 돌아가는 것으로 충분하다면… 그게 바로 약세 시나리오입니다.” ‘올인(All-In)’의 사례는 다음 영역들에서 이미 “충분하다(good enough)”는 기준선을 넘었음을 시사합니다:
- 프로듀서 업무
- SDR(영업) 기능
- 고객 지원
- 코딩 보조
- 일반 지식 노동
충분하지 않다.
수많은 개발자 커뮤니티의 on-premise 서버 구동 샤례들이, api 구동이 더 싸게 먹힘을 입증하고 있음.
하지만 왜 이런 주장의 간극이 생길까?
왜냐면 직접적인 비교가 아니니까!
IQ 115 수준의 지능이 초당 30~60 토큰 속도로 돌아가는 것으로 충분하다면, 왜 IQ 115 수준의 지능이 초당 30~60 토큰 속도로 돌아가는 api cost로 비교하지 않는 것일까?
그것을 비교하면 그닥 극단적인 가격 차이가 나지 않고, 유지비용 및 관리 효율성 측면에서 압도적인 결과물을 산출한다.
“로컬로 하면 된다” 류의 의구심은 클라우드 컴퓨팅 시장에서 한참 전에 반증되었는데, 이번에는 다르다고 봐야 할 이유가?
9/ 이것은 중앙 집중식 추론 시장에 양동 작전(Pincer movement)을 겁니다:
- 아래로부터: 로컬 추론의 성능 바닥(floor)이 빠르게 올라오고 있습니다 (더 나은 양자화, MoE 아키텍처, 애플 실리콘의 개선).
- 위로부터: 오픈소스의 성능 천장(ceiling)이 더 빠르게 높아지고 있습니다 (Kimmy K2.5는 대부분의 작업에서 최첨단 모델과 맞먹습니다).
숫자계산이 필요하겠지만, 클라우드 컴퓨팅의 가성비를 로컬 추론이 따라잡을 것이라고 보기는 어렵다. 왜냐면, ‘ai api provider’들은 Scalable하고 유휴자원 컨트롤 측면에서 압도적이기 때문이다.
아래로부터: 삼성전자의 Gauss 모델을 기반으로 한 온디바이스 AI 부가기능을 써봤다면, 분명 한숨밖에 안나올거다. (회사 동료로서 미안합니다만) 그런데 이게 gpt3.5 시절의 성능하고 비슷하다. 그만큼 AI를 향한 우리의 기대치는 상위 모델들의 성능과 비례해 한참 높아졌다. 여기서 파괴적인 혁신이 나오리라고 개인적으로 상상하기 어렵다.
위로부터: 오픈소스 모델들이 빠르게 따라잡는다는 것에는 동의. 하지만 중요한것은, moonshot AI에게는 api 수익모델을 통해 돈을 벌만큼 충분한 서버 자원이 없다. 결국 google, openai, claude 등이 capex의 결과를 환수하며 주인공으로 거듭나는 것이다.
10/ 베이커는 경쟁자들의 “경제적 산소를 빨아들이기 위해(고사시키기 위해)” 마이너스 마진으로 AI를 운영하려는 구글의 전략을 설명했습니다. → 하지만 ‘무료’보다 더 싸게 보조금을 줄 수는 없습니다. 로컬 추론 비용이 100만 토큰당 ~$0.01(전기세) 수준이 되면, 마진 게임은 끝난 것입니다.
다시 말하지만, 운영비용을 합하면 무료가 아니다. google은 여전히 경쟁력을 갖출 것이다.
AI의 사용자들은 scalable해야 한다. 인간의 지능과 직관적으로 비례하지 않기 때문에, 실제로 llm이 어느정도의 지능으로, 어느 속도로 가동되어야 하는지 모르기 때문이다. local AI로는 이 탄력적인 업무지능 수요에 대응할 수 없다.
11/플라이휠(Flywheel)의 문제: 베이커는 추론 모델들이 드디어 데이터 플라이휠을 만들었다고 언급했습니다(사용자 피드백이 모델을 개선함). 하지만 추론이 로컬(기기 내)로 이동하면, 최첨단 연구소들은 그 플라이휠을 잃게 됩니다. 일어나지 않은 API 호출로부터는 피드백을 받아 모델을 개선할 수 없으니까요.
플라이휠 자체의 존재는 인정하지만, 과연 그것이 기업 모델의 우위를 잃을 만큼 치명적인가? 수많은 우위중 하나를 잃는 것에 불과하다고 생각함.
12/메모리에 대한 시사점: HBM(고대역폭 메모리) 투자 논리의 상당 부분은 대규모 중앙 집중식 추론을 전제로 합니다. 하지만 엣지(Edge) 추론은 HBM이 아닌 표준 DRAM/통합 메모리를 사용합니다. 수요가 사라지는 게 아닙니다. 프리미엄 HBM에서 범용 DRAM으로 재분배되는 것입니다.
HBM이 아니더라도 수혜자는 결국 메모리 기업이지 않을까? 여전히 hynix와 삼성전자고 SSD시장 / DRAM시장을 점유하고 있고, HBM 수요 약화와 관련된 수많은 뉴스가 주가에 크게 반영되는 것처럼 보이지는 않음. (이건 쎄하니까 더블 체크 해봐야 할듯)
13/ SaaS 기업들에 대한 베이커의 경고는 하이퍼스케일러에게도 적용됩니다: “이건 생사가 걸린 결정입니다. 그리고 본질적으로 마이크로소프트(Microsoft)를 제외한 모두가 낙제하고 있습니다.” 하이퍼스케일러의 설비투자(Capex) 논리는 대규모로 실현되지 않을지도 모르는 추론 매출에 의존하고 있습니다.
14/지켜봐야 할 것들:
- API 가격 트렌드 (마진 압박이 가속화되는가?)
- 애플의 AI 전략 (로컬 추론에 집중하는가?)
- 오픈소스 모델의 품질 (매 릴리스마다 격차를 줄이고 있는가?)
- 기업들의 자체 호스팅(Self-hosting) 채택
- 하이퍼스케일러의 설비투자(Capex) 계획 수정
나는 기본적으로 오픈소스 모델들의 api cost가 오히려 minus margin 전략을 쓰는 것으로 의심스러움. 대기업들은 언제나 컴퓨팅 부족에 시달리고 있고, api cost를 오히려 높여서 수요를 줄이는 방식으로 컴퓨팅 자원 고갈에 대응하는 것이 아닐까 의심스러울 정도임. 당분간은 메모리 회사들의 아웃퍼폼이 유지될 것이고, 나름 AI 수요에 대한 강력한 믿음이 있다…는 뷰.
한줄 평: 여전히 파괴적 혁신으로 붕괴할 인프라 버블에 대한 팔로업은 필요하지만, openclaw는 여전히 api로 쓸 때 가장 효과적이다.