이번주에 명절도 끼어 있겠다, 시간도 많아서 몇일동안 openclaw랑 놀아 봤습니다.
일단 저는 코딩이 약간 가능한 취미 개발자이고, 맥미니 대란에는 동참 못한 관계로 오래된 맥북에 설치하여 테스트 하였습니다.
설치환경 : macbook a1706 / Swquoia OCLP
Ollama 서버 : WSL2 Ubuntu24.04 (RTX5070Ti 16G)
결론을 먼저 말씀 드리자면... 이게 로컬LLM으로는 일반적인 업무수행에 꽤나 어려움이 있습니다.
하지만 API로 사용하자니 너무 큰 비용이 걱정이고요, 이놈이 크게 부가가치를 생산하지 않는 이상,
장난감 + 미래에 대한 약간의 찍먹 개념으로 쓰기에는 한달에 10만원 이상의 비용은 부담이니까요.
거두절미 하고 일단 테스트 결과를 보여드리고 썰을 풀겠습니다.
참고로 밑에서 4개가 로컬 모델입니다. 비전 모델이 섞여있지만 그냥 일단 재미로 봐주세요.


점점 똑똑해 지는걸 막기 위해서 거의 매번 새로운 환경을 주었습니다. 다들 처음 푸는 문제를 풀어낸건 동일합니다.
GPT 최신 모델들은 테스트 하지 않았습니다.왜냐면 제미나이 3 Flash가 성적이 너무 좋아서 별 의미가 없다고 생각했어요.
테스트 할때는 API가 아니라 Antigravity OAuth 로 사용한거라 가격이 더이상 GPT 랑 비교할 필요가 없었거든요.
제미나이 3 는 인상적이었습니다. 저 테스트 말고도 그냥 계속 일상적인 내용이랑 특히나 openclaw 세팅에 계속해서 사용했는데요. 제일 덜 빡쳤습니다.ㅎ
OAuth로 인증하면...약 5시간에 한번씩 토큰이 리셋되어서 이론적으로는...계속 사용이 가능했지만, 빡세게 좀 질문하고 돌려보면 2시간도 안되어서 토큰은 모두 날아갑니다. Flash기준으로요. 더 무거운 모델은 진짜 순삭됩니다.
종량제 과금형API는... 그정도 금액을 감당할만한 생산성을 부여하려면 세팅이 아주 어렵습니다. (안되는건 아니에요. 가능하다고 느꼈습니다.)
그래서 대안이라고 생각한건 Copilot 의 gpt-5-mini 모델입니다. 아시겠지만 이게 $10 요금제에서도 토큰의 제한이 없어요. vscode copilot 플러그인 쓰시는 분들은 아시겠지만 맨위에 토큰 "0"으로 분류된 놈들중에 하나입니다.
참고로 grok 은 오류를 너무 자주 내고 뻗어요. 궁합이 안맞습니다.
아직까지는 좀 큰 프로젝트의 프로그래밍은 Openclaw를 쓸필요는 없습니다. 그건 다른 AI코딩툴이 더 잘합니다. 지금까진 비교 대상은 아니에요. 이건 그냥 AI 비서로 봐줘야 할겁니다. 물론 과금걱정이 없이 API를 사용할 수 있다면 이것또한 가치가 있어 지겠지만 지금은...좀 가성비가 떨어집니다.
상황에 따라 로컬 모델로 일을 시키고 주된 일은 GPT-5-mini를 시키고..뭐 이런 유동적인 방식도 충분히 가능한데 써보면 아시겠지만 이게 아무리 컨텍스트를 일정하게 유지해 주는 놈이라도 모델이 바뀌면 일의 연속성이 확 떨어집니다. 그냥 능력좋은 모델을 계속 쓰는게 덜 빡칩니다.
몇일 더 가지고 놀아보긴 할건데 참 재밌긴 해요. 실제로 뭔가 비서가 생긴것 같기도 하고요.
로컬 LLM 모델 안쓸거면 그냥 구식 노트북에 리눅스 깔아서 도전해봐도 됩니다. 저렴한 장난감이라고 생각하면 너무 재밌을거에요.
사실 로컬 LLM은 너무 멍청해서 쓰기 어려우니 외부 API로 모델 불러와 쓰는건 로컬 기기의 성능은 거의 상관이 없어서요. a1706이면 듀얼코어 인데도 잘 돌아 갑니다.
결국 openclaw.json 파일에 등록해 주면 되는 일인데 사람이 하면 귀찮죠. 알아서 잘 해줍니다.
깃허브 코파일럿
- 과금
* 제미나이 3 프로 프리뷰: 제일 잘 돌아감
- 무과금
* GPT-5-mini: 멍청함
* GPT 4.1 / GPT 4o: 제미나이 3 프로 프리뷰와 GPT-5-mini의 중간정도
* 그록: GPT 4 계열보다는 나은데 오류 후 폭주 현상 때문에 사용 자제
정도인거고... 깃허브 코파일럿의 묘미가 뭐냐면요...
GPT 4.1: 못함 → 제미나이 3 프로 프리뷰로 전환 → 해결 → 다시 GPT 4.1로 돌아오고 GPT가 못한 작업을 다시 시키면 제미나이가 헀던 걸 흉내내며 해결
즉 GPT 4.1.쓰다가 막히면 제미나이로 돌려서 해결하고 그 다음부턴 GPT 4.1이 학습할 수가 있어서 상황에 따라 모델 바꿔가며 쓰면 되더군요.
그리고 윗분 댓글이 전 정답이라 생각하는데 오픈클로도 바이브 코딩의 일종이라 제가 써본 느낌으론 코딩 잘하는 놈이 제일 잘 알아먹는 느낌입니다. GPT-5-mini의 경우 간단한 스크립트 돌려보고 권한이 없거나 안된다 싶으면 포기해버리는데 GPT 4.1만 해도 안 되면 다른 스크립트 방법을 고안한다거나 제미나이 3 프로는 잘 안되는데요? 다른 방법으로 해볼게요. 하면서 GPT-5-mini나 4 계열에서 막히는 거 대부분 잘 해결하더군요.
카카오 GPT 대란권으로 프로 2.9만원에 쓰기 시작하면서 지금은 Oauth 인증으로 5.3 코덱스 돌리는데 만족도는 전 이게 제일 좋네요. 스크립트로 잘 안되니 다른 스크립트도 짜보고 파이선도 시도해보고 약간의 팁 같은 거주면 오토메이트나 자동화도 시도해보고 본인이 아는 범위 내에서 어떻게든 컴터를 제어해볼려고 용 쓰는 모습이 기특합니다.
모공에 글 쓰고 답글 단것도 gpt 5 코덱스한테 전적으로 다 맡겨서 나온 결과물이고,
지금 특정인의 페이스북 글 학습시키고 있는데 정확한 방법을 못 찾아서 저랑 오픈클로랑 몇 시간 째 시도 중입니다 ㅋㅋㅋㅋ (스크립트나 api 긁는 방식으로는 한계가 있으니 오픈클로가 매니지드 브라우저로 크롬 직접 열고 페이지 내려가며 확인하는데 이것도 한계가 있어서 제가 날짜 필터로 한 달 단위로 끊어가며 학습하라고 해서 이런 식으로 지금 학습 중입니다)
이게 문제는 하는일이 많아지면 그전에 MEMORY.md 파일에 뻔히 있음에도 "엉?? 난 몰랑? 이일 처음 하는건디??" 이런 식으로 해버리면 진짜 머리에 쥐나요...
저는 home asistant쪽에 관심이 많아서 그걸 위주로 좀 많이 만지고 있는데 어떨때는 모델을 멍청한걸로 바꾸면 전구 하나 재대로 껏다 켜질 못해요. 근데 한번 이렇게 꼬이면 좋은 모델을 붙여도 또 버벅거립니다. 메모리 파일들을 버전별로 백업해 가면서 테스트 하는 지경까지 왔어요. 욕심을 너무 부렸나 봐요.
1에이전트+여러개모델 이실까요?
에이전트당 모델1개씩 지정해서 에이전트 자체를 여러개 돌려쓰시는걸까요?
제미나이보다 조금 떨어지지만 성능이 괜찮아 만족하고 있습니다.
아. 근데 구동속도를 궁금해 하시는 거면...그건 아마 속 터지실 거에요.
저런 오픈클로 같은 외부 프로그램에 연결하려면 API로 연결해야하는게 정책상 합법적인 방법이고, OAuth이라고 정액제를 편법으로 연결할 수 있긴 하나 계정 밴의 위협이 도사리죠.
그런데 여기서 또 당황스러운 정책이, 제미나이는 유료 정액제를 써야만, API 종량제를 쓸수 있다는 겁니다. 유료정액제 구독이 API를 쓰기 위한 필요조건이에요.
살짝 쫄리긴 하네요
저도 codex 5.3에 붙여놨는데 ㅜㅜ
이번주만 쓰고 오픈클로 접을까 생각중입니다 ㅋㅋ
스킬과는 별도로 그 스킬을 쓰기 위한 개념 학습 데이터셋으로 학습을 시키지 않으면 대부분 해내지 못 한다고 보시면 됩니다.
컨텍스트 크기 = 맥락 이라고 보면 됩니다.
이녀석들 결과도 궁금합니다 +_+