오픈클로(openclaw) 외부 모델/ollama 로컬모델 성능 테스트 : 클리앙

이번주에 명절도 끼어 있겠다, 시간도 많아서 몇일동안 openclaw랑 놀아 봤습니다.

일단 저는 코딩이 약간 가능한 취미 개발자이고, 맥미니 대란에는 동참 못한 관계로 오래된 맥북에 설치하여 테스트 하였습니다.

설치환경 : macbook a1706 / Swquoia OCLP

Ollama 서버 : WSL2 Ubuntu24.04 (RTX5070Ti 16G)

결론을 먼저 말씀 드리자면... 이게 로컬LLM으로는 일반적인 업무수행에 꽤나 어려움이 있습니다.

하지만 API로 사용하자니 너무 큰 비용이 걱정이고요, 이놈이 크게 부가가치를 생산하지 않는 이상,

장난감 + 미래에 대한 약간의 찍먹 개념으로 쓰기에는 한달에 10만원 이상의 비용은 부담이니까요.

거두절미 하고 일단 테스트 결과를 보여드리고 썰을 풀겠습니다.

참고로 밑에서 4개가 로컬 모델입니다. 비전 모델이 섞여있지만 그냥 일단 재미로 봐주세요.

점점 똑똑해 지는걸 막기 위해서 거의 매번 새로운 환경을 주었습니다. 다들 처음 푸는 문제를 풀어낸건 동일합니다.

GPT 최신 모델들은 테스트 하지 않았습니다.왜냐면 제미나이 3 Flash가 성적이 너무 좋아서 별 의미가 없다고 생각했어요.

테스트 할때는 API가 아니라 Antigravity OAuth 로 사용한거라 가격이 더이상 GPT 랑 비교할 필요가 없었거든요.

제미나이 3 는 인상적이었습니다. 저 테스트 말고도 그냥 계속 일상적인 내용이랑 특히나 openclaw 세팅에 계속해서 사용했는데요. 제일 덜 빡쳤습니다.ㅎ

OAuth로 인증하면...약 5시간에 한번씩 토큰이 리셋되어서 이론적으로는...계속 사용이 가능했지만, 빡세게 좀 질문하고 돌려보면 2시간도 안되어서 토큰은 모두 날아갑니다. Flash기준으로요. 더 무거운 모델은 진짜 순삭됩니다.

종량제 과금형API는... 그정도 금액을 감당할만한 생산성을 부여하려면 세팅이 아주 어렵습니다. (안되는건 아니에요. 가능하다고 느꼈습니다.)

그래서 대안이라고 생각한건 Copilot 의 gpt-5-mini 모델입니다. 아시겠지만 이게 $10 요금제에서도 토큰의 제한이 없어요. vscode copilot 플러그인 쓰시는 분들은 아시겠지만 맨위에 토큰 "0"으로 분류된 놈들중에 하나입니다.

참고로 grok 은 오류를 너무 자주 내고 뻗어요. 궁합이 안맞습니다.

아직까지는 좀 큰 프로젝트의 프로그래밍은 Openclaw를 쓸필요는 없습니다. 그건 다른 AI코딩툴이 더 잘합니다. 지금까진 비교 대상은 아니에요. 이건 그냥 AI 비서로 봐줘야 할겁니다. 물론 과금걱정이 없이 API를 사용할 수 있다면 이것또한 가치가 있어 지겠지만 지금은...좀 가성비가 떨어집니다.

상황에 따라 로컬 모델로 일을 시키고 주된 일은 GPT-5-mini를 시키고..뭐 이런 유동적인 방식도 충분히 가능한데 써보면 아시겠지만 이게 아무리 컨텍스트를 일정하게 유지해 주는 놈이라도 모델이 바뀌면 일의 연속성이 확 떨어집니다. 그냥 능력좋은 모델을 계속 쓰는게 덜 빡칩니다.

몇일 더 가지고 놀아보긴 할건데 참 재밌긴 해요. 실제로 뭔가 비서가 생긴것 같기도 하고요.

로컬 LLM 모델 안쓸거면 그냥 구식 노트북에 리눅스 깔아서 도전해봐도 됩니다. 저렴한 장난감이라고 생각하면 너무 재밌을거에요.

사용기

서비스/SW
오픈클로(openclaw) 외부 모델/ollama 로컬모델 성능 테스트 30

사용기

서비스/SW 오픈클로(openclaw) 외부 모델/ollama 로컬모델 성능 테스트 30

서비스/SW
오픈클로(openclaw) 외부 모델/ollama 로컬모델 성능 테스트 30