모공에도 올렸는데 관심있는 분이 많을거 같아 많은사람들이 볼 수 있게 팁게에도 같이 올립니다..
pdf 다운로드 : http://spri.kr/download/14726/
-Executive Summary –
구글 DeepMind가 바둑 인공지능 프로그램 AlphaGo를 공개한지 한 달의 시간이 흘렀다. 유럽 바둑챔피온인 판후이 프로 2단을 꺾고, 세계 바둑챔피온 이세돌 프로 9단에게 도전장을 냈다. 아직까지 많은 전문가들이 이세돌 9단의 우세를 점치고 있으나, 도전자인 AlphaGo가 챔피온이 되는 날이 머지않을 것으로 전망했다. 판후이와 대국 당시, 심판과 전문 프로기사들 역시 AlphaGo의 바둑이 사람과 크게 다르지 않다고 평했다. 인공지능 바둑프로그램이 인간을 넘어서는 초읽기가 시작된 것이다. 그렇다면 “어떻게 사람처럼 바둑을 두는 것이 가능한가?”에 대한 자연스러운 물음을 하게 된다. AlphaGo가 기존 바둑프로그램의 한계를 뛰어 넘은 핵심을 더 깊게 이해할 필요가 있다. 본 보고서는 AlphaGo의 인공지능 알고리즘을 더 이해하기 쉽게 전달하는 것을 목표로 한다. AlphaGo에 대한 막연한 궁금증을 풀기위해서 인공지능 게임 알고리즘의 핵심인 게임 트리 알고리즘부터 살펴보고자 한다.
바둑은 우주의 원자수보다 많은 경우의 수를 가지고 있다. 완벽한 탐색은 불가능에 가깝다. 실제 프로바둑기사들도 직관에 의해 경기를 진행한다. 컴퓨터가 인간의 직관을 표현할 수 있을까? 딥러닝이 그 대안이 될 수 있다. 딥러닝은 기존의 인공신경망을 확장한 개념으로 빅데이터 분석, 얼굴 인식, 이미지 분류 등 신산업의 곳곳에서 응용되고 있다. 딥러닝의 핵심은 사람처럼 학습하는 것이다. AlphaGo에서 역시 딥러닝을 활용하여 프로기사들의 기보 16만개를 학습했다. 이것은 사람이 1년 동안 공부하는 기보의 수를 1,000개라고 해도 평생 동안 학습할 수 없는 숫자이다. 더욱이 AlphaGo가 16만개의 기보를 학습하는데 걸린 시간은 고작 5주 밖에 되지 않는다. 그동안 쌓여온 바둑의 정수를 순식간에 학습했다는 것이다. AlphaGo는 이에 그치지 않고 스스로 대국하여 훈련하고 있다. 이것이 강화학습(reinforcement learning)이다.
#CLiOS
pdf 다운로드 : http://spri.kr/download/14726/
-Executive Summary –
구글 DeepMind가 바둑 인공지능 프로그램 AlphaGo를 공개한지 한 달의 시간이 흘렀다. 유럽 바둑챔피온인 판후이 프로 2단을 꺾고, 세계 바둑챔피온 이세돌 프로 9단에게 도전장을 냈다. 아직까지 많은 전문가들이 이세돌 9단의 우세를 점치고 있으나, 도전자인 AlphaGo가 챔피온이 되는 날이 머지않을 것으로 전망했다. 판후이와 대국 당시, 심판과 전문 프로기사들 역시 AlphaGo의 바둑이 사람과 크게 다르지 않다고 평했다. 인공지능 바둑프로그램이 인간을 넘어서는 초읽기가 시작된 것이다. 그렇다면 “어떻게 사람처럼 바둑을 두는 것이 가능한가?”에 대한 자연스러운 물음을 하게 된다. AlphaGo가 기존 바둑프로그램의 한계를 뛰어 넘은 핵심을 더 깊게 이해할 필요가 있다. 본 보고서는 AlphaGo의 인공지능 알고리즘을 더 이해하기 쉽게 전달하는 것을 목표로 한다. AlphaGo에 대한 막연한 궁금증을 풀기위해서 인공지능 게임 알고리즘의 핵심인 게임 트리 알고리즘부터 살펴보고자 한다.
바둑은 우주의 원자수보다 많은 경우의 수를 가지고 있다. 완벽한 탐색은 불가능에 가깝다. 실제 프로바둑기사들도 직관에 의해 경기를 진행한다. 컴퓨터가 인간의 직관을 표현할 수 있을까? 딥러닝이 그 대안이 될 수 있다. 딥러닝은 기존의 인공신경망을 확장한 개념으로 빅데이터 분석, 얼굴 인식, 이미지 분류 등 신산업의 곳곳에서 응용되고 있다. 딥러닝의 핵심은 사람처럼 학습하는 것이다. AlphaGo에서 역시 딥러닝을 활용하여 프로기사들의 기보 16만개를 학습했다. 이것은 사람이 1년 동안 공부하는 기보의 수를 1,000개라고 해도 평생 동안 학습할 수 없는 숫자이다. 더욱이 AlphaGo가 16만개의 기보를 학습하는데 걸린 시간은 고작 5주 밖에 되지 않는다. 그동안 쌓여온 바둑의 정수를 순식간에 학습했다는 것이다. AlphaGo는 이에 그치지 않고 스스로 대국하여 훈련하고 있다. 이것이 강화학습(reinforcement learning)이다.
#CLiOS
수많은 프로그램중에 한 분야정도로 봐야하지 이게 기존의 어떤걸 대체할만큼의 유의미한 시스템이라고 보긴 어렵다고 봅니다.
저게 스스로 학습해서 다른 분야로 갈수 있는거라면 모를까 스스로 학습에 의해서 다른 분야에 대해서 파악하고 하는게 아니라서 유의미한 수준은 아니라고 봅니다.
알파고를 대단하다고 생각하지만 인공지능의 수준과 요즘 대국으로 사람들이 흔히 말하는 스카이넷 뭐 이런류의 내용으로 발전시키기엔 좀 다르다고 보는겁니다.
그러니까 그런 값을 부어넣는건 변하지 않는거죠.
스스로 학습에 의해서 새로운 알고리즘을 만들고 알아가는게 아니니까요.
내부적으로는 알고리즘에 의해서 학습을 하긴 하지만 그게 우리가 일반적으로 생각하는 인공지능이냐 봤을땐 새로운건 아니라는 거죠.
○ 아이디어를 가지고 있더라도 컴퓨팅 자원의 부족으로 이것을 구현할 수 있는 조직은 전 세계에 많지 않음
만약 바둑이외의 분야 - 이미 상당히 인공지능에 의존하고 있는
제조공정, 기구설계, 항만, 공항 물류시스템, 원유 및 자원체굴 및 관리시스템 등이
서로 연결되어 딥러닝이 이루어지면 어찌될까요? :)
원숭이가 궤도역학을 활용한 Spaceship의 가속 및 감속의 원리를 이해할 수 없는 것처럼
인공지능이 아주 단순하게 제시한 결과물이 사람의 눈에는 신의 행위에 필적한다면 !?
아직은 인간과 대결이 흥미로울 정도로 비슷한 수준이라 재미지겠지만
격차가 벌어져 인공지능이 무슨 생각과 행동을 하고 있는지 인간의 인지범위로
이해불가능한 단계가 되면 재미없어지리라 봅니다.
알고리즘에 관심많으신 개발자분들에게 아주 좋은 문서이구요.
저의 개인적인 생각으로 트리서치 부분은 기존과 크게 다를게 없습니다.
정책망 가치망도 사실 기존에 있었던 개념인데.
8~9페이지 정책망과 가치망 판단기준인 컨볼루션 신경망 (페이스북 얼굴인식 알고리즘에 쓰이는 deep face) 을 적용한 ..
이 부분이 정말 핵심 이더라구요.
이게 정말 굿아이디어 같습니다. 바둑과도 딱떨어지고 인간이 부분을 모아 전체를 판단하는 직관을 흉내내는 아이디어인데.
(이부분의 조금 더 자세한 내용을 구글이 공개했으면 하는 바램입니다.)
컴퓨팅파워도 물론 필요하긴 하지만 그게 전혀 핵심은 아닌거 같습니다. 조금 더 데이터를 쌓고 학습하는 시간이 빨라지는거죠.
거기에 시뮬레이션 강화학습을 통한 확률 보정도 굉장히 나이스한 아이디어고.
결론은 절대 연산능력의 발전으로만 되는게 아니라는것.
연산능력이 핵심이 아니라. 알고리즘으로 인간의 직관과 학습을 흉내낼수 있는 계기를 마련했다는게
대단한 발견입니다.
아무튼 문서를 작성해주신 연구원 3분 대단하시고 감사드립니다.