:: 게시판
:: 이전 게시판
|
- 자유 주제로 사용할 수 있는 게시판입니다.
- 토론 게시판의 용도를 겸합니다.
통합규정 1.3 이용안내 인용"Pgr은 '명문화된 삭제규정'이 반드시 필요하지 않은 분을 환영합니다.법 없이도 사는 사람, 남에게 상처를 주지 않으면서 같이 이야기 나눌 수 있는 분이면 좋겠습니다."
17/12/14 15:55
'(4) (인간의 경지를 초월한 구간이긴 하지만) 무한히 강해지는 게 아니라 ELO 5000 근방에서는 거의 기력이 상승하지 않는 점
은 제대로 학습된 인공지능에도 한계가 존재하는 걸 보여주는 부분이라고 보입니다' 가 혹시 바둑의 최적화가 끝나서 그런건 아닌걸까요... 알파고님 충성!
17/12/14 15:57
그럴 수도 있는데, 딥마인드 측에서 '바둑의 필승 수순'을 내놓지는 않는 걸로 봐서는 알파고도
바둑을 완벽하게 정복한 상황은 아니지 않나 추측해봅니다
17/12/14 16:02
만약에라도 필승 수순이 나온다면 바둑인들의 흥미가 줄어들긴 할 거 같습니다.
물론 알파고의 수준에서 필승일 뿐이고, 사람이 알파고처럼 두는데 상대방이 다른 수를 두면 그걸 응징하지 못할 가능성이 높지만요. 아직 체스조차도 필승 수순이 안나온 걸 보면 근시일 내에 필승법이 나오지는 않을 거 같아요.
17/12/14 16:00
초등학생 때 바둑 배우면서 초반에 33놓을 때마다 혼났던 기억이 있는데.. 흑흑
물론 제가 뭘 알고 둔 게 아니라 그냥 정석 외우기 싫고 땅따먹기 하고 싶어서 그렇게 둔 겁니다만 크크
17/12/14 15:57
인간의 학습을 참고하지 않은 개체가 더욱 한계가 높다는 것은...
인간이 지금까지 잘못된 방향으로 왔다는 것을 의미할까봐 조금 겁이나네요.
17/12/14 16:01
겁낼 필요 없이 부분적으로는 그게 맞는 거죠.
잘못됐다는 거 자체가 애매한 말인데 귀부터 시작하는 대전략 자체는 인간이 잘 찾아낸 것이고, 세부적으로 들어가면 인간이 잘못한 부분이 천지였다-라는 게 알사범님 가르침인데 인간이 완벽하지 않은 건 다들 알고 있는 상식인데 겁낼 필요가..
17/12/14 17:55
애초에 바둑에서 나온 모든 격언과 정석들은 '인간이 계산하기 어려울 정도로 많은 경우의 수를, 인간이 학습하기 좋도록' 타협한 거라고 생각하면.. 그리 겁날 일도 아닙니다. 인간도 지금까지 잘 해왔어요. 보드 게임 자체가 인간에게 압도적으로 불리한 영역인걸요.
17/12/15 00:18
저는 사람의 수는 사람에게 최적화 된 것이라고 봐요. 사람은 2-3선이면 확실히 지키지만 못 나가고, 4선은 싸우고 5선은 지킬공간이 넓어서 위험하다고 하지만 알파고는 알파고lee시절부터 5-6선에서 싸우고 이득을 본걸요. 파워의 차이때문에 그렇다고 생각해요.
17/12/14 16:03
포커는 이미 이전에 박살이 났네요..
http://m.hani.co.kr/arti/science/science_general/780828.html?_adtbrdg=e#cb
17/12/14 16:04
요즘은 클라우드 서버에, 전세계 각지 DC에 다중화및 백업이 가능해서 햄머한방이나 플러그 한두개 뽑는걸로는 어림도 없습니다.
알파고님 충성! 충성!
17/12/14 16:13
두 줄 요약 중에서 사람의 도움은 방해가 되었다는 것은 오해의 소지가 있어 보이네요.
알파고 제로가 기존 알파고 보다 알고리즘에서 향상되어서 저런 결과가 나온듯 합니다. 알파고 제로의 알고리즘으로 인간의 기보를 학습시키면 약간의 도움(19~70시간정도?) 정도를 기대할 수 있지 않을까요? (그러나 40일에 비하면 별 의미없는 시간이겠지요.)
17/12/14 16:20
알파고 마스터가 그 전의 알파고와 다른 메커니즘으로 수를 탐색한 건 찾을 수 있었는데
알파고 제로가 알파고 마스터와 다른 메커니즘으로 수름 탐색했는지는 제 짧은 영어로는 탐색이 어려워서 제로와 마스터는 같은 방식으로 수를 찾되 인간의 기보 유무만이 차이점이 아닌가? 하고 추정했습니다. 제로와 마스터의 알고리즘이 달라졌다면 '제로가 인간의 도움 없이 마스터를 넘었다'라고 딥마인드 측에서 홍보하는 게 의미가 별로 없을테니까요. (인간의 도움이 없어서인지, 알고리즘 빨인지 알 수 없어서)
17/12/14 16:23
이세돌이 뒀던 버전과 커제가 뒀던 버전은 3점이라고 주워들었고,
커제가 뒀던 버전과 알파고 제로의 차이는 레이팅으로 봐서는 정선과 호선 사이 정도로 보입니다. 불확실한 정보입니다.
17/12/14 16:29
알파고의 메커니즘이 궁금해지네요. 프로들이 해석이 어렵다 하는 걸 보면 알파고가 왜 그런 수를 두는지 설명이 없는 것 같은데요. 그럼 알파고는 자기가 두는 수가 왜 좋은지 이해를 못하는 건가요. 예를 들어 테플전에서 투팩이 안 좋은 이유를 사람이라면 투팩 해보았자 막히고 앞마당만 늦어져서 안 좋음이라고 인식하겠죠. 그런데 알파고는 그런 이유는 모르고 그냥 투팩 해보니 승률이 안좋아서 안 좋음. 이런 식으로 인식하는 건가요? 만약 그렇다면 그걸 정말로 바둑을 이해하고 있다고 해야 할지 모르겠네요.
17/12/14 16:34
기계학습적으로 분석하자만 만약에 알파고A가 a라는 수를 두었을 때 이후 진행들에서 상대방 B가 놓는 수 중 A의 승률을 가장 낮추는 수 b를 찾을 수 있겠죠. 그러면 이러이러한 흐름으로 진행 시 B가 b라는 수로 응징이 가능하기 때문에 a라는 수는 안 좋다-라고 분석이 될 겁니다. 저는 이 정도 수준의 분석이 가능하다면 바둑을 이해하고 있다고 봐도 무리없다고 생각하는데, 만약에 이 정도 수준의 해석을 이해라고 보기는 어렵다라고 생각하시면 그냥 기계일 뿐이죠 크
17/12/14 16:38
현재 알파고의 메커니즘은 1) 경우의 수 2) 가치망 3) 정책망 을 혼합해서 결정하고
여기에 비슷한 승리확률을 가진 수가 여럿 있으면 임의로 둬보면서 테스트하는 걸로 알고 있습니다. 정책망은 빌드오더, 가치망은 각 빌드오더 간의 승률, 경우의 수는 내가 이렇게 하고 상대가 저렇게 할 때 결과가 어떻게 나올지 예측하는 거고.. 알파고는 불친절하게 틱틱 던져주는데 알파고보다 부족한 바둑 인공지능 프로그램들은 친절하게 경우의 수를 알려주는 걸 보면 그냥 '설명 기능'을 굳이 안넣어서 그런 거 같습니다.
17/12/14 16:39
좀더 쉽게 스타 알파고 있다고 가정해보면, 초중반 흐름이 비슷한 게임끼리 클러스터링이 가능할 겁니다. 그러면 (투팩류 vs A) 가 포함된 다양한 클러스터 중에서 (투팩류 vs 원겟더블) 에서의 투팩 승률이 유의미하게 낮다는 수치를 발견할 수 있다면 이런 식으로 분석하는 분석 기계를 만들 수 있겠죠. 알파고는 분석의 토대가 되는 수치만 제공했다고 볼 수도 있지만, 사실상 훈련시에 이런 팩터들이 다 고려되어서 학습된 것이고요.
17/12/14 17:56
알파고 뿐 아니라 현재 인공지능이 새로운 무언가를 학습해서 결론을 도출해 내는 과정은 제대로 밝혀지지 않았다고 알고 있습니다. 그래서 그 부분이 블랙박스 라고 불리우고...학습 데이터만 엄청 쌓아주면 어느순간 얘가 음 이건 이거! 라는 답을 도출해 내는데 왜 그런 답이 나오는지(이를 테면 공식이나 법칙같은) 매커니즘은 모르는 상황. 그래서 그 매커니즘을 밝혀내는 방법?에 대한 연구도 한창이라고 하더군요.
17/12/14 16:30
일단 속도는 의미가 없는 것 같구요. 하드웨어를 더 투자하면 빨라지는 거니까요.
한계점이 궁금한데, 기존 알파고들도 한계점을 보인 상태에서 멈췄던 건가요? 지금까지 알파고 기사에서는 한계점을 이야기한 경우가 없거든요. 그나저나 백이 유리하게 덤을 갖고 시작한 것이 좋았네요. 먼저 둔 사람이 불리한 것이 맞다고 생각하거든요.
17/12/14 16:33
공식적으로 딥마인드에서 '이것이 알파고의 한계다'라고 한 것은 아니고(이런 말을 할 이유도 없겠지요), ELO 상승곡선의 둔화를 토대로 추측해보았습니다.
기존의 알파고들도 한계점을 보인 상태에서 멈춘 건지는 모르겠습니다.
17/12/14 16:39
네. 상승곡선의 둔화에서 멈췄는지가 궁금한 거죠.
개인적으론 어느 버전이건 '시간'은 차이가 있지만 상승곡선의 둔화는 비슷한 위치에서 멈출거라 생각했는데, 그게 아닌가 싶어서요.
17/12/14 16:53
인간의 기보를 바탕으로 학습했던 알파고 마스터의 한계 ELO 보다 인간의 기보 없이 학습한 알파고 제로의 한계 ELO가 더 높다고 읽었습니다.
17/12/14 16:40
화점> 소목,3.3 > 고목,외목 > 대고목 > 천원이 확률적으로 승률이 나오니 재밌네요
인간도 감각적으로 저리들 둬 오곤 있었습니다만 말이죠 소시적에 대고목을 주력으로 하는 바둑학원 신입 동생에게 전체 학원생이 다 탈탈 털린 다음 복수하고 싶어서 이 책 저 책 다 뒤져봤지만 당시에 공개된 대고목 정석 정보가 없어서 아쉬웠던 기억이 나네요 나중에 원장님이 일부 정석 트리를 알려주셨지만 그 녀석은 그 수업을 같이 들었기에 본인이 또 변형을 해버려서... 어휴. ㅡㅜ 알사범님은 답을 알고 계시겠죠?
17/12/14 16:47
링크에 들어가보시면 알사범님이 대고목 고목 외목에 대한 수순도 알려주시긴 합니다.
화점 소목 3,3 보다 경우의 수가 확연히 적은 걸 봐서는 소위 '응징'이라고 볼 수 있는 수를 두는 거 같긴 한데 왜 그런 수순을 밟고 왜 그 수순이 흑이 화점 두는 것보다 더 불리한 건지는......
17/12/14 16:49
그렇네요. 왜일지는 모르겠지만 그게 좋다고 하니 몇 가지 경우를 놓고 시도해보고 외우면 되니까요.
다만 그 동생이랑 연락이 끊긴지라 이젠 알아도 응징할수가.. ㅠㅠ
17/12/14 17:13
현재의 알파고가 몇점까지 접어줄 수 있는지는 해봐야 아는 거긴 한데,
알파고는 이세돌 버전 때부터 이미 다른 인공지능 상대로 접바둑 둬도 곧잘 이겼던 거를 생각하면 인간에게는 쉽지 않은 승부가 될 거 같습니다. 확실한건 알파고가 소위 맞바둑은 잘두면서 접바둑(양학)에는 상대적으로 약한 스타일은 아니라는 거 정도입니다.
17/12/14 18:08
저도 이게 되게 궁금한데..
현재 알파고가 접바둑을 둘 수 있도록 설계학습되어 있지는 않아서.. 물론 변형이 어려울 거 같지는 않은데 궁금하네요.
17/12/14 17:44
본문에 나온 3시간, 19시간 된 시점에서의 기보를 토대로 추정을 해볼때, 인간이 학습하는 방식과 완전히 같다는 느낌이었습니다.
960시간동안 3천만판이니 1시간에 3만판 속도. 최초에는 여기저기 다 놓아가면서 완전 노가다식으로 터득을 해가면서, 3시간째 되면 7~8세 어린이들이 처음 바둑을 배워서 두는 모습과 같아집니다. 19시간쯤 되면 대충 그럴싸한 모습이 되고. 인간의 지식을 토대로 하지 않았다고 해서 인간과 다른 무언가가 만들어지는 것이 아니라, 수만판 수십만판 노가다를 통해 개념을 하나하나 익혀가며 '인간이 발전하는 것과 동일한 경로를 밟아가면서 동일한 결과를 나타내는' 것 같습니다. 바둑을 전문적으로 두는 사람들, 즉 프로기사들은 기존의 알파고VS알파고 대국에 대한 평을 할때 '인간으로서 이해하기 힘들 정도로 높은 수준'에 대해 주로 지적을 하는데 그것은 프로기사로서의 감상이라는 면이 강한것 같고, 과학자들은 '기존 기보를 안넣었더니 오히려 더 낫더라'라는 것을 토대로 '인간지식의 한계에 얽매이지 않았다'는 것에 대해 얘기를 하는 것 같고 그것은 인공지능 개발에 있어서의 기술적인 면을 얘기하는 것일텐데, 개인적으로, 단순히 바둑 자체만을 볼때는 '인간과 같은 학습을 통해 인간적으로 두는구나' 하는 감상입니다. 인간의 한계를 많이 넘어선 시점 이후에 인간의 바둑과 많이 달라보이는 것은, 인간이 기존에 뭘 딱히 잘못해서가 아니라 단지 알파고의 수준이 너무 높아졌다는 것에서 비롯되는 것일 가능성이 큰 것 같습니다. 인간보다 월등한 연산 능력으로부터 약간의 추상적 개념차이가 만들어지고 그런 개념들의 총체가 되는 좀 더 추상적인 개념이 발생을 하면서 현재의 인간으로서는 이해자체가 불가능한 지경에 이르렀다는 점이 중요하지, 단순히 바둑에서 표면적으로 나타나는 양상만을 가지고 얘기하는 것은 곤란할 것 같습니다. 인간을 총체적으로 넘은 단계에서 인간보다 높은 연산능력을 바탕으로 하여 만들어진 개념에 의한 수라면 그것을 '새롭다'고 할 수 있고 그것은 인간에 대한 우위를 나타내는 것이겠지만, 넘지 않은 단계에서의 학습 과정에서 나온 수가 인간이 '자주' 쓰지 않는 것이라고 해서 그것을 인간과의 차이점이라고 하기는 어려울 것입니다. 어떤 시도를 하건 그것은 단지 '어디든 두게된 결과 그 중 그런게 나올 수 있는 것'이고, 그건 인간의 바둑에서도 나올 수 있습니다. 본문의 알파고 선생 정석을 현재 인간이 참고하기는 어려울것 같습니다. 알파고의 실력이 인간을 초월하고 또 거기서 계속 증가를 거듭한 과정을 인간이 쫓아간 이후, 즉 상당한 시간동안 아주 많은 학습을 통해 좀 더 차원이 높은 개념을 습득하는 과정이 계속 누적되어야 사용이 가능할 것 같습니다. 물론 사용자체야 그냥 하면 그만이기는 하지만, 이해를 못하고 사용한다면 별 의미가 없죠.
17/12/14 18:10
확실히 방법론에서는 인간의 방법이 크게 잘못되지 않은 게 확인된 거 같습니다.
알파고의 학습이 사실상 인간이 대국-복기를 반복하는 거나 마찬가지고, 인간이 밟아온 과정을 알파고도 밟아나가니까요. 알파고 선생님의 정석은.. 특히 저 화점 정석은 이게 진짜 바둑의 최선의 수인가 황당할 따름입니다 크크 이해가 안되도 외우라는 사람도 있을 거고 음.. 이건 진짜 전혀 전혀 모르겠어요. 개인적으로는 앞으로 바둑 인기가 현재 수준으로 유지되는 가운데 인공지능의 정석과 수순을 보고 공부한 어린이가 성인이 되서 바둑 기사로 데뷔하면 어느 정도의 활약을 보여줄지가 궁금합니다.
17/12/14 18:11
흔한 오해가, 사람의 기보를 사용했을 때보다 사람의 기보를 사용하지 않았을 때 결과가 더 낫다고 생각하는 건데, 이건 따지고 보면 근거가 없습니다.
우선 논문에 있는 supervised learning vs. reinforcement learning 비교는 이 맥락에서는 정확하지 않습니다. 전자는 강화학습을 전혀 하지 않았으니까요. 그러면 Bootstrapping을 SL로 시작했느냐 무작위한 ANN으로 시작했느냐를 비교해야 하는데, 그렇게 따지면 알파고 마스터와 알파고 제로를 비교해야 합니다만, 이것도 비교를 명확히 할 수가 없습니다. 마스터의 경우 블록이 몇 개인지도 엄밀히 따지면 쓰여 있지 않고(맥락상 40 blocks라 추측하는 정도), 마스터가 강화학습을 얼마나 거쳤는지도 모르기 때문에 비교할 수 있는 데이터 자체가 없어요. 반면 Zen 개발자가 메일링 리스트에서 얘기한 바에 의하면, 같은 정도로 훈련을 하면 지도학습으로 시작한 네트워크 쪽이 더 강했다는 말도 있구요.
17/12/14 18:15
좋은 지적 감사합니다. 제로와 마스터를 동일 조건에서 비교했어야 '제로가 마스터보다 강하다'라는 게 의미를 띄는 거라서
동일 조건이겠거니 하긴 했는데 근거가 거의 없긴 합니다. 만약에 딥마인드가 제로를 더 좋은 재료, 더 좋은 방법으로 더 많이 훈련시켜서 마스터보다 강한 거라면 인간의 기보 없이 강해졌다 하는 거는 의미없는 소리가 되겠네요. 젠 이야기는 몰랐습니다. 그런 주장도 있군요. 감사합니다.
17/12/14 18:12
저는 재미있었던 부분이..
축의 개념을 몇십시간 뒤에나 깨닫게 되었다고 나오더군요. 이세돌과 붙었던 알파고 버전에서는 축이라는 개념을 미리 넣어줬었는데 이번에는 저절로 학습되도록 했구요. 인간은 감각뿐만 아니라 로직도 바탕으로 학습하기 때문에 매우 초기에 깨닫게 되는게 축의 개념인데.. 이런 측면에서 알파고도 아직 완전체는 아니겠지요.
17/12/14 19:13
나랑 해보지도 않고 인간을 이기네 마네 하는 소리하고 자빠져 있네요.
아, 물론 저는 시간이 안되서 알파고랑 바둑은 못둡니다.
17/12/14 19:42
바둑 외에 알파고가 또 괴력을 발휘할만한 게 뭐가 있을까요
체스는 이미 옛날에 정복됬다고 들었고 위에 잠깐 지나간 고스톱같은 건 어떨가요(..) 스타같은 e스포츠 게임은 어느정도로 인간과 차이를 벌릴 지도 궁금하네요 (아 근데 e스포츠쪽 특히 FPS쪽은 알파고에게 뭔가 특별히 패널티를 주지 않으면 더 답이 없겠네요;)
17/12/14 19:55
스타도 결국가서는 단순 운영만으로도 인간과 차이가 많이 날테고, apm제한 같은 것이 없다면 유닛 하나하나가 춤추며 컨트롤할테니 인간으로서는 도저히 상대가 안되겠죠.
스타같은 게임은 인공지능보다는 '로봇'기술의 발전 정도를 측정하는 기준으로서 효용이 있을 것 같습니다. 인간과 같은 조건으로 로봇에 팔 두개 붙여놓고 게임하는거죠. 지금은 어림도 없겠지만 꽤 시간이 지나면 그것도 결국 로봇이 이길 정도로 발전을 하겠죠.
17/12/16 22:26
아닙니다. 스타가 바둑보다 훨씬 어려운 게임이고 현재까지 등장한 그 어떤 딥러닝 네트워크도 스타 정도의 복잡성을 가진 게임에서 인간을 이기기는커녕 게임의 목적조차 파악을 못하고 있는게 현실입니다. 이건 단순히 하드웨어를 많이 붙인다고 해결될 것도 아니어서 새로운 돌파구가 필요한 상황입니다.
만약에 진전이 있어서 어느정도 판단이 된다 하더라도 팔 두개 로봇 붙여놓고 게임하는거야말로 보여주기 외에 무슨 의미가 있나요?
17/12/15 00:23
약간 단순히 생각해서 인간이 두는 바둑의 카운터 빌드 아닐까요? 어차피 계속 상대는 사람이었으니까 그걸 이기는 최고의 수만을 학습했을거같은데... 저 알파고 제로를 상대로 또 다른 알파고를 키우면 제로를 이기는 카운터 빌드가 나올거고 다음 알파고가 또 카운터 빌드를... 이런식의 반복이 아닐까요?
17/12/15 02:23
바둑에 대해서 인간이 갖고 있는 개념이 알파고한테는 단순한 편견일수도 있겠네요
단적인 예로 삼삼침투는 초보 시절부터 곧바로 침투하는 것은 좋지 않다고 합니다. 귀에서 조그맣게 사는 댓가로 상대에게 흠집없는 두터움을 내주기 때문에 반드시 걸쳐둔 돌을 기점으로 침투하라고 하죠 알파고는 오히려 극초반에 확정가를 갖고 시작하는게 낫다고 보는지도 모르겠네요.
|