:: 게시판
:: 이전 게시판
|
- 자유 주제로 사용할 수 있는 게시판입니다.
- 토론 게시판의 용도를 겸합니다.
통합규정 1.3 이용안내 인용"Pgr은 '명문화된 삭제규정'이 반드시 필요하지 않은 분을 환영합니다.법 없이도 사는 사람, 남에게 상처를 주지 않으면서 같이 이야기 나눌 수 있는 분이면 좋겠습니다."
17/12/14 20:00
비전문가의 입장에서 관심 주제에 대해 읽을 만한 글이 안올라와서 나름대로 글을 써보려 했으나
오류를 감수할 수밖에 없었는데 정확한 설명해주셔서 감사합니다. 질문드릴게 있는데 딥마인드에서 예전에 네이쳐에 발표했던 논문을 보면 알파고가 cpu개수나 쓰레드 수를 적게 했을 때랑 많이 했을 때의 성능 차이가 분명 나기는 나지만 단일 cpu로도 일정 수준의 기력은 보장이 되던데 이런 거도 강화학습 자체는 수많은 슈퍼컴퓨터로 하고, 강화학습이 완료된 알파고를 cpu하나로 구동할 때 그정도 파워가 나오는 거라고 보면 되나요?
17/12/14 20:07
AlphaGo Lee의 경우는 알고리즘상 Master나 Zero만큼의 자원을 요구하진 않습니다만, 그래도 강화학습 자체가 자원이 좀 필요하긴 하죠. GPU 50개를 썼다고 되어 있네요. 일단 학습이 완료되면 ANN 자체는 아무 걸로나 돌려도 됩니다. 병렬로 돌리는 것은 MCTS를 더 깊게 하기 위해서구요.
17/12/14 20:53
TPU를 2000개나 썼다구요..? 그렇다면 아직 일반인이 쉽게 따라하기는 어렵겠네요 흐흐흐.
학습된 결과라도 구글에서 공개해준다면 좋을텐데..
17/12/14 21:02
아마 당분간은 절대 공개할 생각 없을걸요... 디테일한 부분도 논문에 안 실었고, 아자 황이 다른 사람 질문에 답변하는 것도 내부에서 매니저 허락을 받고 해야 하는 구조인 걸 보면요.
17/12/14 22:25
강화학습 과정에서 바둑의 학습에 대한 보상은 어떤 식으로 주어지나요? 가령 예전에 유명했던 벽돌깨기 게임 자가학습이나 갤러그 게임 자가학습의 경우에는 비교적 명확한 보상을 제시할 수 있는 반면에(점수나 남은 벽돌 개수 등) 바둑은 그런 보상을 제시하기가(오직 승리 패배로만?) 쉽지 않을것 같아서요. 특히 아예 처음부터 자가학습을 시키는 경우에는 더더욱 그럴 가능성이 높아보이구요.
17/12/14 23:19
2-(1)의 경우는 승패로 주어집니다. 2-(2)는 별도의 보상이 있다기보다는, MCTS 자체가 ANN을 강화하는 역할을 하므로, 본문에 설명했듯 ANN+MCTS 결과를 다음 세대 ANN으로 예측할 수 있도록 훈련하는 방식입니다. AlphaGo Zero에서는 이렇게 업데이트된 ANN을 이전 세대와 매칭을 시켜 성능 비교를 한 후 우수하다고 판단되면 ANN을 갱신하고, 아니면 이전 세대를 계속 사용하는 방식을 썼구요, AlphaZero에서는 이런 성능 평가 과정 없이 계속 자기대국을 늘리면서 동시에 학습시키는 방식이었습니다.
17/12/16 11:25
이제 인간이 인공지능을 바둑으로 이기긴 힘들 것 같기는 한데
만약에 바둑에 특화된 서번트 증후군에 걸린 사람이 있다면 인공지능을 이길 수 있을까요? 서번트 증후군으로 뇌의 연산 능력을 100% 바둑에만 집중시킨다면 그래도 인공지능에게는 안될지 궁금합니다.
17/12/16 14:01
서번트 증후군이 뇌의 연산 능력을 100% 바둑에 쓸 수 있게 하냐는 생리학적 질문이 우선인 것 같은데, 일단 제가 대답할 수 없으니(회의적이긴 합니다만) 넘어가기로 하고... 일단 지금은 인간이 바둑을 배우는 방식이 상당히 원시적이라 근본적 한계가 있습니다. 인공지능 바둑만을 보고 배우며 자라는 세대가 나오고, 좀더 효율적인 학습법이 개발되면 모르겠지만요.
|