:: 게시판
:: 이전 게시판
|
- 자유 주제로 사용할 수 있는 게시판입니다.
- 토론 게시판의 용도를 겸합니다.
통합규정 1.3 이용안내 인용"Pgr은 '명문화된 삭제규정'이 반드시 필요하지 않은 분을 환영합니다.법 없이도 사는 사람, 남에게 상처를 주지 않으면서 같이 이야기 나눌 수 있는 분이면 좋겠습니다."
19/03/17 00:54
사실 미국에서도 실리콘밸리 밖에선 데이터 사이언스가 제대로 뭔지도 모르는 기업이 많죠. 알아도 제대로 적용시킬 인력도 드물구요.
한국에서는 더 할테구요. 그렇다보니 허수가 많은 직업이라고 봅니다. 그냥 유행같은거라고 봐요.
19/03/17 00:56
예 머신 러닝도 한 때의 붐이라는 시각이 있던데, 데이터 사이언스도 마찬가지라고 생각합니다. 그래도 붐이 지나고 안정기에 접어들면, 그래도 무언가가 남아있기는 할 것 같아요. 아예 없어지진 않지 싶습니다.
19/03/17 01:30
머신러닝은 워낙 일상생활에 깊숙히 스며들어서 붐은 아니라 진짜에 가깝고 '진짜' 데이터사이언스를 할 인재, 기업, 환경이 워낙 소수여서 이정도로 일반인이 열광할 직업은 아니다라는기 제 생각입니다. 거품이 많이 껴있죠. 안정기를 거치려면 10년은 걸릴거 같아요.
19/03/17 02:06
예를 들어 암환자 정상인 dna 데이터 비교 분석한다고 하면, 단순 데이터 통계 분석하는 데도 dna 가 뭔지, dna 데이터 저장하는 파일 형식, dna 데이터 전처리 방식 등을 알아야 하죠. 차이나는 dna 를 찾았어도 위 그림에 쓰여진 것처럼 그것의 의미까지 찾아봐라 하면 암이 뭔지, 암환자한테만 있는 dna 변화가 어떻게 암에 영향을 주는지 등을 알아야 될거구요 흐
19/03/17 02:15
집값 예측 모델을 만든다면 부동산에 대한 전반적인 지식, 대출 연체자 예측 모델을 만든다면 금융 그 중에서도 여신쪽 관련 지식과 경험이 도메인 지식이 되겠지요.
중요성을 롤로 예를 들면, 데이터 분석가가 '용이랑 바론을 먹을 수록 승률이 오르는군요'하는 걸 롤 유저들은 경험적으로 알고 있지요. 도메인 지식이 없으면 시간들여 탐색하고 분석해서 알 수 있는 사실을 관련 분야 전문가들은 그냥 확인만 하면 되니까요. 이런 도메인 지식의 중요성 때문에 차라리 자기네 직원에게 데이터 분석 교육을 받게 하는 쪽을 선택하는 기업들도 많다고 합니다. 실제로 자연어 처리 때문에 국어 공부 엄청 하신다는 분도 봤습니다.
19/03/17 01:47
데이터 사이언스가 참으로 애매한게, 서브토픽은 맞을 수 있는데,
그렇다면 기존의 인공지능 학계 종사자들이 데이터사이언티스트냐 하면 또 아니죠. 흐흐 컴퓨터 비젼, 자연어처리, 음성인식 연구자들이 본인을 데이터 사이언티스트라고 하진 않을 것 같습니다.
19/03/17 01:45
머신러닝 딥러닝이라지만 연구실안에선 전세계의 인재들에게 치이고 밖에선 아직 기술이 못따라가는데 과도한 기대가 있어서 자신 역량이 못받쳐주는걸 인정하고 석사에서 끝냈습니다...
박사님들 정말 존경합니다
19/03/17 02:36
어쩌다 보니 데이터마이닝 전공하였고 현직인데요. 흥미로운 글이고 대부분 맞는 말이네요. 데공이 데이터를 만들어주면 통계쪽은 데이터로 어떤 값을 만들고 데싸는 그 값을 예측, 추천, 분류 하는 일 정도 되겠네요.
이쪽 일이 어렵지만 재미는 있는거 같아요. 결과도 바로 눈에 보이고... 그런데 딥러닝 이후 위에서는 기대가 커서 힘든부분도 있어요. 알파고가 너무 만능같은 이미지라... 실제로 만능이라고 할수도 있겠지만 만능이 되려면 바둑같이 판과 룰이 다 짜여져 있어야 하는 거고 실제로는 갈길이 멀죠. 데싸의 한계는 아이러니하게도 데이터에 있어요. 아무리 능력이 쩔어도 데이터가 가지고 있는거 이상은 못끌어네요. 데이터 자체에 정보가 부족하면 혈액형으로 성격맞추는 거나 마찬가지의 일이 되버려요... 그래서 순간순간 사기꾼이 될때도 있지요. 전망은 좀 극과극인데 이 일이 참 어렵기도 하지만 한편으로는 참 쉽기도 해요. 발전속도가 빨라 공부해야할게 많지만 또 그만큼 편리한 툴들이 쏟아져 나오거든요. 지금도 전공자가 아니더라도 조금만 익히면 할 수 있는 분석이 많아요. 하지만 또 한편으로는 도메인과 데이터에 대한 노하우가 중요한 직업이라 책이나 넷상에서 얻기 힘든 지식이 요구될때가 있어 아직은 허들이 있는 편이라고 생각되요. 결국엔 허도 있고 실도 있다는 당연한 말이 되겠네요.
19/03/17 04:08
데이터 사이언스는 업계의 관심 & 기대치와 실제 해낼 수 있는 일의 간극이 참 크다는게 특징인듯 합니다.
AI, 머신러닝, 딥러닝, 빅데이터 등에 대한 관심은 높은데, 그게 뭔지는 잘 모르고, 뭔가 대단한 걸 할 수 있을거라는 환상은 잔뜩 있는 분야죠. 특히나, 인간의 머리로는 해낼 수 없는 뭔가 미지의 결과물(?)을 이것을 통해 만들어 낼 수 있을거라는 기대감이 장난 아니더군요. 사실은 그게 아닌데... 그냥 많이, 빨리, 수천명의 인력이 필요한 일을 컴퓨터 한 대가 해낼 수 있을 뿐... 그래서 데이터 사이언티스트들이나 머신러닝 엔지니어들이 개고생을(...) 합니다 ㅠㅠ
19/03/17 05:22
재미있게 잘 봤습니다. 저는 현역 통계학자이고 이런 주제를 볼 때마다 참 흥미롭지만
이런 구분을 둘려고 하는 것이 큰 의미는 없어보입니다. 엔트리레벨 잡에서 이런식의 구분을 두는 것이 이해가 안되는 것은 아니지만 새로운 직군이 생긴 것이 아닌 기존의 있던 일들을 시대에 흐름에 따라 새로운 이름을 붙인 것으로 보고 있습니다.
19/03/17 06:50
데이터를 보고 의미를 뽑아내는 과정이 궁금하네요. 보통의 심리학자, 사회학자, 물리학자라면 가설을 만들고 실험을 설계 및 수행해서 데이터를 뽑아내고 맞는지 확인하고 틀리면 가설을 수정하는 등의 과정을 거칠 텐데
데이터 사이언스는 그 과정에 특이한 점이 있을 것 같거든요.
19/03/17 09:02
알고리즘마다 다르긴 합니다만, 보통 X 인자와 Y 인자 정도만 구분한 후 기존 데이터를 일단 무지막지하게 때려넣고(지도) 알고리즘을 최적화(학습)한 후 성능을 테스트(검증)하는 식으로 갑니다. 혹은 Y 인자마저 지정하지 않고 알아서 분류해! 하는 식으로 가기도 합니다. 그렇기 때문에 양질의 데이터가 필요하고 대량 확보가 알고리즘의 강건성을 가져옵니다.
기존 통계는 영가설(귀무가설)을 검정하는 방식이라 통계와는 큰 차이가 있는 셈입니다.
19/03/18 23:55
유전 알고리즘, 의사결정나무, 인공신경망 등 데이터 분석 분류 예측 등을 위한 방법론입니다. 주로 어디선가 '영감'을 받으면 그것을 구현하기 위한 수학적 식 도출과 코딩을 통한 구현, 병렬계산을 위한 방법론까지 모두 포함해서 알고리즘을 구축하는데 무엇이냐고 하시면 대답하기 애매하네요
19/03/17 08:54
저는 화학업계에서 일하고 최근에 데이터마이닝 관련 업무를 시작했습니다. 아직 제조업에 데이터마이닝을 적용하기엔 궁합이 너무 안 맞습니다. 이빨 털기 딱 좋은 정도입니다.
연구 동향이 대부분 연관분석(장바구니분석), 이미지분석 및 분류 정도에 초점이 맞춰져 있구요. 구글 아마존 같은 공룡기업은 이미 이미 예전부터 아주 적극적으로 활용하고 있습니다. 고객 데이터가 지천으로 널려 있으니까요. 데이터 사이언스는 총체적 접근법이 필요하다고들 합니다. IT 지식(코딩 등), 분석 지식(알고리즘 등), 비즈니스에 대한 이해 중 하나라도 빠지면 산으로 가요. 제대로 하기 어려운 분야입니다 ㅠㅠ
19/03/17 08:56
위에서 나플라님이나 불타는고무님 댓글도 결국 비슷한 맥락 같아요. 이게 댓글로 조금만 들었는데도 그 만만치 않음이 확 느껴지네요.
19/03/17 09:03
넵. 제가 보기에는 비즈니스가 복잡할수록 현업 인력이 코딩을 배우는 게 더 빠릅니다. 요즘은 능력자들이 모듈을 하도 잘 개발해놔서 코딩 자체는 어렵지 않은데 양질의 데이터를 확보하고 인자 선별하는 게 정말 어렵고 중요합니다.
19/03/17 11:11
인자 선별이란 게 좀 더 자세히 설명하자면 어떤 건가요?
‘무릎이 시큰거리면, 다음날, 비가 오더라.’ 무릎, 시큰, 다음날, 비... 이걸 선택하는 게 인자 선별이고, 빅데이터로 매칭해서 정말 그런지 확인하는 그런 건가요.
19/03/17 18:50
넵 맞습니다. '어떤 사실이나 가설을 확인'하기 위해서 혹은 '데이터에 어떤 정보가 있는 지 확인'하기 위해서, '데이터 내에 어떤 속성을 활용해야하는 지' 혹은 '어떤 속성의 데이터를 취득해야하는 지' 선택하는 과정입니다.
19/03/17 15:05
엄청나게 광풍이긴하지만 실제로 맛(실효성)도 있고 사먹는 고객층(수요)도 꾸준한게 들어맞네요
허니버터칩처럼 그냥 일시적인 광풍일지 산업 패러다임을 바꿀것인지는 아직확정은 아니지만 아직까진 전자에 가깝게 느껴지네요
19/03/17 10:17
이런 광풍이 불면 여러 오해와 억측이 같이 생깁니다.
데이터 과학, 공학에서 가장 중요한 것은 결국 domain knowledge입니다. 연관성을 인과성으로 오해하기 쉬운 모형입니다. 타이타닉 탑승자를 기준으로 생존분석을 하면, 사고가 나서 구명보트를 탈 때 짝수번호를 타야 살아남을 가능성이 높다고 나옵니다. 그 뿐만 아니라 비싼 객실에 탈수록 더 유리하고요. 근데 그 때 사고가 났을 때 배 양쪽에서 구명보트를 제어한 두 사람이 전달받은 메시지의 이해가 달랐습니다. 한 쪽은 “여자와 아이들만 태워라” 또 다른 쪽은 “여자와 아이들부터 먼저 태워라”. 이것이 실제 그 원인인거죠. 그런데 모든 것을 숫자로만 본다면 상식에 반하는 괴상한 결론에 도달하게 됩니다. 아무리 기계가 결론을 정리하여 쏟아내도 선택을 하는 것은 해당 분야 전문가가 합니다. 사람이 한다는 것이죠. 결국 외피는 기계가 쓰고 있지만 그것을 관통하는 이데올로기는 사람이 만들어내고 조작하고 관리합니다. 소위 말하는 A.I 판사라는 “COMPAS”나 예방치안(어떤 놈이 미래에 범행할 지를 미리 짐작하여 관찰하는) 시스템은 심각한 사회문제가 될 수 있습니다, 효율의 이름으로 최소한의 정의를 희생하게 하는 것은 받아들일 수 없죠. 그렇게 당하는 사람이 본인이라고 생각하면 좀 다르게 생각을 하게 될 겁니다. 참조. "Artificial Unintelligence - How computers misunderstood the World", MIT Press 2018
19/03/17 10:41
타이타닉 이야기 재미있네요. 비슷한 이야기지만, 근대 이후 카리브해의 해적의 숫자와 지구 온난화 간에는 강한 음의 상관 관계가 있으니 지구 온난화를 해결하려면 해적을 다시 권장해야한다는 조크가 있지요 하하하
19/03/17 11:29
상관관계는 데이터로 미뤄보아 객관적이나
인과관계로 해석하는 것은 검증되지 않은 가설이고 추가로 실험이 필요한 거란 생각이 드는군요. 그 분야의 지식과 경험을 가지고, 이건 잘못된 거야, 이건 가능성이 있겠어 등을 판단할 수 있는 부분이 있는 것이겠고요. 예를 들어 소방수와 불의 상관관계를 가지고, 소방수가 많아지면 불이 많아진다는 인과관계로 해석할 때 그건 가설에 불과하고, 일반상식에 비춰 거짓임을 알 수 있는 식으로 말이죠. 이때 그것이 전문적인 것이면 일반상식으로는 다룰 수 없고, 그 분야의 깊은 경험과 사고력 그리고 직관력을 필요로 할 것 같고요. 때문에 도메인 지식이 중요하다는 말씀이라 이해가 되는데 맞는지 모르겠네요.
19/03/17 12:19
기계학습에 대한 오해 중에 하나가 충분한 데이터만 있으면 된다는 생각이라고 합니다.
실제 현장에서는 인간 전문가의 경험이 매우 중요합니다. 적용할 인공지능 도구도 무지 많아 어떤 것을 어느 정도로 적용해야 하는지가 매우 중요한 요소입니다. 데이터의 어떤 요소(features)를 선택할 것인가도 중요하죠. 이건 해당 분야 경험이 있어야만 하죠. 경험이 없으면 시간도 많이 걸리고 결과의 질도 엉성합니다. 해당 분야 현장 전문가가 없는 업체에 , 정확히 말하자면 기계에 맡겨서는 안된다는 것이죠. 요즘 신문에 나오는 업체의 선전을 보면 빅데이터만 주어지면 뭐든 찾아낼 수 있다는 "만능" 시스템이 있다는 식으로 선전을 하는데 그것 믿다간 큰 사고 날 수 있습니다.
19/03/17 14:29
예전에 방송에선가 송길영씨가 그 비슷한 얘길 하신 기억이 있네요.
빅데이터를 해석해서 그걸 실용적으로 활용하는데까지 연결시킬 수 있는 사고력과 통찰력을 가진 사람이 필요한 것 같아요. 다만 그점을 따로 강조하는 사람은 별로 없고, 보통 그 분야의 전문가들이 뉴스나 방송을 통해 말할 때 빅데이터를 구하기 힘들다는 점만 강조해서 발언하는 것 같고요. 그건 아마 정치적 의도가 있는 것 같단 생각이 들더군요. 그 부분에 정부가 해줄 수 있는 게 있으니, 규제를 풀고 국가가 가진 데이터도 상당 부분 공개하고 협력해달라... 뭐 그런 것이겠죠. 한편 빅데이터가 귀한 것이고, 미국인만큼 못하는 것은 데이터가 부족해서 그런 것이다.... 약간 그런 회피성 목적도 있는 것 같단 느낌이 들었고요. 이런 관점에서 saazhop님께 질문드리고 싶은 게 있는데요. 빅데이터를 잘 활용하기 위해서, 빅데이터를 이용하며 가치있는 걸 잘 찾아내기 위해서... 기술적인 것 이외에 어떤 교육이 필요하다고 생각하시는지 궁금하네요. 제 생각에는 주입식 교육으로는 답이 없는 것 같거든요.
19/03/17 14:36
전 saazhop님이 아니지만
맨 밑 얘기에 대답해드리자면 그것만으로는 답이 없지만 그것조차 없으면 답이 더더욱 없어질겁니다.
19/03/17 17:38
이 논점에 해당하는 주된 사람들이
물리학 전공자와 인문학 전공자라 생각하거든요. 그분들이 기술력도 갖췄을 때, 빅데이터 분야에서 해낼 수 있는 부분이 많을 거란 거죠. 다만 그러기 위해서는 물리학과 인문학 교육의 질이 관건이라 생각하고요.
19/03/17 17:43
그러니까. 주입식 교육이 결코 질이 나쁜게 아닙니다 지금 교육도 질이 나쁘지 않아요.
결국 이것도 문제해결임을 생각해볼 때 도구조차 없으면 아무것도 해결을 못하는데 도구를 쥐어주는 가장 좋은 방법이 주입식 교육입니다.
19/03/17 15:40
저는 우리나라와 같은 인구 4000만 수준이라면 정책이 제일 중요하다고 봅니다.
스마트시티 책임자된 정재승 교수 “데이터피아 신세계 열것 ” http://www.hani.co.kr/arti/economy/economy_general/843606.html 의욕이 있다고 해서 이런 식으로 책임자를 선정하면 안 되죠. 이전 비트코인 논쟁에서 보여준 바와 같이 IT기술에 대한 정재승의 지식은 매우 피상적입니다. 선한(?) 의도와 기술적 이해도는 전혀 다른 문제입니다. 4대강, 줄기세포, 녹색성장, 창조경제, 빅데이터 이런 쪽으로 정부에서 몰빵을 하면 교수, 기업, 연구소들이 느닷없이 모두가 갑자기 전문가로 둔갑을 합니다. 모두가 방향을 바꿔서 이쪽으로 몰려 들어옵니다. 힘 좋은 인간들, 무섭게 달려 듭니다. 외국과 같이 작은 챌린지(공개 시합)를 열어 진짜 잘하는 업체, 개인을 선별해서 지원해주면 되는데 이렇게 안하죠. 명망가 중심으로 지원하고, 실패를 해도 담당부처 직원들에 결과를 엉터리로 맞춰서 성공사례로 만듭니다. 맘에 안 들면 감사원등을 동원해서 집요하게 괴롭히는 사례도 적지 않고요. 6개월 빅데이터 전문가 과정으로 고급 직장을 잡을 수 있다고 선전을 하면 안 되는 것입니다. 그렇게 진입 문턱이 낮으면 공멸의 길을 갑니다. PC방 사업 비슷하게. 문재인 정부는 지지하지만 이 정부의 과학정책을 보면 한숨 만 나옵니다. 페미니즘에 쏟아 붙는 관심과 열정의 1/10만이라도 과학기술 정책에 투자했으면 합니다. 과기 보좌관, 정통부 1차관 문미옥 보좌관은 이런 사람입니다. ....(중략) ..과기계 인사 실패에는 문미옥 차관 또한 책임자로 지목된다. 위에도 써져 있지만, 유사과학인 창조과학을 신봉했던 박성진 포항공대 교수를 중소벤처기업부 장관 후보자로 추천하였고,[4] 황우석 논문 조작 사건에 연루되었던 박기영 순천대 교수를 과학기술혁신본부장으로 추천했던 사람으로 알려져있다. ...
19/03/17 10:27
저는 주니어 데이터 애널리스트 진입 전 바로 타이밍인데, R밖에 다룰 줄 몰라서 걱정이긴 합니다.
(전공이 통계학과나 컴공이 아니라서 R도 독학으로 배웠고 파이썬은 내일배움카드로 배우긴 했는데, 그냥 구글로 다른 것을 배울 수 있는 기초만 배운 단계... ) 그동안 바래왔던 포지션이었기에 가슴이 뛰기도 하고, 제 능력이 부족하지 않은지 두렵기도 하네요.
19/03/17 11:23
요즘엔 프로그래밍언어 공부할땐 그냥 인터넷 강좌로 기초문법 학습하고
그 뒤에는 깃합으로 고고 하면 좋은것 같아요. 직장인 개발자라면 사내 프로젝트에서 많이 배울수 있겠지만 그 환경이 안된다면 깃헙 고고해야할것 같습니다
19/03/17 20:08
최근에 파이썬이 대세이긴 합니다만 R 하나만 제대로 할 줄 알아도 대접받을 겁니다. 물론 둘 다 어설퍼서 앞으로 하나만 제대로 파야 한다면 파이썬을 집중적으로 하는 게 좋겠죠.
저는 퀀트로 입사한 것도 아니였는데 반강제로 파이썬 공부하며 수면부족에 원형탈모 생겼던...ㅠㅠ 힘 내세요.
19/03/17 23:23
깃헙은 제가 길게 쓰는 것보단 나무위키 소개글을 링크하는 게 더 나을 것 같네요. https://namu.wiki/w/GitHub
혹시 개인투자를 위해 공부하고 싶으신 거라면 퀀트보다는 소위 버핏 스타일을 권합니다만, 진지하게 관심이 있다면 책이나 블로그 정도는 추천해드릴 수 있습니다.
19/03/17 23:44
오 감사합니다. 들어가서 읽어보니 머리 좀 아파오네요.
책이나 블로그 모두 추천받습니다. 관심이 많거든요.... 개인투자는 1999년부터 해왔어서...경험은 없지 않은데 지식이 짧아서요... (꽤 오래해왔는데...최근들어 리스크 관리가 체계적으로 필요하다고 절실하게 느끼고 있는 상태입니다) 공부를 좀 게을리 한지 오래라..최근에 이거저거 좀 정리와 지식을 쌓고 싶다는 욕구가 좀 생기고 있습니다.
19/03/18 00:32
우선 교양 수준에서 읽어보면 좋을 책은 캐시 오닐의 '대량살상 수학무기' 정도가 생각나네요. 딱히 교양서라고 할 수 있는 책이 별로 없는 것 같습니다. 그리고 다음으로 대학에서 쓰는 계량경제학 교과서를 구해서 읽어보고 이해할 수 있는 건지 자기 스스로 판단해보면 좋습니다. 여기서 막히면 더 볼 필요도 없습니다(제가 수학 머리도 좋지 않고, 대학생 시절 계량경제 c+ 받은 걸 까맣게 잊고 있다가 후일에 후회후회 상후회를 한 산증인이라 ㅠㅠ). 이후엔 R, 파이썬 등을 알려주는 책들 보면서 공부하시면 됩니다.
블로그는 국내에선 https://henryquant.blogspot.com/ 여기를 보시면 좋을 것 같네요. '아~ 퀀트라는 게 이런 거구나.'를 볼 수 있는 블로그입니다.
19/03/18 01:21
계량경제학 책은 구자라티서부터 두어권 읽어본 기억이 있어요...읽을때는 재미나게 읽었는데...오래되긴 했어요...
SAS 사용해서 논문쓰던 세대라... 대량살상 수학무기 한번 읽어보겠습니다. 오...블로그도 좋네요. 감사합니다.
19/03/17 13:01
영역지식이라고, 특정 사업분야나 학문분야에 대한 지식을 말하는 것 같습니다. 뇌피셜이지만 배경지식이 사건과 상황이란 말과 더 어울린다면, 영역지식은 기술지식이란 말과 대비되어 쓰일 때 더 잘 어울리는 것 같네요.
19/03/17 12:44
다재다능해야 하는것이겠지요?
전공지식을 갖추면서 코딩능력도 갖추는... 아니면 전공지식을 갖춘사람이랑 코딩능력을 갖춘사람이랑 서로 교류가 잘 될수있도록 해야하는걸까여? 근데 결국 교류를 하려면 둘다 그분야에 전반적인 지식은 가져야할텐데 ㅠㅠㅠㅠ점점갈수록 다재다능해야하는거 같아요
19/03/17 20:29
분야마다 다를 수 있겠지만 한 예로 금융 쪽에서 퀀트를 하고 싶다면 금융, 경제 석박보다 통계, 컴공, 수학 쪽 석박을 가지고 있는 게 훨씬 유리합니다. 아마 다른 분야도 크게 다르지 않을 겁니다. 계량 능력을 키우는 게 우선입니다.
저는 말씀하신 것처럼 전공지식을 바탕으로 나중에 코딩 공부를 한 경우인데 훨씬 불리하고 머리 나쁘면 개고생합니다... 지금은 탈출했지만요.
19/03/17 16:33
사실 데이터 공학자 말고는 데이터 사이언티스트와 통계학자와의 경계선이 모호하다고 느껴요. 애초에 머신러닝이 통계학과 미적분, 최적화 플러스 알파 등의 집대성이기도 하고, 머신러닝에서도 기본 통계 알고리즘 많이 활용하며 반대로 통계학에서도 머신러닝 알고리즘들 많이 갖다쓰고 손보니까요. (그리고 그런 방법론들을 두 분야로 나누는 것도 모호하고 좀 무의미하다고 봅니다.)
통계학이 좀 더 설명력이 필요하고 'A라는 가설이 맞냐 아니냐'라는 가설검증 위주로 돌아가긴 하지만, 통계학 내에서도 예측모델 많이 필요로 하니까요. 반대로 머신러닝에서도 변수들의 상관관계들을 알아야 할 때가 있고요. 결론은 줄리아... 하악하악. 줄리아 얼른 대중화되어서 머신러닝에서 맘껏 사용했으면 한다는 ㅠㅠ
19/03/17 18:53
통계학자는 수학자인가요, 과학자인가요, 아님 다른 무엇인가요.
언듯 생각하면 통계는 수학의 일종인 것 같고, 가설검증을 말씀하시는 걸 들어보면 과학 같고, 글에 '이들은 통계기법들을 잘 이해하고 그것을 실생활의 문제에 적용한다' 이걸 보면 기술자 같기도 하고 헷갈리네요.
19/03/17 21:08
뭐 최근엔 말씀하신 것처럼 경계선이 모호해지고 있긴 하나 통계학과 데이터 사이언스에는 여러 차이가 있긴 하죠. 그 중 떠오르는 것 하나만 적어보자면 통계학에선 한계 오차와 비용을 중심으로 많은 연구가 진행되었죠. 예컨대 대통령 후보 여론조사를 한다고 하면 표본을 늘릴 수록 비용이 증가하지 않습니까. 조사원들의 노동력이 추가적으로 들어가니깐요. 표본을 늘리면 오차는 줄어들지만 그에 비례해 비용이 증가하므로 일정 오차범위를 넘지 않으면서 비용은 감소시키는 방법에 관심이 많습니다. 우리가 모든 사람들에게 물어보진 않았지만 물어본 사람들의 YES/NO 비율과 별 다르지 않을 것이라는 가정을 하기에 모집단의 대표성도 중요하구요.
허나 데이터 사이언스는 표본을 10배로 늘린다고 비용이 10배로 늘어나지 않고 별 차이가 없죠. 사람이 수집하는 게 아니라 기계가 수집하니깐요. 그래서 데이터를 수집하는 비용에 대한 걱정을 할 필요가 없고, 통계학과 관심사가 달라지는 것이죠. 위 그림에서도 데이터 마이닝을 강조하고 있는 이유라고 할 수 있겠네요.
19/03/17 21:29
통계학은 수학이죠. 특히 Kolmogorov 이후에는 엄밀한 수학으로 재탄생을 합니다.
그런데 컴퓨터의 도움으로 미분불가한 함수, 적분불가한 함수까지 다룰 수 있게되면서 응용과학, 공학의 최강자로 떠오르게 됩니다. 순수 수학자들이 멸시하는 미분불가 함수, 불연속 함수를 계산학자들이 거두어 주기 시작하면서 데이터 과학이 탄생하게 됩니다. - 라고 저는 생각합니다. 그래서 Computational Statistics라고 부르는 것보다 [데이터 과학]이라고 새로 명명하는 것이 나와바리 확보에도 유리하고 남들에게 팔아먹기에도 좋은거라고 생각한 것입니다. 데이터 과학에 끼어드는 인공지능은 겉절이 수준의 양념이라고 봅니다. 지난 50년간 인공지능 이론은 나아진 것이 별로 없습니다. 새로운 계산장치(e.g. GPU)의 등장으로 소망과 상상이 계산으로 현실화된 것이죠. 요약: 데이터 과학 = 고급 프로그래밍 + 통계학
19/03/18 15:29
그래도 빅데이터쪽 기술이 발달하면서 그동안 연역적 추리밖에 못하던 컴퓨팅 분야가 귀납적 추리를 스스로 할 수 있게 되었다는건 큰 발전이긴 합니다.
|