:: 게시판
:: 이전 게시판
|
- 모두가 건전하게 즐길 수 있는 유머글을 올려주세요.
- 유게에서는 정치/종교 관련 등 논란성 글 및 개인 비방은 금지되어 있습니다.
통합규정 1.3 이용안내 인용"Pgr은 '명문화된 삭제규정'이 반드시 필요하지 않은 분을 환영합니다.법 없이도 사는 사람, 남에게 상처를 주지 않으면서 같이 이야기 나눌 수 있는 분이면 좋겠습니다."
23/08/01 11:18
말씀하신 대로 예전에는 언어의 장벽이 한국어 NLP 엔지니어들을 지켜줬었습니다만...
요새는 LLM이 영어에 대한 깊은 이해를 바탕으로 적은 자원의 외국어까지 섭렵하고 있습니다 ㅠㅠㅠ 얼마전에 학회 다녀왔더니 어떤 모델은 언어 2천개를 학습했다고 하더라구요..
23/08/01 11:19
그래서 그 추론능력을 활용하여 오픈AI에서 올해 5월쯤에 AI모델의 은닉층도 일종의 외국어로 인식하여 해독하려는 시도를 했더라고요
그 논문의 결과자체는 처참했지만 좀더 직관적으로 방법을 개선할여지가 많아보여서 상당히 가능성있다고 보고있고 오픈AI에서도 그렇게 느꼈는지 이후 6월? 7월?쯤에 초지능 정렬연구팀 공개모집할때 업무파트중 하나로 넣기도 했었습니다.
23/08/01 11:33
여러분 AI 도 하는 영어 나는 왜 못하나 자책하지 마세요.
AI는 네이티브 영어 사용자입니다. (첫 언어가 영어..) 잘하는게 당연해요
23/08/01 11:41
트랜스포머의 설계 자체가 영어에 특화돼있으니...
트랜스포머에 대한 설명을 처음 봤을때, 이건 한글에 쓰기엔 별로 안좋겠다는 느낌을 받긴 했어요. 그런데 그 구조를 다 뜯어고친 우리만의 무엇을 만들기엔 돈도, 시간도, 인력도 너무 부족하죠.
23/08/01 13:00
궁금한 건 언어는 갈수록 단순해지는 경향을 가지는데 그러면 애초에 왜 라틴어나 고전 그리스어 같은 언어는 진작에 단순해지지 않고 그 시절엔 끝내주는 복잡한 문법을 가지고 있다가 나중에 그 언어를 쓰게 된 사람들이 갈라지면서 단순해진 걸까요
23/08/01 13:04
문자가 발명되고 글쓰는 기술이 발전하면서 굳이 문법적으로 세밀하게 언어를 구사할 필요성이 없어진 영향인 듯 하네요. 앞뒤 문맥으로도 충분히 뜻을 파악할 수 있으니 말이죠. 만약 문자가 없거나 작문이 시원찮은 시대라면 오해의 소지가 적도록 정밀하게 말을 해야 할 듯.
23/08/01 13:14
문법이 복잡할수록 정보 손실에 강하죠. 영어를 예로 들어 I saw him whom... (읍읍!!)에서 말이 잘리면 그래도 어떤 행위의 대상이 되는 누군가를 보고 있었다는 걸 알 수 있는데, 현대에서처럼 whom 대신 who를 써서 I saw him who... (읍읍!!)에서 말이 잘리면 더 알 수 있는 게 없죠.
23/08/01 13:25
Chatgpt에 물어보니 고전 언어들의 문법이 복잡한 이유로 여러 가지를 드네요.
1. 변화의 축적 2. 정교한 표현 추구 3. 지식인들의 언어 사용 4. 종교적, 의례적 사용 5. 기록할 자원이 부족(문법을 복잡하게 하는 대신 써야 할 분량은 줄어듦) 6. 표준화 X 7. 언어 쓰는 사람이 적음 반면 시간이 지나면서 표준화되고, 기록에 비해 구전 자료가 풍부해지고, 언어 사용자가 많아지고 여러 언어들이 섞이면서 문법이 단순해지는 경향을 띈다고 합니다.
23/08/01 13:11
논문 요약에서는 여러 언어를 모두 공정하게 다루는 토큰화 모델이 필요하다고 결론을 맺고 있네요.
그리고 논문의 그림 3을 보면 토큰화 길이와 실행 시간 표가 나오는데 여러 가지 재미있는 결과들이 많습니다. * 토큰화 길이가 제일 짧은 것은 영어고 실행 시간이 가장 적은 것은 말레이어(그리고 줄루어는 근소한 차이로 2등)로 나옵니다. * 스페인어도 영어와 말레이어의 사이에 점이 찍히고, 그 외에도 서양 언어들의 성능이 전반적으로 좋습니다. * 중국어는 의외라면 의외고 당연하다면 당연한 건데 번체가 간체보다 더 성능이 좋습니다. * 가장 성능이 나쁜 건 미얀마 일부에서 쓰이는 언어인 샨어고, 그 외에도 종카어, 타밀어, 버마어도 상당히 부진합니다.
|