:: 게시판
:: 이전 게시판
|
- PGR21 관련된 질문 및 건의는 [건의 게시판]을 이용바랍니다.
- (2013년 3월 이전) 오래된 질문글은 [이전 질문 게시판]에 있습니다. 통합 규정을 준수해 주십시오. (2015.12.25.)
통합규정 1.3 이용안내 인용"Pgr은 '명문화된 삭제규정'이 반드시 필요하지 않은 분을 환영합니다.법 없이도 사는 사람, 남에게 상처를 주지 않으면서 같이 이야기 나눌 수 있는 분이면 좋겠습니다."
25/01/05 20:03
파이썬만 어느정도 코드 읽으실 줄 아시면 크게 문제 없이 만드실 수 있을거같네요.
gpt api 끌고와서, 해당 쿼리에 대한 감정들 출력될 수 있도록 시스템프롬프트 구성하고 작동시키는건 예제만 보셔도 충분히 구현가능합니다. 문제는 정확도일거같은데.. 크몽을 생각하신다면 직접하시는게 나을거란 생각이 드네요.
25/01/05 20:33
https://huggingface.co/docs/transformers/index
요런 것도 있던데, 이런 게 말씀하신 그런 방법들이겠죠?
25/01/05 21:06
일단 GPT에 물어보신것은 잘하셨습니다. 여기서 코드 작성 해달라고 까지 하면 코드까지 작성해줍니다.
https://www.perplexity.ai/search/seogsa-gwajeong-nonmun-junbiha-aRhMPWPLRqWf4XDA.cNJNA 작성자분이 주신 글 그대로 perplexity에 물어보고 구글 자연어 API 써서 작성해달라고 하니 코드 작성까지 다 해주네요. 요거 직접해보시면서 트러블 슈팅도 GPT에 물어보시면 금새 하실 수 있을것 같습니다. GPT가 있어서 솔직히 이것도 금새 배울 수 있어서 크게 어렵지 않습니다.
25/01/05 21:38
와... 정말 LLM으로 다 되는 군요.. 대충 과정만 물어보고 내가 못할 거 같은데??라고 포기했는데, 그냥 그 과정을 차근차근 알려달라고 하니, 다 따라할 정도까지도 됩니다.
정말 감사드려요 몇십만원 내고 하려고 했는데, 돈 굳었습니다...
25/01/05 21:29
openai api 사용하세요. function calling 사용하시면 정해진 포멧대로 결과값 돌려줄겁니다.
모델마다 가격이 다르고, fine tuning 하면 또 다르고 뭐 그런식으로 가격이 천차만별이긴 한데요.. openai api 자체가 기본적사양으로 사용할 경우 비싸진 않습니다.
25/01/05 23:20
그걸 손으로 할수는 없고요. lexicon 이라고 해서 감정사전이 언어별로 있어요. 그걸로 해야해요. 아니면 허깅페이스에 BERT모형중 한국어 학습시킨 Kobert나 Kcbert써야하는데 별로 신통찮더군요.
윗분들말씀대로 openai 에서 api로 땡겨와서 분석하는게 제가 해본중 제일 나았습니다. 데이터 사이즈가 얼마나 되는지모르지만 별로 비싸진않았어요 50달러 충전해서 몇백문장 돌리고 얼마 남았나보니 48달라 남았던가 그런식입니다 지금은 폰이라 코드가 없는데 내일봐서 여기에 코드 올려드릴게요. 한번 해보세요.
+ 25/01/07 21:23
오 공유해주시면 감사하겠습니다. 다국어 지원도 되는 아래 솔루션으로 돌려보고 있습니다
Hugging Face Transformers: 사전 학습된 고성능 모델(BERT, GPT 등)을 활용.
25/01/05 23:47
음…
태스크를 잘 이해하지 못했는데 기사 제목 - 에 긍정/부정 을 하나씩 태깅하면 되는 건가요?? (글쓰신 분은 컴공 석사과정은 아니신 거구요??) 연구의 목표가 무엇일지요?? 1. 만약 기사 + 긍/부정 태깅된 데이터를 만드는 것이 목표라면 태깅의 정확도에 대한 보증이 따라와야 하기 때문에 보통 3-5 명의 사람이 긍부정을 태깅하고 그 결과를 voting 하여 골드 레이블을 생성합니다. 따라서 개인이, 혹은 특정 모델/프로그램/알고리즘이 생성한 데이터는 가치가 적어요.. 적어도 그 답에 대한 검증이 필요합니다. 2. 그냥 하시는 연구에 긍/부정이 태깅된 기사 제목 데이터가 필요하신 거라면 이미 기구축된 데이터가 있을 수 있습니다. 그걸 찾아보시는게 나을 수 있습니다. 3. 레이블의 정확도에 대한 검증이 필요 없다면, gpt api 사용해서 데이터를 구축하겠습니다. 기사 제목은 길이가 짧을 것이고 감정분석은 NLP 에서 워낙 대표적인 태스크라 정확도가 매우 높기는 할 거에요.
+ 25/01/07 21:26
키워드를 포함한 기사 리스트를 쭉 뽑고, 헤드라인 자연어 처리해서 감정 분석을 해서 그 기사가 키워드에 관한 어떤 감정을 가진 기사인지 판별하고 이 결과값을 가지고 지지고 볶아 다른 변인과 함께 시계열에 따른 의미를 도출할 예정입니다.
1. 일종의 내용분석 방법론 말씀하신느 거죠? 일일이 사람이 하는 게 최소 몇천~만개 이상이 될 거 같아 물리적으로 불가능하다는 판단을 내렸습니다. 2. 윗분들이 말씀하신 사전 학습된 모델들이 있어서 그걸 편하게 활용하는 API를 활용하는 게 좋을 거 같습니다. 3. 네 이게 맞겠네요! NLP는 처음 들어봤는데 한번 찾아보겠습니다 고맙습니다!!
|