파인튜닝

[11월3주] 강화학습법 ‘DPO’, ‘RLHF’ 대안으로 인기…마커AI 1위 탈환

업스테이지와 한국지능정보사회진흥원(NIA)이 공동으로 주최하는 '오픈 Ko-LLM 리더보드' 11월 3주 순위에서는 다수의 개발자가 '직접 선호 최적화(DPO, Direct Preference Optimization)'로 좋은 성적을 거뒀다.  DPO는 지난 5월 스탠포드대학교 연구진이 발표한 강화 학습법이다. '챗GPT'에 사용한 인간 피드백을 통한 강화...

[10월 4주] 대기업까지 Ko-LLM 경쟁 합류…롯데정보통신, 자체 데이터로 실력 과시

국내 인공지능(AI) 산업의 경쟁력을 증진하고 실력 있는 개발자를 발굴하기 위한 '오픈 Ko-LLM 리더보드(한국지능정보사회진흥원, 업스테이지 공동 주최)'가 본격적인 LLM 개발 격전지로 떠올랐다. 오픈 초 개인 개발자나 일부 연구기업의 주도에 이어 이제는 대기업까지 뛰어난 모델을 선보이고...

Recent posts

Popular categories

ASK DUKE