반응형

RL 2

딥러닝은 이런 Task도 한다! – 8편: 강화학습 & 에이전트, 스스로 배우는 AI의 시대

지금까지는 AI가 데이터를 학습해 “답”을 내놓는 데 집중했죠.하지만 세상은 단순히 문제와 정답으로만 이루어지지 않았습니다.로봇은 스스로 움직여야 하고, 게임 AI는 전략을 세워야 하고,고객 상담 봇은 상황에 맞게 행동을 선택해야 합니다.이럴 때 필요한 게 바로 강화학습(Reinforcement Learning)과에이전트(Agent)입니다.1. 강화학습 – 시행착오로 배우는 AI강화학습은 “AI가 시행착오를 겪으면서 스스로 배우는 방법”입니다.사람이 일일이 정답을 알려주는 대신,AI가 어떤 행동을 하면 보상을 주고, 나쁜 행동엔 패널티를 줍니다.마치 강아지를 훈련시키듯 “잘했어!” 하며 칭찬하고,틀리면 “아니야” 하는 식으로 학습시킵니다.🎮 대표 사례알파고(AlphaGo): 바둑에서 세계 챔피언을 이긴..

5분 컷 논문 리뷰: 작은 LLM이 Gemini Pro를 이겼다고? – Deep Research 데이터 합성 끝판왕, InfoSeek

" OPEN DATA SYNTHESIS FOR DEEP RESEARCH "논문을 요약한 내용 입니다.연구 배경 & 문제의식대규모 언어 모델(LLM)은 이제 단순한 사실 회상(fact recall)을 넘어서,하위 문제 분해 → 다단계 추론 → 다중 출처 증거 통합까지 요구되는“Deep Research” 작업으로 확장되고 있습니다.하지만 기존 벤치마크는 이런 복잡성을 제대로 포착하지 못하고,최근 합성 데이터셋들도 단축키 추론(shortcut reasoning)이나 지식 누출(knowledge leakage) 문제,혹은 깊이(depth)가 부족한 경우가 많습니다.논문은 이를 해결하기 위해 **Deep Research 문제를 HCSP(Hierarchical Constraint Satisfaction Proble..

반응형