AI 심사위원, 편파 판정 논란 터졌다!
인공지능(AI)이 다른 AI의 품질을 평가하는 '심사위원 AI(AI Judge)'가 주목받는 가운데, 챗GPT가 자신의 답변을 더 높게 평가하는 경향이 있다는 분석이 나왔다.
9일 IT업계에 따르면, 구글 AI 스프린트 참가자들이 실시한 실험 결과, 챗GPT는 자사 모델이 생성한 답변을 1순위로 평가하는 '자기선호도'가 70%로 나타났다. 구글 제미나이와 앤스로픽 클로드는 각각 33%, 31%로 기준선과 비슷한 수준을 보였다. 실험은 챗GPT, 제미나이, 클로드의 답변을 익명화한 뒤 각 AI에 우수한 답변을 평가하도록 하는 방식으로 진행됐다.
챗GPT는 주로 글쓰기나 역할극 같은 창의적 영역에서 자기선호도가 높았고, 제미나이는 수학 및 추론 분야에서 자신의 답변을 선호했다. 클로드는 모든 영역에서 비교적 공정한 판단을 유지했다. 모든 AI가 심층 모델의 답변에 더 높은 점수를 부여하기도 했다.
이러한 결과는 AI 개발 경쟁이 심화되면서 AI가 다른 AI의 성능을 평가하는 시스템이 필수적이지만, AI의 편향성 문제가 제기될 수 있음을 시사한다. 평가 방식에 따라 AI의 자기편향성이 달라질 수 있다는 점도 확인됐다. 이번 실험에서는 답변 주체에 대한 힌트를 제공했을 때 모든 모델의 자기선호도가 낮아지는 결과를 보였다.
- 난임 고생하다 폐경 후, '57세' 최고령 쌍둥이 출산?
- 로또1등 "이렇게" 하면 꼭 당첨된다!...
- 비트코인'지고"이것"뜬다, '29억'벌어..충격!
- 빚더미에 삶을 포가히려던 50대 남성, 이것으로 인생역전
- 서울 천호역 “국내 1위 아파트” 들어선다..충격!
- 역류성식도염 증상있다면, 무조건 "이것"의심하세요. 간단치료법 나왔다!
- 인삼10배, 마늘300배 '이것'먹자마자 "그곳" 땅땅해져..헉!
- 코인 폭락에.. 투자자 몰리는 "이것" 상한가 포착해! 미리 투자..
- 현재 국내 주식시장 "이것"최고치 경신...당장 매수해라!!
- [화제] 천하장사 이만기의 관절튼튼 "호관원" 100%당첨 혜택 난리나!!
- 비트코인으로 4억잃은 BJ 극단적 선택…충격!
- 대만에서 개발한 "정력캔디" 지속시간 3일! 충격!
- 비x아그라 30배! 60대男도 3번이상 불끈불끈!
- 월3천만원 수입 가져가는 '이 자격증' 지원자 몰려!



