23 수능 국어 상위 5%에 도달한 인공지능
게시글 주소: https://i.orbi.kr/00064160457
안녕하세요, 오르비 여러분.
오픈소스 한국어 문서 기반 질의응답 AI 시스템을 탐구하는 프로젝트 팀 NomaDamas입니다.
23 수능 국어에서 상위 5%를 인공지능으로 달성하여 뉴스 기사가 나왔습니다!
수험생시절 오르비에서 도움을 많이 받았던 기억이 나
혹시 저희 프로젝트가 수험생 여러분들께 조금이나마 도움이 될까 싶어 공유합니다!
세 줄 요약
- 기존 3등급(86점, 상위 22%)이던 GPT-4의 수능 국어 성적을, 프롬프트 엔지니어링으로 2등급(94점, 상위 5%)로 향상시켰습니다.
- 문제 유형에 특화된 프롬프트를 사용하면 1등급(96점, 상위4%)까지 달성할 수 있습니다.
- 사용한 프롬프트 전문과 소스코드, 수능 국어 데이터셋을 오픈소스로 공개했습니다.
1. 프롬프트 엔지니어링?
긴 글을 시작하기에 앞서, 많은 분들의 이해를 돕기 위해 저희가 사용한 프롬프트 엔지니어링에 대한 간단히 설명 드리겠습니다.
프롬프트 엔지니어링은 대화형 인공지능 (예: Chat-GPT)에 들어가는 입력 프롬프트를 신중하게 작성하고 개선하여, 원하는 고품질의 응답을 생성하는 과정입니다.
간단히, 어떻게 인공지능에 ‘잘’ 질문 하는지 연구하는 것입니다.
‘수험공부를 하면서 얻은 나름의 노하우들을 프롬프트에 적용하면, 인공지능의 수능 점수가 어디까지 올라갈까?’ 라는 의문이 들었고, 프롬프트 엔지니어링을 통해 적용해 보았습니다.
2. 사용한 프롬프트
어떤 프롬프트를 사용했는지 궁금하시죠?
핵심부터 말씀 드리자면, 지문 속에서 정답과 관련이 있는 문장을 찾도록 한 것입니다.
수험생 시절에 지문에서 ‘1+1=3’ 이라고 한다면 그냥 받아들이고 풀겠다는 마음가짐으로
지문 속에서 근거를 찾는 연습을 하며 기출 문제 분석을 많이 했었는데요,
그 경험을 프롬프트에 반영해 보았습니다.
그 결과 인공지능의 점수가 8점 상승하여 94점이 되었습니다.
지문에서 근거를 찾는 능력의 중요성을 다시 한번 느낄 수 있었고, 수험생분들에게도 공유하고 싶었습니다.
[실제 사용 프롬프트]
위의 프롬프트는 <보기> 가 없는 경우에 사용한 프롬프트 입니다.
저희는 <보기>가 있는 경우와, 없는 경우를 구분하여 프롬프트를 사용하였습니다.
본문이 너무 길어질 것 같아 <보기>가 있을 때 프롬프트는 더 궁금하신 분들이 참고하실 수 있도록
자세한 설명이 있는 링크를 함께 달아두겠습니다 :)
3. 빈출 유형 대응 프롬프트
위의 프롬프트로는 13번, 15번, 40번 문제를 제외하고 모두 풀 수 있었습니다.
GPT-4가 ‘동음이의어’, ‘다의어’ 관련 문제를 못 푸는 것을 확인했습니다.
이에 수험생들이 기출문제로 문제 해결의 방향을 잡는 것처럼,
인공지능에게도 문제를 푸는 방법을 알려주는 13번 문제 맞춤 프롬프트를 제작하기로 했습니다.
[실제 사용한 13번 전용 프롬프트]
(프롬프트에 사용된 표현이 정확한 표현인지는 잘 모르겠습니다..)
제가 이 문제를 실제 시험장에서 만났다면 다음 프롬프트와 같이 행동했을 것이라고 생각하고 작성해보았는데요,
저의 수험생활경험으로 만들어진, 13번 유형의 문제들만 해결할 수 있는 맞춤형 프롬프트 입니다.
오직 ‘지문 속 근거가 된 문장’만으로는 인공지능이 해결하기 어렵다고 판단하여 맞춤형 프롬프트를 제작하였고,
그리하여 13번 문제까지 정답을 맞춰 96점, 1등급에 도달할 수 있었습니다.
하지만 이 프롬프트는 같은 유형의 문제가 나왔을 때에만 재사용 가능한 프롬프트라는 점에 있어서,
완벽한 1등급에는 도달하지 못했습니다.
오지랖일지는 모르겠지만,,,
그래도 인공지능처럼 많은 수험생분들이 시험장에서 만나게 될 다양한 예상 문제들에 대해 나름의 ‘행동 매뉴얼’을 만들어 시험장에 들어가시면,
훨씬 빠르고 정확하게 문제를 해결할 수 있다는 것을 증명한 사례라고 생각하여 가져와 보았습니다 :)
4. 실제 예시
- 17번 문제 (오답률 84.9%)
17번 문제
인공지능 답변
EBS 해설
5. 오답 풀이
23 수능 국어(화법과 작문)에서 15번(비문학)과 40번(화법과 작문) 문제를 GPT-4가 풀지 못했습니다.
왜 오답을 뱉어냈는지 나름대로 설명 해보는 섹션입니다.
- 15번
- 15번 문제의 핵심은 지문으로부터 '100^0.75'와 '1^0.75'를 유도해 무엇이 더 큰지를 구해야 합니다. 이는 GPT-4의 수학 능력 부족으로 두 숫자 중 더 큰 수 찾기를 힘들어 합니다.
- 또한, 지문만 보고 해당 식을 유도하는 것 조차도 힘들어 합니다. 수학적 수식을 이해하고 그것을 선택지에 응용하는 능력이 떨어지기 때문입니다.
- 비슷한 문제로, 문제의 19년도 수능 31번 문제도 '만유인력 공식'을 이해하고 활용해야 풀 수 있는데, 해당 문제 역시 GPT-4는 못 풀었습니다.
- 40번
- 40번에서는 학생 1과 학생 3 '모두' 상대의 발화 내용을 잘못 이해했는지 파악하는 것이 핵심입니다.
- 실제로 해당 부분에서 학생 1은 상대의 발화 내용을 잘못 이해하고 있으나, 학생 3은 그렇지 않습니다.
- 그래서 3번 선지를 정답으로 골랐어야 했지만,
GPT-4는 학생 1이 상대의 발화를 잘못 이해했다고 잘 파악하였으나,
학생 3은 상대의 발화 내용을 이해하고 있다고 파악하여 오답을 고르게 되었습니다. - 비교적 수험생분들에게는 익숙할 수 있는 평가원의 함정 입니다만, 아직 평가원의 함정을 수월하게 빠져나가지 못하는 인공지능입니다
0 XDK (+0)
유익한 글을 읽었다면 작성자에게 XDK를 선물하세요.
-
비문학 젵스트림으로 풀엇는데 문제포인트부분 체크하면서 빗금으로 끊어놓고 글자에...
-
반수 1
동홍 전전에서 경희대 전전 갈만한가요
-
암튼 그래요 문제시 글 삭제
-
현재 노베이스...인 상태로 국어 수학, 전과목이 노베여서 수학은 중학수학 개념원리...
-
주인(19) 격노... "점유이탈죄 적용해 처벌할 것" 의지 밝혀
-
어떻게 이딴게 오답률 68퍼지
-
영어 어떡할까요 6
3등급만 맞추려 하는데 기출 같은 거는 돌려야 될까요..? 작수(유기) 72점...
-
일본 신사에 놀러갔다가 마법사 오니 보추랑 바람피다 걸려서 다음날 비행기로...
-
생윤 퀴즈 10
천부적 재능의 분포는 공동 자산이다.
-
반수 0
아주대 높공에서 경북대 전자로 반수는 좀 에바 인가?
-
안녕하세요, 여러분의 꿈의 열쇠를 찾고 조여주는 사람들 [몽키스패너]입니다! *본...
-
돈 많이 벌어서 3
레고만지면서살고싶음... 레고개비싸
-
한강다리도 없애자. 한강 투신 금지로 3층이상 건물도 다 철폐하자. 투신 금지로...
-
국어 기출(실제시험형) 풀려면 어느 문제집이 가장 좋나요? 1
단원별로, 유형별로 묶어놓은 거 말고, 실제 평가원 시험을 그대로 가져다 놓은 국어...
-
물화생지 다하는게 무조건 유리하겠지? 화학을 개못하고 물 생은 여러번 돌리고...
-
이게 은근 숨은 킬러파트임
-
대학을 잘 갔다고해서 그 사람이 더 낮은 대학 다니는 사람보다 공부 잘하는 거는...
-
우송대 인스타에서 이벤트 참여한 고등학생들은 특별 혜택으로 추첨을 통해 성심당...
-
밥묵자 7
-
다들 특정 노래 들으면 떠오르는 경험 있지 않음? 21
another day-카관의 면접 보러 ktx 타고 강릉가는 길에 반복 재생 너를...
-
적절하지 못한 요소의 개수를 가장 빠르게 맞히시는 분께 1000덕 지급합니다.
-
지금 이감하고있는데 맨날 화작 쉽게 내서 작년처럼 매콤하게 화작내는 모고 풀고...
-
허무하다 5
10시반부터 지금까지 수학만했는데 뭘 했나 보면 한 양이 그리 많지도 않고.....
-
에어4인데 패널엔 문제없고 액정만 금감… 필기할 때 불편해서 수리하고시픔…
-
감사합니다
-
쎈발점 수1, 수2 이제 끝냈는데요 수1은 고3 자이스토리를 예전에 다니던 학원에서...
-
허수도 당황스러운데 항등식 조작하는 꼬라지도 당황스럽네
-
뭐 붙을지 안붙을지 모르지만 그래도 붙을 가능성이 높을거 같은데 내년에도 걍 다같이...
-
설맞이 다 끝내가서 다음 n제 정하려는데 문해전2는 많이 어렵나용?
-
스마트키 써야 하나요? 안 쓰는게 낫나요? 어떤 방송보니까 와드를 7번에 두던데 전...
-
최고차 1이라두고?
-
현역 이과 여고생입니다 지방 일반고 재학 중이고 내신은 2.3~2.4정도에요 교과로...
-
여쭤볼게 있습니다..
-
중시건경...이라고 얘기하기도 했었는데, 이거 보니 건대 갈 바엔 동국대가고 애초에...
-
6평, 7모 정도 난이도 되는 실모 추천 가능할까요?… 강대x 너무 어려워…
-
ㅜ
-
수능 과탐 1등급 받아본애들 그냥 풀어봐도 26~27개 이상은 받을듯 특히 화1...
-
어짜피 난 쓰지도 못해
-
세상에서 제일가는 포테이토칩
-
항상 Wls나 일침러들은 있었지만 오르비 특유의 유쾌함과 시끌벅적함이 그리워서...
-
스탠서브 88점 2
아존나쉬웠는데뭔가많이틀림 이상하다...
-
아빠 휴진이라 집에서 맥주마시는데 추논 이거틀렸다니까 보더니 쓱 푸는데...
-
공시 10시간은 만들어야지.
-
수능 + 비교과 전형 커다랗게 하나 만들면 됨. 내신의 영향력이 거의 없는 전형을...
-
똥손이라 그림도 못 그리는데... 쿄애니 청소부라도 시켜만 준다면 바로 할 듯
-
내신 합격예측 돌려보니 얘네 다 적정정도 떠서.. 이 중에 어디가 조흘까요..
-
정시충 특) 2
재수하고 학교에 나보다 잘간애 몇명인가 세봄 본인은 10명쯤 되는듯 ㅌㅋ
-
안녕하세요. Headmaster입니다. 최근 정부의 '킬러 배제'방침에 따라...
-
~~
우와… 너무 신기해요…
휴 ai 이겼다
이건 제작자가 천재다