그럴듯하지만 사실은 아니거나 존재하지 않는 것들을 AI가 쏟아내고 이를 악용하는 이들도 늘어나면서 인터넷 자체가 오물 천지로 붕괴될 수 있다는 경고는 이미 제기된 지 오래다. ‘진리의 보루’라고 하는 과학계의 저널까지 AI 생성물(가짜 인용 문헌과 자료 등)에 의해 빠르게 오염되고 있다는 기사를 발췌해 옮긴다.
원문: Science Is Drowning in AI Slop
원문: Science Is Drowning in AI Slop
과학계가 AI 쓰레기 속에 빠져들고 있다.
과학 논문에 인용된 내용은 그럴듯하지만 인용된 논문 자체는 존재하지 않는 경우가 잦아지기 시작했다. 이런 '유령 인용(phantom citations)'은 작년 봄에 공개된 트럼프 행정부의 아동 건강 관련 'MAHA 보고서' 초안에도 여섯 건 이상 있었다.
이제는 정평 있는 학술지에서도 발견되기 시작한 걸 보면 이 문제가 얼마나 광범위하게 퍼져 있는지 짐작이 간다.
과학 학술지는 자연계에 대한 지식이 우리 문화로 흘러들어가는 통로 역할을 해왔다. 이제 그 통로는 AI가 만들어낸 쓰레기로 막히고 있다.
과학 출판계는 항상 배관 문제가 있었다. 예전에도 학술지 편집자들은 제출된 논문이 점점 늘어나면서 양과 질을 통제하는 데 어려움을 겪었다. 동료 평가peer review제도가 이유다. 편집자들은 외부 전문가들에게 논문을 보내 업무 부담을 줄였다. 냉전 시대 과학 자금 급증으로 학술지가 급증하면서 이 관행은 거의 보편화되었다.
그러나 이제 과학 문헌의 수문장 역할을 하는 편집자와 무보수 리뷰어들은 새로운 복병들에게 포위당했다. LLM이 주류로 자리 잡자마자 원고가 전례 없는 규모로 학술지 이메일함에 쏟아지기 시작했다.
일부는 연구 발표에 도움이 필요한 비영어권 과학자들이 AI 도움으로 생산성을 높인 결과이기도 하지만, 이 도구들은 사기성이나 허술한 연구에 그럴듯한 외피를 입히는 데도 활용되고 있다.
때문에 편집자와 심사위원들이 진위를 가리는 작업은 훨씬 더 많은 시간이 들게 되었을 뿐만 아니라 기술적으로도 더 어려워졌다.
AI를 활용한 '논문 공장'들은 대규모로 작업해야 하기에 자체 자료를 재활용하는 경향이 있으며, 심지어 텍스트가 거의 일치하는 여러 논문을 내보내는 지경에 이르렀다.
이미 일부 과학 분야는 허술한 연구의 온상이 되었다.
허위 자료 그림이나 사진까지 깜쪽같이 만들어낸다. 최근엔 AI가 생성한 기형 쥐 사진이 동료 심사를 통과했을 뿐만 아니라 아무도 눈치채지 못한 채 출판되기까지 했다. 이제 AI는 생물의학 연구에서 흔히 증거로 사용되는 얇게 절편된 조직, 현미경 관찰 영역, 전기영동 겔의 설득력 있는 이미지까지 만들어낸다.
최근에는 블록체인 연구를 포함한 유행하는 기술 관련 학계 분야에서 대규모 LLM 지원 사기 사건이 발생했다.
급기야 이제는 AI 생성물이 AI 연구 자체를 위협하고 있다. 기계 학습이나 로봇공학 분야에서 독창적인 연구 인재에 대한 수요는 암 생물학자 시장 못지않게, 아니 그 이상으로 강하다.
의욕에 찬 AI 연구자들을 위한 사기 템플릿도 존재한다: 어떤 데이터에 기계 학습 알고리즘을 적용했다고 주장하고 흥미로운 결과가 나왔다고 말하기만 하면 된다. 그 뒤에는 거의 아무도 그 결과를 검증하려 하지 않을 것이다.
최고의 AI 학회 중 하나인 NeurIPS의 경우 5년 만에 제출 건수가 두 배로 증가했다. 딥러닝 분야를 선도하는 학회인 ICLR 역시 증가세를 보였는데, 상당량의 허술한 논문이 포함된 것으로 보인다: 브라질에서 개최 예정인 학회 제출 논문을 분석한 결과, 허위 인용이 포함된 논문이 50편 이상 발견됐다. 대부분 동료 평가 과정에서 적발되지 않았다.
많은 동료 평가 자체가 AI에 의해 수행되었기 때문일 수 있다. 최근 ICLR에 제출된 수천 건의 동료 평가를 분석한 결과, 절반 이상이 LLM의 도움을 받아 작성되었으며 약 5분의 1은 완전히 AI가 생성한 것으로 나타났다.
사정이 이렇다 보니 이제는 학계 전반에서 논문 저자들은 LLM 심사관이 인지할 수 있는 비밀 메시지를 심기 위해 아주 작은 흰색 글씨를 사용하기 시작했다. AI에게 읽고 있는 논문을 극찬하고, 어려운 수정 작업을 피할 수 있게 쉬운 수정 사항만 제안해 달라고 요구한다.
AI 과학 쓰레기는 이제 학술지를 넘어 연구 논문을 전파하는 플랫폼까지 점령하고 있다. 논문을 완성하자마자 심사 과정 전에 업로드할 수 있는 특수 서버 '아카이브(arXiv)' 같은 것들이 새로운 과학 지식의 홍수관을 형성하고 있다..
이런 사전 출판 서버는 출판이 너무나 수월해서, AI가 생성한 저질 콘텐츠가 과학적 논의에 가장 강력한 희석 효과를 발휘하는 장소로 기능할 수 있다.
AI를 활용한 사기 논문 탐지 업체도 등장했다. 하지만 군비 경쟁 끝에 자동화된 허위 논문 탐지기까지 탐지에 실패할 수 있다. 도구가 너무 정교해지면 과학 출판계 전체가 뒤집힐 수 있다.
'죽은 인터넷‘ 이라는 음모론도 나돈다. 지금 소셜미디어와 다른 온라인 공간의 게시물과 댓글, 이미지들 중 실제 사람이 작성한 것은 극소수에 불과하며 나머지는 경쟁하는 봇 네트워크가 생성하고 증폭시킨 것이라는 얘기다.
과학 문헌조차 그런 양상을 띨 수 있다. 인공지능이 대부분의 논문을 작성하고, 그 대부분을 심사한다면. 이 공허한 상호작용은 새로운 인공지능 모델 훈련에 활용될 것이다. 허위 이미지와 유령 인용은 우리의 지식 체계 깊숙이 파고들어 영구적인 인식론적 오염으로 자리 잡아 결코 걸러낼 수 없게 될 것이다.
(이런 사회를 반기는 이들도 있을 것이다. 권력을 가진 자와 그 집단.)