작성자: 피코바나나 사이언티스트 6월 14, 2026

AI가 과학 논문을 쓰고 심사하는 시대, 학술 출판의 신뢰는 어디로 가는가

과학 연구 생태계에서 AI 도입의 윤리적, 기술적 영향을 분석한 인포그래픽. '과학계 대격변! AI가 논문 쓰고 심사까지?'라는 한글 제목 하에, 걱정스러운 표정으로 '연구 진실성' 및 '신뢰 위기' 문서를 든 인간 연구자(왼쪽)와 'The AI Scientist-v2' 시스템을 구동하며 '자동 생성 완료' 및 'AI 검토' 화면을 통해 효율성을 보여주는 AI 로봇(오른쪽)이 대조적으로 배치되어 있다.

AI가 쓴 논문이 AI의 심사를 통과한다. 지금 학술 출판은 자기 자신을 검증할 수 있는가라는 물음 앞에 서 있다.

2025년 3월, 학술 AI 분야에서 심상찮은 소식이 들려왔다. AI Scientist-v2라는 시스템이 쓴 논문 한 편이 실제 학술대회 심사를 통과했다는 것이다. ICLR 2025 워크숍에 제출된 그 논문의 제목은 "Compositional Regularization: Unexpected Obstacles in Enhancing Neural Network Generalization." 사람이 한 글자도 쓰지 않은 논문이 평균 합격 기준을 넘어선 점수를 받았다 [1, 2].

이것은 "AI가 글을 잘 쓴다"는 이야기가 아니다. 학문의 심사 체계 자체에 구멍이 뚫렸다는 신호다. 동료 심사라는 과학의 가장 오래된 품질 보증 장치가, AI가 등장한 순간 예상치 못한 방식으로 취약점을 드러내기 시작했다.

AI가 쓴 논문, 어디까지 왔나

학계에서 AI 도구는 이미 일상이 된 지 오래다. 2025년 기준, 전 세계 연구자의 84%가 어떤 형태로든 AI 도구를 사용하고 있으며, 그 중 62%는 직접 연구와 논문 출판 작업에 AI를 활용한다고 보고했다 [3]. 생명과학, 화학, 신약 개발에서 재료 설계까지 — AI는 연구의 거의 모든 단계를 건드리고 있다 [5].

여기서 놓쳐서는 안 되는 구분이 있다. AI-보조 논문(AI-assisted papers)과 AI-생성 논문(AI-generated papers)은 근본적으로 다른 개념이다 [4].

AI 보조 논문: 연구자가 주도하고, AI는 맞춤법 교정이나 문헌 검색 같은 제한된 작업만 담당한다. 사람이 운전석에 앉아 있는 형태다.
AI 생성 논문: AI 에이전트가 연구 설계, 코드 작성, 분석, 그림 생성, 논문 작성까지 전 과정을 수행한다. 사람은 지도 교수처럼 방향을 제시하는 역할에 그친다.

이 차이가 결정적인 까닭은 책임과 신뢰의 문제가 근본적으로 달라지기 때문이다 [1]. 누가 그 논문의 내용에 책임을 지는가? 오류가 발생하면 누가 답해야 하는가?

"AI는 패턴을 인식하도록 설계되어 있다. 그런데 과학은 때로 패턴을 깨는 발견을 요구한다."

영어가 모국어가 아닌 연구자들에게는 AI가 출판의 장벽을 낮추는 도구가 될 수 있다. 논문 초고 작성에 드는 시간도 획기적으로 줄일 수 있다 [6]. 하지만 그 편의함 뒤에 잠복한 위험을 직시하지 않으면 안 된다. AI가 생성한 콘텐츠는 종종 표절된 내용, 어색하게 구성된 문장, 심지어 아예 존재하지 않는 참고문헌까지 포함한다 [7, 8]. 실제로 2025년에는 AI가 생성한 그림에 오류가 있는 논문이 출판 3일 만에 철회되는 사건이 있었다. 쥐의 신체 부위가 이상하게 묘사된 그림이 소셜미디어에서 화제가 됐고, 세상이 먼저 오류를 발견했다 [9].

동료 심사라는 시스템이 흔들리고 있다

사실 동료 심사(peer review)는 이미 오래전부터 위기였다. 심사자 피로, 제출 논문 수의 폭발적 증가, 심사 품질의 불균형, 그리고 무의식적 편향 — 이 모든 것이 쌓여왔다 [5, 10].

전 세계 STEM 분야의 활성화된 학술지가 지금 약 3만 개에 달한다고 한다. Elsevier 산하 저널들만 합쳐도 연간 290만 편 이상의 논문이 출판된다 [10]. 이 물량을 인간 심사자만으로 감당하는 건 처음부터 무리였다.

그래서 AI가 등장했다. 원고 스크리닝, 표절 감지, 심사자 매칭, 심사 결정 제안까지 — AI는 이 과정을 빠르고 일관성 있게 처리할 수 있다는 약속을 들고 왔다 [5, 10].

꽤 효율적으로 들린다. 하지만 문제는 다음 데이터에서 나온다.

2025년 10월, arXiv에 게재된 한 연구에서 연구자들은 GPT-5로 600편의 조작된 논문을 만들고, 다른 AI 도구들이 그 논문들을 심사하게 했다. 결과는? AI 심사자들이 그 가짜 논문들을 최대 82%의 확률로 수락 권고했다 [11]. AI가 AI를 심사하고, AI가 AI를 통과시키는 루프. 이미 현실에서 벌어지고 있는 일이다.

학술 논문 생성 및 동료 평가 단계에서 인공지능(AI)을 활용하는 두 가지 주요 방법론을 시각화한 인포그래픽. 상단 섹션은 '논문 생성 단계'를 나타내며, '인간 연구자 지원(AI-Assisted)'과 '완전 자동 생성(AI-Generated)'의 두 가지 접근 방식을 문헌 검색, 초안 작성, 데이터 분석 등의 구체적인 작업 아이콘과 함께 설명한다. 이 두 방식은 'AI 활용 학술 논문'으로 수렴한다. 하단 섹션은 '[동료 평가 단계] AI 활용 워크플로'를 5단계 프로세스로 보여준다. 각 단계는 '원고 스크리닝 및 사전 평가', '표절 및 유사도 탐지', '리뷰어 매칭', '기술적 평가 및 방법론 체크', '편집 결정 제안'이며, 각 단계에 대한 세부 항목(예: 서식 확인, 유사성 분석, 인용 네트워크 분석 등)이 아이콘과 함께 나열된다. 하단에는 '하이브리드 모델'을 별도 박스로 강조하며, AI의 기술적 평가와 인간의 전문적 판단 및 창의성 평가의 결합을 명시한다.

그림 1. AI 활용 학술 논문 생성 및 동료 평가 방법론의 시각화. 논문 생성 단계에서는 인간 연구자 지원 및 완전 자동 생성이라는 두 가지 AI 접근 방식이 문헌 검색부터 자동 작성까지의 과정을 포괄하며 AI 활용 논문을 생성한다. 동료 평가 단계는 원고 스크리닝, 표절 탐지, 리뷰어 매칭, 기술적 평가, 편집 결정 제안의 5단계 워크플로로 구성된다. 각 단계의 세부 기술적 항목(예: 서식 확인, 인용 네트워크 분석, 실험 데이터 일관성)은 AI가 수행하고, 최종 전문적 판단과 창의성 평가는 인간이 담당하는 하이브리드 모델이 강조된다.

윤리의 문제는 생각보다 훨씬 복잡하다

가장 불편한 질문으로 직접 들어가보자.

AI가 심사한 논문에서 오류가 발생하면, 누가 책임지는가?

AI 도구인가, 심사자인가, 저널 편집부인가. 실제로 AI로 작성된 심사 보고서를 심사자가 그대로 제출했다가 문제가 된 사례들이 보고되고 있다 [5]. 책임의 경계가 안개처럼 흐릿해진다.

또 다른 지뢰밭은 기밀 유지 문제다. 미국 국립보건원(NIH)과 국립과학재단(NSF)은 연구비 심사 과정에서 AI 도구 사용을 금지하고 있다 [12]. 이유는 하나다 — 연구자들이 제출한 미출판 원고 내용이 AI 도구 학습 데이터로 흘러들어갈 수 있기 때문이다 [13].

"저자들은 저널이 자신의 원고를 안전하게 보호해 줄 것이라는 신뢰를 가지고 제출한다. 그 신뢰가 무너지는 순간, 출판 생태계 자체가 흔들린다."

알고리즘 편향의 문제도 무시하기 어렵다. AI 시스템은 학습 데이터에 내재된 편향을 재생산하고 증폭시킬 수 있다 [5, 14]. 최근 arXiv에 발표된 실험에서는 동일한 논문이라도 명문대 소속 저자로 표기했을 때와 비교적 무명 대학 소속으로 표기했을 때, AI 심사자의 거절 확률이 통계적으로 유의미하게 달라졌다 [15, 16]. 패턴을 인식하도록 훈련된 AI는, 결국 '어떤 논문이 좋은 논문으로 보이는가'에 대한 기존의 편견도 함께 내면화한다.

초기 경력 연구자, 비주류 기관 연구자, 비영어권 학자들이 이 편향에 특히 취약하다. 이론적 우려가 아니라 이미 입증된 현실이다 [5].

하이브리드 모델이 현실적인 대안인가

현재 학계의 주류 방향은 AI와 인간을 결합한 하이브리드 심사 모델이다 [10]. 기술적인 검토 — 표절 검사, 형식 오류, 이상 데이터 패턴 감지 — 는 AI에 맡기고, 과학적 판단과 의의 평가는 인간 심사자가 담당하는 방식이다.

계산기가 등장했을 때 수학자들이 사라지지 않은 것처럼, AI가 루틴한 심사 작업을 처리해 준다면 인간 심사자는 더 높은 수준의 판단에 집중할 수 있다.

이 방향에서 주목할 만한 결과도 나왔다. ICLR 2025에서 진행된 실험에서, AI 도구가 심사 피드백의 품질을 사후적으로 평가하고 개선을 제안했을 때 — 맹검 평가에서 기존 심사보다 더 나은 피드백이 나왔다는 결과가 보고됐다 [17]. AI가 심사자를 "코칭"하는 역할을 한 셈이다.

그런데 NEJM AI의 "Fast Track" 모델처럼, AI 생성 심사만으로 일주일 안에 게재 결정을 내리는 방식이 일반화되면 어떻게 될까 [7]. 속도는 얻겠지만 — 무엇을 잃는지에 대한 대화가 아직 충분하지 않다.

이 균형을 잡는 건 기술의 문제가 아니라 제도와 윤리의 문제다. 벨몬트 보고서(Belmont Report)의 원칙들 — 자율성, 이익, 공정성 — 이 AI 연구 윤리 기준으로 재해석되고 있지만 [18], 그 원칙들이 실제 정책과 알고리즘 설계에 반영되기까지는 아직 갈 길이 멀다 [19].

지식재산권이라는 또 다른 지뢰밭

AI와 학술 출판의 교차점에서 아직 정리되지 않은 법적 공백이 있다.

AI가 생성한 콘텐츠의 저작권은 누구에게 있는가?

현행 법체계는 대부분 창작의 주체를 인간으로 가정하고 있다. AI가 상당 부분 혹은 전부를 생성한 논문의 지식재산권은 아직 명확하게 정리되어 있지 않다 [20, 21]. 단순한 법학 문제가 아니다 — 연구 성과의 귀속, 인용, 경제적 보상 전체가 흔들리는 문제다.

논문 공장과 AI의 결합: 가장 어두운 가능성

잠깐 다른 각도에서 보자. 지금까지의 이야기는 대부분 "선의를 가진 사람들이 AI를 잘못 사용하는" 시나리오였다.

하지만 선의가 없는 경우는?

2025년 제10회 동료 심사 및 과학 출판 국제학술대회(PRC 2025)에서 발표된 내용은 충격적이다. 이미 논문 공장(paper mill)들이 산업적 규모로 운영되고 있으며, 하나의 조직에서만 380개 저널에 걸쳐 1,517편의 논문이 생산됐다는 것이다. 한 조직은 26개의 가짜 신원을 만들어 그 중 절반이 실제 동료 심사자로 등록되도록 했다 [22]. AI는 이 과정을 가속화하는 강력한 도구가 된다.

무결성 연구자들은 이 상황을 "복수의 위기"라고 표현한다. AI가 만들어낸 허위 연구물의 증가, 그리고 그것을 걸러낼 심사 역량의 한계가 동시에 작동하고 있다 [23, 24].

2025년 12월 조사에 따르면 전체 동료 심사자의 53%가 이미 논문 심사에 AI 도구를 쓴다 [25]. 그 중 대다수는 보고서 초안 작성이나 언어 다듬기에 AI를 사용한다. 방법론적 타당성이나 통계 검증에 AI를 쓰는 비율은 고작 19%에 불과하다.

외양은 그럴듯해지지만, 내용의 깊이는 보장되지 않는다.

이 구조적 긴장은 당분간 해소되기 어렵다. AI 도구는 계속 정교해질 것이고, 논문 제출 수는 계속 늘어날 것이며, 인간 심사자의 시간은 더 부족해질 것이다. 과학 커뮤니티가 AI의 역할에 명확한 경계를 그어내지 않는 한, 동료 심사라는 제도가 점점 더 속이 빈 형식으로 전락할 위험이 있다.

반대로, 제대로 된 거버넌스를 갖춘다면 AI는 심사 품질을 오히려 높이는 방향으로 기여할 수 있다. 기술이 문제가 아니라, 그것을 어떻게 제도화하느냐가 핵심이다 [2, 26].

경고는 지금 이미 울리고 있다. 과학의 문지기를 잃을 것인가, 아니면 새로운 문지기를 제대로 세울 것인가 — 그 선택의 시간이 생각보다 훨씬 빠르게 다가오고 있다.

학술 출판 과정에서 AI 활용 증가에 따른 위기와 대응 방안을 설명하는 인포그래픽. 2025년까지 연구자의 84%가 AI를 활용할 것이라는 통계와 함께 '생기 없는 문헌'의 부상, 심사자 피로도 증가를 위기 요인으로 지적함. 이에 대한 해결책으로 기술적 검토는 AI가, 전문적·주관적 판단은 인간이 담당하는 하이브리드 협업 모델과 윤리적 가이드라인 구축의 필요성을 시각화하여 제시함.

그림 2. 학술 출판의 혁신과 윤리적 무결성 확보를 위한 인간-AI 협업 프레임워크. 연구 현장의 AI 도입 가속화로 인한 원고 급증과 연구 진실성 훼손 문제를 해결하기 위해 기술적 선별과 서식 점검은 AI가 전담하고 과학적 실체 및 주관적 가치 평가는 인간 전문가가 수행하는 이원화된 심사 체계가 요구된다. 이러한 하이브리드 접근법은 출판 프로세스의 효율성을 극대화하는 동시에 기관별 윤리 강령 준수를 통해 학술적 신뢰성을 유지하는 핵심 기제로 작용한다.

References

[1] Amirjalili, F., Neysani, M., & Nikbakht, A. (2024). Exploring the boundaries of authorship: a comparative analysis of AI-generated text and human academic writing in English literature. Frontiers in Education, 9. https://doi.org/10.3389/feduc.2024.1347421

[2] Lu, M. (2025). AI in Peer Review: Tool or Threat to Editorial Integrity? Transactions on Science and Publication, 4(1), 49–53. https://doi.org/10.21124/tsp.2025.49.53

[3] Barrett, K. (2026, March 12). Using AI in Research While Staying Copyright Compliant. CCC Blog. https://www.copyright.com/blog/using-ai-in-research-while-staying-copyright-compliant/

[4] Hidalgo, C. A. (2026, February 17). The Difference Between AI-Assisted and AI-Generated Papers. LinkedIn Pulse. https://www.linkedin.com/pulse/difference-between-ai-assisted-ai-generated-papers-cesar-a-hidalgo-svz8f

[5] Soochan, P. (n.d.). The Effect of AI on Research. AWIS. https://awis.org/resource/effect-ai-research/

[6] Zhou, H. (2025, September 17). Peer Review in the Era of AI: Risks, Rewards, and Responsibilities. The Scholarly Kitchen. https://scholarlykitchen.sspnet.org/2025/09/17/peer-review-in-the-era-of-ai-risks-rewards-and-responsibilities/

[7] Koop, T. (2025, December 5). The dangers of using AI in peer review. SciELO in Perspective Blog. https://blog.scielo.org/en/2025/12/05/the-dangers-of-using-ai-in-peer-review/

[8] Moersen, A. (2025, June 11). AI detection for peer reviewers: Look out for red flags. SAGE Perspectives Blog. https://www.sagepub.com/explore-our-content/blogs/posts/sage-perspectives/2025/06/11/ai-detection-for-peer-reviewers-look-out-for-red-flags

[9] Sample, I. (2025, July 13). Quality of scientific papers questioned as academics 'overwhelmed' by the millions published. The Guardian. https://www.theguardian.com/science/2025/jul/13/quality-of-scientific-papers-questioned-as-academics-overwhelmed-by-the-millions-published

[10] Bruno, M. A. (2026). Artificial or Intelligent? The Impact of AI on Academic Publishing. Patient Safety, 7(2), 147865. https://patientsafetyj.com/article/147865-artificial-or-intelligent-the-impact-of-ai-on-academic-publishing

[11] Chawla, D. S. (2025, November 11). AI peer reviewers are fine with AI-fabricated papers. Chemical & Engineering News. https://cen.acs.org/research-integrity/AI-peer-reviewers-fine-AI/103/web/2025/11

[12] Potteiger, J. (2024, November 20). AI in Publication Ethics. American College of Sports Medicine. https://acsm.org/ai-ethics/

[13] Chaturvedi, A. (2024, November 22). AI in Peer Review: A Recipe for Disaster or Success? American Society for Microbiology. https://asm.org/articles/2024/november/ai-peer-review-recipe-disaster-success

[14] Lo Vecchio, N. (2025). Personal experience with AI-generated peer reviews: a case study. Research Integrity and Peer Review, 10, 4. https://doi.org/10.1186/s41073-025-00161-3

[15] Howell, A., et al. (2025). Prestige over merit: An adapted audit of LLM bias in peer review. arXiv, 2509.15122. https://arxiv.org/abs/2509.15122

[16] Macharla, S. S., Sheth, I., Wang, H.-P., et al. (2025). Justice in Judgment: Unveiling (Hidden) Bias in LLM-assisted Peer Reviews. arXiv, 2509.13400. https://arxiv.org/html/2509.13400v4

[17] Telebar, V. (2025, September 18). AI in Peer Review: A Helping Hand, Not a Replacement. Beyond the Cover – Karger Blog. https://beyondthecover.karger.com/publishing-perspectives/ai-in-peer-review-a-helping-hand-not-a-replacement/

[18] McKee, K. R. (2023). Human Participants in AI Research: Ethics and Transparency in Practice. arXiv, 2311.01254. https://arxiv.org/html/2311.01254v3

[19] Journal of Next-Generation Research 5.0. (2026). Ethical Considerations in AI Research Publishing. https://jngr5.com/jngr/ethical_considerations_in_ai_research/

[20] Generative AI: Navigating intellectual property. (2025, September 17). Nixon Peabody LLP. https://www.nixonpeabody.com/insights/articles/2025/09/17/generative-ai-navigating-intellectual-property

[21] Nkai, K. L. (2025, February 7). AI-generated content and IP rights: Challenges and policy considerations. DiploFoundation Blog. https://www.diplomacy.edu/blog/ai-generated-content-and-ip-rights-challenges-and-policy-considerations/

[22] Highwire Press. (2025, September 18). AI, Integrity & the Future of Peer Review: Insights from PRC 2025. https://www.highwirepress.com/blog/ai-integrity-peer-review-lessons-prc2025/

[23] Tetzner, R. (2025, May 6). AI-Assisted Peer Review: Challenges, Ethical Risks, and Future Possibilities. Proof-Reading-Service.com Blog. https://www.proof-reading-service.com/blogs/ai-in-scholarly-publishing/ai-assisted-peer-review-challenges-ethical-risks-and-future-possibilities

[24] Undark/Muelle, M. (2026, February 26). Will AI Help or Hinder Scientific Publishing? Gavi Vaccineswork. https://www.gavi.org/vaccineswork/will-ai-help-or-hinder-scientific-publishing

[25] Frontiers. (2025, December 15). Most peer reviewers now use AI, and publishing policy must keep pace. https://www.frontiersin.org/news/2025/12/15/most-peer-reviewers-now-use-ai-and-publishing-policy-must-keep-pace

[26] Phan, P., Desai, S., Garcia Elorio, E., et al. (2024). Embracing the use of artificial intelligence in scientific publishing. International Journal for Quality in Health Care, 36(3), mzae071. https://doi.org/10.1093/intqhc/mzae071

본 글은 공개된 연구를 바탕으로 정보 제공 목적으로 작성되었으며, 전문적인 판단을 대신하거나 의학적 진단이나 치료를 위한 근거로 사용될 수 없습니다.

이 블로그 검색

AI가 과학 논문을 쓰고 심사하는 시대, 학술 출판의 신뢰는 어디로 가는가

AI가 쓴 논문, 어디까지 왔나

동료 심사라는 시스템이 흔들리고 있다

윤리의 문제는 생각보다 훨씬 복잡하다

하이브리드 모델이 현실적인 대안인가

지식재산권이라는 또 다른 지뢰밭

논문 공장과 AI의 결합: 가장 어두운 가능성

References

댓글

댓글 쓰기

가장 많이 본 글

AI가 드디어 인간처럼 개념을 이해한다? CATS Net이 바꾸는 인지과학의 판도

해수면은 우리가 생각한 것보다 훨씬 높다 — 연안 위험 평가의 충격적 맹점

AlphaGenome: 구글 딥마인드가 만든 AI, 유전체의 '어두운 게놈'을 해독하다