AI 보조 과학 논문 작성과 재현성: 편의성과 신뢰성 사이에서

밤낮이 교차하는 도시 전경을 배경으로 한 연구실에서 여성 연구자가 인공지능(AI) 시스템을 활용해 논문을 작성하는 모습. 홀로그램 인터페이스에는 연구 효율성 증대 그래프와 재현성 위기를 상징하는 데이터 구조, 'AI 과학 글쓰기' 등의 한글 텍스트가 전문적으로 배치됨.

더 빠르게, 더 많이 — AI가 논문 생산을 가속화하는 지금, 우리는 과학 지식을 쌓고 있는가, 아니면 검증되지 않은 모래탑을 올리고 있는가.

속도는 매혹적이다. Consensus나 Elicit 같은 AI 도구가 수천 편의 논문을 수분 만에 정리해 주고, ChatGPT가 초안 하나를 30분 만에 뽑아낸다. 문헌 정리에 수 주를 쏟아붓던 연구자에게 이 변화는 혁명처럼 느껴진다. 생산성은 수치로도 나타난다 — AI 사용 연구자의 시간당 생산성은 33% 향상된다 [6].

그런데 어느 순간 이런 생각이 든다. 빠르게 쓰인 논문이 다른 연구자에 의해 제대로 재현될 수 있을까? AI가 만들어낸 인용 문헌의 20%가 존재하지도 않는 논문이라는 연구 결과 [15]를 접한 순간, 속도의 가치가 흔들리기 시작한다.

이 글은 AI 도구를 쓸 것인가 말 것인가의 문제를 다루지 않는다. 어떻게 쓸 것인가, 그리고 그 과정에서 과학의 근간인 재현성이 어떻게 달라지고 있는가를 짚는다.

AI가 논문 작성에 가져온 변화: 무엇이 달라졌나

현재 연구자들이 AI를 어떻게 활용하는지부터 시작해보자. 단순히 맞춤법을 고쳐주는 수준이 아니다.

  • 문헌 탐색 및 합성: Consensus, Elicit, Litmaps 같은 도구들은 수천 편의 논문을 훑어보고 핵심 내용을 추려주는데 [1], 전통적으로 수 주가 걸리던 작업을 며칠 안에 처리할 수 있게 해준다.
  • 초안 작성 및 편집: ChatGPT나 Claude 같은 생성형 AI는 아예 논문 초안 자체를 만들어낸다 [2]. 복잡한 아이디어를 구조화된 텍스트로 빠르게 변환하는 역할을 한다. 특히 영어가 모국어가 아닌 연구자들에게는 언어 장벽을 낮춰주는 실질적인 혜택이 있다 [3].
  • 데이터 분석 지원: 대규모 데이터셋을 처리하고 패턴을 찾아내는 데 AI가 활용되면서, 연구 자체의 실행 속도가 빨라지고 있다 [4].

생산성 측면에서 숫자는 꽤 인상적이다. 생성형 AI 활용이 전체 업무 생산성을 약 1.1% 끌어올린다는 분석이 있고 [5], AI 사용 시간 대비로 환산하면 시간당 33%의 생산성 향상에 해당한다 [6]. 재현성 프로젝트 사례에서는 AI 코파일럿이 특정 심리학 연구를 재현하는 데 걸리는 시간을 30시간 이상에서 약 1시간으로 단축시켰다 [7].

"속도만 보면 AI는 분명 혁명이다. 하지만 빠르게 쌓은 지식이 빠르게 무너지지 않으려면, 그 기반이 단단해야 한다."

재현성 위기: 왜 이게 그렇게 중요한가

'재현성(reproducibility)'이 낯설다면 이렇게 이해하면 된다. 내가 어떤 실험을 해서 결과를 냈다면, 다른 연구자가 똑같은 방법으로 실험해도 비슷한 결과가 나와야 한다는 원칙이다. 당연한 것 같지만, 실제로는 놀라울 정도로 많은 연구가 이 기준을 충족하지 못한다 [8].

AI 연구에서 이 문제는 더 심각하다.

첫째, 무작위 시드(random seed) 문제다. AI 시스템은 학습 과정에서 모델을 초기화할 때 쓰는 임의의 숫자에 따라 결과가 달라질 수 있다 [9]. 똑같은 코드와 데이터를 써도 결과가 조금씩 다를 수 있다. 전통적인 과학 실험이라면 상상하기 어려운 일이다.

둘째, 문서화 부족이 만성적이다. 13개국 28명의 AI 박사 과정 학생을 대상으로 한 조사에서, 하이퍼파라미터(모델 학습에 영향을 주는 설정값), 데이터 전처리 과정, 평가 지표 등이 제대로 기록되지 않아 연구를 재현하는 것이 사실상 불가능한 경우가 빈번하다는 사실이 드러났다 [10].

셋째, 환경 관리의 함정이 있다. 같은 코드라도 어떤 버전의 소프트웨어 라이브러리를 쓰느냐에 따라 결과가 달라질 수 있다. Docker 같은 컨테이너 기술로 환경을 고정시키는 방법이 권고되지만 [11], 현장에서는 여전히 잘 지켜지지 않는다.

재현성의 유형도 여러 가지다. 완전히 동일한 코드와 데이터로 똑같은 숫자를 재현하는 계산적 재현성, 같은 방법론으로 비슷한 결과를 재확인하는 경험적 재현성, 그리고 결론의 해석이 일관되게 유지되는 분석적 재현성이 있다 [12]. 이 중 가장 기초적인 계산적 재현성조차 달성하지 못하는 논문이 적지 않다는 게 현실이다.

인공지능을 활용한 과학적 글쓰기 과정에서 연구 재현성과 신뢰성을 유지하기 위한 4가지 핵심 영역(AI 도구 활용, 투명성 및 문서화, 데이터 관리 및 윤리, 정책적 접근)의 상세 실행 지침을 도식화한 인포그래픽 이미지.

그림 1. AI 기반 과학 글쓰기의 재현성 확보를 위한 단계별 방법론 및 실행 지침. AI 도구를 단순 생성보다는 재작성 및 정제 위주로 활용하여 연구자의 지적 주도권을 유지하고 , 하이퍼파라미터와 소프트웨어 의존성 등 실험 설정을 철저히 문서화하며 컨테이너화 기술을 통한 버전 관리를 수행해야 한다. 연구팀 내 공동 검토로 편향을 식별하는 협업 체계를 구축하고 , 민감 데이터 보호 및 학술지의 재현성 체크리스트 도입을 통해 연구 전반의 투명성과 책임성을 강화함으로써 기술적 효율성과 학술적 엄밀성 사이의 균형을 달성한다.

AI 도구가 재현성을 어떻게 위협하는가

AI가 오히려 재현성 위기를 악화시킨다고? 가능성은 꽤 구체적이다.

AI가 논문 작성 과정에 개입했음을 명시하지 않으면, 독자들은 어느 부분이 AI가 생성한 것인지 알 수 없다 [13]. 다른 연구자들이 연구 방법론을 재현하려 할 때 벽을 만나는 대목이다. 많은 저널이 이미 AI 사용 공개를 의무화하고 있는 이유가 여기 있다 [14].

더 직접적인 위협은 AI의 환각(Hallucination) 현상이다. AI는 확신에 찬 어조로 틀린 정보를 만들어낸다. 한 연구에서 GPT-4o가 생성한 인용 문헌의 약 20%가 아예 존재하지 않는 논문이었고, 전체 인용의 3분의 2가량이 오류를 포함했다 [15]. 가짜 참고문헌이 논문에 그대로 실린다면, 이를 따라 연구하는 후속 연구자들이 허공을 향해 달리는 꼴이 된다.

비판적 사고의 약화도 우려된다. 코드를 스스로 짜고 문헌을 직접 읽는 과정에서 연구자는 자신의 연구에 대한 깊은 이해를 쌓는다. AI가 이 과정을 단축시키면, 연구자 스스로도 자기 연구의 세부 내용을 제대로 파악하지 못하게 될 위험이 있다 [16]. 그렇게 되면 재현성은 더욱 요원해진다.

실제 사례: AI가 재현성 문제를 어떻게 다루고 있나

이론적 우려를 넘어, 실제 현장에서 어떤 일이 벌어지는지 살펴보자.

arXiv에 발표된 연구에서, 연구팀은 논문·코드·부록 자료를 분석해 실험을 자동으로 재현하는 Jupyter Notebook을 만들어내는 'Reproducibility Copilot' 시스템을 소개했다 [7]. 이 시스템은 누락된 하이퍼파라미터, 문서화되지 않은 전처리 단계, 접근 불가능한 데이터셋 같은 재현성 장벽을 체계적으로 감지했다. 특정 심리학 연구를 재현하는 데 30시간 이상 걸리던 작업을 약 1시간으로 단축한 사례가 그 가능성을 열어두고 있다.

여러 학술지 출판사들도 AI 보조 편집 도구를 실험하고 있다 [17]. 투고 논문의 오픈 사이언스 기준 준수 여부를 자동 검토하고, 재현성과 관련된 구조화된 피드백을 제공하는 방식이다.

생산성과 품질 사이의 긴장은 여전히 해소되지 않았다. 생성형 AI를 활용하는 기업들에서 직원당 수익이 27% 증가했다는 보고도 있다 [6]. 하지만 속도와 품질이 함께 유지되는지의 문제는 전혀 별개다. 더 많이 쓴다는 것과 더 잘 쓴다는 것은 다른 이야기다.

책임 있는 AI 활용: 현실적인 가이드라인

AI 도구를 거부하는 건 시대착오적이다. 이미 연구 현장에 깊숙이 들어와 있고, 적절히 활용하면 실질적인 도움이 된다 [3]. 문제는 어떻게 쓰느냐다.

투명성 확보: AI가 논문 작성에 실질적으로 기여했다면, 어떤 도구를 어떻게 사용했는지 Methods 섹션에 명시해야 한다 [13]. AI를 쓴다고 문제가 되는 게 아니라, 썼는데 숨기는 게 문제다.

비판적 검토 유지: AI가 생성한 텍스트, 특히 인용 문헌은 반드시 사람이 직접 검증해야 한다 [18]. 'AI가 맞겠지'라는 믿음은 과학 연구에서 통하지 않는다.

문서화와 버전 관리: 코드와 데이터를 Git 같은 버전 관리 시스템으로 추적하고, Docker로 실행 환경을 고정해야 한다 [19]. 번거롭게 느껴지더라도, 재현성을 보장하는 가장 현실적인 방법이다.

데이터 보안: 미발표 연구 데이터나 개인정보를 AI 도구에 그대로 입력하는 건 위험하다 [20]. 기관의 보안 정책을 반드시 먼저 확인해야 한다.

생성 vs. 재작성 구분: AI가 초안을 통째로 써주는 '생성' 방식보다는, 연구자가 먼저 아이디어를 정리한 후 표현을 다듬는 데 AI를 쓰는 '재작성' 방식이 지적 소유권을 유지하면서도 AI의 도움을 받는 더 건전한 접근이다 [21]. 차이는 미묘하지만, 결과물의 질과 이해도에서 큰 간극이 생긴다.

앞으로 어떻게 될까: 미래 방향

AI 기술은 계속 발전하고, 학술 커뮤니티도 적응 중이다.

주요 AI 학술대회들이 재현성 체크리스트와 배지 제도를 도입하는 추세다 [10]. NeurIPS, ICML 같은 대회는 이미 논문 제출 시 핵심 실험 정보를 기록하도록 요구하는 체크리스트를 운용하고 있다. 이런 인센티브 구조가 자리를 잡으면, 재현 가능한 코드와 데이터를 공개하는 문화가 정착될 가능성이 있다.

'출판 또는 사라지기(publish or perish)' 문화와 AI의 만남은 경쟁을 더욱 심화시키고, 학문적 기여의 질을 희석시킬 수 있다는 우려도 적지 않다 [14]. 속도가 빨라질수록 꼼꼼함이 줄어들 위험은 구조적이다.

AI 도구 개발 초기부터 실제 연구자들의 필요와 윤리적 고려사항이 반영되어야 한다는 요구가 높아지고 있다 [10]. 현장에서 쓰이지 않는 도구, 또는 쓰면 윤리 문제가 생기는 도구는 아무리 성능이 좋아도 안착하기 어렵다.

AI를 연구 과정을 대체하는 존재가 아닌 파트너로 보는 시각이 점점 중요해지고 있다 [18]. 결국 AI가 만들어 낸 결과물에 대한 책임은 연구자에게 있고, 재현성 체크리스트·공개된 코드·AI 사용 공시는 그 책임을 실천하는 구체적인 도구들이다 [22].

Discussion

AI가 과학 논문 작성에 미치는 영향을 생각할 때마다 자꾸 걸리는 지점이 있다. 속도와 신뢰성은 정말 함께 갈 수 있을까?

투명성 문제부터 짚어보자. 한 연구에서 연구자의 약 90%가 AI를 이용한 편집이 윤리적으로 허용 가능하다고 답했지만, AI 사용을 실제로 공개해야 한다고 생각하는 비율은 35%에 불과했다 [23]. 이 간극이 흥미롭다. 투명성이 필요하다는 건 알지만, 막상 자기 논문에서는 공개를 꺼린다. 그 배경에는 학계의 편견, 익명성에 대한 기대, 또는 어느 수준의 AI 개입이 공개 대상인지에 대한 혼란이 섞여 있다.

더 불편한 지점도 있다. 생성형 AI가 논문 생산을 도와주는 동시에, 과학 지식의 다양성을 좁히고 있지는 않을까? AI 보조 연구자들이 더 많은 논문을 발표하지만, 연구 주제의 다양성과 혁신성은 오히려 줄어드는 경향이 보인다는 분석이 있다 [24]. AI는 훈련 데이터의 패턴을 강화하는 방향으로 작동하기 때문에, 기존 주류 연구 방향을 더 강하게 재생산하는 경향이 있다. 재현성의 문제를 넘어서, 과학의 혁신성 자체에 관한 이야기다.

재현성 위기의 뿌리도 흥미롭게 변하고 있다. 기존에는 측정 오류, 데이터 선택 편향, 작은 표본 크기 같은 통계적 문제들이 주된 원인이었다. 그런데 AI가 개입하면서 새로운 층위가 추가됐다. 무작위 시드, 소프트웨어 버전, 컨테이너 환경 — 이 모든 것이 결과에 영향을 줄 수 있는 변수가 됐다 [25]. AI/ML 연구에서 재현성의 정의 자체도 아직 논쟁 중이다.

가장 당혹스러운 함의는, 빠른 논문 생산이 개별 연구자의 경력 문제를 넘어선다는 것이다. 신뢰할 수 없는 AI 기반 연구 결과가 의료·금융·자율주행 같은 고위험 분야의 의사결정에 활용된다면, 그 재현되지 않는 결과 위에 쌓인 기술은 언젠가 무너진다. 그 무너짐의 비용은 연구자 개인이 아니라 사회 전체가 치르게 된다 [8].

이미 AI 조수가 옆에 앉아 있다. 그 조수에게 숙제를 통째로 맡기면, 주인도 결국 무엇을 했는지 기억하지 못하게 된다. 기억하지 못하는 연구는 재현될 수도 없다. 어떤 기준 위에서 쓸 것인지, 지금 바로 결정해야 할 때다.

과학적 글쓰기에서 AI를 활용할 때의 생산성 향상(33%)과 재현성 위기 극복을 위한 기술적 표준(Docker, 의무 공개, 체크리스트)을 도식화한 인포그래픽

그림 2. 과학적 글쓰기 내 AI 활용에 따른 효율성 증대와 연구 엄밀성 확보를 위한 가이드라인. 생성형 AI의 도입은 연구 생산성을 약 33% 향상시키고 재현 소요 시간을 획기적으로 단축하나, 코드 품질 저하와 하이퍼파라미터 누락은 연구의 투명성을 저해하는 주요 요인으로 작용한다. 따라서 연구의 신뢰성을 보장하기 위해서는 AI 사용 여부의 의무적 공개, 컨테이너화 기술을 통한 코드 재현성 확보, 학술지의 검증 체크리스트 준수가 반드시 병행되어야 한다.

References

[1] Litmaps. Best AI Research Tools for Academics and Researchers. Litmaps Blog. 2024. https://www.litmaps.com/learn/best-ai-research-tools

[2] Shah S. Top 7 AI Tools for Researchers for Writing and Manuscript Editing. Mind the Graph Blog. 2025 Oct 28. https://mindthegraph.com/blog/top-7-ai-writing-tools-for-researchers/

[3] Huff C. The promise and perils of using AI for research and writing. APA Monitor on Psychology. 2024 Oct 1. https://www.apa.org/topics/artificial-intelligence-machine-learning/ai-research-writing

[4] Khalifa M, Albadawy M. Using artificial intelligence in academic writing and research: An essential productivity tool. Computer Methods and Programs in Biomedicine Update. 2024;5:100145. https://doi.org/10.1016/j.cmpbup.2024.100145

[5] Bick A, Blandin A, Deming D. The Impact of Generative AI on Work Productivity. Federal Reserve Bank of St. Louis On the Economy Blog. 2025 Feb 27. https://www.stlouisfed.org/on-the-economy/2025/feb/impact-generative-ai-work-productivity

[6] Al Mulla A. How AI Has Accelerated Corporate Productivity. TRENDS Research & Advisory. 2025 Sep 29. https://trendsresearch.org/insight/how-ai-has-accelerated-corporate-productivity/

[7] Bibal A, Minton SN, Khider D, Gil Y. AI Copilots for Reproducibility in Science: A Case Study. arXiv. 2025. https://arxiv.org/html/2506.20130v4

[8] Mason-Williams I, Mason-Williams G. Reproducibility: The New Frontier in AI Governance. arXiv. 2025. https://arxiv.org/html/2510.11595v1

[9] Sandgarden. When Experiments Go Awry: Understanding Reproducibility in AI. Sandgarden Learn. 2024. https://www.sandgarden.com/learn/reproducibility

[10] AI-OD. AI Research is not Magic, it has to be Reproducible and Responsible: Challenges that PhD Students in AI face during their Research. AI on Demand. 2025. https://aiod.eu/media-hub/news_fGgBzWsKqDYd06N4gf5hnxbr/

[11] RapidCanvas. Implementing Reproducibility Standards in AI Solutions. RapidCanvas Blog. 2024 Sep 5. https://www.rapidcanvas.ai/blogs/implementing-reproducibility-standards-in-ai-solutions

[12] Coakley K, Andreiu A. Reproducibility in AI, and What Computing Professionals Should Know for Supporting Researchers. GO FAIR US / FARR-RCN. 2022 Jan 28. https://www.farr-rcn.org/post/the-past-year-in-research-at-thomas-hill-research-center

[13] University of Utah Office of Research Integrity and Compliance. VPR Statement on the Use of Artificial Intelligence (AI) in Research. 2023 Jul. https://integrity.research.utah.edu/ai-research-statement.php

[14] Baldwin H, Borchert C. AI Tools Are Changing Academic Publishing. How Can We Adopt Them Responsibly? Katina Magazine. 2026 Jan 21. https://katinamagazine.org/content/article/future-of-work/2026/ai-tools-are-changing-publishing-adopt-them-responsibly

[15] Linardon J et al. Influence of Topic Familiarity and Prompt Specificity on Citation Fabrication in Mental Health Research Using Large Language Models. JMIR Mental Health. 2025;12:e80371. https://doi.org/10.2196/80371

[16] Gandhi M, Gandhi M. Does AI's touch diminish the artistry of scientific writing or elevate it? Critical Care. 2023;27:350. https://doi.org/10.1186/s13054-023-04634-z

[17] Lazarus EF. Artificial Intelligence-Assisted Editorial Tools: Case Studies. Science Editor. 2021;44:e5-e6. https://doi.org/10.36591/SE-D-4404-e7

[18] IHS. How to Use AI in Academic Research: Best Practices. Institute for Humane Studies Blog. 2025 Oct 10. https://www.theihs.org/blog/best-practices-for-using-ai-in-academic-research/

[19] WisPaper. When using AI, how can we ensure that the research it helps is reproducible? WisPaper FAQ. 2025 Oct 30. https://www.wispaper.ai/en/faq/when-using-ai-how-can-we-ensure-that-the-research-it-helps-is-reproducible

[20] University of Iowa IT Security. Guidelines for the Secure and Ethical Use of Artificial Intelligence. https://itsecurity.uiowa.edu/guidelines-secure-and-ethical-use-artificial-intelligence

[21] Bihdash V. The Best AI for Academic Writing in 2026: Tools I've Tested and Actually Trust. Textero.io Reviews. 2026 Jan 27. https://textero.io/reviews/best-ai-for-academia

[22] Kappel ES. How Might Artificial Intelligence Affect Scientific Publishing? Oceanography. 2023;36(1):5. https://doi.org/10.5670/oceanog.2023.113

[23] The Transparency Paradox: Why Researchers Avoid Disclosing AI Assistance in Scientific Writing. PMC. 2025. PMC12515416. https://pmc.ncbi.nlm.nih.gov/articles/PMC12515416/

[24] Yin S et al. Defining the Boundaries of AI Use in Scientific Writing: A Comparative Review of Editorial Policies. PMC. 2025. PMC12170296. https://pmc.ncbi.nlm.nih.gov/articles/PMC12170296/

[25] Desai A et al. What is Reproducibility in Artificial Intelligence and Machine Learning Research? AI Magazine (Wiley). 2025. https://doi.org/10.1002/aaai.70004

본 글은 공개된 연구를 바탕으로 정보 제공 목적으로 작성되었으며, 전문적인 판단을 대신하거나 의학적 진단이나 치료를 위한 근거로 사용될 수 없습니다.

댓글