[블로그 전문 뉴스] AI 데이터 책임 강화, 테크 기업에 닥친 새로운 사회적 과제
인공지능(AI)의 활용이 빠르게 확산함에 따라 AI 모델 개발 과정에서 사용되는 ‘데이터의 책임성’에 대한 논의도 본격화되고 있다. 특히 세계 주요 테크 기업들이 AI 모델 훈련에 사용하는 데이터 중 상당 부분이 저작권 문제나 개인정보 보호 이슈와 얽혀 새롭게 규제의 대상이 되고 있다. 최근 이러한 흐름에 따라 미국과 유럽을 중심으로 규제 당국과 관련 기업들이 AI 훈련 데이터에 대해 보다 투명하고 공정한 책임 구조를 요구하고 있는 가운데 이는 글로벌 전역으로 파장을 일으키고 있다.
AI 데이터 시대, 기업들에 요구되는 ‘책임의식’
AI의 정확한 작동을 위해 방대한 데이터가 필요하다는 점은 이미 널리 알려진 사실이다. 챗GPT(ChatGPT), 클로드(Claude), 메타의 라마(LLaMA) 등의 대규모 언어모델(LLM) 역시 인터넷 전반의 웹페이지, 뉴스 기사, 책, 이미지 등을 기반으로 학습하고 있다. 문제는 이 과정에서 사전 동의 없이 불법적으로 수집된 데이터가 사용할 가능성이 높다는 점이다.
여러 언론보도와 기술 분석 자료에 따르면 일부 AI 기업들은 저작권자의 허가 없이 책, 뉴스 콘텐츠, 이미지 등을 수집해 모델을 학습시키는 데 사용해왔다. 뉴욕 타임즈와 같은 전통적인 언론사들이 직접 해당 기업에 법적 책임을 묻기 시작하면서, AI 개발 기업들의 데이터 수집 방식이 도마에 오르고 있다.
더불어 유럽연합(EU)과 미국 정부 역시 이러한 문제에 주목하고 있으며, 특히 유럽연합은 AI법(AI Act)을 통해 AI 시스템이 훈련에 사용한 데이터의 출처를 명확히 밝히도록 요구하고 있다. 이는 데이터 투명성을 강화하고, 잠재적인 저작권 침해 및 개인정보 남용을 방지하기 위한 조치이다.
AI와 저작권, 그리고 창작자의 권리
AI 훈련에 활용되는 데이터 중 가장 큰 논쟁이 발생하는 분야는 ‘창작물’에 대한 저작권 문제이다. AI 모델이 기존 콘텐츠를 참고하여 새로운 문장, 이미지, 코드 등을 생성해낸다고 할 때, 그 원본이 된 콘텐츠에 대한 권리는 누구에게 있는가에 대한 근본적인 질문이 발생하는 것이다.
예를 들어, 시인이나 소설가의 글을 AI가 학습해 유사한 문장을 쓰게 됐다면 이는 창작자의 권리를 침해한 것이라 볼 수 있다. 최근에는 유명 작가들이 AI 기업을 상대로 집단소송을 제기하는 사례도 증가하고 있다. 미소설가 조너선 프랭즌, 마거릿 애트우드 등은 AI 기업에 자신들의 저작물 무단 사용에 대해 법적 대응에 나섰다.
뷰티크리에이터, 사진작가와 같은 1인 창작자들 역시 이미지 데이터가 무단으로 수집되고 활용되는 것에 대해 강하게 반발하고 있으며, 일부 크리에이터는 자신의 이미지 사용을 차단하는 기술 방식을 고안하거나, '크리에이티브 커먼즈 라이선스(cc)'를 무효화할 것을 촉구하고 있다.
표 1. AI 훈련 데이터 관련 이슈 요약
구분 | 내용 |
---|---|
주요 쟁점 | 저작권 침해, 개인정보 무단 수집, 데이터 사용 투명성 부족 |
주요 피해 대상 | 작가, 언론사, 크리에이터, 일반 사용자 |
법적 규제 방향 | 데이터 출처 공개, AI 훈련 데이터 저작권 동의 절차 강화 |
현재 대응 중인 기관 | 미국 FTC, EU 집행위원회, 저작권자 단체 등 |
기업의 대응 전략 | AI 훈련 데이터 공개, 허가 기반 데이터 수집 방식 전환, 책임 있는 AI 가이드라인 마련 |
AI기업의 인식 변화와 책임 있는 데이터 수집
기존에는 오픈소스 데이터나 웹 크롤링 기술을 활용해 말그대로 '아무 데이터나' 수집하여 모델을 훈련시키는 것이 관행처럼 되어 있었다. 하지만 최근 들어 기업들은 점차 공식적인 데이터 이용 동의 절차를 마련하거나, 저작권 설정이 명확한 콘텐츠 중심으로 데이터셋을 재편성하고 있다.
구글, 메타, 오픈AI 등 주요 AI 기업은 자사 모델의 학습에 사용되는 텍스트 및 이미지 데이터에 대해 보다 투명한 설명을 제공하고 있으며, 일부는 법적 소지를 피하기 위해 공공 데이터나 정부 발행 자료 중심으로 훈련 방식을 재구성 중이다.
일례로 오픈AI는 자사 모델 'GPT-4'의 학습 데이터로 사용된 일부 책에 대해 저작권자와 사후 동의를 받았다고 밝히기도 했으며, 메타 역시 라마 3(LLaMA 3) 모델을 통해 학습데이터의 출처를 최소한으로 테스트하면서 사용자의 개인정보가 포함되지 않도록 노력 중이라고 설명했다.
이 같은 변화는 ‘책임 있는 AI(Responsible AI)’라는 개념이 확산됨에 따라, 기업들이 기술적인 완성도 못지않게 사회적 책임을 다해야 한다는 분위기 속에서 이루어지고 있다.
시사점: AI 윤리, 이제는 선택 아닌 필수
AI 기술이 앞으로 더욱 보편화되고, 각종 서비스에 융합되는 시대가 머지않았다. 그러나 기술의 발전이 늘 사회적 수용성과 윤리적 기준을 동반하는 것은 아니다. 공공 데이터의 활용과 개별 프라이버시, 창작자의 권리를 조화시키는 일이 어느 때보다 중요하다.
개인적인 소감으로는, 최근 AI 서비스에서 조금이라도 창작자의 글이나 이미지를 참고하거나 사용하는 경우, 무조건 ‘AI 편리함’만을 강조하는 관행에서 벗어나야 한다는 점이 인상 깊다. 세상에 존재하는 모든 콘텐츠에는 누군가의 아이디어와 노력이 담겨 있다. 그런 가치를 무시하거나 무단 사용하는 일은 결국 AI에 대한 사회적 신뢰를 무너뜨리는 결과로 이어질 수 있다.
인터넷에서 모든 정보를 쉽게 접근할 수 있다고 해서, 그 정보가 모두 ‘공유자산’은 아니다. 윤리와 법률은 단지 형식적인 장치가 아닌 기본적인 사회 질서의 기초이기 때문이다.
앞으로의 과제
AI 기업들에게 가장 시급한 과제는 데이터 사용에 대한 명확한 기준과 투명한 공개, 그리고 이해당사자들과의 협력 체계 구축이다. 이를 위해 국내외적으로 다음과 같은 노력이 요구된다.
① AI 윤리 가이드라인의 강화 및 법제화
② AI 훈련 데이터의 출처 공개 의무화
③ 이해관계자(저작권자, 사용자, 기관 등)와의 협의 프로세스 마련
④ 국제 공동 규제 기준 마련 및 플랫폼 간 상호 인증 제도 도입
글로벌 테크 산업이 지속 가능한 발전을 이루기 위해서는 AI라는 기술 그 자체 이상의 ‘신뢰’를 설계해야 한다. 지금은 기술의 범용성과 속도보다, 사람에 대한 존중과 데이터에 대한 책임이 우선되는 시점이다.
한마디로, AI 시대의 진정한 경쟁력은 '기술력'이 아닌 '책임감'이다. 이 변화의 중심에는 바로 ‘책임 있는 데이터 수집’이라는 중요한 화두가 존재한다.
답글 남기기