
영국의 파이낸셜타임스는 2025년 5월 20일, 골드만삭스 투자은행 글로벌 공동대표인 김 포스넷(Kim Posnett)이 기고한 〈인공지능 데이터 수요, 새로운 수익원 창출「Demand for AI data creates new income stream」〉이라는 제목의 칼럼을 실었습니다.
데이터는 인공지능(AI) 혁명의 토대이며, AI는 동시에 데이터 시장을 혁신하고 있습니다. 개발자들은 AI 시스템을 작동시키기 위한 인프라 구축에 수십억 달러를 투자하고 있으며, 이러한 급속한 확장은 데이터 수요 급증으로 이어지고 있습니다. 이는 기업들이 데이터를 통해 상당한 경제적 가치를 창출할 수 있는 잠재력을 의미합니다.
AI 시스템은 일반적으로 전력, 연산 능력, 데이터의 세 가지 주요 구성요소로 설명됩니다. 전력은 데이터 센터에 전력을 공급하는 전기를 의미하고, 연산 능력은 초고속 계산을 수행하는 반도체를 필요로 하며, 데이터는 AI 모델 학습에 필요한 정보입니다. 이 중에서 가장 덜 주목받는 요소가 바로 데이터입니다. 이는 데이터 센터나 반도체처럼 물리적으로 볼 수 있는 것이 아니기 때문이며, 데이터를 수집하고 정제하는 과정이 매우 까다롭기 때문입니다.
하지만 데이터는 AI 확장의 핵심 요소로서 점점 더 중요해지고 있습니다. 세계는 지금 ‘조직화된 데이터(organic data)’가 부족한 현실에 직면해 있으며, 이에 따라 개발자들은 AI가 학습할 수 있도록 데이터를 생성해내는 데 집중하고 있습니다. 데이터는 AI 시스템의 성능을 좌우하는 핵심 자원이며, 대규모 데이터셋이 AI를 더욱 정교하게 만듭니다. 실제로 많은 기업들이 자사 데이터를 통해 질문에 답하고 문제를 해결할 수 있도록 AI 시스템을 훈련시키고자 하지만, 고품질의 데이터가 부족한 상황입니다.
텍스트북 한 권이 과거의 기술 자료와 강의 내용을 통해 AI 시스템을 훈련시켜 과학적 연구를 돕는 것을 상상해 보십시오. 최근의 데이터 라이선스 계약은 여러 기업들이 자사 데이터를 AI 기업에 판매하고 있으며, 이 같은 경향은 앞으로 더욱 가속화될 것으로 보입니다. 지금은 주로 개별 계약을 통해 거래가 이뤄지고 있으나, 향후에는 데이터 트레이닝을 위한 마켓플레이스가 생겨날 가능성도 있습니다.
특히, AI 시스템 학습에 사용되는 ‘합성 데이터(synthetic data)‘는 대규모 언어모델 개발에 핵심적인 요소로 부상하고 있습니다.
과거에는 분석이나 활용이 어려웠던 데이터가 지금은 쉽게 접근 가능하고, 경제적 가치가 높아지고 있습니다.
이런 변화는 다양한 새로운 직업과 기술적 가능성을 열어주고 있습니다. 예를 들어, 로봇이 인간의 눈에는 보이지 않는 공간의 데이터를 인식할 수 있게 되면서, 생명과학이나 도시 환경에서 새로운 통찰을 얻을 수 있게 되었습니다.
예를 들어 테슬라는 자사 차량에서 수집한 데이터를 활용하여 자율주행 AI 모델을 훈련시키고 있으며, 이는 테슬라의 핵심 기술력의 기반이 되고 있습니다. 엔비디아는 가상 환경에서 자율주행 차량을 훈련시키기 위해 시뮬레이션 데이터를 사용하고 있습니다.
AI 학습을 위한 가장 귀중한 데이터 중 하나는 ‘잠긴 데이터(siloed data)‘입니다. 이는 기업 내부에 축적되어 있지만 외부에 공개되지 않은 데이터로, 만약 이러한 데이터가 AI 훈련에 활용된다면 엄청난 부가가치를 창출할 수 있습니다.
실제로 기업마다 데이터 전략은 다르며, 어떤 기업은 데이터를 핵심 자산으로 여기고, 또 어떤 기업은 구독 서비스를 통해 데이터를 판매합니다. 기업들은 AI 활용을 위해 데이터 인프라에 막대한 투자를 하고 있습니다.
한편, 각국 정부는 데이터 활용 규제에 대해 서로 다른 접근 방식을 취하고 있습니다. 예를 들어, 유럽은 개인정보 보호에 엄격한 반면, 미국은 상대적으로 유연한 편입니다. 이 같은 규제 차이는 AI 데이터 시장의 지형을 변화시킬 수 있습니다.
이러한 전환의 시기는 데이터 제공자와 사용자 모두에게 새로운 기회를 제공하며, 데이터는 앞으로 AI 시대의 핵심 자산으로 자리잡게 될 것입니다.