AI 저장이 폭발적으로 증가하고 있습니다—Filecoin이 나서서 쓸모없는 데이터를 수거할 수 있을까요? — 핫 티어링과 콜드 스토리지는 무엇인가요??
전제: Filecoin은 오랫동안 파트너십을 찾지 않았고, Juan은 모습을 보이지 않습니다. 제가 이 주제로 글을 쓰는 이유는 이웃에 있는 Filecoin 대규모 투자자인 강게 @tktang88와 많은 Filecoin 마이너 친구들이 Filecoin에 대한 지식과 향후 전망을 지속적으로 공유하고 있기 때문이며, 특히 이번에 강게가 언급한 한 점이 매우 흥미로웠습니다.
그래서 이 트윗을 작성했습니다. 상업 광고가 아니며, $FIL을 사라고 권장하는 것도 아니라, 탈중앙화 스토리지를 새로운 관점에서 바라보자는 목적입니다.
본론
이틀 전, Micron의 실적 전망 때문에 전체 시장이 그림자에 빠졌지만, 어제는 실적이 기대치를 상회하면서 시장이 단기적으로 급등했고, Micron의 시가총액이 한때 Meta와 Tesla를 앞서기도 했습니다. 이는 AI 시대의 저장 수요가 많은 사람들의 상상을 초과했기 때문입니다.
AI 훈련과 추론에는 고속 읽기·쓰기, 벡터 데이터베이스, KV 캐시 오프로드, 모델 파라미터, 추론 중간 상태 등에 더 강력한 메모리와 저장 능력이 필요합니다. 이는 하드웨어 수준의 논리로, 결정성이 높고 수익도 바로 연결됩니다.
하지만 AI 저장 수요는 고속 메모리와 SSD에만 머무르지 않습니다. 모델 훈련·추론·에이전트·사용자 생성 콘텐츠가 늘어날수록, 짧은 기간 동안 가치는 없고 접근 빈도가 극히 낮으며, 앞으로 영원히 사용되지 않을 수도 있지만 기업이 쉽게 삭제하기 꺼려하는 데이터가 새롭게 나타납니다.
오늘 논의할 핵심은 바로 ‘정크 데이터’ 저장입니다!
AI 시대의 데이터는 자연스럽게 계층화됩니다. 가장 앞은 핫 데이터로, 현재 훈련·추론에 사용되어 고속 접근이 필요하며 HBM, DRAM, NVMe SSD, 고속 네트워크가 주를 이룹니다.
그 다음은 웜 데이터로, 단기적으로 재활용 가능하며 모델 체크포인트, 훈련 조각, 벡터 인덱스, 실험 로그, 평가 데이터, 아직 진행 중인 데이터셋 등이 해당됩니다.
마지막은 콜드 데이터로, 훈련이 완료되어 단기적으로 호출되지 않지만, 재훈련·롤백·저작권·규제·감사·보안 사고·모델 재현 등으로 인해 미래에 다시 필요해질 수 있는 데이터입니다.
특히 콜드 데이터는 Micron이 현재 주도하는 고속 저장 요구와 위치가 다릅니다. Micron이 담당하는 것은 훈련·추론에 사용되는 고속 저장이며, 이 데이터는 가장 높은 금액가치를 가지고 있어 가장 비쌉니다. 따라서 이를 저장할 하드웨어는 공급 부족 현상을 보입니다.
반면 콜드 데이터는 사용 빈도가 매우 낮은데, 예를 들어 훈련에 사용된 원본 데이터, 정제된 데이터, 중복 제거 기록, 라벨링 기록, 초기 사용자 생성 이미지·비디오 등은 사실상 정크 데이터로 간주됩니다. 이런 데이터는 대부분 다시 열어보지 않으며, 몇 년간 한 번도 읽히지 않을 수 있지만, 직접 삭제는 불가능합니다.
미래에 재훈련이 필요하거나 모델을 롤백하거나 특정 출력에 대한 설명이 필요하거나 저작권 분쟁을 처리하거나 규제 감사를 받아야 하거나, 새로운 모델이 등장하면서 이전에 쓸모 없다고 여겼던 데이터가 갑자기 필요해질 수 있기 때문입니다.
따라서 AI 시대의 가장 큰 골칫거리는 데이터 양이 급증하고, 데이터를 삭제하는 위험도 커진다는 점입니다.
많은 초기 AI 비즈니스는 데이터 관리를 대략적으로만 수행해 핫·웜·콜드 데이터를 구분하지 않습니다. 특히 저빈도 접근 데이터가 고비용 저장소를 차지한다면 장기적으로는 절대 경제적이지 않습니다. 저장 비용이 크게 증가하고 고속 클라우드 스토리지를 사용하면 더 비싸게 됩니다. 그래서 이런 콜드 데이터를 하드 디스크 ‘콜드 웨어하우스’에 그냥 버릴 수 있느냐는 질문이 나옵니다.
답은 ‘아니오’입니다.
AI 데이터가 단순히 콜드 웨어하우스에 버려지고 인덱스·태그·출처·모델 버전 매핑·정제 프로세스 기록이 없으면, 물리적으로 존재하더라도 거의 잃어버린 것과 같습니다.
필요한 것은 메타데이터는 핫하게, 데이터 본체는 콜드하게 유지하는 것입니다. 데이터 본체는 콜드 스토리지에 보관해도 되지만, 디렉터리·출처·해시·CID·라이선스·생성 시간·정제 방식·연관 모델·사용 기록·프라이버시 태그·보존 기간·복구 테스트 결과 등은 검색 가능하고 읽을 수 있으며 감사 가능한 핫 인덱스 레이어에 보관해야 합니다.
이것이 Filecoin과 탈중앙화 스토리지를 다시 논의할 수 있는 이유이며, 특히 네트워크 스토리지 역량을 갖춘 탈중앙화 스토리지 인프라가 해당됩니다.
Filecoin은 방대한 네트워크 스토리지 용량을 가지고 있습니다. 단순히 디스크가 많다고 큰 의미는 없지만, 블록체인 상의 디스크들은 이미 검증 가능한 콜드 스토리지의 초석을 이루고 있습니다. 특히 Filecoin은 전통적인 클라우드 스토리지와 달리 콘텐츠 주소 지정, 다중 제공자 스토리지, 온체인 증명이라는 특징이 있습니다.
쉽게 말해 고객은 한 클라우드 업체가 “데이터가 저장되었습니다”라고 주장하는 것만 믿지 않아도 되고, 해당 데이터가 변조되지 않았으며 동일한 콘텐츠 식별자를 통해 언제든지 찾아올 수 있음을 지속적으로 검증할 수 있습니다.
이 기능은 AI 콜드 데이터에 큰 의미가 있습니다.
이 관점에서 본다면 탈중앙화 스토리지가 진정으로 기회를 잡을 수 있는 영역은 AI 콜드 데이터 관리 레이어일 수 있습니다. 훈련 클러스터·클라우드 객체 스토리지·기업 온프레미스 서버에서 데이터를 마이그레이션하고, 중복 제거·압축·프라이버시 스캔·저작권 태깅·암호화·샤딩을 수행한 뒤 대용량 파일을 콜드 스토리지에 넣고 핫 인덱스를 유지합니다.
향후 모델 재훈련 시 시스템은 출처·시간·태그·모델 버전 등을 기준으로 데이터를 찾아낼 수 있습니다. 이런 역량이 없으면 Filecoin은 단순 창고에 불과하지만, 역량이 있으면 탈중앙화 스토리지는 AI 데이터 인프라의 일부가 될 수 있습니다.
다른 탈중앙화 스토리지 프로젝트도 각각 따로 평가해야 합니다. Filecoin은 검증 가능한 콜드 데이터 창고에 더 적합합니다. 핵심이 스토리지 시장과 데이터 증명이며, 대용량 파일·저빈도 접근·버전 고정 데이터셋 스냅샷·모델 체크포인트·연구 데이터·공개 훈련 코퍼스·프라이버시 처리된 감사 로그 등에 적합합니다.
Arweave는 영구 공개 데이터·모델 설명·데이터 출처 기록·변조 불가능한 공개 아카이브에 더 적합하지만, 프라이버시 및 삭제 권리가 포함된 데이터는 규제 문제 때문에 바로 넣기 어렵습니다.
Storj와 Sia는 탈중앙화 객체 스토리지에 가깝습니다. 사용성·가격이 충분히 경쟁력 있다면 백업·아카이브 수요를 차지할 수 있지만, 가용성·복구 속도·기업 서비스·장기 경제 모델을 입증해야 합니다.
물론 가장 중요한 것은 충분히 저렴하다는 점입니다.
AWS Glacier Deep Archive, Google Archive, Azure Archive, 기업용 테이프 라이브러리, 온프레미스 객체 스토리지, 디스크 제조사·클라우드 업체 모두 AI 콜드 데이터를 차지하려고 경쟁합니다.
특히 초저빈도 데이터는 테이프와 딥 아카이브가 여전히 경쟁력이 있습니다. 탈중앙화 스토리지는 먼저 저렴해야 하고, 그 외에도 검증 가능·다중 제공자·벤더 중립·콘텐츠 주소 지정 같은 능력을 만족해야 합니다. 저렴함은 입구일 뿐입니다.
AI가 계속 발전함에 따라 콜드·정크 데이터는 늘어나고, 이 데이터가 AI 기업에게 가장 큰 비용 부담 요소 중 하나가 될 가능성이 높습니다.
그래서 저는 현재 존재하는 저렴한 탈중앙화 스토리지를 다시 논의할 가치가 있다고 생각합니다.
과거 Filecoin 같은 프로젝트는 공급(채굴기)은 있었지만 실제 수요가 거의 없었습니다. 네트워크에 디스크와 스토리지 제공자가 많고 탈중앙화 서사는 있지만, 실제 고객과 유료 사용자는 거의 없습니다.
AI 콜드 데이터가 큰 시장이 되고 탈중앙화 스토리지가 전통 스토리지보다 저렴하게 ‘핫 인덱스·콜드 스토리지’를 구현한다면, 기존에 존재하던 디스크에 실제 사용 기회가 생길 것입니다.
투자 관점에서 Micron 상승이 Filecoin 상승을 의미한다고 단정짓는 것은 안 됩니다. 두 비즈니스 모델은 완전히 다릅니다.
Micron은 하드웨어를 판매하고, Filecoin은 유료 저장량·실제 고객 수·재계약률·검색 성공률·복구 비용·스토리지 제공자 이익 등을 보고, 이러한 성장 요소가 $FIL 수요·스테이킹·수수료·소각 등으로 연결되는지를 판단합니다.
탈중앙화 스토리지는 아직 가야 할 길이 멀고, 특히 ‘핫 인덱스·콜드 스토리지’ 시스템을 실제로 구현할 수 있는지가 Filecoin이 집중해야 할 과제입니다.
AI 콜드 데이터 수요는 나타날 가능성이 높지만, 최종적으로 어느 쪽으로 흐를지는 충분히 저렴하고, 충분히 안정적이며, 충분히 쉽게 검색·감사할 수 있는지가 관건입니다.
Filecoin이 단순히 디스크가 많다는 것만 증명한다면 의미가 크지 않습니다.
Filecoin이 이러한 디스크가 실제 유료 데이터를 받아 안정적으로 몇 년 뒤에도 복구·전체 복원·지속 재계약이 가능하다는 것을 증명한다면, AI 시대에 겉보기에 필요 없는 정크 데이터가 탈중앙화 스토리지에 두 번째 기회를 줄 수 있습니다.
끝
