DeepSeek의 새로운 챗봇은 놀라운 기능을 자랑합니다. 거의 모든 질문에 대답합니다. 중국 신생 기업의 제품인이 AI는 빠르게 주요 시장 플레이어가되어 Nvidia의 주가가 크게 감소했습니다.
Deepseek의 성공은 혁신적인 건축 및 훈련 방법에서 비롯됩니다. 주요 기술에는 다음이 포함됩니다.
DeepSeek은 처음에는 2048 GPU를 사용하여 강력한 Deepseek V3 모델에 대해 6 백만 달러의 매우 낮은 교육 비용을 주장했습니다.
그러나 Semianalysis는 DeepSeek이 10,000 H800, 10,000 H100 및 추가 H20 단위를 포함하여 약 50,000 NVIDIA HOPPER GPU를 사용하여 여러 데이터 센터를 사용했습니다. 이는 약 16 억 달러의 총 서버 투자와 9 억 9,400 만 달러에 가까운 운영비를 나타냅니다.
High-Flyer 헤지 펀드의 자회사 인 Deepseek는 데이터 센터를 소유하여 최적화와 더 빠른 혁신에 대한 제어를 제공합니다. 자체 자금 지원 상태는 유연성을 향상시킵니다. 또한 Deepseek은 최고의 인재를 유치하며 일부 연구자들은 주로 중국 대학에서 매년 130 만 달러 이상을 벌고 있습니다.
Deepseek의 초기 6 백만 달러의 훈련 비용 청구는 오해의 소지가 있습니다. 연구, 개선, 데이터 처리 및 인프라를 제외한 사전 훈련 GPU 사용에만 적용됩니다. 회사의 총 AI 개발 투자는 5 억 달러를 초과합니다. 그러나 린 구조는 더 큰 관료적 회사에 비해 효율적인 혁신을 허용합니다.
DeepSeek의 성공은 잘 자금을 지원하는 독립 AI 회사가 업계 거인과 경쟁 할 수있는 잠재력을 강조합니다. "혁신적인 예산"주장은 과장되지만, 성공은 부인할 수 없으며, 상당한 투자, 기술 혁신 및 강력한 팀으로 인해 발생합니다. 비용 차이는 엄격합니다. DeepSeek의 R1 모델은 ChatGPT4의 1 억 달러에 비해 훈련하는 데 5 백만 달러가 들었습니다. 그러나 경쟁사보다 여전히 저렴합니다.