DeepSeek: A More Extreme Story of Chinese Tech Idealism
DeepSeek: 더욱 극단적인 중국 기술적 이상주의 이야기
원문: 2024년 7월 17일 09:01 「暗涌Waves」
글 | 위리리(于丽丽) |
편집 | 류징(刘旌) |
중국의 7개 대형 모델(大模型) 스타트업 가운데, DeepSeek(深度求索)은 가장 조용히 활동해왔지만, 매번 의외의 방식으로 사람들의 뇌리에 강렬히 각인된다.
1년 전, DeepSeek이 화제가 된 것은 그 뒤에 있는 양적(量化) 사모펀드 거인 ‘환팡(幻方)’ 때문이었다. 대형 IT 기업 이외에서 유일하게 A100 칩을 만 장이나 보유한 곳이었기 때문이다. 그리고 1년 뒤, DeepSeek은 사실상 중국 대형 모델 가격 경쟁을 야기한 발화점으로 다시금 스포트라이트를 받고 있다.
AI 관련 이슈가 끊임없이 터져 나온 5월, DeepSeek은 단숨에 이름을 널리 알렸다. 계기는 “DeepSeek V2”라는 오픈소스 모델을 발표한 것이었는데, 이 모델은 전례 없는 가성비를 제시했다. 추론 비용(추론 시 소요되는 비용)을 100만 토큰당 단돈 1위안(한화 약 180원 수준)으로 낮춘 것이다. 이는 Llama3 70B 모델의 약 7분의 1이고, GPT-4 Turbo의 약 70분의 1에 해당한다.
DeepSeek이 단숨에 ‘AI계의 삔둬둬(拼多多, 초저가 이커머스 플랫폼)’라는 별칭을 얻게 되자, 바이트댄스(字节), 텐센트(腾讯), 바이두(百度), 알리바바(阿里) 등 빅테크 기업들 역시 가격을 인하하기 시작했다. 이렇게 중국 대형 모델 간의 가격 전쟁의 막이 올랐다.
하지만 이러한 격렬한 분위기는 한 가지 사실을 감추고 있다. 바로, 많은 대형 기술 기업들이 적자를 감수하며 보조금 형태로 가격을 낮추는 것과 달리, DeepSeek은 이윤이 난다는 점이다.
그 배경에는 DeepSeek이 모델 구조 자체에서 전방위적 혁신을 꾀했다는 점이 있다. DeepSeek이 제시한 새로운 MLA(Multi-Head Latent Attention, 다중 헤드 잠재 주의 기제) 구조는 기존에 가장 흔히 사용되었던 MHA(Multi-Head Attention) 구조의 5%~13% 정도만 GPU 메모리를 점유한다. 또한 DeepSeek이 독자적으로 제안한 ‘DeepSeekMoESparse’ 구조는 연산량을 극도로 낮춰, 최종적으로 비용 절감을 이뤄냈다.
실리콘밸리에서는 DeepSeek을 “동방에서 온 신비로운 힘”이라고 부른다. 시장조사기관 SemiAnalysis의 수석 애널리스트는 “DeepSeek V2 논문이 올해 최고 수준의 논문일 수 있다”고 평했다. OpenAI 전 직원 앤드루 카(Andrew Carr)는 논문이 “놀라운 통찰로 가득 차 있다”며, 자신의 모델에 논문에서 제시한 훈련 설정을 일부 적용해봤다고 한다. OpenAI 전 정책 총괄이자 Anthropic 공동 창업자인 잭 클라크(Jack Clark)는 “DeepSeek은 심오하고 난해한 인재들을 고용했다”며, 드론이나 전기차처럼 중국이 만든 대형 모델도 “무시할 수 없는 세력이 될 것”이라 평했다.
실리콘밸리가 주도해온 AI 물결에서, 중국 회사가 이처럼 주목받는 일은 드물다. 여러 업계 인사들은 “모델의 구조적 혁신”이 전 세계 오픈소스 기초 모델 분야에서도 사례가 거의 없었기에 이 같은 반향이 일어났다고 말한다. 어느 AI 연구자는 “어텐션(Attention) 구조가 제안된 이후 수년간 크게 바뀐 적이 거의 없는데, 거기에 성공적으로 손을 대는 것은 드문 일”이라며, “결정 단계에서부터 대부분은 확신 부족으로 실행조차 못 하는 경우가 많다”고 평했다.
한편, 지금까지 중국의 대형 모델 업체가 모델 구조 자체에서 혁신을 시도한 사례가 적었던 것은, 중국이 0에서 1을 창조하는 기술 혁신보다는 1에서 10으로 확장하는 응용 혁신에 더 능숙하다는 편견, 그리고 무경로 상태에서 혁신하는 것은 위험 부담이 크고 확실한 성공을 담보하기 어렵다는 인식도 작용했기 때문이다. 무엇보다도, 이미 나온 최신 모델 구조를 빠르게 따라가고, 실제 적용에만 집중해도 된다는 분위기가 있었다. 모델 구조부터 혁신해 보겠다는 것은 사전에 선례가 없고 수많은 실패를 감수해야 하며, 시간과 비용이 막대하게 든다.
그러나 DeepSeek은 오히려 역행을 택했다. 모든 이가 “대형 모델 기술은 어차피 수렴할 것”, “이미 나온 구조를 따라가는 편이 똑똑한 지름길”이라고 말하는 가운데, DeepSeek은 시행착오에서 얻을 수 있는 가치를 중시했다. 또한 중국의 대형 모델 스타트업도 기존 기술을 응용하는 것 말고, 글로벌 기술 혁신의 물결에 동참할 수 있다고 믿는다.
DeepSeek의 결정 방식은 곳곳에서 다르다. 지금까지 중국의 7개 대형 모델 스타트업 중 유일하게, “모델도 하고, 애플리케이션도 한다”는 ‘둘 다 잡기’ 노선을 포기하고 연구·기술만 집중해온 곳이 DeepSeek이다. 직접 소비자(To C)용 제품을 전혀 내놓지 않았고, 전방위적 상업화를 고려하기보다는 오픈소스와 공개 노선을 고수해왔으며, 심지어 단 한 번도 투자를 유치한 적이 없다. 그 결과, 대부분의 사람들 시야에서 자주 잊히지만, 커뮤니티에서는 유저들이 ‘자발적 홍보(自来水)’ 방식으로 DeepSeek을 퍼뜨리곤 한다.
DeepSeek은 어떻게 탄생했을까? 이를 위해 좀처럼 모습을 드러내지 않는 DeepSeek의 창업자 량원펑(梁文锋)과 인터뷰를 진행했다.
환팡(幻方) 시절부터 기술 연구에만 몰두해온 80년대생 창업자 량원펑은, DeepSeek에 와서도 여전히 매일 “논문 읽고, 코드 짜고, 소그룹 토론에 참여하는” 일상을 연구원들과 함께한다.
다수 업계 관계자와 DeepSeek 연구원은 “량원펑은 현재 중국 AI 업계에서 보기 드문, 인프라(Infra) 레벨의 공학 역량과 모델 연구 역량을 모두 갖추고, 필요한 자원까지 효율적으로 움직일 수 있는 사람”이라고 소개한다. “높은 차원에서 정확한 판단을 내릴 수 있으면서도 디테일 측면에서는 현장 연구원보다도 뛰어나다”는 평가를 받고 있으며, “무시무시한 학습 능력”을 갖췄지만 “전혀 사장(老板) 같지 않고, 오히려 순수한 괴짜(Geek) 같다”고도 한다.
이번 인터뷰는 특히나 귀한 기회다. 인터뷰 속, 이 기술적 이상주의자는 중국 기술계에서 현재 매우 드문 관점을 제시한다. “이익과 손해(利害)보다 옳고 그름(是非)을 우선시하고, 시대적 관성을 인식하며 ‘원천적 혁신’을 의제에 올려놓아야 한다고 강조”하는 사람이다.
1년 전, DeepSeek이 막 시장에 뛰어들었을 때, 우리는 량원펑과 첫 인터뷰를 진행했다(「미친 환팡: 한 보이지 않는 AI 거인의 대형 모델 행보」). 당시 그가 말한 “반드시 미친 듯이 야심을 품고, 동시에 미친 듯이 진심을 지녀야 한다(务必要疯狂地怀抱雄心,且还要疯狂地真诚)”는 문장은 말 그대로 멋진 구호처럼 들렸다. 그런데 1년이 지난 지금, 그것이 점점 행동으로 옮겨지는 중이다.
인터뷰 전문
가격 전쟁의 첫 포탄은 어떻게 터졌나?
「暗涌」: DeepSeek V2 모델을 발표한 뒤 곧바로 대형 모델 간 가격 전쟁이 일어났습니다. 어떤 분들은 DeepSeek이 업계의 ‘메기(鲶鱼)’ 역할을 했다고 하죠.
량원펑: 저희가 의도적으로 메기가 되려고 한 건 아니고, 어쩌다 보니 그렇게 되었습니다.
「暗涌」: 이런 결과는 예상했나요?
량원펑: 매우 의외였습니다. 가격 문제에 사람들이 이렇게 예민할 줄 몰랐어요. 저희는 그저 저희 페이스대로 하던 일을 했고, 비용을 계산해 적정 가격을 책정했을 뿐입니다. 저희 원칙은 적자를 보지 않되, 폭리를 취하지도 않는 것이었어요. 그래서 원가 위에 약간의 이윤만 얹은 가격이었죠.
「暗涌」: 모델 발표 5일 뒤 즈푸AI(智谱AI)가 따라 내렸고, 이어 바이투댄스(字节), 알리(阿里), 바이두(百度), 텐센트(腾讯) 등 대형 기업들이 줄줄이 가격을 내렸습니다.
량원펑: 즈푸AI가 내린 것은 입문급 제품이었어요. 저희와 같은 급의 모델은 여전히 비싸게 받더군요. 바이트댄스가 사실상 가장 먼저 뒤따랐는데, 플래그십 모델 가격을 저희와 동일한 수준으로 내렸습니다. 그러자 다른 빅테크들도 우르르 내리기 시작했어요. 그런데 대기업들은 우리보다 모델 비용이 훨씬 높을 텐데도, 적자를 감수하고 이를 진행하더군요. 결국 인터넷 시대의 ‘보조금 살포형 가격 전쟁’ 로직으로 전개된 거죠.
「暗涌」: 겉으로 보면 가격 인하는 사용자를 유치하기 위한 것 같은데, 인터넷 시대 가격 전쟁이 보통 그런 식이잖아요.
량원펑: 사실 저희의 주된 목적은 사용자를 빼앗으려는 것이 아닙니다. 저희가 가격을 낮춘 건, 우선 다음 세대 모델 구조에 대한 연구를 통해 비용이 실제로 낮아졌기 때문이고, 또 API든 AI든 대중이 널리 싸게 쓸 수 있어야 한다고 생각했기 때문입니다.
「暗涌」: 보통 중국 업체들은 이번 세대 Llama 구조를 그대로 가져다 애플리케이션을 만드는데, 왜 DeepSeek은 모델 구조부터 건드렸나요?
량원펑: 목표가 애플리케이션이라면 Llama 구조를 그대로 쓰면서 빠르게 제품을 내는 것이 당연히 합리적일 수 있습니다. 하지만 저희 목표는 AGI입니다. 이는 한정된 자원으로 더 강력한 모델을 구현하려면 새로운 모델 구조를 연구해야 함을 의미하죠. 대규모로 모델을 확장(scale up)하려면, 이런 기초 연구가 필요합니다. 구조뿐 아니라, 데이터를 어떻게 구성하고 어떻게 모델을 인간처럼 만들 것인지 등, 매우 다각적인 시도를 하고 있고, 이를 자사 모델에 구현해놓았습니다. 또한 Llama 구조는 훈련 효율이나 추론 비용 면에서 해외 최신 모델과 비교했을 때 2세대 정도 뒤처졌다고 생각합니다.
「暗涌」: 그 ‘2세대 격차’는 주로 어디서 나오나요?
량원펑: 첫째는 훈련 효율 차이입니다. 국내 최고 수준과 해외 최고 수준을 견주면, 모델 구조와 학습 역학(Training Dynamics)에서 대략 2배 차이가 난다고 보는데, 결국 같은 성능을 내려면 우리는 2배의 컴퓨팅 자원을 써야 한다는 뜻이 됩니다. 둘째는 데이터 효율성에서도 1배 차이가 날 수 있는데, 같은 효과를 내기 위해선 2배의 훈련 데이터와 계산량이 필요한 것이죠. 이 둘을 합치면 4배의 계산 자원이 필요한 셈입니다. 저희는 이 격차를 줄이는 데 매진하고 있습니다.
「暗涌」: 대부분 중국 회사들이 모델과 애플리케이션 양쪽을 다 하는 ‘둘 다 잡기’를 선택하는데, DeepSeek은 왜 연구·탐색만 하고 있나요?
량원펑: 저희는 지금 단계에서 글로벌 혁신의 흐름에 참여하는 게 가장 중요하다고 생각합니다. 과거엔 누군가 기술 혁신을 하면 우리가 가져다 적용해 돈을 버는 형태에 익숙했는데, 사실 그건 당연한 이치가 아니죠. 이번 물결에 저희는 “이 기회에 돈을 왕창 벌자”가 아니라, “기술 전선의 최전방으로 뛰어들어 생태계를 함께 발전시켜보자”는 생각을 갖고 있습니다.
「暗涌」: 인터넷·모바일 인터넷 시대를 거치면서, “미국은 0에서 1로 만드는 기술 혁신에 능하고, 중국은 1에서 10으로 확장하는 데 강하다”는 인식이 굳어졌습니다.
량원펑: 중국 경제가 성장함에 따라, 중국도 이제는 단순히 ‘무임승차(搭便车)’만 할 수는 없습니다. 지난 30여 년간의 IT 물결에서 중국은 진정한 의미의 기술 혁신에 거의 참여하지 못했습니다. ‘모어의 법칙’(무어의 법칙)이 마치 하늘에서 떨어지는 선물처럼, 18개월마다 자동으로 더 나은 하드웨어와 소프트웨어가 나오는 것처럼 여긴 것이죠. “스케일링 법칙(Scaling Law)”도 마찬가지 취급을 받습니다.
하지만 사실, 이는 서구가 주도해온 기술 커뮤니티가 대대로 끊임없이 만들어낸 결실입니다. 우리가 그 과정에 참여하지 못했기 때문에 이를 간과해온 측면이 큰 거죠.
진짜 격차는 1년 혹은 2년이 아니라, ‘원천적 혁신’과 ‘모방’ 사이에 있다
「暗涌」: 왜 DeepSeek V2에 실리콘밸리가 놀랐을까요?
량원펑: 미국에서는 매일 엄청난 양의 혁신이 일어나고 있어서, 이 또한 그 가운데 하나일 뿐입니다. 그들이 놀란 것은 이 혁신을 ‘중국 회사’가 ‘혁신 기여자’로서 그들의 게임에 참여했다는 점 때문이죠. 대부분 중국 회사들은 혁신보다는 팔로우(Follow)를 택하니까요.
「暗涌」: 중국 문맥에서 보면 그런 선택이 너무 사치스럽게 느껴지기도 합니다. 대형 모델은 자본 투자가 크게 필요한 분야인데, 당장 돈 벌 수 있는 상업적 방안을 우선시하기 마련이잖아요.
량원펑: 혁신에 드는 비용이 결코 적지 않다는 것은 사실입니다. 예전의 ‘가져다 쓰는’(拿来主义) 방식도 과거 국내 사정이 그럴 만했기 때문이죠. 그러나 지금은, 중국의 경제 규모나 바이트댄스·텐센트 같은 대기업의 이익을 볼 때, 글로벌에서 손꼽히는 수준입니다. 혁신에 돈이 없는 게 아니라, 확신이 부족하고 ‘고밀도의 인재 풀을 어떻게 효과적으로 조직해 제대로 된 혁신을 만들어낼지’를 모르고 있을 뿐입니다.
「暗涌」: 그래서 자금이 넉넉한 대기업조차도 빠른 상업화에 목을 매는 분위기가 되었군요.
량원펑: 지난 30년간 우리는 돈 버는 일에만 집중했습니다. 기술 혁신은 외면받았어요. 하지만 혁신은 단순히 사업적 동기만으로는 부족하고, 호기심과 창조욕도 있어야 합니다. 다만 우리 사회가 그간 돈을 벌어야 한다는 관성에 매여 있었을 뿐이고, 그것도 하나의 과도기적 현상이라 볼 수 있겠지요.
「暗涌」: 하지만 결국 DeepSeek도 기업이지, 공익 연구소가 아니잖아요. 혁신한 다음 그것을 그대로 오픈소스해서 공개해버린다면, 과연 어떤 ‘해자(护城河, 경쟁적 진입 장벽)’를 만들 수 있을까요? 이번 5월에 발표한 MLA 구조 혁신도 곧 남들이 복제할 것 같은데요.
량원펑: 혁신적인 기술은 닫아둬도 오래가진 못합니다. OpenAI도 비공개(Closed)로 하긴 하지만, 결국 다른 이들이 못 따라오게 막을 수는 없죠. 그래서 저희는 사람(팀)에 가치를 축적합니다. 우리의 동료들은 이런 과정을 거치며 성장하고 많은 노하우를 쌓고, 창의적 문화를 형성하죠. 이것이 곧 우리의 해자가 됩니다.
오픈소스와 논문 발표로 저희가 잃는 것은 사실상 별로 없어요. 기술자 입장에서는 남들이 우리를 따라오면 큰 보람을 느낍니다. 사실 오픈소스는 일종의 문화적 행동이라고 볼 수 있어요. 기업 차원에서 이렇게 공유하는 것은, ‘추가적인 명예’를 얻는 것이기도 합니다. 회사 입장에서도 문화적 매력을 갖게 되죠.
「暗涌」: “대형 모델은 결국 시장이 승부를 가른다”고 주장하는, 예컨대 주샤오후(朱啸虎) 같은 투자자의 의견에 대해서는 어떻게 생각하시나요?
량원펑: 주샤오후는 자기 논리 체계 내에서 자족적인 분입니다. 그분의 방식은 ‘빠른 돈’을 노리는 회사에 더 맞을 수 있습니다. 하지만 미국에서 가장 돈을 잘 버는 회사들은 두껍게 쌓인 기술(厚积薄发)로 성장한 하이테크 기업들이죠.
「暗涌」: 대형 모델이라는 판에서, 기술적 우위만으로 절대적 우세를 지속하기 쉽지 않을 텐데, DeepSeek이 궁극적으로 노리는 건 뭔가요?
량원펑: “중국 AI가 영원히 뒤따르기만 할 수는 없다”는 점입니다. 흔히 “중국 AI와 미국은 1~2년 차이가 있다”고 말하지만, 실제 격차는 ‘원천적 혁신과 모방’의 차이입니다. 이게 바뀌지 않는다면, 중국은 영원히 추격자일 뿐이죠. 언젠가는 우리가 부딪혀야 할 도전입니다.
엔비디아가 지금처럼 앞서게 된 것은 한 회사의 힘만이 아니라, 서구 기술 커뮤니티 전체, 산업 전반의 축적 덕택입니다. 그들은 차세대 기술 트렌드를 미리 보고, 로드맵을 갖고 있습니다. 중국도 똑같이 이런 생태계를 갖춰야 하죠. 그래서 누군가는 기술 최전방에 서 있어야 하고, 그다음 세대의 열쇠를 찾아와야 합니다.
“더 많이 투자하면 더 많은 혁신이 나오는 건 아니다”
「暗涌」: 지금 DeepSeek은 OpenAI 초창기 같은 이상주의적 기풍이 느껴지고, 게다가 오픈소스이기도 하죠. 향후에 ‘비공개(Closed)’로 전환할 수도 있을까요? OpenAI나 미스트랄(Mistral)도 오픈소스에서 비공개로 전환한 경험이 있잖아요.
량원펑: 저희는 비공개로 전환하지 않을 겁니다. 탄탄한 기술 생태계를 먼저 확보하는 게 더 중요하다고 보기 때문입니다.
「暗涌」: 투자 유치 계획은 없나요? 매체 기사 중에는, 환팡이 DeepSeek을 분리해 상장시키려 한다는 내용도 있던데요. 실리콘밸리 AI 스타트업들을 보면 결국 대기업과 제휴해 나가게 되잖아요.
량원펑: 단기적으로는 투자 유치 계획이 없습니다. 저희가 겪는 문제는 단 한 번도 돈이 부족해서가 아니라, 고성능 칩(High-end GPU 등)을 금수당하는 문제였으니까요.
「暗涌」: 일각에서는 “AGI와 양적 트레이딩(量化)은 완전히 다른 종목이다. 양적 펀드는 조용히 할 수 있어도, AGI는 대대적인 진영 구축과 연대가 필요해 대규모 투자가 중요한데, DeepSeek은 그만큼 자원이 충분한가?”라고 의문을 제기하기도 합니다.
량원펑: 투자나 자원이 많다고 반드시 더 많은 혁신이 나오진 않습니다. 그렇다면 대기업들이 모든 혁신을 다 독점했겠죠.
「暗涌」: 현재 애플리케이션을 안 하는 건, 운영 역량이 부족해서가 아닌가요?
량원펑: 지금은 기술 혁신이 폭발하는 시기이지, 애플리케이션이 폭발하는 시기가 아니라고 봅니다. 저희는 장기적으로 생태계를 만드는 걸 지향합니다. 즉, 업계에서 저희 기술과 성과물을 직접 활용할 수 있게 하고, 저희는 기초 모델과 최첨단 혁신만 맡으며, 다른 회사가 DeepSeek을 기반으로 해서 To B, To C 영역의 사업을 전개하는 것이죠. 산업 가치사슬이 완비되어 있다면, 저희가 굳이 직접 애플리케이션을 만들 필요가 없습니다. 물론 필요하다면 직접 애플리케이션을 하는 것도 문제 없지만, 연구와 기술 혁신이 항상 최우선순위가 될 겁니다.
「暗涌」: 그렇다면 API 제공 업체로서, 왜 DeepSeek을 선택해야 하죠? 대기업의 API가 더 나을 수도 있지 않나요?
량원펑: 미래 세계는 전문적 분업이 더 심화될 겁니다. 기초 대형 모델은 지속적인 혁신이 필요한데, 대기업이 모든 걸 책임지는 데 한계가 있을 수 있어요.
「暗涌」: 기술이 정말 큰 격차를 만들어낼 수 있을까요? 말씀하신 대로 절대적인 ‘기술 비밀’은 없다고 하셨는데요.
량원펑: 기술은 비밀이 아니라도, 그걸 재현하려면 시간과 비용이 듭니다. 엔비디아 GPU에 대단한 기술 비밀이 있어서가 아니라, 새 팀을 꾸려 따라잡기엔 시차가 있고, 또 그 사이 엔비디아는 다음 세대를 준비하기 때문에 실제로 큰 해자가 생기는 거죠.
「暗涌」: 이번에 DeepSeek이 가격을 내린 후, 바이트댄스가 발 빠르게 따라 한 것은 그들이 위협을 느꼈기 때문일 겁니다. 대기업과 스타트업이 경쟁하는 새로운 해법을 어떻게 보나요?
량원펑: 사실 저희는 그 문제에 신경을 많이 쓰지 않습니다. 저희 목표가 클라우드 서비스를 통해 이익을 내는 게 아니니까요. 우리의 목표는 AGI를 실현하는 것이며, 이번 가격 인하는 그 과정에서 ‘곁다리로’ 한 것입니다.
지금으로서는 새로운 해법이 눈에 띄지는 않습니다. 대기업들은 이미 사용자 기반을 갖고 있지만, 동시에 현금 흐름을 책임져야 하고 그것이 오히려 족쇄가 되어 언제든 뒤집힐 수 있다는 리스크가 있죠.
「暗涌」: DeepSeek 외에 다른 6개 대형 모델 스타트업들의 ‘최종 성적표’를 어떻게 전망하나요?
량원펑: 아마 2~3곳은 살아남을 겁니다. 아직은 다들 돈을 계속 태우는 단계죠. 그래서 자기定位가 분명하고, 정교한 운영 역량이 있는 회사만 살아남을 가능성이 높습니다. 그렇지 않은 곳들도 어쩌면 탈태환골(脱胎换骨, 완전히 새롭게 거듭남)할 수 있어요. 가치 있는 것은 사라지지 않겠지만, 다른 형태가 될 수 있죠.
「暗涌」: 환팡 시절부터 경쟁에 대한 태도는 늘 “마이웨이”였다고 평가받았습니다. 경쟁을 바라보는 근본적인 시각이 뭔가요?
량원펑: 저는 늘 “사회 전체의 효율을 높일 수 있는가, 그리고 그 가치사슬 속에서 내가 잘할 수 있는 자리를 찾을 수 있는가”를 생각합니다. 결과적으로 사회 효율이 높아지면, 그건 유의미하다고 봐요. 중간 과정에서 벌어지는 일들에 과도하게 매달리면 정신없어집니다.
“깊고 난해한 일을 하는” 젊은이들
「暗涌」: OpenAI 전 정책 총괄이자 Anthropic 공동 창업자인 잭 클라크가 “DeepSeek은 ‘심오하고 난해한 기재(奇才)’들을 고용했다”고 언급했습니다. DeepSeek V2를 만든 사람들은 어떤 분들인가요?
량원펑: 그렇게 ‘심오하고 난해한 천재’들이 아닙니다(웃음). 주로 톱급 대학 출신 신입사원, 박사 4~5년 차 실습생, 그리고 졸업한 지 몇 년 안 된 젊은이들이에요.
「暗涌」: 많은 대형 모델 회사들이 해외 인재를 적극 영입하는데, “이 분야 최상위 50명의 인재는 중국 회사에 거의 없을 것”이라는 인식이 있잖아요. 그런데 DeepSeek V2를 만든 팀은 전원 본토 출신이라고요?
량원펑: 네, 해외에서 돌아온 팀원은 없었어요. 물론 최상위 50명 중 상당수가 해외에 있을 수 있지만, 저희는 “우리가 직접 그런 인재를 키워낼 수도 있지 않을까”라고 생각합니다.
「暗涌」: MLA 혁신은 어떻게 탄생한 건가요? 들리는 얘기로는, 한 젊은 연구원이 개인적 흥미로 시작했다고 하던데요.
량원펑: 어텐션(Attention) 구조의 주류 변화 패턴들을 정리하던 중, 그는 대안을 설계해보고 싶다는 생각이 들었다고 해요. 하지만 아이디어가 실제로 구현되기까지는 꽤 오랜 시간이 걸렸습니다. 그 일을 위해 특별 팀을 꾸렸고, 몇 달간의 작업 끝에 결과를 냈어요.
「暗涌」: 이런 발산적 아이디어가 실현된 것은, ‘완전히 혁신 지향적인’ 여러분의 조직문화 덕분인 것 같습니다. 환팡 시절부터 상명하달식 과제 지시가 없었던 것으로 압니다. AGI 같은 불확실성이 큰 분야에서도 여전히 비슷한가요?
량원펑: DeepSeek에서도 전적으로 ‘아래에서 위로(自下而上)’ 방식입니다. 특정 목표나 과제를 미리 던져주지 않아요. 각자는 이미 자기만의 경험과 아이디어가 있어서 누가 등을 떠밀지 않아도 알아서 시도합니다. 그러다가 문제에 부딪히면 주변 사람을 불러 토론하죠. 그런데 어떤 아이디어가 가능성을 보이면, 그때는 위에서 아래로(自上而下) 자원을 투입합니다.
「暗涌」: DeepSeek은 GPU 리소스와 인력을 매우 유연하게 쓴다고 들었어요.
량원펑: 저희는 한 사람이 훈련 클러스터 GPU를 얼마나 쓸지 상한을 두지 않습니다. 아이디어만 있다면 누구나 승인 없이 카드(GPU)를 호출해 실험할 수 있어요. 또 조직에 계층이 없기 때문에, 필요한 사람이 있으면 누구든지 데려와 협업할 수 있습니다. 서로가 관심만 있다면 언제든 팀을 구성하죠.
「暗涌」: 그런 느슨한 방식이 작동하려면, 스스로 도전의식을 갖는 사람을 뽑아야 할 텐데요. 듣기로는 DeepSeek은 독특한 채용 방식을 쓴다고 하던데요. 일반적인 지표 외에 특이한 배경의 사람들도 많이 뽑는다고요.
량원펑: 저희가 사람을 볼 때 가장 중시하는 것은 ‘열정과 호기심’입니다. 그래서 흔히 말하는 ‘독특한 이력’을 가진 사람이 꽤 있어요. 돈보다는 연구 자체를 갈망하는 분들이죠.
「暗涌」: 트랜스포머(Transformer)가 구글 AI 랩에서 탄생했고, ChatGPT가 OpenAI에서 탄생했는데, 이렇게 대기업 AI 연구소가 혁신의 산실이 되곤 하잖아요. 창업 스타트업과 대기업 AI 랩이 만들어내는 혁신 가치는 뭐가 다를까요?
량원펑: 구글 랩, OpenAI, 그리고 중국 대기업 AI 랩도 모두 가치가 있습니다. 최종적으로 OpenAI가 ChatGPT를 만들어냈지만, 사실 거기엔 역사적 우연 요소가 있죠.
「暗涌」: 혁신은 어느 정도 우연이 작용한다는 뜻인가요? DeepSeek 사무실 중앙 회의실에 양옆으로 언제든 활짝 열 수 있는 문이 달려 있던데, 동료들 말로는 “우연을 위한 여유 공간”이라고 하더군요. 트랜스포머가 탄생하던 때도, 옆방을 지나다 끼어든 사람이 아이디어를 바꿨다는 얘기가 있잖아요.
량원펑: 혁신은 우선 ‘믿음’이 있어야 합니다. 왜 실리콘밸리가 혁신 정신이 강하냐고 하면, 그들은 일단 “해볼 만하다!”고 과감하게 나서죠. ChatGPT가 등장했을 당시, 중국은 투자자나 대기업 모두 격차가 너무 크다며, “어차피 힘드니 애플리케이션이나 만들자”는 분위기가 대부분이었습니다. 그런데 혁신을 하려면 먼저 자신감이 필요합니다. 이 자신감은 오히려 젊은 층에게서 더 많이 볼 수 있어요.
「暗涌」: 그래도 투자를 안 받고, 대외 홍보도 거의 안 하면, 소셜 미디어에서의 존재감은 상대적으로 약하겠죠. 대형 모델을 하려는 인재가 DeepSeek을 1순위로 택할까요?
량원펑: 저희는 “세상에서 제일 어려운 문제를 풀고 있다”고 자부합니다. 최고급 인재를 가장 끌어당기는 요인은, 세계에서 가장 어려운 문제를 해결해보려는 도전감입니다. 사실 중국에는 이런 ‘최고급 인재’가 꽤 많지만, 우리 사회 전반에 하드코어 혁신이 적으니 이들이 발굴되거나 주목받을 기회가 적었을 뿐이라고 생각합니다. 우리가 정말 어려운 문제에 도전하고 있으니, 그 자체가 큰 매력이 되죠.
「暗涌」: 얼마 전 OpenAI가 신제품을 내놨지만, GPT-5는 아니었습니다. 그래서 성장 곡선이 눈에 띄게 둔화되었다, 스케일링 법칙(Scaling Law)에 한계가 나타난다는 말이 나오는데요. 어떻게 보시나요?
량원펑: 저희는 오히려 낙관적인 편입니다. 업계 전반이 예측대로 가고 있다고 봅니다. OpenAI라고 해서 신이 아니니, 계속 선두에만 있을 수는 없겠죠.
「暗涌」: AGI는 언제쯤 가능하다고 예상하시나요? DeepSeek은 V2 발표 전, 코드 생성 및 수학 모델 등을 발표했고, Dense 모델에서 MoE 모델로도 전환했습니다. 그 과정을 보면 귀사 AGI 로드맵의 핵심 좌표는 뭔가요?
량원펑: 2년 후일 수도 있고, 5년 후나 10년 후일 수도 있습니다. 다만 우리가 살아 있는 동안에 실현될 거라고 봐요. 로드맵은 회사 내부에서도 통일된 의견이 없지만, 우선 세 가지 방향을 주목하고 있습니다. 첫째는 수학과 코드, 둘째는 멀티모달, 셋째는 자연언어 자체입니다. 수학과 코드는 AGI를 시험하기에 좋습니다. 바둑처럼 폐쇄적이고 검증 가능한 시스템이어서, 자가 학습을 통해 높은 수준의 지능 달성을 노려볼 수 있어요. 한편, 다중 모달로 인간의 현실 세계에 참여해 학습하는 것도 AGI 달성에 필수적일 수 있습니다. 우리는 모든 가능성에 열려 있습니다.
「暗涌」: 대형 모델의 ‘최종 상태’는 어떻게 될까요?
량원펑: 기초 모델과 기초 서비스를 전문적으로 제공하는 회사들이 있을 것이고, 그 위에 긴 가치사슬을 따라 다양한 수요를 충족하는 회사들이 나타날 겁니다.
“모든 ‘정해진 방식’은 이전 세대의 산물일 뿐이다”
「暗涌」: 지난 1년간 중국 대형 모델 스타트업 업계에도 많은 변화가 있었죠. 초창기에 활발히 나섰던 왕후이원(王慧文) 같은 인물도 중도 하차했고, 새로 뛰어든 회사들도 차별화를 시도하고 있습니다.
량원펑: 왕후이원은 자기 돈으로 모든 손실을 감당했죠. 다른 사람들은 온전히 보전해주고요. 스스로에게 가장 손해가 큰 선택을 했지만, 모두에게 도움이 되는 결정을 했어요. 굉장히 인품이 훌륭한 분이고, 저도 존경합니다.
「暗涌」: 요즘 가장 많은 에너지를 어디에 쏟고 계신가요?
량원펑: 차세대 대형 모델 연구가 대부분입니다. 아직 미해결 문제가 정말 많거든요.
「暗涌」: 다른 몇몇 대형 모델 스타트업들은 “기술 우위를 서둘러 애플리케이션에 적용해 시너지를 내야 한다”고 주장합니다. DeepSeek이 아직 모델 연구에만 집중하는 것은, 모델 역량이 충분하지 않기 때문인가요?
량원펑: “모든 ‘정해진 방식’은 이전 세대의 산물”이고, 미래에는 통할지 알 수 없습니다. 인터넷 시대의 사업 논리로 AI 시대의 수익 모델을 논한다면, 마치 마화텅(马化腾, 텐센트 창업자)이 처음 창업할 때 “제너럴 일렉트릭과 코카콜라의 사례를 가지고 미래를 예측”하는 것과 비슷하죠. 그건 일종의 ‘각주구검(刻舟求剑)’일 수 있습니다.
「暗涌」: 환팡은 강력한 기술·혁신 DNA를 바탕으로 꽤 순조롭게 성장한 편인데, 그 기억 때문에 낙관하시는 건가요?
량원펑: 환팡 시절의 경험은 기술 혁신으로 큰 성과를 낼 수 있다는 자신감을 심어줬습니다. 그러나 그 길이 꼭 평탄하기만 했던 건 아니에요. 환팡이 2015년 이후 모습을 드러냈지만, 사실 저희는 16년간 쌓아왔습니다.
「暗涌」: 다시 ‘원천적 혁신’ 주제로 돌아가면, 지금 경제가 내리막에 접어들고 자본 시장도 냉랭해졌습니다. 이것이 오히려 혁신을 더 억제하지 않을까요?
량원펑: 저는 꼭 그렇지는 않을 것 같아요. 중국 산업 구조가 바뀌려면, 결국 하드코어 기술 혁신이 더 중요해집니다. 과거에는 누구나 ‘쉽게 돈 버는’ 분위기가 있었는데, 실제로 그게 ‘시대적 운’에서 비롯되었음을 자각하게 된다면, 앞으로는 정말 무엇인가를 만들어내는 혁신에 더 매달리게 될 겁니다.
「暗涌」: 이 부분에서는 낙관적이시군요.
량원펑: 저는 80년대에 광둥성(广东) 5선 도시에서 자랐고, 아버지는 초등학교 교사였습니다. 90년대 광둥에는 돈 벌 기회가 넘쳤는데, 주변 학부모들이 제게 “공부해봐야 뭐하냐”며 무시하곤 했어요. 그런데 지금 돌아보면 상황이 달라졌습니다. 돈이 예전처럼 쉽게 벌리지도 않고, 택시를 몰 기회조차도 여의치 않다는 말을 하죠. 한 세대 만에 시각이 바뀐 겁니다.
앞으로 하드코어 혁신이 점점 많아질 거고, 지금은 잘 이해받지 못하더라도 실제 성공 사례가 나오면 사회 전체가 한 번 더 학습하게 됩니다. 결국 집단적 인식도 바뀔 겁니다. 저희는 그저 ‘사실(fact)’들과 그것을 만들 시간, 과정이 더 필요할 뿐이에요.
이미지 출처 | IC Photo |
편집·디자인 | 야오난(姚楠) |