2023년은 인공 지능의 시간이었다 해도 과언이 아닐 것이다. 작년 11월, ChatGPT가 발표된 뒤로 수많은 인공 지능 프로그램이 쏟아져 나왔고, 지난주에는 구글이 제미니(Gemini)라는 인공 지능 시스템을 발표하면서 인공 지능 시장에 숟가락을 얹었다. 제미니는 별자리 중 하나인 쌍둥이자리를 뜻하기도 하는데, 지능을 가진 인류의 쌍둥이를 만드는 우리의 현주소를 상징적으로 보여주는 듯하다.
현재 유행하는 인공 지능의 기본 아이디어인 인공 신경망과 딥러닝은 세상에 나온 지 수십 년이 지났다. 그런데 왜 이제야 주목할 만한 결과물이 나오는 걸까? 답은 ‘엔비디아’와 ‘인터넷’으로 요약할 수 있다.
딥러닝(deep learning)이라는 용어에서 추측할 수 있듯이 인공 지능은 학습 과정을 거쳐야 완성된다. 단순화시켜 설명하자면, 우선 인공 지능에게 어마어마한 양의 입력값과 출력값을 알려주고 그사이의 확률적인 상관관계를 알아내게 한다. 예컨대 영어에서 상대방을 뜻하는 you 다음에는 are 또는 were가 나올 확률이 높지만, am이나 was는 나올 확률이 낮다. 학습된 인공 지능은 새로 들어온 입력값에 학습된 확률 모델을 적용해 출력값을 만들어 낸다.
단순히 확률 모델이라고 불렀지만, 이것은 매우 복잡한 인공 신경망 속에 녹아있는 소프트웨어 구조다. 두뇌에 있는 신경 전달 세포인 뉴런과 그 연결 관계인 시냅스는 거대한 신경망을 형성하는데, 학습량이 늘면 신경망이 발달한다. 기억과 지적 능력의 향상이 바로 이 신경망의 발달로 가능해진다. 인공 신경망은 두뇌 신경망을 컴퓨터 프로그램으로 모방해 놓은 것이다.
인공 신경망을 학습시키는 데는 크게 두 가지의 비싼 자원이 필요하다. 하나는 계산을 위한 하드웨어이고 하나는 학습에 사용될 자료다. 계산은 반도체 업체인 엔비디아의 제품이 시장을 이끌고 있고, 인공 지능 학습에 필요한 자료는 인터넷에 가득하다.
엔비디아는 인공 지능 개발을 위한 반도체 생산을 거의 독점하다시피 하고 있다. 엔비디아는 컴퓨터 그래픽 카드를 만드는 회사다. 컴퓨터 화면이 화려해지면서 점점 더 많은 화소 수가 사용되고 있는데, 수많은 화소에 각각 알맞은 색깔을 계산하여 뿌려주려면 이 일을 전담하는 컴퓨터 부품이 필요하다. 이것이 바로 그래픽 카드인데, 좀 더 구체적으로는 GPU라 불리는 반도체다. GPU가 담당하는 연산의 특징은 병렬 계산이다.
병렬 계산의 핵심은 복잡한 연산 작업을 여러 개의 작은 단계로 나누고, 이를 단순 계산을 빨리하는 수많은 반도체가 동시해 수행하게 하는 것이다. 물론 모든 연산 작업이 병렬 계산으로 되는 것은 아니다. 두 번째 작업이 첫 번째 작업의 결과물을 이용하는 경우라면 첫 작업이 끝날 때까지 기다려야 한다. 인공 지능의 시대가 오면서 엔비디아의 사업 성과는 눈에 띄게 성장하고 있다. 인공 지능을 학습시키는 과정에 어마어마한 양의 병렬 계산이 필요하기 때문이다.
재미있는 것은 인공 지능 시대 이전에도 그래픽 카드의 성능을 계속 끌어올려야 했던 이유는 화려한 그래픽을 필요로 하는 컴퓨터 게임 때문이었다는 점이다. 전통적인 시각에서 컴퓨터 게임은 일종의 놀이 영역에 국한된 활동이지만, 결국 게임 산업이 반도체 산업에 기여했고, 결과적으로 인공 지능의 역사에서 나름의 역할을 한 셈이다.
아무리 반도체의 계산 능력이 뛰어나도 인공 지능을 학습시킬 자료가 없었다면 지금의 인공 지능 열풍은 불가능했을 것이다. 90년대 중반부터 전 세계는 인터넷이라는 공간에 엄청난 양의 데이터를 쏟아붓고 있다.
필자가 중학생이던 시절, 컴퓨터 전시회를 구경한 적이 있다. 전시회 구석에서 어떤 사람이 컴퓨터에 영어 사전을 입력해 넣고 있었다. 지금은 전자 출판의 형태로 대부분의 책이 만들어지지만, 그때는 아날로그 방식으로 책을 프린트하던 시절이었기 때문에 책으로 된 영어 사전을 컴퓨터에서 사용하려면 손으로 타이핑해서 옮겨야 했다. 이제는 많은 것이 바뀌었다. 지금, 이 칼럼도 컴퓨터를 이용해 디지털 데이터 형태로 만들고 있으며, 신문사 홈페이지에 게시되어 인터넷 자료로 남게 될 것이다.
온 세계가 이런 식으로 인터넷에 디지털 형태의 문자 데이터를 축적한 지 30여 년이 지났다. ChatGPT 개발에 사용된 단어 수가 3,000억 개에 달하고 용량이 570GB라고 한다. 스마트폰으로 찍은 사진이나 동영상을 모으다 보면 570GB는 그리 크지 않게 느껴질 수도 있으나 문자 자료로는 엄청난 양이다. 책 한 권에 약 10만 단어 정도 들어가니 약 300만 권의 책을 ChatGPT의 학습 자료로 사용했다는 말이다. 만약 인터넷이 아니었다면, 혹은 프린트된 책으로만 자료가 존재했다면 ChatGPT는 세상에 나오지 못했을 것이다.
다른 과학 기술과 달리 인공 지능은 많은 두려움도 동시에 일으킨다. 미국 할리우드 작가들이 영화 시나리오 작업에서 인공 지능의 사용을 막아달라며 파업을 일으켰다. 또 인공 지능이 만든 그림과 사람이 그린 그림을 우리는 구별할 수 없다. 오히려 인공 지능의 그림이 미술전에서 1등을 하기도 한다. 그럼에도 불구하고 미래의 인류는 인공 지능과 공존해야 할 것이다. 이 이야기는 다음 칼럼에서 이어나가도록 하자.