열린라디오 YTN
  • 방송시간 : [토] 20:20~21:00 / [일] 23:20~24:00 (재방)
  • 진행 : 최휘/ PD: 신동진 / 작가: 성지혜

인터뷰전문보기

챗GPT에서 진화한 '멀티모달'이 가능케하는 새로운 세상
작성자 : ytnradio
날짜 : 2023-11-01 00:23  | 조회 : 468 

[열린라디오 YTN]
방송 : YTN 라디오 FM 94.5 (20:20~21:00)
방송일 : 20231028(토요일)
진행 : 최휘 아나운서
대담 : 김덕진 IT 커뮤니케이션 연구소장
 

* 아래 텍스트는 실제 방송 내용과 차이가 있을 수 있으니 보다 정확한 내용은 방송으로 확인하시기 바랍니다.

 

최휘 아나운서(이하 최휘)> 오늘 뉴미디어 트렌드는 it 분야로 만나봅니다. 김덕진 IT 커뮤니케이션 연구소장님 전화 연결돼 있습니다. 소장님 안녕하세요.

 

김덕진 소장(이하 김덕진)> 네 안녕하세요. 반갑습니다. 김덕진입니다.

 

최휘> 네 오랜만입니다. 지난번에 저희가 생성형 AI에 대해서 들어봤잖아요. 요약을 해보면 다 해준다라는 거였거든요. 그림도 그려주고 음악도 만들어주는데 이번에 이게 한 번 더 진화를 해서 멀티 모델이 나왔더라고요. 일단 구체적인 이야기 들어가기 전에 챗GPT가 나온 지 1년 정도 됐는데 긴 시간이 아닌데도 그동안 세상이 참 많이 바뀐 것 같아요어떤가요?

 

김덕진> 네 맞습니다. 일단은 아마 주식 투자하시는 분들이라면 다 아실 텐데 미국의 거의 대부분의 상위 기업들 빅테크 기업들 중에 이런 생성형 AI를 안 하는 회사가 없다라고 얘기할 정도로 많은 기업들이 활용하고 있는 상황이고요. 우리나라에서도 좀 극단적으로 말씀드리면 다른 스타트업들은 거의 투자가 끊기고 있는데 이런 생성용 AI AI 업무를 하는 곳들은 전히 투자가 이어지고 있다라고 말씀드릴 수 있을 것 같아요. 어떻게 보면 좀 과하다 싶을 정도의 움직임으로 수많은 투자가 일어나다 보니까 이것에 대해서 타임즈 같은 경우에는 AI 군비 경쟁이다. 그러니까 정말 전쟁 때 이게 어떻게 될지 모르고 일단은 투자하는 것 같다라는 이야기를 하고는 있어요. 하지만 이제 그럼에도 불구하고 이 안에서 그만큼 새로운 어떤 가치나 아니면 새로운 변화를 기대하는 사람들이 많다는 것이고 또 여기서 중요한 부분이 생성형 AI가 저작권에 대해서 여러 가지 문제들이 있었단 말이에요. 그런데 최근에 어도비도 그렇고 여러 게티 이미지도 그렇고 본인들이 저작권을 가지고 있는 회사들이 직접 생성형 AI를 활용한 서비스들을 만들고 있습니다.

 

최휘> 그럼 저작권 문제에서 좀 자유롭겠어요.

 

김덕진> 그렇죠 그렇게 되니까 이제 실제로 포토샵 같은 데서 생성형 AI를 상용으로 쓸 수 있는 시대가 된 거거든요. 그러니까 우리가 이제 1년 동안은 이것저것 테스트해보고 될까 안 될까 혹은 이게 어디까지 활용될까라고 봤다고 치면 2024년 내년에는 본격적으로 우리의 어떠한 업무나 다양한 곳에 생성형 AI가 스며들고 더 이상 챗GPT라는 단어뿐만 아니라 다양한 형태의 서비스들을 볼 수 있을 것이다. 그런 것들이 계속 진화할 것이기 때문에 또 어떤 것들이 우리를 놀라게 할지 지켜봐야 된다라고 말씀드릴 수 있을 것 같습니다.

 

최휘> 일단 가장 최근에 나온 거는 멀티 모달, 대형 멀티 모달 LMM이라고 하던데 이름이 너무 어렵습니다. 이게 어떤 거예요?

 

김덕진> 저도 솔직히 발음하기 어려워요. 대규모 멀티 모달 LMM인데 일단 이게 왜 나왔는지를 이해하기 위해서는 그전인 LLM에 대해서 얘기를 해야 됩니다. 이게 뭐냐면 라지 랭귀지 모달이에요. 엄청 큰 언어 모달이라는 겁니다. 우리가 보통 챗GPT를 얘기할 때 이 LLM이라고 얘기하는 대규모 언어 모달 얘기를 하거든요. 왜냐하면 챗GPT를 그냥 아주 쉽게 설명하면 수많은 인터넷에 있는 텍스트 데이터 그러니까 글자 데이터죠. 우리가 대화하는 SNS 데이터든 오픈되어 있는 여러 가지 데이터를 학습을 시킨 다음에 그걸 갖고 얘한테 뭔가를 물어봤을 때 얘가 뭔가 단어 이어쓰기처럼 뭔가 대답을 계속 이어서 하는 이런 거라고 아주 극단적으로 쉽게 설명을 말씀드릴 수 있을 것 같은데요. 근데 이거 같은 경우는 말씀드린 대로 텍스트 언어잖아요. 근데 이제 언어가 아니라 멀티 모달 그러니까는 다양한 형태의 대규모 멀티 모달 데이터를 학습했다라고 보시면 됩니다. 그럼 또 멀티 모달이 뭐냐라고 이제 물어보실 수 있을 것 같은데 이 멀티 모달이라는 말은 원래 이 방송 기술이나 미디어 이론에서 쓰던 말이에요. 그러니까 멀티라는 게 다채로운이라는 뜻이죠. 모달이라고 하는 건 모달리티 그러니까 양식, 양상을 말합니다. 그러니까 다채로운 양상 다채로운 양식이라는 게 뭐냐면 뭔가 단순히 글자뿐만 아니라 시각이나 청각을 비롯한 여러 가지 양식을 통해서 정보를 주고받는다는 거예요. 그러니까 쉽게 설명드리면 글자뿐만 아니라 그림이나 음성이나 영상 이런 것들을 갖고 커뮤니케이션을 한다라는 건데요. 생각을 해보면 우리가 책을 읽을 때도 책에 글자도 있고 그림도 있다라고 했을 때 이걸 따로따로 읽고 공부하지 않잖아요.

 

최휘> 같이 보죠 .

 

김덕진> 그렇죠? 근데 지금까지 AI는 이걸 따로 학습을 시켰었던 겁니다. 왜냐하면 이 성능이 안 좋을 거라고 생각하고 또 수많은 데이터를 줬을 때 당연히 하나씩 주면 똑똑하겠지라고 생각을 했는데 여기에 말씀드린 대규모라는 게 붙잖아요. 이게 엄청 크게 데이터를 만들고 그다음에 거기에서 수많은 클라우드에 있는 자원들을 넣다 보니까 마치 사람이 그냥 여러가지 책을 한 번에 그림하고 글자를 읽었을 때 글자를 얘기하면 그림에 대한 설명을 하기도 하고 또 반대로 그림을 주면 이게 어디 책에 몇 페이지에 있지라고 하는 걸 떠올리는 것처럼 AI도 이제 그렇게 되기 시작을 했다는 거예요. 그래가지고 제가 그림이나 글자나 혹은 음성까지도 한 번에 있는 데이터를 줘가지고 그 데이터를 가지고 학습을 시켰더니 얘가 정말 왜 그런지 모르겠지만 사람처럼 뭔가 대화를 조금 더 구체적으로 우리에게 다양한 형태로 하기 시작했다. 그리고 이런 것들을 이제 좀 보여준 게 지난 925일부터 공개된 GPT 4V라고 하는 비전으로 하는 이런 것들이 이제 나온 것이죠.

 

최휘> GPT4 비전 그러니까 그 이전에는 언어를 학습해서 텍스트로 글로 답을 냈다면 이제는 영상, 그림, 음성까지 학습을 해서 해석하고 답을 내준다는 거군요.

 

김덕진> 네네 맞습니다. 그중에서 특히 지금 나온 4V는 아직까지 영상까지는 아니고 이미지 속에 있는 것들을 읽어내는 것들이 있고요. 또 한 가지는 음성을 통해서 우리가 이제 챗 GPT랑 대화할 수 있는 이런 기능이 두 가지 추가됐다. 이렇게 말씀드릴 수 있을것 같습니다.

 

최휘> 네 그러면 만약에 엑스레이나 CT사진을 딱 보여주면 어디가 골절되고 질병이 어디에 있는지도 답을 내려줄 수 있나요?

 

김덕진> 실제로 이제 마이크로소프트에서 929일에 논문을 냈어요. 그래서 이걸 갖고 뭘 할 수 있는지 해서 정말 두꺼운 여러 가지 사례들을 보여줬는데요. 간단하게 이미지를 해석하는 것 또 스도쿠 같은 게임을 추리하는 것들도 보여줬지만 말씀 주신 것처럼 저도 가장 인상 깊었던 것 중에 하나가 엑스레이 이미지 같은 걸 보고 골절 부위를 지목을 하는 거예요예를 들면 이런 겁니다. 이제 제가 어떠한 엑스레이 사진, 다리 부러진 사진 같은 거나 아니면 이런 걸 하나 주고 제가 약간 실금 간 거 같은 데다가 핸드폰으로 이렇게 화살표 체크를 해요. 그다음에 이게 뭐가 잘못됐어요라고 얘기를 하면 GPT 4, GPT가 이 이미지를 보고 뭐라고 얘기를 하냐면 다섯 번째 중족골 예를 들면 발 바깥쪽의 뼈, 새끼 발가락과 연결되는 뼈에 골절 또는 골절이 있는 것 같습니다라고 얘기를 해요. 그리고 그것뿐만 아니라 새끼 발가락과 연결되는 발 바깥쪽을 부러지는 거를 일반적으로 존스 골절이라고 한다라고 하는 정말 솔직히 말씀드리면 저희가 병원을 가도 한 번도 듣지 못했었던 이러한 이야기들까지 해주기도 하고요. 심지어 CT 촬영된 영상을 올렸더니 그걸 보고 이게 지금 봤더니 양쪽 폐에 여러 부위의 불투명도 같은 게 보이는데 그런 것들은 폐 감염을 통해서 얘기할 폐감염에 대한 이야기다. 이렇게 하면서 예를 들면 우측 상엽에 덩어리 또는 결절이 있을 수 있다. 추가적으로 정확한 진단을 내리려면 평가나 임상적 상관관계가 필요하다뭐 이런 정도까지 얘기를 해 줍니다. 우리가 전문가들의 영역이라고 하는 것들을 얘가 기본적으로 어느 정도 해석을 해줄 수 있다라는 것들이 좀 놀라움을 주고 있구요. 물론 그럼에도 불구하고 병원은 가야겠죠. 그런데 이제 어떻게 보면 이제 의사 선생님들이 이런 걸 활용을 하면 조금 더 전문적일 수 있거나 혹은 막연한 두려움이 있는 환자들이 이런 걸 통해서 한 번 더 데이터를 볼 수 있는 이런 것들이 좀 놀라움을 줄 수 있는 것이죠.

 

최휘> 이전부터 그 정확도 그리고 팩트에 대한 어떤 논란이 있었는데 이거를 그냥 참고하는 정도로만 저희가 사용을 하는 게 좋겠죠?

 

김덕진> 네 맞습니다. 그리고 참고하는 정도로 사용하는 게 좋고 더 중요한 것은 제가 볼 때는 이런 것들을 특히 예를 들면 의사 선생님들 의료 전문가들이 활용을 했을 때 이게 아주 강력한 파워를 낼 수 있다고 생각을 해요. 예를 들면 제가 실제로 쓰고 있는 사례인데 얘가 그런 이미지만 읽을 수 있는 게 아니라 GPT 4가 예를 들면 우리가 경제신문 같은 데 그래프 같은 거 나오잖아요. 그런 그래프가 상당히 복잡하고 제가 잘 모르는 것들이 있을 수 있어요.
그래서 제가 이제 실제로 어떤 신문에 나온 그래프를 이미지로 읽는 걸 이 GPT 4 V에 올려서 그래프를 분석해달라고 했습니다. 그랬는데 이게 지금 어떤 식이었냐면 한글로 쓰여 있는 내용이 있고 그다음에 그래프가 있는데 좀 그래프가 복잡하게 돼 있었어요. 그래서 녹색바와 파란색 바가 섞여 있는데 그것에 대해서 얘가 녹색바가 뭔지 파란색 바가 뭔지까지는 처음에 인지를 못했습니다. 그런데 이제 녹색바가 상승하고 파란색 바가 줄어드는 걸 봤을 때 녹색 바가 이러이러한 이유들로 최근에 몇 퍼센트 증가했고 예를 들면 파란색 바는 이렇게 좀 하락하는 추이입니다까지 얘기를 해줬어요. 그럼 거기에다가 제가 한 번 더 얘한테 알려주는 거예요. 실은 니가 얘기한 녹색 반은 예를 들면 무선전화 평균 사용 시간이고 그다음에 파란색 바는 유선전화 평균 사용 시간이다. 니가 이제 얘기한 것 중에 2022년에 데이터가 끝나지 않은 거라고 추정을 했는데 이거 데이터 끝난 거야 이걸 갖고 다시 해석해줘라고 했더니 정말로 어느 정도 신입사원 이상으로 아주 보고서를 잘 정리해서 주더라고요.


 

최휘> 그렇군요.

 

김덕진> 그러니까 그런 식으로 어떻게 보면 기술을 그냥 쓰는 게 아니라 응용해서 썼을 때 그리고 내가 이것에 대해서 조금 더 쓸 수 있는 것들을 아이디어를 냈을 때 상당히 강력해질 수 있다. 이렇게 말씀드릴 수 있을 것 같습니다.

 

최휘> 이미지나 그래프 표를 봤을 때 한 번에 이해가 안 되는 경우가 많은데 이럴 때에도 활용을 하면 참 좋을 것 같다라는 생각이 드네요.

 

김덕진> 네 맞습니다.

 

최휘>이거 누구나 사용할 수 있나요 무료인가요?

 

김덕진> 지금 GPT 4V같은 경우에는 GPT 4 유료 사용자들에게 쓸 수 있죠. 지금 GPT를 쓰는 게 한 한 달에 한 22달러 정도거든요 그럼 이게 한 3만 원 정도 내외인데 그 정도 가격에 이 정도 쓸 수 있다고 그러면 저 개인적으로 상당히 강력하다고 생각을 하는데 그렇다고 무제한으로 쓸 수는 없어요. 시간당 이런 대화에 대한 조절을 주고 예를 들면 3시간에 한 25번까지만 쓸 수 있다가 지금은 50번까지 늘려주기도 했는데 이런 것들은 좀 조절이 되고요. 개인 입장에서는 이렇게 쓸 수 있지만 기업 입장에서 이걸 활용한다고 하면 API 기반으로 해서 비즈니스를 만들어야 되거든요. 그거 같은 경우는 이제 쓰는 것만큼 돈을 내야 되다 보니까 상당히 좀 비용이 크게 들 수도 있는 것이죠. 그래서 그런 부분에서 기업에서 뭔가 서비스를 만들 때 이거를 이제 어떤 식으로 이 비즈니스 모델을 만들 것인가에 대해서 좀 고민이 시작된다라고 말씀드릴 수 있을 것 같습니다..

 

최휘> GPT 4 비전 무료 버전에서는 그러면은 텍스트로만 할 수 있는 거예요? 이미지는 못 읽고?

 

김덕진> 아 말씀드린 것처럼 이 비전 자체가 4V, 4 버전에서만 가능한 건데 기본적으로 GPT 4가 다 유료입니다. 그렇기 때문에 이제 일반 무료 사용자는 이 기능 자체가 활성화가 안 돼 있고요. 유료로 사용했을 때 이 기능하고 음성인식 기능이 이제 어떻게 보면 추가됐다라고 표현드리는 게 정확할 것 같습니다.

 

최휘> 알겠습니다. 소장님이 음성을 하나 들려주신다고 했는데 어떤 건지 한번 듣고 이야기를 이어갈게요.



GPT 4V> 안녕하세요. 저는 김덕진 교수입니다. 오늘은 제 아바타인 딕션 킴 교수가 저 대신 발표를 하고 있습니다. 인공지능은 빠르게 우리 생활에 스며들고 있습니다. 인간과 AI는 공존할 수 있을까요? 아니면 AI가 인간을 대체하게 될까요? 미래는 시작되었습니다.


 

최휘> 교수님 목소리인데 감정이 빠진 것 같거든요. 감정 없이 이야기하신 것 같아요.

 

김덕진> 보시면 제가 아니고 아까 나온 것처럼 딕션 킴 교수라는 AI가 말한 겁니다.

 

최휘> AI가 한 거예요?

 

김덕진> . 제가 한 게 아니고 AI가 말한 거예요.

 

최휘> 이거 어떻게 한 거예요?

 

김덕진> 요즘에 이런 서비스들이 되게 많이 있는데 아까 말씀드린 대로 이게 멀티 모델이 어디까지 되는지를 보여주는 것 중에 하나거든요. 헤이젤이라고 하는 해외 스타트업이 만든 서비스가 있습니다. 거기에다가 제가 30분 정도 그러니까 30분이 아니죠 그 2분 정도짜리에 아무 말을 하는 영상을 제가 스마트폰으로 하나 찍어요. 그다음에 그거를 이 서비스에다가 올립니다. 올리고 나서 얘가 30분 정도 렌더링을 하게 되면 그다음부터는 제가 텍스트를 제공하면 AI가 목소리도 읽어주는데 실은 라디오라서 못 보여드리지만 얘가 단순히 목소리만 읽어주는 게 아니라 제 얼굴의 입모양하고 표정하고 제스처까지 똑같이 맞춰줘요. 이렇게 하는데 한 30분 정도 렌더링한 다음에 이렇게 그냥 글자로 제가 넣게 되면 한 1~2분이면 이런 영상이 하나씩 뚝딱 만들어집니다.

 

최휘> 영어 버전도 있다던데 지금 바로 들어볼게요.

 

GPT 4V> Hello. I’m professor Diction Kim. Today my avatar, professor Diction Kim is presenting on my behalf, artificial intelligence is rapidly infiltrating our lives. Can humans and AI coexist? Or will AI replace human? The future has begun.

 

최휘> 교수님 영어도 잘하시네요. 뭐라고 하신 거예요? 해석 좀 해주세요.

 

김덕진> 아까 얘기했던 한국어랑 똑같은데요 솔직히 저도 이거 무슨 말인지 잘 모르겠는 게 그냥 한국어를 제가 이제 번역기로 돌린 다음에 제가 말한 예를 들면 제가 이제 미래가 시작됐고 또 AI와 인간이 공존할 수 있을 제 책 얘기도 하고 막 이렇게 한 다음에 그걸 번역기로 돌려가지고 그거를 그냥 이 아까 그 서비스에다가 영어를 그냥 올린 겁니다. 그랬더니 또 한 2분 안에 이렇게 목소리 톤하고 그다음에 얼굴 표정하고 제스처까지 하는 AI가 나왔고요. 실은 이제 제가 이거를 영어만 해본 게 아니라 불어도 해보고 일본어도 해보고 중국어도 해보고 심지어 제가 인도네시아어까지 해봤는데 저는 그런 언어 하나도 못 하거든요. 그런데 제가 보면서 내가 일본어를 하면 저런 표정과 저런 목소리와 저런 걸 내겠구나라고 거꾸로 제가 신기해서 계속 볼 정도로 이 AI의 발전이 정말 빠르구나라는 걸 저도 요즘 많이 느끼는 것 같기도 합니다.

 

최휘> 이제는 앞으로 외국어를 잘 하지 못해도 프레젠테이션 준비가 어느 정도 가능할 것 같아요. 이야기 더 나누고 싶은데 시간이 부족해서 여기서 마무리하겠습니다. 감사합니다.

 

김덕진> 네 감사합니다.

 

최휘> 지금까지 김덕진 IT 커뮤니케이션 연구소장이었습니다.



[저작권자(c) YTN radio 무단전재, 재배포 및 AI 데이터 활용 금지]
목록
  • 이시간 편성정보
  • 편성표보기
말벗서비스

YTN

앱소개