본문 바로가기

IOT&AI

RAG [백기락의 PaiP]

반응형

#RAG

Retrieval-Augemented Generation

검색-증강 생성

#챗GPT 가 등장했을 때 #할루시네이션 은 재미있는 소재였습니다. 여러 가지 장난을 치거나, 새로운 할루시네이션을 찾아내려는 사용자들이 많았지요. 문제는, #생성형AI 를 만드는 입장에서 이게 굉장히 곤혹스러운 상황이라는 겁니다. 제품을 만들었는데, 엉뚱한 결과를 내는 걸 소비자들이 즐기고 있으니까요. 게다가 #ChatGPT 는 사용자의 사용 패턴도 학습을 일부 시키고 있었는데, 이대로 두면 점점 이상한 데이터를 학습해서 전체 품질이 낮아지는 상황이 올 수도 있었습니다. 실제로 #마이크로소프트#테이 라는 #AI 가 트위터 데이터를 바탕으로 학습한 후 공개했다가 사용자들의 이상한(?) 사용으로 인해 AI 서비스를 결국 폐기하기도 했었습니다.

챗GPT 등장에 엄청난 공헌(?)을 한 마이크로소프트는 놀라운 결정을 내리게 됩니다. 바로, 챗GPT를 가져오되 그대로 쓰지 않는 결정을 합니다. 아마도, 할루시네이션의 문제가 가장 컸다고 봅니다. 이 문제는 #구글 이나 #MS 같은 인공지능 빅테크 기업들이 생성형AI 서비스를 쉽게 내놓을 수 없는 이유이기도 했거든요. 그래서, 아주 영리하게도, #Bing 이라는 자사 검색 엔진에 챗GPT 기술을 붙입니다. 지금도 MS Bing의 결과물에 만족하지 못하는 사용자들이 많은데, 이유는 간단합니다. MS는 검색엔진과 챗GPT를 결합함으로써, 내용의 양은 줄어들지만, 정확성을 높이는 결정을 한 셈입니다.

RAG 기술은 바로 검색과 생성을 묶은 개념입니다. 사실 생성형AI 이전에 우리는 검색 서비스 속에서 살았습니다. 무언가를 찾고 답변을 얻으려면 검색 서비스가 거의 유일하면서도 가장 정확하고, 방대한 정보를 제공했거든요. 그리고 수많은 IT 종사자들도 좋은 웹사이트를 만들어 검색 결과를 높이려고 노력해왔구요. 덕분에 구글 같은 회사들이 등장했고, 양질의 웹사이트를 통해 정보에 쉽게 접근하는 시대가 열리게 되었습니다. 이런 검색 서비스에 생성형AI를 접목하게 되면, 학습 데이터에 대한 오류를 상당히 방지할 수 있고, 나름 최신의 데이터를 활용할 수 있게 되면서 매번 새로운 모델을 생성하는 - 한 번 생성된 모델은 기존의 데이터셋을 기준으로 하기 때문에 최신 데이터를 반영하려면 최신 데이터를 반영한 데이터셋으로 다시 학습을 시켜야 합니다 - 부담도 줄일 수 있게 되었습니다.

현재 #OpenAI 의 챗GPT, #Microsoft 의 Bing, Google의 #제미니 까지 모두 RAG 개념이 접목되어 있습니다. 다만, 챗GPT는 아직 기존의 방식을 주로 사용하고 있는 것 같구요, MS의 경우 Bing 자체의 경쟁력이 좋지 않다 보니 구글의 제미니에 밀리는 모양새입니다. 현재로는 RAG 개념을 가장 잘 구현한게 구글 제미니라고 볼 수 있습니다. 그럴 수 밖에 없는 것이, 원래 AI 기술을 잘 개발해 왔고, 이 기술을 검색 서비스에 잘 접목했고, 검색 서비스 시장의 대부분을 차지하던게 구글이었기 때문에 당연한 결과가 아닐까, 싶습니다. ^^

* 백기락의 PaiP = Personal AI, AI Partners 라는 개념을 담고 있고, 인간과 인공지능의 협력을 의미합니다.

반응형