인공지능(AI) 스피커가 다 알아서 해준다고?
[아시아엔=이원섭 마컴 큐레이터] 오래 전 필자는 컴퓨터잡지(월간 <컴퓨터비전>, 마이크로소프트웨어) 기자를 하고 있을 때 인공지능(AI, Artificial Intelligence)이라는 말을 처음 들었다. 당시 국내는 세운상가 등에서 조립으로 8비트 컴퓨터를 만들 시절이었으니 이 무슨 황당하고 해괴한 소리인가 했다.
컴퓨터가 사람의 말을 알아듣고 반응(?)을 한다는 것이 말도 안 된다고 생각했다. 더군다나 사람마다 억양이 다르고 사투리도 있고 제각각인데 어떻게 그걸 다 알아듣고 처리한다는 것인가? 그래서인지 초기라 인식률과 처리 분량도 많지 않은 그냥 테스트 기술 수준이었다.
재작년 SK에서 인공지능 스피커 ‘누구’를 출시하고 출시 기념으로 할인해 판매하기 시작해 음성인식 인공지능에 대해 다시 관심을 갖기 시작했다. 글쓴이는 2017년 초 ‘누구’를 접하고 사용하면서 놀랐지만 이때도 ‘비록 30년의 시간이 흘렀어도 뭐 대단하겠어?’ 했다. 인공지능 스피커를 켜고 “아리야! 오늘 날씨가 어때?” 라고 물으니 바로 오늘 날씨를 알려주고 “아침에 어울리는 음악을 틀어줘!” 라고 하면 알아서 음악을 들려주니 내가 요청(request)하는 사항에 바로 응대한다는 것이 놀라웠다.
하지만 처음에는 신기하고 재미도 있어서 사용했지만 계속 쓰다 보니 에러도 있고 일정 수준 이상의 기대치는 충족을 못해 그냥 방치하고 있었다.
이후 1년여 잊고 있었는데 지금 우리는 바야흐로 인공지능 스피커 소리에 귀를 기울이지 않으면 안 되는 상황을 맞고 있다. SK, KT 같은 통신 사업자는 물론이고 네이버 같은 포털, 카카오톡 같은 플랫폼들도 앞다투어 인공지능 스피커를 출시하며 시장경쟁에 뛰어 들고 있다. 인공지능 스피커의 등장으로 커뮤니케이션 인터페이스의 새로운 변화의 장이 열리고 있는 중이다.
최초에는 인간과 컴퓨터 인터페이스가 텍스트 기반이었다. 이후 그래픽으로 발전하고 이제는 사람과 같이 대화를 하는 음성 인터페이스 방식으로 진화한 것이다. 일일이 자판을 두드리며 하던 일을 그래픽 기반 인터페이스(GUI)의 아이콘을 마우스로 클릭만으로 하는 것도 편리하고 신기했는데 이제는 말로 하는 음성인식인터페이스(VUI, Voice User Interface) 시대로 변한 것이다.
GUI가 컴퓨터 사용 발전의 한 획을 그었다면 VUI는 스마트 세상을 여는 역사적 획을 그을 것이다. VUI는 AI로 연결되는 디지털 스마트 세상을 여는 열쇠가 될 것이기 때문이다.
인공지능스피커(artificial intelligence speaker)는 단지 소리만을 재생해 주는 일반 스피커와는 달리 사람의 음성을 인지해 화자(speaker)가 원하는 각종 정보를 인공지능 스피커(receiver)가 제공해 줄 뿐만 아니라 음악감상 등 오락 기능도 제공해 준다. 최근에는 상품을 주문하고 결재하는 전자 상거래 기능까지도 구현해 주고 있다. 현재 주 고객층은 얼리어답터 층이 많은 20~30대이지만 점점 고연령 층으로 확산되고 있다. 우스개 소리로 대화할 상대가 없는 혼자 사는 노인층에서 하루 종일 인공지능 스피커와 대화하고 음악을 틀어 달라는 등 의외의 용도로 재미있는 사용이 늘고 있다고 한다.
인공지능 스피커는 인공지능 기술의 비약적 발전으로 더 많이 출시되고 더 많이 활용될 것이 분명하다. 인공지능 스피커는 대화의 의도와 패턴을 인공지능이 학습해 필요한 데이터가 많을수록 더 현명해지고 지능화하는 시스템이다. 따라서 더 많은 데이터를 수집하고 딥러닝(deep learning, 심층학습)을 할수록 인간과 가까운 대화가 가능해진다. 이 진화 속도가 점점 빨라지고 있으니 만족도와 보급률은 이에 비례해 늘어날 수밖에 없는 것이다.
인공지능 스피커 발전 속도가 빠를 수밖에 없는 이면에는 또 다른 이유가 숨어있다. 음성을 인식하는 인공지능의 주 입출력 장치는 마이크와 스피커인데 이같은 장치가 사용자의 데이터 수집 면에서 스마트폰이나 TV보다 효율적이어서 딥러닝과 빅데이터 마케팅에 월등히 유용한 커뮤니케이션이 툴이 됨은 말할 것도 없다. 즉 스마트폰 등의 스마트기기는 사용자가 음성기능을 활성화한 후에야 음성 데이터를 녹음하고 처리할 수 있지만 인공지능 스피커는 항상 음성데이터를 녹음하고 클라우드에 저장이 즉시 가능해 여간 소중한 데이터가 아니다. 기업 입장에서 보면 소비자 관련 빅데이터의 보고라고 할 수도 있다.
이뿐만이 아니다. 음성인식 서비스는 명령수행 능력이 우수하고 텍스트 입력방식은 1분에 40여 단어의 기록이 가능하지만 음성은 150단어 정도를 기록할 수 있다. 같은 시간 안에 더 많은 데이터들을 처리하고 저장한다는 의미에서 소비자들에게는 매우 매력적이다.
인공지능 스피커가 할 수 있는 능력을 보자. 가장 많이 사용하고 원하는 음악을 들려줄 뿐만 아니라 그동안 학습된 사용자의 특성에 맞게 좋은 음악을 추천해 주기까지 한다. 즉 내가 멘델스존의 음악을 자주 들으면 그 작곡가의 다른 음악을 들으라고 추천도 해준다는 뜻이다. 또 잊기 쉬운 약속시간, 기상시간 등을 알려주는 알람과 타이머 기능도 있다. 뉴스와 날씨 등 주요 일상정보도 제공해 주고 일정과 메모 기능, 환율, 운세, 주식 등도 알려준다. 요즘은 한발 더 발전해 쇼핑몰 기능도 있어 말로 내가 원하는 상품을 주문할 수도 있다.
이런 스마트기기의 기술발전과 서비스환경 변화는 당연히 마케팅 커뮤니케이션 분야에서도 변화를 가져온다. 커뮤니케이션 채널의 변화로 인해 마케팅의 본질이 바뀌고 있다. 아날로그 산업시대의 공급자 위주에서 만들어졌던 1960년대 4P(Product, Price, Place, Promotion)가 디지털정보사회로 바뀌면서 시장의 주도권이 사용자들에게 넘어가 4C(Customer, Cost, Convenience, Communication) 시대를 맞아 사용자의 요구(request)를 얼마나 잘 맞출 수 있느냐에 따라 기업의 흥망성쇠가 좌우된다.
1920년대 미국의 경제학자 롤렌드 홀(Rolland Hall)이 제창한 소비자 심리적 단계 행동모델 AIDMA를 보자. 이에 따르면 구매는 주목(attention)→흥미(interest)→욕구(desire)→기억(memory)→행동(action)의 순서로 이루어진다고 한다. 커뮤니케이션 채널이 인터넷과 스마트폰 등으로 진화하면서 소비자는 더 이상 기업이 일방적으로 주려는 메시지에만 의존하지 않게 된다. 이에 2005년 일본 유명 광고대행사 덴츠는 AISAS라는 새로운 구매행동이론을 내놓았다.
이에 따르면 소비는 Attention→Interest→Search→Action→Share의 단계로 이루어지는데 이전 이론과 다른 것은 소비자간의 커뮤니케이션 발달로 이전 소비자들의 정보를 검색하고 또 자신의 경험을 공유하는 적극적인 소비자로 변화한 것이다. 그래서 이제 공급자가 일방적으로 공급하던 제품과 메시지를 수용하던 단순한 행동에서 진화해 소비자의 경험과 불만들의 표현이 가능해 졌고 기업들은 이 의견을 반영해 소비자가 곧 생산 의견에 참여할 수 있게 되는 구조로 바뀐다. 그래서 生費者(prosumer)라는 새로운 개념도 등장하게 되었다.
커뮤니케이션 채널의 변화는 이처럼 시장구조와 기업생산활동에도 영향을 미치는 중요요소로 작용하게 된다. 지금의 소비자들은 시간(Time), 장소(Place), 상황(Occasion)에 제약을 받지 않고 그들의 콘텐츠를 나누는 적극적인 행동을 한다. AIDMA가 개인의 소비 관계라면 AISAS는 네트워크의 소비 관계로 확장된 것이다. 이런 소비자의 변화에 따라 기업도 소비자의 검색과 공유라는 컨셉에 맞추어 마케팅 커뮤니케이션 활동도 변화한다.
그런데 또 다시 커뮤니케이션 채널이 음성인식 인공지능 시대로 바뀌면서 AIRAS라는 개념으로 진화한다. 주목(attention), 흥미(interest), 요청(request), 행동(action, 구매), 공유(Share) 단계로 변해 소비자는 더 강해지고(?) 기업들이 이 요청에 부응하지 못하면, 소비자는 행동(구매)을 하지 않는 불만세력으로 발전한다. 또 이 불만 내용들을 적극적으로 자기 네트워크에 전파하고 공유하고 있는 환경으로 발전하고 있으니 기업들은 보통 어려운 게 아니다.
물론 아직까지 소비자들의 요청이 스마트한 인공지능 스피커가 수용하기에는 좀 거리가 있다. 하지만 이 문제가 해결되는데는 얼마 걸리지 않을 것이고 현재 해결이 진행되고 있다. 실제로 인공지능 스피커로 제품을 구매할 때 문제가 발생하고 있다. 거실에 있는 인공지능 스피커로 최신상품을 주문했는데 거실 스피커뿐 아니라 주방에 있던 스피커도 그 음성을 인식해 두번의 주문이 이루어진 경우도 있었다. 아마존의 경우는 일명 ‘ESP(Echo Spatial Perception)’라는 신기술을 탑재해 여러 스피커에서 동일한 음성명령이 확인됐을 때 주문자와 가장 가까운 곳에 있는 스피커에서만 반응토록 보완하고 있다.
지금까지 커뮤니케이션 채널의 변화는 시장과 소비자 행동에 큰 영향을 미쳐온 것이 사실이다. 인공지능 시대에 맞는 소비자 요청을 파악하고 준비하지 못한다면 서두에 말한 것처럼 누구는 더 성장할 것이고 누구는 하루 아침에 경쟁에서 밀릴 것이다. 그래서 많은 기업들이 이 인공지능 음성인식에 골몰하고 있는 것이다.
이제는 기술만이 아니다. 소비자의 요청은 뛰어난 음성 인식 기술개발이 아니다. 현실과 가상 시장이 원만하게 연결되고 소비자가 요청하는 가치를 누가 더 높게 제공하느냐에 달려있다. 소비자가 요청하는 서비스를 만족시키는 생태계 개발이 핵심이라는 점을 명심해야 한다.