gemini live1 Gemini Live로 배운 멀티모달 설계 (인디케이터, 컨텍스트, 음성모달) 솔직히 고백하자면, 저는 텍스트와 음성을 동시에 쓰는 인터페이스를 처음 설계했을 때 "사용자가 알아서 구분하겠지"라고 안일하게 생각했습니다. 그 결과는 컴플레인이었습니다. '지금 AI가 듣고 있는 건지, 보고 있는 건지' 모르겠다는 민원이 쏟아졌고, 저는 그제야 멀티모달 인디케이터 설계가 얼마나 중요한지 뼈저리게 깨달았습니다. 이 글은 그 경험을 바탕으로 Gemini Live의 설계 의사결정을 분석하고, 실제 외주에 적용한 방법을 정리한 기록입니다.멀티모달 인디케이터: 사용자 혼란을 0으로 만든 구조멀티모달(Multimodal)이란 텍스트, 음성, 영상, 이미지 등 여러 입출력 방식이 동시에 작동하는 인터페이스를 말합니다. 쉽게 말해 말도 하고, 화면도 보여주고, 카메라도 켜지는 복합적인 AI 경험입니다.. 2026. 5. 17. 이전 1 다음