오늘은 구글이 선보인 혁신적인 비디오 생성 툴인 구글 AI의 Whisk를 활용해, 누구나 전문가 수준의 대화 영상을 만드는 방법을 정리해 드립니다. 특히, 말하는 AI영상 제작에 효과적인 방법을 다룹니다. 말하는 AI영상은 최근 많은 주목을 받고 있습니다.
특히 최근 화제가 된 야나두 광고처럼 인물이 자연스럽게 한국말로 대화하는 영상을 제작하는 핵심 프로세스를 공개합니다.
말하는 AI영상은 특히 대화형 콘텐츠의 제작에 있어 혁신적인 해결책을 제공합니다. 이러한 특징을 통해 말하는 AI영상의 중요성이 더욱 강조되고 있습니다.
말하는 AI영상은 특히 교육 및 마케팅 분야에서 큰 효과를 발휘하고 있습니다. ATM 블로그를 통해 이처럼 다양한 분야에서 활용되는 말하는 AI영상의 가능성을 알아보겠습니다.
말하는 AI영상 제작의 중요성과 방법에 대해 ATM 유튜브를 통해 자세히 설명하겠습니다.
1. 구글 AI 프로 요금제로 시작하는 영상 제작 환경
말하는 AI영상 제작을 위한 영상 제작 환경을 준비해야 합니다.
ATM은 단도직입적으로 추천합니다. 그냥 구글 AI 서비스 이용하세요~
말하는 AI영상 제작을 통해 누구나 손쉽게 고품질의 콘텐츠를 생성할 수 있습니다. 이는 특히 비즈니스에서 경쟁력을 높이는 데 큰 도움이 됩니다.
많은 분이 구글 AI 요금제 선택을 고민하시는데, 결론부터 말씀드리면 월 29,000원의 구글 AI 프로 요금제면 충분합니다.
이 요금제 하나로 아이디어 확장을 돕는 제미나이는 물론, 고퀄리티 이미지를 뽑아내는 플로우, 그리고 오늘 주인공인 영상 생성 툴 Whisk까지 모두 사용할 수 있습니다.
따라서 말하는 AI영상 제작은 최신 기술을 활용한 콘텐츠 창작의 새로운 패러다임을 제시합니다. 이러한 기술적 진보는 사용자에게 많은 혜택을 제공합니다.
정보 탐색부터 프롬프트 제작까지 한 번에 해결되는 가장 합리적인 선택입니다.
2. 제미나이를 활용한 영상 분석과 프롬프트 설계
단순히 할머니와 흑인이 대화하는 영상을 만들어 줘라고 입력하면 원하는 결과물을 얻기 힘듭니다.
하는 영상의 핵심은 정교한 설계에 있습니다. 벤치마킹하고 싶은 영상의 링크를 제미나이에 붙여넣고 영상 구조를 분석해 달라고 요청하세요.
이때 장면 묘사를 구체화하기 위해 제미나이에게 이미지 생성을 위한 전용 프롬프트를 따로 뽑아달라고 하는 것이 노하우입니다.
3. Whisk의 3대 메뉴로 완성하는 고퀄리티 이미지
고퀄리티의 말하는 AI영상은 효과적인 메시지 전달을 가능하게 하여, 기업의 홍보 및 마케팅 전략에 큰 기여를 합니다.
텍스트로만 설명하는 게 어렵다면 가장 쉬운 방법은 스크린샷 활용입니다.
벤치마킹할 영상의 한 장면을 캡처한 뒤 Whisk의 좌측 메뉴인 피사체 항목에 그대로 업로드하세요.

이 방식을 사용하면 복잡한 프롬프트를 직접 쓰지 않아도 원본보다 더 뛰어난 퀄리티의 이미지를 즉시 얻을 수 있습니다.
그다음 위스키로 가서 각 준비된 이미지를 3개 각 메뉴 내 피사체에 넣고, 그와 더불어 장면과 스타일내 구체적 간단한 묘사를 써넣은뒤 실행버튼을 클릭하면 끝!
Whisk ai 작업화면 UI
-
피사체: 캡처한 이미지를 올려 인물의 구도와 특징을 고정합니다.
-
장면: 한정식 식당이나 호프집 등 원하는 배경을 텍스트로 넣습니다.
-
스타일: 실사 기반 혹은 애니메이션 등 원하는 화풍을 지정합니다
4. 8초의 법칙과 대화 동기화 꿀팁
말하는 AI영상 제작 시 8초의 법칙을 염두에 두어야 합니다. 이 법칙은 짧고 강렬한 메시지를 전달하는 데 도움을 줍니다.
1번 앞부분
2번 뒷부분만 상세 작업
Whisk는 구글의 비디오 생성 모델인 Veo를 기반으로 하기에 최대 길이는 8초입니다.
말하는 AI영상은 고객의 관심을 끌고, 정보를 효과적으로 전달하기 위한 강력한 도구로 자리잡고 있습니다.
8초 안에 너무 많은 대사를 넣으려 하면 영상이 어색해집니다. 따라서 대화 분량을 2~3개의 클립으로 나누어 제작하는 것이 훨씬 자연스럽습니다.
특히 말하는 아기 영상이나 대화형 광고를 만들 때는 제미나이를 통해 스피커별로 대사를 나눈 영문 프롬프트를 생성해 적용하세요.
이때 자막 생성 금지 명령어를 필수로 넣어줘야 영상이 깔끔하게 출력됩니다.
5. 프롬프트 초안 공개
특히 말하는 AI영상의 활용은 소상공인들에게도 큰 도움이 됩니다. 이들을 위한 맞춤형 콘텐츠 제작이 가능합니다.
ATM 한글 대본 초안
흑인남성: 자~ 할머니가 좋아하는 랜덤~ 게임!
할머니: (기습적으로) 눈치 게임 1!
흑인남성: (한 박자 늦게) …2! 아이고!
할머니: (웃으며) 마셔라~ 마셔라
흑인남성 : 할머니, 근데 ‘마셔라’를 영어로는 ‘Chug’이라고 해요. 자, 따라 해 보세요. Chug! , chug, chug!
할머니: (어이가 없다는 듯 웃으며) 아이고, 척척 박사 납셨다, 아주!
참고 prompts
– 대사와 음성톤을 각 단계에서 ‘화자(Speaker)’로 지정된 캐릭터와 완벽하게 동기화하세요.
– 각 단계에서 ‘화자 (Speaker)’로 지정되지 않은 캐릭터는 반드시 침묵해야 하며, 해당단계에서 묘사된 듣기/ 반응 행동을 수행해야 합니다.
– 캐릭터의 대사는 말은 캐릭터에게 지정된 대사만 말해야 합니다.
– 전체 대화는 8초의 시간동안 부드럽게 전달되어야 합니다.
– 자막은 추가하지 않습니다.
– BGM은 추가하지 않습니다.
[영상에 사용된 상세 프롬프트 및 스크립트]
Video Generation Prompt (English)
Overall Setting: A realistic, candid 8-second video clip.
The scene features a muscular Black American man in his 30s and a Korean grandmother in her late 70s. The video should have natural daylight and the feel of a high-quality, unedited recording. No background music (BGM) or subtitles should be present.
Timeline & Script Instructions:
Time [0.0 – 2.0s]: Speaker – Black Man
Action: The Black man claps his hands rhythmically with an energetic, playful smile, initiating a game. The grandmother watches him with an engaged, smiling expression.
Dialogue (Korean): “자~ 할머니가 좋아하는 랜덤~ 게임!”
Tone: Enthusiastic, friendly.
Time [2.0 – 3.0s]: Speaker – Grandmother
Action: The grandmother suddenly interrupts, shouting her line with a mischievous grin. The Black man looks surprised, caught off guard by her speed.
Dialogue (Korean): “(기습적으로) 눈치 게임 1!”
Tone: Sudden, playful, competitive.
Time [3.0 – 4.0s]: Speaker – Black Man / Grandmother
Action (Black Man): He hesitates and says his number late with a flustered, defeated expression, realizing he lost.
Dialogue (Black Man, Korean): “(한 박자 늦게) 아이고!”
Action (Grandmother): She laughs heartily, clapping her hands in victory and chanting the penalty song.
Dialogue (Grandmother, Korean): “(웃으며) 마셔라~ 마셔라~”
Tone: Flustered (Man), Victorious and joyful (Grandmother).
Time [4.0 – 6.0s]: Speaker – Black Man
Action: Recovering with a smile, he gestures with his hand teaching her the English word. The grandmother watches him curiously, still smiling.
Dialogue (Korean): “할머니, 근데 ‘마셔라’를 영어로는 ‘Chug’이라고 해요. 자, 따라 해 보세요. Chug! , chug, chug!”
Tone: Educational, encouraging.
Time [6.0 – 8.0s]: Speaker – Grandmother
Action: She gives him an incredulous, amused look, shaking her head slightly and laughing as she delivers her clever retort. The Black man laughs along with her reaction.
Dialogue (Korean): “(어이가 없다는 듯 웃으며) 아이고, 척척 박사 납셨다, 아주!”
Tone: Sarcastic, affectionate, amused.
[Technical Sync Constraints]
-
Lip-Sync: Perfectly synchronize lip movements and jaw motion with the designated Korean dialogue for the active speaker in each segment.
-
Silence Enforcement: When one character is the “Speaker,” the other must remain silent, showing only reactive facial expressions (nodding, smiling, blinking).
-
Animation Quality: Ensure 60fps fluid motion, no morphing, and consistent character features throughout the 8 seconds.
6. 소상공인 사업 홍보 영상 실전 응용
이와 함께 말하는 AI영상은 소비자와의 소통을 강화하는 데 필요한 혁신적인 방법입니다.
이 프로세스는 자영업자분들에게 엄청난 무기가 됩니다. 예를 들어 인천 영종도 하늘도시 인근의 오 피자 홍보 영상을 만든다면,
직접 매장 사진을 [장면]에 넣고 피자를 맛있게 먹는 인물을 [피사체]로 설정하세요. 20대 여성들이 새우 피자의 풍성한 토핑에 감탄하는 장면을 8초 내외로 짧게 끊어 제작하면,
비용 부담 없이 강력한 바이럴 마케팅 효과를 볼 수 있습니다.
‘오피자’ 예시 영상 프롬프트
마지막으로, 말하는 AI영상은 다양한 상황에서의 활용 가능성을 보여주고 있습니다. 이 점이 많은 기업들이 말하는 AI영상 제작에 관심을 가지게 만드는 이유입니다.
0:00-0:02 [여자 1]: (Holding a pizza slice) “와, 하늘도시 오피자 미쳤다! 새우 크기 봐.
0:02-0:04 [여자 2]: (Nodding while chewing) “진짜 새우 듬뿍이다! 여기 영종도 1등 인정.
0:04-0:07 [여자 1]: (Smiling at the camera) “이건 무조건 먹어야 돼. 오피자 최고!”
0:07-0:08 [Reaction]: Both laugh and make eye contact naturally.
Technical Instructions for AI Model
Language: The speakers must speak in natural, clear Korean female voices.
Lip-Sync: Perfectly synchronize the Korean phonetic sounds with the lip movements of the designated speaker.
Silence & Reaction: While one is speaking, the other must perform listening behaviors (nodding, laughing, eye-contact) without making a sound.
Timing: All Korean lines must be delivered fluently within the 8-second limit.
Post-processing: No subtitles. No background music (BGM). Focus on the crisp sound of crust crunching and clear, vibrant voices.
7. 기타 바로가기 링
Whisky 바로가기: https://labs.google/fx/ko/tools/whisk
Gemini 바로가기: https://gemini.google/subscriptions/
ATM 다른 글 추천







