การสร้างวิดีโอด้วย Gemini (ผ่านโมเดล Veo) เป็นนวัตกรรมที่เปลี่ยนจินตนาการให้กลายเป็นภาพเคลื่อนไหวได้ในไม่กี่วินาที เพื่อให้ได้วิดีโอที่ตรงใจที่สุด คุณจำเป็นต้องรู้วิธี “สื่อสาร” กับ AI และเข้าใจขีดจำกัดของมันดังนี้ครับ
การบอกแค่ว่า “อยากได้วิดีโอคนเดิน” นั้นกว้างเกินไป AI จะสุ่มองค์ประกอบส่วนที่เหลือเอง เพื่อให้ได้งานที่เนียนตา คุณควรระบุ 4 ส่วนสำคัญนี้:
- ระบุตัวละครและสิ่งที่ทำ (Subject & Action): บอกรายละเอียดรูปร่าง หน้าตา เสื้อผ้า และสิ่งที่กำลังทำอยู่ให้ชัดเจน
- ตัวอย่าง: “ผู้หญิงผมสีบลอนด์สวมชุดเดรสสีขาวกำลังเดินช้าๆ บนหาดทรายขาว”
- ระบุสถานที่และบรรยากาศ (Setting & Atmosphere): ระบุเวลา แสง และโทนสี
- ตัวอย่าง: “ในช่วงเวลาพระอาทิตย์ตกดิน แสงสีส้มทองสะท้อนผิวน้ำ ท้องฟ้ามีสีชมพูอมม่วง”
- ระบุภาษาภาพยนตร์ (Cinematic Language): ระบุุมุมกล้องหรือการเคลื่อนที่ของกล้อง
- ตัวอย่าง: “ถ่ายด้วยมุมกล้องโดรน (Drone shot) ค่อยๆ บินตามจากด้านหลัง, ภาพชัดลึก (Depth of field) ฉากหลังเบลอ”
- ระบุสไตล์งาน (Style): ระบุว่าต้องการแนวไหน เช่น สมจริง (Photorealistic), อนิเมชั่น 3D, หรือภาพวาดสีน้ำ
2. การใช้ “ภาพอ้างอิง” (Reference Images)
นี่คือฟีเจอร์เด่นของ Gemini 3 (Veo) ที่ช่วยให้งานตรงโจทย์มากขึ้น:
- ใช้ภาพตั้งต้น (Image-to-Video): คุณสามารถอัปโหลดภาพนางแบบหรือสินค้าของคุณ แล้วสั่งว่า “ช่วยทำให้นางแบบในภาพนี้ยิ้มและพยักหน้า” AI จะรักษาลักษณะใบหน้าและชุดเดิมไว้ได้ดี
- การคุมสไตล์ (Style Reference): คุณสามารถอัปโหลดภาพที่มีโทนสีหรือสไตล์ที่คุณชอบ แล้วสั่งให้ AI สร้างวิดีโอใหม่ในสไตล์เดียวกับภาพนั้น
- First & Last Frame: สำหรับผู้ใช้ระดับสูง (ผ่าน API หรือเครื่องมือเฉพาะ) คุณสามารถระบุภาพเริ่มต้นและภาพจบเพื่อให้ AI สร้างการเคลื่อนไหว (Transition) เชื่อมระหว่างสองภาพนั้นได้
3. ข้อจำกัด: สิ่งที่ทำได้ และ ทำไม่ได้
| สิ่งที่ทำได้ (Capabilities) | สิ่งที่ทำไม่ได้ / ข้อจำกัด (Constraints) |
| สร้างวิดีโอสั้นความยาวประมาณ 8 วินาที (ในโหมดปกติ) | ไม่สามารถสร้างวิดีโอยาวแบบภาพยนตร์ในคำสั่งเดียว |
| สร้าง เสียงประกอบ (Native Audio) ให้เข้ากับวิดีโอ | ห้ามสร้างบุคคลสำคัญทางการเมือง หรือบุคคลที่มีชื่อเสียงระดับโลก |
| ขยายวิดีโอเดิม (Scene Extension) ต่อออกไปได้ | จำกัดจำนวนครั้งต่อวัน (Quota) ตามแพ็กเกจที่คุณใช้งาน |
| รองรับความละเอียดสูงถึง 1080p | อาจมีปัญหาเรื่อง “การบิดเบี้ยว” (Artifacts) ในการเคลื่อนไหวที่ซับซ้อนมาก |
4. กฎเหล็กและจริยธรรม (Safety Filters)
AI ของ Google มีระบบความปลอดภัยที่เข้มงวด:
- ห้ามเนื้อหาอันตราย: ความรุนแรง, เนื้อหาทางเพศ, หรือการละเมิดสิทธิผู้อื่น
- ลายน้ำดิจิทัล (SynthID): ทุกวิดีโอที่สร้างจะมีการฝังลายน้ำที่มองไม่เห็นด้วยตาเปล่าเพื่อระบุว่าเป็นวิดีโอจาก AI เพื่อป้องกันการนำไปใช้ในทางที่ผิดหรือสร้าง Fake News
ตัวอย่าง Prompt ที่สมบูรณ์แบบ:
“สร้างวิดีโอแนวภาพยนตร์ (Cinematic) ของนักบินอวกาศเดินบนพื้นผิวดาวอังคารที่มีพายุฝุ่นสีแดงพัดผ่าน แสงอาทิตย์ริบหรี่จากขอบฟ้า ถ่ายด้วยมุมกล้องต่ำ (Low angle shot) แสดงให้เห็นความยิ่งใหญ่ของพื้นที่ วิดีโอมีความสมจริงระดับ 4K”