ทำไม AI วาดรูปสวยระดับโลก แต่เขียน ‘ตัวหนังสือ’ ในภาพพังพินาศอ่านไม่รู้เรื่อง?

สำหรับใครที่ชอบใช้ AI สร้างรูปภาพ ไม่ว่าจะเป็นรูปโลโก้ร้าน, หน้าปกหนังสือ, หรือป้ายโฆษณาเก๋ๆ สิ่งหนึ่งที่เป็นเหมือนฝันร้ายและตลกร้ายที่สุดคือ “การสะกดคำ“ สมมติว่าเราสั่งให้มันวาดรูปแก้วกาแฟมินิมอลแล้วเขียนคำง่ายๆ ว่า “COFFEE” สิ่งที่ AI วาดกลับมาอาจจะเป็นคำว่า “COFFEEF”, “CFFFEE”, หรือกลายร่างเป็นอักขระโบราณที่ดูเหมือนภาษาเอเลี่ยนอ่านไม่ออก จนคนสงสัยกันทั้งเน็ตว่า มันฉลาดขนาดวาดแสงเงาหยดน้ำสะท้อนกระจกได้ แต่ทำไมแค่สะกดคำ 5-6 ตัวอักษรถึงทำไม่ได้? มาแกะสมองของมันดูกันครับ

คำตอบทางเทคนิค: เพราะ AI มองตัวหนังสือเป็น ‘รูปภาพลวดลาย’ ไม่ใช่ ‘ภาษา’

เหตุผลที่ AI สายภาพ (เช่น Midjourney หรือ Stable Diffusion เวอร์ชันทั่วไป) สะกดคำผิดพลาดอย่างไม่น่าให้อภัย เกิดจากโครงสร้างวิธีคิดหลังบ้านของมัน 3 ข้อนี้ครับ:

1. มันไม่รู้ความหมายของตัวอักษร

มนุษย์เรามองคำว่า “A” คือตัวอักษรที่มีเสียงสะท้อนและมีความหมายในการประสมคำ แต่ AI ไม่ได้มองแบบนั้นครับ มันมองตัว “A” เป็นเพียงแค่ “ลายเส้นสามเหลี่ยมที่มีขีดตรงกลาง“ เท่านั้น มันมองตัวหนังสือทุกตัวเป็นแค่ “พื้นผิว” (Texture) หรือเส้นสายแบบเดียวกับรอยหยักบนก้อนหิน หรือลายเสือดาว มันจึงไม่เข้าใจว่าทำไมเส้นสามเหลี่ยมต้องวางหน้าเส้นวงกลม (O) ถึงจะแปลว่ากาแฟ

2. ปัญหากระบวนการเบลอภาพ (Diffusion Process)

อย่างที่เราเคยเหลาไปในหัวข้อก่อนๆ ว่า AI วาดภาพจากการค่อยๆ “ปัดฝุ่นทราย” (Denoising) จากภาพเบลอๆ ให้ค่อยๆ ชัดขึ้น ลองนึกภาพตามนะครับ เวลา AI กำลังกวาดฝุ่นออกจากคำว่า “COFFEE” เม็ดพิกเซลมันแค่วิ่งไปรวมตัวกันตามสถิติความน่าจะเป็น บางครั้งจุดสีมันเลื่อนไปนิดเดียว เส้นตรงของตัว “F” ก็อาจจะงอกขาเพิ่มจนกลายเป็นตัว “E” หรือเส้นขาดจนกลายเป็นตัว “I” ได้ง่ายๆ โดยที่ AI ไม่สะกิดใจเลยสักนิด เพราะมันไม่มีกลไกตรวจคำผิด (Spell Check) ในโหมดวาดภาพ

3. มันชอบแถมและรักความสมมาตร

สมองกลของ AI รักความหนาแน่นและความสมดุลของภาพเป็นชีวิตจิตใจ พอเราสั่งให้มันเขียนคำสั้นๆ ลงในป้ายใหญ่ๆ AI จะรู้สึกว่า “เอ๊ะ พื้นที่ตรงนี้มันโล่งเกินไป ป้ายมันดูไม่บาลานซ์“ มันเลยแถมลายเส้นยุกยิกที่ดูคล้ายตัวอักษรเพิ่มเข้าไปเองดื้อๆ เพื่อให้ภาพดูเต็มและสวยงามในสายตาของมัน แต่มันกลายเป็นสปาเก็ตตี้อักษรอ่านไม่รู้เรื่องในสายตามนุษย์

ในปัจจุบัน (ปี 2026) ปัญหานี้แก้ตกหรือยัง?

ข่าวดีคือผู้พัฒนาโมเดล AI รู้ถึงจุดอ่อนนี้ดีครับ ในโมเดลยุคปัจจุบัน (เช่น DALL-E 3 หรือ Imagen 3) เขาได้ใช้วิธีแก้ปัญหาด้วยการ “แต่งงานระบบภาษาเข้ากับระบบภาพ“ (Tightly Integrated Text-to-Image)

คือส่ง AI สายภาษา (LLM) ไปนั่งคุมประกบ AI สายวาดภาพตอนทำงานด้วย คอยชี้หน้าสั่งว่า “เฮ้ย! มนุษย์สั่งคำว่า COFFEE แกต้องวาดเส้นตัว C, O, F, F, E, E เรียงกันตามนี้เป๊ะๆ นะ ห้ามขาดห้ามเกิน!” ทำให้โมเดลรุ่นใหม่ๆ เริ่มสะกดภาษาอังกฤษคำสั้นๆ ได้แม่นยำขึ้นมากแล้ว

แต่… สำหรับ “ภาษาไทย” นั้น AI ส่วนใหญ่ยังคงสอบตกอยู่ดี เพราะฐานข้อมูลฟอนต์และลายเส้นภาษาไทยในคลังฝึกฝนของต่างประเทศมีน้อยมาก แถมภาษาไทยยังมีสระบน-ล่าง วรรณยุกต์ซับซ้อน AI จึงยังคงมองภาษาไทยเป็นแค่ “ลายไทยยุกยิก” และวาดออกมาเป็นภาษาต่างดาวเหมือนเดิมครับ

บทสรุป: ทริคแก้ปัญหาฉบับมือโปร

สรุปแล้ว ถ้าคุณอยากทำคอนเทนต์หรือใช้งานภาพจาก AI ให้เนี้ยบและประหยัดเวลาที่สุด กฎเหล็กคือ “อย่าสั่งให้ AI เขียนข้อความลงในภาพตรงๆ (ห้ามใส่ข้อความลงไปในภาพเด็ดขาด)”

วิธีที่ฉลาดที่สุดคือ สั่งให้ AI วาดเฉพาะ “ฉากหลัง วัตถุ หรือตัวละคร” โดยเว้นพื้นที่ว่าง (Negative Space) สวยๆ เอาไว้ จากนั้นให้เราดาวน์โหลดรูปออกมา แล้วนำไปพิมพ์ตัวหนังสือไทยหรืออังกฤษเพิ่มเอาเองผ่านแอปแต่งภาพอย่าง Canva หรือ Photoshop ครับ วิธีนี้คอนเฟิร์มว่างานออกมาสวยเป๊ะ สะกดถูก 100% ไม่ต้องนั่งสุ่มกดเจนรูปใหม่ให้เปลืองโควตาแน่นอนครับ