ในยุคที่คนต้องคุยกับคอมพิวเตอร์

ในยุคที่คนต้องคุยกับคอมพิวเตอร์

ในปัจจุบันคอมพิวเตอร์เข้ามามีบทบาทในชีวิตของเราทุกคนมากขึ้นเรื่อย ๆ ตัวอย่างที่เห็นได้ชัด คือโทรศัพท์มือถือ หรือ สมาร์ทโฟน ที่หลาย ๆ คนใช้เวลากับมันมากกว่าคนในครอบครัวเสียอีก หรือแม้กระทั่งการจ่ายเงิน จากที่เคยใช้เงินสดหรือเช็ค ก็กลายเป็นการใช้สมาร์ทโฟนสแกน QR code เพื่อสั่งให้ธนาคารตัดเงินในบัญชีของเรา  

แน่นอนว่าเทคโนโลยีเหล่านี้เกี่ยวข้องกับคอมพิวเตอร์ทั้งสิ้น มือถือเป็นคอมพิวเตอร์ ตัวประมวลผลระบบ [su_tooltip style=”dark” position=”north” shadow=”yes” rounded=”yes” size=”4″ content=”PromptPay หรือ พร้อมเพย์ คือ บริการโอนเงินและรับเงินที่ผูกบัญชีเงินฝากธนาคารที่ผู้ใช้งานมีกับ หมายเลขบัตรประชาชนหรือเบอร์โทรศัพท์มือถือ ผู้ใช้งานจึงสามารถทำธุรกรรมผ่าน หมายเลขบัตรประชาชน หรือหมายเลขโทรศัพท์มือถือของผู้รับโอนได้ โดยไม่ต้องมีหมายเลขบัญชีเงินฝากธนาคาร ” ] PromptPay[/su_tooltip] หรือระบบบัญชีของธนาคารต่าง ๆ ก็เป็นคอมพิวเตอร์ เวลาเราสั่งจ่ายเงิน มือถือของเราก็จะส่งคำสั่งไปที่ธนาคาร ซึ่งคำสั่งนี้เป็นคำสั่งที่ออกแบบขึ้นมาเพื่อให้คอมพิวเตอร์คุยกัน คนทั่วไปไม่เข้าใจ  เวลาเราจะสั่งจ่ายเงินก็กดตามเมนูของแอปพลิเคชันธนาคารต่าง ๆ ซึ่งแอปพลิเคชันเหล่านั้นทำหน้าที่เปลี่ยนความต้องการของเราให้กลายเป็นคำสั่งตามรูปแบบของมัน

ทำไมต้องใช้เสียง

หลาย ๆ ท่านคงเคยเจอเหตุการณ์เมื่อต้องเปิดแอปพลิเคชันในมือถือเพื่อทำอะไรสักอย่าง ไม่ว่าจะจ่ายเงิน ดูแต้มสะสม หรือกระทั่งลงทะเบียนไทยชนะ ซึ่งบางทีก็หาไม่เจอบ้าง กดแล้วมีขั้นตอนให้ทำตามมากเกินไปบ้าง ทำให้รู้สึกชักช้า รำคาญใจ 

จะดีกว่าไหม ถ้าเราพูดคุยกับคอมพิวเตอร์ เหมือนที่เราสื่อสารกับเพื่อนหรือพนักงานธนาคาร

ในมุมมองของผู้ใช้ การสื่อสารด้วยคำพูด มีข้อดีหลายอย่าง ปรกติคนเราพูดได้ประมาณ 100 คำต่อนาที เทียบกับการพิมพ์ดีดของคนที่พิมพ์ได้เร็ว ๆ จะอยู่ที่ประมาณ 70 คำต่อนาที ผมพูดว่า “โอนเงินไปให้พ่อ สองพันบาท” ใช้เวลาแค่สองวินาที จึงเร็วกว่าการกดโอนเงินผ่านแอปพลิเคชันในปัจจุบันหลายเท่า

นอกจากความเร็วแล้ว การสื่อสารด้วยคำพูดยังมีข้อดีในแง่ใช้งานง่าย เราไม่ต้องใช้แป้นพิมพ์ ไม่ต้องกดตัวอักษรบนหน้าจอเล็ก ๆ พูดไปขับรถไปก็ได้ นอกจากนี้ การพูดยังเป็นสิ่งที่เราคุ้นเคยอยู่แล้ว แต่การใช้งานแอปพลิเคชันต้องมีการสอนวิธีใช้งาน ถ้าเราพูดแล้วสั่งโอนเงินได้ทันที การสั่งการแบบนี้ ไม่ว่าใครก็ใช้งานได้โดยไม่ต้องสอนกันมาก

ปัจจุบัน บริษัทต่างชาติยักษ์ใหญ่เริ่มวางจำหน่ายลำโพง (smart speaker) ที่เราสามารถสั่งการด้วยเสียง ให้เราใช้สั่งเครื่องใช้ไฟฟ้าอื่น ๆ ในบ้าน เช่น เปิดแอร์ เปิดไฟ หรือสอบถามข่าวสารต่าง ๆ ตัวอย่างอุปกรณ์เหล่านี้ ได้แก่ Amazon Alexa, Google Home, Apple Homepod เป็นต้น เทคโนโลยีเหล่านี้มีมูลค่าหลายพันล้านดอลล่าสหรัฐ ซึ่งต่อไปเราจะได้เห็นผลิตภัณฑ์ที่เราพูดคุยด้วยได้มากยิ่งขึ้น

Smart speaker
Smart speaker: Google Home Mini Photo by Jeremy Bishop on Unsplash

เทคโนโลยีเบื้องหลัง

ทีนี้มาพูดถึงเทคโนโลยีและโมเดลทางปัญญาประดิษฐ์ที่อยู่เบื้องหลังผลิตภัณฑ์เหล่านี้กันสักนิด
ปรกติแล้วอุปกรณ์เหล่านี้ มีสามโมเดลที่สำคัญ คือ 
1) Automatic Speech Recognizer (ASR) ทำหน้าที่แปลงเสียงพูดที่รับเข้ามาจากไมโครโฟนให้กลายเป็นตัวอักษร
2) Natural Language Processing (NLP) ทำหน้าที่ทำความเข้าใจข้อความตัวอักษร เพื่อจะได้รู้ว่าผู้พูดต้องการทำอะไร และแปลงตัวอักษรเหล่านั้นเป็นคำสั่งที่ไปสั่งระบบคอมพิวเตอร์อื่น ๆ
3) Text-to-speech (TTS) ทำหน้าที่แปลงข้อความที่ระบบต้องการตอบเป็นเสียงพูดผ่านลำโพง ให้ผู้ใช้งานได้รับรู้
จากตัวอย่าง “โอนเงินให้พ่อ สองพันบาท” ก็จะมีรูปแบบการทำงานคร่าว ๆ ดังนี้

การทำงานของ TTS

โมเดลปัญญาประดิษฐ์สามตัวที่กล่าวมา มีพัฒนาการมายาวนานกว่าครึ่งศตวรรษ และมีความสามารถมากพอที่จะใช้งานได้จริง ในปัจจุบัน ASR มีความถูกต้องราว ๆ 90% (ถ้าเราพูดสิบคำ โมเดลจะถอดความถูกต้องประมาณเก้าคำ) หรือบางทีอาจสูงถึง 95% ขึ้นอยู่กับสถานการณ์ ซึ่งในวงการคอมพิวเตอร์ ความถูกต้องประมาณ 90% ก็ถือว่าเพียงพอให้นำไปใช้งานในผลิตภัณฑ์ แม้จะฟังผิดบ้าง แต่ก็มากพอที่จะให้ผลิตภัณฑ์เหล่านี้ใช้งานได้

NLP ก็มีการพัฒนาไปอย่างมาก สามารถเข้าใจบทความ หรือคำถามยาก ๆ ได้ เช่น โมเดล GPT-3 ที่สามารถสร้างบทความที่สละสลวยดุจดั่งคนจริง ๆ เขียน (อ่านเพิ่มเติมได้ที่นี่)

โมเดลสุดท้าย TTS ก็สามารถพูดด้วยเสียงที่เหมือนจริงจนคนแยกแทบไม่ออก (ลองฟังตัวอย่างได้ที่นี่) ส่วนล่างของเว็บไซต์มีตัวอย่างให้ทดลองทายว่า เสียงไหนเป็นเสียงของคน เสียงไหนเป็นเสียงที่สร้างจากปัญญาประดิษฐ์

โมเดลต่าง ๆ เหล่านี้สามารถนำไปต่อยอดได้มากกว่าแค่ smart speaker หรือ คอลเซ็นเตอร์ เช่น ระบบถอดความวิดีโออัตโนมัติ เพื่อให้ค้นหาเนื้อหาได้ง่าย ระบบคัดกรองว่าผู้ใช้งานมีอาการซึมเศร้าหรือไม่ เป็นต้น 

ตัวอย่างโมเดลที่กล่าวมาข้างต้น ส่วนใหญ่เป็นโมเดลที่พัฒนาขึ้นสำหรับภาษาอังกฤษ ในส่วนของภาษาไทยยังตามหลังภาษาอังกฤษอยู่พอสมควรด้วยข้อจำกัดทางทรัพยากร แต่กำลังมีการพัฒนาโมเดลเหล่านี้ในหลาย ๆ หน่วยงาน ไม่ว่าจะเป็น NECTEC บริษัทเอกชน หรือมหาวิทยาลัยต่าง ๆ เช่น ในแลปของผมเองก็กำลังพัฒนาโมเดล ASR และ TTS ที่ดีกว่าหรือเทียบเท่าของ Google คาดว่าเราก็คงจะได้เห็นเทคโนโลยีเหล่านี้ในรูปแบบภาษาไทยมากขึ้นในไม่ช้า

คำแนะนำในการพูดกับคอมพิวเตอร์

ดังที่ผมกล่าวไปแล้ว เทคโนโลยีเหล่านี้จะเข้ามามีบทบาทในชีวิตเรามากขึ้นเรื่อย ๆ ผมขอฝากเทคนิคในการพูดคุยกับโมเดลเหล่านี้ เพื่อให้คอมพิวเตอร์เข้าใจเราอย่างถูกต้องมากขึ้น อย่างแรกคือ ลักษณะการพูด พยายามพูดโดยไม่ใช้อารมณ์ พูดแบบปรกติให้มากที่สุด โมเดลเหล่านี้ถูกพัฒนามาสำหรับเสียงพูดปรกติ จะทำงานได้ดีเวลาเราพูดด้วยเสียงเรียบ ๆ เพราะฉะนั้นเวลาเราพูดอะไรแล้วคอมพิวเตอร์ฟังผิด อย่าแสดงน้ำเสียงโมโหหรือตะโกน เพราะจะทำให้คอมพิวเตอร์ฟังผิดมากขึ้นไปอีก ซึ่งการปฏิบัติตัวเช่นนี้จะต่างจากเวลาที่เราปฏิสัมพันธ์กับคนด้วยกันเองพอสมควร เวลาเราคุยกับเพื่อน แล้วเพื่อนฟังผิด เราอาจพูดด้วยเสียงที่ดังขึ้นหรือพูดเน้นเสียงที่คำใดคำหนึ่ง แต่ถ้าเราทำอย่างนี้กับคอมพิวเตอร์ จะไม่ได้รับผลดีเท่าที่ควร เพราะเป็นข้อจำกัดของปัญญาประดิษฐ์ในปัจจุบัน อย่างที่สองคือ การใช้คำ พยายามใช้ถ้อยคำที่เรียบง่าย หรือประโยคที่ตรงไปตรงมา ไม่ใช้คำแสลงหรือสำนวน เพราะโมเดล NLP ยังไม่สามารถประมวลข้อความที่ซับซ้อนได้

สุดท้ายนี้ผมขอฝากข้อคิดเรื่องการสื่อสารกับคอมพิวเตอร์ว่า ทั้งเราและคอมพิวเตอร์ต่างก็ต้องเรียนรู้และปรับตัว เมื่อใช้งานระบบพวกนี้ไปเรื่อย ๆ คนก็จะเริ่มปรับตัวและเรียนรู้วิธีสื่อสารกับคอมพิวเตอร์ได้อย่างมีประสิทธิภาพมากขึ้น ส่วนคอมพิวเตอร์เอง ก็พัฒนาเทคโนโลยีปัญญาประดิษฐ์มากขึ้นเรื่อย ๆ จนกระทั่งวันหนึ่ง เด็กในอนาคตอาจถามเราว่า “แป้นพิมพ์มีไว้ทำไม” ก็ได้

Our Writer

อ. ดร. เอกพล ช่วงสุวนิช

ดร. เอกพล ช่วงสุวนิช

อ.ประจำภาควิชาวิศวกรรมคอมพิวเตอร์  จุฬาลงกรณ์มหาวิทยาลัย ผู้หลงใหลในเรื่องภาษา เสียง และดนตรี



เราใช้คุกกี้เพื่อพัฒนาประสิทธิภาพ และประสบการณ์ที่ดีในการใช้เว็บไซต์ของคุณ คุณสามารถศึกษารายละเอียดได้ที่ นโยบายความเป็นส่วนตัว และสามารถจัดการความเป็นส่วนตัวเองได้ของคุณได้เองโดยคลิกที่ ตั้งค่า

Privacy Preferences

คุณสามารถเลือกการตั้งค่าคุกกี้โดยเปิด/ปิด คุกกี้ในแต่ละประเภทได้ตามความต้องการ ยกเว้น คุกกี้ที่จำเป็น

อนุญาตทั้งหมด
Manage Consent Preferences
  • Always Active

บันทึก