ในยุคที่คนต้องคุยกับคอมพิวเตอร์

Share on facebook
Share on twitter
Share on google
Share on email

ในปัจจุบันคอมพิวเตอร์เข้ามามีบทบาทในชีวิตของเราทุกคนมากขึ้นเรื่อย ๆ ตัวอย่างที่เห็นได้ชัด คือโทรศัพท์มือถือ หรือ สมาร์ทโฟน ที่หลาย ๆ คนใช้เวลากับมันมากกว่าคนในครอบครัวเสียอีก หรือแม้กระทั่งการจ่ายเงิน จากที่เคยใช้เงินสดหรือเช็ค ก็กลายเป็นการใช้สมาร์ทโฟนสแกน QR code เพื่อสั่งให้ธนาคารตัดเงินในบัญชีของเรา  

แน่นอนว่าเทคโนโลยีเหล่านี้เกี่ยวข้องกับคอมพิวเตอร์ทั้งสิ้น มือถือเป็นคอมพิวเตอร์ ตัวประมวลผลระบบ PromptPay หรือระบบบัญชีของธนาคารต่าง ๆ ก็เป็นคอมพิวเตอร์ เวลาเราสั่งจ่ายเงิน มือถือของเราก็จะส่งคำสั่งไปที่ธนาคาร ซึ่งคำสั่งนี้เป็นคำสั่งที่ออกแบบขึ้นมาเพื่อให้คอมพิวเตอร์คุยกัน คนทั่วไปไม่เข้าใจ  เวลาเราจะสั่งจ่ายเงินก็กดตามเมนูของแอปพลิเคชันธนาคารต่าง ๆ ซึ่งแอปพลิเคชันเหล่านั้นทำหน้าที่เปลี่ยนความต้องการของเราให้กลายเป็นคำสั่งตามรูปแบบของมัน

ทำไมต้องใช้เสียง

หลาย ๆ ท่านคงเคยเจอเหตุการณ์เมื่อต้องเปิดแอปพลิเคชันในมือถือเพื่อทำอะไรสักอย่าง ไม่ว่าจะจ่ายเงิน ดูแต้มสะสม หรือกระทั่งลงทะเบียนไทยชนะ ซึ่งบางทีก็หาไม่เจอบ้าง กดแล้วมีขั้นตอนให้ทำตามมากเกินไปบ้าง ทำให้รู้สึกชักช้า รำคาญใจ 

จะดีกว่าไหม ถ้าเราพูดคุยกับคอมพิวเตอร์ เหมือนที่เราสื่อสารกับเพื่อนหรือพนักงานธนาคาร

ในมุมมองของผู้ใช้ การสื่อสารด้วยคำพูด มีข้อดีหลายอย่าง ปรกติคนเราพูดได้ประมาณ 100 คำต่อนาที เทียบกับการพิมพ์ดีดของคนที่พิมพ์ได้เร็ว ๆ จะอยู่ที่ประมาณ 70 คำต่อนาที ผมพูดว่า “โอนเงินไปให้พ่อ สองพันบาท” ใช้เวลาแค่สองวินาที จึงเร็วกว่าการกดโอนเงินผ่านแอปพลิเคชันในปัจจุบันหลายเท่า

นอกจากความเร็วแล้ว การสื่อสารด้วยคำพูดยังมีข้อดีในแง่ใช้งานง่าย เราไม่ต้องใช้แป้นพิมพ์ ไม่ต้องกดตัวอักษรบนหน้าจอเล็ก ๆ พูดไปขับรถไปก็ได้ นอกจากนี้ การพูดยังเป็นสิ่งที่เราคุ้นเคยอยู่แล้ว แต่การใช้งานแอปพลิเคชันต้องมีการสอนวิธีใช้งาน ถ้าเราพูดแล้วสั่งโอนเงินได้ทันที การสั่งการแบบนี้ ไม่ว่าใครก็ใช้งานได้โดยไม่ต้องสอนกันมาก

ปัจจุบัน บริษัทต่างชาติยักษ์ใหญ่เริ่มวางจำหน่ายลำโพง (smart speaker) ที่เราสามารถสั่งการด้วยเสียง ให้เราใช้สั่งเครื่องใช้ไฟฟ้าอื่น ๆ ในบ้าน เช่น เปิดแอร์ เปิดไฟ หรือสอบถามข่าวสารต่าง ๆ ตัวอย่างอุปกรณ์เหล่านี้ ได้แก่ Amazon Alexa, Google Home, Apple Homepod เป็นต้น เทคโนโลยีเหล่านี้มีมูลค่าหลายพันล้านดอลล่าสหรัฐ ซึ่งต่อไปเราจะได้เห็นผลิตภัณฑ์ที่เราพูดคุยด้วยได้มากยิ่งขึ้น

Smart speaker
Smart speaker: Google Home Mini Photo by Jeremy Bishop on Unsplash

เทคโนโลยีเบื้องหลัง

ทีนี้มาพูดถึงเทคโนโลยีและโมเดลทางปัญญาประดิษฐ์ที่อยู่เบื้องหลังผลิตภัณฑ์เหล่านี้กันสักนิด
ปรกติแล้วอุปกรณ์เหล่านี้ มีสามโมเดลที่สำคัญ คือ 
1) Automatic Speech Recognizer (ASR) ทำหน้าที่แปลงเสียงพูดที่รับเข้ามาจากไมโครโฟนให้กลายเป็นตัวอักษร
2) Natural Language Processing (NLP) ทำหน้าที่ทำความเข้าใจข้อความตัวอักษร เพื่อจะได้รู้ว่าผู้พูดต้องการทำอะไร และแปลงตัวอักษรเหล่านั้นเป็นคำสั่งที่ไปสั่งระบบคอมพิวเตอร์อื่น ๆ
3) Text-to-speech (TTS) ทำหน้าที่แปลงข้อความที่ระบบต้องการตอบเป็นเสียงพูดผ่านลำโพง ให้ผู้ใช้งานได้รับรู้
จากตัวอย่าง “โอนเงินให้พ่อ สองพันบาท” ก็จะมีรูปแบบการทำงานคร่าว ๆ ดังนี้

การทำงานของ TTS

โมเดลปัญญาประดิษฐ์สามตัวที่กล่าวมา มีพัฒนาการมายาวนานกว่าครึ่งศตวรรษ และมีความสามารถมากพอที่จะใช้งานได้จริง ในปัจจุบัน ASR มีความถูกต้องราว ๆ 90% (ถ้าเราพูดสิบคำ โมเดลจะถอดความถูกต้องประมาณเก้าคำ) หรือบางทีอาจสูงถึง 95% ขึ้นอยู่กับสถานการณ์ ซึ่งในวงการคอมพิวเตอร์ ความถูกต้องประมาณ 90% ก็ถือว่าเพียงพอให้นำไปใช้งานในผลิตภัณฑ์ แม้จะฟังผิดบ้าง แต่ก็มากพอที่จะให้ผลิตภัณฑ์เหล่านี้ใช้งานได้

NLP ก็มีการพัฒนาไปอย่างมาก สามารถเข้าใจบทความ หรือคำถามยาก ๆ ได้ เช่น โมเดล GPT-3 ที่สามารถสร้างบทความที่สละสลวยดุจดั่งคนจริง ๆ เขียน (อ่านเพิ่มเติมได้ที่นี่)

โมเดลสุดท้าย TTS ก็สามารถพูดด้วยเสียงที่เหมือนจริงจนคนแยกแทบไม่ออก (ลองฟังตัวอย่างได้ที่นี่) ส่วนล่างของเว็บไซต์มีตัวอย่างให้ทดลองทายว่า เสียงไหนเป็นเสียงของคน เสียงไหนเป็นเสียงที่สร้างจากปัญญาประดิษฐ์

โมเดลต่าง ๆ เหล่านี้สามารถนำไปต่อยอดได้มากกว่าแค่ smart speaker หรือ คอลเซ็นเตอร์ เช่น ระบบถอดความวิดีโออัตโนมัติ เพื่อให้ค้นหาเนื้อหาได้ง่าย ระบบคัดกรองว่าผู้ใช้งานมีอาการซึมเศร้าหรือไม่ เป็นต้น 

ตัวอย่างโมเดลที่กล่าวมาข้างต้น ส่วนใหญ่เป็นโมเดลที่พัฒนาขึ้นสำหรับภาษาอังกฤษ ในส่วนของภาษาไทยยังตามหลังภาษาอังกฤษอยู่พอสมควรด้วยข้อจำกัดทางทรัพยากร แต่กำลังมีการพัฒนาโมเดลเหล่านี้ในหลาย ๆ หน่วยงาน ไม่ว่าจะเป็น NECTEC บริษัทเอกชน หรือมหาวิทยาลัยต่าง ๆ เช่น ในแลปของผมเองก็กำลังพัฒนาโมเดล ASR และ TTS ที่ดีกว่าหรือเทียบเท่าของ Google คาดว่าเราก็คงจะได้เห็นเทคโนโลยีเหล่านี้ในรูปแบบภาษาไทยมากขึ้นในไม่ช้า

คำแนะนำในการพูดกับคอมพิวเตอร์

ดังที่ผมกล่าวไปแล้ว เทคโนโลยีเหล่านี้จะเข้ามามีบทบาทในชีวิตเรามากขึ้นเรื่อย ๆ ผมขอฝากเทคนิคในการพูดคุยกับโมเดลเหล่านี้ เพื่อให้คอมพิวเตอร์เข้าใจเราอย่างถูกต้องมากขึ้น อย่างแรกคือ ลักษณะการพูด พยายามพูดโดยไม่ใช้อารมณ์ พูดแบบปรกติให้มากที่สุด โมเดลเหล่านี้ถูกพัฒนามาสำหรับเสียงพูดปรกติ จะทำงานได้ดีเวลาเราพูดด้วยเสียงเรียบ ๆ เพราะฉะนั้นเวลาเราพูดอะไรแล้วคอมพิวเตอร์ฟังผิด อย่าแสดงน้ำเสียงโมโหหรือตะโกน เพราะจะทำให้คอมพิวเตอร์ฟังผิดมากขึ้นไปอีก ซึ่งการปฏิบัติตัวเช่นนี้จะต่างจากเวลาที่เราปฏิสัมพันธ์กับคนด้วยกันเองพอสมควร เวลาเราคุยกับเพื่อน แล้วเพื่อนฟังผิด เราอาจพูดด้วยเสียงที่ดังขึ้นหรือพูดเน้นเสียงที่คำใดคำหนึ่ง แต่ถ้าเราทำอย่างนี้กับคอมพิวเตอร์ จะไม่ได้รับผลดีเท่าที่ควร เพราะเป็นข้อจำกัดของปัญญาประดิษฐ์ในปัจจุบัน อย่างที่สองคือ การใช้คำ พยายามใช้ถ้อยคำที่เรียบง่าย หรือประโยคที่ตรงไปตรงมา ไม่ใช้คำแสลงหรือสำนวน เพราะโมเดล NLP ยังไม่สามารถประมวลข้อความที่ซับซ้อนได้

สุดท้ายนี้ผมขอฝากข้อคิดเรื่องการสื่อสารกับคอมพิวเตอร์ว่า ทั้งเราและคอมพิวเตอร์ต่างก็ต้องเรียนรู้และปรับตัว เมื่อใช้งานระบบพวกนี้ไปเรื่อย ๆ คนก็จะเริ่มปรับตัวและเรียนรู้วิธีสื่อสารกับคอมพิวเตอร์ได้อย่างมีประสิทธิภาพมากขึ้น ส่วนคอมพิวเตอร์เอง ก็พัฒนาเทคโนโลยีปัญญาประดิษฐ์มากขึ้นเรื่อย ๆ จนกระทั่งวันหนึ่ง เด็กในอนาคตอาจถามเราว่า “แป้นพิมพ์มีไว้ทำไม” ก็ได้

Our Writer

อ. ดร. เอกพล ช่วงสุวนิช

ดร. เอกพล ช่วงสุวนิช

อ.ประจำภาควิชาวิศวกรรมคอมพิวเตอร์  จุฬาลงกรณ์มหาวิทยาลัย ผู้หลงใหลในเรื่องภาษา เสียง และดนตรี

Share on facebook
Share on twitter
Share on google
Share on email

ผู้สนับสนุน

ติดต่อเรา

© copyright, 2020 AI for ALL