Turing Test คืออะไร? ยังใช้ได้กับ AI ยุคนี้หรือไม่!?

กว่า 70 ปีแล้ว ที่มีการใช้ Turing Test ทดสอบความสามารถของ AI แต่ในยุคสมัยนี้ที่ปัญญาประดิษฐ์ฉลาดขึ้นอย่างก้าวกระโดด การทดสอบ AI ที่เคยถูกมองว่าเป็น Impossible Test ตอนนี้จะเริ่มล้าสมัยแล้วรึยัง? แล้วหากอยากทดสอบประสิทธิภาพของ AI ในยุคสมัยนี้มีวิธีอะไรบ้าง? ใครอยากรู้ ตามมาอ่านกันได้เลยครับ!

Turing Test คือ?

Turing Test คือการทดสอบระบบคอมพิวเตอร์ หรือระบบ AI ว่ามีระบบความคิดที่ฉลาดสามารถเทียบเท่ากับมนุษย์แล้วรึยัง โดยวิธีการขั้นพื้นฐานที่สุดคือการให้นักวิจัย วิทยาศาสตร์โต้ตอบกับกลุ่มคน ที่หนึ่งในนั้นจะเป็นคอมพิวเตอร์ หุ่นยนต์ หรือ AI ซึ่งหากไม่สามารถทำการแยกแยะออกก็จะแสดงให้เห็นทันทีว่าหุ่นยนต์มีความสามารถทัดเทียมกับมนุษย์

จุดประสงค์ของ Turing Test จึงไม่ใช่เพียงแยกแยะคนกับเครื่องจักร แต่เป็นการทดสอบที่ผลัดกันการพัฒนาของคอมพิวเตอร์ หรือระบบ AI ให้มีความฉลาดใกล้เคียงมนุษย์มากขึ้น พร้อมกับหาจุดอ่อนของระบบ และนำมาปรับให้สามารถเรียนรู้และตอบสนองกับมนุษย์ได้อย่างมีประสิทธิภาพมากยิ่งขึ้น

ประวัติของ Turing Test

ชื่อของ Turing Test นั้นมาจาก Alan Turing นักวิทยาศาสตร์ผู้บุกเบิกสาขาวิทชาเกี่ยวกับ AI และ Machine Learning ตั้งแต่ในช่วงสงครามโลกครั้งที่สอง ช่วงปี 1940 – 1950 ผ่านงานวิจัยที่ชื่อว่า “Computing Machinery and Intelligence” ที่ทำการวิจัยร่วมกับ University of Manchester

Turing Test มีขึ้นโดยใช้แนวความคิดง่าย ๆ คล้าย ๆ กับ Imitation Game แต่แทนที่จะใช้ในเชิงสืบสวนสอบสวน จะใช้ในการวิจัยความสามารถของระบบคอมพิวเตอร์แทน โดยจะมีผู้ทำสอบทั้งสิ้น 2 คน มีผู้ถูกทดสอบ 3 คน ซึ่ง 2 คนจะเป็นคนจริง ๆ ส่วนอีก 1 คนจะต้องถูกแทนที่ด้วยระบบ AI ซึ่งผู้ทดสอบจะทำการป้อนคำถามเดียวกันไปให้คน และ AI ตอบพร้อมกัน หกลังจากได้รับคำตอแล้ว ผู้ทดสอบจะต้องพยายามแยกแยะให้ได้ว่าผู้ทดสอบ 2 คนไหนเป็นคน และเป็น AI หากผู้ทดสอบตอบผิด จะถือว่าระบบ AI นั้น ๆ มีศักยภาพสูง ซึ่งระบบ Chatbot แรก ๆ ที่สามารถผ่าน Turing Test ก็คือเจ้า Eliza ที่ขึ้นชื่อว่าเป็น Chatbot แรกของโลก

ข้อจำกัดของ Turing Test

สมัยก่อน เนื่องจากความสามารถของคอมพิวเตอร์ยังจำกัดมาก ๆ คำถามที่จะถูกใช้ใน Turing Test จึงเป็นคำถามปลายปิด เช่นคำถาม ‘ใช่’ หรือ ‘ไม่ใช่’ ‘ผิด’ หรือ ‘ถูก’ รวมไปถึงการถามตอบจะถูกจำกัดเพียงไม่กี่หัวข้อ

Turing Test ทดสอบ AI ในยุคปัจจุบัน

เนื่องจากปัจจุบัน ด้วยการพัฒนาทั้งเรื่องของ Database และ ระบบเรียนรู้ภาษา LLMs (Large Language Models) ทำให้ในช่วงปี 2022 จนถึงปัจจุบัน AI ฉลาดขึ้นอย่างน่าตกใจ และโฟกัสของนักวิจัยทั้งหลายไม่ได้ต้องการพัฒนา AI ให้เหมือนคนที่สุดอีกต่อไปแล้ว Turing Test จึงไม่ได้ถูกทดสอบอย่างจริงจัง เพื่อผลักดันให้ AI มีความเหมือนคนอีกต่อไป หากแต่พื้นฐานของการทดสอบ Turing Test ก็ยังคงมีการจัดขึ้นบ้าง แค่อาจอยู่ในรูปแบบการจัดเพื่อแสดงศักยภาพของ AI หรือการแข่งขัน ประกวดต่าง ๆ

ทดสอบ ChatGPT กับ Call-Center

นักวิทยาศาสตร์ ร่วมกับกลุ่มสื่อจาก Buzzfeed ได้มีการทดสอบสนุก ๆ โดยการใช้ ChatGPT พูดคุยโต้ตอบกับ Call-Center จากฟิลิปปินส์ ผลคือผู้ทดสอบเกินกว่าครึ่งไม่สามารถแยกแยะความแตกต่างได้ว่าตนกำลังสื่อสารกับ ChatGPT หรือคนจริง ๆ โดนครั้งนี้เป็นการทดสอบโดยที่ไม่ได้สคริปต์คำถามแต่อย่างใด

ทดสอบ Google Duplex ให้นัดช่างเสริมสวย

ในปี 2018 ได้มีการแสดงถึงประสิทธิภาพในการสื่อสารของ Google Duplex โดยการให้ระบบทำการจองนัดทำผม เสริมสวยกับช่างเสริมสวยจริง ๆ ต่อหน้าผู้คนที่มาร่วมรับฟังการเปิดตัวของ Google กว่า 7000 ชีวิต ผลก็คือช่างทำผมไม่รู้เลยว่าเธอกำลังพูดคุยอยู่กับ AI

บททดสอบระบบ AI อื่น ๆ

นอกจากระบบ AI ที่พัฒนาอย่างต่อเนื่องแล้ว การทดสอบระบบต่าง ๆ ก็มีการพัฒนาให้หลากหลาย และตอบโจทย์มากขึ้น โดยกล่าวว่าจุดประสงค์ของ AI ไม่ได้มีไว้เพื่อสามารถคิดได้เหมือนผู้คน แต่ความสามารถในการประมวลผล และซัพพอร์ตการทำงานของมนุษย์ได้มากกว่า นี้ทำให้รูปแบบการทดสอบ AI พัฒนาต่อยอดมาจาก Turing Test ให้มีความเฉพาะด้านมากขึ้น

Winograd Schema Challenge

เป็นบททดสอบที่ถูกสร้างขึ้นเพื่ออุดรอยรั่วของ Turing Test ถูกพัฒนาขึ้นในปี 2012 โดยจะให้ระบบ AI ตอบแบบสอบถามที่จะถูกสุ่มถามขึ้นมา โดยแบบสอบถามนี้มีชื่อว่า Winograd Schemas โดยจะเน้นในการทดสอบความเข้าใจพื้นฐานภาษาอังกฤษ รวมถึง context ต่าง ๆ มุ่งเน้นพัฒนาระบบ AI ให้มีความเข้าใจในภาษา

โดยหลังจาก AI มีการพัฒนาระบบ LLMs ทำให้ในปี 2019 Winograd Schema Challenge ถูกพิชิตลงได้โดยมีความแม่นยำกว่า 90% และเป็นส่วนสำคัญมาก ๆ ในการพัฒนาความเข้าใจภาษาของ AI

The Lovelace Test 2.0

ถูกพัฒนาขึ้นประมาณปี 2014 เป็นบททดสอบที่โฟกัสไปที่ความคิดสร้างสรรค์ หรือความสามารถในการคิดนอกกรอบ หรือ AI สามารถสร้างผลงานของตนเอง ผลงานที่มีความออริจินัลหรือไม่ ซึ่งเป็นหนึ่งในสัญญาณว่าระบบ AI มีความใกล้เคียงกับระบบความรู้ของมนุษย์ยิ่งขึ้น

โดยวิธีการทดสอบ จะใช้ระบบคอมพิวเตอร์ ควบคู่ไปกับการประเมินของมนุษย์เข้ามาด้วย โดยยิ่ง AI สามารถแสดง Output ที่มีความแตกต่างจาก Input โดยที่ไม่สูญเสียความเชื่อมโยงของเนื้อความได้มากเท่าไหร่ ก็จะยิ่งได้คะแนนจาก The Lovelace Test 2.0 ไปได้มากเท่านั้น

สรุปแล้ว Turing Test ยังไม่หายไปไหน เพราะหัวใจสำคัญของการทดสอบรูปแบบนี้ยังคงผลักดันขีดจำกัดของ AI มาตลอดกว่า 70 ปี แต่จุดประสงค์ของการทดสอบจะเปลี่ยนไป เพราะฟังก์ชันของ AI ไม่ได้มาแทนที่มนุษย์ หากแต่เป็นการการพัฒนาความสามารถของ AI ในหลาย ๆ ด้าน เพื่อให้สามารถนำมาใช้งานควบคู่ไปกับมนุษย์ได้อย่างมีประสิทธิภาพนั่นเอง