Home > Knowledge > Blog

เครื่องแปลภาษา (Machine Translation)

Posted By Plookpedia | 11 ส.ค. 60

7,659 Views

Favorite

เครื่องแปลภาษา (Machine Translation)

เครื่องแปลภาษา คือ เครื่องมือที่ใช้สำหรับการแปลข้อความจำนวนมาก ๆ จากภาษาหนึ่งไปยังอีกภาษาหนึ่งโดยที่สามารถป้อนข้อมูลภาษาต้นทางเป็นข้อความหรือเสียงก็ได้และจะได้ภาษาปลายทางเป็นข้อความหรือเสียงก็ได้เช่นกัน ซึ่งจะช่วยให้วงการการแปลสามารถแปลข้อความได้เป็นจำนวนมากและรวดเร็วในยุคที่ต้องการข้อมูลข่าวสารอย่างรวดเร็ว

อินเทอร์เน็ต — รูปแบบการทำงานของโปรแกรมแปลภาษาแบบภาษากลาง

ประวัติการทำวิจัยและพัฒนาเครื่องแปลภาษา

การทำวิจัยและพัฒนาเครื่องแปลภาษาเป็นงานแขนงหนึ่งในศาสตร์แห่งการประมวลผลภาษาธรรมชาติ (Natural Language Processing) เครื่องแปลภาษาเครื่องแรกได้กำเนิดขึ้นประมาณปี ค.ศ. ๑๙๓๐ เครื่องแปลภาษาเป็นซอฟต์แวร์ที่พยายามแปลข้อความในรูปประโยค โดยพิจารณาเรื่องวากยสัมพันธ์รวมถึงอรรถศาสตร์ด้วยไม่ใช่แปลเป็นคำ ๆ เท่านั้น

เครื่องแปลภาษาในยุคแรก (ปี ค.ศ. ๑๙๕๐ - ๑๙๖๐)

จากการสำรวจการทำวิจัยและพัฒนาเครื่องแปลภาษา (ALPAC 1966 - 672) พบว่า ระบบที่สำคัญที่สุดในยุคนี้คือ ระบบ Georetown Automatic Translation (GAT) ส่วนในยุโรปก็ ได้แก่ งานของ Kulagina และ Mel'cuk ในยุคแรกนี้เครื่องแปลภาษาจะแปลแบบตรง (directapproach) คือ แปลแบบพิจารณาเฉพาะที่โดยแปลจากภาษาต้นทางเป็นภาษาปลายทางโดยตรงทีละคู่ภาษาเท่านั้นและโปรแกรมจะพิจารณาไปทีละคำไม่ได้ดูเป็นประโยคเป็นการแปลคำต่อคำแล้วใช้การเปลี่ยนการเรียงลำดับคำให้สอดคล้องกับภาษาเป้าหมาย ส่วนการเขียนกฎไวยากรณ์หรือการใช้ความรู้ทางภาษาศาสตร์เพื่อมาช่วยในการวิเคราะห์นั้น ในยุคแรกนี้จะเขียนเป็นรหัสโดยตรงจึงใช้งานได้ยากและมีลักษณะเป็นกระบวนการ (procederal) กล่าวคือกระบวนการแปลทั้งหมดคือการทำตามคำสั่ง ต่อ ๆ กัน

แต่เป็นที่น่าเสียดายที่รายงาน ALPAC ดังกล่าวแสดงผลว่าการทำวิจัยและพัฒนาเครื่องแปลภาษาไม่ประสบความสำเร็จ รัฐบาลสหรัฐอเมริกาจึงไม่สนับสนุนงบประมาณในการทำวิจัยเรื่องนี้ซึ่งผลให้เกิดยุคมืดของการทำวิจัยและพัฒนาระบบแปลภาษาขึ้น อย่างไรก็ตามการทำวิจัยและพัฒนาในประเทศอื่น ๆ ก็ยังดำเนินต่อไป ในยุคนี้ได้มีการนำเครื่องแปลภาษามาใช้งานจริงในปี ค.ศ. ๑๙๗๖ ซึ่งทาง Commission of the European Communities ได้ตัดสินใจสั่งซื้อและพัฒนาระบบ Systran ซึ่งเป็นเครื่องแปลภาษาอังกฤษ - ฝรั่งเศส เพื่อใช้สำหรับบริการการกระจายข่าวของแคนาดาและหลังจากนั้นมาอีก ๕ ปี บริษัทต่าง ๆ ที่พัฒนาเครื่องแปลภาษาก็สามารถนำผลงานออกสู่ตลาดได้เป็นผลสำเร็จ

เครื่องแปลภาษาในยุคปี ค.ศ. ๑๙๘๐

งานวิจัยและพัฒนาเครื่องแปลภาษาในยุคนั้นยังให้ความสำคัญกับวากยสัมพันธ์ของภาษาและใช้วิธีการ "เปลี่ยน" (transfer approach) ตัวอย่างเช่น ระบบเอเรียน (Ariane) ของมหาวิทยาลัยเกรดนอบล์ประเทศฝรั่งเศษ ระบบเมทัลของเท็กซัส ระบบซูซี่ของSarbruken ระบบ MU ของมหาวิทยาลัยเกียวโต รวมถึงโครงการ Multilingual Eurotra ของกลุ่มประชาคมยุโรป ต่อมามีการนำวิธีการใช้ภาษากลาง (interlingual approach) เข้ามาใช้เพื่อที่จะทำการแปลแบบหลายภาษา (multilingual machine translation) ให้ได้ผล เช่น โครงการ DLT และ โรเซ็ตต้า (Rosetta) ประเทศเนเธอร์แลนด์ รวมทั้งโครงการระบบเครื่องแปลหลากภาษาสำหรับภาษาอาเซียน ๕ ภาษา คือ ภาษาญี่ปุ่น ภาษาจีน ภาษามาเลเซีย ภาษาอินโดนีเซีย และภาษาไทย การพัฒนาเครื่องแปลภาษาในยุคนี้มีแนวคิดเปลี่ยนไปจากเดิมคือเริ่มมองว่าเครื่องแปลภาษาเป็นเครื่องมือที่จะช่วยแปลภาษาเท่านั้นแต่ไม่สามารถนำมาทดแทนนักแปลภาษามืออาชีพได้ แนวคิดเช่นนี้ก่อให้เกิดการรวมตัวของนักวิจัยเพื่อหาแนวทางใหม่ ๆ ในการทำวิจัยและพัฒนาซึ่งสามารถสรุปแนวทางที่เกิดขึ้นในยุคนี้ได้ดังนี้

๑. เครื่องแปลภาษาแบบใช้กฎไวยากรณ์

สมมติฐานของการพัฒนาเครื่องแปลภาษาแบบใช้กฎไวยากรณ์ก็ คือ การมีกระบวนการวิเคราะห์และการสร้างรูปแทน (representation) ความหมายของภาษาต้นทางและสร้างภาษาปลายทาง จากรูปแทนนั้น โดนที่รูปแทนจะต้องไม่มีความกำกวมทั้งในระดับคำและโครงสร้างโดยมีการวิเคราะห์ภาษาต้นทางด้วยความรู้ทางภาษาศาสตร์ซึ่งประมวลผลออกมาเป็นกฎไววยากรณ์และมีวิธีใช้ เพื่อให้สามารถไปถึงจุดหมายนั้นได้หลายวิธี ดังนี้
๑.๑ เครื่องแปลภาษาแบบ "เปลี่ยน" แนวทางการใช้วิธีการ "เปลี่ยน" นั้น ได้แก่ ระบบเอเรียนและระบบยูโรทรา ฯลฯ ซึ่งเป็นระบบที่ให้ความสำคัญกับวากยสัมพันธ์ของภาษา

๑.๒ เครื่องแปลภาษาแบบ "ภาษากลาง" (Interlingual Approach) การทำวิจัยเครื่องแปลภาษาด้วยการใช้ภาษากลางนั้นเริ่มต้นที่มหาวิทยาลัย Carnegie - Melon ซึ่งทำวิจัยและพัฒนา Knowledge - based MT system โดยมีแนวคิดว่านอกเหนือจากการใช้ความรู้ทางภาษาศาสตร์แล้วในการแปลภาษาจะต้องมีความเข้าใจเรื่องหลักภาษาด้วย จึงมีการแปลงรูปแทนทางอรรถศาสตร์ โดยใช้ความรู้จากฐานความรู้ในโดเมนใด ๆ ซึ่งแสดงเป็นโครงข่าย (network) ที่แสดง actual events

๒. เครื่องแปลภาษาแบบใช้คลังข้อความ (Corpus - based Approach)

แนวคิดการทำวิจัยและพัฒนาเครื่องแปลภาษาได้เริ่มเข้าสู่ยุคใหม่ซึ่งมีการเก็บรวบรวมข้อความจำนวนมากที่เรียกว่า คลังข้อความ (Corpus base) เพื่อนำไปศึกษาวิจัยโดยอ้างอิงข้อมูลขนาดใหญ่ที่ใช้จริงในภาษาและมีการดึงข้อมูลจากคลังข้อความไปใช้ในการวิเคราะห์ภาษาหรือการสร้างภาษาโดยตรงจึงก่อให้เกิดวิธีการนำไปใช้ดังต่อไปนี้
๒.๑ วิธีอาศัยค่าสถิติ (Statistic Approach)
ในช่วงปลายคริสต์ทศวรรษ ๑๙๘๐ โครงการ IBM candide Research (Brown et all. 1980, 1990) ได้อาศัยวิธีการทางสถิติในการวิเคราะห์และการสร้างภาษา โดยอาศัยคลังข้อความขนาดใหญ่ที่มีชื่อว่า Canadian Hansard ซึ่งได้เก็บบันทึกการอภิปรายในสภาไว้เป็น ๒ ภาษา คือ ภาษาอังกฤษและภาษาฝรั่งเศส วิธีการที่นำมาใช้คือการหาขอบเขตของประโยค ๒ ภาษาที่ตรงกันจากคลังข้อความที่เป็นคู่ภาษาจากนั้นนำมาคำนวณหาค่าความเป็นไปได้ของคำในภาษาต้นทางว่าตรงกับภาษาปลายทางกี่คำ โดยคำนวณค่าความเป็นไปได้จากการจับคู่คู่คำที่อยู่ติดกัน (bigram) ของภาษาอังกฤษกับคู่คำที่อยู่ติดกัน (bigram) ของภาษาฝรั่งเศสซึ่งผลสำเร็จที่สามารถแปลได้มีความถูกต้องประมาณ ๔๘ % ต่อมามีการปรับปรุงการทำวิจัยและพัฒนาในเรื่องนี้ โดยปรับการคำนวณค่าความเป็นไปได้ให้ถูกต้องมากยิ่งขึ้น นอกจากนั้นนักวิจัยบางคนก็นำความรู้ทางภาษาศาสตร์เรื่องคำและไวยากรณ์มาใช้ร่วมกันเพื่อให้งานนั้นถูกต้องยิ่งขึ้น
๒.๒ วิธีการแปลแบบใช้ประโยคตัวอย่าง (Example base Approach)
ในกลางคริสต์ทศวรรษ ๑๙๘๐ นากาโอะ (Nagao) ได้เสนอวิธีการแปล โดยการใช้ประโยคตัวอย่างจากคลังข้อความคู่ภาษาขนาดใหญ่ซึ่งโปรแกรมจะคำนวณว่า ประโยคที่มีปรากฏว่าแปลไว้ในคลังตัวอย่างและดึงขึ้นมาใช้ โครงการ ATR ซึ่งมีเครื่องแปลภาษาแบบใช้วิธี "เปลี่ยน" ก็ได้นำวิธีนี้มาใช้ โดยเลือกเก็บประโยคตัวอย่างซึ่งได้มาจากการคำนวณค่าระยะห่างของคำที่มีความหมายใกล้เคียงกันในอภิธานศัพท์ (Thesaurus) และจะใช้การ "เปลี่ยน" ในระดับต่าง ๆ เช่น ระดับคำ ระดับรูปแบบ และระดับวากยสัมพันธ์ เช่น ในภาษาญี่ปุ่น โครงสร้าง N1 no N2 จะเปลี่ยนไปให้ตรงกับ N2 of N1 แต่ก็ไม่เสมอไป เช่น จะใช้สำนวนว่า fee for the conference มากกว่า fee of the conference และจะใช้ conference in Tokyo มากกว่า conference of Tokyo ดังนั้นจึงมีการเก็บประโยคตัวอย่างเหล่านี้ไว้

เครื่องแปลภาษาไทยเป็นภาษาอื่น ๆ

การทำวิจัยและพัฒนาเครื่องแปลภาษาในประเทศไทยเริ่มต้นในปี พ.ศ. ๒๕๒๔ โดยจุฬาลงกรณ์มหาวิทยาลัยร่วมกับมหาวิทยาลัยเกรอนอบล์ (Grenoble) แห่งประเทศฝรั่งเศสได้ร่วมโครงการทำวิจัยและแปลภาษาเป็นไทยด้วยคอมพิวเตอร์ซึ่งเป็นโครงการของทบวงมหาวิทยาลัย (พ.ศ. ๒๕๒๔ - ๒๕๓๐) ต่อมาก็เกิดโครงการความร่วมมือในการพัฒนาระบบแปลหลากภาษา สำหรับภาษาในเอเชียซึ่งได้แก่ ภาษาจีน ญี่ปุ่น มาเลเซีย อินโดนีเซีย และไทย โครงการนี้เป็นโครงการของกระทรวงวิทยาศาสตร์เทคโนโลยีและสิ่งแวดล้อมซึ่งดำเนินการโดยศูนย์เทคโนโลยีอิเล็กทรอนิกส์และคอมพิวเตอร์แห่งชาติ (พ.ศ. ๒๕๓๐ - ๒๕๓๗)

แหล่งข้อมูล
ข้อมูลจากหนังสือสารานุกรมไทยสำหรับเยาวชน ฯ เล่ม 25 เรื่องที่ 7 ลิขสิทธิ์เป็นของพระบาทสมเด็จพระเจ้าอยู่หัว

เว็บไซต์ทรูปลูกปัญญาดอทคอมเป็นเพียงผู้ให้บริการพื้นที่เผยแพร่ความรู้เพื่อประโยชน์ของสังคม ข้อความและรูปภาพที่ปรากฏในบทความเป็นการเผยแพร่โดยผู้ใช้งาน หากพบเห็นข้อความและรูปภาพที่ไม่เหมาะสมหรือละเมิดลิขสิทธิ์ กรุณาแจ้งผู้ดูแลระบบเพื่อดำเนินการต่อไป

Tags
การแปลภาษา โปรแกรมแปลภาษา เครื่องแปลภาษา การเเปลภาษาในคอมพิวเตอร์ ระบบ georetown automatic translation

โปรแกรมตัดคำภาษาไทย (Thai Word Segmentation)

VIEW ALL CHAPTER

โปรแกรมรู้จำอักขระไทยด้วยแสง (ไทยโอซีอาร์)

โปรแกรมตัดคำภาษาไทย (Thai Word Segmentation)

โปรแกรมรู้จำอักขระไทยด้วยแสง (ไทยโอซีอาร์)

VIEW ALL

Posted By
Plookpedia
15 Followers
Follow