Home
Education
Classroom
Knowledge
Blog
TV
ธรรมะ
กิจกรรม
โครงการทรูปลูกปัญญา

การประยุกต์ใช้ภาษาไทยบนคอมพิวเตอร์

Posted By Plookpedia | 11 ส.ค. 60
17,151 Views

  Favorite

การประยุกต์ใช้ภาษาไทยบนคอมพิวเตอร์

      เด็ก ๆ คงจะรู้จักเครื่องคอมพิวเตอร์กันแล้วส่วนใหญ่เราจะใช้คอมพิวเตอร์เพื่อเล่นเกม วาดรูป หรือหาความรู้จากสื่อช่วยสอน ใครเคยสังเกตบ้างว่าทำไมเราจึงสามารถเล่นเกมซีดีรอมหรือสื่อช่วยสอนวิชาต่าง ๆ ซึ่งมีการแสดงผลบนหน้าจอคอมพิวเตอร์เป็นตัวหนังสือภาษาไทยได้ในขณะที่โปรแกรมจากต่างประเทศจะไม่สามารถแสดงผลด้วยตัวหนังสือภาษาไทยได้เลย นักวิชาการและนักวิจัยหลาย ๆ คนในประเทศไทยได้ทำวิจัยและศึกษาค้นคว้าเพื่อให้คอมพิวเตอร์แสดงผลเป็นภาษาไทยจึงทำให้คนไทยโดยเฉพาะเด็ก ๆ สามารถใช้คอมพิวเตอร์ได้อย่างง่ายดายมิฉะนั้นแล้วเราจะต้องเริ่มเรียนภาษาอังกฤษตั้งแต่แรกเกิดเพื่อที่จะใช้คอมพิวเตอร์ซึ่งแสดงผลเฉพาะภาษาอังกฤษเท่านั้น  ทั้งนี้เป็นเพราะคอมพิวเตอร์เริ่มสร้างขึ้นครั้งแรกในประเทศสหรัฐอเมริกาซึ่งใช้ภาษาอังกฤษเป็นภาษาประจำชาติ  ประเทศต่าง ๆ ที่ไม่ได้ใช้ภาษาอังกฤษเป็นภาษาประจำชาติจึงต้องมีการทำวิจัยและพัฒนาให้คอมพิวเตอร์สามารถแสดงผลและเข้าใจภาษาของประเทศนั้น ๆ ได้ เพื่อให้คนในประเทศได้พิมพ์และอ่านเรื่องราวต่าง ๆ บนคอมพิวเตอร์ เป็นภาษาของประเทศนั้น ๆ ตัวอย่างเช่น ประเทศญี่ปุ่นก็ต้องพัฒนาให้คอมพิวเตอร์สามารถแสดงผลบนจอเป็นภาษาญี่ปุ่นและรับข้อมูลเข้าเป็นภาษาญี่ปุ่นได้เช่นเดียวกัน

 

อินเทอร์เน็ต
อินเทอร์เน็ต
อินเทอร์เน็ต

 

      ประโยชน์ของการใช้ภาษาไทยบนคอมพิวเตอร์นั้นมีมากมาย นอกจากจะแสดงผลและรับข้อมูลเข้าเป็นภาษาไทยได้แล้วนักวิจัยไทยก็ยังได้ทำวิจัยและพัฒนาโปรแกรมอื่น ๆ เพื่อที่จะสอนให้คอมพิวเตอร์เข้าใจภาษาไทยได้อีกด้วย ดังตัวอย่างต่อไปนี้

โปรแกรมการเรียงลำดับคำไทย 

      ถ้าเราจะค้นหาชื่อเพื่อนในสมุดรายนามผู้ใช้โทรศัพท์ให้ได้โดยเร็ว เราต้องจำลำดับตัวอักษร ก - ฮ และลำดับสระให้ได้ก็จะสามารถค้นหาชื่อเพื่อนที่เรียงตามลำดับตัวอักษรได้ง่ายเพราะโปรแกรมนี้ได้ช่วยเรียงคำตามลำดับตัวอักษรไว้แล้ว

โปรแกรมการสืบค้นคำไทยตามเสียงอ่าน 

      ถ้าเราต้องการทราบเลขหมายโทรศัพท์ของเพื่อนจากบริการสอบถามเลขหมายโทรศัพท์ ๑๑๓๓ แต่ถ้าเราไม่สามารถสะกดชื่อเพื่อนได้พนักงานที่รับโทรศัพท์ก็จะใช้โปรแกรมนี้ค้นชื่อเพื่อนตามเสียงอ่านของเรา เราก็จะทราบเลขหมายโทรศัพท์ของเพื่อนตามที่ต้องการ

 

อินเทอร์เน็ต
อินเทอร์เน็ต

 

โปรแกรมตัดคำภาษาไทย 

      เมื่อเราพิมพ์รายงานส่งครูและต้องการตรวจสอบตัวสะกดว่าถูกต้องหรือไม่  โปรแกรมนี้ต้องแบ่งวลีที่เขียนติดต่อกันยาว ๆ ให้เป็นคำ ๆ ก่อนจึงจะสามารถนำคำแต่ละคำ ไปตรวจสอบตัวสะกดได้

 

อินเทอร์เน็ต

 

โปรแกรมแปลภาษา 

      ถ้าเราอยากทราบว่าคำในภาษาอังกฤษที่เห็นบนจอจะแปลเป็นภาษาไทยว่าอย่างไร โปรแกรมแปลภาษาจะช่วยแปลทั้งคำ วลี หรือประโยคจากภาษาอื่น ๆ มาเป็นภาษาไทยได้ โปรแกรมนี้จะช่วยส่งเสริมการศึกษาได้เป็นอย่างดี

 

อินเทอร์เน็ต

 

โปรแกรมรู้จำอักขระไทยด้วยแสง (ไทยโอซีอาร์) 

      ถ้าเราพิมพ์งานด้วยคอมพิวเตอร์ไม่เก่ง โปรแกรมโอซีอาร์สามารถช่วยเราได้โดยการแปลงแฟ้มข้อมูลภาพมาเป็นแฟ้มข้อความด้วยเครื่องสแกนเนอร์โดยที่เราไม่ต้องพิมพ์งานเอง การประยุกต์ใช้ภาษาไทยบนคอมพิวเตอร์มีประโยชน์มากมายดังที่ได้ยกตัวอย่างมานี้เป็นเพียงส่วนหนึ่งเท่านั้น  นักวิจัยยังจะต้องศึกษาค้นคว้าต่อไปเพื่อให้เรามีคอมพิวเตอร์ที่สามารถใช้งานได้ง่ายที่สุด เช่น ไม่ต้องใช้แป้นพิมพ์เพื่อพิมพ์งานเข้าคอมพิวเตอร์ โดยสามารถสั่งงานคอมพิวเตอร์ด้วยเสียงก็ได้หรือตั้งคำถามให้คอมพิวเตอร์ค้นข้อมูลและตอบคำถาม เป็นต้น

 

อินเทอร์เน็ต

 

 

 

      ในยุคสารสนเทศ (Information age) นี้ข้อมูลข่าวสารเป็นสิ่งจำเป็นที่เราสามารถค้นหาหรือเผยแพร่ได้โดยง่ายด้วยเทคโนโลยีที่ไร้พรมแดนคือ อินเทอร์เน็ต (Internet) จึงทำให้มนุษย์สามารถติดต่อกันได้ทั่วโลกไม่ว่าจะอยู่ที่ใด เมื่อเชื่อมต่อเครื่องคอมพิวเตอร์เข้ากับเครือข่ายอินเทอร์เน็ตได้เราก็สามารถพูดคุยหรือส่งจดหมายอิเล็กทรอนิกส์ให้แก่บุคคลอื่นได้ด้วยตัวเองโดยไม่ต้องมีหน่วยงาน เช่น ที่ทำการไปรษณีย์โทรเลข ทำหน้าที่รับส่ง และไม่ต้องอาศัยบุรุษไปรษณีย์ในการนำส่งจดหมายอีกต่อไป เมื่อเทคโนโลยีคอมพิวเตอร์เข้ามามีบทบาทสำคัญในการติดต่อสื่อสาร การพิมพ์เอกสาร การค้นหาข้อมูลข่าวสาร การเผยแพร่ข่าวสาร ฯลฯ ดังนั้นคนไทยจึงมุ่งหวังที่จะให้คอมพิวเตอร์สามารถทำงานรองรับการใช้งานภาษาไทยโดยรับข้อมูลเข้าและแสดงผลเป็นภาษาไทยได้รวมทั้งเข้าใจและโต้ตอบด้วยภาษาไทยได้ซึ่งจะเป็นประโยชน์ต่อคนไทยอย่างอเนกอนันต์ทั้งในด้านวิชาการ ธุรกิจ และบันเทิง ด้วยความจำเป็นดังกล่าวนักวิชาการและนักวิจัยในประเทศไทยจึงต้องทำวิจัยและพัฒนาเทคโนโลยีเพื่อให้มีความเจริญทัดเทียมเทคโนโลยีต่างประเทศที่ก้าวหน้าไปอย่างมาก

 

อินเทอร์เน็ต


การประมวลผลภาษาไทยบนคอมพิวเตอร์ 

      เทคโนโลยีที่เรานำมาใช้ในการประมวลผลและการประยุกต์ใช้ภาษาไทยบนคอมพิวเตอร์ ประกอบไปด้วยวิทยาการทางด้านวิศวกรรมคอมพิวเตอร์ (Computer Engineering) ผสมผสานกับเทคโนโลยีทางด้านการประมวลผลภาษาธรรมชาติ (Natural Language Processing) ซึ่งได้แก่ การประมวลผลอักขระ (Character processing) การประมวลผลคำ (Word processing) การประมวลผลข้อความ (Text processing) การประมวลผลภาพ (Image processing) รวมทั้งความรู้ทางภาษาศาสตร์ (Linguistics)  ผู้เชี่ยวชาญและนักวิจัยทั้งจากภาครัฐและภาคเอกชนมีความสนใจงานวิจัยและพัฒนาโปรแกรมการประมวลผลภาษาไทยบนคอมพิวเตอร์อย่างกว้างขวางเพื่อให้ผู้ใช้คนไทยสามารถใช้งานคอมพิวเตอร์ด้วยภาษาไทยได้อย่างมีประสิทธิภาพ  ในที่นี้จะอธิบายโปรแกรมการประมวลผลบางโปรแกรมเพื่อเป็นความรู้พื้นฐานให้เข้าใจเรื่องการประยุกต์ใช้ภาษาไทยบนคอมพิวเตอร์ ดังต่อไปนี้

๑. โปรแกรมการเรียงลำดับคำไทย (Thai Sorting) 

      การเรียงลำดับคำในพจนานุกรม การเรียงลำดับชื่อบุคคลในสมุดรายนามผู้ใช้โทรศัพท์หรือการเรียงลำดับคำให้สามารถค้นหาได้โดยง่ายจำเป็นต้องมีการเรียงตามลำดับตัวอักษรและตามมาตรฐานการเรียงลำดับคำไทยที่ยึดถือตามพจนานุกรมฉบับราชบัณฑิตยสถาน พ.ศ. ๒๕๒๕ ประโยชน์ของการเรียงลำดับ คือ ช่วยให้การค้นหาทำได้ง่ายขึ้นทั้งการค้นโดยคอมพิวเตอร์และการค้นโดยผู้ใช้ ตัวอย่างที่เห็นได้อย่างชัดเจน คือ การค้นหาคำในพจนานุกรมหรือการค้นหาฐานข้อมูลชื่อต่าง ๆ เช่น ชื่อบุคคล ชื่อหน่วยงาน ชื่อแฟ้มเอกสาร เป็นต้น ถ้าได้จัดเรียงไว้ตามลำดับแล้วก็จะสามารถประหยัดเวลาในการค้นหาได้

 

อินเทอร์เน็ต
ตัวอย่างโปรแกรมพจนานุกรมที่เรียงลำดับคำไทยตามตัวอักษร


๒. โปรแกรมการสืบค้นคำไทยตามเสียงอ่าน (Thai Soundex) 

      การค้นหาคำไทยที่มีเสียงพ้องหรือคำที่สามารถสะกดได้หลายแบบนั้นสามารถแก้ปัญหาได้โดยการค้นหาคำตามเสียงอ่าน  ทั้งนี้ตามธรรมชาติของผู้ใช้ภาษาโดยทั่วไปจะเคยชินกับเสียงอ่านของคำมากกว่าตัวสะกด นอกจากนั้นเสียง ๑ เสียงสามารถแทนคำได้มากกว่า ๑ คำ เช่น เสียง "ค่า" หมายความถึง ข้า ค่า หรือ ฆ่า ก็ได้ ชื่อเฉพาะทั้งหลายก็สามารถสะกดได้หลายแบบ เช่น เพชรรัตน์ (อ่านว่า เพ็ด - ชะ - รัด) อาจสะกดเป็น เพชรัตน์ เพ็ชรัตน์ เพ็ชรรัตน์ เพชรรัช เพชรรัชต์ เพชรรัฐ เพชรรัตต์ เพชรรัตติ์ เพชรรัศม์ ฯลฯ จึงได้มีการคิดวิธีค้นตามเสียงอ่านขึ้นเพื่ออำนวยความสะดวกต่อผู้ใช้ในสถานการณ์ที่ไม่สามารถสะกดคำได้อย่างถูกต้อง เช่น การค้นหาชื่อในฐานข้อมูลสำมะโนประชากร ในสมุดรายนามผู้ใช้โทรศัพท์ หรือในโปรแกรมตรวจคำผิด เป็นต้น

 

อินเทอร์เน็ต
การทำงานของโปรแกรมการสืบค้นคำไทยตามเสียงอ่าน

 

๓. โปรแกรมตัดคำภาษาไทย (Thai Word Segmentation)

      ลักษณะการเขียนภาษาไทยซึ่งเขียนติดต่อกันเป็นสายอักขระโดยไม่มีเครื่องหมายวรรคตอนแสดงการแบ่งคำ ดังเช่นภาษาอังกฤษเป็นอุปสรรคอย่างหนึ่งที่ต้องการการศึกษาทำวิจัยและพัฒนา เพื่อให้คอมพิวเตอร์สามารถคำนวณแบ่งสายอักขระไทยให้เป็นคำ ๆ ซึ่งจะส่งผลให้การทำงานของคอมพิวเตอร์ในการค้นหาคำใด ๆ เป็นไปอย่างถูกต้องและแม่นยำรวมถึงการจัดขอบขวาในโปรแกรมประมวลผลคำด้วย เป็นต้น ตัวอย่างเช่น ถ้ามีข้อความว่า "ฉันนั่งตากลมที่หน้าบ้าน" จะต้องทำให้คอมพิวเตอร์รู้ว่าเป็น "ฉัน นั่ง ตาก ลม ที่ หน้า บ้าน" ไม่ใช่ "ฉัน นั่ง ตา กลม ที่ หน้า บ้าน"

๔. โปรแกรมแปลภาษา (Machine Translation) 

      โปรแกรมแปลภาษา คือ เครื่องมือที่ใช้สำหรับแปลข้อความจำนวนมาก ๆ จากภาษาหนึ่งไปเป็นภาษาหนึ่งโดยสามารถป้อนข้อมูลภาษาต้นทางเป็นข้อความหรือเสียงพูดก็ได้ ผลที่ได้รับคือจะได้ภาษาปลายทางเป็นข้อความหรือเสียงพูดก็ได้เช่นกันซึ่งจะช่วยให้วงการการแปลสามารถแปลข้อความได้เป็นจำนวนมากและรวดเร็ว  

      การทำวิจัยและพัฒนาเครื่องแปลภาษาเป็นงานแขนงหนึ่งในศาสตร์แห่งการประมวลผลภาษาธรรมชาติ เครื่องแปลภาษาเครื่องแรกถูกผลิตขึ้นประมาณปี ค.ศ. ๑๙๓๐ เป็นซอฟต์แวร์ที่พยายามแปลข้อความในรูปประโยค โดยพิจารณาเรื่องของวากยสัมพันธ์ รวมถึงอรรถศาสตร์ด้วย ไม่ใช่แปลเป็นคำ ๆ เท่านั้น การทำวิจัยและพัฒนาเครื่องแปลภาษาในประเทศไทยเริ่มต้นในปี พ.ศ. ๒๕๒๔ โดยจุฬาลงกรณ์มหาวิทยาลัยและมหาวิทยาลัยเกรอนอบล์ (Grenoble) แห่งประเทศฝรั่งเศสได้ร่วมกันจัดทำโครงการวิจัยและแปลภาษาอังกฤษเป็นภาษาไทยด้วยคอมพิวเตอร์  ซึ่งเป็นโครงการของทบวงมหาวิทยาลัย (พ.ศ. ๒๕๒๔ - ๒๕๓๐) ต่อมาก็เกิดโครงการความร่วมมือในการพัฒนาระบบแปลหลากภาษาสำหรับภาษาในเอเชีย ได้แก่ ภาษาจีน ญี่ปุ่น มลายู อินโดนีเซีย และไทย ซึ่งเป็นโครงการของกระทรวงวิทยาศาสตร์เทคโนโลยีและสิ่งแวดล้อมซึ่งดำเนินการภายใต้ศูนย์เทคโนโลยีอิเล็กทรอนิกส์และคอมพิวเตอร์แห่งชาติ (พ.ศ. ๒๕๓๐ - ๒๕๓๗)

๕. โปรแกรมรู้จำอักขระไทยด้วยแสง หรือไทยโอซีอาร์ (Thai Optical Character Recognition) 

      โอซีอาร์เป็นคำย่อของภาษาอังกฤษว่า "Optical Character Recognition : OCR" แปลเป็นภาษาไทยได้ว่า "การรู้จักอักขระด้วยแสง" เป็นงานประยุกต์งานหนึ่งของสาขาวิทยาการคอมพิวเตอร์ที่ได้รับความสนใจและพัฒนามานานกว่า ๗๐ ปีแล้ว  โอซีอาร์เป็นการรู้จำรูปแบบตัวอักษรซึ่งเป็นงานวิจัยในสาขาการรู้จำรูปแบบ (Pattern Recognition) เป็นเทคโนโลยีที่ส่งผลให้ระบบคอมพิวเตอร์สามารถระบุรูปแบบได้อย่างถูกต้อง เช่น สามารถจะบอกได้ว่าภาพนั้นคือภาพอะไร ภาพตัวอักษรนั้นคือตัวอักษรอะไร หรือเสียงนั้นคือเสียงของคำสั่งอะไร เป็นต้น
      นักวิจัยมีความสนใจงานโอซีอาร์เป็นอย่างมากเพราะเป็นงานที่เกี่ยวข้องกับเอกสาร การเก็บข้อมูลเหล่านี้ให้เป็นแฟ้มข้อความ (Text File) ไว้ในระบบคอมพิวเตอร์นั้นต้องใช้บุคลากรในการจัดพิมพ์เอกสารนั้น ๆ โดยใช้โปรแกรมประมวลผลคำ ถึงแม้ว่าโปรแกรมประเภทนี้จะมีความสามารถและเป็นเครื่องมือที่ดีแต่ก็ยังต้องใช้บุคลากรจำนวนมากและใช้เวลานาน ถ้าโอซีอาร์ประสบผลสำเร็จงาน พิมพ์เอกสารต่าง ๆ เพื่อเก็บเป็นแฟ้มข้อความก็จะกลายเป็นหน้าที่ของระบบคอมพิวเตอร์  การประมวลผลของโอซีอาร์โดยทั่วไปจะเร็วกว่าการพิมพ์ของมนุษย์เฉลี่ยประมาณ ๕ เท่า และในบางระบบการประมวลผลของโอซีอาร์จะมีความถูกต้องมากกว่าการพิมพ์ของมนุษย์อีกด้วย

 

อินเทอร์เน็ต
แสดงขั้นตอนการทำงานของโปรแกรมรู้จำอักขระไทยด้วยแสง

 

      ตัวอย่างโปรแกรมเพื่อการประยุกต์ใช้ภาษาไทยบนคอมพิวเตอร์ที่ได้กล่าวมาแล้วข้างต้นล้วนเป็นงานที่ได้รับการพัฒนาขึ้นโดยนักวิจัยไทยทั้งสิ้น อย่างไรก็ตามงานวิจัยและพัฒนาในเรื่องนี้ยังต้องดำเนินต่อไปเพื่อประโยชน์สูงสุดในการประยุกต์ใช้ภาษาไทยบนคอมพิวเตอร์ เช่น การสั่งงานด้วยเสียงพูดโดยไม่ต้องใช้แป้นพิมพ์ การสนทนาโต้ตอบกับคอมพิวเตอร์ การสอบถาม และการค้นหาแบบอัตโนมัติ ทั้งนี้นักวิจัยไทยมีความมุ่งหวังว่าในอนาคตคนไทยจะสามารถใช้งานโปรแกรมเหล่านี้ได้ตามที่ตั้งปณิธานไว้

 

อินเทอร์เน็ต

 

อินเทอร์เน็ต
การเล่นเกมคอมพิวเตอร์ทำให้รู้สึกเสมือนว่าอยู่ในไซเบอร์สเปซ

 

เว็บไซต์ทรูปลูกปัญญาดอทคอมเป็นเพียงผู้ให้บริการพื้นที่เผยแพร่ความรู้เพื่อประโยชน์ของสังคม ข้อความและรูปภาพที่ปรากฏในบทความเป็นการเผยแพร่โดยผู้ใช้งาน หากพบเห็นข้อความและรูปภาพที่ไม่เหมาะสมหรือละเมิดลิขสิทธิ์ กรุณาแจ้งผู้ดูแลระบบเพื่อดำเนินการต่อไป
  • Posted By
  • Plookpedia
  • 15 Followers
  • Follow