แบบจำลองภาษา

จาก testwiki
ไปยังการนำทาง ไปยังการค้นหา

แบบจำลองภาษา (language model) คือแบบจำลองเชิงสถิติที่แสดงการแจกแจงความน่าจะเป็น สำหรับข้อความภาษาธรรมชาติ[1]

คำอธิบาย

เมื่อมีสายอักขระข้อความที่มีความยาว แม่แบบ:Mvar แบบจำลองภาษาจะคำนวณความน่าจะเป็นของสายอักขระคำทั้งหมด P(w1,,wm) การแจกแจงความน่าจะเป็นนี้ได้มาจากการฝึกแบบจำลองภาษาโดยใช้คลังข้อความของภาษาหนึ่ง ๆ หรือหลายภาษา อย่างไรก็ตาม เนื่องจากภาษาสามารถมีประโยคที่ถูกต้องได้จำนวนไม่จำกัด ความท้าทายสำหรับการสร้างแบบจำลองภาษาคือการทำให้ลำดับคำที่ถูกต้องทางภาษาที่ไม่พบในข้อมูลการฝึกได้ค่าความน่าจะเป็นที่ไม่เป็นศูนย์ มีการคิดค้นวิธีการสร้างแบบจำลองต่าง ๆ เพื่อจัดการกับปัญหานี้ เช่น สมบัติมาร์คอฟ และสถาปัตยกรรมโครงข่ายประสาทเทียมดังเช่น โครงข่ายประสาทแบบเวียนซ้ำ หรือ ทรานส์ฟอร์เมอร์

แบบจำลองภาษามีประโยชน์สำหรับปัญหาต่าง ๆ ในภาษาศาสตร์คอมพิวเตอร์ เริ่มแรกใช้เพื่องานการรู้จำคำพูด[2] เพื่อป้องกันการคาดคะเนลำดับคำที่ไม่มีความหมายและมีความน่าจะเป็นต่ำ ในปัจจุบันมีการใช้เพื่อวัตถุประสงค์ที่หลากหลาย เช่น การแปลด้วยเครื่อง[3] การสร้างภาษาธรรมชาติที่มีลักษณะเหมือนมนุษย์มากขึ้น รวมถึงการติดฉลากหน้าที่ของคำในประโยค หรือ การวิเคราะห์ไวยากรณ์[4] การรู้จำอักขระด้วยแสง และ การรู้จำลายมือเขียน[5] การอนุมานไวยากรณ์[6] และ การค้นคืนสารสนเทศ[7][8] เป็นต้น

ตั้งแต่ปี 2018 เป็นต้นมา ได้ปรากฏแบบจำลองภาษาที่เรียกว่า แบบจำลองภาษาขนาดใหญ่ (LLM) ขึ้นทำให้ได้เห็นการพัฒนาที่สำคัญ แบบจำลองเหล่านี้ประกอบด้วยโครงข่ายประสาทเทียมเชิงลึก พร้อมพารามิเตอร์น้ำหนักที่เรียนรู้ได้นับพันล้านตัว ซึ่งได้รับการฝึกฝนกับชุดข้อมูลขนาดใหญ่ที่เป็นข้อความที่ไม่มีป้ายกำกับ แบบจำลองภาษาขนาดใหญ่ได้แสดงให้เห็นผลลัพธ์ที่น่าประทับใจในงานการประมวลภาษาธรรมชาติที่หลากหลาย และจุดสนใจของการวิจัยได้เปลี่ยนไปสู่การใช้แบบจำลองภาษาขนาดใหญ่สำหรับวัตถุประสงค์ทั่วไป

อ้างอิง

แม่แบบ:รายการอ้างอิง

  1. แม่แบบ:Cite book
  2. Kuhn, Roland, and Renato De Mori (1990). "A cache-based natural language model for speech recognition". IEEE transactions on pattern analysis and machine intelligence 12.6: 570–583.
  3. Andreas, Jacob, Andreas Vlachos, and Stephen Clark (2013). "Semantic parsing as machine translation". Proceedings of the 51st Annual Meeting of the Association for Computational Linguistics (Volume 2: Short Papers).
  4. Andreas, Jacob, Andreas Vlachos, and Stephen Clark (2013). "Semantic parsing as machine translation". Proceedings of the 51st Annual Meeting of the Association for Computational Linguistics (Volume 2: Short Papers).
  5. Pham, Vu, et al (2014). "Dropout improves recurrent neural networks for handwriting recognition". 14th International Conference on Frontiers in Handwriting Recognition. IEEE.
  6. Htut, Phu Mon, Kyunghyun Cho, and Samuel R. Bowman (2018). "Grammar induction with neural language models: An unusual replication". แม่แบบ:ArXiv.
  7. แม่แบบ:Cite conference
  8. แม่แบบ:Cite conference