ฟังก์ชันซอฟต์แมกซ์
ฟังก์ชันซอฟต์แมกซ์ (softmax function) หรือ ฟังก์ชันเลขชี้กำลังที่ทำให้เป็นปกติ (normalized exponential function)[1] เป็นส่วนขยายแบบหลายมิติของฟังก์ชันซิกมอยด์ มักใช้เป็นฟังก์ชันกระตุ้นสำหรับขั้นสุดท้ายในปัญหาการจำแนกประเภทเป็นหลายประเภท เนื่องจากสามารถแปลงค่าขาออกของ โครงข่ายประสาทเทียมให้เป็นการการแจกแจงความน่าจะเป็นได้
ชื่อฟังก์ชันซอฟต์แมกซ์เป็นคำที่ใช้ในสาขาปัญญาประดิษฐ์ เดิมทีฟังก์ชันนี้มีต้นกำเนิดมาจาก การแจกแจงบ็อลทซ์มัน ในทางกลศาสตร์เชิงสถิติ จัดพิมพ์โดยลูทวิช บ็อลทซ์มัน ในปี 1868[2] แม้ว่ามักจะใช้ร่วมกับเอนโทรปีไขว้ แต่แนวคิดในการรวมการแจกแจงบ็อลทซ์มันและเอนโทรปี ก็มีต้นกำเนิดมาจากกลศาสตร์ทางสถิติ นอกจากนี้ยังใช้ในเครื่องบ็อลทซ์มันด้วย แต่ในปี 1989 จอห์น เอส. บริเดิล ได้ตั้งชื่อว่าซอฟต์แมกซืนี้ให้[3][4]
คำนิยาม
ฟังก์ชันซอฟต์แมกซ์รับค่าป้อนเข้าเป็นเวกเตอร์ ของจำนวนจริง แม่แบบ:Mvar ตัว และทำการปรับให้เป็นปรกติเพื่อแสดงการแจกแจงความน่าจะเป็น ซึ่งประกอบด้วยความน่าจะเป็น แม่แบบ:Mvar ที่เป็นสัดส่วนกับเลขชี้กำลังของข้อมูลป้อนเข้า กล่าวอีกนัยหนึ่ง เมื่อใช้ฟังก์ชันซอฟต์แมกซ์ แต่ละองค์ประกอบจะมีค่าอยู่ภายในช่วง (0, 1) และผลรวมขององค์ประกอบทั้งหมดจะกลายเป็น 1 ดังนั้นจึงตีความได้ว่าเป็น ความน่าจะเป็น ยิ่งค่าป้อนเข้ามีค่ามากเท่าใด ความน่าจะเป็น ก็จะยิ่งมากขึ้นเท่านั้น
สำหรับฟังก์ชันซอฟต์แมกซ์มาตรฐาน (หน่วย) โดยที่ นิยามได้ดังนี้
นั่นคือแต่ละองค์ประกอบของ ของเวกเตอร์ป้อนเข้า จะถูกทำให้ค่าเป็นปรกติโดยใช้ฟังก์ชันเลขชี้กำลังฐานธรรมชาติ และหารด้วยผลรวมของค่ากำลังเหล่านี้ทั้งหมด การทำให้เป็นปรกตินี้ส่งผลให้เกิดเวกเตอร์เอาท์พุต รับประกันว่าผลรวมของส่วนประกอบคือ 1
ความสัมพันธ์กับฟังก์ชันซิกมอยด์
ในปัญหาการจำแนกเป็น 2 ประเภทซึ่ง K=2 นั้นถ้าให้ จะได้เป็นฟังก์ชันซิกมอยด์มาตรฐาน[5]