การฝังเพื่อนบ้านแบบเฟ้นสุ่มแจกแจง t

จาก testwiki
รุ่นแก้ไขเมื่อ 18:34, 25 มกราคม 2568 โดย imported>JasperBot (แก้ไขตาม หมวดหมู่:CS1 maint: unrecognized language)
(ต่าง) ←รุ่นแก้ไขก่อนหน้า | รุ่นแก้ไขล่าสุด (ต่าง) | รุ่นแก้ไขถัดไป→ (ต่าง)
ไปยังการนำทาง ไปยังการค้นหา
การใช้ t-SNE สำหรับการฝังคำ เพื่อให้เห็นภาพการแจกแจงของคำ

แม่แบบ:Machine learning bar

ชุดข้อมูล MNIST ที่ทำการฝังให้อยู่ในสองมิติโดยใช้ t-SNE

การฝังเพื่อนบ้านแบบเฟ้นสุ่มแจกแจง t (t-distributed stochastic neighbor embedding, t-SNE) เป็นวิธีการทางสถิติสำหรับการแสดงข้อมูลมิติสูงด้วยการกำหนดตำแหน่งข้อมูลแต่ละจุดในแผนที่สองมิติหรือสามมิติ โดยมีพื้นฐานจากขั้นตอนวิธีการฝังเพื่อนบ้านแบบเฟ้นสุ่มที่พัฒนาขึ้นครั้งแรกโดยเจฟฟรีย์ ฮินตัน และ แซม โรไวส์ (Sam Roweis)[1] แล้วได้รับการเสนอรูปแบบการแจกแจงที โดย เลาเรินส์ ฟัน แดร์ มาเติน (Laurens van der Maaten) และฮินตัน[2] วิธีนี้เป็นการลดมิติแบบไม่เชิงเส้น ซึ่งเหมาะสำหรับการฝังข้อมูลมิติสูงลงในพื้นที่มิติต่ำ (2 มิติ หรือ 3 มิติ) สำหรับการแสดงให้เห็นเป็นภาพ โดยเฉพาะอย่างยิ่ง เมื่อจัดเรียงชุดข้อมูลมิติสูงใน 2 หรือ 3 มิติ ชุดที่คล้ายกันจะสัมพันธ์กับความน่าจะเป็นสูงในบริเวณใกล้เคียง และชุดที่แตกต่างกันจะสัมพันธ์กันในบริเวณที่ห่างไกล

ขั้นตอนวิธี t-SNE โดยหลักแล้วประกอบด้วย 2 ขั้นตอน โดยขั้นแรก คือการสร้างการแจกแจงความน่าจะเป็นเพื่อให้คู่ของข้อมูลมิติสูงแต่ละคู่มีแนวโน้มที่จะเลือกกลุ่มที่คล้ายกัน ในขณะที่ชุดที่แตกต่างจะมีความน่าจะเป็นที่จะอยู่กลุ่มเดียวกันน้อย ขั้นตอนต่อมาคือ กำหนดการแจกแจงความน่าจะเป็นที่คล้ายกันสำหรับเซตบนแผนที่มิติต่ำ และค้นหาตำแหน่งของจุดในแผนที่มิติต่ำที่จะลดไดเวอร์เจนซ์คัลแบ็ก–ไลบ์เลอร์ระหว่างการแจกแจงทั้งสองให้เหลือน้อยที่สุด ขั้นตอนวิธีดั้งเดิมใช้ระยะทางแบบยุคลิด เป็นการวัดความคล้ายคลึงกันระหว่างจุดสองจุด แต่จำเป็นต้องแก้ไขอย่างเหมาะสมตามความจำเป็น

t-SNE ถูกนำมาใช้เพื่อแสดงภาพในการใช้งานที่หลากหลาย รวมถึงการวิจัยด้านความมั่นคงคอมพิวเตอร์[3] การวิเคราะห์ดนตรี[4] การวิจัยมะเร็ง[5] ชีวสารสนเทศศาสตร์[6] และการประมวลผลสัญญาณทางชีวการแพทย์[7] นอกจากนี้ยังมักใช้เพื่อแสดงภาพตัวแทนระดับสูงที่เรียนรู้จากโครงข่ายประสาทเทียม[8]

แม้ว่ามักจะมองเห็นกลุ่มก้อนได้ในแผนภาพ t-SNE แต่ก็จำเป็นต้องมีความเข้าใจที่ดีเกี่ยวกับพารามิเตอร์ t-SNE เนื่องจากกลุ่มก้อนที่มองเห็นอาจเปลี่ยนไปอย่างมากโดยขึ้นกับพารามิเตอร์ที่เลือก กลุ่มก้อนดังกล่าวยังสามารถปรากฏขึ้นมาได้จากข้อมูลที่ไม่ใช่กลุ่มก้อนจริง[9] นั่นคืออาจทำให้ได้กลุ่มก้อนปลอม ดังนั้นจึงอาจจำเป็นต้องค้นหาซ้ำโดยเลือกพารามิเตอร์และตรวจสอบผลลัพธ์ใหม่[10][11] t-SNE มักจะสามารถกู้คืนกลุ่มก้อนที่แยกจากกันได้ดี ได้มีการสาธิตให้เห็นถึงรูปแบบที่เรียบง่ายของรูปร่างกลุ่มสเปกตรัมโดยการเลือกพารามิเตอร์พิเศษแล้ว[12]

รายละเอียด

สมมุติว่ามีชุดข้อมูล N ตัวที่แสดงค่าหลายมิติ 𝐱1,,𝐱N วัตถุประสงค์ของเราคือแสดงชุดข้อมูลนี้ในรูปของ 𝐲1,,𝐲N ที่มีจำนวนมิติต่ำกว่าที่สามารถสะท้อนให้เห็นถึงลักษณะความคล้ายคลึงกันของชุดข้อมูลมิติสูง

พารามิเตอร์สำหรับ t-SNE ได้แก่ ค่าความงุนงง (perplexity) ของพารามิเตอร์ฟังก์ชันการสูญเสียและจำนวนการคำนวณวนซ้ำ T ของพารามิเตอร์การปรับให้เหมาะสม, อัตราการเรียนรู้ η, โมเมนตัม α(t) ฟัน แดร์ มาเติน ได้อธิบายไว้ว่าสมรรถนะของ t-SNE ไม่ค่อยขึ้นกับค่าความงุนงง โดยค่าความงุนงงที่เหมาะสมที่สุดนั้นต่างกันไปขึ้นอยู่กับข้อมูลที่ใช้ แต่โดยทั่วไปจะอยู่ระหว่าง 5 ถึง 50

ขั้นแรก เราคำนวณความคล้ายคลึงกันของแต่ละคู่สำหรับชุดข้อมูลมิติสูง ฟัน แดร์ มาเติน และ ฮินตัน ได้อธิบายว่า "ถ้าเลือกจุดข้อมูล xj โดยอิงตาม xi ให้เป็นสัดส่วนกับการแจกแจงความหนาแน่นความน่าจะเป็นแบบปรกติที่มีใจกลางอยู่ที่ xi แล้ว ความคล้ายคลึงกันระหว่าง xj กับ xi จะแสดงได้เป็นความน่าจะเป็นมีเงื่อนไข pj|i"[2]

pji=exp(𝐱i𝐱j2/2σi2)kiexp(𝐱i𝐱k2/2σi2),

โดยสำหรับจุดเดียวกันจะได้ว่า pii=0

σi คือค่าเบี่ยงเบนของการแจกแจงปรกติ ซึ่งอาจหาได้โดยวิธีแบ่งครึ่ง เป็นไปตามความสัมพันธ์ความงุนงงดังต่อไปนี้

Perp(Pi)=2H(Pi)
H(Pi)=jpjilog2pji

ในที่นี้ H(Pi) คือเอนโทรปีของข้อมูล หากกระจุกกันอยู่อย่างหนาแน่นในพื้นที่แคบแล้ว σi จะเป็นค่าที่มีขนาดเล็ก

จากนั้น[ความน่าจะเป็นร่วม]] pij คำนวณได้โดยใช้สูตรต่อไปนี้

pij=pji+pij2N

โดยในกรณี i=j จะกลายเป็น 0 (นั่นคือ pii=0)

ให้ผลเฉลยตั้งต้น Y(0) ได้จากการสุ่มตัวอย่างของการแจกแจงแบบเกาส์เซียนที่มีค่าเฉลี่ยเป็น 0

สุดท้าย ให้ทำซ้ำ T ครั้ง หาผลเฉลย Y(T) ในขั้นตอนต่อไปตั้งแต่ขั้น t=1 ถึง t=T

คำนวณความคล้ายคลึงมิติต่ำสำหรับ Y(t1) ซึ่งเป็ผลเฉลยที่ t-1

ความน่าจะเป็นร่วมโดยใช้การแจกแจงที (การแจกแจงโคชี) โดยมีองศาเสรีเป็น 1

qij=(1+𝐲i𝐲j2)1kl(1+𝐲k𝐲l2)1

อย่างไรก็ตาม จะให้ค่าเป็น 0 สำหรับคู่ที่มีจุดเดียวกัน qii=0

ให้ไดเวอร์เจนซ์คัลแบ็ก–ไลบ์เลอร์สำหรับการแจกแจง P ของ pij และการแจกแจง Q ของ qij เป็นฟังก์ชันเป้าหมาย แล้วหาผลเฉลย Y(t) ที่ทำให้มีค่าต่ำที่สุด

KL(P||Q)=ijpijlogpijqij

คำนวณความชันของฟังก์ชันเป้าหมายสำหรับแต่ละ i

δCδyi=4j(pijqij)(yiyj)(1+yiyj2)1

ความชันของฟังก์ชันเป้าหมายและคำนวณหาผลเฉลย Y(t) ลำดับที่ t จากคำตอบก่อนหน้า

Y(t)=Y(t1)+ηδCδY+α(t)(Y(t1)Y(t2))

การแสดงผลเฉลย Y(T) ด้วยภาพทำให้สามารถเข้าใจกลุ่มของชุดข้อมูลที่มีมิติสูงได้

ข้อเสีย

  • ยังไม่ชัดเจนว่าจะดำเนินการลดมิติทั่วไปอย่างไร
  • มีสมบัติที่ค่อนข้างเป็นเฉพาะที่ทำให้มีความอ่อนไหวต่อคำสาปของมิติข้อมูลโดยธรรมชาติ
    • ฟังก์ชันเกาส์เซียนใช้ระยะทางแบบยุคลิด xixj จึงได้รับผลจากคำสาปของมิติ และสูญเสียความสามารถในการแยกแยะข้อมูลตามระยะทางสำหรับมิติสูง pij จะกลายเป็นมีค่าเกือบเท่ากัน เพื่อบรรเทาปัญหานี้ จึงได้มีการเสนอวิธีการที่ระยะห่างจะถูกปรับโดยการแปลงกำลังตามขนาดเฉพาะของแต่ละจุด [13]
  • ไม่รับประกันว่าฟังก์ชันเป้าหมาย t จะลู่เข้าที่ค่าต่ำสุดวงกว้าง
    • แม้ว่าจะมีพารามิเตอร์และขั้นตอนวิธีเหมือนกัน ก็อาจได้ผลเฉลยที่แตกต่างกัน

อ้างอิง

แม่แบบ:รายการอ้างอิง