มนุษยชาติแพ้การต่อสู้ครั้งสำคัญอีกครั้งกับปัญญาประดิษฐ์ (AI) เมื่อเดือนที่แล้ว เมื่อAlphaGoเอาชนะผู้เล่นโกะชั้นนำของโลก Ke Jie ถึง 3 เกมเหลือศูนย์ AlphaGo เป็นโปรแกรม AI ที่พัฒนาโดยDeepMind ซึ่งเป็นส่วนหนึ่งของ Alphabet บริษัท แม่ของ Google ปีที่แล้วเอาชนะผู้เล่นชั้นนำคนอื่น Lee Se-dol สี่เกมต่อหนึ่งเกม แต่ตั้งแต่นั้นมา AlphaGo ก็พัฒนาขึ้นอย่างมาก Ke Jie อธิบายถึงทักษะของ AlphaGo ว่า “ เหมือนกับเทพเจ้าแห่งการเดินทาง ”
ตอนนี้ AlphaGo จะเลิกเล่น Go โดยทิ้งมรดกของเกมที่เล่นกันเอง
พวกเขาได้รับการอธิบายโดยผู้เชี่ยวชาญด้าน Go คนหนึ่งว่าเหมือนกับ ” เกมจากอนาคตอันไกลโพ้น ” ซึ่งมนุษย์จะศึกษาเป็นเวลาหลายปีเพื่อพัฒนาการเล่นของพวกเขาเอง
Go เป็นเกมโบราณที่มีผู้เล่น 2 คนโดยพื้นฐานแล้ว ผู้เล่นคนหนึ่งเล่นหมากดำและอีกคนหนึ่งเล่นสีขาว สำหรับการครองตำแหน่งบนกระดานมักจะทำเครื่องหมายด้วยเส้นแนวนอน 19 เส้นและเส้นแนวตั้ง 19 เส้น Go เป็นเกมที่ยากสำหรับคอมพิวเตอร์ในการเล่นมากกว่าหมากรุก เนื่องจากจำนวนการเคลื่อนไหวที่เป็นไปได้ในแต่ละตำแหน่งมีมากกว่ามาก สิ่งนี้ทำให้การค้นหาหลาย ๆ ก้าวไปข้างหน้า – เป็นไปได้สำหรับคอมพิวเตอร์ในหมากรุก – ยากมากใน Go
ความก้าวหน้าของ DeepMind คือการพัฒนาอัลกอริทึมการเรียนรู้สำหรับจุดประสงค์ทั่วไป ซึ่งตามหลักการแล้ว สามารถฝึกฝนในโดเมนที่เกี่ยวข้องกับสังคมมากกว่า Go
DeepMind กล่าวว่าทีมวิจัยที่อยู่เบื้องหลัง AplhaGo กำลังมองหาวิธีแก้ไขปัญหาที่ซับซ้อนอื่นๆเช่น การค้นหาวิธีรักษาโรคใหม่ๆ การลดการใช้พลังงานลงอย่างมาก หรือการประดิษฐ์วัสดุใหม่ๆ ที่ปฏิวัติวงการ มันเพิ่ม:
หากระบบ AI พิสูจน์ได้ว่าสามารถค้นพบความรู้และกลยุทธ์ใหม่ๆ ที่สำคัญในขอบเขตเหล่านี้ได้เช่นกัน ความก้าวหน้าครั้งใหม่อาจน่าทึ่งอย่างแท้จริง เราไม่สามารถรอเพื่อดูว่าจะเกิดอะไรขึ้นต่อไป
AlphaGo รวมสองแนวคิดที่ทรงพลังที่สุดเกี่ยวกับการเรียนรู้ที่เกิดขึ้นในช่วงสองสามทศวรรษที่ผ่านมา: การเรียนรู้เชิงลึกและการเรียนรู้แบบเสริมแรง น่าแปลกที่ทั้งสองได้รับแรงบันดาลใจจากวิธีที่สมองทางชีวภาพเรียนรู้จากประสบการณ์ ในสมองของมนุษย์ ข้อมูลทางประสาทสัมผัสจะถูกประมวลผลเป็นชั้นๆ ตัวอย่างเช่น ข้อมูลภาพจะถูกแปลงครั้งแรกในเรตินา
จากนั้นในสมองส่วนกลาง และจากนั้นผ่านส่วนต่าง ๆ ของเปลือกสมอง
สิ่งนี้สร้างลำดับชั้นของการเป็นตัวแทนโดยที่คุณสมบัติท้องถิ่นที่เรียบง่ายจะถูกดึงออกมาก่อน แล้วจึงสร้างคุณสมบัติส่วนกลางที่ซับซ้อนมากขึ้นจากสิ่งเหล่านี้
สิ่งที่เทียบเท่ากับ AI เรียกว่าการเรียนรู้เชิงลึก ลึกเพราะมันเกี่ยวข้องกับการประมวลผลหลายชั้นในหน่วยคอมพิวเตอร์คล้ายเซลล์ประสาทอย่างง่าย
แต่เพื่อความอยู่รอดในโลกนี้ สัตว์ไม่เพียงต้องรับรู้ข้อมูลทางประสาทสัมผัสเท่านั้น แต่ยังต้องดำเนินการกับมันด้วย นักวิทยาศาสตร์และนักจิตวิทยาหลายชั่วอายุคนได้ศึกษาว่าสัตว์เรียนรู้ที่จะดำเนินการต่างๆ เพื่อเพิ่มรางวัลให้พวกมันได้อย่างไร
สิ่งนี้นำไปสู่ทฤษฎีทางคณิตศาสตร์ของการเรียนรู้แบบเสริมแรงที่สามารถนำไปใช้ในระบบ AI ได้แล้ว สิ่งที่ทรงพลังที่สุดคือการเรียนรู้ความแตกต่างทางโลก ซึ่งช่วยปรับปรุงการกระทำโดยเพิ่มความคาดหวังถึงรางวัลในอนาคตให้สูงสุด
การเคลื่อนไหวที่ดีที่สุด
ด้วยการรวมการเรียนรู้เชิงลึกและการเรียนรู้เสริมเข้าด้วยกันในชุดของเครือข่ายประสาทเทียม AlphaGo ได้เรียนรู้การเล่นระดับผู้เชี่ยวชาญของมนุษย์ใน Go จากการเคลื่อนไหว 30 ล้านครั้งจากเกมของมนุษย์
แต่จากนั้นก็เริ่มเล่นกับตัวเอง โดยใช้ผลลัพธ์ของแต่ละเกมเพื่อปรับแต่งการตัดสินใจอย่างไม่ลดละเกี่ยวกับการเคลื่อนไหวที่ดีที่สุดในแต่ละตำแหน่งกระดาน เครือข่ายคุณค่าเรียนรู้ที่จะคาดการณ์ผลลัพธ์ที่เป็นไปได้สำหรับตำแหน่งใด ๆ ในขณะที่เครือข่ายนโยบายเรียนรู้การดำเนินการที่ดีที่สุดในแต่ละสถานการณ์
แม้ว่าจะไม่สามารถสุ่มตัวอย่างทุกตำแหน่งกระดานที่เป็นไปได้ แต่โครงข่ายประสาทเทียมของ AlphaGo ก็ดึงแนวคิดหลักเกี่ยวกับกลยุทธ์ที่ใช้ได้ดีในทุกตำแหน่ง การเล่นด้วยตนเองเป็นเวลานับไม่ถ้วนนี้เองที่นำไปสู่การปรับปรุงของ AlphaGo ในปีที่ผ่านมา
น่าเสียดายที่ยังไม่มีวิธีการซักถามเครือข่ายเพื่ออ่านว่าแนวคิดหลักเหล่านี้คืออะไร แต่เราทำได้เพียงศึกษาเกมของมันและหวังว่าจะได้เรียนรู้จากสิ่งเหล่านี้
นี่เป็นปัญหาอย่างหนึ่งของการใช้อัลกอริธึมโครงข่ายประสาทดังกล่าวเพื่อช่วยในการตัดสินใจ เช่น ระบบกฎหมาย พวกเขาไม่สามารถอธิบายเหตุผลได้
เรายังเข้าใจค่อนข้างน้อยเกี่ยวกับวิธีที่สมองทางชีวภาพเรียนรู้จริง และประสาทวิทยาศาสตร์จะยังคงให้แรงบันดาลใจใหม่สำหรับการปรับปรุงใน AI
มนุษย์สามารถเรียนรู้ที่จะเป็นผู้เล่น Go ผู้เชี่ยวชาญโดยอาศัยประสบการณ์ที่น้อยกว่า AlphaGo ที่จำเป็นต่อการไปถึงระดับนั้น ดังนั้นจึงมีที่ว่างอย่างชัดเจนสำหรับการพัฒนาอัลกอริทึมเพิ่มเติม
นอกจากนี้ พลังส่วนใหญ่ของ AlphaGo ยังขึ้นอยู่กับเทคนิคที่เรียกว่าการเรียนรู้แบบย้อนกลับ ซึ่งช่วยแก้ไขข้อผิดพลาด แต่ความสัมพันธ์ระหว่างสิ่งนี้กับการเรียนรู้ในสมองที่แท้จริงนั้นยังไม่ชัดเจน
ตัวอย่างหนึ่งอาจเป็นการปรับให้เหมาะสมในการตั้งค่าอุตสาหกรรมที่มีการควบคุม เป้าหมายในที่นี้มักจะเป็นการทำงานที่ซับซ้อนให้เสร็จในขณะที่ตอบสนองข้อจำกัดหลายประการและลดต้นทุนให้น้อยที่สุด
ตราบใดที่สามารถจำลองความเป็นไปได้ได้อย่างถูกต้อง อัลกอริทึมเหล่านี้สามารถสำรวจและเรียนรู้จากผลลัพธ์ที่กว้างใหญ่กว่าที่มนุษย์จะเป็นไปได้ ดังนั้นคำกล่าวอ้างที่กล้าได้กล้าเสียของ DeepMind ดูเหมือนจะเป็นจริง และตามที่บริษัทกล่าว เราแทบรอไม่ไหวที่จะได้เห็นสิ่งที่จะเกิดขึ้นต่อไป
Credit : เว็บสล็อต