การใช้คอมพิวเตอร์ควอนตัมเพื่อจัดการกับการจำลองเคมีที่ซับซ้อนด้วยการฝังควอนตัม

RPA

การให้อาหารแก่โลกเป็นสิ่งที่สูงขึ้นเรื่อยๆ สำหรับอุตสาหกรรมเกษตรกรรมทั่วโลก ประชากรมนุษย์เพิ่มขึ้นอย่างรวดเร็ว และผลผลิตทางการเกษตรทั่วโลกไม่เป็นไปตามที่คาดหวัง สารละลายหนึ่ง — อย่างน้อยก็บางส่วน — เกี่ยวข้องกับไนโตรเจน ซึ่งเป็นส่วนประกอบสำคัญในปุ๋ยที่เราต้องการเพื่อให้พืชผลเติบโต ทุกวันนี้ การผลิตไนโตรเจนที่ใส่ลงไปในปุ๋ยนั้นมีค่าใช้จ่ายสูง ใช้เวลานาน และอาจเป็นอันตรายได้ เนื่องจากต้องใช้อุณหภูมิและแรงดันที่สูงมาก การปรับปรุงกระบวนการดังกล่าวสามารถเพิ่มผลผลิตทางการเกษตรของโลกได้อย่างมาก

ระบบจัดการภายใน

การจำลองปฏิกิริยาโมเลกุลไนโตรเจนที่แม่นยำอาจทำให้นักวิทยาศาสตร์สามารถพัฒนาวิธีการที่ดีขึ้นได้ แต่คอมพิวเตอร์แบบคลาสสิกไม่สามารถจำลองปฏิกิริยาเหล่านั้นได้อย่างแม่นยำเพียงพอ ในทางทฤษฎีแล้ว คอมพิวเตอร์ควอนตัมไม่ได้ถูกผูกมัดด้วยข้อจำกัดในการสร้างแบบจำลองเช่นเดียวกับระบบแบบคลาสสิก แต่ข้อจำกัดด้านฮาร์ดแวร์ในปัจจุบันทำให้ไม่สามารถจำลองกระบวนการทางเคมีที่ซับซ้อนได้ด้วยตัวเอง ตอนนี้ด้วยบทความในวารสารฟิสิกส์เคมีนักวิจัยจาก IBM Quantum เมืองซูริกได้สาธิตอัลกอริธึมที่มีศักยภาพในการจำลองปฏิกิริยาโมเลกุลไนโตรเจนและปฏิกิริยาที่มีความซับซ้อนมากยิ่งขึ้นด้วยความแม่นยำที่ดีกว่าเทคนิคที่สร้างขึ้น
การนำการคำนวณไปใช้ในการสร้างแบบจำลองการคำนวณ
นักเคมีเชิงคำนวณใช้การคำนวณโครงสร้างอิเล็กทรอนิกส์เพื่อกำหนดการกระจายความน่าจะเป็น (กล่าวคือ ” โครงสร้าง “) ของอิเล็กตรอนในระบบโมเลกุล ปฏิกิริยาไฟฟ้าเคมีทั้งหมด รวมถึงกระบวนการเร่งปฏิกิริยาที่ใส่ไนโตรเจนในปุ๋ยเชิงพาณิชย์ของเรา เกี่ยวข้องกับการถ่ายโอนอิเล็กตรอนระหว่างอะตอม
มีวิธีการคำนวณหลายวิธีในการคำนวณคุณสมบัติทางอิเล็กทรอนิกส์ของสถานะพื้นดินของระบบโมเลกุล ตัวอย่างเช่น การจำลองเชิงตัวเลขกลายเป็น “ราคาแพง” อย่างห้ามไม่ได้สำหรับคอมพิวเตอร์คลาสสิก เมื่อมีการปรับขนาดเพื่อจำลองระบบที่ซับซ้อนมากขึ้นในรายละเอียดที่มากขึ้น นี่เป็นเรื่องจริงโดยเฉพาะอย่างยิ่งสำหรับระบบโมเลกุลที่ “มีความสัมพันธ์สูง” ซึ่งอิเล็กตรอนทั้งหมดได้รับอิทธิพลอย่างมากจากกันและกัน อันที่จริง การคำนวณโครงสร้างอิเล็กทรอนิกส์จัดอยู่ในกลุ่มงานที่ต้องใช้การคำนวณมากที่สุด ซึ่งคุณสามารถมอบให้กับคอมพิวเตอร์ได้ และใช้วงจรการคำนวณส่วนใหญ่ในอุปกรณ์ซูเปอร์คอมพิวติ้งทั่วโลก เป็นสาเหตุหนึ่งที่ทำให้การวิจัยการจำลองทางเคมีประกอบด้วยเวลาประมาณ 28%ของชั่วโมงโหนดทั้งหมดที่มอบให้กับโครงการใช้งานที่มีลำดับความสำคัญที่ซูเปอร์คอมพิวเตอร์ Fugaku ในญี่ปุ่นชื่อซูเปอร์คอมพิวเตอร์ที่เร็วที่สุดในโลกในปี 2564
ทีมนักวิจัยซึ่งนำโดย Ivano Tavernelli ของ IBM Zurich หวังว่าวันหนึ่งคอมพิวเตอร์ควอนตัมอาจเข้ามาช่วยเหลือได้ ในบทความล่าสุด ทีมใช้ Qiskit เพื่อใช้เทคนิคการสร้างแบบจำลองทางเคมีที่เรียกว่าการฝังควอนตัม ผู้เขียนคนแรก Max Rossmannekและผู้เขียนร่วม Pauline Ollitraultอธิบายว่าวิธีนี้ทำให้กระบวนการคำนวณมีความต้องการน้อยลงโดยแบ่งระบบโมเลกุลขนาดใหญ่ออกเป็นระบบย่อยที่เล็กลงและสามารถจัดการได้มากขึ้น Ollitrault กล่าวว่า “การฝังควอนตัมจะช่วยให้เราสามารถขยายการคำนวณเคมีควอนตัมให้เป็นระบบโมเลกุลที่ใหญ่ขึ้นได้ โดยการรักษาเฉพาะส่วนย่อยของระบบนี้บนคอมพิวเตอร์ควอนตัม” Ollitrault กล่าว
สำหรับผู้ที่ไม่มีพื้นฐานด้านเคมีเชิงคำนวณ อาจเป็นประโยชน์ที่จะสังเกตว่า “การฝังควอนตัม” ใน “การฝังควอนตัม” ไม่ได้หมายถึงการใช้คอมพิวเตอร์ควอนตัม แต่หมายถึงธรรมชาติของควอนตัมของระบบย่อยโมเลกุล การจำลองการฝัง วิธีการบางอย่างในการฝังควอนตัมต้องใช้คอมพิวเตอร์แบบคลาสสิกเท่านั้น ในขณะที่บางวิธีรวมกระบวนทัศน์การคำนวณทั้งแบบคลาสสิกและแบบควอนตัม
ทีมงาน IBM Zurich ไม่ใช่ทีมแรกที่สร้างแบบจำลองทางเคมีโดยใช้การฝังควอนตัม แต่พวกเขาเป็นคนแรกที่แสดงให้เห็นว่าสามารถทำได้โดยใช้ทั้งคอมพิวเตอร์ควอนตัมและวิธีการโดยประมาณในเบื้องต้นสำหรับการคำนวณโครงสร้างอิเล็กทรอนิกส์ที่เรียกว่าฟังก์ชันความหนาแน่น ทฤษฎี (DFT).
การทดลองก่อนหน้านี้ได้รวมการฝังควอนตัมเข้ากับการคำนวณควอนตัม อย่างไรก็ตาม พวกเขาทั้งหมดอาศัยทางเลือกที่ง่ายกว่าสำหรับ DFT เช่นวิธี Hartree-Fock ซึ่งให้การประมาณที่มีประโยชน์และมักจะแม่นยำสำหรับระบบโมเลกุลขนาดเล็ก แต่จะพังลงอย่างรวดเร็วเมื่อระบบมีความซับซ้อนมากขึ้น การทดลองฝังควอนตัมอื่นๆ ได้นำ DFT มาใช้สำเร็จแล้ว แต่เฉพาะกับระบบคลาสสิกเท่านั้น ไม่เคยใช้ร่วมกับการคำนวณควอนตัม เพื่อความสมบูรณ์ ทีมซูริคได้สาธิตวิธีการที่ใช้ Qiskit โดยใช้ทั้ง DFT และ Hartree-Fock
ข้อมูลเชิงลึกที่ชาญฉลาดเบื้องหลังการฝังควอนตัม
ในกรอบกึ่งคลาสสิก นักเคมีมักอธิบายว่าอิเล็กตรอนเป็นอะตอมที่ “โคจร” ในช่องว่างที่กำหนดไว้อย่างดี ซึ่งเรียกว่าออร์บิทัล ซึ่งล้อมรอบแกนของอะตอมด้วยรูปทรง 3 มิติที่สลับซับซ้อน ออร์บิทัลเหล่านี้ได้รับการจัดอันดับตามความใกล้ชิดกับศูนย์อะตอม อิเล็กตรอนในออร์บิทัล “เปลือกชั้นใน” มีพลังงานต่ำกว่าและอยู่ใกล้กับศูนย์กลางอะตอมมากขึ้น อิเล็กตรอนใน “เปลือกนอก” เป็นสิ่งที่ตรงกันข้าม
อะตอมอาจถูกล้อมรอบด้วยอิเล็กตรอนหลายสิบ (หรือหลายสิบตัว) แต่ในปฏิกิริยา มีออร์บิทัลเพียงไม่กี่ออร์บิทัลเท่านั้นที่สำคัญจริงๆ เมื่ออะตอมสูญเสียอิเล็กตรอนในปฏิกิริยาเคมีไฟฟ้า อิเล็กตรอนนั้นมาจากวงโคจรของโมเลกุลที่มีการยึดครองสูงสุดกล่าวคือ เปลือกนอกสุดที่มีอิเล็กตรอน เมื่อมันได้รับอิเล็กตรอน อิเล็กตรอนนั้นจะไปที่ออร์บิทัลโมเลกุลที่ว่างต่ำสุด—คือ เปลือกภายในส่วนใหญ่ที่ไม่มีอิเล็กตรอน ควบคู่ไปกับกระบวนการเหล่านี้ อิเล็กตรอนที่อยู่ต่ำจะจัดระเบียบตัวเองใหม่พร้อมกัน (ซึ่งวิธีแก้ปัญหาโดยประมาณเช่น DFT สามารถระบุได้เมื่อการคำนวณเคลื่อนลงมาที่เปลือกอิเล็กทรอนิกส์) การฝังควอนตัมใช้ประโยชน์จากแนวคิดนี้โดยใช้วิธีการคำนวณที่ซับซ้อนและต้องใช้การคำนวณมากขึ้น เฉพาะเมื่อจัดการกับออร์บิทัล “แอ็คทีฟ” หรือที่เรียกว่า “แอกทีฟสเปซ” จากนั้นพื้นที่แอ็คทีฟนั้นจะถูกฝังเข้าไปในสภาพแวดล้อมที่ประกอบด้วยออร์บิทัล “ที่ไม่ใช้งาน” อีกอันหนึ่ง ซึ่งจำลองขึ้นในระดับทฤษฎีที่ต่ำกว่า (กล่าวคือ ใช้วิธีการคำนวณที่ซับซ้อนน้อยกว่า
ตามที่ Rossmannek อธิบาย ทีมงานเริ่มต้นด้วยการใช้โมดูลเคมีควอนตัม PySCFเพื่อสร้างแบบจำลองโดยประมาณของระบบโมเลกุลทั้งหมดบนคอมพิวเตอร์แบบคลาสสิก การคำนวณ DFT เบื้องต้นเหล่านี้เป็นบล็อกการเริ่มต้น — โดยพื้นฐานแล้วขั้นตอนศูนย์ในกระบวนการ — ที่เริ่มต้นการจำลองทั้งหมด การคำนวณ DFT จะสร้างความหนาแน่นของอิเล็กตรอนเริ่มต้น ซึ่งวัดความน่าจะเป็นในการค้นหาอิเล็กตรอนในตำแหน่งเฉพาะ พวกเขายังผลิตชุดของอินทิกรัลอิเล็กตรอนหนึ่งและสองซึ่งอธิบายพลังงานจลน์ของอิเล็กตรอนตลอดจนปฏิสัมพันธ์ของอนุภาคเดี่ยวและสองอนุภาค
จากที่นั่น นักวิจัยต้องเลือกพื้นที่ใช้งานที่จะจำลองด้วยคอมพิวเตอร์ควอนตัม โดยจะแบ่งความหนาแน่นของอิเล็กตรอนของระบบทั้งหมดออกเป็นส่วนที่ใช้งานและไม่ใช้งานอย่างมีประสิทธิภาพ นักวิจัยยังต้องแยกอินทิกรัลอิเล็คตรอนออกเป็นชุดของการโต้ตอบระยะสั้นและระยะยาว และคำนวณปฏิสัมพันธ์ระยะยาวที่ไม่ใช้งานของระบบ เมื่อทำตามขั้นตอนเหล่านี้เสร็จแล้ว ทีมงานจะป้อนข้อมูลนี้ ซึ่งเป็นเมทริกซ์ที่ส่งออกและอินทิกรัลอิเล็กตรอนลงในอัลกอริธึมควอนตัมไอเกนโซลเวอร์ (VQE) แบบแปรผันเพื่อกำหนดสถานะพื้นของเซกเมนต์ที่ใช้งานอยู่ กระบวนการ VQE จะกำหนดพลังงานระยะไกลที่แอคทีฟของระบบซ้ำแล้วซ้ำเล่าโดยการประเมินความหนาแน่นของอิเล็กตรอนบนคอมพิวเตอร์ควอนตัม ซึ่งเป็นกระบวนการที่ใช้ประเมินจำนวนอนุภาคในแต่ละ qubit ในระบบเป็นหลัก ใช้เพื่อสร้างความหนาแน่นทางอิเล็กทรอนิกส์ใหม่ที่แม่นยำยิ่งขึ้น ข้อมูลนั้นกลับไปที่การจำลอง DFT และกระบวนการเริ่มต้นใหม่อีกครั้งในรอบที่จะมาบรรจบกันที่พลังงานอิเล็กทรอนิกส์ของระบบในที่สุด

management system

ปรากฎว่าการแยกส่วนแบบคลาสสิกของอินทิกรัลอิเล็กตรอนซึ่งย้อนกลับไปในกระบวนการเริ่มต้น เป็นขั้นตอนสำคัญที่ช่วยให้ทีมซูริกสามารถฝัง DFT ได้ เนื่องจากกระบวนการ Hartree-Fock (HF) เป็นค่าประมาณมากกว่า DFT การจำลองแบบคลาสสิกเบื้องต้นของระบบโมเลกุลในการฝัง HF จะเพิกเฉยรายละเอียดบางอย่างโดยสิ้นเชิง เช่น สหสัมพันธ์ของอิเล็กตรอน ซึ่งมักถูกนำมาพิจารณาโดยระบบคลาสสิกที่มีทั้งสองแบบ ล้ำหน้ากว่าและมีค่าใช้จ่ายในการคำนวณมากกว่า DFT ไม่ได้เพิกเฉยต่อตัวเลขเหล่านั้นในการคำนวณเบื้องต้น และทั้งทฤษฎีฟังก์ชันคลื่น (WFT) ที่ใช้โดยคอมพิวเตอร์ควอนตัมก็เช่นกัน การแยกอินทิกรัลของอิเล็กตรอนจะป้องกันไม่ให้ตัวเลขเหล่านั้นถูกนับซ้ำ ซึ่งจะทำให้ทั้งระบบหลุดออกไป
ด้วยวิธีการนี้ Tavernelli และทีมของเขาสามารถจำลองการแยกตัว – หรือที่รู้จักกันในชื่อการแตกของพันธะเคมี – ในระบบโมเลกุลที่หลากหลาย การจำลองแสดงให้เห็นการปรับปรุงความแม่นยำอย่างมีนัยสำคัญเมื่อเทียบกับวิธีการทางเลือก และแนวทางใหม่ในการฝัง DFT ยังมีอิทธิพลอย่างมากต่อการมีส่วนร่วมของ Rossmannek ในการพัฒนาQiskit Natureซึ่งเป็นโมดูลแอปพลิเคชันใหม่ที่ประกาศในเดือนเมษายน สำหรับผู้อ่านที่ต้องการลองใช้ DFT เวอร์ชันนี้ในการฝังตัวเอง Rossmannek กล่าวว่าวิธีการของทีม Zurich จะได้รับการเผยแพร่เป็นคุณลักษณะใหม่ใน Qiskit Nature ภายในสิ้นปีนี้
การคำนวณโครงสร้างอิเล็กทรอนิกส์ที่ขับเคลื่อนด้วย Qiskit ในการดำเนินการ
เพื่อทดสอบวิธีการคำนวณโครงสร้างอิเล็กทรอนิกส์ที่ใช้ Qiskit ซึ่งใช้ DFT ในการคำนวณโครงสร้างอิเล็กทรอนิกส์ Tavernelli และเพื่อนร่วมงานของเขาได้จำลองการแยกตัวทางเคมีในชุดของระบบโมเลกุลอย่างง่ายที่มีขนาดเพิ่มขึ้น สิ่งเหล่านี้รวมถึงโมเลกุลของน้ำ โมเลกุลออกซิเจน โมเลกุลไนโตรเจน และโมเลกุลที่ซับซ้อนมากขึ้นที่เรียกว่าออกซิเรน ซึ่งปัจจุบันไม่สามารถจำลองโดยใช้เทคนิคควอนตัมได้ การจำลองเหล่านี้ถูกเปรียบเทียบกับผลลัพธ์ที่แน่นอนที่ได้รับจากการคำนวณแบบโต้ตอบคอนฟิกูเรชันแบบเต็ม (FCI) FCI สามารถให้พลังงานอิเล็กทรอนิกส์ที่แน่นอนของระบบโมเลกุลขนาดเล็กมาก ซึ่งมีประโยชน์สำหรับการเปรียบเทียบวิธีการโดยประมาณ เช่น การฝัง DFT
แม้ว่า oxirane เป็นแบบจำลองโมเลกุลที่ใหญ่ที่สุดที่นักวิจัยของ IBM Zurich ตีพิมพ์ในบทความของพวกเขา Tavernelli ถือว่างานของพวกเขากับไนโตรเจนเป็นสิ่งที่น่าสังเกตมากที่สุด นั่นเป็นเพราะหนึ่งในเทคนิคการคำนวณโครงสร้างอิเล็กทรอนิกส์แบบคลาสสิกที่ใช้กันอย่างแพร่หลายมากที่สุดสร้างการคาดคะเนที่ไม่ถูกต้องทั้งหมดสำหรับกระบวนการที่มีความสัมพันธ์อย่างมาก เช่น การแยกตัวของโมเลกุลไนโตรเจน Tavernelli และเพื่อนร่วมงานของเขาสามารถสร้างผลลัพธ์ที่แม่นยำยิ่งขึ้นโดยใช้วิธีการของพวกเขา
การแยกตัวของไนโตรเจนเป็นขั้นตอนสำคัญในการผลิตปุ๋ยเชิงพาณิชย์ แต่ก็เป็นส่วนที่มีค่าใช้จ่ายสูงและใช้เวลานานที่สุดแห่งหนึ่งของกระบวนการ นักวิทยาศาสตร์ใช้เวลาหลายปีในการค้นหาวิธีแก้ปัญหาที่มีประสิทธิภาพมากขึ้น
Dr. Peter Sushkoนักวิทยาศาสตร์ด้านวัสดุจากห้องปฏิบัติการแห่งชาติ Pacific Northwest National Laboratory ของกระทรวงพลังงานสหรัฐฯ กล่าวว่า ความแม่นยำที่เพิ่มขึ้นในการจำลองระดับโมเลกุลสามารถช่วยได้ Sushko เป็นผู้เขียนร่วมของบทความปี 2015ที่สำรวจวิธีการทำให้การแยกตัวของไนโตรเจนง่ายขึ้น ในการให้สัมภาษณ์ เขาได้เน้นย้ำถึงความสำคัญของกระบวนการในการผลิตอาหาร “มันยังคงเป็นกระบวนการที่เรียกร้องอย่างกระฉับกระเฉง” Sushko กล่าว “การฝ่าอุปสรรคเหล่านั้นเป็นสิ่งสำคัญสำหรับความมั่นคงด้านอาหาร”

Web​ application

จากข้อมูลของ Sushko ความก้าวหน้าในการจำลองทางเคมีเช่นเดียวกับที่แสดงไว้ในกระดาษ Rossmannek อาจนำไปสู่การปรับปรุงเพิ่มเติมในวิธีการตรึงไนโตรเจนเทียมของ Haber-Bosch ซึ่งรวมถึงการลดการปล่อยก๊าซเรือนกระจกทั้งหมดของกระบวนการที่ใช้พลังงานมากนี้ “การรู้ว่าปฏิกิริยานี้เกิดขึ้นได้อย่างไร จะช่วยให้คุณสามารถปรับเงื่อนไขให้เหมาะสมได้” เขากล่าว “ถ้าเรารู้วิธีกระตุ้นปฏิกิริยาด้วยพลังงานน้อยที่สุด… ถ้าอย่างนั้นสำหรับพลังงานในปริมาณเท่ากัน… เราสามารถผลิตมันได้มากขึ้น หรือเราสามารถประหยัดพลังงานได้”
การประชุมประจำปีเรื่อง Computer Vision and Pattern Recognition (CVPR 2019) จะจัดขึ้นในวันที่ 16-20 มิถุนายน ในเมืองลองบีช รัฐแคลิฟอร์เนีย IBM Research AIจะนำเสนอเอกสารทางเทคนิคที่อธิบายผลลัพธ์ล่าสุดของเราในภารกิจเพื่อให้ระบบ AI มองเห็น งานวิจัยของเราสำรวจด้านต่างๆ ภายในคอมพิวเตอร์วิทัศน์และมัลติมีเดีย โดยเน้นที่การรับรู้หลายรูปแบบ (ร่วมกันสร้างแบบจำลองการมองเห็น เสียง และภาษา) ความเข้าใจในวิดีโอ และ “เรียนรู้เพิ่มเติมจากน้อย” กล่าวคือ การเรียนรู้แบบจำลองที่แม่นยำยิ่งขึ้นโดยใช้ข้อมูลน้อยลง ความเชี่ยวชาญและความพยายาม
IBM Research ยังภูมิใจสนับสนุน CVPR 2019 ในระดับแพลตตินัม และเรารู้สึกตื่นเต้นเป็นอย่างยิ่งที่ได้สนับสนุนการประชุมเชิงปฏิบัติการ Women in Computer Vision อีกครั้ง ที่บูธ #513 ของเราในงานประชุม เรามีการสาธิตเชิงโต้ตอบของเทคโนโลยีคอมพิวเตอร์วิทัศน์ล่าสุดของเรา รวมถึงเทคนิคการเรียนรู้วัตถุแบบกำหนดเองสองสามช็อตที่ปรับใช้ในแอปพลิเคชันในโลกแห่งความเป็นจริงสำหรับการจดจำอาหาร ระบบต่อเนื่องหลายรูปแบบสำหรับการจัดการอัตโนมัติของ ไฮไลท์กีฬา (ใช้ในการผลิตไฮไลท์อย่างเป็นทางการของการแข่งขันกอล์ฟ Masters 2019 และการแข่งขันเทนนิส US Open และ Wimbledon ก่อนหน้า) ระบบโต้ตอบสำหรับการค้นหาแฟชั่นตามความคิดเห็นของภาษาธรรมชาติและอีกมากมาย
ในขณะที่มีงานจำนวนมากขึ้นเรื่อยๆ ในการศึกษาคุณสมบัติทางทฤษฎีของโครงข่ายประสาทเทียม ความเข้าใจของเราเกี่ยวกับพฤติกรรมมหภาคของการเรียนรู้เชิงลึกยังคงเป็นที่ต้องการอย่างมาก คำถามยังคงมีอยู่เกี่ยวกับสิ่งที่ขับเคลื่อนวิวัฒนาการของการรับรองภายในระหว่างการฝึกอบรม คุณสมบัติของตัวแทนที่เรียนรู้ และวิธีที่เครือข่ายที่ได้รับการฝึกอบรมอย่างเต็มที่ประมวลผลข้อมูล นอกจากนี้ สิ่งที่เรารู้ส่วนใหญ่ได้รับแจ้งจากผลลัพธ์โดยสังเขป
ทฤษฎีคอขวดของข้อมูลพยายามที่จะตอบคำถามเหล่านี้ ทำงานอย่างใกล้ชิดกับผู้ทำงานร่วมกันจาก MIT ซึ่งเป็นส่วนหนึ่งของMIT-IBM Watson AI Lab เอกสารICML 2019 ของเราเรื่อง “ Estimating Information Flow in Deep Neural Networks ” วิเคราะห์ทฤษฎีคอขวดของข้อมูลทั้งทางคณิตศาสตร์และเชิงประจักษ์ โดยเน้นเฉพาะที่ “การบีบอัดข้อมูล” ” ปรากฏการณ์มันทำนาย

Robot Auto process

ทฤษฎีคอขวดข้อมูล
ทฤษฎีคอขวดของข้อมูล ([Schwartz-Ziv & Tishby ’17] และอื่นๆ) พยายามอธิบายลักษณะทั่วไปของโครงข่ายประสาทเทียมที่เกี่ยวข้องกับการบีบอัดข้อมูล กล่าวคือ แนวคิดที่ว่าข้อมูลร่วมกันระหว่างอินพุตXและเลเยอร์ที่ซ่อนอยู่T (ดูรูปที่ 1) เพิ่มขึ้นอย่างรวดเร็วในระหว่างการฝึกอบรมเมื่อเครือข่ายเรียนรู้ที่จะเข้ารหัสอินพุต จากนั้นค่อย ๆ ลดลง (บีบอัด) เมื่อเครือข่ายเรียนรู้ที่จะทิ้งข้อมูลที่ไม่เกี่ยวข้องกับงาน (รูปที่ 2) แต่ละชั้นที่ต่อเนื่องกันจะถูกมองว่าบีบอัดข้อมูลเข้ามากขึ้น เป็นที่ถกเถียงกันอยู่แล้วว่าการกำจัดข้อมูลที่ไม่เกี่ยวข้องนี้ทำให้ตัวแยกประเภทมีภาพรวมที่ดีขึ้น เนื่องจากได้รับข้อมูลใหม่ที่มองไม่เห็น จึงควรดึงข้อมูลที่เกี่ยวข้องเท่านั้นและอย่าให้ผู้ไม่เกี่ยวข้องเข้าใจผิด