เข้าร่วมชุมชนควอนตัม

RPA

วันนี้ที่TechCrunch Disruptในซานฟรานซิสโก ฉันได้แสดงการสาธิตการเรียนรู้ด้วยเครื่องอย่างง่าย ซึ่งฉันใช้งานจริงบนคอมพิวเตอร์ควอนตัมในนิวยอร์กผ่านระบบคลาวด์ แน่นอนว่าปัญหานั้นสามารถแก้ไขได้ง่ายๆ โดยใช้อัลกอริธึมแบบคลาสสิกบนแล็ปท็อปของคุณ แต่นั่นจะไม่น่าตื่นเต้นไปหน่อยเหรอ?

ระบบจัดการภายใน

ฉันยังคงทึ่งกับความก้าวหน้าที่เกิดขึ้นในเวลาอันสั้น เมื่อสองสามปีก่อน ความคิดถึงเรื่องนี้คงเป็นเพียงความฝัน วันนี้ยังคงเป็นวันแรกสำหรับการคำนวณควอนตัม แต่ระบบกำลังดีขึ้นเรื่อยๆ และอีกไม่นาน เราจะอยู่ในดินแดนที่ไม่คุ้นเคย ซึ่งเราไม่สามารถจำลองสิ่งที่ระบบกำลังทำอยู่ได้อีกต่อไป จากที่นั่น เหลือเวลาอีกไม่นานจนกว่าเราจะเริ่มแก้ปัญหาบางประเภทได้ดีกว่าที่เราสามารถทำได้โดยใช้ระบบคลาสสิกในปัจจุบัน
การก้าวไปสู่อนาคตที่คอมพิวเตอร์ควอนตัมสร้างโลกใหม่จะต้องอาศัยพรสวรรค์และการมีส่วนร่วมของคนเก่งๆ มากมาย หากคุณรู้สึกตื่นเต้นเกี่ยวกับสิ่งนี้เช่นกัน ให้มีส่วนร่วม ไม่ว่าคุณจะรู้หรือไม่ก็ตาม คุณมีสิ่งสำคัญที่จะมีส่วนร่วม
ลักษณะทั่วไป
ความท้าทายที่สองคืออคติของชุดข้อมูลที่ส่งผลกระทบต่อระบบคำบรรยายภาพในปัจจุบัน แบบจำลองที่ได้รับการฝึกมานั้นเหมาะสมกับวัตถุทั่วไปที่เกิดขึ้นร่วมกันในบริบททั่วไป (เช่น เตียงและห้องนอน) ซึ่งนำไปสู่ปัญหาที่ระบบดังกล่าวพยายามหาข้อสรุปในฉากที่วัตถุเดียวกันปรากฏในบริบทที่มองไม่เห็น (เช่น เตียงและ ป่า). แม้ว่าการลดอคติของชุดข้อมูลจะเป็นปัญหาการวิจัยแบบเปิดที่ท้าทายในตัวเอง แต่เราขอเสนอเครื่องมือวินิจฉัยเพื่อประเมินว่าระบบคำบรรยายภาพที่ระบุมีอคติมากน้อยเพียงใด
โดยเฉพาะอย่างยิ่ง เราได้สร้างชุดข้อมูลการวินิจฉัยทดสอบของภาพที่มีคำบรรยายซึ่งมีวัตถุทั่วไปที่เกิดขึ้นในฉากที่ไม่ปกติ (ชุดข้อมูลนอกบริบท – ชุดข้อมูล OOC) เพื่อทดสอบคุณสมบัติการจัดองค์ประกอบภาพและลักษณะทั่วไปของคำอธิบายภาพ การประเมิน OOC เป็นตัวบ่งชี้ที่ดีของภาพรวมของแบบจำลอง ประสิทธิภาพที่ไม่ดีเป็นสัญญาณว่าคำอธิบายภาพมีความเหมาะสมกับบริบทการฝึกอบรมมากเกินไป เราแสดงให้เห็นว่าแบบจำลองที่ใช้ GAN ที่มีตัวแบ่งแยกความสนใจร่วมและตัวสร้างที่คำนึงถึงบริบทนั้นมีการวางนัยทั่วไปที่ดีกว่าให้กับบริบทที่มองไม่เห็นมากกว่าวิธีการที่ทันสมัยก่อนหน้านี้ (ดูรูปที่ 1)
การประเมินผลและการทดสอบทัวริง
ความท้าทายที่สามคือการประเมินคุณภาพของคำบรรยายที่สร้างขึ้น การใช้เมตริกอัตโนมัติ แม้จะมีประโยชน์เพียงบางส่วน แต่ก็ยังไม่น่าพอใจ เนื่องจากไม่ได้คำนึงถึงภาพ ในหลายกรณี การให้คะแนนยังคงไม่เพียงพอและบางครั้งก็ทำให้เข้าใจผิด โดยเฉพาะอย่างยิ่งเมื่อให้คะแนนคำอธิบายภาพที่หลากหลายและสื่อความหมาย การประเมินโดยมนุษย์ยังคงเป็นมาตรฐานที่ดีในระบบการให้คะแนนคำบรรยาย เราใช้การทดสอบทัวริงโดยมีการถามผู้ประเมินที่เป็นมนุษย์ว่าคำบรรยายภาพที่ระบุนั้นเป็นของจริงหรือที่เครื่องสร้างขึ้น ผู้ประเมินที่เป็นมนุษย์ตัดสินว่าคำบรรยายที่สร้างโดยแบบจำลองจำนวนมากเป็นของจริง ซึ่งแสดงให้เห็นว่าคำบรรยายภาพที่เสนอนั้นมีประสิทธิภาพที่ดีและสัญญาว่าจะเป็นแนวทางใหม่ที่มีคุณค่าสำหรับคำบรรยายภาพอัตโนมัติ
Outlook
ความคืบหน้าในการบรรยายภาพอัตโนมัติและความเข้าใจฉากจะทำให้ระบบการมองเห็นด้วยคอมพิวเตอร์มีความน่าเชื่อถือมากขึ้นเพื่อใช้เป็นผู้ช่วยส่วนตัวสำหรับผู้พิการทางสายตาและปรับปรุงชีวิตประจำวันของพวกเขา ช่องว่างทางความหมายในภาษาเชื่อมโยงและการมองเห็นชี้ให้เห็นถึงความจำเป็นในการรวมสามัญสำนึกและการให้เหตุผลเข้ากับความเข้าใจในฉาก
การสร้างรูปภาพจากคำอธิบายแบบข้อความได้กลายเป็นพื้นที่การวิจัยที่น่าตื่นเต้นและกระตือรือร้น ความสนใจบางส่วนได้รับแรงหนุนจากการนำเครือข่ายฝ่ายตรงข้ามกำเนิด (GAN) มาใช้ [1] ซึ่งได้แสดงให้เห็นผลลัพธ์ที่น่าประทับใจในงานสังเคราะห์ภาพจำนวนหนึ่ง อย่างไรก็ตาม ความท้าทายยังคงมีอยู่เมื่อพยายามสังเคราะห์ภาพสำหรับฉากที่ซับซ้อนด้วยวัตถุที่มีการโต้ตอบหลายรายการ ในบทความของเรา ผู้เข้ารอบสุดท้ายกระดาษยอดเยี่ยมที่งานCVPR 2019เราเสนอให้แก้ไขปัญหานี้จากอีกทิศทางหนึ่ง โดยได้รับแรงบันดาลใจจากหลักการของการจัดองค์ประกอบ [2] แบบจำลองของเราสร้างฉากโดยการสร้างวัตถุตามลำดับ (ในรูปแบบของคลิปอาร์ต กล่องล้อมรอบ หรือแพทช์วัตถุที่แบ่งส่วน) ที่มีองค์ประกอบเชิงความหมายที่ประกอบฉาก
การสร้างฉากการจัดองค์ประกอบ
เราแนะนำText2Sceneซึ่งเป็นแบบจำลองเพื่อแปลภาษาที่สื่อความหมายด้วยภาพเพื่อสร้างการแสดงฉากประกอบ โดยเฉพาะอย่างยิ่ง เรามุ่งเน้นการสร้างการแสดงฉากที่ประกอบด้วยรายการของวัตถุ พร้อมด้วยคุณลักษณะ (เช่น ตำแหน่ง ขนาด อัตราส่วนภาพ ท่าทาง ลักษณะที่ปรากฏ) เราดัดแปลงและฝึกโมเดลเพื่อสร้างฉากสามประเภทดังแสดงในรูปที่ 1: ฉากเหมือนการ์ตูน เลย์เอาต์ของวัตถุ และภาพสังเคราะห์
เราขอเสนอกรอบงานแบบเรียงต่อกันแบบรวมเป็นหนึ่งเดียวเพื่อจัดการกับงานที่แตกต่างกันทั้งสามนี้
โดยทั่วไป Text2Scene ประกอบด้วยตัวเข้ารหัสข้อความ ที่จับคู่ประโยคอินพุตกับชุดของการแสดงแฝง ตัวเข้ารหัสรูปภาพ ซึ่งเข้ารหัสผืนผ้าใบที่สร้างขึ้นในปัจจุบัน โมดูลที่เกิดซ้ำแบบ Convolutional ซึ่งส่งผ่านสถานะปัจจุบันไปยังขั้นตอนต่อไป โมดูลความสนใจ ซึ่งเน้นที่ส่วนต่าง ๆ ของข้อความที่ป้อน ตัวถอดรหัสวัตถุ ที่คาดการณ์ วัตถุถัดไปที่ปรับสภาพในสถานะฉากปัจจุบันและข้อความอินพุตที่เข้าร่วม และตัวถอดรหัสแอตทริบิวต์ ที่กำหนดแอตทริบิวต์ให้กับวัตถุที่คาดคะเน และ (G) ขั้นตอนการฝังพื้นหน้าเสริมที่เรียนรู้เวกเตอร์ลักษณะที่ปรากฏสำหรับการดึงแพตช์ใน งานสร้างภาพสังเคราะห์
การสร้างฉากเริ่มต้นจากผืนผ้าใบที่ว่างเปล่าในขั้นต้นซึ่งได้รับการอัปเดตในแต่ละขั้นตอนของเวลา สำหรับงานสร้างภาพสังเคราะห์ แบบจำลองของเราจะดึงและวางแพทช์ออบเจ็กต์จากรูปภาพอื่นตามลำดับเพื่อสร้างฉาก เนื่องจากรูปภาพประกอบอาจมีช่องว่างระหว่างแพตช์ เราจึงใช้ประโยชน์จากเครือข่ายการเย็บใน สำหรับการประมวลผลภายหลัง
การประเมิน
เราเปรียบเทียบแนวทางของเรากับวิธีการแบบ GAN ล่าสุด ผลการทดลองแสดงให้เห็นว่าแบบจำลองของเรามีประสิทธิภาพการทำงานที่ล้ำสมัยในการวัดอัตโนมัติ การประเมินเรื่องของมนุษย์แสดงให้เห็นว่า 75% ของผู้คนชอบผลลัพธ์ของเราเมื่อเทียบกับวิธีการที่ใช้ GAN ที่ดีที่สุด เช่น SG2IM และ AttnGAN
สังเคราะห์รูปภาพจากข้อความของOutlookจำเป็นต้องมีระดับของภาษาและความเข้าใจด้วยภาพ ซึ่งอาจนำไปสู่แอปพลิเคชันในการดึงรูปภาพผ่านการสืบค้นภาษาธรรมชาติ การเรียนรู้แทนข้อความ และแอปพลิเคชันกราฟิกคอมพิวเตอร์อัตโนมัติและการแก้ไขรูปภาพ งานของเรานำเสนอแบบจำลองที่ตีความได้ซึ่งสร้างการแสดงฉากประกอบรูปแบบต่างๆ ผลการทดลองแสดงให้เห็นถึงความสามารถของแบบจำลองของเราในการจับภาพความหมายเชิงความหมายที่ละเอียดยิ่งขึ้นจากข้อความอธิบายเพื่อสร้างฉากที่ซับซ้อน
เมื่อเราปรับขนาดAIและแมชชีนเลิร์นนิงเพื่อทำงานกับชุดงานที่กว้างขึ้นสำหรับแอปพลิเคชันระดับองค์กรและอุตสาหกรรม จำเป็นต้องเรียนรู้เพิ่มเติมจากน้อยลง การเสริมข้อมูลเป็นเครื่องมือสำคัญอย่างหนึ่ง โดยเฉพาะอย่างยิ่งในสถานการณ์ที่มีข้อมูลการฝึกอบรมไม่เพียงพอ ซึ่งจะปรับปรุงการเรียนรู้โดยการสังเคราะห์ตัวอย่างการฝึกอบรมใหม่โดยอัตโนมัติ เช่นกรณีสำหรับการเรียนรู้แบบไม่กี่ช็อต ซึ่งมีตัวอย่างเพียงหนึ่งหรือน้อยมากต่อหมวดหมู่ งานก่อนหน้าส่วนใหญ่ในการจัดหมวดหมู่ภาพไม่กี่ช็อตสำหรับภาพจะตรวจสอบสถานการณ์ ‘ป้ายกำกับเดียว’ ซึ่งรูปภาพการฝึกทุกภาพมีเพียงวัตถุเดียว ดังนั้นจึงมีป้ายกำกับหมวดหมู่เดียว อย่างไรก็ตาม สถานการณ์จำลองที่ท้าทายและสมจริงกว่านั้นก็คือการจำแนกภาพแบบหลายป้ายกำกับ การจำแนกภาพไม่กี่ช็อต ซึ่งข้อมูลการฝึกมีจำนวนตัวอย่างน้อย และภาพมีมากกว่าหนึ่งป้ายกำกับ ซึ่งยังไม่มีการสำรวจอย่างกว้างขวางในงานก่อนหน้านี้

management system

เพื่อที่จะพัฒนาหัวข้อนี้ เราจึงตรวจสอบการจำแนกประเภทภาพหลายฉลากและภาพไม่กี่ช็อตในบทความของเราที่นำเสนอในการประชุม IEEE Conference on Computer Vision and Pattern Recognition ( CVPR 2019 ) ในเดือนมิถุนายน 2019 บทความเรื่อง “ LaSO: Label-Set Operations เครือข่ายสำหรับการเรียนรู้แบบไม่กี่ช็อตแบบหลายป้ายกำกับ” เสนอวิธีการใหม่ในการฝึกโครงข่ายประสาทเทียมเชิงลึกด้วยการรวมตัวอย่างภาพคู่กับชุดฉลากบางชุดเพื่อสังเคราะห์ตัวอย่างใหม่ด้วยป้ายกำกับ ‘ผสาน’ ตัวอย่างเช่น ลองพิจารณาภาพสองภาพในรูปที่ 1 ภาพหนึ่งเป็นภาพ “คนเดินแกะและสุนัข” และอีกภาพหนึ่งเป็นภาพ “คนอุ้มสุนัขและแมว” ป้ายกำกับของภาพแรกคือ “บุคคล” “แกะ” และ “สุนัข” และภาพที่สองคือ “บุคคล” “สุนัข” และ “แมว” จากภาพสองภาพนี้ เครือข่าย LaSO จะสังเคราะห์ตัวอย่างการฝึกแบบใหม่ที่สอดคล้องกับการดำเนินการที่ดำเนินการรวมกัน ทางแยก และการลบฉลาก ‘สหภาพ’ สร้างตัวอย่างที่ระบุว่า ‘คน’ ‘สุนัข’ ‘แมว’ และ ‘แกะ’ ในขณะที่ ‘ทางแยก’ และ ‘การลบ’ สร้างตัวอย่างที่ระบุว่า ‘คน’ ‘สุนัข’ และ ‘แกะ’ เพียงอย่างเดียว ตามลำดับ
เครือข่าย LaSO ได้รับการฝึกอบรมร่วมกันในฐานะเครือข่ายมัลติทาสก์เดียว โดยใช้ฟังก์ชันการสูญเสียเฉพาะที่ออกแบบมาเพื่อปรับการทำงานให้เข้ากับงานการจัดการชุดฉลากที่สอดคล้องกัน
เครือข่ายมัลติทาสก์ได้รับการฝึกอบรมเกี่ยวกับชุดข้อมูลขนาดใหญ่ที่มีป้ายกำกับหลายป้าย โดยจะมีป้ายกำกับหลายป้ายต่อรูปภาพที่สอดคล้องกับออบเจ็กต์ที่ปรากฏบนรูปภาพ เครือข่าย LaSO ที่เป็นผลลัพธ์ได้รับการทดสอบในรูปแบบต่างๆ เพื่อประเมินศักยภาพในการจัดการเนื้อหาที่มีป้ายกำกับหลายรายการ การทดสอบรวมถึงการจำแนกประเภททั้งสองของตัวอย่างที่เป็นผลโดยใช้ตัวแยกประเภทที่ได้รับการฝึกอบรมล่วงหน้าเกี่ยวกับข้อมูลฉลากหลายฉลากที่เก็บไว้จริงและการดึงข้อมูลการทดสอบจากชุดการทดสอบที่ระงับโดยใช้เวกเตอร์คุณลักษณะที่สังเคราะห์โดยเครือข่าย LaSO
เครือข่าย LaSO ได้รับการออกแบบให้ทำงานโดยตรงกับการแสดงภาพ ไม่ต้องการอินพุตเพิ่มเติมใดๆ เพื่อควบคุมการปรับแต่ง กล่าวอีกนัยหนึ่ง การแทรกแซงของมนุษย์ไม่จำเป็นต้องระบุป้ายกำกับที่จะจัดการ ดังนั้นพวกเขาจึงสามารถสรุปถึงรูปภาพที่มีหมวดหมู่ใหม่ ๆ ที่มองไม่เห็นระหว่างการฝึก ในแง่นี้ เครือข่าย LaSO สามารถใช้เพื่อท้าทายงานการจำแนกประเภท 2-3 ป้ายหลายป้าย ในกรณีเหล่านี้ เครือข่าย LaSO จะสังเคราะห์ตัวอย่างการฝึกใหม่จากคู่สุ่มของตัวอย่างการฝึกที่ให้มา ในรายงานของเรา เราใช้ความสามารถนี้ของเครือข่าย LaSO กับเกณฑ์มาตรฐานใหม่สำหรับการจำแนกประเภท 2-3 ป้ายกำกับ ซึ่งเราหวังว่าจะเป็นแรงบันดาลใจในการทำงานมากขึ้นในปัญหาที่สำคัญนี้
การจำแนกประเภท 2-3 ฉลากหลายป้ายเป็นงานใหม่ที่ท้าทายและใช้งานได้จริง เราเสนอเกณฑ์มาตรฐานแรกสำหรับงานนี้ ผลลัพธ์ของการประเมินการจัดการชุดฉลาก LaSO ด้วยโครงข่ายประสาทเทียมบนเกณฑ์มาตรฐานที่เสนอแสดงให้เห็นว่า LaSO มีศักยภาพที่ดีสำหรับงานนี้และอาจเป็นไปได้สำหรับแอปพลิเคชันอื่นๆ ที่น่าสนใจ เราหวังว่างานนี้จะเป็นแรงบันดาลใจให้นักวิจัยพิจารณาปัญหาที่น่าสนใจนี้มากขึ้น
โครงข่ายประสาทเทียมระดับลึกได้แสดงให้เห็นความสำเร็จอย่างน่าทึ่งในงานวิชันซิสเต็มจำนวนมาก แต่วิธีการในปัจจุบันมักอาศัยข้อมูลการฝึกที่มีป้ายกำกับจำนวนมากเพื่อให้ได้ประสิทธิภาพสูง การรวบรวมและการทำหมายเหตุประกอบชุดข้อมูลการฝึกอบรมขนาดใหญ่นั้นมีค่าใช้จ่ายสูง ใช้เวลานาน และสำหรับงานบางอย่างที่มีตัวอย่างเพียงไม่กี่หรือไม่มีเลย อาจเป็นไปไม่ได้
เทคนิคทั่วไปในการแก้ไขปัญหาของการเรียนรู้ภาพกับข้อมูลที่มีข้อความ จำกัด คือการเรียนรู้การถ่ายโอน เมื่อพิจารณาจากแบบจำลองหรือตัวแยกประเภทที่มีอยู่ซึ่งได้รับการฝึกอบรมเกี่ยวกับ “งานต้นทาง” วิธีทั่วไปในการดำเนินการเรียนรู้แบบโอนย้ายคือการปรับแต่งโมเดลนี้อย่างละเอียดเพื่อปรับให้เข้ากับ “งานเป้าหมาย” ใหม่ วิธีการที่มีอยู่ส่วนใหญ่จะเป็นแบบเฉพาะกิจในแง่ของการตัดสินใจว่าจะปรับแต่งตำแหน่งใดในโครงข่ายประสาทเทียมระดับลึก กลยุทธ์ทั่วไปคือการปรับแต่งเลเยอร์สองสามเลเยอร์สุดท้ายของโมเดล ในขณะที่ทำให้เลเยอร์อื่นๆ หยุดนิ่ง อย่างไรก็ตาม การตัดสินใจเลือกว่าจะหยุดหรือปรับแต่งเลเยอร์ใดยังคงเป็นทางเลือกในการออกแบบด้วยตนเอง ซึ่งอาจไม่มีประสิทธิภาพในการปรับให้เหมาะสม โดยเฉพาะสำหรับเครือข่ายที่มีเลเยอร์เป็นร้อยหรือหลายพันเลเยอร์

Web​ application

ทีมวิจัยของ IBM ร่วมกับ University of California, San Diego และ University of Texas at Austin ได้สร้างวิธีการปรับแต่งแบบละเอียดแบบใหม่ที่เรียกว่าSpotTuneซึ่งจะตัดสินใจโดยอัตโนมัติว่าเลเยอร์ของโมเดลใดควรแช่แข็งหรือปรับแต่ง (ดูรูปที่ 1). วิธีการนี้ ซึ่งเผยแพร่ในการประชุมทาง Computer Vision and Pattern Recognition (CVPR 2019)มีประสิทธิภาพเหนือกว่าวิธีการปรับแต่งแบบละเอียดแบบดั้งเดิมในชุดข้อมูลมาตรฐาน 12 ชุดจาก 14 ชุด และทำคะแนนสูงสุดในการแข่งขันVisual Decathlonซึ่งเป็นเกณฑ์มาตรฐานการแข่งขันสำหรับการทดสอบ ประสิทธิภาพของอัลกอริธึมการเรียนรู้แบบหลายโดเมนพร้อมชุดข้อมูลทั้งหมด 10 ชุด เมื่อเทียบกับวิธีการที่ทันสมัยอื่นๆ
วิธีการทำงานดังนี้: ให้ภาพการฝึกอบรมจากงานเป้าหมาย เครือข่ายนโยบายขนาดเบาจะใช้ในการตัดสินใจหยุดและปรับละเอียดสำหรับแต่ละชั้นของโครงข่ายประสาทเทียมระดับลึก เนื่องจากการตัดสินใจเหล่านี้ไม่ต่อเนื่องและไม่แตกต่างกัน จึงต้องนำอัลกอริธึมการฝึกอบรมที่แตกต่างกันตามการสุ่มตัวอย่าง Gumbel Softmax เราสังเกตว่าสำหรับชุดข้อมูลต่างๆ (โดเมนที่ต่างกัน) ชุดของเลเยอร์ต่างๆ จะถูกเลือกเพื่อปรับแต่งหรือหยุดนิ่ง อันที่จริง SpotTune จะระบุนโยบายการปรับแต่งที่เหมาะสมโดยอัตโนมัติสำหรับแต่ละชุดข้อมูล สำหรับตัวอย่างการฝึกแต่ละรายการ
เมื่อเราเปลี่ยนจาก AI แบบแคบ ซึ่งวิธีการทำงานบนโดเมนเฉพาะและต้องการข้อมูลที่มีป้ายกำกับจำนวนมาก ไปจนถึง AI แบบกว้าง ซึ่งระบบแสดงพฤติกรรมที่ชาญฉลาดในงานต่างๆ ที่หลากหลาย นโยบายการปรับแต่งที่จัดหาให้โดย SpotTune เป็นสิ่งสำคัญในการปรับโมเดลให้เข้ากับ โดเมนที่มีตัวอย่างที่มีป้ายกำกับเพียงไม่กี่ตัวอย่างเท่านั้น เป็นกรณีนี้สำหรับแอปพลิเคชันระดับองค์กรจำนวนมาก รวมถึงการจดจำภาพสำหรับการประเมินความเสียหายในอุตสาหกรรมประกันภัย การรับรู้การกระทำของผู้เล่นในกีฬาสำหรับสื่อและความบันเทิง การวินิจฉัยโรคในด้านการแพทย์ และอื่นๆ อีกมากมาย
สำหรับรายละเอียดเพิ่มเติมเกี่ยวกับ SpotTune โปรดดูกระดาษ CVPR 2019 ของเราซึ่งเขียนโดย Yunhui Guo, Honghui Shi, Abhishek Kumar, Kristen Grauman, Tajana Rosing และ Rogerio Feris
ปัจจุบันโครงข่ายประสาทเทียมแบบ Deep Convolutional (CNN) เป็นเครื่องมือที่เหมาะสำหรับงานวิทัศน์คอมพิวเตอร์จำนวนมาก รวมถึงการจำแนกภาพและการตรวจจับวัตถุ อย่างไรก็ตาม CNNs เป็นที่ต้องการของข้อมูลอย่างมาก และอาจต้องการตัวอย่างการฝึกอบรมหลายพันรายการต่อหมวดหมู่ อย่างไรก็ตาม ในการใช้งานจริงหลายอย่าง การรวบรวมตัวอย่างการฝึกอบรมมากกว่าสองสามตัวอย่างต่อหมวดหมู่นั้นเป็นไปไม่ได้ การเรียนรู้แบบไม่กี่ช็อตมีจุดมุ่งหมายเพื่อให้เกิดการเรียนรู้ที่มีประสิทธิภาพในการตั้งค่าที่จำกัดข้อมูลเหล่านี้ โดยปกติ การเรียนรู้แบบไม่กี่ช็อตจะขึ้นอยู่กับการฝึกล่วงหน้าจากโมเดลพื้นฐานที่เรียนรู้ล่วงหน้าจากชุดข้อมูลขนาดใหญ่

Robot Auto process

การศึกษาล่าสุดประสบความสำเร็จอย่างมากในการใช้ CNN สำหรับการเรียนรู้แบบไม่กี่ช็อต สิ่งนี้ได้แสดงให้เห็นสำหรับงานเฉพาะโดเมน1,2แต่มีงานเพียงไม่กี่ชิ้นที่ตรวจสอบปัญหาของการตรวจจับวัตถุไม่กี่ช็อต ซึ่งงานในการจำแนกอินสแตนซ์ของหมวดหมู่ซึ่งแสดงโดยตัวอย่างบางส่วนนั้นซับซ้อนโดยการมีอยู่ของ พื้นหลังของภาพ (แน่นอนว่าไม่มีใครสังเกตเห็นระหว่างการฝึกในกรณีถ่ายแบบไม่กี่ช็อต) และความจำเป็นในการจัดตำแหน่งวัตถุให้แม่นยำ