Alibaba sichert sich den ersten Platz in der jüngsten globalen VQA-Rangliste (Visual Question Answering) und übertrifft damit die Leistung eines Menschen im gleichen Kontext. Es ist das erste Mal, dass eine Maschine Vorteile gegenüber dem Menschen im Verstehen von Bildern für die Beantwortung von Textfragen hat. Der Alibaba-Algorithmus erzielt eine Trefferquote von 81,26 Prozent bei der Beantwortung von Fragen zu Bildern, verglichen mit der Leistung des Menschen von 80,83 Prozent (im Teststandardteil).
Der Wettbewerb, der seit 2015 jährlich von der weltweit führenden visuellen Konferenz CVPR organisiert wird, zieht globale Akteure wie Facebook, Microsoft und die Stanford University an. Bei der Bewertung werden ein Bild und eine dazugehörige Frage in natürlicher Sprache präsentiert, auf die Teilnehmer eine präzise Antwort in natürlicher Sprache geben sollen. In diesem Jahr umfasste der Wettbewerb mehr als 250.000 Bilder und 1,1 Millionen Fragen.
Der Durchbruch der maschinellen Intelligenz bei der Beantwortung bildbezogener Fragen wurde dank des innovativen Algorithmusdesigns der Alibaba DAMO Academy, der globalen Forschungs- und Entwicklungsinitiative der Alibaba Group, möglich gemacht. Durch den Einsatz der firmeneigenen Technologien – einschließlich verschiedener visueller Darstellungen, multimodaler vortrainierter Sprachmodelle, adaptiver crossmodaler semantischer Fusion und Alignment-Technologie – konnte das Alibaba-Team nicht nur erhebliche Fortschritte bei der Analyse der Bilder und dem Verständnis der Frageintention erzielen, sondern auch bei der Beantwortung der Fragen mit einer angemessenen Argumentation, die sich in einem authentischen Gesprächsstil ausdrückt.
Die VQA-Technologie wurde bereits in großem Umfang im gesamten Ökosystem von Alibaba eingesetzt. So wurde sie beispielsweise in Alibabas intelligentem Chatbot AlimeShop Assistant implementiert, der von zehntausenden Händlern auf Alibabas Einzelhandelsplattformen genutzt wird.
„Wir sind stolz darauf, dass wir einen weiteren bedeutenden Meilenstein im Bereich der maschinellen Intelligenz erreicht haben. Das unterstreicht unsere kontinuierlichen Bemühungen, die Forschung und Entwicklung in KI-Bereichen voranzutreiben“, so Si Luo, Head of Natural Language Processing (NLP) bei der Alibaba DAMO Academy. „Das bedeutet nicht, dass Menschen eines Tages durch Roboter ersetzt werden. Vielmehr sind wir zuversichtlich, dass intelligentere Maschinen unseren Arbeits- und Lebensalltag unterstützen können, so dass sich die Menschen auf die kreativen Aufgaben konzentrieren können, die sie am besten können.“
VQA kann in einer Vielzahl von Bereichen eingesetzt werden, fügt Si Luo hinzu. So kann es beispielsweise bei der Suche nach Produkten auf E-Commerce-Websites, zur Unterstützung der Analyse medizinischer Bilder für die Erstdiagnose von Krankheiten sowie beim intelligenten Fahren eingesetzt werden, da der KI-Assistent grundlegende Analysen von Fotos, die von der Fahrzeugkamera aufgenommen wurden, anbieten kann.
Es ist nicht das erste Mal, dass das maschinelle Lernmodell von Alibaba überzeugt hat. Das Modell führt auch die GLUE-Benchmark-Rangliste an, eine Bestenliste, die in der Branche als wichtigster Basistest für NLP-Modelle gilt. Dabei wurden die Werte von Menschen deutlich übertroffen, was einen wichtigen Meilenstein in der Entwicklung von robusten Systemen zum Verstehen natürlicher Sprache markierte.
Im Jahr 2019 übertraf das Modell von Alibaba menschliche Ergebnisse, als es mit dem Microsoft Machine Reading Comprehension Dataset geprüft wurde, einem der anspruchsvollsten Tests für das Leseverständnis in der Welt der künstlichen Intelligenz. Das Modell erzielte bei der Frage-Antwort-Aufgabe von MS Marco eine Punktzahl von 0,54 und übertraf damit die von Microsoft angegebene menschliche Punktzahl von 0,539. Im Jahr 2018 erzielte Alibaba auch im Stanford Question Answering Dataset – ebenfalls eine der weltweit bekanntesten Aufgaben für maschinelles Leseverständnis – eine höhere Punktzahl als die menschliche Benchmark.