Maschine übetrifft erstmals Mensch im Verstehen von Bildmaterial

Zum ersten Mal hat eine Maschine Vorteile gegenüber dem Menschen im Verstehen von Bildern für die Beantwortung von Textfragen. Alibaba Cloud sichert sich den ersten Platz in der jüngsten globalen VQA-Rangliste (Visual Question Answering) und übertrifft damit die Leistung eines Menschen im gleichen Kontext.

Hangzhou, 19.08.2021 /

Alibaba sichert sich den ersten Platz in der jüngsten globalen VQA-Rangliste (Visual Question Answering) und übertrifft damit die Leistung eines Menschen im gleichen Kontext. Es ist das erste Mal, dass eine Maschine Vorteile gegenüber dem Menschen im Verstehen von Bildern für die Beantwortung von Textfragen hat. Der Alibaba-Algorithmus erzielt eine Trefferquote von 81,26 Prozent bei der Beantwortung von Fragen zu Bildern, verglichen mit der Leistung des Menschen von 80,83 Prozent (im Teststandardteil).

 

Der Wettbewerb, der seit 2015 jährlich von der weltweit führenden visuellen Konferenz CVPR organisiert wird, zieht globale Akteure wie Facebook, Microsoft und die Stanford University an. Bei der Bewertung werden ein Bild und eine dazugehörige Frage in natürlicher Sprache präsentiert, auf die Teilnehmer eine präzise Antwort in natürlicher Sprache geben sollen. In diesem Jahr umfasste der Wettbewerb mehr als 250.000 Bilder und 1,1 Millionen Fragen.

 

Der Durchbruch der maschinellen Intelligenz bei der Beantwortung bildbezogener Fragen wurde dank des innovativen Algorithmusdesigns der Alibaba DAMO Academy, der globalen Forschungs- und Entwicklungsinitiative der Alibaba Group, möglich gemacht. Durch den Einsatz der firmeneigenen Technologien – einschließlich verschiedener visueller Darstellungen, multimodaler vortrainierter Sprachmodelle, adaptiver crossmodaler semantischer Fusion und Alignment-Technologie – konnte das Alibaba-Team nicht nur erhebliche Fortschritte bei der Analyse der Bilder und dem Verständnis der Frageintention erzielen, sondern auch bei der Beantwortung der Fragen mit einer angemessenen Argumentation, die sich in einem authentischen Gesprächsstil ausdrückt.

 

Die VQA-Technologie wurde bereits in großem Umfang im gesamten Ökosystem von Alibaba eingesetzt. So wurde sie beispielsweise in Alibabas intelligentem Chatbot AlimeShop Assistant implementiert, der von zehntausenden Händlern auf Alibabas Einzelhandelsplattformen genutzt wird.

 

„Wir sind stolz darauf, dass wir einen weiteren bedeutenden Meilenstein im Bereich der maschinellen Intelligenz erreicht haben. Das unterstreicht unsere kontinuierlichen Bemühungen, die Forschung und Entwicklung in KI-Bereichen voranzutreiben“, so Si Luo, Head of Natural Language Processing (NLP) bei der Alibaba DAMO Academy. „Das bedeutet nicht, dass Menschen eines Tages durch Roboter ersetzt werden. Vielmehr sind wir zuversichtlich, dass intelligentere Maschinen unseren Arbeits- und Lebensalltag unterstützen können, so dass sich die Menschen auf die kreativen Aufgaben konzentrieren können, die sie am besten können.“

 

VQA kann in einer Vielzahl von Bereichen eingesetzt werden, fügt Si Luo hinzu. So kann es beispielsweise bei der Suche nach Produkten auf E-Commerce-Websites, zur Unterstützung der Analyse medizinischer Bilder für die Erstdiagnose von Krankheiten sowie beim intelligenten Fahren eingesetzt werden, da der KI-Assistent grundlegende Analysen von Fotos, die von der Fahrzeugkamera aufgenommen wurden, anbieten kann.

Es ist nicht das erste Mal, dass das maschinelle Lernmodell von Alibaba überzeugt hat. Das Modell führt auch die GLUE-Benchmark-Rangliste an, eine Bestenliste, die in der Branche als wichtigster Basistest für NLP-Modelle gilt. Dabei wurden die Werte von Menschen deutlich übertroffen, was einen wichtigen Meilenstein in der Entwicklung von robusten Systemen zum Verstehen natürlicher Sprache markierte.

Im Jahr 2019 übertraf das Modell von Alibaba menschliche Ergebnisse, als es mit dem Microsoft Machine Reading Comprehension Dataset geprüft wurde, einem der anspruchsvollsten Tests für das Leseverständnis in der Welt der künstlichen Intelligenz. Das Modell erzielte bei der Frage-Antwort-Aufgabe von MS Marco eine Punktzahl von 0,54 und übertraf damit die von Microsoft angegebene menschliche Punktzahl von 0,539. Im Jahr 2018 erzielte Alibaba auch im Stanford Question Answering Dataset – ebenfalls eine der weltweit bekanntesten Aufgaben für maschinelles Leseverständnis – eine höhere Punktzahl als die menschliche Benchmark.

Jetzt teilen:

Über Alibaba Cloud

Alibaba Cloud (www.alibabacloud.com), der 2009 gegründete Cloud-Computing-Geschäftszweig der Alibaba Group, ist Gartner zufolge unter den drei größten IaaS-Anbietern weltweit, und laut IDC der größte Anbieter von Public-Cloud-Services in China. Alibaba Cloud bietet ein umfangreiches Portfolio an Cloud-Diensten für Unternehmen weltweit, darunter Händler, die auf den Plattformen der Alibaba Group aktiv sind, Start-ups, Unternehmen und Regierungsorganisationen. Alibaba Cloud ist der offizielle Cloud-Services-Partner des Internationalen Olympischen Komitees.

Alibaba Cloud auf:

Pressekontakt Alibaba Cloud

Luica Mak
Director Corporate Communications, Alibaba Cloud EMEA
luica@alibaba-inc.com
+44 790 547 1332

Kontakt PR-Agentur

Schwartz Public Relations
Sendlinger Straße 42A
D-80331 München

Team Alibaba Cloud
E-Mail: alibabacloud@schwartzpr.de

Julia Rauch
Tel.: +49 (0) 89 211 871-43
E-Mail: jbr@schwartzpr.de

Nicolai Droll
Tel.: +49 (0) 89 211 871-59
E-Mail: nd@schwartzpr.de

Verena Pretzsch
Tel.: +49 (0) 89 211 871 51
E-Mail: vp@schwartzpr.de

Downloads

Klicken Sie auf ein Bild, um eine große Version des Bildes anzuzeigen (und dann Download per Rechtsklick).

Alibaba Cloud

    Weitere Beiträge
    des Kunden