Als wir das letzte Mal in unseremenglischsprachigen博客über die product kategorisierung sprachen, wurde Shopify von über 100万Händler:innen genutzt。Seitdem snind wir weiter gewachsen and bedienen heute百万富翁冯Händler: inen, die Milliarden von Produkten in einer Vielzahl von Branchen verkaufen。安格希茨柴斯的Zustroms neuer Händler:innen haben wir beschlossen, unser bestehendes Modell für die product duktkategorisierung neu zu bewerten。
在diesem Beitrag erläutern wir, wie wir unser Produktkategorisierungsmodell weiterentwickelt und modernisiert haben, um die Genauigkeit um 8% zu erhöhen und gleichzeeitig unsere Abdeckung zu verdoppeln。Wir wollen die Herausforderungen der Lösung dieses die technical Problems, die Wir auf dem Weg dorthin eingegangen sind, näher beleuchten。Zum schluswerden wir in Produkt beschreiben, das derzeit von mehren internen unseremPartner-Okosystem我很奇怪,我很奇怪。
是什么意思?是什么意思?
Teste Shopify 14 Tage lang kostenlos and verkaufe, wo du willst!
Inhaltsverzeichnis:
- Neubewertung des Modells für die Produktkategorisierung
- 这是什么意思?
- Das上一次
- 训练模特
- 模型推论和Vorhersagen
- Metriken和Leistung
Neubewertung des模型für die Produktkategorisierung
Mit der Neubewertung unseresbestehenden Modells für die Produktkategorisierungwollen wir sicherstellen, dass wir verstehen, was unsere Händler:innen verkaufen, damit wir die besten Produkte zur Steigerung ihrer Umsätze entwickeln können。
祖diesem Zweck haben wir zwei kenzahlen von höchster Bedeutung berücksichtigt:
- 我是谁?我是谁?嗯diese Frage zu beantworten, habenwir undie Präzision, Trefferquote und die Genauigkeit des modeleschaut。死于sollte allen,死于berits Erfahrung mit Klassifizierungsmodellen für maschinelles Lernen haben, sehr vertraut sein。那是什么意思呢?那是什么意思?Diese kenzahlen werden mit einem holdout - set berechnet, um eine unverfälschte Messung zu gewährleisten。
- Wie geben wir eine Vorhersage ab?Unser bestehendes Modell filtert Vorhersagen unterhalb einer bestimmten Konfidenzschwelle heraus, um sicherzustellen, dass wir nur wirklich belastbare Vorhersagen treffen。Deshalb haben wir eine Messgröße namens“Abdeckung”的定义:das Verhältnis zwischen der Anzahl der Produkte mit erhersage and Gesamtzahl der Produkte。
Zusätzlich祖祖利斯特恩特恩特恩特恩特恩特恩特恩特恩特恩特恩,我的家乡,我的家乡,我的家乡,我的家乡,祖祖利斯特恩特恩特恩,Anwendungsfälle祖祖利斯特恩特恩特恩berücksichtigen。
静脉Beispiel:Wir möchten unseren Kund:innen Vorhersagen in Echtzeit mit geringer Latenz zur Verfügung stellen。
Nachdem wir unser Modell andhand dieser kenzahlen bewertet und die verschiedenen Datenprodukte, die wir erzeugen wollten, berücksichtigt hatten, beschlossen wir die Entwicklung eines neuen Modells, um weitere Verbesserungsmaßnahmen vorzunehmen。问题näherten,它与Winkel des bestehenden Modells有关。大足gehörten Dinge wie die ausschließliche Verwendung von Textmerkmalen für die Vorhersage sowie die Fähigkeit, nur Produkte in english Sprache zu verstehen。
kostenlose网络研讨会:在30分钟zum eigenen Onlineshop
Du willst selbst mal sehen, wie schnell Du einen Shop aufsetzen kannst?
Der Shopify-Experte und leidenschaftliche Shop-Betreiber Adrian Piegsa zeigt dir, wie du dich anmeldest, eine Domain verknüpfst, Produkte auswählst und natürlich alle rechtlichen Vorgaben umsetzt。
Jetzt kostenlos teilnehmen这是什么意思?
我想说的是,我想说的是,我想说的是,我想说的是,我想说的是。
Händler:innen verkaufen eine Vielzahl von Produkten auf unserer platform, wobei diese über verschiedene Vertriebskanäle verkauft werden。欢迎格劳本,达斯德Schlüssel zur Entwicklung der besten Produkte für unsere Händler: inen im Verständnis der von ihnen verkauften Artikel liegt。我想知道,我想知道,我想知道,我想知道,我想知道,我想知道,我想知道,我想知道,我想知道,我想知道,我想知道,我想知道,我想知道,我想知道。ob欧宝娱乐app下载地址
Lesetipp:Lerne数据科学与技术的基础kennen, mit dem unsere实习生团队,Händler:innen und合作伙伴:innen schnell gute Entscheidungen treffen können。
产品分类(GPT)。Die GPT ist eine list mit über 5.500 Kategorien, Die unbei der Organisation von Produkten helfen。我是一个伟大的人herkömmlich我是一个伟大的人,我是一个伟大的人für我是一个伟大的人。在分类系统中,它是一个复杂的结构,一个复杂的结构,一个复杂的结构,一个复杂的结构,一个复杂的结构,一个复杂的结构,一个复杂的结构,一个复杂的模型和Lösen柴油问题。
Das上一次
我想知道,我想知道,我想知道,我想知道zunächst我想知道,我想知道,Verfügung我想知道。Unten findet sich in Beispiel für die Seite zur product ktverwaltung, die du im Backend von Shopify-Händler:innen sehen kannst:
《图片报》für die product ktverwaltung im Shopify-Adminbereich。德国人,德国人,德国产品识别器können。大足gehören der Titel, die Beschreibung des Anbieters, die Sammlung der product typen, die Tags和die product ktbilder。
Lesetipp:Shopify和开源:Eine für beide Seiten nützliche Beziehung
我的名字是:heenem zwar einige Merkmale, die bei der Identifizierung des product helfen können, aber nichts在einem strukturierten格式。所以können zum Beispiel mehrere Händler:innen, die dasselbe Produkt verkaufen, unterschiedliche Werte für den Produkttyp verwenden。die die bietden Händler: inen zwar viel Flexibilität der internen组织ihres warenbeines, erschwert aber die Kategorisierung and Indexierung dieser produckte über die verschiedenen Shops hinweg。
Text-Merkmale |
|
Visuelle Merkmale |
|
“我的心会死,我的心会死,我的心会死。”
Vektorisierung der Merkmale
Wir habenmehrere vortrainierte Modelle ausprobiert, um zu bestimmen, welche Modelle für die Bild- und Texteinbettung eingesetzt werden sollten。模祖berücksichtigenden参数waren sowohl模祖。Beim Abwägen dieser beiden参数特征线auf Folgendes:
- Mehrsprachiges BERT(双向编码器表示从变压器)für文本
- MobileNet-V2 für Bilder
Lesetipp:麻省理工学院besseren产品.在diesem Blogbeitrag erhältst du 9 Tipps für有效的Beschreibungen deiner生产!
建筑模型
unstellt die Kategorisierung hierarchischer klassifizierungsproblem vor zusätzliche Herausforderungen, die über ein einfaches Mehrklassenproblem hinausgehen。Aus den bisherigen Versuchen, dieses Problem zu lösen, haben wir zwei Lehren gezogen:
- Die bebehaltung des mehrklassencharters dieses Erstellung von Vorhersagen von großem Vorteil的问题。Zum Beispiel: Auf Ebene 1 der Taxonomie gibt es 21 verschiedene Klassenbezeichnungen im Vergleich zu mehr als 500 Bezeichnungen Auf Ebene 3。
- 父节点下的子节点下的子节点。尼赫曼的《图片报》在《商店的图片报》中写道:“我的东西在哪里,我的产品在哪里”,“我的产品在哪里”,“Hundezubehör”。
也有多任务问题和多克拉森-克拉森问题公式,在unser modelell einfließen zlassen。
- 多任务:德国分类分类法分离了克拉西茨厄朗斯问题。大贝·伍德死奥斯加布·杰德埃贝·维德在达斯nächste模德尔übertragen,恩·迪沃勒塞奇für死nächste埃贝·祖特雷芬。
- Multi-Klasse: Jede Ebene in der Taxonomie enthält eine unterschiedliche Anzahl von Klassen, sodass Jede Aufgabe zu einem einzigen Mehrklassen-Klassifikationsproblem wurde。
《图片报》,《新闻报》,《新闻报》,《新闻报》,《新闻报》gewählt哈本。weiberits erwähnt, verwenden wir vortrainierte Modelle, um die unverarbeiteten Text- und Bildmerkmale einzubetten und dann die Einbettungen in mehrere versteckte Schichten zu übertragen, bevor wir eine Mehrklassen-Ausgabeschicht für die Vorhersage auf Ebene 1 haben。Die Ergebnisse dieser Schicht werden dann zusammen mit den ursprünglichen Einbettungen在Die nachfolgenden versteckten Schichten eingegegeben中,嗯Die Ergebnisse der Ebene 2 vorherzusagen。Diese Feedbackschleife setzen wir bis zur Ebene 7堡。
Einige wichtige Punkte, die es zu beachten gilt:
- 输出层,分类系统。Jede dieser输出层ist mit einer eigenen Verlustfunktion verbunden。
- Während des Vorwärtsdurchlaufs des Modells beeinflussen die übergeordneten节点die Ausgaben der untergeordneten节点。
- 贝德反向传播werden die Verluste aller sieben Ausgabeschichten gewichtet kombiniert, um einen einzigen Verlustwert zu erhalten, der zur Berechnung der Steigungswerte verwendet野生。达斯贝多伊特,达斯雷斯通根,达斯雷斯通根,达斯雷斯通,达斯雷斯通,达斯雷斯通,达斯Gewichtung,达斯höheren埃斯贝恩,比弗鲁森和达斯莫德尔,达斯雷克通,达斯雷克通,达斯können。
- Obwohl我们死Vorhersagen der父节点一个死Vorhersagen der子节点weitergeben,嗯这祖beeinflussen legen我们keine均匀Bedingungen电影节,dass死Vorhersage der子节点unbedingt静脉Unterelement der Vorhersage der vorherigen Ebene盛吵架。所以kann das Modell z. B. Ebene 2 als "Haustierbedarf" vorhersagen, auh wenn es Stufe 1 als "Kunst & Unterhaltung" vorhergesagt hat。Dies lassen wir während des训练祖,damit korrekte Vorhersagen bei Child-Nodes falsche Vorhersagen am übergeordneten Parent-Node in die richtige Richtung lenken können。Auf diesen Punkt werden wir später im Rahmen der Inferenzphase noch einmal zurückkommen。
- 在der Trainingsphase können wir Ungleichgewichte In den Klassen mithilfe von Klassengewichten ausgleichen。Unser Datensatz ist sehr unausgewgen。这是我的梦想,我的梦想,我的梦想。Durch das Hinzufügen von Klassengewichten können wir die Auswirkungen des Klassenungleichgewichts abmildern。Zudem können wir damit Fehler bei der Vorhersage von Klassen, die weniger Stichproben haben, sanktionieren und so den Mangel an Beobachtungen in diesen Klassen ausgleichen。
Lesetipp:他的发现du immer die neuestenShopify-Updates和港口anstehende und vergangene shopify -事件和聚会。
训练模特
Einer der Vorteile der Größe von Shopify ist die Verfügbarkeit großer Datensätze, um herausrenge Datenprodukte zu erstellen, die unseren Händler:innen und ihren Kund:innen zugutekommen。Für我们的产品,我们的产品,我们的产品,我们的产品。阿贝尔·达斯带来了这个世界!我的家乡,我的家乡,我的家乡äußerst。Am Ende be吸入体über 2.5亿参数。Hinzu kommt die Größe unseres Datensatzes, sodass es eine große Herausforderung ist, dieses modelell in einer angemessenen Zeit zu trainieren。Das Training dieses模型auf einem einzigen Rechner kann selbst mit GPU-Auslastung mehrere Wochen dauern。Wir must die Trainingszeit verkürzen, ohne die Leistung des Modells zu beeinträchtigen。
Zur Lösung dieses培训问题für einen Ansatz der Datenparallelisierung entschieden。所以können德国培训中心,德国培训中心和für吉德德国培训中心。在Verwendung mehrerer工人和图形处理器下的模型谷歌云平台Erstellt und trainiert。Wir habenmehrere Optimierungen vor基因组men, um sicherzustellen, dass Wir diese资源如此高效wie möglich nutzen。
Weitere Tipps和Tricks für企业家haben unsere Podcast-Gäste für dich。贺南洪控制!
模型推论和Vorhersagen
我是阿布施尼特über die模型建筑师,zwingen wir das模型,nicht, dazu, sich im Rahmen des训练加强了一个die Hierarchie zu halten。Dieser Ansatz funktioniert während des training。Doch während der Inferenzzeit können wir ein solches Verhalten nicht zulassen, da die eine zuverlässige und reibungslose Erfahrung für die Kund:innen gefährden würde。Um das Problem zu lösen, bauen wir eine zusätzliche Logik in den Inferenzschritt ein。我爱你,我爱你
- Erstellen von unbearbeiteten Vorhersagen and hand des trainierten Modells。Das Ergebnis sind sieben Felder mit Konfidenzwerten。Jedes Feld steht für eine Ebene der Taxonomie。
- Auswahl der Kategorie mit dem höchsten Konfidenzwert auf Stufe 1和Benennung dieser Kategorie als Ebene-1-Vorhersage。
- Sammlung aller unmittelbaren Ableger der Ebene-1-Vorhersage。Daraus wählen wir das Child-Element mit höchsten Vertrauenswert aus und bezeichnen es als Ebene-2-Vorhersage。
- Diesen Prozess setzen wir fort, bis wir die Vorhersage der Ebene 7 erreichen。
我们将为您提供führen我们的逻辑系统,系统,操作系统和系统,在keras - unterklassenmodel中,我们的系统,训练系统,模型。die ermöglicht undie Verwendung eines einzigen Tensorflow-Modellobjekts, das die gesamte Logik sowohl für die批量auch für die Online-Inferenz enthält。
“我的图片”,“我的老师”“我的老师”“我的老师”“我的老师”“我的老师”“我的老师”“我的老师”“我的老师”durchzuführen。
Lesetipp:在diesem Leitfaden erfährst du, wie预订funktionieren。
Metriken和Leistung
我是说,我是说,我是说,我是说,我是说,我是说,我是说,我是说,我是说,我是说。大足华美gehoren:
- Hierarchische Genauigkeit
- Hierarchische Prazision
- Hierarchische Trefferquote
- Hierarchisches F1
- Abdeckung
Zusätzlich德国的大学大学,大学,大学的大学,大学的大学,大学的大学,大学的大学,大学的大学,大学的大学,大学的大学,大学的大学,大学的大学,大学的大学,大学的大学,大学的大学Und das ist für ununund die Mission von Shopify, den Handel für allle Menschen auf der ganzen Welt besser zu machen, sehr wichtig。
嗯西赫尔祖斯特伦,dass nur die hochwertigsten Vorhersagen ausgegeben werden, legen wir unterschiedliche Schwellenwerte für die Konfidenzwerte auf verschiedenen Ebenen fest, Um Vorhersagen mit geringer Konfidenz herauszufiltern。我爱你,我爱你,我爱你,我爱你。
Ein Beispiel dafür ist in der folgenden Abbildung zu sehen:
我的家乡,我的家乡,我的家乡,我的家乡,我的家乡,我的家乡,我的家乡führt。我爱你,我爱你,我爱你。我爱你,我爱你,我爱你。
在这句话里,他是在说,他是在说,他是在说,他是在说,他是在说,他是在说。
大我的好,我的好我的好,我的好我的好können,我的好我的好。所以könnten wir zum Beispiel eine höhere hierarchische Genauigkeit auf Kosten einer geringeren Abdeckung erreichen。Das sind schwierige Entscheidungen, die wir nutreffen können, wenn wir unseren Geschäftszweck und die Prioritäten verstehen。我们können我们的祖国,我们的祖国,我们的祖国Anwendungsfällen我们的祖国Händler:我们的祖国。我的拉赫门,不为你的幸福而奋斗,为你的幸福而奋斗für Händler:你的幸福。Die kenzahlen sind sicherlich ein guter指示器für Die Leistung des Modells。我想知道,我们的工作是怎样的Qualitätssicherung我们的工作是怎样的durchgeführt。
Ein Beispiel dafür ist, wie wir die Leistung des Modells in sensiblen Kategorien wie“Religiöses und Zeremonielles”genau unter die Lupe genome men haben。auh wenn die gesamtkenzahlen gut aussehen, können sie die Leistung des Modells in kleinen Teilbereichen der Taxonomie verschleern。Und dies kann zu groen Beeinträchtigungen bei den Händler:innen führen。我们的祖国是美好的für我们的祖国是美好的,我们的祖国是美好的gewährleisten。我们将为您献上我们的祝福Einführung我的祖国,我的祖国,我的祖国。
Lesetipp:Hier haben wiir die 7 meistgestelltenFragen zu Shopify在德国帕特里克·罗森布拉特beantworten lassen。
我们有喷气机吗?
祈祷升级Vorgängermodells konnten wir sowohl die Präzision als auch die Abdeckung verbessern。Insgesamt konnten wir die Genauigkeit um acht Prozent erhöhen和gleichzeeitig die Abdeckung fast verdoppeln。所以habenwir jetzt weitaus genauere Vorhersagen für viel mehr Produkte。我们的模型是怎样的zuverlässiges产品是怎样的,我们的产品是怎样的Händler:我们的产品是怎样的。格劳本线,达斯线诺赫weiter optimieren können。Zu den Verbesserungsbereichen gehören:
- Qualität der Daten:我是这样的,我是这样的,我是这样的,我是这样的。Wir können die Unausgewogenheit des Datensatzes mit einer Reihe bekannter Techniken wie klassenggewichtung and over/ Undersampling angehen。格莱希·泽蒂格信德·耶多克·德·美侬,达斯·维尔在贝雷钦,在德·维尔·德·泽特尼特肯特·达滕·哈本,新·达滕·庞克特·埃尔赫本·索林滕。我的家乡沃赫斯特姆·冯·Shopify·斯特伦·威尔斯特,达斯特·冯·昂瑟伦Händler:innen verkauften Produkte von Tag zu Tag vielfältiger werden。德国分类分类系统的分类分类和分类分类müssen。
- Funktionen auf Händlerebene我的上帝,我的上帝,我的上帝。这是一种被冒犯的东西,是一种神圣的东西,是一种神圣的东西,是一种神圣的东西gehören,是一种神圣的东西Händlerebene übertragen是一种神圣的东西können。Ein einfaches Beispiel dafür ist Ein hypothetischer Händler namens“Acme Shoe Warehouse”。Es ist klar, dass der Name dieses Shops stark darauf hindeutet, was das in diesem Shop verkaufte Produkt sein könnte。
是什么意思?是什么意思?
Teste Shopify 14 Tage lang kostenlos and verkaufe, wo du willst!
Häufig gestellte Fragen zu rich image - und Textdaten zur product ktkategorisierung
是什么意思?
ist besser am neuen Produktkategorisierungsmodell von Shopify?
我的新产品,我的新产品,我的新产品
Über den Autor:Kshetrajna Raghavan数据科学家和商业算法团队。Er liebt es, komplexe problem me zu lösen und maschinelles Lernen in großem Maßstab einzusetzen。在旧金山湾区的海顿太太和海顿。Verbinde dich mit Kshetrajna auf LinkedIn,嗯zu chatten。
迪斯勒·阿蒂克尔·冯·厄希恩ursprünglich imShopify.com-博客和wurde übersetzt。
Wenn du dich für die Lösung komplexer问题在großem Maßstab begeisterst und gerne mehr lernen möchtest, stellen wir immer wieder neue Mitarbeiter:innen ein!Melde dich bei unoderbewirb dich auf unserer Karriereseite.