Custom Operators in RapidMiner

(English)

Bei der RapidMiner-Wisdom-Konferenz im Februar 2020 wurde eine revolutionäre neue Erweiterung vorgestellt: Custom Operators. Mit Hilfe dieser Extension, die bereits im Marketplace verfügbar ist, können RapidMiner-Prozesse in Operatoren umgewandelt werden, die man dann zu Erweiterungen zusammenfassen kann.

Als langjähriger RapidMiner-Benutzer habe ich viele wiederverwendbare Prozesse erstellt und auch hier vorgestellt. Es war nur bisher nicht so leicht, diese Ergebnisse mit anderen zu teilen und vor allem im RapidMiner-Ökosystem sichtbar zu machen. Mit Hilfe der neuen Erweiterung ist genau das möglich: die erstellten Erweiterungen sind für die Aufnahme ins RapidMiner Marketplace geeignet, und sind bereits dort verfügbar.

Die Erweiterungen sind:

  • Database Envy: Aktuell zwei Operatoren, die hilfreiche Funktionalität aus SQL-Datenbanken nachbilden: Window Functions und Expression-based Join. Beides habe ich früher bereits im Blog vorgestellt, jetzt sind sie leicht in RapidMiner Studio installierbar und benutzbar.
  • GeoProcessing: Diese Erweiterung basiert auf meiner Blog-Serie zu GIS in RapidMiner. Derzeit 8 Operatoren decken viele Aufgaben im Bereich GIS-Verarbeitung ab. Die bisher aufwändige Installation der GeoScript-Bibliotheken entfällt, da diese in der Erweiterung bereits enthalten sind. RapidMiner-Prozesse können damit Daten aus Shapefiles lesen, Koordinatensysteme projizieren, Kennzahlen wie Ausdehnung, Distanz und Fläche berechnen, Geometrien transformieren und vieles mehr.
  • JSON Processing with jq: Auch dieses Thema habe ich bereits vorgestellt. Mit Hilfe von jq-Ausdrücken können RapidMiner-Prozesse jetzt komplexe Umformungen an JSON-Dokumenten durchführen, oder Teile von ihnen extrahieren. Das ermöglicht die Verarbeitung der Ausgabe mancher Web-APIs, die mit den bisherigen Mitteln in RapidMiner nicht oder nur sehr schwer zu verarbeiten waren.

Detailinformationen zu den Erweiterungen und ihrem Status sind auf der Extension-Homepage zu lesen.

Ich erwarte viele neue spannende Erweiterungen im Marketplace in naher Zukunft, da jetzt ganz neue Gruppen (Data Scientists, die mit RapidMiner arbeiten, aber nicht programmieren) sie entwickeln und publizieren können.

Custom Operators in RapidMiner

A revolutionary new extension called Custom Operators was presented at the RapidMiner Wisdom Conference in February 2020. This extension (already available in the Marketplace) creates new operators from RapidMiner processes and can bundle them to proper extensions.

In my years of using RapidMiner I created many reusable processes, and often presented them here. However, until now, it wasn’t easy to share these results with others and make them visible in the RapidMiner ecosystem. This is now possible: the newly created extensions can be published in the RapidMiner Marketplace, and they are already available.

The initial set of extensions is:

  • Database Envy: Two operators with functionality similar to SQL databases: Window Functions and Expression-based Join. I published both earlier in my blog; now they are available for installation inside RapidMiner Studio.
  • GeoProcessing: Based on my blog series GIS in RapidMiner. 8 operators solve many tasks in geometry and geography processing. The complex installation of GeoScript libraries is not necessary anymore, as these are bundled with the extension. RapidMiner processes can import data from Shapefiles, reproject coordinate reference systems, calculate measures like area and distance, transform geometries and a lot more.
  • JSON Processing with jq: This is also a topic I wrote about before. RapidMiner processes can now use jq expressions to transform JSON documents or extract parts. This enables the processing of some Web APIs that were hard or impossible to use with RapidMiner before.

The extension homepage contains more details about each module.

I expect many interesting extensions to appear in the Marketplace soon, now that data scientists can develop and publish them so easily.

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert.