BddDataSource class

The BddDataSource class represents the data source of a data set.

to_spark()

The to_spark() method creates a Spark DataFrame containing the data of this data source.

Example:

>>> claims_ds = dss.dataset('default_edp_e35f9cbe-96c7-4183-8485-71459b8bd620')
>>> claims_ds.to_spark()
16/03/31 16:49:21 INFO HiveContext: Initializing execution hive, version 1.2.1
16/03/31 16:49:21 INFO ClientWrapper: Inspected Hadoop version: 2.6.0
...
16/03/31 16:49:41 INFO ParseDriver: Parse Completed
DataFrame[vin: string, production_country: string, production_region: string, 
make: string, manufacturer: string, model: string, model_year: bigint, 
claim_date: string, dealer_geocode: string, vehicle_dealer: string, 
dealer_state: string, dealer_city: string, labor_description: string, 
commodity: string, complaint: string, part_number: string, sale_date: string, 
supplier_country: string, supplier: string, supplier_state: string, 
labor_amount: double, part_amount: double, claim_amount: double, PRIMARY_KEY: string]